시즌 1 · 알파고편 / PART 3 · PART 3 · 무작위의 힘: MCTS / Ch 2 · UCB1 — 탐험 vs 활용

탐험 vs 활용 — 영원한 딜레마

모든 의사결정의 근본 트레이드오프:

📖 두 가지 본능
  • 활용(Exploitation) — "지금까지 최고였던 걸 또 한다." 안전, 평균값 좋음.
  • 탐험(Exploration) — "잘 모르는 새 걸 시도한다." 위험, 그러나 더 큰 보상 가능.

모든 결정은 이 둘 사이의 비중을 어떻게 둘 것인가의 문제.

실생활 예시:

  • 식당 선택: 매번 좋아하는 단골(활용) vs 새 식당 시도(탐험)
  • 채용: 검증된 사람(활용) vs 잠재력 있는 신인(탐험)
  • 투자: 안전한 채권(활용) vs 신생 기업 주식(탐험)

너무 활용만 하면 — 더 좋은 게 있어도 못 발견. 너무 탐험만 하면 — 검증된 좋은 걸 충분히 못 누림. 적절한 균형이 핵심.

⚠️ 게임 AI에서의 문제

1000번의 rollout을 어디 배분?

  • 활용만: 처음 한두 번 운 좋은 수에만 집중. 진짜 좋은 다른 수를 못 봄.
  • 탐험만 (= Pure MC): 모든 수에 균등. 좋은 수의 진짜 가치를 정밀 측정 못함.
  • 균형: 좋아 보이는 수에 더 많이, 그러나 잘 모르는 수에도 가끔. UCB1이 자동으로.

UCB1은 1985년 Lai-Robbins, 그리고 2002년 Auer et al이 정식화한 공식. 탐험과 활용의 비중을 게임 진행 따라 자동으로 조정해.