시즌 1 · 알파고편 / PART 3 · PART 3 · 무작위의 힘: MCTS / Ch 2 · UCB1 — 탐험 vs 활용

챕터 2 정리

📌 챕터 2에서 배운 것

  • 다중 슬롯머신 문제 — 한정된 시도로 최대 수익
  • 탐험 vs 활용 — 모든 의사결정의 근본 트레이드오프
  • UCB1 공식: w/n + c·√(lnN/n) — 활용 + 탐험
  • 코드 검증: UCB1이 무작위와 탐욕을 압도
  • c = √2가 이론적 최적 (실전에서는 튜닝)
  • 게임에 적용: 첫 수 선택에 UCB1 → Pure MC 개선
  • 그러나 깊이는 여전히 못 봄 — MCTS의 필요
🏆 UCB1의 역사적 의의

1985년 Lai-Robbins가 슬롯머신 문제의 이론적 하한을 증명. 2002년 Auer et al가 UCB1 공식이 그 하한에 도달함을 증명. 통계학의 멋진 결과.

2006년 Kocsis & Szepesvári가 이걸 게임 트리에 적용 — UCT (UCB applied to Trees) 알고리즘. 같은 해 MoGo가 UCT 기반 첫 강한 컴퓨터 바둑 엔진. UCB → UCT → MCTS의 흐름이 시작.

➡️ 다음 챕터에서는

MCTS의 4단계: Select → Expand → Simulate → Backup. UCB1을 게임 트리 전체에 적용해서 점진적으로 트리를 키워가. 첫 수만이 아니라 모든 깊이에 똑같은 통계 원리.

4단계를 코드로 짜고 시각화. 그 다음 챕터에서 7x7 바둑에 정면 적용해 minimax와 비교.