챕터 2 정리
📌 챕터 2에서 배운 것
- 다중 슬롯머신 문제 — 한정된 시도로 최대 수익
- 탐험 vs 활용 — 모든 의사결정의 근본 트레이드오프
- UCB1 공식:
w/n + c·√(lnN/n)— 활용 + 탐험 - 코드 검증: UCB1이 무작위와 탐욕을 압도
- c = √2가 이론적 최적 (실전에서는 튜닝)
- 게임에 적용: 첫 수 선택에 UCB1 → Pure MC 개선
- 그러나 깊이는 여전히 못 봄 — MCTS의 필요
🏆 UCB1의 역사적 의의
1985년 Lai-Robbins가 슬롯머신 문제의 이론적 하한을 증명. 2002년 Auer et al가 UCB1 공식이 그 하한에 도달함을 증명. 통계학의 멋진 결과.
2006년 Kocsis & Szepesvári가 이걸 게임 트리에 적용 — UCT (UCB applied to Trees) 알고리즘. 같은 해 MoGo가 UCT 기반 첫 강한 컴퓨터 바둑 엔진. UCB → UCT → MCTS의 흐름이 시작.
➡️ 다음 챕터에서는
MCTS의 4단계: Select → Expand → Simulate → Backup. UCB1을 게임 트리 전체에 적용해서 점진적으로 트리를 키워가. 첫 수만이 아니라 모든 깊이에 똑같은 통계 원리.
4단계를 코드로 짜고 시각화. 그 다음 챕터에서 7x7 바둑에 정면 적용해 minimax와 비교.