챕터 2 정리

🏆 UCB1의 역사적 의의

1985년 Lai-Robbins가 슬롯머신 문제의 이론적 하한을 증명. 2002년 Auer et al가 UCB1 공식이 그 하한에 도달함을 증명. 통계학의 멋진 결과.

2006년 Kocsis & Szepesvári가 이걸 게임 트리에 적용 — UCT (UCB applied to Trees) 알고리즘. 같은 해 MoGo가 UCT 기반 첫 강한 컴퓨터 바둑 엔진. UCB → UCT → MCTS의 흐름이 시작.

➡️ 다음 챕터에서는

MCTS의 4단계: Select → Expand → Simulate → Backup. UCB1을 게임 트리 전체에 적용해서 점진적으로 트리를 키워가. 첫 수만이 아니라 모든 깊이에 똑같은 통계 원리.

4단계를 코드로 짜고 시각화. 그 다음 챕터에서 7x7 바둑에 정면 적용해 minimax와 비교.