챕터 1 정리
📌 챕터 1에서 배운 것
- Rollout / Playout — 어떤 상태에서 양쪽이 무작위로 끝까지 두기
- Pure Monte Carlo — 첫 수마다 rollout 1000번 → 승률 측정
- 코드 검증 — 틱택토에서 가운데가 68% 승률로 최고 (사람 직관과 일치)
- 평가 함수 없이 게임 규칙만으로도 좋은 수를 찾을 수 있음
- 한계 1: 시간 배분 비효율 — 모든 수에 균등 시뮬레이션
- 한계 2: 깊이 못 봄 — 첫 수 외에는 모두 무작위
🤔 핵심 통찰
1993년 사람들은 "무작위가 어떻게 똑똑할 수 있나"라고 의심했어. 그런데 통계 법칙이 직관보다 강해. 충분한 샘플을 모으면 진짜 좋은 자리가 떠오름.
다만 시간이 한정된 실전에서는 "어디에 더 많은 샘플을 집중할 것인가"가 핵심 문제. 이게 다음 챕터의 출발점.
➡️ 다음 챕터에서는
UCB1 (Upper Confidence Bound). 한정된 시간에 N개 자리에 어떻게 샘플을 배분할지 결정하는 천재적 공식. 1985년 통계학에서 나왔고, 2006년 컴퓨터 바둑에 적용되어 폭발적 도약을 일으킴.
다중-슬롯머신 문제로 직관을 잡고, 한 줄 공식으로 답을 구함.