시즌 1 · 알파고편 / PART 3 · PART 3 · 무작위의 힘: MCTS / Ch 1 · 몬테카를로 시뮬레이션 (rollout)

챕터 1 정리

📌 챕터 1에서 배운 것

  • Rollout / Playout — 어떤 상태에서 양쪽이 무작위로 끝까지 두기
  • Pure Monte Carlo — 첫 수마다 rollout 1000번 → 승률 측정
  • 코드 검증 — 틱택토에서 가운데가 68% 승률로 최고 (사람 직관과 일치)
  • 평가 함수 없이 게임 규칙만으로도 좋은 수를 찾을 수 있음
  • 한계 1: 시간 배분 비효율 — 모든 수에 균등 시뮬레이션
  • 한계 2: 깊이 못 봄 — 첫 수 외에는 모두 무작위
🤔 핵심 통찰

1993년 사람들은 "무작위가 어떻게 똑똑할 수 있나"라고 의심했어. 그런데 통계 법칙이 직관보다 강해. 충분한 샘플을 모으면 진짜 좋은 자리가 떠오름.

다만 시간이 한정된 실전에서는 "어디에 더 많은 샘플을 집중할 것인가"가 핵심 문제. 이게 다음 챕터의 출발점.

➡️ 다음 챕터에서는

UCB1 (Upper Confidence Bound). 한정된 시간에 N개 자리에 어떻게 샘플을 배분할지 결정하는 천재적 공식. 1985년 통계학에서 나왔고, 2006년 컴퓨터 바둑에 적용되어 폭발적 도약을 일으킴.

다중-슬롯머신 문제로 직관을 잡고, 한 줄 공식으로 답을 구함.