시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 4 · MCTS + 신경망 = PUCT

챕터 4 정리

📌 챕터 4에서 배운 것

  • PUCT = Q(s,a) + c·P(s,a)·√N/(1+n) — UCB1의 진화형
  • 핵심 변화: Policy network 확률 P(s,a)가 탐험에 가중치
  • "명백히 약한 자리는 시도조차 안 함" — 시간 100배 효율
  • 알파고 MCTS 4단계: Select(PUCT) → Expand(SL Policy) → Evaluate(Value+Rollout) → Backup
  • 한 iteration ≈ 7~8ms, 1수에 50,000 iteration
  • 최종 수: visits 최대 자식 (PUCT 최대 아님)
  • 4 학습 모델 통합: SL Policy + RL Policy + Fast Rollout + Value
🏆 알파고 완성

알고리즘적으로 알파고가 완전히 그려짐. 우리는:

  1. Board 클래스 (PART 1)
  2. MCTS 4단계 (PART 3)
  3. Policy + Value 신경망 (PART 4)
  4. PUCT 통합 (이번 챕터)

이 모든 부품을 7x7로 직접 만든다 — Ch 6.

➡️ 다음 챕터에서는

이세돌 4국 신의 한 수. 2016년 3월 13일, 78수. 알파고가 처음 진 게임. 한 사람이 신경망을 이긴 마지막 순간.

그 순간을 보드 분석과 함께 자세히. 알파고가 어떻게 망설였고, 이세돌이 무엇을 봤는지.