시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 4 · MCTS + 신경망 = PUCT

알파고 전체 그림

모든 부품을 한 페이지에 정리:

🎯 알파고 전체 시스템
                  ┌──────────────────────┐
   현재 보드 ─→  │   MCTS (트리 탐색)   │
                  │                      │
                  │  ┌─Select  ───→ PUCT │ ← P(s,a)는 SL Policy
                  │  │                   │
                  │  ├─Expand  ───→ SL Policy ← 새 자식의 P
                  │  │                   │
                  │  ├─Evaluate ──→ Value Net + Fast Rollout (혼합)
                  │  │                   │
                  │  └─Backup  ───→ 트리 위로 V 전파
                  │                      │
                  │  반복 50,000 ──→ visits 최대 자식 선택
                  └──────────────────────┘
                              │
                              ↓
                         최종 수
  
📊 학습된 모델 4개
  1. SL Policy Network — MCTS Expand의 P(s,a). 사람 16만 게임 학습. 정확도 57%.
  2. RL Policy Network — 사용 안 함 (P(s,a)는 SL을 씀). 하지만 Value 학습 데이터 생성에 사용.
  3. Fast Rollout Policy — MCTS Rollout. 작은 패턴 매칭. 1500배 빠름.
  4. Value Network — MCTS Evaluate. RL 자가 대국 3000만 데이터. 정확도 77%.

이 네 가지 + MCTS 알고리즘 = 알파고. 그게 다임.

💡 모든 부품을 PART별로 짚으면
  • PART 1: Board 클래스 → 게임 시뮬레이션 가능
  • PART 2: Minimax 한계 발견 (왜 신경망이 필요한가)
  • PART 3: MCTS — 알파고의 알고리즘 골격
  • PART 4: 신경망 부품 (Policy + Value 구현)
  • PART 5: 알파고 — 모두 통합

네 PART의 학습이 PART 5에서 결합. 이제 모든 게 한 그림.

다음 챕터에서 알파고 실전 — 이세돌과의 5국 시리즈, 신의 한 수 분석.