알파고 전체 그림

모든 부품을 한 페이지에 정리:

🎯 알파고 전체 시스템

                  ┌──────────────────────┐
   현재 보드 ─→  │   MCTS (트리 탐색)   │
                  │                      │
                  │  ┌─Select  ───→ PUCT │ ← P(s,a)는 SL Policy
                  │  │                   │
                  │  ├─Expand  ───→ SL Policy ← 새 자식의 P
                  │  │                   │
                  │  ├─Evaluate ──→ Value Net + Fast Rollout (혼합)
                  │  │                   │
                  │  └─Backup  ───→ 트리 위로 V 전파
                  │                      │
                  │  반복 50,000 ──→ visits 최대 자식 선택
                  └──────────────────────┘
                              │
                              ↓
                         최종 수

📊 학습된 모델 4개

SL Policy Network — MCTS Expand의 P(s,a). 사람 16만 게임 학습. 정확도 57%.
RL Policy Network — 사용 안 함 (P(s,a)는 SL을 씀). 하지만 Value 학습 데이터 생성에 사용.
Fast Rollout Policy — MCTS Rollout. 작은 패턴 매칭. 1500배 빠름.
Value Network — MCTS Evaluate. RL 자가 대국 3000만 데이터. 정확도 77%.

이 네 가지 + MCTS 알고리즘 = 알파고. 그게 다임.

💡 모든 부품을 PART별로 짚으면

PART 1: Board 클래스 → 게임 시뮬레이션 가능
PART 2: Minimax 한계 발견 (왜 신경망이 필요한가)
PART 3: MCTS — 알파고의 알고리즘 골격
PART 4: 신경망 부품 (Policy + Value 구현)
PART 5: 알파고 — 모두 통합

네 PART의 학습이 PART 5에서 결합. 이제 모든 게 한 그림.

다음 챕터에서 알파고 실전 — 이세돌과의 5국 시리즈, 신의 한 수 분석.

← 이전 최종 수 선택 — 가장 많이 방문된 자식 다음 → 챕터 4 정리