알파고 전체 그림
모든 부품을 한 페이지에 정리:
🎯 알파고 전체 시스템
┌──────────────────────┐
현재 보드 ─→ │ MCTS (트리 탐색) │
│ │
│ ┌─Select ───→ PUCT │ ← P(s,a)는 SL Policy
│ │ │
│ ├─Expand ───→ SL Policy ← 새 자식의 P
│ │ │
│ ├─Evaluate ──→ Value Net + Fast Rollout (혼합)
│ │ │
│ └─Backup ───→ 트리 위로 V 전파
│ │
│ 반복 50,000 ──→ visits 최대 자식 선택
└──────────────────────┘
│
↓
최종 수
📊 학습된 모델 4개
- SL Policy Network — MCTS Expand의 P(s,a). 사람 16만 게임 학습. 정확도 57%.
- RL Policy Network — 사용 안 함 (P(s,a)는 SL을 씀). 하지만 Value 학습 데이터 생성에 사용.
- Fast Rollout Policy — MCTS Rollout. 작은 패턴 매칭. 1500배 빠름.
- Value Network — MCTS Evaluate. RL 자가 대국 3000만 데이터. 정확도 77%.
이 네 가지 + MCTS 알고리즘 = 알파고. 그게 다임.
💡 모든 부품을 PART별로 짚으면
- PART 1: Board 클래스 → 게임 시뮬레이션 가능
- PART 2: Minimax 한계 발견 (왜 신경망이 필요한가)
- PART 3: MCTS — 알파고의 알고리즘 골격
- PART 4: 신경망 부품 (Policy + Value 구현)
- PART 5: 알파고 — 모두 통합
네 PART의 학습이 PART 5에서 결합. 이제 모든 게 한 그림.
다음 챕터에서 알파고 실전 — 이세돌과의 5국 시리즈, 신의 한 수 분석.