챕터 3 정리
📌 챕터 3에서 배운 것
- Value Network — 보드 → 승률 (-1~+1)
- 학습 데이터: 3000만 자가 대국, 게임당 한 상태 (overfitting 방지)
- 학습 정확도 77% (rollout 1000번 평균 67%보다 정확)
- 한 forward pass = rollout 1500번 = 1500배 빠름
- 알파고는 Value + Rollout 혼합 (λ = 0.5)
- ELO 기여 +360 — 알파고에서 가장 큰 단일 기여
🏆 알파고의 세 신경망 완성
이제 모든 신경망 부품:
- SL Policy — "사람 흉내", 다음 수 분포
- RL Policy — "이기기", 더 강한 다음 수 분포
- Value — "이 상태 누가 이기나"
+ Fast Rollout Policy (작은 형제). 다 합쳐 4개 학습 모델.
➡️ 다음 챕터에서는
MCTS + 신경망 = PUCT. 세 신경망을 MCTS에 통합. UCB1 공식이 PUCT로 진화.
이게 알파고의 진짜 통합. 7x7 미니 알파고 코드 (Ch 6)의 기반.