챕터 3 정리

📌 챕터 3에서 배운 것

Value Network — 보드 → 승률 (-1~+1)
학습 데이터: 3000만 자가 대국, 게임당 한 상태 (overfitting 방지)
학습 정확도 77% (rollout 1000번 평균 67%보다 정확)
한 forward pass = rollout 1500번 = 1500배 빠름
알파고는 Value + Rollout 혼합 (λ = 0.5)
ELO 기여 +360 — 알파고에서 가장 큰 단일 기여

🏆 알파고의 세 신경망 완성

이제 모든 신경망 부품:

SL Policy — "사람 흉내", 다음 수 분포
RL Policy — "이기기", 더 강한 다음 수 분포
Value — "이 상태 누가 이기나"

+ Fast Rollout Policy (작은 형제). 다 합쳐 4개 학습 모델.

➡️ 다음 챕터에서는

MCTS + 신경망 = PUCT. 세 신경망을 MCTS에 통합. UCB1 공식이 PUCT로 진화.

이게 알파고의 진짜 통합. 7x7 미니 알파고 코드 (Ch 6)의 기반.

← 이전 Value + Rollout 혼합 — 왜? 다음 → PUCT — 알파고의 핵심 알고리즘