시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 3 · Value Network

챕터 3 정리

📌 챕터 3에서 배운 것

  • Value Network — 보드 → 승률 (-1~+1)
  • 학습 데이터: 3000만 자가 대국, 게임당 한 상태 (overfitting 방지)
  • 학습 정확도 77% (rollout 1000번 평균 67%보다 정확)
  • 한 forward pass = rollout 1500번 = 1500배 빠름
  • 알파고는 Value + Rollout 혼합 (λ = 0.5)
  • ELO 기여 +360 — 알파고에서 가장 큰 단일 기여
🏆 알파고의 세 신경망 완성

이제 모든 신경망 부품:

  1. SL Policy — "사람 흉내", 다음 수 분포
  2. RL Policy — "이기기", 더 강한 다음 수 분포
  3. Value — "이 상태 누가 이기나"

+ Fast Rollout Policy (작은 형제). 다 합쳐 4개 학습 모델.

➡️ 다음 챕터에서는

MCTS + 신경망 = PUCT. 세 신경망을 MCTS에 통합. UCB1 공식이 PUCT로 진화.

이게 알파고의 진짜 통합. 7x7 미니 알파고 코드 (Ch 6)의 기반.