시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 3 · Value Network

Value Network — 알파고의 가장 큰 ELO 기여

👋 이 챕터에서 다룰 것

알파고의 세 번째 신경망 — Value Network. PART 4 Ch 4에서 개념을 봤고, 이번에는 알파고의 실제 학습 디테일.

📊 ELO 기여 — Value가 가장 큼
구성 ELO 기여
Pure MCTS2,700기준
+ SL Policy3,000+300
+ RL Policy3,140+140
+ Value Network3,500+360

Value Network가 단일 부품으로 가장 큰 기여 +360. 이세돌급(3500)에 도달하게 한 결정적 부품.

📖 Value Network의 역할

한 보드 상태가 주어지면 → "이 상태에서 흑이 이길 확률은?"

출력은 -1 (백 압승) ~ +1 (흑 압승). 한 forward pass로 즉시 평가.

MCTS에서 활용:

  • 이전 PART 3: rollout 한 번 = 250 무작위 수 (느림)
  • 이후: value net forward pass 한 번 (1500배 빠름 + 더 정확)

이 챕터:

  • Value Network 학습 데이터 — RL Policy 자가 대국으로 만든 3000만 보드
  • 학습 디테일 (overfitting 문제와 해결)
  • 학습된 모델의 정확도 — 77%
  • 왜 Value + Rollout 둘 다 쓰는가