Value Network — 알파고의 가장 큰 ELO 기여
👋 이 챕터에서 다룰 것
알파고의 세 번째 신경망 — Value Network. PART 4 Ch 4에서 개념을 봤고, 이번에는 알파고의 실제 학습 디테일.
📊 ELO 기여 — Value가 가장 큼
| 구성 | ELO | 기여 |
|---|---|---|
| Pure MCTS | 2,700 | 기준 |
| + SL Policy | 3,000 | +300 |
| + RL Policy | 3,140 | +140 |
| + Value Network | 3,500 | +360 |
Value Network가 단일 부품으로 가장 큰 기여 +360. 이세돌급(3500)에 도달하게 한 결정적 부품.
📖 Value Network의 역할
한 보드 상태가 주어지면 → "이 상태에서 흑이 이길 확률은?"
출력은 -1 (백 압승) ~ +1 (흑 압승). 한 forward pass로 즉시 평가.
MCTS에서 활용:
- 이전 PART 3: rollout 한 번 = 250 무작위 수 (느림)
- 이후: value net forward pass 한 번 (1500배 빠름 + 더 정확)
이 챕터:
- Value Network 학습 데이터 — RL Policy 자가 대국으로 만든 3000만 보드
- 학습 디테일 (overfitting 문제와 해결)
- 학습된 모델의 정확도 — 77%
- 왜 Value + Rollout 둘 다 쓰는가