Value Network — 알파고의 가장 큰 ELO 기여

이전 PART 3: rollout 한 번 = 250 무작위 수 (느림)
이후: value net forward pass 한 번 (1500배 빠름 + 더 정확)

👋 이 챕터에서 다룰 것

알파고의 세 번째 신경망 — Value Network. PART 4 Ch 4에서 개념을 봤고, 이번에는 알파고의 실제 학습 디테일.

📊 ELO 기여 — Value가 가장 큼

Value Network가 단일 부품으로 가장 큰 기여 +360. 이세돌급(3500)에 도달하게 한 결정적 부품.

📖 Value Network의 역할

한 보드 상태가 주어지면 → "이 상태에서 흑이 이길 확률은?"

출력은 -1 (백 압승) ~ +1 (흑 압승). 한 forward pass로 즉시 평가.

MCTS에서 활용:

이 챕터: