코드: 작은 Value Network
이 출력은 의미 없는 값들 — 학습 전이라 모든 보드 V가 0 근처. 무작위 초기화 가중치 때문.
⚠️ 흥미로운 부분 — 모든 V가 0.02~0.04 사이
모든 보드의 V가 거의 비슷한 작은 양수. 무작위 가중치라 보드 모양 차이를 변별 못함. 흑 우세든 백 우세든 신경망은 똑같이 보임.
학습 후에는 각 보드의 V가 명백히 달라짐 — 흑 우세는 +0.8 같은 값, 백 우세는 -0.7 같은 값. 학습이 곧 "지식".
💡 진짜 학습은 어떻게
여기서는 무작위 가중치로 forward pass만 실행. 진짜 학습은:
- 수십만 게임 데이터 준비 (각 상태에 결과 라벨)
- 모든 (state, V_true) 쌍으로 MSE 손실 최소화
- 역전파로 가중치 갱신 (수시간 ~ 수일 GPU 계산)
- 학습된 가중치로 forward pass → 의미 있는 V 출력
알파고는 3천만 보드 상태(약 30만 자가 대국에서)로 학습. 강한 GPU 클러스터에서 며칠 소요.
📊 학습된 Value Network의 정확도
알파고 논문(2016) Table 1:
- 학습된 Value Network: 게임 결과 예측 정확도 약 77%
- 같은 보드에 1000번 rollout 평균: 정확도 약 60%
- Value Network가 rollout보다 정확 + 1000배 빠름
이게 MCTS Simulate를 대체하는 강력한 이유.
PYTHON