시즌 1 · 알파고편 / PART 4 · PART 4 · 신경망 등장: 직관을 학습한다 / Ch 4 · Value Network

코드: 작은 Value Network

이 출력은 의미 없는 값들 — 학습 전이라 모든 보드 V가 0 근처. 무작위 초기화 가중치 때문.

⚠️ 흥미로운 부분 — 모든 V가 0.02~0.04 사이

모든 보드의 V가 거의 비슷한 작은 양수. 무작위 가중치라 보드 모양 차이를 변별 못함. 흑 우세든 백 우세든 신경망은 똑같이 보임.

학습 후에는 각 보드의 V가 명백히 달라짐 — 흑 우세는 +0.8 같은 값, 백 우세는 -0.7 같은 값. 학습이 곧 "지식".

💡 진짜 학습은 어떻게

여기서는 무작위 가중치로 forward pass만 실행. 진짜 학습은:

  1. 수십만 게임 데이터 준비 (각 상태에 결과 라벨)
  2. 모든 (state, V_true) 쌍으로 MSE 손실 최소화
  3. 역전파로 가중치 갱신 (수시간 ~ 수일 GPU 계산)
  4. 학습된 가중치로 forward pass → 의미 있는 V 출력

알파고는 3천만 보드 상태(약 30만 자가 대국에서)로 학습. 강한 GPU 클러스터에서 며칠 소요.

📊 학습된 Value Network의 정확도

알파고 논문(2016) Table 1:

  • 학습된 Value Network: 게임 결과 예측 정확도 약 77%
  • 같은 보드에 1000번 rollout 평균: 정확도 약 60%
  • Value Network가 rollout보다 정확 + 1000배 빠름

이게 MCTS Simulate를 대체하는 강력한 이유.

PYTHON