시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 3 · Value Network

학습 디테일

Value Network의 학습 디테일:

📖 모델 구조
  • 입력: 19x19x48 (Policy와 거의 동일)
  • 13층 CNN (Policy와 거의 동일 구조)
  • 마지막이 다름:
    • Policy: Conv → 361 자리 확률
    • Value: Conv → Flatten → Dense 256 → Dense 1 → tanh
  • 출력: 한 숫자 (-1 ~ +1)
📖 학습 설정
  • 손실: Mean Squared Error (MSE)
  • Loss = (V_pred - V_true)² where V_true ∈ {-1, +1}
  • learning rate: 0.003 시작, 점차 감소
  • 배치 크기: 32
  • 학습 시간: 50 GPU × 1주
📊 학습 결과 (논문 Figure 2)
측정 항목 정확도 비교
Value Network 단독77%기준
100번 rollout 평균~67%Value보다 부정확
1000번 rollout 평균~70%여전히 Value보다 못함
Value + 1000 rollout~80%최고 (혼합)

중요한 점:

  • Value 단독 (1 forward pass) > rollout 1000번 평균. 속도 1500배 + 정확도 ↑
  • 그러나 Value + rollout 혼합이 둘 다 단독보다 좋음