시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 2 · policy + value 합치기

통합 손실 함수 — 한 번에 두 출력 학습

통합 네트워크는 손실 함수도 합쳐서 학습.

📖 AlphaGo Zero 손실 함수
L = (v − z)² − π^T log(p) + c‖θ‖²

세 항:

  • (v − z)²: Value MSE (예측 v vs 실제 결과 z)
  • −π^T log(p): Policy Cross Entropy (예측 p vs MCTS 정답 π)
  • c‖θ‖²: L2 정규화 (가중치 작게 유지, 과적합 방지)
🎯 두 손실이 한 가중치 갱신

한 학습 단계에서:

  1. Forward: 보드 → 공통 본체 → 두 head → (p, v)
  2. 두 손실 합산 → L
  3. 역전파 → 공통 본체 + 두 head 모두 그래디언트
  4. 한 번의 가중치 갱신으로 두 가지 다 학습

핵심: 공통 본체가 두 손실 모두에 도움이 되는 표현을 학습.

💡 학습 데이터의 출처

한 보드 상태 s에 대한 학습 데이터:

  • π: MCTS 800 시뮬레이션의 visits 분포
  • z: 그 보드에서 시작된 게임의 최종 결과 (-1, +1)

둘 다 자가 대국 게임 중에 자연스럽게 생성. 외부 데이터 0.

📊 학습 설정 (논문)
  • 옵티마이저: SGD with momentum (0.9)
  • learning rate: 0.02 (점차 감소)
  • 배치 크기: 2,048
  • L2 정규화: c = 1e-4
  • 매 1000 학습 단계마다 평가 — 새 모델 vs 이전 최강 모델
  • 새 모델 승률 55%+면 채택 → 다음 사이클 시작점