통합 손실 함수 — 한 번에 두 출력 학습
통합 네트워크는 손실 함수도 합쳐서 학습.
📖 AlphaGo Zero 손실 함수
L = (v − z)² − π^T log(p) + c‖θ‖²
세 항:
- (v − z)²: Value MSE (예측 v vs 실제 결과 z)
- −π^T log(p): Policy Cross Entropy (예측 p vs MCTS 정답 π)
- c‖θ‖²: L2 정규화 (가중치 작게 유지, 과적합 방지)
🎯 두 손실이 한 가중치 갱신
한 학습 단계에서:
- Forward: 보드 → 공통 본체 → 두 head → (p, v)
- 두 손실 합산 → L
- 역전파 → 공통 본체 + 두 head 모두 그래디언트
- 한 번의 가중치 갱신으로 두 가지 다 학습
핵심: 공통 본체가 두 손실 모두에 도움이 되는 표현을 학습.
💡 학습 데이터의 출처
한 보드 상태 s에 대한 학습 데이터:
- π: MCTS 800 시뮬레이션의 visits 분포
- z: 그 보드에서 시작된 게임의 최종 결과 (-1, +1)
둘 다 자가 대국 게임 중에 자연스럽게 생성. 외부 데이터 0.
📊 학습 설정 (논문)
- 옵티마이저: SGD with momentum (0.9)
- learning rate: 0.02 (점차 감소)
- 배치 크기: 2,048
- L2 정규화: c = 1e-4
- 매 1000 학습 단계마다 평가 — 새 모델 vs 이전 최강 모델
- 새 모델 승률 55%+면 채택 → 다음 사이클 시작점