통합 손실 함수 — 한 번에 두 출력 학습

통합 네트워크는 손실 함수도 합쳐서 학습.

📖 AlphaGo Zero 손실 함수

L = (v − z)² − π^T log(p) + c‖θ‖²

세 항:

(v − z)²: Value MSE (예측 v vs 실제 결과 z)
−π^T log(p): Policy Cross Entropy (예측 p vs MCTS 정답 π)
c‖θ‖²: L2 정규화 (가중치 작게 유지, 과적합 방지)

🎯 두 손실이 한 가중치 갱신

한 학습 단계에서:

Forward: 보드 → 공통 본체 → 두 head → (p, v)
두 손실 합산 → L
역전파 → 공통 본체 + 두 head 모두 그래디언트
한 번의 가중치 갱신으로 두 가지 다 학습

핵심: 공통 본체가 두 손실 모두에 도움이 되는 표현을 학습.

💡 학습 데이터의 출처

한 보드 상태 s에 대한 학습 데이터:

π: MCTS 800 시뮬레이션의 visits 분포
z: 그 보드에서 시작된 게임의 최종 결과 (-1, +1)

둘 다 자가 대국 게임 중에 자연스럽게 생성. 외부 데이터 0.

📊 학습 설정 (논문)

옵티마이저: SGD with momentum (0.9)
learning rate: 0.02 (점차 감소)
배치 크기: 2,048
L2 정규화: c = 1e-4
매 1000 학습 단계마다 평가 — 새 모델 vs 이전 최강 모델
새 모델 승률 55%+면 채택 → 다음 사이클 시작점

← 이전 잔차 블록 (Residual Blocks) — 더 깊은 신경망 다음 → MCTS visits = Policy 정답 — 핵심 통찰