Stage 2: 신경망 학습

500만 데이터로 신경망 학습. 한 사이클당 1,000 학습 단계.

📖 학습 한 단계

학습 데이터에서 배치 2,048개 무작위 sampling
Forward pass: 보드 2048개 → (p, v) × 2048
손실 계산:
- Policy: −π^T log(p) 평균
- Value: (v − z)² 평균
- L2: c·‖θ‖²
- 총 손실 = 위 셋 합
역전파 → 그래디언트
SGD with momentum 가중치 갱신

🎯 학습률 스케줄

학습률을 점차 줄여 fine-tuning. 마지막엔 매우 작은 변화로 정확도 미세 조정.

💡 학습 데이터의 비밀 — 최근 50만 게임만

500만 데이터 = 25,000 게임 × 200수. 하지만 학습은 더 큰 풀에서:

📖 Data Augmentation — 8가지 대칭

바둑은 대칭이 많아 학습에 활용:

이게 알파고 Zero 학습 효율의 또 한 요소. 같은 학습 시간에 더 많은 데이터.