학습 디테일

Value Network의 학습 디테일:

📖 모델 구조

입력: 19x19x48 (Policy와 거의 동일)
13층 CNN (Policy와 거의 동일 구조)
마지막이 다름:
- Policy: Conv → 361 자리 확률
- Value: Conv → Flatten → Dense 256 → Dense 1 → tanh
출력: 한 숫자 (-1 ~ +1)

📖 학습 설정

손실: Mean Squared Error (MSE)
Loss = (V_pred - V_true)² where V_true ∈ {-1, +1}
learning rate: 0.003 시작, 점차 감소
배치 크기: 32
학습 시간: 50 GPU × 1주

📊 학습 결과 (논문 Figure 2)

측정 항목	정확도	비교
Value Network 단독	77%	기준
100번 rollout 평균	~67%	Value보다 부정확
1000번 rollout 평균	~70%	여전히 Value보다 못함
Value + 1000 rollout	~80%	최고 (혼합)

중요한 점:

Value 단독 (1 forward pass) > rollout 1000번 평균. 속도 1500배 + 정확도 ↑
그러나 Value + rollout 혼합이 둘 다 단독보다 좋음

← 이전 학습 데이터 생성 — 3,000만 보드 다음 → Value + Rollout 혼합 — 왜?