학습 디테일
Value Network의 학습 디테일:
📖 모델 구조
- 입력: 19x19x48 (Policy와 거의 동일)
- 13층 CNN (Policy와 거의 동일 구조)
- 마지막이 다름:
- Policy: Conv → 361 자리 확률
- Value: Conv → Flatten → Dense 256 → Dense 1 → tanh
- 출력: 한 숫자 (-1 ~ +1)
📖 학습 설정
- 손실: Mean Squared Error (MSE)
- Loss = (V_pred - V_true)² where V_true ∈ {-1, +1}
- learning rate: 0.003 시작, 점차 감소
- 배치 크기: 32
- 학습 시간: 50 GPU × 1주
📊 학습 결과 (논문 Figure 2)
| 측정 항목 | 정확도 | 비교 |
|---|---|---|
| Value Network 단독 | 77% | 기준 |
| 100번 rollout 평균 | ~67% | Value보다 부정확 |
| 1000번 rollout 평균 | ~70% | 여전히 Value보다 못함 |
| Value + 1000 rollout | ~80% | 최고 (혼합) |
중요한 점:
- Value 단독 (1 forward pass) > rollout 1000번 평균. 속도 1500배 + 정확도 ↑
- 그러나 Value + rollout 혼합이 둘 다 단독보다 좋음