SL 학습 — 디테일

실제 SL Policy Network의 학습은 어떻게 진행됐을까?

📖 학습 데이터 준비

🎯 학습 진행 (SGD)

각 미니배치(16개 사례)마다:

전체 데이터를 한 번 도는 게 1 epoch. 알파고는 약 10 epoch까지 학습 → 57% 도달 후 수렴.

💡 학습 곡선 (논문 Figure 2)

57%에서 수렴 — 더 학습해도 안 오름. 사람의 다음 수를 "완벽 예측은 불가능". 같은 보드에서도 사람마다 다른 수를 둠.

📖 학습된 모델의 행동

학습 후 SL Policy의 빈 보드 top 5:

(3,15) 화점 - 13%
(15,3) 화점 - 13%
(15,15) 화점 - 11%
(3,3) 화점 - 11%
(10,10) 천원 - 5%

4 화점 합 48% — 사람 프로의 분포와 거의 동일. "사람 같은 직관" 학습 완료.