알파고의 실제 학습

이제 알파고가 실제로 어떻게 학습했는지 자세히:

📊 알파고 SL Policy Network 학습 (논문 2016)

📈 학습 진행

학습 곡선이 너무 길어서 50 GPU 병렬 사용. 그래도 3주.

💡 학습된 SL Policy의 강력함

학습만 받은 SL Policy로 (MCTS 없이) 단독 게임을 두면:

이 직관 + MCTS 결합이 알파고. 두 가지가 합치면 ELO 3,500.

📖 학습 후 SL Policy의 행동

알파고 논문에서 학습된 SL Policy의 빈 보드 추천 top 5:

(3,15) 화점 — 13% (사람 프로의 화점 선호 학습)
(15,3) 화점 — 13%
(15,15) 화점 — 11%
(3,3) 화점 — 11%
(10,10) 천원 — 5%

네 화점에 합 48% 집중. 이게 학습된 "사람 같은 직관". 우리 7x7 시범에서 가운데 99% 집중과 같은 원리.