시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 1 · SL Policy Network

챕터 1 정리

📌 챕터 1에서 배운 것

  • SL Policy Network: 16만 사람 게임으로 지도학습
  • 입력 48 채널 (돌 색 + 활로 + 사다리 + 도메인 지식)
  • 13층 CNN, 192 필터 each, 350만 가중치
  • 학습 결과: 57% 정확도, 단독 ELO 1,900 (아마추어 3단)
  • Fast Rollout: 작고 빠른 두 번째 정책망 (25% 정확도, 1500배 빠름)
  • 두 정책망의 분업: SL은 Expand, Fast는 Rollout
  • SL의 한계 — 사람 흉내 ≠ 이기는 수
🏆 우리가 이해한 것

알파고의 첫 번째 학습 단계 완료. "사람 같은 직관"을 가진 신경망 탄생.

이 정책망 단독으로도 ELO 1,900 — 2014년까지의 30년 컴퓨터 바둑보다 강한 수준. 그런데 알파고는 여기서 멈추지 않음.

➡️ 다음 챕터에서는

RL Policy Network. SL Policy를 시작점으로 자가 대국 → 이기는 수를 직접 학습.

강화학습(Reinforcement Learning)의 첫 등장. "사람 흉내"에서 "이기기"로 전환.