챕터 1 정리
📌 챕터 1에서 배운 것
- SL Policy Network: 16만 사람 게임으로 지도학습
- 입력 48 채널 (돌 색 + 활로 + 사다리 + 도메인 지식)
- 13층 CNN, 192 필터 each, 350만 가중치
- 학습 결과: 57% 정확도, 단독 ELO 1,900 (아마추어 3단)
- Fast Rollout: 작고 빠른 두 번째 정책망 (25% 정확도, 1500배 빠름)
- 두 정책망의 분업: SL은 Expand, Fast는 Rollout
- SL의 한계 — 사람 흉내 ≠ 이기는 수
🏆 우리가 이해한 것
알파고의 첫 번째 학습 단계 완료. "사람 같은 직관"을 가진 신경망 탄생.
이 정책망 단독으로도 ELO 1,900 — 2014년까지의 30년 컴퓨터 바둑보다 강한 수준. 그런데 알파고는 여기서 멈추지 않음.
➡️ 다음 챕터에서는
RL Policy Network. SL Policy를 시작점으로 자가 대국 → 이기는 수를 직접 학습.
강화학습(Reinforcement Learning)의 첫 등장. "사람 흉내"에서 "이기기"로 전환.