챕터 1 정리
📌 챕터 1에서 배운 것
- AlphaGo Zero (2017) — 사람 데이터 없이 더 강함
- "Tabula Rasa" — 백지 학습의 의미
- 알파고 vs AlphaGo Zero — 4 신경망 → 1, 48 채널 → 17, SL → 자가 대국만
- 3일에 알파고 Lee 격파, 40일에 ELO 5,200
- 사람 데이터의 4가지 한계 (평균 갇힘, 편향, 탐험 부족, 전형성)
- 자가 대국 루프 — MCTS visits가 policy 정답
- 스스로 정석 재발견 + 일부 폐기 (3-3 부활)
🏆 핵심 메시지
"단순함이 강함" + "사람 데이터가 천장이었다".
이게 AlphaGo Zero의 메시지. 알고리즘 4 → 1, 데이터 16만 → 0. 그러나 더 강함.
➡️ 다음 챕터에서는
Policy + Value 신경망 통합. 알파고는 따로, AlphaGo Zero는 하나. 어떻게 합쳤고 왜 더 효율적인가.