챕터 1 정리

📌 챕터 1에서 배운 것

AlphaGo Zero (2017) — 사람 데이터 없이 더 강함
"Tabula Rasa" — 백지 학습의 의미
알파고 vs AlphaGo Zero — 4 신경망 → 1, 48 채널 → 17, SL → 자가 대국만
3일에 알파고 Lee 격파, 40일에 ELO 5,200
사람 데이터의 4가지 한계 (평균 갇힘, 편향, 탐험 부족, 전형성)
자가 대국 루프 — MCTS visits가 policy 정답
스스로 정석 재발견 + 일부 폐기 (3-3 부활)

🏆 핵심 메시지

"단순함이 강함" + "사람 데이터가 천장이었다".

이게 AlphaGo Zero의 메시지. 알고리즘 4 → 1, 데이터 16만 → 0. 그러나 더 강함.

➡️ 다음 챕터에서는

Policy + Value 신경망 통합. 알파고는 따로, AlphaGo Zero는 하나. 어떻게 합쳤고 왜 더 효율적인가.

← 이전 AlphaGo Zero가 스스로 발견한 것들 다음 → 하나의 신경망, 두 가지 출력