시즌 1 회고 — 우리가 만든 것

알고리즘 + 학습: 알파고는 새 알고리즘이 아니라 "기존 알고리즘 + 학습된 부품"
분업의 힘: Policy ("어디?") + Value ("얼마?") 분리. 사람 사고와 비슷.
탐험의 진화: UCB1 → PUCT. Policy로 가이드된 탐색.
데이터의 중요: 같은 알고리즘이 좋은 데이터로 학습되면 사람 한계 초월.

🏆 시즌 1 알파고편 — 완료!

PART 1부터 PART 5까지 — 알파고를 알고리즘적으로 이해하고 직접 구현했어.

📖 시즌 1 전체 흐름

🎯 핵심 인사이트

💡 시즌 1에서 직접 만든 것들

코드의 양은 알파고의 1/1000. 그러나 본질 동일.

📊 알파고 vs AlphaGo Zero — 다음 PART의 주제

알파고는 사람 데이터로 시작. AlphaGo Zero(2017)는 완전히 백지에서 시작:

이게 PART 6 주제. PART 7은 그것을 체스/쇼기에 일반화한 AlphaZero.