시즌 1 회고 — 우리가 만든 것
🏆 시즌 1 알파고편 — 완료!
PART 1부터 PART 5까지 — 알파고를 알고리즘적으로 이해하고 직접 구현했어.
📖 시즌 1 전체 흐름
- PART 1 — 바둑이라는 우주: 5x5 / 7x7 보드 클래스 구현. 게임 규칙.
- PART 2 — 탐색 / Minimax: Minimax 한계 발견. 19x19은 못 풀음.
- PART 3 — 무작위의 힘 / MCTS: rollout + UCB1로 새 알고리즘. 7x7에서 minimax 압도.
- PART 4 — 신경망: 퍼셉트론 → CNN. Policy + Value 신경망 구현.
- PART 5 — AlphaGo: 모두 통합. PUCT. 이세돌 4국 분석. 7x7 미니 알파고.
🎯 핵심 인사이트
- 알고리즘 + 학습: 알파고는 새 알고리즘이 아니라 "기존 알고리즘 + 학습된 부품"
- 분업의 힘: Policy ("어디?") + Value ("얼마?") 분리. 사람 사고와 비슷.
- 탐험의 진화: UCB1 → PUCT. Policy로 가이드된 탐색.
- 데이터의 중요: 같은 알고리즘이 좋은 데이터로 학습되면 사람 한계 초월.
💡 시즌 1에서 직접 만든 것들
- Board 클래스 (PART 1) ✅
- Minimax + 알파-베타 가지치기 (PART 2) ✅
- Rollout + UCB1 + MCTS 4단계 (PART 3) ✅
- 퍼셉트론 + MLP + CNN (PART 4) ✅
- Policy + Value Network (PART 4) ✅
- PUCT + 알파고 MCTS 통합 (이번 PART) ✅
- 7x7 미니 알파고 — 80줄 통합 코드 (이번 챕터) ✅
코드의 양은 알파고의 1/1000. 그러나 본질 동일.
📊 알파고 vs AlphaGo Zero — 다음 PART의 주제
알파고는 사람 데이터로 시작. AlphaGo Zero(2017)는 완전히 백지에서 시작:
- 사람 게임 데이터 사용 안 함
- 자가 대국만으로 학습
- 40일 학습으로 알파고 압도
- 더 단순한 알고리즘
이게 PART 6 주제. PART 7은 그것을 체스/쇼기에 일반화한 AlphaZero.