시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 6 · 7x7 미니 알파고 구현

시즌 1 회고 — 우리가 만든 것

🏆 시즌 1 알파고편 — 완료!

PART 1부터 PART 5까지 — 알파고를 알고리즘적으로 이해하고 직접 구현했어.

📖 시즌 1 전체 흐름
  1. PART 1 — 바둑이라는 우주: 5x5 / 7x7 보드 클래스 구현. 게임 규칙.
  2. PART 2 — 탐색 / Minimax: Minimax 한계 발견. 19x19은 못 풀음.
  3. PART 3 — 무작위의 힘 / MCTS: rollout + UCB1로 새 알고리즘. 7x7에서 minimax 압도.
  4. PART 4 — 신경망: 퍼셉트론 → CNN. Policy + Value 신경망 구현.
  5. PART 5 — AlphaGo: 모두 통합. PUCT. 이세돌 4국 분석. 7x7 미니 알파고.
🎯 핵심 인사이트
  1. 알고리즘 + 학습: 알파고는 새 알고리즘이 아니라 "기존 알고리즘 + 학습된 부품"
  2. 분업의 힘: Policy ("어디?") + Value ("얼마?") 분리. 사람 사고와 비슷.
  3. 탐험의 진화: UCB1 → PUCT. Policy로 가이드된 탐색.
  4. 데이터의 중요: 같은 알고리즘이 좋은 데이터로 학습되면 사람 한계 초월.
💡 시즌 1에서 직접 만든 것들
  • Board 클래스 (PART 1) ✅
  • Minimax + 알파-베타 가지치기 (PART 2) ✅
  • Rollout + UCB1 + MCTS 4단계 (PART 3) ✅
  • 퍼셉트론 + MLP + CNN (PART 4) ✅
  • Policy + Value Network (PART 4) ✅
  • PUCT + 알파고 MCTS 통합 (이번 PART) ✅
  • 7x7 미니 알파고 — 80줄 통합 코드 (이번 챕터) ✅

코드의 양은 알파고의 1/1000. 그러나 본질 동일.

📊 알파고 vs AlphaGo Zero — 다음 PART의 주제

알파고는 사람 데이터로 시작. AlphaGo Zero(2017)는 완전히 백지에서 시작:

  • 사람 게임 데이터 사용 안 함
  • 자가 대국만으로 학습
  • 40일 학습으로 알파고 압도
  • 더 단순한 알고리즘

이게 PART 6 주제. PART 7은 그것을 체스/쇼기에 일반화한 AlphaZero.