시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 5 · 이세돌 4국 신의 한 수

챕터 5 정리

📌 챕터 5에서 본 것

  • 2016년 3월 알파고 vs 이세돌 5국 시리즈
  • 4국 (3/13) — 이세돌의 유일한 승리
  • 78수 신의 한 수 — 두 백 돌 사이 끼우는 5선 P10
  • SL Policy의 P(78수) ≈ 0.5% — 알파고가 거의 시뮬레이션 못 함
  • 알파고 Value 0.78 → -0.92로 완전 역전
  • 78수 후 알파고의 "포기 모드" 등 비합리적 응수
  • 인간이 AI를 이긴 마지막 게임
🏆 알파고의 본질적 한계

4국에서 드러난 것:

  1. 학습 데이터의 한계: 사람이 안 두는 수는 거의 못 봄
  2. 탐색의 좁음: PUCT가 P 낮은 가지 시뮬레이션 안 함
  3. Value의 흔들림: 한번 흔들리면 회복 어려움

이 한계들이 알파고 Zero, AlphaZero에서 어떻게 해결되는지 — PART 6, 7에서.

➡️ 다음 챕터에서는

7x7 미니 알파고 구현. 지금까지 본 모든 부품을 합쳐서 실제 코드. 작은 보드에서 알파고와 같은 구조로 동작하는 시스템.

PART 5의 마지막 — 그리고 시즌 1의 최대 구현.