챕터 5 정리

📌 챕터 5에서 본 것

2016년 3월 알파고 vs 이세돌 5국 시리즈
4국 (3/13) — 이세돌의 유일한 승리
78수 신의 한 수 — 두 백 돌 사이 끼우는 5선 P10
SL Policy의 P(78수) ≈ 0.5% — 알파고가 거의 시뮬레이션 못 함
알파고 Value 0.78 → -0.92로 완전 역전
78수 후 알파고의 "포기 모드" 등 비합리적 응수
인간이 AI를 이긴 마지막 게임

🏆 알파고의 본질적 한계

4국에서 드러난 것:

학습 데이터의 한계: 사람이 안 두는 수는 거의 못 봄
탐색의 좁음: PUCT가 P 낮은 가지 시뮬레이션 안 함
Value의 흔들림: 한번 흔들리면 회복 어려움

이 한계들이 알파고 Zero, AlphaZero에서 어떻게 해결되는지 — PART 6, 7에서.

➡️ 다음 챕터에서는

7x7 미니 알파고 구현. 지금까지 본 모든 부품을 합쳐서 실제 코드. 작은 보드에서 알파고와 같은 구조로 동작하는 시스템.

PART 5의 마지막 — 그리고 시즌 1의 최대 구현.

← 이전 4국의 역사적 의미 다음 → 7x7 미니 알파고 — 우리가 알파고를 만든다