챕터 5 정리
📌 챕터 5에서 본 것
- 2016년 3월 알파고 vs 이세돌 5국 시리즈
- 4국 (3/13) — 이세돌의 유일한 승리
- 78수 신의 한 수 — 두 백 돌 사이 끼우는 5선 P10
- SL Policy의 P(78수) ≈ 0.5% — 알파고가 거의 시뮬레이션 못 함
- 알파고 Value 0.78 → -0.92로 완전 역전
- 78수 후 알파고의 "포기 모드" 등 비합리적 응수
- 인간이 AI를 이긴 마지막 게임
🏆 알파고의 본질적 한계
4국에서 드러난 것:
- 학습 데이터의 한계: 사람이 안 두는 수는 거의 못 봄
- 탐색의 좁음: PUCT가 P 낮은 가지 시뮬레이션 안 함
- Value의 흔들림: 한번 흔들리면 회복 어려움
이 한계들이 알파고 Zero, AlphaZero에서 어떻게 해결되는지 — PART 6, 7에서.
➡️ 다음 챕터에서는
7x7 미니 알파고 구현. 지금까지 본 모든 부품을 합쳐서 실제 코드. 작은 보드에서 알파고와 같은 구조로 동작하는 시스템.
PART 5의 마지막 — 그리고 시즌 1의 최대 구현.