챕터 1 정리
📌 챕터 1에서 배운 것
- AlphaZero (2017 12월) — 같은 코드로 체스, 쇼기, 바둑 마스터
- 학습 시간: 체스 4h, 쇼기 2h, 바둑 8h → 각 게임 최강 AI 격파
- 핵심 — Game 인터페이스로 알고리즘과 게임 분리
- 5개 함수만 구현: possible_moves, play, is_terminal, winner, to_input
- MCTS + PUCT + 자가 대국 코드는 100% 게임 독립
- 차이는 게임 인터페이스 + 신경망 출력 크기뿐
🏆 일반화의 의미
"바둑 AI"가 아닌 "두 명이 둘러 가며 두는 게임의 일반 알고리즘". 이게 큰 발전.
같은 코드가 4시간 안에 새 게임을 정복 — 이건 알파고가 자체로 알고리즘 혁신이 아니라 "학습 방법의 혁신"이라는 증거.
➡️ 다음 챕터에서는
도메인 지식 제거. AlphaGo Zero에 있던 바둑 특화 부분 (대칭, 패 규칙)을 AlphaZero가 어떻게 제거했나.