AlphaZero (2017 12월) — 일반화의 시대
🚀 2017년 12월 — 또 한 번의 충격
AlphaGo Zero 발표 2개월 후, DeepMind 새 논문:
"Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"
핵심: "같은 알고리즘, 같은 코드. 체스, 쇼기, 바둑 모두 마스터."
📖 AlphaGo Zero vs AlphaZero
| 속성 | AlphaGo Zero (10월) | AlphaZero (12월) |
|---|---|---|
| 대상 게임 | 바둑 only | 바둑 + 체스 + 쇼기 |
| 도메인 지식 | 바둑 대칭 (8 변환) | 모두 제거 |
| 평가 단계 | 매 사이클 평가 (55% 통과) | 평가 제거 — 무조건 갱신 |
| 잔차 블록 | 19 또는 39 | 39 (큰 모델) |
또 다른 단순화 — 도메인 지식 + 평가 단계 제거. 더 강해짐.
📊 AlphaZero 성과 (논문 Table 1)
| 게임 | 학습 시간 | 격파한 상대 |
|---|---|---|
| 바둑 | 8시간 | AlphaGo Zero (60-40) |
| 체스 | 4시간 | Stockfish 8 (28-0, 72 무승부) |
| 쇼기 | 2시간 | Elmo (90-2-8) |
같은 알고리즘, 같은 코드. 시간만 다름. "각 게임의 최강 AI를 짧은 시간에 격파".
이 PART (4 챕터, 시즌 1 마지막):
- Ch 1: 같은 코드로 여러 게임 — 인터페이스 설계
- Ch 2: 도메인 지식 제거 — 대칭, 정석, 패
- Ch 3: 틱택토/커넥트포 학습
- Ch 4: 일반화의 의미 — 시즌 1 완결