PART 6 — AlphaGo Zero (2017)
🚀 1년 만의 충격 — 2017년 10월
알파고 (2016) 발표 1년 후, DeepMind가 새 논문: "Mastering the game of Go without human knowledge".
핵심 주장: "사람 데이터 없이 더 강해질 수 있다".
📖 알파고 vs AlphaGo Zero — 핵심 차이
| 속성 | 알파고 (2016) | AlphaGo Zero (2017) |
|---|---|---|
| 사람 데이터 | 16만 KGS 게임 | 없음 (zero) |
| 입력 채널 | 48 (도메인 지식) | 17 (단순) |
| 신경망 | Policy + Value 따로 | 하나로 통합 |
| Rollout | Fast Rollout 사용 | 제거 |
| 학습 단계 | 4단계 (SL→RL→Value→통합) | 1단계 (자가 대국만) |
| 하드웨어 | 40 GPU + 1200 CPU | 4 TPU |
| 학습 시간 | 수 개월 | 40일 |
| 결과 ELO | 3,500 (이세돌급) | 5,200+ |
모든 부분이 "단순화 + 더 강함". 1년 만의 진화.
💡 "Tabula Rasa" 의 의미
라틴어로 "백지". 어떤 사전 지식도 없는 상태에서 시작.
AlphaGo Zero가 학습 시작 시점:
- 바둑 규칙은 알고 있음 (게임 시뮬레이션 가능)
- 그 외 모든 것은 무작위 가중치
- 사람의 정석, 정수, 어떤 패턴도 안 알려줌
그런데 40일 후 사람 한참 초월. "사람 데이터가 오히려 한계였다"는 충격적 시사.
📊 AlphaGo Zero의 학습 곡선 (논문 Figure 3)
- 3시간: 초보자 수준 (ELO ~500)
- 1일: 아마추어 강 수준
- 3일: 알파고 Lee (이세돌 격파 버전) 격파 (100-0)
- 21일: 알파고 Master (60-0 무패 버전) 격파
- 40일: ELO 5,200 — 알파고와 차이 1,000+
3일 만에 알파고 격파 = "사람 학습"의 본질적 한계를 보여줌. 사람 데이터가 발판이었지 천장이었음.
이 PART:
- Ch 1: tabula rasa — 백지 학습의 철학과 의미
- Ch 2: Policy + Value 통합 신경망 (이중 출력)
- Ch 3: 자가 대국 루프의 디테일
- Ch 4: 7x7 학습 파이프라인 코드
- Ch 5: 학습 곡선 실험