PART 6 — AlphaGo Zero (2017)

🚀 1년 만의 충격 — 2017년 10월

알파고 (2016) 발표 1년 후, DeepMind가 새 논문: "Mastering the game of Go without human knowledge".

핵심 주장: "사람 데이터 없이 더 강해질 수 있다".

📖 알파고 vs AlphaGo Zero — 핵심 차이

속성	알파고 (2016)	AlphaGo Zero (2017)
사람 데이터	16만 KGS 게임	없음 (zero)
입력 채널	48 (도메인 지식)	17 (단순)
신경망	Policy + Value 따로	하나로 통합
Rollout	Fast Rollout 사용	제거
학습 단계	4단계 (SL→RL→Value→통합)	1단계 (자가 대국만)
하드웨어	40 GPU + 1200 CPU	4 TPU
학습 시간	수 개월	40일
결과 ELO	3,500 (이세돌급)	5,200+

모든 부분이 "단순화 + 더 강함". 1년 만의 진화.

💡 "Tabula Rasa" 의 의미

라틴어로 "백지". 어떤 사전 지식도 없는 상태에서 시작.

AlphaGo Zero가 학습 시작 시점:

바둑 규칙은 알고 있음 (게임 시뮬레이션 가능)
그 외 모든 것은 무작위 가중치
사람의 정석, 정수, 어떤 패턴도 안 알려줌

그런데 40일 후 사람 한참 초월. "사람 데이터가 오히려 한계였다"는 충격적 시사.

📊 AlphaGo Zero의 학습 곡선 (논문 Figure 3)

3시간: 초보자 수준 (ELO ~500)
1일: 아마추어 강 수준
3일: 알파고 Lee (이세돌 격파 버전) 격파 (100-0)
21일: 알파고 Master (60-0 무패 버전) 격파
40일: ELO 5,200 — 알파고와 차이 1,000+

3일 만에 알파고 격파 = "사람 학습"의 본질적 한계를 보여줌. 사람 데이터가 발판이었지 천장이었음.

이 PART:

Ch 1: tabula rasa — 백지 학습의 철학과 의미
Ch 2: Policy + Value 통합 신경망 (이중 출력)
Ch 3: 자가 대국 루프의 디테일
Ch 4: 7x7 학습 파이프라인 코드
Ch 5: 학습 곡선 실험

← 이전 시즌 1 완결 — 그리고 시즌 2 예고 다음 → 왜 "백지에서 시작"이 더 강한가