시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 1 · 백지에서 시작 (tabula rasa)

PART 6 — AlphaGo Zero (2017)

🚀 1년 만의 충격 — 2017년 10월

알파고 (2016) 발표 1년 후, DeepMind가 새 논문: "Mastering the game of Go without human knowledge".

핵심 주장: "사람 데이터 없이 더 강해질 수 있다".

📖 알파고 vs AlphaGo Zero — 핵심 차이
속성 알파고 (2016) AlphaGo Zero (2017)
사람 데이터16만 KGS 게임없음 (zero)
입력 채널48 (도메인 지식)17 (단순)
신경망Policy + Value 따로하나로 통합
RolloutFast Rollout 사용제거
학습 단계4단계 (SL→RL→Value→통합)1단계 (자가 대국만)
하드웨어40 GPU + 1200 CPU4 TPU
학습 시간수 개월40일
결과 ELO3,500 (이세돌급)5,200+

모든 부분이 "단순화 + 더 강함". 1년 만의 진화.

💡 "Tabula Rasa" 의 의미

라틴어로 "백지". 어떤 사전 지식도 없는 상태에서 시작.

AlphaGo Zero가 학습 시작 시점:

  • 바둑 규칙은 알고 있음 (게임 시뮬레이션 가능)
  • 그 외 모든 것은 무작위 가중치
  • 사람의 정석, 정수, 어떤 패턴도 안 알려줌

그런데 40일 후 사람 한참 초월. "사람 데이터가 오히려 한계였다"는 충격적 시사.

📊 AlphaGo Zero의 학습 곡선 (논문 Figure 3)
  • 3시간: 초보자 수준 (ELO ~500)
  • 1일: 아마추어 강 수준
  • 3일: 알파고 Lee (이세돌 격파 버전) 격파 (100-0)
  • 21일: 알파고 Master (60-0 무패 버전) 격파
  • 40일: ELO 5,200 — 알파고와 차이 1,000+

3일 만에 알파고 격파 = "사람 학습"의 본질적 한계를 보여줌. 사람 데이터가 발판이었지 천장이었음.

이 PART:

  • Ch 1: tabula rasa — 백지 학습의 철학과 의미
  • Ch 2: Policy + Value 통합 신경망 (이중 출력)
  • Ch 3: 자가 대국 루프의 디테일
  • Ch 4: 7x7 학습 파이프라인 코드
  • Ch 5: 학습 곡선 실험