시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 5 · 학습 곡선 실험

PART 6 전체 정리

🏆 PART 6 — AlphaGo Zero (2017) 완성

  • Ch 1: tabula rasa — 사람 데이터 없이 더 강함, 3-3 부활
  • Ch 2: Policy + Value 통합 신경망, 잔차 블록
  • Ch 3: Self-play 루프 3 stage (게임생성 → 학습 → 평가)
  • Ch 4: 7x7 학습 파이프라인 코드 (자가 대국, 학습 단계, 전체 루프)
  • Ch 5: 학습 곡선 실험 (60% 손실 감소 시범), 실제 ELO 곡선
🎯 알파고에서 알파고 Zero로의 진화
  1. 단순화: 4 신경망 → 1, 48 채널 → 17, 4단계 → 1 사이클
  2. 데이터 자립: 16만 사람 게임 → 0 (완전 자가 대국)
  3. 알고리즘 통합: SL + RL 분리 → 한 학습 신호
  4. 강함: ELO 3,500 → 5,200 (+1,700)
  5. 효율: 40 GPU + 1200 CPU → 4 TPU

모든 면에서 더 단순 + 더 강함. "단순함이 강함이다"의 사례.

💡 깊은 메시지

AlphaGo Zero가 보여준 것:

  • 사람 지식이 학습의 도움이지만 천장이 될 수도 있음
  • 충분한 자기 시뮬레이션 + 깨끗한 학습 신호로 사람 너머 가능
  • 알고리즘 단순화 + 학습 안정성이 핵심

이게 현재 AI 학습의 큰 트렌드 (LLM의 self-supervised learning과 비슷).