시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 3 · self-play 루프

챕터 3 정리

📌 챕터 3에서 배운 것

  • 한 학습 사이클 3단계: 자가 대국 → 학습 → 평가
  • Stage 1: 25,000 게임, MCTS 800/수, (s, π, z) 500만 데이터
  • 온도 τ — 학습 초반 1 (탐험), 후반 0 (결정)
  • Dirichlet 노이즈 — 루트 prior에 노이즈로 다양성
  • Stage 2: 1,000 학습 단계, 배치 2,048, replay buffer 50만 게임
  • 학습률 스케줄 (0.02 → 0.002 → 0.0002)
  • Data augmentation — 8 대칭으로 데이터 8배
  • Stage 3: 400 평가 게임, 새 모델 55%+ 승률일 때만 채택
  • 한 사이클 약 10시간, 총 학습 40일 (700 사이클)
🏆 자기 학습의 순환

외부 데이터 0, 사람 지식 0. 그래도 매 사이클 약간씩 강해짐. "자기 자신을 가르치는 닫힌 시스템".

이게 AI 학습의 새 패러다임. 사람 데이터 없이 끝없이 향상.

➡️ 다음 챕터에서는

7x7 학습 파이프라인 코드. 우리가 직접 만든다 — 자가 대국, 학습, 평가의 미니 버전. PART 5 7x7 미니 알파고에 학습 추가.