Self-play 루프 — 학습의 전체 그림

👋 이 챕터에서 다룰 것

AlphaGo Zero의 학습 사이클을 디테일하게. 한 사이클이 정확히 무엇을 하는지.

📖 전체 루프 — 3 단계 반복

┌─────────────────────────────────────────┐
│ Stage 1: 자가 대국으로 데이터 생성      │
│   현재 최강 모델로 25,000 게임           │
│   각 수마다 800 MCTS 시뮬레이션          │
│   데이터: (s, π, z) 약 500만 개          │
└─────────────────┬───────────────────────┘
                  ↓
┌─────────────────────────────────────────┐
│ Stage 2: 신경망 학습                     │
│   1,000 학습 단계 (mini-batch SGD)       │
│   배치 크기 2,048                        │
│   손실: (v-z)² + cross_entropy + L2     │
└─────────────────┬───────────────────────┘
                  ↓
┌─────────────────────────────────────────┐
│ Stage 3: 평가                            │
│   새 모델 vs 이전 최강 모델 400 게임     │
│   새 모델 승률 ≥ 55%면 채택              │
│   아니면 다시 학습                       │
└─────────────────┬───────────────────────┘
                  ↓
              반복...

📊 한 사이클의 시간 (4 TPU 환경)

Stage 1 (자가 대국): ~6-8시간 (25,000 게임 × MCTS)
Stage 2 (학습): ~30분 (1,000 학습 단계)
Stage 3 (평가): ~2-3시간 (400 평가 게임)
한 사이클: 약 10시간
총 학습: 700 사이클 × 10시간 = 40일

4 TPU로 40일. 알파고(40 GPU + 1200 CPU 수개월)보다 훨씬 효율.

각 stage를 자세히 봐보자.

← 이전 챕터 2 정리 다음 → Stage 1: 자가 대국으로 데이터 생성