Self-play 루프 — 학습의 전체 그림
👋 이 챕터에서 다룰 것
AlphaGo Zero의 학습 사이클을 디테일하게. 한 사이클이 정확히 무엇을 하는지.
📖 전체 루프 — 3 단계 반복
┌─────────────────────────────────────────┐
│ Stage 1: 자가 대국으로 데이터 생성 │
│ 현재 최강 모델로 25,000 게임 │
│ 각 수마다 800 MCTS 시뮬레이션 │
│ 데이터: (s, π, z) 약 500만 개 │
└─────────────────┬───────────────────────┘
↓
┌─────────────────────────────────────────┐
│ Stage 2: 신경망 학습 │
│ 1,000 학습 단계 (mini-batch SGD) │
│ 배치 크기 2,048 │
│ 손실: (v-z)² + cross_entropy + L2 │
└─────────────────┬───────────────────────┘
↓
┌─────────────────────────────────────────┐
│ Stage 3: 평가 │
│ 새 모델 vs 이전 최강 모델 400 게임 │
│ 새 모델 승률 ≥ 55%면 채택 │
│ 아니면 다시 학습 │
└─────────────────┬───────────────────────┘
↓
반복...
📊 한 사이클의 시간 (4 TPU 환경)
- Stage 1 (자가 대국): ~6-8시간 (25,000 게임 × MCTS)
- Stage 2 (학습): ~30분 (1,000 학습 단계)
- Stage 3 (평가): ~2-3시간 (400 평가 게임)
- 한 사이클: 약 10시간
- 총 학습: 700 사이클 × 10시간 = 40일
4 TPU로 40일. 알파고(40 GPU + 1200 CPU 수개월)보다 훨씬 효율.
각 stage를 자세히 봐보자.