시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 2 · policy + value 합치기

MCTS visits = Policy 정답 — 핵심 통찰

AlphaGo Zero의 가장 큰 통찰 중 하나 — "MCTS visits 분포가 신경망의 policy 정답".

📖 무엇이 정답인가

지금까지 학습 데이터의 정답:

  • SL Policy 학습 (알파고): 사람이 둔 수 (one-hot)
  • Value Network 학습: 게임 결과 (-1, +1)
  • AlphaGo Zero Policy 학습: MCTS visits 분포 (전체 확률 분포)
🎯 왜 MCTS visits를 정답으로?
  1. MCTS는 신경망보다 강함: 한 번의 forward pass(prior) + 800 시뮬레이션 = 더 정확한 판단
  2. visits 분포 = "800회 탐색 후의 의견"
  3. 신경망에게 "다음에 너의 prior가 이 분포에 가깝게" 학습
  4. 신경망이 MCTS의 결과를 흡수 → 점점 강해짐

비유: 신경망 = 직관적 학생. MCTS = 깊이 생각하는 자기 자신. "깊이 생각한 결과를 다음 직관으로 학습".

💡 학습의 순환 — Bootstrap
신경망 v1
   ↓ prior로 사용
MCTS (v1 + 800 시뮬) → visits 분포 (v1보다 강함)
   ↓ visits 분포가 정답
신경망 v2 (v1보다 약간 강함)
   ↓ prior로 사용
MCTS (v2 + 800 시뮬) → 더 강한 visits 분포
   ↓
신경망 v3 ... 무한 반복
  

매 사이클마다 신경망과 MCTS 모두 강해짐. 외부 데이터 없이 자기 안에서 학습.

📊 학습 안정성 — Bootstrap의 함정

이론적으로 자기 자신을 학습하면 신호가 분산할 수 있음. 알파고 Zero는 안정성 위해:

  • 새 모델 vs 이전 최강 평가: 새 모델이 55%+ 승률일 때만 채택
  • 약해진 모델로 데이터 생성 방지
  • 점진적 향상만 유지

이 안정성 메커니즘이 핵심. 없으면 학습이 불안정.