MCTS visits = Policy 정답 — 핵심 통찰

AlphaGo Zero의 가장 큰 통찰 중 하나 — "MCTS visits 분포가 신경망의 policy 정답".

📖 무엇이 정답인가

지금까지 학습 데이터의 정답:

SL Policy 학습 (알파고): 사람이 둔 수 (one-hot)
Value Network 학습: 게임 결과 (-1, +1)
AlphaGo Zero Policy 학습: MCTS visits 분포 (전체 확률 분포)

🎯 왜 MCTS visits를 정답으로?

MCTS는 신경망보다 강함: 한 번의 forward pass(prior) + 800 시뮬레이션 = 더 정확한 판단
visits 분포 = "800회 탐색 후의 의견"
신경망에게 "다음에 너의 prior가 이 분포에 가깝게" 학습
신경망이 MCTS의 결과를 흡수 → 점점 강해짐

비유: 신경망 = 직관적 학생. MCTS = 깊이 생각하는 자기 자신. "깊이 생각한 결과를 다음 직관으로 학습".

💡 학습의 순환 — Bootstrap

신경망 v1
   ↓ prior로 사용
MCTS (v1 + 800 시뮬) → visits 분포 (v1보다 강함)
   ↓ visits 분포가 정답
신경망 v2 (v1보다 약간 강함)
   ↓ prior로 사용
MCTS (v2 + 800 시뮬) → 더 강한 visits 분포
   ↓
신경망 v3 ... 무한 반복

매 사이클마다 신경망과 MCTS 모두 강해짐. 외부 데이터 없이 자기 안에서 학습.

📊 학습 안정성 — Bootstrap의 함정

이론적으로 자기 자신을 학습하면 신호가 분산할 수 있음. 알파고 Zero는 안정성 위해:

새 모델 vs 이전 최강 평가: 새 모델이 55%+ 승률일 때만 채택
약해진 모델로 데이터 생성 방지
점진적 향상만 유지

이 안정성 메커니즘이 핵심. 없으면 학습이 불안정.

← 이전 통합 손실 함수 — 한 번에 두 출력 학습 다음 → 챕터 2 정리