MCTS visits = Policy 정답 — 핵심 통찰
AlphaGo Zero의 가장 큰 통찰 중 하나 — "MCTS visits 분포가 신경망의 policy 정답".
📖 무엇이 정답인가
지금까지 학습 데이터의 정답:
- SL Policy 학습 (알파고): 사람이 둔 수 (one-hot)
- Value Network 학습: 게임 결과 (-1, +1)
- AlphaGo Zero Policy 학습: MCTS visits 분포 (전체 확률 분포)
🎯 왜 MCTS visits를 정답으로?
- MCTS는 신경망보다 강함: 한 번의 forward pass(prior) + 800 시뮬레이션 = 더 정확한 판단
- visits 분포 = "800회 탐색 후의 의견"
- 신경망에게 "다음에 너의 prior가 이 분포에 가깝게" 학습
- 신경망이 MCTS의 결과를 흡수 → 점점 강해짐
비유: 신경망 = 직관적 학생. MCTS = 깊이 생각하는 자기 자신. "깊이 생각한 결과를 다음 직관으로 학습".
💡 학습의 순환 — Bootstrap
신경망 v1 ↓ prior로 사용 MCTS (v1 + 800 시뮬) → visits 분포 (v1보다 강함) ↓ visits 분포가 정답 신경망 v2 (v1보다 약간 강함) ↓ prior로 사용 MCTS (v2 + 800 시뮬) → 더 강한 visits 분포 ↓ 신경망 v3 ... 무한 반복
매 사이클마다 신경망과 MCTS 모두 강해짐. 외부 데이터 없이 자기 안에서 학습.
📊 학습 안정성 — Bootstrap의 함정
이론적으로 자기 자신을 학습하면 신호가 분산할 수 있음. 알파고 Zero는 안정성 위해:
- 새 모델 vs 이전 최강 평가: 새 모델이 55%+ 승률일 때만 채택
- 약해진 모델로 데이터 생성 방지
- 점진적 향상만 유지
이 안정성 메커니즘이 핵심. 없으면 학습이 불안정.