최종 수 선택 — 가장 많이 방문된 자식
MCTS 50,000 iteration 후 — 어떻게 수를 결정?
📖 두 가지 옵션
- 옵션 1: PUCT 점수 가장 높은 자식
- 옵션 2: 방문 수(visits)가 가장 많은 자식
알파고 선택: 옵션 2 (visits 최대).
🎯 왜 visits인가?
- PUCT는 탐험 항(U)이 있어서 "확률만 높고 실제 평가는 안 좋은" 자식이 마지막에 점수 높을 수 있음
- visits = "PUCT가 가장 자주 선택한 자식" = "장기적으로 가장 좋다고 판단한 자식"
- 50,000 시뮬레이션 결과의 안정적 신호
📊 알파고 vs 이세돌 1국 - 첫 수 분석
알파고가 흑 둘 차례. 5만 iteration 후 루트 자식들:
- (15,3) visits=14,237, Q=+0.06
- (3,15) visits=11,890, Q=+0.05
- (3,3) visits=9,541, Q=+0.04
- (16,4) visits=4,213, Q=+0.03
- ... (남은 50% 자리들)
알파고의 선택: (15,3) — 가장 많이 방문된 자식. 정확한 수가 아니라 "가장 자주 시뮬레이션이 선택한 수".
💡 visits가 "확신"의 척도
visits 분포가 좁을수록 (한 자식에 집중) → 알파고가 그 수에 확신.
visits 분포가 넓을수록 (여러 자식에 비슷) → 어려운 상황. 알파고가 망설임.
이세돌 대국 4국 (알파고가 진 게임)에서 알파고의 visits 분포가 매우 넓었음. "확신 못 함" 신호가 있었음.