시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 4 · MCTS + 신경망 = PUCT

최종 수 선택 — 가장 많이 방문된 자식

MCTS 50,000 iteration 후 — 어떻게 수를 결정?

📖 두 가지 옵션
  • 옵션 1: PUCT 점수 가장 높은 자식
  • 옵션 2: 방문 수(visits)가 가장 많은 자식

알파고 선택: 옵션 2 (visits 최대).

🎯 왜 visits인가?
  • PUCT는 탐험 항(U)이 있어서 "확률만 높고 실제 평가는 안 좋은" 자식이 마지막에 점수 높을 수 있음
  • visits = "PUCT가 가장 자주 선택한 자식" = "장기적으로 가장 좋다고 판단한 자식"
  • 50,000 시뮬레이션 결과의 안정적 신호
📊 알파고 vs 이세돌 1국 - 첫 수 분석

알파고가 흑 둘 차례. 5만 iteration 후 루트 자식들:

  • (15,3) visits=14,237, Q=+0.06
  • (3,15) visits=11,890, Q=+0.05
  • (3,3) visits=9,541, Q=+0.04
  • (16,4) visits=4,213, Q=+0.03
  • ... (남은 50% 자리들)

알파고의 선택: (15,3) — 가장 많이 방문된 자식. 정확한 수가 아니라 "가장 자주 시뮬레이션이 선택한 수".

💡 visits가 "확신"의 척도

visits 분포가 좁을수록 (한 자식에 집중) → 알파고가 그 수에 확신.

visits 분포가 넓을수록 (여러 자식에 비슷) → 어려운 상황. 알파고가 망설임.

이세돌 대국 4국 (알파고가 진 게임)에서 알파고의 visits 분포가 매우 넓었음. "확신 못 함" 신호가 있었음.