왜 MuZero에서도 굳이 트리 탐색이 필요한가

여기서 자연스러운 의문이 든다.

🤔 의문

"f가 정책 p를 출력한다며? 그 p에서 확률이 가장 높은 행동을 선택하면 안 되나? 왜 굳이 비싼 트리 탐색을 해야 하지?"

이 질문의 답은 시즌 1에서도 한 번 다뤘지만, MuZero 맥락에서 다시 살펴볼 가치가 있다.

📖 이유 1 — 정책 신경망 단독은 약하다

학습된 정책 p는 좋은 시작점이지만 완벽하지 않다.

학습 데이터가 충분히 다양하지 않은 상황에서는 잘못된 수를 선호할 수 있음
한 수만 보는 것이라, "이 수 두면 두 수 뒤에 문제 생긴다" 같은 깊은 통찰이 어려움
알파고 시리즈 전체에서 일관되게 검증된 사실 — 정책 신경망 + MCTS의 조합이 정책 단독보다 항상 강하다

📖 이유 2 — 가치 신경망도 잡음이 있다

가치 v도 한 상태에서의 추정값일 뿐이라 흔들린다.

여러 경로를 시뮬레이션해서 평균을 내면 잡음이 줄어든다
특히 "트랩 상태" — 표면적으로는 좋아 보이지만 한 수 더 내려가 보면 함정인 상태 — 는 트리 탐색으로만 드러남

📖 이유 3 — 학습 신호의 질

이건 좀 더 미묘한 이유인데, 학습 자체에 필요해서다.

MuZero는 자가 대국으로 학습 — 자기 자신과 게임을 두고 그 결과로 학습
이때 "어떤 수를 두는가"는 단순 정책 출력이 아니라 MCTS의 방문 분포로 결정
MCTS의 방문 분포는 정책 신경망보다 강한 수를 만들어내기 때문에, 이걸 학습 타겟으로 삼으면 정책이 점점 강해진다
이 트릭이 시즌 1 PART 6에서 본 AlphaGo Zero의 핵심이기도 했다 — MuZero는 그걸 그대로 계승

💡 정리

MCTS는 단지 "행동 선택을 위한 도구"가 아니라 "학습 자체의 엔진"이다.

MuZero에서 트리 탐색을 떼면 학습이 무너진다 — 정책이 더 강해질 길이 없어지기 때문.

← 이전 MCTS 네 단계 복습 — 시즌 1 PART 3에서 다음 → Select 단계 — PUCT 공식의 재해석