왜 이게 작동하는가 — 잠재 공간의 자유도

지금까지 본 것을 한 발 떨어져서 보자.

🤔 멈춰서 던지는 질문

"잠재 공간이 마음대로라며. 그럼 g가 만드는 다음 잠재 상태 s′가 진짜 의미 있는 미래를 가리키는지 어떻게 보장하지? 막 만든 임의의 벡터일 수도 있잖아."

이 질문이 이 챕터의 가장 깊은 부분이다.

📖 답 — 학습 신호가 강제한다

학습 시에 MuZero는 다음 손실 항들을 함께 최소화한다:

주목할 점: 3개 모두 잠재 상태 자체의 형태를 강제하지 않는다. 잠재 상태가 어떤 형태든, 그게 만들어내는 정책/가치/보상만 맞으면 손실이 줄어든다.

🎯 그래서 잠재 공간은 어떻게 생기는가

훈련을 거치면서 잠재 공간은 "정책과 가치와 보상을 동시에 잘 예측할 수 있는 압축 표현"으로 자연스럽게 수렴한다.

💡 직관 — 사람의 사고와 비슷

사람도 게임할 때 머릿속에 "정확한 픽셀"을 두는 게 아니라 "행동에 영향을 줄 만한 추상 정보"만 둔다.

MuZero의 잠재 공간이 정확히 그런 표현으로 학습되는 셈이다 — 누가 가르치지 않아도, 학습 신호만으로 그 표현이 만들어진다.

📖 한 가지 더 — 학습된 g는 "확률적" 환경도 다룬다

현실 환경은 확률적(같은 행동을 해도 매번 다른 결과)일 때가 많다. MuZero의 g는 한 결과만 출력하는데 어떻게 확률성을 다루나?

답: g는 "기대값 측면에서 가장 그럴듯한 다음 잠재 상태"를 출력하도록 학습된다.

이게 MuZero가 결정론적인 보드 게임뿐 아니라 확률적인 아타리 환경도 같은 알고리즘으로 다룰 수 있는 비결.

💡 최종 정리

잠재 공간의 자유도 + MCTS의 평균화 효과 + 강력한 학습 신호 — 이 셋이 함께 작동해서 MuZero가 작동한다.

이 챕터에서 본 MCTS의 메커니즘은 시즌 1의 그것과 거의 동일하지만, 그 위에서 학습된 환경 모델 위에서 작동한다는 점이 결정적 차이.