왜 이게 작동하는가 — 잠재 공간의 자유도
지금까지 본 것을 한 발 떨어져서 보자.
"잠재 공간이 마음대로라며. 그럼 g가 만드는 다음 잠재 상태 s′가 진짜 의미 있는 미래를 가리키는지 어떻게 보장하지? 막 만든 임의의 벡터일 수도 있잖아."
이 질문이 이 챕터의 가장 깊은 부분이다.
학습 시에 MuZero는 다음 손실 항들을 함께 최소화한다:
- 정책 손실: MCTS 방문 분포 vs
f의 정책 출력 - 가치 손실: 실제 게임 결과 vs
f의 가치 출력 - 보상 손실: 실제 보상 vs
g의 보상 출력
주목할 점: 3개 모두 잠재 상태 자체의 형태를 강제하지 않는다. 잠재 상태가 어떤 형태든, 그게 만들어내는 정책/가치/보상만 맞으면 손실이 줄어든다.
훈련을 거치면서 잠재 공간은 "정책과 가치와 보상을 동시에 잘 예측할 수 있는 압축 표현"으로 자연스럽게 수렴한다.
- 관측의 어떤 부분이 의사결정에 중요한지 — 학습이 알아냄
- 중요하지 않은 부분(배경 픽셀 등)은 — 잠재 공간에서 자연스럽게 사라짐
- 여러 스텝 앞을 봐도 정확하게 prediction이 맞도록 — g가 안정된 dynamics를 학습
사람도 게임할 때 머릿속에 "정확한 픽셀"을 두는 게 아니라 "행동에 영향을 줄 만한 추상 정보"만 둔다.
MuZero의 잠재 공간이 정확히 그런 표현으로 학습되는 셈이다 — 누가 가르치지 않아도, 학습 신호만으로 그 표현이 만들어진다.
현실 환경은 확률적(같은 행동을 해도 매번 다른 결과)일 때가 많다. MuZero의 g는 한 결과만 출력하는데 어떻게 확률성을 다루나?
답: g는 "기대값 측면에서 가장 그럴듯한 다음 잠재 상태"를 출력하도록 학습된다.
- 다양한 결과들의 평균적 표현
- 정책/가치 예측에 충분한 정보만 보존
- 모든 가능한 결과를 정확히 표현할 필요 없음 (어차피 곧 트리가 더 깊어지면 다시 평가됨)
이게 MuZero가 결정론적인 보드 게임뿐 아니라 확률적인 아타리 환경도 같은 알고리즘으로 다룰 수 있는 비결.
잠재 공간의 자유도 + MCTS의 평균화 효과 + 강력한 학습 신호 — 이 셋이 함께 작동해서 MuZero가 작동한다.
이 챕터에서 본 MCTS의 메커니즘은 시즌 1의 그것과 거의 동일하지만, 그 위에서 학습된 환경 모델 위에서 작동한다는 점이 결정적 차이.