g — 잠재 공간 안에서 다음 상태 예측

두 번째 신경망 g (dynamics, 동역학 함수). MuZero에서 가장 중요한 신경망.

(s′, r) = g(s, a)

잠재 상태 s에서 행동 a를 하면, 다음 잠재 상태 s′와 그 행동의 보상 r

📖 입력과 출력

⚠ 핵심 — "g는 픽셀을 만들지 않는다"

여기가 MuZero의 결정적 발상이다. g의 출력 s′는 잠재 공간 안의 벡터일 뿐, 다음 화면 픽셀이 아니다.

잠재 공간은 마음대로 정의될 수 있다. "계획에 도움이 되는 어떤 표현"이면 충분.

🎯 g가 받는 학습 신호

"잠재 공간이 마음대로다"라면 어떻게 학습하지? 답: 다음 단계의 prediction이 맞으면 OK.

이게 MuZero의 학습 방식이다 — "잠재 상태 자체가 뭔지 정의하지 않고, 그게 만드는 prediction이 맞기만 하면 된다."

💡 다시 말해

잠재 공간은 학습이 알아서 결정한다. 우리가 강제하지 않는다.

이 자유도 덕에 g는 "계획에 필요한 정보만 남기는" 압축 표현으로 자연스럽게 수렴한다.