g — 잠재 공간 안에서 다음 상태 예측
두 번째 신경망 g (dynamics, 동역학 함수). MuZero에서 가장 중요한 신경망.
(s′, r) = g(s, a)
잠재 상태 s에서 행동 a를 하면, 다음 잠재 상태 s′와 그 행동의 보상 r
📖 입력과 출력
- 입력: 잠재 상태
s+ 행동a(one-hot 또는 임베딩) - 출력 1 — 다음 잠재 상태
s′: 잠재 공간 안에서의 시뮬레이션 - 출력 2 — 보상
r: 이 행동으로 얻는 즉시 보상 예측
⚠ 핵심 — "g는 픽셀을 만들지 않는다"
여기가 MuZero의 결정적 발상이다. g의 출력 s′는 잠재 공간 안의 벡터일 뿐, 다음 화면 픽셀이 아니다.
- 지난 챕터에서 본 "누적 오차" 문제 — 픽셀을 정확히 복원하려 하면 발생
- 그런데
g는 픽셀을 만들 필요가 없음 → 누적 오차의 큰 부분이 사라짐
잠재 공간은 마음대로 정의될 수 있다. "계획에 도움이 되는 어떤 표현"이면 충분.
🎯 g가 받는 학습 신호
"잠재 공간이 마음대로다"라면 어떻게 학습하지? 답: 다음 단계의 prediction이 맞으면 OK.
s′ = g(s, a)로 다음 잠재 상태 예측p, v = f(s′)로 거기서의 정책과 가치 예측- 실제 게임에서 거기서의 정책/가치/보상과 비교해서 손실 계산
- 역전파로
g와f가 동시에 학습됨
이게 MuZero의 학습 방식이다 — "잠재 상태 자체가 뭔지 정의하지 않고, 그게 만드는 prediction이 맞기만 하면 된다."
💡 다시 말해
잠재 공간은 학습이 알아서 결정한다. 우리가 강제하지 않는다.
이 자유도 덕에 g는 "계획에 필요한 정보만 남기는" 압축 표현으로 자연스럽게 수렴한다.