시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 3 · 세 개의 신경망: representation, dynamics, prediction

g — 잠재 공간 안에서 다음 상태 예측

두 번째 신경망 g (dynamics, 동역학 함수). MuZero에서 가장 중요한 신경망.

(s′, r) = g(s, a)

잠재 상태 s에서 행동 a를 하면, 다음 잠재 상태 s′와 그 행동의 보상 r

📖 입력과 출력
  • 입력: 잠재 상태 s + 행동 a (one-hot 또는 임베딩)
  • 출력 1 — 다음 잠재 상태 s′: 잠재 공간 안에서의 시뮬레이션
  • 출력 2 — 보상 r: 이 행동으로 얻는 즉시 보상 예측
⚠ 핵심 — "g는 픽셀을 만들지 않는다"

여기가 MuZero의 결정적 발상이다. g의 출력 s′잠재 공간 안의 벡터일 뿐, 다음 화면 픽셀이 아니다.

  • 지난 챕터에서 본 "누적 오차" 문제 — 픽셀을 정확히 복원하려 하면 발생
  • 그런데 g는 픽셀을 만들 필요가 없음 → 누적 오차의 큰 부분이 사라짐

잠재 공간은 마음대로 정의될 수 있다. "계획에 도움이 되는 어떤 표현"이면 충분.

🎯 g가 받는 학습 신호

"잠재 공간이 마음대로다"라면 어떻게 학습하지? 답: 다음 단계의 prediction이 맞으면 OK.

  1. s′ = g(s, a)로 다음 잠재 상태 예측
  2. p, v = f(s′)로 거기서의 정책과 가치 예측
  3. 실제 게임에서 거기서의 정책/가치/보상과 비교해서 손실 계산
  4. 역전파로 gf가 동시에 학습됨

이게 MuZero의 학습 방식이다 — "잠재 상태 자체가 뭔지 정의하지 않고, 그게 만드는 prediction이 맞기만 하면 된다."

💡 다시 말해

잠재 공간은 학습이 알아서 결정한다. 우리가 강제하지 않는다.

이 자유도 덕에 g는 "계획에 필요한 정보만 남기는" 압축 표현으로 자연스럽게 수렴한다.