시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 3 · 세 개의 신경망: representation, dynamics, prediction

world model을 셋으로 쪼개는 이유

🎬 지난 챕터 요약

환경 모델을 학습으로 만들면 좋다. 그런데 고차원 관측(픽셀)에서 다음 관측을 통째로 예측하면 누적 오차가 큰 문제가 된다.

MuZero의 답: "픽셀을 다시 만들지 마라. 계획에 필요한 정보만 남겨라."

🎯 이번 챕터의 핵심 아이디어

MuZero는 world model을 한 덩어리로 만들지 않는다. 세 개의 신경망으로 분리한다:

  • h (representation) — 관측 → 잠재 상태
  • g (dynamics) — (잠재 상태, 행동) → (다음 잠재 상태, 보상)
  • f (prediction) — 잠재 상태 → (정책, 가치)

이 세 글자(h, g, f)가 MuZero 논문의 핵심 표기다.

📖 왜 굳이 쪼개나? — 세 가지 이유
  1. 역할 분리: 각 신경망이 한 가지 일만 잘하면 됨 (단순한 책임)
  2. 잠재 공간의 자유: g가 잠재 공간 안에서 작동 → 픽셀 복원 불필요
  3. AlphaZero와의 연결: f는 AlphaZero의 그것과 정확히 같은 일을 함 (정책+가치)

특히 두 번째가 결정적이다. 시즌 1에서 본 신경망은 다 관측(보드)을 직접 받았는데, MuZero의 g잠재 공간 안에서만 작동한다. 다음 섹션부터 하나씩 들여다보자.