world model을 셋으로 쪼개는 이유
🎬 지난 챕터 요약
환경 모델을 학습으로 만들면 좋다. 그런데 고차원 관측(픽셀)에서 다음 관측을 통째로 예측하면 누적 오차가 큰 문제가 된다.
MuZero의 답: "픽셀을 다시 만들지 마라. 계획에 필요한 정보만 남겨라."
🎯 이번 챕터의 핵심 아이디어
MuZero는 world model을 한 덩어리로 만들지 않는다. 세 개의 신경망으로 분리한다:
- h (representation) — 관측 → 잠재 상태
- g (dynamics) — (잠재 상태, 행동) → (다음 잠재 상태, 보상)
- f (prediction) — 잠재 상태 → (정책, 가치)
이 세 글자(h, g, f)가 MuZero 논문의 핵심 표기다.
📖 왜 굳이 쪼개나? — 세 가지 이유
- 역할 분리: 각 신경망이 한 가지 일만 잘하면 됨 (단순한 책임)
- 잠재 공간의 자유:
g가 잠재 공간 안에서 작동 → 픽셀 복원 불필요 - AlphaZero와의 연결:
f는 AlphaZero의 그것과 정확히 같은 일을 함 (정책+가치)
특히 두 번째가 결정적이다. 시즌 1에서 본 신경망은 다 관측(보드)을 직접 받았는데, MuZero의 g는 잠재 공간 안에서만 작동한다. 다음 섹션부터 하나씩 들여다보자.