챕터 3 정리
📌 이번 챕터 핵심
- MuZero의 world model은 세 신경망으로 분리: h, g, f.
- h(representation): 관측 → 잠재 상태. 시뮬레이션 시작에서 한 번만 호출.
- g(dynamics): (잠재 상태, 행동) → (다음 잠재 상태, 보상). 잠재 공간 안에서만 작동.
- f(prediction): 잠재 상태 → (정책, 가치). AlphaZero의 f와 같은 역할.
- 핵심 트릭: 픽셀 복원을 포기하고, 계획에 유용한 표현으로 자유롭게 학습.
📖 정리하는 한 줄
"관측은 처음 한 번만 보고, 시뮬레이션은 잠재 공간 안에서 한다."
➡️ 다음 챕터 — 잠재 공간에서의 MCTS
세 신경망 h, g, f가 갖춰졌으니, 이제 이들로 어떻게 실제 트리 탐색을 하는지 본다.
- MCTS의 네 단계(Select/Expand/Evaluate/Backup)를 잠재 공간 버전으로 다시 그리기
- PUCT가 잠재 공간 안에서 어떻게 작동하는가
- 실제로 한 번의 시뮬레이션이 어떤 모습으로 일어나는가 (단계별 추적)
여기까지 오면 MuZero가 어떻게 "규칙 없이 계획하는가"의 전체 그림이 완성된다.