챕터 3 정리

📌 이번 챕터 핵심

MuZero의 world model은 세 신경망으로 분리: h, g, f.
h(representation): 관측 → 잠재 상태. 시뮬레이션 시작에서 한 번만 호출.
g(dynamics): (잠재 상태, 행동) → (다음 잠재 상태, 보상). 잠재 공간 안에서만 작동.
f(prediction): 잠재 상태 → (정책, 가치). AlphaZero의 f와 같은 역할.
핵심 트릭: 픽셀 복원을 포기하고, 계획에 유용한 표현으로 자유롭게 학습.

📖 정리하는 한 줄

"관측은 처음 한 번만 보고, 시뮬레이션은 잠재 공간 안에서 한다."

➡️ 다음 챕터 — 잠재 공간에서의 MCTS

세 신경망 h, g, f가 갖춰졌으니, 이제 이들로 어떻게 실제 트리 탐색을 하는지 본다.

MCTS의 네 단계(Select/Expand/Evaluate/Backup)를 잠재 공간 버전으로 다시 그리기
PUCT가 잠재 공간 안에서 어떻게 작동하는가
실제로 한 번의 시뮬레이션이 어떤 모습으로 일어나는가 (단계별 추적)

여기까지 오면 MuZero가 어떻게 "규칙 없이 계획하는가"의 전체 그림이 완성된다.

← 이전 확인 퀴즈 다음 → 이번 챕터에서 무엇을 하는가