시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 3 · 세 개의 신경망: representation, dynamics, prediction

챕터 3 정리

📌 이번 챕터 핵심

  • MuZero의 world model은 세 신경망으로 분리: h, g, f.
  • h(representation): 관측 → 잠재 상태. 시뮬레이션 시작에서 한 번만 호출.
  • g(dynamics): (잠재 상태, 행동) → (다음 잠재 상태, 보상). 잠재 공간 안에서만 작동.
  • f(prediction): 잠재 상태 → (정책, 가치). AlphaZero의 f와 같은 역할.
  • 핵심 트릭: 픽셀 복원을 포기하고, 계획에 유용한 표현으로 자유롭게 학습.
📖 정리하는 한 줄

"관측은 처음 한 번만 보고, 시뮬레이션은 잠재 공간 안에서 한다."

➡️ 다음 챕터 — 잠재 공간에서의 MCTS

세 신경망 h, g, f가 갖춰졌으니, 이제 이들로 어떻게 실제 트리 탐색을 하는지 본다.

  • MCTS의 네 단계(Select/Expand/Evaluate/Backup)를 잠재 공간 버전으로 다시 그리기
  • PUCT가 잠재 공간 안에서 어떻게 작동하는가
  • 실제로 한 번의 시뮬레이션이 어떤 모습으로 일어나는가 (단계별 추적)

여기까지 오면 MuZero가 어떻게 "규칙 없이 계획하는가"의 전체 그림이 완성된다.