시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 2 · 환경 모델을 학습한다

챕터 2 정리

📌 이번 챕터 핵심

  • 강화학습은 크게 model-free(직접 행동 학습)와 model-based(환경 모델 학습 → 계획) 두 갈래.
  • AlphaZero는 model-based이지만 환경 모델을 외부에서 받았다.
  • MuZero는 환경 모델 자체를 학습으로 만든다 — 그게 핵심 발상.
  • model-based의 강점: sample efficiency, planning, transfer.
  • 어려운 점: 고차원 상태, 누적 오차, 확률성. → 잠재 공간 학습으로 회피한다.
📖 정리하는 한 줄

"환경을 외부에서 받지 못한다면, 학습으로 만들어서 머릿속에 두면 된다."

이게 MuZero가 던지는 한 줄 메시지다. 그리고 그걸 어떻게 만드는지가 다음 챕터의 주제.

➡️ 다음 챕터 — 세 개의 신경망

MuZero는 환경 모델을 한 덩어리로 학습하지 않는다. 세 개의 신경망으로 쪼갠다.

  • representation h(s) — 관측을 압축된 상태로
  • dynamics g(s, a) — 압축된 상태에서 다음 상태로
  • prediction f(s) — 압축된 상태에서 정책+가치로

이 세 개가 어떻게 하나의 계획 시스템을 이루는지가 다음 챕터.