챕터 2 정리

📌 이번 챕터 핵심

강화학습은 크게 model-free(직접 행동 학습)와 model-based(환경 모델 학습 → 계획) 두 갈래.
AlphaZero는 model-based이지만 환경 모델을 외부에서 받았다.
MuZero는 환경 모델 자체를 학습으로 만든다 — 그게 핵심 발상.
model-based의 강점: sample efficiency, planning, transfer.
어려운 점: 고차원 상태, 누적 오차, 확률성. → 잠재 공간 학습으로 회피한다.

📖 정리하는 한 줄

"환경을 외부에서 받지 못한다면, 학습으로 만들어서 머릿속에 두면 된다."

이게 MuZero가 던지는 한 줄 메시지다. 그리고 그걸 어떻게 잘 만드는지가 다음 챕터의 주제.

➡️ 다음 챕터 — 세 개의 신경망

MuZero는 환경 모델을 한 덩어리로 학습하지 않는다. 세 개의 신경망으로 쪼갠다.

representation h(s) — 관측을 압축된 상태로
dynamics g(s, a) — 압축된 상태에서 다음 상태로
prediction f(s) — 압축된 상태에서 정책+가치로

이 세 개가 어떻게 하나의 계획 시스템을 이루는지가 다음 챕터.

← 이전 확인 퀴즈 다음 → world model을 셋으로 쪼개는 이유