model-based — 환경을 머릿속에 만든다
이번엔 반대편 — model-based.
📖 model-based의 아이디어
"환경이 어떻게 동작하는지 먼저 학습한다. 그러고 나서 그 학습된 환경 위에서 계획한다."
- 경험에서 환경 모델(world model)
M(s, a) ≈ s'을 학습 - 그 모델로 머릿속에서 시뮬레이션 ("이러면 어떻게 될까?")
- 좋은 행동 선택
🎯 핵심 차이
- model-free: 상태에서 곧장 행동으로 (한 방)
- model-based: 상태 → 환경 시뮬레이션 → 계획 → 행동 (중간에 머릿속 시뮬레이션이 끼어듦)
💡 AlphaZero는 어느 쪽?
AlphaZero는 model-based다 — MCTS로 시뮬레이션해서 계획한다.
다만 환경 모델을 외부에서 받았다(게임 규칙). MuZero는 그걸 학습으로 만든다.