model-based — 환경을 머릿속에 만든다

이번엔 반대편 — model-based.

📖 model-based의 아이디어

"환경이 어떻게 동작하는지 먼저 학습한다. 그러고 나서 그 학습된 환경 위에서 계획한다."

🎯 핵심 차이

💡 AlphaZero는 어느 쪽?

AlphaZero는 model-based다 — MCTS로 시뮬레이션해서 계획한다.

다만 환경 모델을 외부에서 받았다(게임 규칙). MuZero는 그걸 학습으로 만든다.