시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 2 · 환경 모델을 학습한다

model-based — 환경을 머릿속에 만든다

이번엔 반대편 — model-based.

📖 model-based의 아이디어

"환경이 어떻게 동작하는지 먼저 학습한다. 그러고 나서 그 학습된 환경 위에서 계획한다."

  1. 경험에서 환경 모델(world model) M(s, a) ≈ s'을 학습
  2. 그 모델로 머릿속에서 시뮬레이션 ("이러면 어떻게 될까?")
  3. 좋은 행동 선택
model-free vs model-based model-free 상태 s (픽셀) 정책 π(s) 행동 a 상태 → 행동 (한 방) DQN, REINFORCE, PPO model-based 상태 s (픽셀) world model M(s,a) ≈ s' (시뮬레이션) 계획 (MCTS 등) 행동 a 학습된 모델로 미리 시뮬레이션 → 행동
🎯 핵심 차이
  • model-free: 상태에서 곧장 행동으로 (한 방)
  • model-based: 상태 → 환경 시뮬레이션 → 계획 → 행동 (중간에 머릿속 시뮬레이션이 끼어듦)
💡 AlphaZero는 어느 쪽?

AlphaZero는 model-based다 — MCTS로 시뮬레이션해서 계획한다.

다만 환경 모델을 외부에서 받았다(게임 규칙). MuZero는 그걸 학습으로 만든다.