시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 2 · 환경 모델을 학습한다

왜 굳이 model을 학습하는가

이상한 질문이 생길 수 있다.

🤔 의문

"model-free가 더 단순한데 왜 굳이 model을 학습하지? 어차피 행동만 잘 하면 되잖아."

📖 이유 1 — 샘플 효율 (Sample Efficiency)

model-free는 좋은 행동을 학습하려면 실제 경험을 엄청나게 많이 해야 한다.

  • DQN이 아타리 한 게임 마스터하는 데 — 약 2억 프레임 (사람 시간 38일분)
  • 사람은 같은 게임을 — 2시간이면 충분

이 차이는 어디서 오나? 사람은 머릿속에서 시뮬레이션한다.

"이 수를 두면 어떻게 될까"를 미리 상상해보고, 안 좋은 수는 안 둔다. 직접 해보지 않고도 학습한다.

이게 model-based의 핵심 강점 — 경험을 적게 쓰고도 잘 학습.

📖 이유 2 — 계획 (Planning)

모델이 있으면 여러 수 앞을 미리 본다.

  • "이 수 → 상대가 저렇게 → 그럼 나는 또..." 식으로 트리를 키운다
  • 이게 시즌 1에서 본 MCTS
  • 모델 없이는 트리를 못 만든다 — 그래서 계획도 못 함
📖 이유 3 — 전이 학습 (Transfer)

환경의 "구조"를 학습해 두면, 보상이 바뀌어도 새로 학습할 필요가 적다.

  • 예: 미로 환경의 dynamics를 학습한 모델이 있다면
  • "출구로 가라" → "보물로 가라"로 목표가 바뀌어도 같은 모델로 새 계획만 다시
💡 정리

model-based는 단순 model-free보다 경험 1만큼당 얻는 정보가 훨씬 많다.

대신 모델을 잘 학습해야 한다는 부담이 있다 — 다음 섹션에서 직접 해보자.