왜 굳이 model을 학습하는가

이상한 질문이 생길 수 있다.

🤔 의문

"model-free가 더 단순한데 왜 굳이 model을 학습하지? 어차피 행동만 잘 하면 되잖아."

📖 이유 1 — 샘플 효율 (Sample Efficiency)

model-free는 좋은 행동을 학습하려면 실제 경험을 엄청나게 많이 해야 한다.

이 차이는 어디서 오나? 사람은 머릿속에서 시뮬레이션한다.

"이 수를 두면 어떻게 될까"를 미리 상상해보고, 안 좋은 수는 안 둔다. 직접 해보지 않고도 학습한다.

이게 model-based의 핵심 강점 — 경험을 적게 쓰고도 잘 학습.

📖 이유 2 — 계획 (Planning)

모델이 있으면 여러 수 앞을 미리 본다.

📖 이유 3 — 전이 학습 (Transfer)

환경의 "구조"를 학습해 두면, 보상이 바뀌어도 새로 학습할 필요가 적다.

💡 정리

model-based는 단순 model-free보다 경험 1만큼당 얻는 정보가 훨씬 많다.

대신 모델을 잘 학습해야 한다는 부담이 있다 — 다음 섹션에서 직접 해보자.