model-free — 환경을 모르고 행동만 학습

단순함: 환경을 모델링할 필요 X, 그냥 정책만 학습
적용 범위 넓음: next_state 함수가 없는 환경에서도 작동
구현 쉬움: 신경망 하나만 잘 학습시키면 됨

먼저 더 간단한 쪽 — model-free 강화학습을 보자.

📖 model-free의 아이디어

"환경이 어떻게 동작하는지 굳이 알 필요 없다. 좋은 행동만 알면 된다."

🎯 대표 예시 — DQN (Deep Q-Network, 2013)

아타리 게임을 깨버린 알고리즘. DeepMind의 첫 충격 성과 (알파고보다 3년 빠름).

아타리 게임 49종에서 사람 수준 이상 — model-free의 위력 증명.

💡 model-free의 장점

⚠ model-free의 단점