model-free — 환경을 모르고 행동만 학습
먼저 더 간단한 쪽 — model-free 강화학습을 보자.
📖 model-free의 아이디어
"환경이 어떻게 동작하는지 굳이 알 필요 없다. 좋은 행동만 알면 된다."
- 입력: 상태
s - 출력: 그 상태에서 어떤 행동을 해야 좋은가
- 중간에 next_state 없음 — 직접 (s → 좋은 행동)을 학습
🎯 대표 예시 — DQN (Deep Q-Network, 2013)
아타리 게임을 깨버린 알고리즘. DeepMind의 첫 충격 성과 (알파고보다 3년 빠름).
- 화면 픽셀 입력 → 행동별 Q값(=얼마나 좋은 행동인가) 출력
- Q값이 가장 높은 행동을 선택
- 실제 게임을 많이 플레이해서 Q값을 갱신
아타리 게임 49종에서 사람 수준 이상 — model-free의 위력 증명.
💡 model-free의 장점
- 단순함: 환경을 모델링할 필요 X, 그냥 정책만 학습
- 적용 범위 넓음: next_state 함수가 없는 환경에서도 작동
- 구현 쉬움: 신경망 하나만 잘 학습시키면 됨
⚠ model-free의 단점
- 샘플 비효율: 사람보다 수십~수백 배 많은 경험이 필요
- 계획(planning) 불가: "이 수를 두면 미래가 어떻게 될까"를 미리 못 봄
- 전이 학습 어려움: 환경이 살짝만 바뀌어도 처음부터 다시