시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 2 · 환경 모델을 학습한다

model-free — 환경을 모르고 행동만 학습

먼저 더 간단한 쪽 — model-free 강화학습을 보자.

📖 model-free의 아이디어

"환경이 어떻게 동작하는지 굳이 알 필요 없다. 좋은 행동만 알면 된다."

  • 입력: 상태 s
  • 출력: 그 상태에서 어떤 행동을 해야 좋은가
  • 중간에 next_state 없음 — 직접 (s → 좋은 행동)을 학습
🎯 대표 예시 — DQN (Deep Q-Network, 2013)

아타리 게임을 깨버린 알고리즘. DeepMind의 첫 충격 성과 (알파고보다 3년 빠름).

  • 화면 픽셀 입력 → 행동별 Q값(=얼마나 좋은 행동인가) 출력
  • Q값이 가장 높은 행동을 선택
  • 실제 게임을 많이 플레이해서 Q값을 갱신

아타리 게임 49종에서 사람 수준 이상 — model-free의 위력 증명.

💡 model-free의 장점
  • 단순함: 환경을 모델링할 필요 X, 그냥 정책만 학습
  • 적용 범위 넓음: next_state 함수가 없는 환경에서도 작동
  • 구현 쉬움: 신경망 하나만 잘 학습시키면 됨
⚠ model-free의 단점
  • 샘플 비효율: 사람보다 수십~수백 배 많은 경험이 필요
  • 계획(planning) 불가: "이 수를 두면 미래가 어떻게 될까"를 미리 못 봄
  • 전이 학습 어려움: 환경이 살짝만 바뀌어도 처음부터 다시