규칙이 없다면, 학습하면 된다
🎬 지난 챕터 요약
AlphaZero는 next_state(s, a) 함수가 외부에 있어야만 작동한다.
그런데 아타리·자율주행·로봇처럼 현실 문제 대부분은 이 함수를 주지 않는다.
🎯 이번 챕터의 핵심 질문
"규칙을 외부에서 못 받는다면, 학습으로 만들면 어떨까?"
이게 단순하지만 야심찬 발상이다. 그리고 이게 MuZero를 비롯한 model-based 강화학습의 핵심 아이디어다.
📖 이번 챕터에서 다룰 것
- model-free와 model-based의 차이 — RL의 두 갈래
- world model이라는 개념 — 환경을 신경망 안에 갖는다
- 왜 굳이 model을 학습하는가 — sample efficiency 관점
- 실제로 모델을 학습시키는 미니 데모 (코드)
- 그게 그렇게 쉬운가? — compounding error 이슈
다음 챕터(Ch 3)에서는 MuZero가 이 model을 어떻게 세 개의 신경망으로 쪼개서 풀었는지 본다. 이번 챕터는 그 전 단계 — 왜 굳이 그런 짓을 하는가의 답을 만드는 단계다.