규칙이 없다면, 학습하면 된다

🎬 지난 챕터 요약

AlphaZero는 next_state(s, a) 함수가 외부에 있어야만 작동한다.

그런데 아타리·자율주행·로봇처럼 현실 문제 대부분은 이 함수를 주지 않는다.

🎯 이번 챕터의 핵심 질문

"규칙을 외부에서 못 받는다면, 학습으로 만들면 어떨까?"

이게 단순하지만 야심찬 발상이다. 그리고 이게 MuZero를 비롯한 model-based 강화학습의 핵심 아이디어다.

📖 이번 챕터에서 다룰 것

다음 챕터(Ch 3)에서는 MuZero가 이 model을 어떻게 세 개의 신경망으로 쪼개서 풀었는지 본다. 이번 챕터는 그 전 단계 — 왜 굳이 그런 짓을 하는가의 답을 만드는 단계다.