시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 2 · 환경 모델을 학습한다

규칙이 없다면, 학습하면 된다

🎬 지난 챕터 요약

AlphaZero는 next_state(s, a) 함수가 외부에 있어야만 작동한다.

그런데 아타리·자율주행·로봇처럼 현실 문제 대부분은 이 함수를 주지 않는다.

🎯 이번 챕터의 핵심 질문

"규칙을 외부에서 못 받는다면, 학습으로 만들면 어떨까?"

이게 단순하지만 야심찬 발상이다. 그리고 이게 MuZero를 비롯한 model-based 강화학습의 핵심 아이디어다.

📖 이번 챕터에서 다룰 것
  1. model-freemodel-based의 차이 — RL의 두 갈래
  2. world model이라는 개념 — 환경을 신경망 안에 갖는다
  3. 왜 굳이 model을 학습하는가 — sample efficiency 관점
  4. 실제로 모델을 학습시키는 미니 데모 (코드)
  5. 그게 그렇게 쉬운가? — compounding error 이슈

다음 챕터(Ch 3)에서는 MuZero가 이 model을 어떻게 세 개의 신경망으로 쪼개서 풀었는지 본다. 이번 챕터는 그 전 단계 — 왜 굳이 그런 짓을 하는가의 답을 만드는 단계다.