현실 세계 — next_state가 사라진다

게임을 벗어나 현실 문제로 가면 사정이 훨씬 나빠진다.

🚗 자율주행

"조향 5도 더 틀면 다음 1초 후 카메라 화면은?" — 이걸 함수로 표현할 방법이 없다.

🤖 로봇 팔

물리 시뮬레이터를 쓸 수는 있지만 실제 로봇의 동작과 정확히 같지 않다 (sim-to-real gap).

⚠ 핵심 문제

현실에서는 next_state 함수 자체가 존재하지 않거나, 너무 복잡해서 코드로 못 쓴다.

그래서 시즌 1에서 본 AlphaZero를 그대로 가져다 쓸 수가 없다.

💡 그렇다면 어떻게 해야 하나?

답은 단순하지만 야심차다: next_state 함수를 학습으로 만든다.

즉 "규칙"을 외부에서 받는 게 아니라, 데이터로부터 신경망이 익히게 한다.

이게 MuZero(2019)의 핵심 아이디어다. 다음 챕터에서 본격적으로 다룬다.