현실 세계 — next_state가 사라진다
게임을 벗어나 현실 문제로 가면 사정이 훨씬 나빠진다.
🚗 자율주행
- 상태: 카메라·라이다·속도·위치
- 행동: 조향각, 가속/브레이크
- next_state는? 도로 상태, 다른 차, 보행자, 날씨 — 우주 전체
"조향 5도 더 틀면 다음 1초 후 카메라 화면은?" — 이걸 함수로 표현할 방법이 없다.
🤖 로봇 팔
- 상태: 관절 각도, 그리퍼 카메라
- 행동: 관절 토크 6개
- next_state는? 마찰, 관성, 충돌, 부품 마모...
물리 시뮬레이터를 쓸 수는 있지만 실제 로봇의 동작과 정확히 같지 않다 (sim-to-real gap).
⚠ 핵심 문제
현실에서는 next_state 함수 자체가 존재하지 않거나, 너무 복잡해서 코드로 못 쓴다.
그래서 시즌 1에서 본 AlphaZero를 그대로 가져다 쓸 수가 없다.
💡 그렇다면 어떻게 해야 하나?
답은 단순하지만 야심차다: next_state 함수를 학습으로 만든다.
즉 "규칙"을 외부에서 받는 게 아니라, 데이터로부터 신경망이 익히게 한다.
이게 MuZero(2019)의 핵심 아이디어다. 다음 챕터에서 본격적으로 다룬다.