시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 1 · AlphaZero의 한계 — 규칙이 있어야 한다

현실 세계 — next_state가 사라진다

게임을 벗어나 현실 문제로 가면 사정이 훨씬 나빠진다.

🚗 자율주행
  • 상태: 카메라·라이다·속도·위치
  • 행동: 조향각, 가속/브레이크
  • next_state는? 도로 상태, 다른 차, 보행자, 날씨 — 우주 전체

"조향 5도 더 틀면 다음 1초 후 카메라 화면은?" — 이걸 함수로 표현할 방법이 없다.

🤖 로봇 팔
  • 상태: 관절 각도, 그리퍼 카메라
  • 행동: 관절 토크 6개
  • next_state는? 마찰, 관성, 충돌, 부품 마모...

물리 시뮬레이터를 쓸 수는 있지만 실제 로봇의 동작과 정확히 같지 않다 (sim-to-real gap).

⚠ 핵심 문제

현실에서는 next_state 함수 자체가 존재하지 않거나, 너무 복잡해서 코드로 못 쓴다.

그래서 시즌 1에서 본 AlphaZero를 그대로 가져다 쓸 수가 없다.

💡 그렇다면 어떻게 해야 하나?

답은 단순하지만 야심차다: next_state 함수를 학습으로 만든다.

즉 "규칙"을 외부에서 받는 게 아니라, 데이터로부터 신경망이 익히게 한다.

이게 MuZero(2019)의 핵심 아이디어다. 다음 챕터에서 본격적으로 다룬다.