시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 1 · AlphaZero의 한계 — 규칙이 있어야 한다

시즌 2 시작 — 규칙이 사라진 세계

🚀 시즌 2 · 첫 챕터

시즌 1에서 우리는 AlphaZero까지 도착했다.

같은 알고리즘이 바둑·체스·쇼기를 다 푸는 충격적인 결과를 봤다. 단순함이 강함이라는 명제도 검증됐다.

이제 한 발 더 들어간다. AlphaZero에는 명백한 한 가지 전제가 있다.

🎯 이번 챕터에서 다룰 것
  • AlphaZero가 작동하기 위해 반드시 필요한 한 가지
  • 그것이 없으면 무슨 일이 생기는가
  • 현실 세계는 왜 그것을 주지 않는가
  • 그래서 다음 알고리즘(MuZero)이 필요한 이유
💡 미리 보는 결론

AlphaZero는 게임 규칙이라는 함수를 입력으로 받는다.

구체적으로 next_state(상태, 수) → 다음 상태 — 이게 없으면 MCTS의 expand 단계가 작동하지 않는다.

그런데 현실 문제 대부분에는 이 함수가 없다. 아타리 게임도, 자율주행도, 로봇도 마찬가지.

시즌 1을 잘 마쳤다면 이 챕터는 어렵지 않다. 이미 시즌 1 PART 3~7에서 본 MCTS와 AlphaZero를 한 번 더 들여다보면서 "여기서 어떤 가정을 하고 있었나"를 짚는 작업이다.