시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 5 · Atari + 바둑 + 체스 = 같은 알고리즘

챕터 5 정리 + PART 8 전체 마무리

📌 이번 챕터 핵심

  • MuZero는 보드 게임(체스/쇼기/바둑)과 아타리(57 게임) 두 다른 도메인에서 모두 SOTA 또는 그에 준하는 성능.
  • 보드 게임에서는 AlphaZero와 동등 또는 살짝 우세 — 게임 규칙을 받지 않고도 그렇게 됨.
  • 아타리에서는 그 시점 model-free 최강(R2D2) 압도 — 약 1.5배 normalized score.
  • "같은 알고리즘"이란 본체(h, g, f + MCTS + self-play)가 같다는 의미이며, 입력 형태/행동 수/할인율 같은 명세는 환경에 맞춤.
  • Bitter Lesson의 또 한 번의 검증 — 도메인 지식 줄이고 일반 알고리즘 + 계산이 결국 이긴다.
📖 PART 8 전체 정리 — 5 챕터의 큰 흐름
  1. Ch 1 (한계 발견): AlphaZero는 외부에서 받은 게임 규칙(next_state)에 의존. 현실엔 그 함수가 없다.
  2. Ch 2 (해결 방향): 규칙이 없다면 학습으로 만든다. 그게 model-based RL — sample efficient, planning, transfer 가능.
  3. Ch 3 (아키텍처): world model을 셋으로 분리 — h(관측→잠재), g(잠재 dynamics), f(정책+가치). 잠재 공간에서만 계산.
  4. Ch 4 (계획 메커니즘): MCTS 네 단계를 잠재 공간 버전으로. g가 Expand에서 호출되며 외부 규칙 자리를 대체.
  5. Ch 5 (일반성 증명): 같은 알고리즘이 보드/픽셀 두 도메인 모두 처리. AI 일반화의 한 걸음.
💡 한 문단으로 — MuZero가 무엇인가

"AlphaZero의 후속작. 게임 규칙을 외부에서 받는 대신 신경망 g가 학습한다. 세 신경망 h, g, f가 잠재 공간 위에서 작동하며, 그 위에서 MCTS가 같은 4단계로 돈다. 결과적으로 보드 게임과 아타리 게임을 같은 알고리즘 본체로 모두 풀어냈다. 이게 일반화의 한 끝이며, 다음 단계 — 게임에서 과학으로 — 의 근거가 된다."

➡️ 다음 파트 — PART 9: 다리, 게임에서 과학으로

PART 8 끝. 다음 PART 9부터는 알고리즘이 아니라 새로운 문제를 만난다 — 단백질 구조 예측.

  • 왜 단백질이 중요한가
  • "구조 예측"이라는 문제가 왜 50년 동안 풀리지 않았나
  • 이 문제가 왜 게임처럼 "잘 정의된" 문제인지 — 그래서 같은 사고방식이 통할 수 있는 이유
  • 알파고 팀이 어떻게 이 문제에 발을 들였나

여기서부터는 알고리즘이 아니라 과학 자체의 이야기. 시즌 2의 본격 본론이 시작된다.

🏆 PART 8 · MuZero — 완결

2019년 12월. DeepMind가 발표한 알고리즘 한 개로 보드 게임과 아타리가 동시에 정리됐다.

"같은 알고리즘, 다른 도메인" — 이게 진짜로 가능하다는 것이 증명된 순간이다.

📚 PART 9에서 만나자.