챕터 5 정리 + PART 8 전체 마무리
📌 이번 챕터 핵심
- MuZero는 보드 게임(체스/쇼기/바둑)과 아타리(57 게임) 두 다른 도메인에서 모두 SOTA 또는 그에 준하는 성능.
- 보드 게임에서는 AlphaZero와 동등 또는 살짝 우세 — 게임 규칙을 받지 않고도 그렇게 됨.
- 아타리에서는 그 시점 model-free 최강(R2D2) 압도 — 약 1.5배 normalized score.
- "같은 알고리즘"이란 본체(h, g, f + MCTS + self-play)가 같다는 의미이며, 입력 형태/행동 수/할인율 같은 명세는 환경에 맞춤.
- Bitter Lesson의 또 한 번의 검증 — 도메인 지식 줄이고 일반 알고리즘 + 계산이 결국 이긴다.
📖 PART 8 전체 정리 — 5 챕터의 큰 흐름
- Ch 1 (한계 발견): AlphaZero는 외부에서 받은 게임 규칙(
next_state)에 의존. 현실엔 그 함수가 없다. - Ch 2 (해결 방향): 규칙이 없다면 학습으로 만든다. 그게 model-based RL — sample efficient, planning, transfer 가능.
- Ch 3 (아키텍처): world model을 셋으로 분리 — h(관측→잠재), g(잠재 dynamics), f(정책+가치). 잠재 공간에서만 계산.
- Ch 4 (계획 메커니즘): MCTS 네 단계를 잠재 공간 버전으로. g가 Expand에서 호출되며 외부 규칙 자리를 대체.
- Ch 5 (일반성 증명): 같은 알고리즘이 보드/픽셀 두 도메인 모두 처리. AI 일반화의 한 걸음.
💡 한 문단으로 — MuZero가 무엇인가
"AlphaZero의 후속작. 게임 규칙을 외부에서 받는 대신 신경망 g가 학습한다. 세 신경망 h, g, f가 잠재 공간 위에서 작동하며, 그 위에서 MCTS가 같은 4단계로 돈다. 결과적으로 보드 게임과 아타리 게임을 같은 알고리즘 본체로 모두 풀어냈다. 이게 일반화의 한 끝이며, 다음 단계 — 게임에서 과학으로 — 의 근거가 된다."
➡️ 다음 파트 — PART 9: 다리, 게임에서 과학으로
PART 8 끝. 다음 PART 9부터는 알고리즘이 아니라 새로운 문제를 만난다 — 단백질 구조 예측.
- 왜 단백질이 중요한가
- "구조 예측"이라는 문제가 왜 50년 동안 풀리지 않았나
- 이 문제가 왜 게임처럼 "잘 정의된" 문제인지 — 그래서 같은 사고방식이 통할 수 있는 이유
- 알파고 팀이 어떻게 이 문제에 발을 들였나
여기서부터는 알고리즘이 아니라 과학 자체의 이야기. 시즌 2의 본격 본론이 시작된다.
🏆 PART 8 · MuZero — 완결
2019년 12월. DeepMind가 발표한 알고리즘 한 개로 보드 게임과 아타리가 동시에 정리됐다.
"같은 알고리즘, 다른 도메인" — 이게 진짜로 가능하다는 것이 증명된 순간이다.
📚 PART 9에서 만나자.