시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 5 · Atari + 바둑 + 체스 = 같은 알고리즘

아타리 결과 — 모델-프리 최강을 넘어서다

이번엔 진짜 흥미로운 쪽 — 아타리 결과.

📖 비교 대상 — 그 시점의 강자들

MuZero 발표 시점(2019~2020)에 아타리 벤치마크 최강자는 model-free RL 알고리즘들이었다.

  • R2D2 (2019): Recurrent + distributed Q-learning. 당시 SOTA.
  • IMPALA, Ape-X, Rainbow 등: 그 직전 세대의 강자들

이들은 model-free라서 환경 모델 학습이 필요 없는 대신, 엄청난 양의 데이터를 봐야 했다.

🎯 정량 결과 — 57 게임 평균
  • Mean human-normalized score:
    • Rainbow (2017): ~874%
    • R2D2 (2019): ~3374% (이전 최강)
    • MuZero (2019): ~4998% — R2D2 대비 약 1.5배
  • Median human-normalized score:
    • R2D2: ~1342%
    • MuZero: ~2041%

human-normalized score는 "사람 평균 점수 = 100%, 무작위 행동 = 0%"로 정규화한 지표.

💡 한 줄로 — "model-free의 시대를 끝낸 결과"

그 동안 아타리는 model-free의 영토였다 — model-based는 누적 오차 때문에 잘 안 통한다고 여겨졌다.

MuZero는 "잠재 공간 학습" 트릭으로 이 문제를 우회해서, 보드 게임에서 위력을 입증한 model-based 패러다임을 아타리에도 가져왔다. 결과는 새 SOTA.

📖 특히 어려운 게임에서의 비교

아타리 게임 중 일부는 "탐험이 어려운" 게임으로 악명 높다.

  • Montezuma's Revenge: 미로 탐험, 보상이 매우 희소. 사람도 어려운 게임.
  • Private Eye: 긴 추리 추적
  • Pitfall: 함정 회피

이런 게임에서 MuZero가 R2D2보다 강하다는 게 특히 흥미로운데, 이유는 MCTS의 명시적 계획이 "이 길은 함정이다"를 미리 발견할 수 있기 때문.

model-free는 실수해야만 그게 함정인 줄 안다. MuZero는 머릿속 시뮬레이션에서 미리 본다 — 사람이 게임할 때와 비슷한 방식.