학습 규모 — 얼마나 큰 데이터, 얼마나 긴 연산
MuZero의 결과를 정직하게 평가하려면 학습 규모도 봐야 한다.
⚠ 작지 않은 비용
MuZero는 결코 작은 알고리즘이 아니다. 학습은 막대한 자원이 필요했다.
📖 보드 게임 학습 규모 (논문 기준)
- self-play 게임 수: 1백만 게임 이상
- MCTS 시뮬레이션: 각 수마다 800회
- 학습 스텝: 약 100만 스텝
- 하드웨어: TPU v3 1000+ 개 병렬, 며칠~몇 주
📖 아타리 학습 규모
- 환경 프레임: 약 20억 (개별 게임당 약 20시간 실시간 분량)
- MCTS 시뮬레이션: 각 수마다 50회 (보드보다 적음 — 시간 제약)
- 57 게임 각각 따로 학습 (별개 모델)
- 하드웨어: 게임당 TPU 8개 × 12일 정도
💡 이게 의미하는 것 — 일반화 ≠ 효율
"같은 알고리즘으로 여러 도메인을 푼다"는 것과 "효율적으로 푼다"는 다른 이야기다.
- MuZero는 일반성을 보여줬지만, 사람보다 훨씬 많은 경험이 필요
- 같은 게임을 사람은 몇 시간, MuZero는 환경 프레임 수십억 분량 필요
- "같은 알고리즘이 가능하다"의 증명이지, "효율적이다"의 증명은 아님
후속 연구(EfficientZero 등)가 이 효율 문제를 다룬다 — 다만 이 책은 거기까지 가지 않는다.
📖 그런데 보드 vs 아타리, 어느 쪽이 더 비쌌나
흥미롭게도 보드 게임 쪽이 더 비싸다.
- 보드 게임: 시뮬레이션 800회 × 긴 게임 길이 × 백만 게임 → 거대한 연산
- 아타리: 시뮬레이션 50회 × 짧은 결정 주기 × 20억 프레임 → 데이터 많지만 한 결정의 연산은 적음
두 환경 모두 절대 작은 비용이 아니라, 누가 더 비싼지 단순 비교는 어렵다.