학습 규모 — 얼마나 큰 데이터, 얼마나 긴 연산

MuZero의 결과를 정직하게 평가하려면 학습 규모도 봐야 한다.

⚠ 작지 않은 비용

MuZero는 결코 작은 알고리즘이 아니다. 학습은 막대한 자원이 필요했다.

📖 보드 게임 학습 규모 (논문 기준)

self-play 게임 수: 1백만 게임 이상
MCTS 시뮬레이션: 각 수마다 800회
학습 스텝: 약 100만 스텝
하드웨어: TPU v3 1000+ 개 병렬, 며칠~몇 주

📖 아타리 학습 규모

환경 프레임: 약 20억 (개별 게임당 약 20시간 실시간 분량)
MCTS 시뮬레이션: 각 수마다 50회 (보드보다 적음 — 시간 제약)
57 게임 각각 따로 학습 (별개 모델)
하드웨어: 게임당 TPU 8개 × 12일 정도

💡 이게 의미하는 것 — 일반화 ≠ 효율

"같은 알고리즘으로 여러 도메인을 푼다"는 것과 "효율적으로 푼다"는 다른 이야기다.

MuZero는 일반성을 보여줬지만, 사람보다 훨씬 많은 경험이 필요
같은 게임을 사람은 몇 시간, MuZero는 환경 프레임 수십억 분량 필요
"같은 알고리즘이 가능하다"의 증명이지, "효율적이다"의 증명은 아님

후속 연구(EfficientZero 등)가 이 효율 문제를 다룬다 — 다만 이 책은 거기까지 가지 않는다.

📖 그런데 보드 vs 아타리, 어느 쪽이 더 비쌌나

흥미롭게도 보드 게임 쪽이 더 비싸다.

보드 게임: 시뮬레이션 800회 × 긴 게임 길이 × 백만 게임 → 거대한 연산
아타리: 시뮬레이션 50회 × 짧은 결정 주기 × 20억 프레임 → 데이터 많지만 한 결정의 연산은 적음

두 환경 모두 절대 작은 비용이 아니라, 누가 더 비싼지 단순 비교는 어렵다.

← 이전 보상 구조 — 끝에 한 번 vs 매 스텝 다음 → 환경별로 미세하게 조정한 부분들