보드 게임 결과 — AlphaZero와 동등 또는 그 이상
먼저 보드 게임 쪽 결과부터.
📖 핵심 결과 한 줄
"MuZero는 게임 규칙을 받지 않았는데도, 게임 규칙을 받은 AlphaZero와 같거나 더 강하다."
🎯 바둑 — MuZero가 살짝 더 강함
- 같은 학습 자원(self-play 게임 수, 신경망 크기)에서 비교
- 학습 후 직접 대국 → MuZero가 약간 우세 (Elo 차이 약 +50~100)
- 특이한 점: MuZero가 "규칙을 모름에도" 더 강한 게 아니라, 학습된 표현이 더 효율적일 가능성
🎯 체스 / 쇼기 — 본질적 동등
- 두 게임 모두 AlphaZero와 MuZero가 실질적으로 같은 강도
- 둘 다 Stockfish(체스 최강 엔진) / Elmo(쇼기 최강 엔진)을 압도
- 인간 그랜드마스터 수준은 한참 위
💡 이 결과가 의미하는 것
"게임 규칙이라는 외부 정보를 받지 않아도 같은 수준의 성능이 가능하다."
- 즉 학습된 dynamics가 실제 게임 규칙과 동등한 정확도를 가짐
- 여기서 "정확도"는 픽셀 복원이 아니라, "MCTS 계획의 품질" 기준
- 잠재 공간이 게임 규칙의 본질을 압축해서 담아냈다는 증거
📖 한 가지 흥미로운 발견 — 학습 효율
MuZero는 학습 초반에 AlphaZero보다 느리게 향상되지만, 중반 이후 따라잡고 후반에 같거나 살짝 우세한 양상을 보였다.
이유: 초반에는 학습할 게 더 많아서(환경 모델도 같이 배워야 함) 느리지만, 한 번 환경 모델이 잘 학습되면 그 뒤로는 같은 양의 경험에서 더 많은 정보를 뽑아낼 수 있다 — Ch 2에서 본 model-based의 sample efficiency가 실제로 발현된 것.