MuZero가 도전한 네 환경

MuZero 논문(Schrittwieser et al., 2020 Nature)이 다룬 환경은 크게 네 종류다.

📖 1. 체스 (Chess)

관측: 8×8 보드 × 14 채널 (말 종류 + 추가 정보)
행동: 4672개 (이동 + 캐슬링 + 앙파상 + 프로모션 다 합쳐)
보상: 게임 끝에 +1(승) / 0(무) / -1(패) 한 번만
난이도: 결정론, 완전 정보, 두 플레이어

📖 2. 쇼기 (Shogi, 일본 장기)

관측: 9×9 보드, 추가로 "잡은 말" 상태 (drop 규칙)
행동: 11,259개 (이동 + drop)
특징: 체스보다 행동 공간이 훨씬 큼 — 가장 어려운 클래식 보드 게임 중 하나
역사: AlphaZero가 인간 챔피언급 엔진(Elmo)을 처음으로 압도

📖 3. 바둑 (Go)

관측: 19×19 보드 × 17 채널 (현재 + 과거 8수 + 색)
행동: 362개 (361개 점 + pass)
특징: 시즌 1 PART 5~7의 주인공. 알파고 시리즈가 처음 정복

📖 4. 아타리 (Atari ALE, 57개 게임)

관측: 84×84 회색조 프레임 × 4 (시간 연속성을 위해 4프레임 스택)
행동: 4~18개 (조이스틱 방향 + 버튼)
보상: 매 스텝마다 게임 점수 변화 (대부분 0이지만 가끔 +10, +100 등)
특징: 픽셀 입력, 확률성 있음, 1인 게임, 게임 규칙을 외부에서 받을 수 없음
의의: 보드 게임과 결정적으로 다른 도메인 — 여기서 MuZero가 진가 발휘

💡 도메인 차이의 의미

네 환경의 결정적 차이를 한 표로 정리하면:

속성	체스/쇼기/바둑	아타리
관측 형태	이산 보드 (특징판)	연속 픽셀
결정성	결정론	확률적 (sticky actions 등)
플레이어	2인 (적대)	1인
보상	게임 끝 1회	매 스텝 (희소하지만)
외부 시뮬레이터	있음 (규칙)	없음 (블랙박스)

이렇게 다른 도메인을 한 알고리즘으로 푸는 게 MuZero가 시도한 것.

← 이전 PART 8의 마지막 — 일반화의 끝을 본다 다음 → 보드 게임 결과 — AlphaZero와 동등 또는 그 이상