MuZero가 도전한 네 환경
MuZero 논문(Schrittwieser et al., 2020 Nature)이 다룬 환경은 크게 네 종류다.
📖 1. 체스 (Chess)
- 관측: 8×8 보드 × 14 채널 (말 종류 + 추가 정보)
- 행동: 4672개 (이동 + 캐슬링 + 앙파상 + 프로모션 다 합쳐)
- 보상: 게임 끝에 +1(승) / 0(무) / -1(패) 한 번만
- 난이도: 결정론, 완전 정보, 두 플레이어
📖 2. 쇼기 (Shogi, 일본 장기)
- 관측: 9×9 보드, 추가로 "잡은 말" 상태 (drop 규칙)
- 행동: 11,259개 (이동 + drop)
- 특징: 체스보다 행동 공간이 훨씬 큼 — 가장 어려운 클래식 보드 게임 중 하나
- 역사: AlphaZero가 인간 챔피언급 엔진(Elmo)을 처음으로 압도
📖 3. 바둑 (Go)
- 관측: 19×19 보드 × 17 채널 (현재 + 과거 8수 + 색)
- 행동: 362개 (361개 점 + pass)
- 특징: 시즌 1 PART 5~7의 주인공. 알파고 시리즈가 처음 정복
📖 4. 아타리 (Atari ALE, 57개 게임)
- 관측: 84×84 회색조 프레임 × 4 (시간 연속성을 위해 4프레임 스택)
- 행동: 4~18개 (조이스틱 방향 + 버튼)
- 보상: 매 스텝마다 게임 점수 변화 (대부분 0이지만 가끔 +10, +100 등)
- 특징: 픽셀 입력, 확률성 있음, 1인 게임, 게임 규칙을 외부에서 받을 수 없음
- 의의: 보드 게임과 결정적으로 다른 도메인 — 여기서 MuZero가 진가 발휘
💡 도메인 차이의 의미
네 환경의 결정적 차이를 한 표로 정리하면:
| 속성 | 체스/쇼기/바둑 | 아타리 |
|---|---|---|
| 관측 형태 | 이산 보드 (특징판) | 연속 픽셀 |
| 결정성 | 결정론 | 확률적 (sticky actions 등) |
| 플레이어 | 2인 (적대) | 1인 |
| 보상 | 게임 끝 1회 | 매 스텝 (희소하지만) |
| 외부 시뮬레이터 | 있음 (규칙) | 없음 (블랙박스) |
이렇게 다른 도메인을 한 알고리즘으로 푸는 게 MuZero가 시도한 것.