시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 5 · Atari + 바둑 + 체스 = 같은 알고리즘

MuZero가 도전한 네 환경

MuZero 논문(Schrittwieser et al., 2020 Nature)이 다룬 환경은 크게 네 종류다.

📖 1. 체스 (Chess)
  • 관측: 8×8 보드 × 14 채널 (말 종류 + 추가 정보)
  • 행동: 4672개 (이동 + 캐슬링 + 앙파상 + 프로모션 다 합쳐)
  • 보상: 게임 끝에 +1(승) / 0(무) / -1(패) 한 번만
  • 난이도: 결정론, 완전 정보, 두 플레이어
📖 2. 쇼기 (Shogi, 일본 장기)
  • 관측: 9×9 보드, 추가로 "잡은 말" 상태 (drop 규칙)
  • 행동: 11,259개 (이동 + drop)
  • 특징: 체스보다 행동 공간이 훨씬 큼 — 가장 어려운 클래식 보드 게임 중 하나
  • 역사: AlphaZero가 인간 챔피언급 엔진(Elmo)을 처음으로 압도
📖 3. 바둑 (Go)
  • 관측: 19×19 보드 × 17 채널 (현재 + 과거 8수 + 색)
  • 행동: 362개 (361개 점 + pass)
  • 특징: 시즌 1 PART 5~7의 주인공. 알파고 시리즈가 처음 정복
📖 4. 아타리 (Atari ALE, 57개 게임)
  • 관측: 84×84 회색조 프레임 × 4 (시간 연속성을 위해 4프레임 스택)
  • 행동: 4~18개 (조이스틱 방향 + 버튼)
  • 보상: 매 스텝마다 게임 점수 변화 (대부분 0이지만 가끔 +10, +100 등)
  • 특징: 픽셀 입력, 확률성 있음, 1인 게임, 게임 규칙을 외부에서 받을 수 없음
  • 의의: 보드 게임과 결정적으로 다른 도메인 — 여기서 MuZero가 진가 발휘
💡 도메인 차이의 의미

네 환경의 결정적 차이를 한 표로 정리하면:

속성 체스/쇼기/바둑 아타리
관측 형태 이산 보드 (특징판) 연속 픽셀
결정성 결정론 확률적 (sticky actions 등)
플레이어 2인 (적대) 1인
보상 게임 끝 1회 매 스텝 (희소하지만)
외부 시뮬레이터 있음 (규칙) 없음 (블랙박스)

이렇게 다른 도메인을 한 알고리즘으로 푸는 게 MuZero가 시도한 것.