챕터 4 정리 — MuZero의 전체 그림
📌 이번 챕터 핵심
- MCTS의 네 단계 알고리즘 자체는 AlphaZero와 MuZero에서 동일.
- 차이는 Expand에서 g가 호출된다는 점 — 외부 게임 규칙 함수가 학습된 신경망으로 대체됨.
- 한 시뮬레이션 = Select(트리 탐색) → Expand(g) → Evaluate(f) → Backup(가치/보상 누적).
- 잠재 공간의 자유도 + 학습 신호의 강제력 덕에 잠재 표현이 "계획에 유용한 추상" 형태로 자연스럽게 수렴.
- 같은 알고리즘이 결정론/확률, 보드/아타리 가리지 않고 작동.
📖 MuZero의 전체 그림 — 한 번에 정리
- 관측 받기: 게임 화면, 보드, 센서 등 원시 입력 o
- 잠재 변환: s_0 = h(o)
- 루트 평가: p_0, v_0 = f(s_0); 자식 4개 만들고 prior 부여
- 시뮬레이션 N번 (보통 50~800회): 각 시뮬레이션마다
- Select — PUCT 따라 leaf까지 내려감
- Expand — g(parent.state, a) → 새 잠재 + 보상
- Evaluate — f(new_state) → 정책 + 가치
- Backup — 누적 보상으로 조상 노드들 갱신
- 행동 결정: 루트의 자식들 중 방문 횟수 최다 행동 선택
- 학습 시: 방문 분포를 정책 학습 타겟으로, 게임 결과를 가치 학습 타겟으로
여기까지가 MuZero. 보드 게임에서는 AlphaZero와 동일 성능을 내고, 아타리에서는 model-free 최강 알고리즘들을 압도한다.
➡️ 다음 챕터 — Atari + 바둑 + 체스 = 같은 알고리즘
마지막 챕터에서는 MuZero가 정말로 같은 코드, 같은 신경망 구조, 같은 학습 절차로 서로 다른 환경을 푼다는 사실을 직접 본다.
- 아타리(픽셀, 확률적, 점수 누적) 결과 — 200% normalized human score 돌파
- 바둑/체스/쇼기(이산, 결정론, 승/패) 결과 — AlphaZero와 동등
- "하나의 알고리즘이 모든 것을 푼다"는 일반화의 끝, 그리고 PART 9 — 게임에서 과학으로 — 의 다리
🚀 MuZero의 알고리즘 그림 완성
이제 한 줄로 답할 수 있다 — "MuZero가 어떻게 규칙 없이 계획하는가?" → "h가 관측을 잠재로, g가 잠재에서 잠재로, f가 정책+가치를 만들고, 그 위에서 MCTS가 똑같이 돈다."