챕터 4 정리 — MuZero의 전체 그림

📖 MuZero의 전체 그림 — 한 번에 정리

관측 받기: 게임 화면, 보드, 센서 등 원시 입력 o
잠재 변환: s_0 = h(o)
루트 평가: p_0, v_0 = f(s_0); 자식 4개 만들고 prior 부여
시뮬레이션 N번 (보통 50~800회): 각 시뮬레이션마다
- Select — PUCT 따라 leaf까지 내려감
- Expand — g(parent.state, a) → 새 잠재 + 보상
- Evaluate — f(new_state) → 정책 + 가치
- Backup — 누적 보상으로 조상 노드들 갱신
행동 결정: 루트의 자식들 중 방문 횟수 최다 행동 선택
학습 시: 방문 분포를 정책 학습 타겟으로, 게임 결과를 가치 학습 타겟으로

여기까지가 MuZero. 보드 게임에서는 AlphaZero와 동일 성능을 내고, 아타리에서는 model-free 최강 알고리즘들을 압도한다.

➡️ 다음 챕터 — Atari + 바둑 + 체스 = 같은 알고리즘

마지막 챕터에서는 MuZero가 정말로 같은 코드, 같은 신경망 구조, 같은 학습 절차로 서로 다른 환경을 푼다는 사실을 직접 본다.

🚀 MuZero의 알고리즘 그림 완성

이제 한 줄로 답할 수 있다 — "MuZero가 어떻게 규칙 없이 계획하는가?" → "h가 관측을 잠재로, g가 잠재에서 잠재로, f가 정책+가치를 만들고, 그 위에서 MCTS가 똑같이 돈다."