이번 챕터에서 무엇을 하는가

🎬 지금까지의 흐름 정리

Ch 1에서 우리는 AlphaZero가 외부에서 받은 게임 규칙(next_state)에 의존한다는 것을 봤다.

Ch 2에서는 그 규칙을 학습으로 만든다는 발상이 왜 매력적인지(샘플 효율, 계획, 전이) 살펴봤다.

Ch 3에서는 MuZero가 이 발상을 어떻게 구현했는지 — h, g, f 세 신경망으로 분리해서 잠재 공간 위에서 작동시킨다는 핵심 아키텍처를 만났다.

🎯 그런데 한 가지 큰 빈자리

지금까지는 "신경망 세 개를 어떻게 쓸 것인가"에 대한 그림이 비어 있다. 다이어그램만 보면 일직선으로 시뮬레이션하는 것 같지만, 실제 MuZero는 트리 탐색을 한다.

이 챕터는 그 빈자리를 채운다. 시즌 1 PART 3에서 본 MCTS의 네 단계 — Select, Expand, Evaluate, Backup — 가 잠재 공간 안에서 어떻게 일어나는지 단계별로 추적한다.

📖 이번 챕터의 12 단계

MCTS 네 단계를 다시 한 번 (시즌 1 PART 3 복습)
왜 MuZero에서도 굳이 트리 탐색이 필요한가
Select 단계 — PUCT 공식의 재해석
Select 단계 — MuZero 버전에서 무엇이 달라지는가
Expand 단계 — g가 호출되는 순간
Evaluate 단계 — f가 새 리프에서 평가
Backup 단계 — 보상이 트리를 거꾸로 올라간다
한 시뮬레이션 통째 추적 (6 단계 walkthrough)
미니 MCTS를 직접 실행 (코드)
왜 이게 작동하는가 — 잠재 공간의 자유도
확인 퀴즈
챕터 정리 + Ch 5 예고

분량이 좀 있다. 하지만 이 챕터까지 끝내면 MuZero라는 알고리즘의 전체 그림이 머릿속에 정확히 들어온다. 시즌 2의 가장 결정적인 챕터이기도 하다 — PART 9 이후 AlphaFold로 넘어갈 때, 여기서 배운 "잠재 공간 위에서의 계산" 사고방식이 그대로 다시 등장한다.

💡 읽는 자세

이 챕터는 한 번에 읽으려 하지 말자. 한 섹션씩 정성스럽게, 머릿속에서 트리를 같이 그려보면서 따라가는 게 좋다.

마지막 코드 섹션을 직접 한 번 돌려보면 "아, 이게 진짜로 움직이는구나"가 확실히 잡힌다.

← 이전 챕터 3 정리 다음 → MCTS 네 단계 복습 — 시즌 1 PART 3에서