world model을 셋으로 쪼개는 이유

역할 분리: 각 신경망이 한 가지 일만 잘하면 됨 (단순한 책임)
잠재 공간의 자유: g 가 잠재 공간 안에서 작동 → 픽셀 복원 불필요
AlphaZero와의 연결: f 는 AlphaZero의 그것과 정확히 같은 일을 함 (정책+가치)

🎬 지난 챕터 요약

환경 모델을 학습으로 만들면 좋다. 그런데 고차원 관측(픽셀)에서 다음 관측을 통째로 예측하면 누적 오차가 큰 문제가 된다.

MuZero의 답: "픽셀을 다시 만들지 마라. 계획에 필요한 정보만 남겨라."

🎯 이번 챕터의 핵심 아이디어

MuZero는 world model을 한 덩어리로 만들지 않는다. 세 개의 신경망으로 분리한다:

이 세 글자(h, g, f)가 MuZero 논문의 핵심 표기다.

📖 왜 굳이 쪼개나? — 세 가지 이유

특히 두 번째가 결정적이다. 시즌 1에서 본 신경망은 다 관측(보드)을 직접 받았는데, MuZero의 g는 잠재 공간 안에서만 작동한다. 다음 섹션부터 하나씩 들여다보자.