이제 h, g, f가 어떻게 하나의 시스템으로 돌아가는지 보자.
💡 한 줄 요약
"관측은 한 번 보고(h), 머릿속에서 시뮬레이션은 잠재 공간 안에서 (g+f)."
📖 AlphaZero와 한눈에 비교
- AlphaZero:
f 1개 + 외부에서 받은 next_state 함수 → MCTS
- MuZero:
h, g, f 3개 신경망 (외부 함수 없음) → MCTS
구조적으로 g가 AlphaZero의 next_state 자리를 대체한다고 보면 정확하다.