시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 3 · 세 개의 신경망: representation, dynamics, prediction

세 신경망이 함께 움직이는 그림

이제 h, g, f가 어떻게 하나의 시스템으로 돌아가는지 보자.

MuZero — 한 번의 시뮬레이션 (3-스텝) 관측 o (픽셀/보드) h s₀ (잠재) f p₀, v₀ + a₀ g s₁ + r₁ f p₁, v₁ + a₁ g s₂ + r₂ f p₂, v₂ ··· h (초록): 관측 o → 루트 잠재 상태 s₀. 시뮬레이션 시작에서 딱 한 번만 호출. g (보라): (잠재 s, 행동 a) → (다음 잠재 s′, 보상 r). 시뮬레이션 매 스텝마다 호출. f (파랑): 잠재 s → (정책 p, 가치 v). 매 노드에서 호출 — MCTS가 이걸로 어디로 갈지 결정. 전체: 관측은 처음 한 번만. 그 뒤로는 잠재 공간 안에서만 시뮬레이션 — 픽셀 없음.
💡 한 줄 요약

"관측은 한 번 보고(h), 머릿속에서 시뮬레이션은 잠재 공간 안에서 (g+f)."

📖 AlphaZero와 한눈에 비교
  • AlphaZero: f 1개 + 외부에서 받은 next_state 함수 → MCTS
  • MuZero: h, g, f 3개 신경망 (외부 함수 없음) → MCTS

구조적으로 g가 AlphaZero의 next_state 자리를 대체한다고 보면 정확하다.