시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 3 · 세 개의 신경망: representation, dynamics, prediction

f — 잠재 상태에서 정책과 가치

세 번째 신경망 f (prediction, 예측 함수).

(p, v) = f(s)

잠재 상태 s에서 정책 p와 가치 v

📖 입력과 출력
  • 입력: 잠재 상태 s
  • 출력 1 — 정책 p: 행동별 확률 분포 (어느 수가 좋아 보이나)
  • 출력 2 — 가치 v: 이 상태에서의 승률 기대값 (-1 ~ +1)
💡 시즌 1의 AlphaZero와 똑같다

AlphaZero의 마지막 신경망 f도 정확히 (p, v) = f(s)였다.

차이는 단 하나 — 입력 s가 무엇인가:

  • AlphaZero: s = 실제 보드 상태 (특징판)
  • MuZero: s = 학습된 잠재 상태 (h나 g가 만든 벡터)

그래서 f는 AlphaZero에서 한 일을 그대로 한다 — 단지 관측 대신 잠재 공간 위에서 한다.

🎯 f의 학습 신호

f는 두 가지 신호로 학습된다 — AlphaZero와 같다.

  • 정책 손실: MCTS가 만들어낸 방문 횟수 분포에 가까워지도록
  • 가치 손실: 실제 게임 결과(승/패)에 가까워지도록

다만 f의 입력이 잠재 상태이므로, 역전파가 gh까지 흘러간다 → 세 신경망이 함께 학습됨.