f — 잠재 상태에서 정책과 가치
세 번째 신경망 f (prediction, 예측 함수).
(p, v) = f(s)
잠재 상태 s에서 정책 p와 가치 v
📖 입력과 출력
- 입력: 잠재 상태
s - 출력 1 — 정책
p: 행동별 확률 분포 (어느 수가 좋아 보이나) - 출력 2 — 가치
v: 이 상태에서의 승률 기대값 (-1 ~ +1)
💡 시즌 1의 AlphaZero와 똑같다
AlphaZero의 마지막 신경망 f도 정확히 (p, v) = f(s)였다.
차이는 단 하나 — 입력 s가 무엇인가:
- AlphaZero:
s= 실제 보드 상태 (특징판) - MuZero:
s= 학습된 잠재 상태 (h나 g가 만든 벡터)
그래서 f는 AlphaZero에서 한 일을 그대로 한다 — 단지 관측 대신 잠재 공간 위에서 한다.
🎯 f의 학습 신호
f는 두 가지 신호로 학습된다 — AlphaZero와 같다.
- 정책 손실: MCTS가 만들어낸 방문 횟수 분포에 가까워지도록
- 가치 손실: 실제 게임 결과(승/패)에 가까워지도록
다만 f의 입력이 잠재 상태이므로, 역전파가 g와 h까지 흘러간다 → 세 신경망이 함께 학습됨.