f — 잠재 상태에서 정책과 가치

세 번째 신경망 f (prediction, 예측 함수).

(p, v) = f(s)

잠재 상태 s에서 정책 p와 가치 v

📖 입력과 출력

💡 시즌 1의 AlphaZero와 똑같다

AlphaZero의 마지막 신경망 f도 정확히 (p, v) = f(s)였다.

차이는 단 하나 — 입력 s가 무엇인가:

그래서 f는 AlphaZero에서 한 일을 그대로 한다 — 단지 관측 대신 잠재 공간 위에서 한다.

🎯 f의 학습 신호

f는 두 가지 신호로 학습된다 — AlphaZero와 같다.

다만 f의 입력이 잠재 상태이므로, 역전파가 g와 h까지 흘러간다 → 세 신경망이 함께 학습됨.