h — 관측을 잠재 상태로 압축

첫 번째 신경망 h (representation, 표현 함수).

s = h(o)

관측 o를 잠재 상태 s로 변환

📖 입력과 출력

🎯 핵심 — "복원이 목표가 아니다"

오토인코더와는 다르다. h는 관측을 다시 복원할 수 있는 표현을 학습하지 않는다.

대신 "계획에 도움이 되는 표현"을 학습한다. 즉 잠재 상태 s는:

이게 MuZero를 다른 model-based 방법론과 결정적으로 다르게 만든다.

💡 비유 — 사람이 게임할 때

사람이 슈퍼마리오를 할 때 머릿속에 정확한 픽셀 좌표가 있을까? 그렇지 않다.

"마리오 위치, 적 위치, 점프 중인가, 무적 시간 남았나" 같은 추상적인 상태를 머릿속에 둔다.

이런 추상적 상태가 정확히 h의 출력이 추구하는 바다.