h — 관측을 잠재 상태로 압축
첫 번째 신경망 h (representation, 표현 함수).
s = h(o)
관측 o를 잠재 상태 s로 변환
📖 입력과 출력
- 입력: 원시 관측
o— 게임 화면 픽셀, 보드 위치, 센서 값 등 - 출력: 잠재 상태
s— 저차원 벡터 (보통 수십~수백 차원) - 아타리: 210×160×3 (≈10만) → 256차원 벡터로 압축
- 바둑: 19×19×17 (특징판) → 256차원 벡터로 압축
🎯 핵심 — "복원이 목표가 아니다"
오토인코더와는 다르다. h는 관측을 다시 복원할 수 있는 표현을 학습하지 않는다.
대신 "계획에 도움이 되는 표현"을 학습한다. 즉 잠재 상태 s는:
- 관측
o를 정확히 복원할 만큼의 정보를 담을 필요 X - 하지만 "좋은 정책과 정확한 가치를 출력할 만큼"의 정보는 담아야 함
이게 MuZero를 다른 model-based 방법론과 결정적으로 다르게 만든다.
💡 비유 — 사람이 게임할 때
사람이 슈퍼마리오를 할 때 머릿속에 정확한 픽셀 좌표가 있을까? 그렇지 않다.
"마리오 위치, 적 위치, 점프 중인가, 무적 시간 남았나" 같은 추상적인 상태를 머릿속에 둔다.
이런 추상적 상태가 정확히 h의 출력이 추구하는 바다.