시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 3 · 세 개의 신경망: representation, dynamics, prediction

h — 관측을 잠재 상태로 압축

첫 번째 신경망 h (representation, 표현 함수).

s = h(o)

관측 o를 잠재 상태 s로 변환

📖 입력과 출력
  • 입력: 원시 관측 o — 게임 화면 픽셀, 보드 위치, 센서 값 등
  • 출력: 잠재 상태 s — 저차원 벡터 (보통 수십~수백 차원)
  • 아타리: 210×160×3 (≈10만) → 256차원 벡터로 압축
  • 바둑: 19×19×17 (특징판) → 256차원 벡터로 압축
🎯 핵심 — "복원이 목표가 아니다"

오토인코더와는 다르다. h는 관측을 다시 복원할 수 있는 표현을 학습하지 않는다.

대신 "계획에 도움이 되는 표현"을 학습한다. 즉 잠재 상태 s는:

  • 관측 o를 정확히 복원할 만큼의 정보를 담을 필요 X
  • 하지만 "좋은 정책과 정확한 가치를 출력할 만큼"의 정보는 담아야 함

이게 MuZero를 다른 model-based 방법론과 결정적으로 다르게 만든다.

💡 비유 — 사람이 게임할 때

사람이 슈퍼마리오를 할 때 머릿속에 정확한 픽셀 좌표가 있을까? 그렇지 않다.

"마리오 위치, 적 위치, 점프 중인가, 무적 시간 남았나" 같은 추상적인 상태를 머릿속에 둔다.

이런 추상적 상태가 정확히 h의 출력이 추구하는 바다.