시즌 2 · 알파폴드편/PART 8 · PART 8 · MuZero (2019)/Ch 3 · 세 개의 신경망: representation, dynamics, prediction
확인 퀴즈
MuZero의 g(s, a) 함수가 출력하는 다음 잠재 상태 s′는 어떤 성질을 가지는가?
해설
MuZero의 결정적 발상은 "g가 만드는 다음 잠재 상태 s′가 관측을 복원할 필요가 없다"는 점이다. s′는 그저 다음 스텝의 f가 좋은 정책/가치/보상을 출력할 수 있게 해주는 어떤 표현이면 된다. 이 자유도 덕에 누적 오차 문제를 크게 줄이고, 잠재 공간이 "계획에 유용한 압축 표현"으로 자연스럽게 수렴한다.