그게 그렇게 쉬운가 — 누적 오차의 함정
방금 1차원 직선 세계에서는 깔끔하게 학습됐다. 그런데 실제 문제에서는 어려운 부분이 많다.
⚠ 함정 1 — 고차원 상태 (high-dimensional state)
방금은 상태가 숫자 하나(x). 그런데 아타리는 210×160 RGB = 약 10만 차원.
이 10만 차원짜리 입력에서 10만 차원짜리 출력으로 가는 함수를 학습해야 한다. 게다가 픽셀이 미세하게 잘못 예측되면 다음 스텝이 완전히 다른 화면이 될 수 있다.
⚠ 함정 2 — 누적 오차 (compounding error)
한 스텝 예측 오차가 1%여도, 10스텝 시뮬레이션하면 오차가 누적되어 점점 커진다.
30~50 스텝 앞을 보려면 모델 정확도가 매우 높아야 한다.
잘못된 모델 위에서 계획하면 현실에 없는 상황을 두고 그럴듯한 계획을 세우게 됨.
⚠ 함정 3 — 환경의 확률성 (stochasticity)
현실은 결정론적이지 않다. 같은 상태에서 같은 행동을 해도 매번 다른 결과.
그래서 모델은 "다음 상태 하나"가 아니라 "다음 상태들의 확률 분포"를 학습해야 한다.
💡 MuZero의 해결책 — 살짝 미리보기
이 모든 함정을 어떻게 풀까? MuZero(2019)의 답:
- 픽셀 그 자체를 예측하지 않는다
- 대신 "계획에 필요한 정보만 담은 압축된 표현(잠재 공간)"을 학습
- 그 잠재 공간 안에서 dynamics를 학습
다음 챕터(Ch 3)에서 이 아이디어를 세 개의 신경망으로 풀어낸다.