시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 2 · 환경 모델을 학습한다

그게 그렇게 쉬운가 — 누적 오차의 함정

방금 1차원 직선 세계에서는 깔끔하게 학습됐다. 그런데 실제 문제에서는 어려운 부분이 많다.

⚠ 함정 1 — 고차원 상태 (high-dimensional state)

방금은 상태가 숫자 하나(x). 그런데 아타리는 210×160 RGB = 약 10만 차원.

이 10만 차원짜리 입력에서 10만 차원짜리 출력으로 가는 함수를 학습해야 한다. 게다가 픽셀이 미세하게 잘못 예측되면 다음 스텝이 완전히 다른 화면이 될 수 있다.

⚠ 함정 2 — 누적 오차 (compounding error)

한 스텝 예측 오차가 1%여도, 10스텝 시뮬레이션하면 오차가 누적되어 점점 커진다.

30~50 스텝 앞을 보려면 모델 정확도가 매우 높아야 한다.

잘못된 모델 위에서 계획하면 현실에 없는 상황을 두고 그럴듯한 계획을 세우게 됨.

⚠ 함정 3 — 환경의 확률성 (stochasticity)

현실은 결정론적이지 않다. 같은 상태에서 같은 행동을 해도 매번 다른 결과.

그래서 모델은 "다음 상태 하나"가 아니라 "다음 상태들의 확률 분포"를 학습해야 한다.

💡 MuZero의 해결책 — 살짝 미리보기

이 모든 함정을 어떻게 풀까? MuZero(2019)의 답:

  • 픽셀 그 자체를 예측하지 않는다
  • 대신 "계획에 필요한 정보만 담은 압축된 표현(잠재 공간)"을 학습
  • 그 잠재 공간 안에서 dynamics를 학습

다음 챕터(Ch 3)에서 이 아이디어를 세 개의 신경망으로 풀어낸다.