시즌 2 · 알파폴드편/PART 8 · PART 8 · MuZero (2019)/Ch 2 · 환경 모델을 학습한다
확인 퀴즈
model-based 강화학습이 model-free보다 일반적으로 우수한 점으로 가장 정확한 것은?
해설
model-based의 가장 큰 강점은 sample efficiency다. 환경 모델을 학습해 두면, 그 모델 안에서 추가 시뮬레이션을 무한히 돌릴 수 있어서 실제 경험 1개당 훨씬 많은 정보를 뽑아낼 수 있다. 단순함은 오히려 model-free 쪽이고(중간 단계 없음), 가중치 개수나 stochasticity 처리는 더 어려운 측면이다.