시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 2 · 환경 모델을 학습한다

환경 모델을 데이터로 학습해보기

아주 단순한 환경 모델 학습을 직접 해보자.

🎯 실험 셋업
  • 환경: 1차원 직선 세계. 위치 x 한 개만 상태.
  • 진짜 규칙: x_next = 0.8 × x + a (우리는 이걸 "모른다"고 가정)
  • 해야 할 일: 무작위 경험 데이터에서 이 규칙을 학습
  • 학습 방식: 선형 회귀 (가장 단순한 신경망의 1층)
PYTHON