시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 1 · AlphaZero의 한계 — 규칙이 있어야 한다

챕터 1 정리

📌 이번 챕터 핵심

  • AlphaZero는 MCTS의 Expand 단계에서 next_state(s, a) 함수를 호출한다.
  • 이 함수는 곧 게임 규칙이며, 외부에서 입력으로 받는다.
  • 보드 게임에서는 명확히 존재하지만, 아타리는 에뮬레이터 블랙박스, 현실은 아예 없다.
  • 그래서 AlphaZero는 "perfect simulator가 있는 환경"에서만 작동한다는 강한 제약이 있다.
📖 시즌 1과 시즌 2의 다리

시즌 1은 "규칙이 명확한 게임"이라는 작은 우주에서 출발해 AlphaZero에 도달했다.

시즌 2는 그 우주 밖으로 나간다.

  1. 먼저 MuZero(PART 8) — 게임 규칙을 학습으로 대체
  2. 다음 다리(PART 9) — 게임에서 과학(단백질)으로
  3. 그리고 AlphaFold 1·2·3 — 알파고와 같은 철학, 다른 문제

같은 DeepMind 팀이 "같은 사고방식으로 다른 문제를 푼다"는 큰 그림을 보여줄 것.

➡️ 다음 챕터 — 환경 모델을 학습한다

"규칙이 없다면 신경망이 직접 학습하면 된다"는 단순한 아이디어로 출발한다.

  • model-free vs model-based 강화학습 — 둘의 결정적 차이
  • "world model"이라는 개념 — 환경을 신경망이 머릿속에 갖는다
  • 왜 그냥 model-free로 끝내지 않고 굳이 model을 학습하는가

🚀 시즌 2 첫 챕터 완료

한 발 들어왔다. 이제 본격적으로 알파고에서 알파폴드로 가는 길을 시작한다.