챕터 1 정리
📌 이번 챕터 핵심
- AlphaZero는 MCTS의 Expand 단계에서
next_state(s, a)함수를 호출한다. - 이 함수는 곧 게임 규칙이며, 외부에서 입력으로 받는다.
- 보드 게임에서는 명확히 존재하지만, 아타리는 에뮬레이터 블랙박스, 현실은 아예 없다.
- 그래서 AlphaZero는 "perfect simulator가 있는 환경"에서만 작동한다는 강한 제약이 있다.
📖 시즌 1과 시즌 2의 다리
시즌 1은 "규칙이 명확한 게임"이라는 작은 우주에서 출발해 AlphaZero에 도달했다.
시즌 2는 그 우주 밖으로 나간다.
- 먼저 MuZero(PART 8) — 게임 규칙을 학습으로 대체
- 다음 다리(PART 9) — 게임에서 과학(단백질)으로
- 그리고 AlphaFold 1·2·3 — 알파고와 같은 철학, 다른 문제
같은 DeepMind 팀이 "같은 사고방식으로 다른 문제를 푼다"는 큰 그림을 보여줄 것.
➡️ 다음 챕터 — 환경 모델을 학습한다
"규칙이 없다면 신경망이 직접 학습하면 된다"는 단순한 아이디어로 출발한다.
- model-free vs model-based 강화학습 — 둘의 결정적 차이
- "world model"이라는 개념 — 환경을 신경망이 머릿속에 갖는다
- 왜 그냥 model-free로 끝내지 않고 굳이 model을 학습하는가
🚀 시즌 2 첫 챕터 완료
한 발 들어왔다. 이제 본격적으로 알파고에서 알파폴드로 가는 길을 시작한다.