PART 8의 마지막 — 일반화의 끝을 본다
🎬 PART 8을 마무리하며
Ch 1~4를 통해 우리는 MuZero라는 알고리즘이 어떻게 작동하는지 — h, g, f 세 신경망이 잠재 공간 위에서 MCTS와 어떻게 맞물리는지 — 자세히 살펴봤다.
이번 마지막 챕터는 한 발 떨어진 시각이다. "이 알고리즘이 진짜 무엇을 해냈는가" — 즉 MuZero의 결과와 그게 의미하는 바를 본다.
🎯 이번 챕터의 큰 질문
"정말 같은 알고리즘이 보드 게임도 풀고 픽셀 게임도 푸는가?"
이게 단순히 자랑이 아니다. AI 연구의 오랜 방향성과 직접 연결되는 질문이다.
- AlphaZero(2017)는 "여러 보드 게임"을 같은 알고리즘으로 풀었다 — 도메인 안 일반화
- MuZero(2019)는 "보드 게임 + 픽셀 게임"을 같은 알고리즘으로 풀었다 — 도메인 간 일반화
- 이게 다음 다리 — PART 9 "게임에서 과학으로" — 의 직접적 근거가 된다
📖 이번 챕터의 14단계
- MuZero가 도전한 네 환경 (체스/쇼기/바둑/아타리 57개)
- 보드 게임 결과 — AlphaZero와 동등 또는 그 이상
- 아타리 결과 — 모델-프리 최강을 넘어서다
- "같은 코드"는 정말 같은 코드인가
- 행동 공간의 차이 — 4672 vs 18
- 보상 구조의 차이 — 끝에 한 번 vs 매 스텝
- 학습 규모 — 얼마나 큰 데이터, 얼마나 긴 연산
- 도메인별로 미세하게 조정한 부분 (정직하게)
- 같은 코드로 두 환경 돌려보기 (코드)
- 이게 왜 중요한 사건인가 — Bitter Lesson과의 연결
- PART 9로의 다리 — 게임에서 과학으로
- 확인 퀴즈
- 챕터 5 정리
- PART 8 전체 마무리
이 챕터를 다 보면 PART 8 끝. 그리고 시즌 2의 진짜 본론 — AlphaFold로 가는 길 — 의 입구에 도착한다.