이게 왜 큰 사건인가 — Bitter Lesson과의 연결

여기서 한 발 떨어져서 큰 그림으로 보자. MuZero의 결과가 AI 분야에 왜 충격적이었는지.

📖 Bitter Lesson (Rich Sutton, 2019)

강화학습의 큰 어른인 Rich Sutton이 2019년에 쓴 짧은 글의 한 구절이다.

"우리가 70년 AI 연구에서 배운 가장 큰 교훈은: 일반적인 방법(general methods)이 도메인 지식(human knowledge)을 결국 압도한다. 그것도 큰 격차로."

Sutton의 핵심 주장:

🎯 MuZero가 이 교훈에 더한 것

AlphaZero(2017)가 이미 도메인 지식 제거를 보여줬다 — 바둑 정석 없이도 강해진다.

MuZero(2019)는 한 발 더 나갔다 — "게임 규칙이라는 도메인 지식조차 없이도 가능하다".

각 단계마다 "사람이 코드로 제공하는 도메인 지식"이 줄어들었다. MuZero에서는 게임 규칙 자체가 학습 가능한 부품이 됐다.

💡 일반화의 의미

"같은 알고리즘이 여러 도메인을 푼다"가 단순한 기술적 자랑이 아닌 이유:

이게 PART 9 이후 AlphaFold(단백질 구조 예측)로 가는 길의 정당화다 — "같은 사고방식이 게임이 아닌 다른 분야에도 통할 것"이라는 믿음의 근거.

⚠ 한계도 정직하게

MuZero가 만능은 아니다.

그래도 "한 알고리즘으로 여러 도메인" 이라는 방향성을 강력하게 입증했다는 점이 결정적.