이게 왜 큰 사건인가 — Bitter Lesson과의 연결
여기서 한 발 떨어져서 큰 그림으로 보자. MuZero의 결과가 AI 분야에 왜 충격적이었는지.
📖 Bitter Lesson (Rich Sutton, 2019)
강화학습의 큰 어른인 Rich Sutton이 2019년에 쓴 짧은 글의 한 구절이다.
"우리가 70년 AI 연구에서 배운 가장 큰 교훈은: 일반적인 방법(general methods)이 도메인 지식(human knowledge)을 결국 압도한다. 그것도 큰 격차로."
Sutton의 핵심 주장:
- AI 연구자들은 자신의 도메인 지식을 알고리즘에 넣고 싶어한다 — "체스에서는 이런 게 중요하다", "바둑에서는 이런 패턴이 강하다" 같은 식
- 그런데 시간이 지나면, 그런 도메인 지식 없이 "단순한 일반 알고리즘 + 막대한 계산"이 항상 이긴다
- 이게 컴퓨터 체스, 바둑, 음성 인식, 비전 등 모든 분야에서 일관되게 나타난 패턴
🎯 MuZero가 이 교훈에 더한 것
AlphaZero(2017)가 이미 도메인 지식 제거를 보여줬다 — 바둑 정석 없이도 강해진다.
MuZero(2019)는 한 발 더 나갔다 — "게임 규칙이라는 도메인 지식조차 없이도 가능하다".
- AlphaGo (2016): 사람 기보 + 신경망 + MCTS + 게임 규칙
- AlphaGo Zero (2017): 신경망 + MCTS + 게임 규칙
- AlphaZero (2017): 같은 신경망 + MCTS + 게임 규칙 (여러 게임 일반화)
- MuZero (2019): 신경망 + MCTS + 규칙은 학습
각 단계마다 "사람이 코드로 제공하는 도메인 지식"이 줄어들었다. MuZero에서는 게임 규칙 자체가 학습 가능한 부품이 됐다.
💡 일반화의 의미
"같은 알고리즘이 여러 도메인을 푼다"가 단순한 기술적 자랑이 아닌 이유:
- 도메인마다 새 알고리즘을 만들 필요가 없음
- 도메인 전문가 의존도가 줄어듦 — 알고리즘 자체가 환경을 학습
- 새 도메인에 적용하기 쉬워짐 — 입력 형태와 행동 수만 정의하면 됨
이게 PART 9 이후 AlphaFold(단백질 구조 예측)로 가는 길의 정당화다 — "같은 사고방식이 게임이 아닌 다른 분야에도 통할 것"이라는 믿음의 근거.
⚠ 한계도 정직하게
MuZero가 만능은 아니다.
- 여전히 막대한 계산이 필요 — 사람 학습 효율과 거리가 큼
- 완전한 새 도메인에 "그냥 던지면" 안 됨 — 입력/행동/보상 정의 필요
- 보상이 거의 안 들어오는 환경(extremely sparse reward)에서는 어려움
그래도 "한 알고리즘으로 여러 도메인" 이라는 방향성을 강력하게 입증했다는 점이 결정적.