시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 5 · Atari + 바둑 + 체스 = 같은 알고리즘

이게 왜 큰 사건인가 — Bitter Lesson과의 연결

여기서 한 발 떨어져서 큰 그림으로 보자. MuZero의 결과가 AI 분야에 왜 충격적이었는지.

📖 Bitter Lesson (Rich Sutton, 2019)

강화학습의 큰 어른인 Rich Sutton이 2019년에 쓴 짧은 글의 한 구절이다.

"우리가 70년 AI 연구에서 배운 가장 큰 교훈은: 일반적인 방법(general methods)이 도메인 지식(human knowledge)을 결국 압도한다. 그것도 큰 격차로."

Sutton의 핵심 주장:

  • AI 연구자들은 자신의 도메인 지식을 알고리즘에 넣고 싶어한다 — "체스에서는 이런 게 중요하다", "바둑에서는 이런 패턴이 강하다" 같은 식
  • 그런데 시간이 지나면, 그런 도메인 지식 없이 "단순한 일반 알고리즘 + 막대한 계산"이 항상 이긴다
  • 이게 컴퓨터 체스, 바둑, 음성 인식, 비전 등 모든 분야에서 일관되게 나타난 패턴
🎯 MuZero가 이 교훈에 더한 것

AlphaZero(2017)가 이미 도메인 지식 제거를 보여줬다 — 바둑 정석 없이도 강해진다.

MuZero(2019)는 한 발 더 나갔다 — "게임 규칙이라는 도메인 지식조차 없이도 가능하다".

  • AlphaGo (2016): 사람 기보 + 신경망 + MCTS + 게임 규칙
  • AlphaGo Zero (2017): 신경망 + MCTS + 게임 규칙
  • AlphaZero (2017): 같은 신경망 + MCTS + 게임 규칙 (여러 게임 일반화)
  • MuZero (2019): 신경망 + MCTS + 규칙은 학습

각 단계마다 "사람이 코드로 제공하는 도메인 지식"이 줄어들었다. MuZero에서는 게임 규칙 자체가 학습 가능한 부품이 됐다.

💡 일반화의 의미

"같은 알고리즘이 여러 도메인을 푼다"가 단순한 기술적 자랑이 아닌 이유:

  • 도메인마다 새 알고리즘을 만들 필요가 없음
  • 도메인 전문가 의존도가 줄어듦 — 알고리즘 자체가 환경을 학습
  • 새 도메인에 적용하기 쉬워짐 — 입력 형태와 행동 수만 정의하면 됨

이게 PART 9 이후 AlphaFold(단백질 구조 예측)로 가는 길의 정당화다 — "같은 사고방식이 게임이 아닌 다른 분야에도 통할 것"이라는 믿음의 근거.

⚠ 한계도 정직하게

MuZero가 만능은 아니다.

  • 여전히 막대한 계산이 필요 — 사람 학습 효율과 거리가 큼
  • 완전한 새 도메인에 "그냥 던지면" 안 됨 — 입력/행동/보상 정의 필요
  • 보상이 거의 안 들어오는 환경(extremely sparse reward)에서는 어려움

그래도 "한 알고리즘으로 여러 도메인" 이라는 방향성을 강력하게 입증했다는 점이 결정적.