시즌 2 · 알파폴드편 / PART 9 · PART 9 · 다리: 게임에서 과학으로 / Ch 1 · 시즌 1을 떠나며 — 게임에서 무엇으로?

시즌 1 — 한 페이지로 다시 보기

먼저 시즌 1 전체를 한 페이지로 정리해보자. PART 1부터 PART 7까지, 그리고 PART 8까지 더해서.

📖 시즌 1 + PART 8 — 알파고 시리즈의 5년
시점 이름 핵심 변화
2016 3월 AlphaGo 사람 기보 + 신경망 4개 + MCTS — 이세돌 격파
2017 10월 AlphaGo Zero 사람 데이터 제거 — 자가 대국만으로 더 강함
2017 12월 AlphaZero 바둑 정석 제거 — 체스/쇼기/바둑 같은 알고리즘
2019 11월 MuZero 게임 규칙 제거 — 환경 모델도 학습. 아타리까지.
🎯 한 줄로 — 시즌 1의 큰 흐름

"사람이 코드로 넣어주던 도메인 지식을 한 단계씩 학습으로 대체"

  • AlphaGo: 사람 기보 → 학습 신호로 사용 (지도 학습 + 강화 학습)
  • AlphaGo Zero: 사람 기보 제거 → 자가 대국만
  • AlphaZero: 도메인별 알고리즘 제거 → 같은 코드로 여러 게임
  • MuZero: 게임 규칙 제거 → 환경 모델도 학습

매 단계마다 사람이 손으로 박아 넣던 부분이 줄었고, 그만큼 일반성이 늘었다.

📖 시즌 1에서 발명되거나 검증된 핵심 기술
  • Self-play 학습: 자기 자신과 게임을 둬서 학습 데이터 생성
  • 정책 + 가치 신경망: 한 신경망이 두 출력을 동시에
  • MCTS + 신경망 결합 (PUCT): 트리 탐색의 가이드로 신경망 사용
  • 잠재 공간 학습: 픽셀 복원 포기, 계획 유용 표현만
  • 학습 신호 = MCTS 방문 분포: 정책 학습 타겟

이 다섯 가지가 시즌 1의 가장 큰 기술 자산이다. 시즌 2(알파폴드)는 이 중 일부를 차용하고 일부를 버린다.