시즌 1 — 한 페이지로 다시 보기
먼저 시즌 1 전체를 한 페이지로 정리해보자. PART 1부터 PART 7까지, 그리고 PART 8까지 더해서.
📖 시즌 1 + PART 8 — 알파고 시리즈의 5년
| 시점 | 이름 | 핵심 변화 |
|---|---|---|
| 2016 3월 | AlphaGo | 사람 기보 + 신경망 4개 + MCTS — 이세돌 격파 |
| 2017 10월 | AlphaGo Zero | 사람 데이터 제거 — 자가 대국만으로 더 강함 |
| 2017 12월 | AlphaZero | 바둑 정석 제거 — 체스/쇼기/바둑 같은 알고리즘 |
| 2019 11월 | MuZero | 게임 규칙 제거 — 환경 모델도 학습. 아타리까지. |
🎯 한 줄로 — 시즌 1의 큰 흐름
"사람이 코드로 넣어주던 도메인 지식을 한 단계씩 학습으로 대체"
- AlphaGo: 사람 기보 → 학습 신호로 사용 (지도 학습 + 강화 학습)
- AlphaGo Zero: 사람 기보 제거 → 자가 대국만
- AlphaZero: 도메인별 알고리즘 제거 → 같은 코드로 여러 게임
- MuZero: 게임 규칙 제거 → 환경 모델도 학습
매 단계마다 사람이 손으로 박아 넣던 부분이 줄었고, 그만큼 일반성이 늘었다.
📖 시즌 1에서 발명되거나 검증된 핵심 기술
- Self-play 학습: 자기 자신과 게임을 둬서 학습 데이터 생성
- 정책 + 가치 신경망: 한 신경망이 두 출력을 동시에
- MCTS + 신경망 결합 (PUCT): 트리 탐색의 가이드로 신경망 사용
- 잠재 공간 학습: 픽셀 복원 포기, 계획 유용 표현만
- 학습 신호 = MCTS 방문 분포: 정책 학습 타겟
이 다섯 가지가 시즌 1의 가장 큰 기술 자산이다. 시즌 2(알파폴드)는 이 중 일부를 차용하고 일부를 버린다.