시즌 1 — 한 페이지로 다시 보기

먼저 시즌 1 전체를 한 페이지로 정리해보자. PART 1부터 PART 7까지, 그리고 PART 8까지 더해서.

📖 시즌 1 + PART 8 — 알파고 시리즈의 5년

시점	이름	핵심 변화
2016 3월	AlphaGo	사람 기보 + 신경망 4개 + MCTS — 이세돌 격파
2017 10월	AlphaGo Zero	사람 데이터 제거 — 자가 대국만으로 더 강함
2017 12월	AlphaZero	바둑 정석 제거 — 체스/쇼기/바둑 같은 알고리즘
2019 11월	MuZero	게임 규칙 제거 — 환경 모델도 학습. 아타리까지.

🎯 한 줄로 — 시즌 1의 큰 흐름

"사람이 코드로 넣어주던 도메인 지식을 한 단계씩 학습으로 대체"

AlphaGo: 사람 기보 → 학습 신호로 사용 (지도 학습 + 강화 학습)
AlphaGo Zero: 사람 기보 제거 → 자가 대국만
AlphaZero: 도메인별 알고리즘 제거 → 같은 코드로 여러 게임
MuZero: 게임 규칙 제거 → 환경 모델도 학습

매 단계마다 사람이 손으로 박아 넣던 부분이 줄었고, 그만큼 일반성이 늘었다.

📖 시즌 1에서 발명되거나 검증된 핵심 기술

Self-play 학습: 자기 자신과 게임을 둬서 학습 데이터 생성
정책 + 가치 신경망: 한 신경망이 두 출력을 동시에
MCTS + 신경망 결합 (PUCT): 트리 탐색의 가이드로 신경망 사용
잠재 공간 학습: 픽셀 복원 포기, 계획 유용 표현만
학습 신호 = MCTS 방문 분포: 정책 학습 타겟

이 다섯 가지가 시즌 1의 가장 큰 기술 자산이다. 시즌 2(알파폴드)는 이 중 일부를 차용하고 일부를 버린다.

← 이전 PART 9 — 새로운 시작 다음 → 게임이라는 도메인이 가졌던 다섯 가지 좋은 성질