PART 6 전체 정리
🏆 PART 6 — AlphaGo Zero (2017) 완성
- Ch 1: tabula rasa — 사람 데이터 없이 더 강함, 3-3 부활
- Ch 2: Policy + Value 통합 신경망, 잔차 블록
- Ch 3: Self-play 루프 3 stage (게임생성 → 학습 → 평가)
- Ch 4: 7x7 학습 파이프라인 코드 (자가 대국, 학습 단계, 전체 루프)
- Ch 5: 학습 곡선 실험 (60% 손실 감소 시범), 실제 ELO 곡선
🎯 알파고에서 알파고 Zero로의 진화
- 단순화: 4 신경망 → 1, 48 채널 → 17, 4단계 → 1 사이클
- 데이터 자립: 16만 사람 게임 → 0 (완전 자가 대국)
- 알고리즘 통합: SL + RL 분리 → 한 학습 신호
- 강함: ELO 3,500 → 5,200 (+1,700)
- 효율: 40 GPU + 1200 CPU → 4 TPU
모든 면에서 더 단순 + 더 강함. "단순함이 강함이다"의 사례.
💡 깊은 메시지
AlphaGo Zero가 보여준 것:
- 사람 지식이 학습의 도움이지만 천장이 될 수도 있음
- 충분한 자기 시뮬레이션 + 깨끗한 학습 신호로 사람 너머 가능
- 알고리즘 단순화 + 학습 안정성이 핵심
이게 현재 AI 학습의 큰 트렌드 (LLM의 self-supervised learning과 비슷).