PART 6 전체 정리

Ch 1: tabula rasa — 사람 데이터 없이 더 강함, 3-3 부활
Ch 2: Policy + Value 통합 신경망, 잔차 블록
Ch 3: Self-play 루프 3 stage (게임생성 → 학습 → 평가)
Ch 4: 7x7 학습 파이프라인 코드 (자가 대국, 학습 단계, 전체 루프)
Ch 5: 학습 곡선 실험 (60% 손실 감소 시범), 실제 ELO 곡선

🎯 알파고에서 알파고 Zero로의 진화

모든 면에서 더 단순 + 더 강함. "단순함이 강함이다"의 사례.

💡 깊은 메시지

AlphaGo Zero가 보여준 것:

이게 현재 AI 학습의 큰 트렌드 (LLM의 self-supervised learning과 비슷).