챕터 2 정리

📌 챕터 2에서 배운 것

알파고: Policy + Value 분리, AlphaGo Zero: 하나에 두 head
장점: 특징 공유, 계산 2배 절약, 메모리 절약, 일관된 학습
잔차 블록 — 더 깊은 신경망 가능 (19~39블록)
통합 손실: L = (v−z)² − π^T log(p) + c‖θ‖²
핵심 통찰: MCTS visits 분포 = Policy 정답
Bootstrap 학습 — 자기 자신을 깊이 생각으로 가르침
안정성: 새 모델 55%+ 승률일 때만 채택

🏆 통합의 의미

알파고: 4 신경망 + 4단계 학습. AlphaGo Zero: 1 신경망 + 1 사이클.

"단순함이 정확함이고 강함"의 사례. 알고리즘 통합이 학습 신호를 깨끗하게 만듦.

➡️ 다음 챕터에서는

Self-play 루프 디테일. 한 학습 사이클이 정확히 어떻게 돌아가는지. 800 시뮬레이션, 25000 게임, 1000 학습 단계 — 모든 디테일.

← 이전 MCTS visits = Policy 정답 — 핵심 통찰 다음 → Self-play 루프 — 학습의 전체 그림