챕터 2 정리
📌 챕터 2에서 배운 것
- 알파고: Policy + Value 분리, AlphaGo Zero: 하나에 두 head
- 장점: 특징 공유, 계산 2배 절약, 메모리 절약, 일관된 학습
- 잔차 블록 — 더 깊은 신경망 가능 (19~39블록)
- 통합 손실: L = (v−z)² − π^T log(p) + c‖θ‖²
- 핵심 통찰: MCTS visits 분포 = Policy 정답
- Bootstrap 학습 — 자기 자신을 깊이 생각으로 가르침
- 안정성: 새 모델 55%+ 승률일 때만 채택
🏆 통합의 의미
알파고: 4 신경망 + 4단계 학습. AlphaGo Zero: 1 신경망 + 1 사이클.
"단순함이 정확함이고 강함"의 사례. 알고리즘 통합이 학습 신호를 깨끗하게 만듦.
➡️ 다음 챕터에서는
Self-play 루프 디테일. 한 학습 사이클이 정확히 어떻게 돌아가는지. 800 시뮬레이션, 25000 게임, 1000 학습 단계 — 모든 디테일.