시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 2 · policy + value 합치기

챕터 2 정리

📌 챕터 2에서 배운 것

  • 알파고: Policy + Value 분리, AlphaGo Zero: 하나에 두 head
  • 장점: 특징 공유, 계산 2배 절약, 메모리 절약, 일관된 학습
  • 잔차 블록 — 더 깊은 신경망 가능 (19~39블록)
  • 통합 손실: L = (v−z)² − π^T log(p) + c‖θ‖²
  • 핵심 통찰: MCTS visits 분포 = Policy 정답
  • Bootstrap 학습 — 자기 자신을 깊이 생각으로 가르침
  • 안정성: 새 모델 55%+ 승률일 때만 채택
🏆 통합의 의미

알파고: 4 신경망 + 4단계 학습. AlphaGo Zero: 1 신경망 + 1 사이클.

"단순함이 정확함이고 강함"의 사례. 알고리즘 통합이 학습 신호를 깨끗하게 만듦.

➡️ 다음 챕터에서는

Self-play 루프 디테일. 한 학습 사이클이 정확히 어떻게 돌아가는지. 800 시뮬레이션, 25000 게임, 1000 학습 단계 — 모든 디테일.