시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 4 · 7x7 학습 파이프라인

챕터 4 정리

📌 챕터 4에서 본 것

  • 자가 대국 함수 — 한 게임 진행 + 학습 데이터 (s, π, z) 생성
  • 통합 신경망 — Policy head + Value head
  • 학습 손실 시뮬 — 4.4 → 1.6 감소 (63% 감소)
  • 전체 파이프라인: 3 stage × 700 사이클 = 40일
  • 실제 자원: 4 TPU, 4,900만 게임, 90억 학습 데이터
🏆 코드의 의미

이 챕터에서 만든 미니 코드 = AlphaGo Zero의 본질 그대로. 스케일만 다름.

알파고 Zero를 "이해할 수 있는 시스템"으로. 만약 충분한 컴퓨터가 있으면 이 코드를 19x19로 키워 학습 가능.

➡️ 다음 챕터에서는 (PART 6 마지막)

학습 곡선 실험. 한 사이클 학습이 진짜 효과 있나? 7x7 미니 학습을 실제로 돌려 보고 손실/ELO 변화 확인.