시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 4 · 7x7 학습 파이프라인

7x7 학습 파이프라인 — 진짜 학습 코드

👋 이 챕터에서 만들 것

지금까지 본 AlphaGo Zero 학습 사이클을 작은 코드로. PART 5 미니 알파고에 "진짜 학습"을 추가한다.

📖 코드 구조

3 부분으로 분리:

  1. Self-play: 한 자가 대국 게임 시뮬
  2. 학습 한 단계: 데이터 → 가중치 갱신
  3. 전체 루프: 여러 사이클 반복
⚠️ 단순화 — 진짜 알파고 Zero와의 차이

이 챕터의 코드는 교육 목적의 단순화:

  • 5x5 보드 (속도)
  • 매우 작은 신경망 (16 필터, 2층)
  • MCTS 50 iterations (실제 800~1600)
  • 20 게임 × 5 사이클 (실제 25,000 × 700)
  • numpy 직접 (TensorFlow 안 씀)

전체 학습은 컴퓨터에서 분 단위. 결과보다는 "알고리즘 본질"이 목적.

다음 페이지에서 자가 대국 함수.