챕터 3 정리

📌 챕터 3에서 배운 것

한 학습 사이클 3단계: 자가 대국 → 학습 → 평가
Stage 1: 25,000 게임, MCTS 800/수, (s, π, z) 500만 데이터
온도 τ — 학습 초반 1 (탐험), 후반 0 (결정)
Dirichlet 노이즈 — 루트 prior에 노이즈로 다양성
Stage 2: 1,000 학습 단계, 배치 2,048, replay buffer 50만 게임
학습률 스케줄 (0.02 → 0.002 → 0.0002)
Data augmentation — 8 대칭으로 데이터 8배
Stage 3: 400 평가 게임, 새 모델 55%+ 승률일 때만 채택
한 사이클 약 10시간, 총 학습 40일 (700 사이클)

🏆 자기 학습의 순환

외부 데이터 0, 사람 지식 0. 그래도 매 사이클 약간씩 강해짐. "자기 자신을 가르치는 닫힌 시스템".

이게 AI 학습의 새 패러다임. 사람 데이터 없이 끝없이 향상.

➡️ 다음 챕터에서는

7x7 학습 파이프라인 코드. 우리가 직접 만든다 — 자가 대국, 학습, 평가의 미니 버전. PART 5 7x7 미니 알파고에 학습 추가.

← 이전 Stage 3: 평가 — 새 모델 채택 여부 결정 다음 → 7x7 학습 파이프라인 — 진짜 학습 코드