챕터 3 정리
📌 챕터 3에서 배운 것
- 한 학습 사이클 3단계: 자가 대국 → 학습 → 평가
- Stage 1: 25,000 게임, MCTS 800/수, (s, π, z) 500만 데이터
- 온도 τ — 학습 초반 1 (탐험), 후반 0 (결정)
- Dirichlet 노이즈 — 루트 prior에 노이즈로 다양성
- Stage 2: 1,000 학습 단계, 배치 2,048, replay buffer 50만 게임
- 학습률 스케줄 (0.02 → 0.002 → 0.0002)
- Data augmentation — 8 대칭으로 데이터 8배
- Stage 3: 400 평가 게임, 새 모델 55%+ 승률일 때만 채택
- 한 사이클 약 10시간, 총 학습 40일 (700 사이클)
🏆 자기 학습의 순환
외부 데이터 0, 사람 지식 0. 그래도 매 사이클 약간씩 강해짐. "자기 자신을 가르치는 닫힌 시스템".
이게 AI 학습의 새 패러다임. 사람 데이터 없이 끝없이 향상.
➡️ 다음 챕터에서는
7x7 학습 파이프라인 코드. 우리가 직접 만든다 — 자가 대국, 학습, 평가의 미니 버전. PART 5 7x7 미니 알파고에 학습 추가.