챕터 6 & PART 4 정리
📌 챕터 6에서 본 것
- 학습 데이터: (보드, 다음 수) 쌍 — 한 게임에서 200~300 사례
- 알파고: 16만 KGS 게임 → 3,000만 사례
- Cross Entropy 손실 — 정답의 예측 확률이 낮을수록 큼
- 실제 학습 시범: 100 데이터, 10 epoch, loss 7.22 → 1.31
- 알파고 SL Policy: 정확도 57%, ELO 1,900 (MCTS 없이)
🎯 PART 4 전체 정리 — 직관의 학습
- Ch 1: 퍼셉트론 → MLP — 신경망의 기본 부품
- Ch 2: CNN — 이미지에 적합한 구조, 합성곱 + 가중치 공유
- Ch 3: Policy Network — "어디 둘까" 확률 분포 학습
- Ch 4: Value Network — "이 상태 누구한테 좋은가" 단일 숫자
- Ch 5: 작은 7x7 CNN 직접 구현 (2,913 가중치)
- Ch 6: 지도학습 — 사람 데이터로 직관 학습
🏆 우리가 만든 것
알파고의 핵심 부품 모두 코드로:
- 한 뉴런 (perceptron)
- 다층 신경망 (MLP)
- 합성곱 + ReLU + Padding
- Softmax + Cross Entropy
- 역전파 + 경사 하강
- 7x7 CNN Policy Network (2,913 가중치)
- 지도학습 시범 (100 데이터, 손실 감소 측정)
이걸 크게 키우고 진짜 데이터로 학습하면 알파고 SL Policy. 본질 동일.
📊 시즌 1 진행률 (PART 4 완성!)
- PART 1 (바둑이라는 우주): 7 챕터 52 섹션 ✅
- PART 2 (탐색 / Minimax): 6 챕터 40 섹션 ✅
- PART 3 (무작위의 힘 / MCTS): 5 챕터 32 섹션 ✅
- PART 4 (신경망): 6 챕터 40 섹션 ✅
- PART 5 (AlphaGo 2016): 6 챕터 ⬜
- PART 6 (AlphaGo Zero): 5 챕터 ⬜
- PART 7 (AlphaZero): 4 챕터 ⬜
24/32 챕터 = 시즌 1의 75% 완료!
➡️ 다음 PART — 알파고 완성
PART 5에서 모든 부품이 합쳐짐 — MCTS (PART 3) + Policy Network + Value Network (PART 4) = 알파고.
이세돌 5국 분석, 신의 한 수, 7x7 미니 알파고 구현까지. 시즌 1의 클라이맥스.