시즌 1 · 알파고편 / PART 4 · PART 4 · 신경망 등장: 직관을 학습한다 / Ch 6 · 기보로 policy net 지도학습

챕터 6 & PART 4 정리

📌 챕터 6에서 본 것

  • 학습 데이터: (보드, 다음 수) 쌍 — 한 게임에서 200~300 사례
  • 알파고: 16만 KGS 게임 → 3,000만 사례
  • Cross Entropy 손실 — 정답의 예측 확률이 낮을수록 큼
  • 실제 학습 시범: 100 데이터, 10 epoch, loss 7.22 → 1.31
  • 알파고 SL Policy: 정확도 57%, ELO 1,900 (MCTS 없이)

🎯 PART 4 전체 정리 — 직관의 학습

  • Ch 1: 퍼셉트론 → MLP — 신경망의 기본 부품
  • Ch 2: CNN — 이미지에 적합한 구조, 합성곱 + 가중치 공유
  • Ch 3: Policy Network — "어디 둘까" 확률 분포 학습
  • Ch 4: Value Network — "이 상태 누구한테 좋은가" 단일 숫자
  • Ch 5: 작은 7x7 CNN 직접 구현 (2,913 가중치)
  • Ch 6: 지도학습 — 사람 데이터로 직관 학습
🏆 우리가 만든 것

알파고의 핵심 부품 모두 코드로:

  • 한 뉴런 (perceptron)
  • 다층 신경망 (MLP)
  • 합성곱 + ReLU + Padding
  • Softmax + Cross Entropy
  • 역전파 + 경사 하강
  • 7x7 CNN Policy Network (2,913 가중치)
  • 지도학습 시범 (100 데이터, 손실 감소 측정)

이걸 크게 키우고 진짜 데이터로 학습하면 알파고 SL Policy. 본질 동일.

📊 시즌 1 진행률 (PART 4 완성!)
  • PART 1 (바둑이라는 우주): 7 챕터 52 섹션 ✅
  • PART 2 (탐색 / Minimax): 6 챕터 40 섹션 ✅
  • PART 3 (무작위의 힘 / MCTS): 5 챕터 32 섹션 ✅
  • PART 4 (신경망): 6 챕터 40 섹션 ✅
  • PART 5 (AlphaGo 2016): 6 챕터 ⬜
  • PART 6 (AlphaGo Zero): 5 챕터 ⬜
  • PART 7 (AlphaZero): 4 챕터 ⬜

24/32 챕터 = 시즌 1의 75% 완료!

➡️ 다음 PART — 알파고 완성

PART 5에서 모든 부품이 합쳐짐 — MCTS (PART 3) + Policy Network + Value Network (PART 4) = 알파고.

이세돌 5국 분석, 신의 한 수, 7x7 미니 알파고 구현까지. 시즌 1의 클라이맥스.