시즌 1 · 알파고편 / PART 4 · PART 4 · 신경망 등장: 직관을 학습한다 / Ch 4 · Value Network

챕터 4 정리

📌 챕터 4에서 배운 것

  • Value Network — 보드 → 단 하나의 숫자 (-1~+1)
  • "이 상태가 누구에게 얼마나 좋은가" 평가
  • 출력 활성화: tanh (-1~+1) 또는 sigmoid (0~1)
  • 학습 데이터: (보드 상태, 게임 결과) 쌍 — 모든 보드가 같은 게임의 결과 라벨
  • 손실: MSE (V_pred - V_true)²
  • MCTS에서 Simulate 대체 — 끝까지 안 가도 즉시 평가, 250배 빠름
  • 알파고: Value + Rollout 혼합 (λ=0.5). 알파고 Zero: Value만
  • ELO 기여: Pure MCTS 2700 → +Policy 3000 → +Value 3500
🏆 두 신경망을 모두 갖춘 알파고

이제 우리는 알파고의 두 부품 모두 이해:

  • Policy Network: "어디 가지를 키울까" — MCTS Expand
  • Value Network: "이 가지 가치 얼마" — MCTS Simulate 대체

두 신경망 + MCTS 결합이 알파고. PART 5에서 모두 통합.

➡️ 다음 챕터에서는

작은 CNN을 7x7에 직접 만들기. 지금까지 부품(합성곱, ReLU, softmax, MLP)을 봤고, 이제 합쳐서 작은 진짜 CNN. 다음 챕터에서 기보로 학습까지.