챕터 4 정리
📌 챕터 4에서 배운 것
- Value Network — 보드 → 단 하나의 숫자 (-1~+1)
- "이 상태가 누구에게 얼마나 좋은가" 평가
- 출력 활성화: tanh (-1~+1) 또는 sigmoid (0~1)
- 학습 데이터: (보드 상태, 게임 결과) 쌍 — 모든 보드가 같은 게임의 결과 라벨
- 손실: MSE (V_pred - V_true)²
- MCTS에서 Simulate 대체 — 끝까지 안 가도 즉시 평가, 250배 빠름
- 알파고: Value + Rollout 혼합 (λ=0.5). 알파고 Zero: Value만
- ELO 기여: Pure MCTS 2700 → +Policy 3000 → +Value 3500
🏆 두 신경망을 모두 갖춘 알파고
이제 우리는 알파고의 두 부품 모두 이해:
- Policy Network: "어디 가지를 키울까" — MCTS Expand
- Value Network: "이 가지 가치 얼마" — MCTS Simulate 대체
두 신경망 + MCTS 결합이 알파고. PART 5에서 모두 통합.
➡️ 다음 챕터에서는
작은 CNN을 7x7에 직접 만들기. 지금까지 부품(합성곱, ReLU, softmax, MLP)을 봤고, 이제 합쳐서 작은 진짜 CNN. 다음 챕터에서 기보로 학습까지.