시즌 1 · 알파고편 / PART 4 · PART 4 · 신경망 등장: 직관을 학습한다 / Ch 3 · Policy Network

챕터 3 정리

📌 챕터 3에서 배운 것

  • Policy Network — 보드 → 다음 수 확률 분포
  • 입력: 19x19x48 (다채널), 출력: 361 자리 확률
  • Softmax — 점수를 확률 분포로 (지수 + 정규화)
  • 코드: 작은 CNN policy network forward pass
  • MCTS에서 두 가지 사용 — Expand 우선순위 + Rollout 품질
  • 알파고는 SL Policy (정확) + Fast Rollout (빠름) 두 가지 사용
  • 효과: Pure MCTS 2700 → + Policy 3000 ELO
🏆 우리가 본 것

"다음 수 어디?"라는 단순한 질문에 신경망으로 답. 사람의 직관을 학습. 16만 프로 게임에서 다음 수를 맞추는 과제로 훈련하면, 신경망이 사람 같은 패턴 인식을 갖춤.

➡️ 다음 챕터에서는

두 번째 신경망 — Value Network (가치망). "이 보드 누구한테 좋은가?"라는 질문. 출력은 단 하나의 숫자 (-1~+1).

이게 MCTS의 ③ Simulate를 대체. rollout 안 가도 즉시 평가 가능. 시간 절약 + 정확도 향상.