시즌 1 · 알파고편 / PART 3 · PART 3 · 무작위의 힘: MCTS / Ch 5 · 무작위 시뮬레이션의 한계

PART 4 예고 — 신경망이 들어와야 하는 이유

MCTS의 3가지 한계를 다시 정리하면:

  • 한계 1: rollout 노이즈 (특히 19x19)
  • 한계 2: 통계로 안 보이는 패턴 (사다리, 살아있음, 패)
  • 한계 3: 도메인 지식 부재 (사람의 패턴 인식 없음)

이 세 한계를 푸는 데 공통적으로 필요한 것 — "좋은 수가 무엇인지 학습된 지식".

🎯 PART 4의 두 신경망
  1. Policy Network (정책망) — "다음에 어디 둘 가능성이 높은가"의 확률 분포. 사람 게임 데이터로 학습.
  2. Value Network (가치망) — "이 보드가 흑한테 얼마나 좋은가"의 점수. 자가 학습.

이 두 신경망이 MCTS의 부품으로 들어감:

  • Policy network → ② Expand할 때 "유망한 자식 우선" (무작위 대신)
  • Value network → ③ Simulate할 때 "끝까지 안 가도 평가 가능" (rollout 대신)
💡 알파고의 본질

알파고 = MCTS (우리가 PART 3에서 만든 것) + Policy network + Value network

골격은 우리가 만든 MCTS와 똑같아. 단지 "무작위" 자리에 "신경망"이 들어감. 그게 다르.

핵심 통찰: "알파고는 새 알고리즘이 아니라 MCTS의 두 부품을 학습으로 대체한 것".

PART 4에서:

  • 신경망이 무엇이고 어떻게 학습하는지 (퍼셉트론부터)
  • CNN — 이미지에 좋은 신경망 구조
  • 바둑 보드를 "이미지"로 보고 CNN으로 처리
  • 지도학습으로 다음 수 예측 (사람 데이터)
  • 강화학습으로 정책 개선 (자가 대국)

그리고 PART 5에서 이 모든 게 합쳐져서 — 알파고가 완성됨.