PART 4 예고 — 신경망이 들어와야 하는 이유
MCTS의 3가지 한계를 다시 정리하면:
- 한계 1: rollout 노이즈 (특히 19x19)
- 한계 2: 통계로 안 보이는 패턴 (사다리, 살아있음, 패)
- 한계 3: 도메인 지식 부재 (사람의 패턴 인식 없음)
이 세 한계를 푸는 데 공통적으로 필요한 것 — "좋은 수가 무엇인지 학습된 지식".
🎯 PART 4의 두 신경망
- Policy Network (정책망) — "다음에 어디 둘 가능성이 높은가"의 확률 분포. 사람 게임 데이터로 학습.
- Value Network (가치망) — "이 보드가 흑한테 얼마나 좋은가"의 점수. 자가 학습.
이 두 신경망이 MCTS의 부품으로 들어감:
- Policy network → ② Expand할 때 "유망한 자식 우선" (무작위 대신)
- Value network → ③ Simulate할 때 "끝까지 안 가도 평가 가능" (rollout 대신)
💡 알파고의 본질
알파고 = MCTS (우리가 PART 3에서 만든 것) + Policy network + Value network
골격은 우리가 만든 MCTS와 똑같아. 단지 "무작위" 자리에 "신경망"이 들어감. 그게 다르.
핵심 통찰: "알파고는 새 알고리즘이 아니라 MCTS의 두 부품을 학습으로 대체한 것".
PART 4에서:
- 신경망이 무엇이고 어떻게 학습하는지 (퍼셉트론부터)
- CNN — 이미지에 좋은 신경망 구조
- 바둑 보드를 "이미지"로 보고 CNN으로 처리
- 지도학습으로 다음 수 예측 (사람 데이터)
- 강화학습으로 정책 개선 (자가 대국)
그리고 PART 5에서 이 모든 게 합쳐져서 — 알파고가 완성됨.