Policy Network — 사람의 직관 학습

👋 이 챕터에서 다룰 것

알파고의 두 신경망 중 첫 번째 — Policy Network (정책망). 보드를 보고 "다음 수 어디 둘까"의 확률 분포를 출력.

왜 "다음 수"가 핵심인가? PART 3 MCTS의 두 약점이 답:

📖 MCTS의 ② Expand 단계 다시 생각

지난 PART 3 Ch 3 §4 코드:

# Expand
m = random.choice(node.untried_moves)  # ← 무작위!

현재 위치에서 가능한 모든 수 중 무작위로 하나 골라서 새 자식 만듦. 그런데 이게 좋을까?

🎯 Policy Network의 역할

"이 보드에서 어디가 둘 만한가" 확률 분포 출력. MCTS에서:

이 두 가지가 MCTS를 훨씬 강하게 만듦. 알파고의 핵심 통찰.

이 챕터: