Value Network — 단 하나의 숫자

👋 이 챕터에서 다룰 것

알파고의 두 번째 신경망 — Value Network (가치망). 보드 상태를 받아서 단 하나의 숫자를 출력. "이 상태에서 흑이 이길 확률은?"

지난 챕터의 policy network는 "다음 수 어디?". 이번 챕터의 value network는 "현재 상태가 누구에게 좋은가?". 두 가지 다른 질문에 두 가지 다른 신경망.

📖 왜 Value Network가 필요한가

PART 3 MCTS의 ③ Simulate 단계를 떠올려:

# Simulate (rollout)
while not g.is_terminal():
    g = g.play(random.choice(g.possible_moves()))
winner = g.winner()

매번 게임 끝까지 가야 함. 19x19은 250수 게임 → rollout 한 번에 250 무작위 수. 매우 비쌈.

Value network는 한 번의 forward pass로 즉시 평가. 끝까지 안 가도 됨. 1000배 빠름.

🎯 Policy + Value의 분업

신경망	질문	출력
Policy	"어디 둘까?"	361 자리 확률 분포
Value	"이 보드 누구한테 좋은가?"	하나의 숫자 (-1~+1)

두 가지가 합쳐져서 강력한 MCTS — Policy는 "어디 가지를 키울까", Value는 "그 가지의 가치 평가".

이 챕터: