시즌 1 · 알파고편 / PART 4 · PART 4 · 신경망 등장: 직관을 학습한다 / Ch 4 · Value Network

Value Network — 단 하나의 숫자

👋 이 챕터에서 다룰 것

알파고의 두 번째 신경망 — Value Network (가치망). 보드 상태를 받아서 단 하나의 숫자를 출력. "이 상태에서 흑이 이길 확률은?"

지난 챕터의 policy network는 "다음 수 어디?". 이번 챕터의 value network는 "현재 상태가 누구에게 좋은가?". 두 가지 다른 질문에 두 가지 다른 신경망.

📖 왜 Value Network가 필요한가

PART 3 MCTS의 ③ Simulate 단계를 떠올려:

# Simulate (rollout)
while not g.is_terminal():
    g = g.play(random.choice(g.possible_moves()))
winner = g.winner()

매번 게임 끝까지 가야 함. 19x19은 250수 게임 → rollout 한 번에 250 무작위 수. 매우 비쌈.

Value network는 한 번의 forward pass로 즉시 평가. 끝까지 안 가도 됨. 1000배 빠름.

🎯 Policy + Value의 분업
신경망 질문 출력
Policy"어디 둘까?"361 자리 확률 분포
Value"이 보드 누구한테 좋은가?"하나의 숫자 (-1~+1)

두 가지가 합쳐져서 강력한 MCTS — Policy는 "어디 가지를 키울까", Value는 "그 가지의 가치 평가".

이 챕터:

  • Value Network의 입력과 출력 (단일 스칼라)
  • 학습 — "최종 결과로부터 거꾸로"
  • 코드: 작은 Value Network forward pass
  • MCTS에서 Value Network 사용 — Simulate 대체