시즌 1 · 알파고편 / PART 4 · PART 4 · 신경망 등장: 직관을 학습한다 / Ch 4 · Value Network

입력과 출력 — 단 하나의 숫자

Value Network의 입출력은 policy보다 더 단순:

📥 입력 — Policy와 동일

19x19x48 (또는 비슷한) 다채널 보드 표현. 알파고에서는 policy network와 거의 같은 입력 형식.

📤 출력 — 단 하나의 숫자

스칼라 값. 보통:

  • 0 ~ 1 (sigmoid 출력): "흑의 승률"
  • -1 ~ +1 (tanh 출력): "흑한테 얼마나 좋은가" (-1 = 백 압승, +1 = 흑 압승, 0 = 비슷)

알파고는 -1~+1 (tanh 활성화) 사용. AlphaGo Zero도 동일.

🎯 Value Network 구조 (단순화)
입력 (19x19x48)
    ↓
[Conv 13층, 192 필터, ReLU]  ← Policy와 동일한 부분
    ↓
[Conv 1 (마지막)]
    ↓
[Flatten + Dense → 256] + ReLU
    ↓
[Dense → 1] + Tanh
    ↓
출력: -1 ~ +1
  
💡 Policy와 Value의 공유 부분

알파고에서는 policy와 value를 별도 신경망으로 학습. 그래서 13층 CNN을 두 번 갖고 있어.

AlphaGo Zero는 "하나의 신경망, 두 출력"으로 통합:

  • 공통 CNN 부분 (19층 잔차)
  • 마지막에 두 갈래로 분기:
    • 한 쪽 → policy (361 확률)
    • 다른 쪽 → value (1 스칼라)

장점: 공유된 특징 추출 → 학습 효율 ↑ + 메모리 절약. PART 6에서 다룸.