입력과 출력 — 단 하나의 숫자

Value Network의 입출력은 policy보다 더 단순:

📥 입력 — Policy와 동일

19x19x48 (또는 비슷한) 다채널 보드 표현. 알파고에서는 policy network와 거의 같은 입력 형식.

📤 출력 — 단 하나의 숫자

스칼라 값. 보통:

0 ~ 1 (sigmoid 출력): "흑의 승률"
-1 ~ +1 (tanh 출력): "흑한테 얼마나 좋은가" (-1 = 백 압승, +1 = 흑 압승, 0 = 비슷)

알파고는 -1~+1 (tanh 활성화) 사용. AlphaGo Zero도 동일.

🎯 Value Network 구조 (단순화)

입력 (19x19x48)
    ↓
[Conv 13층, 192 필터, ReLU]  ← Policy와 동일한 부분
    ↓
[Conv 1 (마지막)]
    ↓
[Flatten + Dense → 256] + ReLU
    ↓
[Dense → 1] + Tanh
    ↓
출력: -1 ~ +1

💡 Policy와 Value의 공유 부분

알파고에서는 policy와 value를 별도 신경망으로 학습. 그래서 13층 CNN을 두 번 갖고 있어.

AlphaGo Zero는 "하나의 신경망, 두 출력"으로 통합:

공통 CNN 부분 (19층 잔차)
마지막에 두 갈래로 분기:
- 한 쪽 → policy (361 확률)
- 다른 쪽 → value (1 스칼라)

장점: 공유된 특징 추출 → 학습 효율 ↑ + 메모리 절약. PART 6에서 다룸.

← 이전 Value Network — 단 하나의 숫자 다음 → 학습 — 최종 결과로부터 거꾸로