입력과 출력 — 단 하나의 숫자
Value Network의 입출력은 policy보다 더 단순:
📥 입력 — Policy와 동일
19x19x48 (또는 비슷한) 다채널 보드 표현. 알파고에서는 policy network와 거의 같은 입력 형식.
📤 출력 — 단 하나의 숫자
스칼라 값. 보통:
- 0 ~ 1 (sigmoid 출력): "흑의 승률"
- -1 ~ +1 (tanh 출력): "흑한테 얼마나 좋은가" (-1 = 백 압승, +1 = 흑 압승, 0 = 비슷)
알파고는 -1~+1 (tanh 활성화) 사용. AlphaGo Zero도 동일.
🎯 Value Network 구조 (단순화)
입력 (19x19x48)
↓
[Conv 13층, 192 필터, ReLU] ← Policy와 동일한 부분
↓
[Conv 1 (마지막)]
↓
[Flatten + Dense → 256] + ReLU
↓
[Dense → 1] + Tanh
↓
출력: -1 ~ +1
💡 Policy와 Value의 공유 부분
알파고에서는 policy와 value를 별도 신경망으로 학습. 그래서 13층 CNN을 두 번 갖고 있어.
AlphaGo Zero는 "하나의 신경망, 두 출력"으로 통합:
- 공통 CNN 부분 (19층 잔차)
- 마지막에 두 갈래로 분기:
- 한 쪽 → policy (361 확률)
- 다른 쪽 → value (1 스칼라)
장점: 공유된 특징 추출 → 학습 효율 ↑ + 메모리 절약. PART 6에서 다룸.