하나의 신경망, 두 가지 출력
👋 이 챕터에서 다룰 것
알파고는 Policy Network + Value Network 각각 독립으로 학습. AlphaGo Zero는 하나의 신경망에 두 출력 head로 통합.
📖 구조 비교
알파고 (분리):
보드 → [13층 CNN A] → Policy 출력 (361 확률) 보드 → [13층 CNN B] → Value 출력 (-1~+1) 두 신경망 = 두 배의 가중치, 두 배의 계산
AlphaGo Zero (통합):
┌→ Policy head → 361 확률
보드 → [공통 본체 CNN] →┤
└→ Value head → -1~+1
한 신경망, 마지막에 두 갈래로 분기
🎯 통합의 장점
- 특징 공유: "보드 이해"의 공통 특징을 두 head가 모두 활용
- 학습 효율 ↑: 한 forward pass = 두 출력 (계산 2배 절약)
- 메모리 절약: 가중치 수 절반
- 일관된 학습 신호: Policy와 Value가 같은 표현 공유
💡 왜 이게 가능한가
"어디 둘까(Policy)"와 "이 보드 누가 좋은가(Value)"가 비슷한 분석을 요구:
- 둘 다 보드 모양을 깊이 이해해야 함
- 둘 다 그룹 안전성, 영역 크기, 활로 같은 개념 필요
- 그러므로 같은 특징을 공유하면 자연
사람의 사고도 비슷 — "어디 두지?"와 "내가 좋아지나?"를 한 번에 판단.