시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 2 · policy + value 합치기

하나의 신경망, 두 가지 출력

👋 이 챕터에서 다룰 것

알파고는 Policy Network + Value Network 각각 독립으로 학습. AlphaGo Zero는 하나의 신경망에 두 출력 head로 통합.

📖 구조 비교

알파고 (분리):

보드 → [13층 CNN A] → Policy 출력 (361 확률)
보드 → [13층 CNN B] → Value 출력 (-1~+1)

  두 신경망 = 두 배의 가중치, 두 배의 계산
  

AlphaGo Zero (통합):

                              ┌→ Policy head → 361 확률
보드 → [공통 본체 CNN] →┤
                              └→ Value head → -1~+1

  한 신경망, 마지막에 두 갈래로 분기
  
🎯 통합의 장점
  1. 특징 공유: "보드 이해"의 공통 특징을 두 head가 모두 활용
  2. 학습 효율 ↑: 한 forward pass = 두 출력 (계산 2배 절약)
  3. 메모리 절약: 가중치 수 절반
  4. 일관된 학습 신호: Policy와 Value가 같은 표현 공유
💡 왜 이게 가능한가

"어디 둘까(Policy)"와 "이 보드 누가 좋은가(Value)"가 비슷한 분석을 요구:

  • 둘 다 보드 모양을 깊이 이해해야 함
  • 둘 다 그룹 안전성, 영역 크기, 활로 같은 개념 필요
  • 그러므로 같은 특징을 공유하면 자연

사람의 사고도 비슷 — "어디 두지?"와 "내가 좋아지나?"를 한 번에 판단.