하나의 신경망, 두 가지 출력

👋 이 챕터에서 다룰 것

알파고는 Policy Network + Value Network 각각 독립으로 학습. AlphaGo Zero는 하나의 신경망에 두 출력 head로 통합.

📖 구조 비교

알파고 (분리):

보드 → [13층 CNN A] → Policy 출력 (361 확률)
보드 → [13층 CNN B] → Value 출력 (-1~+1)

  두 신경망 = 두 배의 가중치, 두 배의 계산

AlphaGo Zero (통합):

                              ┌→ Policy head → 361 확률
보드 → [공통 본체 CNN] →┤
                              └→ Value head → -1~+1

  한 신경망, 마지막에 두 갈래로 분기

🎯 통합의 장점

💡 왜 이게 가능한가

"어디 둘까(Policy)"와 "이 보드 누가 좋은가(Value)"가 비슷한 분석을 요구:

사람의 사고도 비슷 — "어디 두지?"와 "내가 좋아지나?"를 한 번에 판단.