입력과 출력 — 정확한 정의

Policy Network는 정확히 무엇을 입력받고 무엇을 출력?

📥 입력 — 보드의 다채널 표현

알파고의 입력 형식 (19x19x48 채널):

각 채널이 19x19 격자에서 0/1 또는 작은 정수 값. CNN 입력에 적합한 형태.

📤 출력 — 361 자리 확률 분포

출력은 19x19 = 361개 자리에 대한 확률 분포. 각 자리의 값은 0~1, 모든 자리 합이 1.

예 출력 (단순화):

자리 (3,3) 화점: 0.18  ← 18% 확률로 추천
자리 (3,15) 화점: 0.15  
자리 (15,3) 화점: 0.14
자리 (10,10) 가운데: 0.08
...
자리 (0,0) 코너: 0.0001  ← 거의 0
합계: 1.0

가장 추천하는 수, 두 번째, 세 번째 — 모두 한 출력에 들어있음.

💡 확률 분포로 출력하는 이유

"top-1 수만 출력"하면 정보 손실. 알파고는:

그러면 신경망의 출력 layer에서 확률 분포를 어떻게 만들까? — Softmax 함수.