시즌 1 · 알파고편 / PART 4 · PART 4 · 신경망 등장: 직관을 학습한다 / Ch 3 · Policy Network

Softmax — 점수를 확률로

Softmax는 신경망의 거의 모든 "분류" 출력에 등장. 본질:

📖 Softmax 공식

입력 점수 z₁, z₂, ..., zₙ에 대해:

P(i) = exp(zᵢ) / Σ exp(zⱼ)

각 점수에 exp 적용 → 모두 양수. 합으로 나눠 정규화 → 합이 1.

🎯 핵심 특성
  • 가장 큰 점수가 가장 큰 확률 (단조 증가)
  • 점수 차이가 클수록 확률 차이가 지수적으로 큼
  • 모든 출력이 양수 + 합이 1 → 진짜 확률 분포

위 예에서 점수 3.5가 압도적으로 1위가 됨 (72%). 두 번째 2.0도 16%. 매우 작은 점수들은 0에 가까움.

💡 신경망 + Softmax의 흐름
입력 (보드 19x19x48)
   ↓ Conv 1
   ↓ Conv 2
   ↓ ...
   ↓ Conv 13
출력 점수 (19x19 = 361 점수)
   ↓ Softmax
출력 확률 (19x19 = 361 확률, 합 1)

중간은 자유롭게 점수 (음수도 OK), 마지막 softmax가 확률로 정리.

다음 페이지에서 작은 policy network 직접.

PYTHON