Softmax — 점수를 확률로
Softmax는 신경망의 거의 모든 "분류" 출력에 등장. 본질:
📖 Softmax 공식
입력 점수 z₁, z₂, ..., zₙ에 대해:
P(i) = exp(zᵢ) / Σ exp(zⱼ)
각 점수에 exp 적용 → 모두 양수. 합으로 나눠 정규화 → 합이 1.
🎯 핵심 특성
- 가장 큰 점수가 가장 큰 확률 (단조 증가)
- 점수 차이가 클수록 확률 차이가 지수적으로 큼
- 모든 출력이 양수 + 합이 1 → 진짜 확률 분포
위 예에서 점수 3.5가 압도적으로 1위가 됨 (72%). 두 번째 2.0도 16%. 매우 작은 점수들은 0에 가까움.
💡 신경망 + Softmax의 흐름
입력 (보드 19x19x48)
↓ Conv 1
↓ Conv 2
↓ ...
↓ Conv 13
출력 점수 (19x19 = 361 점수)
↓ Softmax
출력 확률 (19x19 = 361 확률, 합 1)
중간은 자유롭게 점수 (음수도 OK), 마지막 softmax가 확률로 정리.
다음 페이지에서 작은 policy network 직접.
PYTHON