Softmax — 점수를 확률로

Softmax는 신경망의 거의 모든 "분류" 출력에 등장. 본질:

📖 Softmax 공식

입력 점수 z₁, z₂, ..., zₙ에 대해:

P(i) = exp(zᵢ) / Σ exp(zⱼ)

각 점수에 exp 적용 → 모두 양수. 합으로 나눠 정규화 → 합이 1.

🎯 핵심 특성

가장 큰 점수가 가장 큰 확률 (단조 증가)
점수 차이가 클수록 확률 차이가 지수적으로 큼
모든 출력이 양수 + 합이 1 → 진짜 확률 분포

위 예에서 점수 3.5가 압도적으로 1위가 됨 (72%). 두 번째 2.0도 16%. 매우 작은 점수들은 0에 가까움.

💡 신경망 + Softmax의 흐름

입력 (보드 19x19x48)
   ↓ Conv 1
   ↓ Conv 2
   ↓ ...
   ↓ Conv 13
출력 점수 (19x19 = 361 점수)
   ↓ Softmax
출력 확률 (19x19 = 361 확률, 합 1)

중간은 자유롭게 점수 (음수도 OK), 마지막 softmax가 확률로 정리.

다음 페이지에서 작은 policy network 직접.

PYTHON

# Softmax: 임의의 점수를 확률 분포로 변환.
# 음수도 양수도 → 모두 양수 + 합이 1.

import numpy as np

def softmax(z):
    """입력 벡터 z → 확률 분포"""
    e = np.exp(z - np.max(z))   # 수치 안정성을 위해 최대값 빼기
    return e / np.sum(e)


# === 예시: 5개 자리에 대한 점수 ===
scores = np.array([2.0, 1.0, -0.5, 0.8, 3.5])
print("=== 입력 점수 (신경망 마지막 층의 출력) ===")
print(f"점수: {scores}")
print()

probs = softmax(scores)
print("=== Softmax 결과 (확률 분포) ===")
print(f"확률: {probs}")
print(f"합계: {probs.sum():.6f}  (정확히 1.0)")
print()

# === 시각화 ===
print("=== 시각화 ===")
print(f"{'자리':>4} {'점수':>8} {'확률':>10} {'바':>20}")
for i, (s, p) in enumerate(zip(scores, probs)):
    bar = '█' * int(p * 50)
    print(f"  {i:>2} {s:>8.2f} {p:>10.4f}  {bar}")

print()
print("=== 관찰 ===")
print("• 가장 높은 점수 (3.5) → 가장 큰 확률 (~68%)")
print("• 두 번째 높은 (2.0) → 두 번째 확률 (~16%)")
print("• 음수 점수 (-0.5) → 매우 작은 확률 (~1.3%)")
print("• 점수 차이가 클수록 확률 차이도 크게 (지수 함수)")

출력

기대 출력:

=== 입력 점수 (신경망 마지막 층의 출력) ===
점수: [ 2.   1.  -0.5  0.8  3.5]

=== Softmax 결과 (확률 분포) ===
확률: [0.16044031 0.05902269 0.01316974 0.04832369 0.71904357]
합계: 1.000000  (정확히 1.0)

=== 시각화 ===
  자리       점수         확률                    바
   0     2.00     0.1604  ████████
   1     1.00     0.0590  ██
   2    -0.50     0.0132  
   3     0.80     0.0483  ██
   4     3.50     0.7190  ███████████████████████████████████

=== 관찰 ===
• 가장 높은 점수 (3.5) → 가장 큰 확률 (~68%)
• 두 번째 높은 (2.0) → 두 번째 확률 (~16%)
• 음수 점수 (-0.5) → 매우 작은 확률 (~1.3%)
• 점수 차이가 클수록 확률 차이도 크게 (지수 함수)

← 이전 입력과 출력 — 정확한 정의 다음 → 코드: 작은 Policy Network