학습 후의 모습 — 시뮬레이션

학습 전: 모든 자리 0.0204 균등. 학습 후: 중심(3,3)에 8.14% 집중, 코너는 0.4%. 20배 차이.

🎯 학습이 만든 것

같은 신경망 구조, 같은 입력. 가중치만 다름. 균등 분포 → 의미 있는 분포 전환.

여기서는 "학습된 척" 가짜 가중치 사용. 진짜 학습은 다음 챕터에서.

💡 진짜 알파고의 학습된 정책 (논문에서)

19x19 빈 보드에서 알파고 SL Policy의 top 5 자리:

(3,15) 화점: ~13%
(15,3) 화점: ~13%
(15,15) 화점: ~11%
(3,3) 화점: ~11%
(10,10) 천원: ~5%

화점 4개에 합쳐 50% 집중. 사람 프로의 시작 분포와 매우 유사. "사람 같은 직관"의 학습된 모습.

⚠️ 학습은 어떻게 하나? — 마지막 챕터

지금까지 가중치를 손으로 정하거나 무작위로. 진짜 학습은:

수십만 사람 프로 게임 데이터 준비
각 (보드, 사람이 둔 수) 쌍을 학습 데이터로
신경망이 그 수를 맞추도록 가중치 갱신 (역전파)

이게 다음 챕터의 주제. 작은 합성 데이터로 시범 학습.

PYTHON

# 학습 후 어떻게 변하나? 진짜 학습은 다음 챕터, 여기서는 "학습된 척" 시뮬레이션.
# 가중치를 손으로 조정해서 중앙을 선호하게.

import numpy as np

np.random.seed(42)

def relu(x): return np.maximum(0, x)
def softmax(z):
    e = np.exp(z - np.max(z))
    return e / np.sum(e)
def conv2d_padded(image, kernels, bias):
    H, W, Cin = image.shape; K = kernels.shape[0]; Cout = kernels.shape[3]
    pad = K // 2
    padded = np.zeros((H+2*pad, W+2*pad, Cin)); padded[pad:pad+H, pad:pad+W, :] = image
    output = np.zeros((H, W, Cout))
    for i in range(H):
        for j in range(W):
            patch = padded[i:i+K, j:j+K, :]
            for c in range(Cout):
                output[i,j,c] = np.sum(patch * kernels[:,:,:,c]) + bias[c]
    return output


# 같은 모델 구조, "학습된 척" 가중치 (정밀 조정 안 함, 메시지만)
# 마지막 conv가 보드 위치에 따라 다른 값 출력하게: 가운데일수록 점수 ↑

# 위치 기반 prior (가운데 자리에 큰 보너스)
position_prior = np.zeros((7, 7))
center = 3
for r in range(7):
    for c in range(7):
        dist = abs(r - center) + abs(c - center)
        position_prior[r, c] = 2.0 - dist * 0.5

print("=== '학습된 모델' 시뮬레이션 — 위치 기반 prior ===")
print()
print("Logit 점수 (가운데일수록 큼):")
for r in range(7):
    row = "  "
    for c in range(7):
        row += f"{position_prior[r,c]:>5.1f} "
    print(row)

print()
probs = softmax(position_prior.flatten()).reshape(7, 7)
print("Softmax 후 확률:")
for r in range(7):
    row = "  "
    for c in range(7):
        row += f"{probs[r,c]:.4f} "
    print(row)

print()
print(f"가운데 (3,3) 확률: {probs[3,3]:.4f}  ← 가장 큼")
print(f"코너 (0,0) 확률:  {probs[0,0]:.4f}")
print(f"중앙 변 (3,0) 확률: {probs[3,0]:.4f}")
print(f"비율: 가운데 / 코너 = {probs[3,3]/probs[0,0]:.1f}배")
print()
print("=== 학습 후 정책의 모습 ===")
print("• 중심에 확률 집중 → 알파고가 화점 선호")
print("• 코너는 거의 0에 가까움 → 약한 자리")
print("• 진짜 학습은 'OS 시작 위치' 같은 일관된 신호로 자동 형성")

출력

기대 출력:

=== '학습된 모델' 시뮬레이션 — 위치 기반 prior ===

Logit 점수 (가운데일수록 큼):
   -1.0  -0.5   0.0   0.5   0.0  -0.5  -1.0 
   -0.5   0.0   0.5   1.0   0.5   0.0  -0.5 
    0.0   0.5   1.0   1.5   1.0   0.5   0.0 
    0.5   1.0   1.5   2.0   1.5   1.0   0.5 
    0.0   0.5   1.0   1.5   1.0   0.5   0.0 
   -0.5   0.0   0.5   1.0   0.5   0.0  -0.5 
   -1.0  -0.5   0.0   0.5   0.0  -0.5  -1.0 

Softmax 후 확률:
  0.0043 0.0071 0.0117 0.0194 0.0117 0.0071 0.0043 
  0.0071 0.0117 0.0194 0.0319 0.0194 0.0117 0.0071 
  0.0117 0.0194 0.0319 0.0526 0.0319 0.0194 0.0117 
  0.0194 0.0319 0.0526 0.0868 0.0526 0.0319 0.0194 
  0.0117 0.0194 0.0319 0.0526 0.0319 0.0194 0.0117 
  0.0071 0.0117 0.0194 0.0319 0.0194 0.0117 0.0071 
  0.0043 0.0071 0.0117 0.0194 0.0117 0.0071 0.0043 

가운데 (3,3) 확률: 0.0868  ← 가장 큼
코너 (0,0) 확률:  0.0043
중앙 변 (3,0) 확률: 0.0194
비율: 가운데 / 코너 = 20.1배

=== 학습 후 정책의 모습 ===
• 중심에 확률 집중 → 알파고가 화점 선호
• 코너는 거의 0에 가까움 → 약한 자리
• 진짜 학습은 'OS 시작 위치' 같은 일관된 신호로 자동 형성

← 이전 코드: 완성된 7x7 CNN Policy Network 다음 → 챕터 5 정리