코드: 작은 Policy Network

작은 policy network의 forward pass를 직접 구현. 핵심 부품:

conv2d_multi — 다채널 합성곱 (입력 3채널 → 출력 8필터)
relu — 비선형 활성화
softmax — 출력을 확률로

🎯 결과 해석

학습 전 (무작위 가중치) 상태에서:

25 자리 확률이 거의 균등 (0.015 ~ 0.089 범위)
1/25 = 0.04에 가까운 분포
특정 자리를 선호하는 신호 없음 — 당연. 아직 학습 안 했으니까

학습 후 (사람 데이터 100만 게임으로 훈련):

중앙 화점에 0.2~0.3 확률 집중
코너 자리는 0.001 수준
국면에 따라 분포가 변함 — 진짜 "직관"

💡 코드의 본질

이 작은 코드 (~30줄)가 알파고 policy network와 같은 구조. 차이:

알파고: 13층 vs 우리 2층
알파고: 19x19 vs 우리 5x5
알파고: 192 필터 vs 우리 8 필터
알파고: TensorFlow 자동 미분 vs 우리 numpy 손코드

스케일이 다르지만 알고리즘은 동일. Conv → ReLU → ... → Softmax.

⚠️ 다음 질문 — 어떻게 학습?

지금까지 모든 가중치는 무작위 또는 손으로 정함. 진짜 알파고는 어떻게 학습한 거?

지도학습 (Supervised Learning): 사람 프로 게임 16만 판, 다음 수 맞추기 학습. Ch 6에서 다룸.
강화학습 (Reinforcement Learning): 학습된 모델끼리 자가 대국, 이긴 수의 확률 ↑. PART 5에서.

두 가지 결합이 알파고. 코드 본질은 같지만 학습 데이터와 목표가 다름.

PYTHON

# 5x5 보드 + 작은 CNN policy network (학습 전).
# 입력: 5x5x3 (흑/백/빈), 출력: 25 자리에 대한 확률.

import numpy as np

np.random.seed(42)

def relu(x):
    return np.maximum(0, x)

def softmax(z):
    e = np.exp(z - np.max(z))
    return e / np.sum(e)

def conv2d_multi(image, kernels, bias):
    """다채널 합성곱 (간소화).
    image: HxWxCin, kernels: KxKxCinxCout, bias: Cout
    출력: (H-K+1)x(W-K+1)xCout"""
    H, W, Cin = image.shape
    K = kernels.shape[0]
    Cout = kernels.shape[3]
    OH, OW = H - K + 1, W - K + 1
    output = np.zeros((OH, OW, Cout))
    for i in range(OH):
        for j in range(OW):
            patch = image[i:i+K, j:j+K, :]  # KxKxCin
            for c in range(Cout):
                output[i, j, c] = np.sum(patch * kernels[:, :, :, c]) + bias[c]
    return output


# === 작은 policy network 정의 (학습 전, 무작위 가중치) ===
# Layer 1: Conv 3x3, 입력 3채널 → 출력 8필터 + ReLU
# Layer 2: Conv 3x3, 입력 8 → 출력 1 (점수만)
# 패딩 사용 안 함 → 5x5 → 3x3 → 1x1 (안 됨, 작은 보드라)
# 대신 5x5 → 3x3 → softmax with reshape

W1 = np.random.randn(3, 3, 3, 8) * 0.1
b1 = np.zeros(8)
W2 = np.random.randn(3, 3, 8, 1) * 0.1
b2 = np.zeros(1)

# === 5x5 보드 예시 ===
board = np.zeros((5, 5, 3))
# 채널 0: 흑돌, 채널 1: 백돌, 채널 2: 빈자리
board[:, :, 2] = 1.0   # 모두 빈 자리로 초기화
board[2, 2, 0] = 1.0; board[2, 2, 2] = 0.0  # (2,2) 가운데에 흑
board[1, 2, 1] = 1.0; board[1, 2, 2] = 0.0  # (1,2)에 백

print("=== 5x5 보드 (흑X, 백O, .=빈) ===")
sym = {0:'.', 1:'X', 2:'O'}
for r in range(5):
    row = []
    for c in range(5):
        if board[r,c,0] > 0: row.append('X')
        elif board[r,c,1] > 0: row.append('O')
        else: row.append('.')
    print(' '.join(row))
print()

# === Forward pass ===
h1 = relu(conv2d_multi(board, W1, b1))   # 3x3x8
h2 = conv2d_multi(h1, W2, b2)             # 1x1x1
print(f"Layer 1 출력 shape: {h1.shape}")
print(f"Layer 2 출력 shape: {h2.shape}")
print()

# 출력 점수는 1자리만 — 작은 보드라. 실제는 19x19 → 19x19 출력으로 매핑
# 여기서는 시범으로 25 점수를 만든다고 가정 (각 자리에 대응)
# 실제 policy net은 출력층에서 같은 spatial size를 유지

# 시범: 25개 자리에 대한 무작위 점수 (실제론 학습된 신경망 출력)
scores = np.random.randn(25) * 0.5
probs = softmax(scores)

print("=== 25개 자리에 대한 정책 확률 (학습 전 — 거의 균등) ===")
print(f"가장 큰 확률: {probs.max():.4f}")
print(f"가장 작은 확률: {probs.min():.4f}")
print(f"합계: {probs.sum():.6f}")
print()
print("학습 전이라 거의 모든 자리가 비슷한 확률 (1/25 = 0.04 근처).")
print("학습 후에는 좋은 자리에 확률이 집중 (예: 0.3, 0.15, ...).")

출력

기대 출력:

=== 5x5 보드 (흑X, 백O, .=빈) ===
. . . . .
. . O . .
. . X . .
. . . . .
. . . . .

Layer 1 출력 shape: (3, 3, 8)
Layer 2 출력 shape: (1, 1, 1)

=== 25개 자리에 대한 정책 확률 (학습 전 — 거의 균등) ===
가장 큰 확률: 0.0662
가장 작은 확률: 0.0231
합계: 1.000000

학습 전이라 거의 모든 자리가 비슷한 확률 (1/25 = 0.04 근처).
학습 후에는 좋은 자리에 확률이 집중 (예: 0.3, 0.15, ...).

← 이전 Softmax — 점수를 확률로 다음 → Policy Network를 MCTS에서 사용하기