코드: 학습 한 단계 — 신경망 갱신

학습의 본질 — "손실을 줄이는 가중치 찾기". 위 시뮬레이션:

학습 전: 총 손실 4.23 (Policy 3.28 + Value 0.95)
학습 후 (시뮬): 총 손실 2.22 (Policy 2.13 + Value 0.09)
47.5% 감소 — 한 학습 사이클의 효과

🎯 두 손실의 의미

Policy 손실 (cross entropy): 신경망의 prior가 MCTS visits 분포에 가까워지는 정도
Value 손실 (MSE): 신경망의 v가 실제 게임 결과 z에 가까워지는 정도
두 손실을 동시에 줄이는 가중치 = 좋은 신경망

💡 진짜 학습은 numpy로 어렵다

위 시뮬은 "학습된 척" — 실제 numpy 역전파는 복잡하고 느림. 진짜 코드는 TensorFlow나 PyTorch 사용:

loss = (v - z)**2 + cross_entropy(pi, p) + L2(theta)
loss.backward()  # 자동 미분
optimizer.step()  # 가중치 갱신

한 학습 단계가 3줄. AlphaGo Zero도 본질 동일.

📊 실제 학습 곡선 (논문 Figure 3)

0 ~ 3시간: 손실 빠르게 감소 (큰 무지에서 기본 학습)
3시간 ~ 7일: 천천히 감소 (정석 학습)
7일 ~ 40일: 매우 천천히 감소 (fine-tuning)
그러나 ELO는 계속 증가

손실이 거의 평탄해 보여도 ELO 향상은 계속 — 정밀 fine-tuning이 의미 있음.

PYTHON

# AlphaGo Zero 학습 한 단계의 본질.
# 진짜 역전파 없이, 학습 신호를 시각화.

import numpy as np

np.random.seed(42)


# === 가상의 학습 데이터 (자가 대국에서 모았다고 가정) ===
# 100개 사례, 각각 (s, π, z)
N = 100
boards = np.random.randn(N, 5, 5, 3)
# π_targets: 각 보드에 대한 MCTS visits 분포
pi_targets = np.zeros((N, 25))
for i in range(N):
    # 무작위 자리에 집중하는 분포 시뮬
    center_idx = np.random.randint(25)
    pi_targets[i, center_idx] = 0.7
    pi_targets[i] += np.random.dirichlet(np.ones(25) * 0.5) * 0.3
    pi_targets[i] /= pi_targets[i].sum()

z_targets = np.random.choice([-1, 1], size=N).astype(float)


# === 학습 손실 계산 (가상) ===
def softmax(z):
    e = np.exp(z - np.max(z, axis=-1, keepdims=True))
    return e / e.sum(axis=-1, keepdims=True)

def compute_loss(p_pred, v_pred, pi_target, z_target):
    """L = (v-z)² − π·log(p)"""
    p_pred = softmax(p_pred)
    p_clip = np.clip(p_pred, 1e-10, 1)
    cross_entropy = -np.sum(pi_target * np.log(p_clip), axis=-1)
    value_loss = (v_pred - z_target) ** 2
    return value_loss + cross_entropy, value_loss, cross_entropy


# === 학습 시뮬 — "현재 예측" 가상 ===
# 학습 전: 신경망이 무작위 → p와 v도 무작위
p_initial = np.random.randn(N, 25) * 0.3
v_initial = np.random.randn(N) * 0.3
total_initial, vl_initial, cel_initial = compute_loss(p_initial, v_initial, pi_targets, z_targets)

print("=== 학습 전 손실 ===")
print(f"평균 총 손실: {total_initial.mean():.4f}")
print(f"  Policy (cross entropy): {cel_initial.mean():.4f}")
print(f"  Value (MSE):            {vl_initial.mean():.4f}")
print()

# === 학습 후: 신경망이 π에 가까운 출력 + z에 가까운 v ===
# (가상으로 학습된 척)
p_trained = pi_targets + np.random.randn(N, 25) * 0.05
v_trained = z_targets * 0.7 + np.random.randn(N) * 0.1
# logit으로 변환 (학습된 직접 출력 시뮬)
p_logits_trained = np.log(np.clip(p_trained, 1e-5, 1))

total_trained, vl_trained, cel_trained = compute_loss(p_logits_trained, v_trained, pi_targets, z_targets)

print("=== 학습 후 손실 (시뮬) ===")
print(f"평균 총 손실: {total_trained.mean():.4f}")
print(f"  Policy (cross entropy): {cel_trained.mean():.4f}")
print(f"  Value (MSE):            {vl_trained.mean():.4f}")
print()

print("=== 손실 감소 ===")
print(f"학습 전 → 학습 후: {total_initial.mean():.4f} → {total_trained.mean():.4f}")
print(f"감소율: {(1 - total_trained.mean()/total_initial.mean())*100:.1f}%")
print()
print("AlphaGo Zero 실제 학습 곡선도 비슷 — 첫 사이클에 손실 빠르게 감소,")
print("이후 천천히 fine-tuning. 40일 학습 동안 ELO 0 → 5,200.")

출력

기대 출력:

=== 학습 전 손실 ===
평균 총 손실: 4.2286
  Policy (cross entropy): 3.2815
  Value (MSE):            0.9470

=== 학습 후 손실 (시뮬) ===
평균 총 손실: 2.2212
  Policy (cross entropy): 2.1323
  Value (MSE):            0.0889

=== 손실 감소 ===
학습 전 → 학습 후: 4.2286 → 2.2212
감소율: 47.5%

AlphaGo Zero 실제 학습 곡선도 비슷 — 첫 사이클에 손실 빠르게 감소,
이후 천천히 fine-tuning. 40일 학습 동안 ELO 0 → 5,200.

← 이전 코드: 자가 대국 한 게임 다음 → 전체 파이프라인 요약