코드: 합성 데이터로 학습 시범

드디어 진짜 학습 시범! 100개 가짜 데이터로 10 epoch 학습:

학습 전: 가운데(24) 확률 2.04% (49 자리 균등)
학습 후: 가운데 확률 90.5% — 가운데 우선 학습 완료
평균 손실: 4.00 → 0.22 (Epoch 1에 2.59로 큰 폭 감소)
가운데 확률은 평균의 44배

🎯 학습이 진짜 일어남

이 코드의 본질은 5줄:

# 한 학습 단계
probs, logits = net.forward(x)        # forward pass
loss = net.loss(probs, target)         # 손실 계산
dW, db = net.gradient(x, probs, target)  # 역전파 (미분)
net.update(dW, db, lr=0.05)             # 경사 하강

알파고도 본질 동일. 단지 우리는 100개 데이터 10 epoch, 알파고는 3,000만 데이터 며칠 학습.

💡 손실 곡선의 의미

7.22 → 1.31 → 학습이 잘 진행됨. 일반적 모양:

초기: 빠르게 감소 (큰 그래디언트, 모델이 빨리 배움)
중기: 느리게 감소 (미세 조정)
후기: 거의 평탄 (수렴)

알파고 학습 시 같은 곡선 — 처음 며칠은 빠른 향상, 그 후 느린 미세 조정.

⚠️ 이 코드의 한계

여기서 사용한 "가짜 사람" 함수는 단순 — 가운데만 선호. 진짜 사람은 훨씬 복잡:

국면에 따라 다른 자리 선호 (오프닝 / 미들 / 엔드)
상대방 모양에 따라 응수
그룹 살리기, 영역 만들기 등 게임 지식

진짜 알파고 학습 데이터는 이 모든 게 자연스럽게 포함. 그래서 16만 게임의 가치.

PYTHON

# 7x7 policy net을 합성 데이터로 학습 시범.
# 가짜 "사람 데이터": "가운데를 선호하는 사람"이 둔 수.
# numpy로 직접 역전파 — 작은 신경망이라 가능.

import numpy as np

np.random.seed(42)


def softmax(z):
    e = np.exp(z - np.max(z))
    return e / np.sum(e)


# === 간단한 모델: Linear (CNN 없이) ===
# 49 입력 (보드 flatten) → 49 출력 (각 자리 점수)
# Cross entropy loss로 학습

class SimplePolicyNet:
    def __init__(self):
        self.W = np.random.randn(49, 49) * 0.1
        self.b = np.zeros(49)
    
    def forward(self, x):
        """x: 49 (보드), 반환: 49 (확률)"""
        logits = self.W @ x + self.b
        return softmax(logits), logits
    
    def loss(self, probs, target):
        """Cross entropy"""
        return -np.log(probs[target] + 1e-10)
    
    def gradient(self, x, probs, target):
        """∂Loss/∂W, ∂Loss/∂b. 직접 미분."""
        # softmax + cross entropy의 미분: dL/dz = probs - one_hot(target)
        one_hot = np.zeros(49)
        one_hot[target] = 1.0
        dL_dz = probs - one_hot   # 49
        # 체인 룰: dL/dW = dL/dz · x^T
        dL_dW = np.outer(dL_dz, x)   # 49x49
        dL_db = dL_dz                  # 49
        return dL_dW, dL_db
    
    def update(self, dW, db, lr=0.01):
        self.W -= lr * dW
        self.b -= lr * db


# === 가짜 학습 데이터 생성 ===
# "사람"이 항상 빈자리 중 가장 가운데를 선호한다고 하자
def fake_human_move(board_state):
    """board: 49, 1=내 돌, -1=상대 돌, 0=빈자리. 가운데 빈자리 우선"""
    empty_idx = np.where(board_state == 0)[0]
    if len(empty_idx) == 0: return 0
    # 가운데 (24)에 가까운 빈자리
    def dist(i):
        r, c = i // 7, i % 7
        return abs(r - 3) + abs(c - 3)
    return min(empty_idx, key=dist)


# 학습 데이터 100개 생성
training_data = []
for _ in range(100):
    # 무작위로 0~20수 진행된 보드 만들기
    state = np.zeros(49)
    n_stones = np.random.randint(0, 20)
    positions = np.random.choice(49, n_stones, replace=False)
    for i, pos in enumerate(positions):
        state[pos] = 1 if i % 2 == 0 else -1
    target = fake_human_move(state)
    training_data.append((state, target))


# === 학습 ===
net = SimplePolicyNet()

print(f"=== 학습 전 ===")
test_state = np.zeros(49)   # 빈 보드
probs, _ = net.forward(test_state)
target = fake_human_move(test_state)   # 가운데 (24)
print(f"빈 보드에서 모델 예측 - 가운데(24) 확률: {probs[24]:.4f}")
print(f"평균 손실 (학습 데이터 100개): {np.mean([net.loss(net.forward(x)[0], t) for x, t in training_data]):.3f}")
print()

# 학습 10 epoch
print("=== 학습 진행 ===")
for epoch in range(10):
    total_loss = 0
    for x, target in training_data:
        probs, logits = net.forward(x)
        loss = net.loss(probs, target)
        dW, db = net.gradient(x, probs, target)
        net.update(dW, db, lr=0.05)
        total_loss += loss
    avg_loss = total_loss / len(training_data)
    print(f"  Epoch {epoch+1:>2}: 평균 손실 {avg_loss:.4f}")

print()
print(f"=== 학습 후 ===")
probs, _ = net.forward(test_state)
print(f"빈 보드에서 모델 예측 - 가운데(24) 확률: {probs[24]:.4f}  (학습 전보다 큼!)")
print(f"가장 큰 확률 자리: {probs.argmax()} (가운데 24)")
print(f"가운데 확률 / 평균 = {probs[24] / probs.mean():.1f}배")

출력

기대 출력:

=== 학습 전 ===
빈 보드에서 모델 예측 - 가운데(24) 확률: 0.0204
평균 손실 (학습 데이터 100개): 3.997

=== 학습 진행 ===
  Epoch  1: 평균 손실 2.5867
  Epoch  2: 평균 손실 1.0667
  Epoch  3: 평균 손실 0.7456
  Epoch  4: 평균 손실 0.5723
  Epoch  5: 평균 손실 0.4549
  Epoch  6: 평균 손실 0.3741
  Epoch  7: 평균 손실 0.3166
  Epoch  8: 평균 손실 0.2742
  Epoch  9: 평균 손실 0.2418
  Epoch 10: 평균 손실 0.2165

=== 학습 후 ===
빈 보드에서 모델 예측 - 가운데(24) 확률: 0.9054  (학습 전보다 큼!)
가장 큰 확률 자리: 24 (가운데 24)
가운데 확률 / 평균 = 44.4배

← 이전 손실 함수 — Cross Entropy 다음 → 알파고의 실제 학습