코드: 작은 Value Network

이 출력은 의미 없는 값들 — 학습 전이라 모든 보드 V가 0 근처. 무작위 초기화 가중치 때문.

⚠️ 흥미로운 부분 — 모든 V가 0.02~0.04 사이

모든 보드의 V가 거의 비슷한 작은 양수. 무작위 가중치라 보드 모양 차이를 변별 못함. 흑 우세든 백 우세든 신경망은 똑같이 보임.

학습 후에는 각 보드의 V가 명백히 달라짐 — 흑 우세는 +0.8 같은 값, 백 우세는 -0.7 같은 값. 학습이 곧 "지식".

💡 진짜 학습은 어떻게

여기서는 무작위 가중치로 forward pass만 실행. 진짜 학습은:

수십만 게임 데이터 준비 (각 상태에 결과 라벨)
모든 (state, V_true) 쌍으로 MSE 손실 최소화
역전파로 가중치 갱신 (수시간 ~ 수일 GPU 계산)
학습된 가중치로 forward pass → 의미 있는 V 출력

알파고는 3천만 보드 상태(약 30만 자가 대국에서)로 학습. 강한 GPU 클러스터에서 며칠 소요.

📊 학습된 Value Network의 정확도

알파고 논문(2016) Table 1:

학습된 Value Network: 게임 결과 예측 정확도 약 77%
같은 보드에 1000번 rollout 평균: 정확도 약 60%
Value Network가 rollout보다 정확 + 1000배 빠름

이게 MCTS Simulate를 대체하는 강력한 이유.

PYTHON

# 작은 value network — 5x5 보드 → 하나의 숫자 (-1~+1).
# Policy net과 거의 같은 구조, 마지막만 다름.

import numpy as np

np.random.seed(123)

def relu(x): return np.maximum(0, x)
def tanh(x): return np.tanh(x)

def conv2d_multi(image, kernels, bias):
    H, W, Cin = image.shape
    K = kernels.shape[0]
    Cout = kernels.shape[3]
    OH, OW = H - K + 1, W - K + 1
    output = np.zeros((OH, OW, Cout))
    for i in range(OH):
        for j in range(OW):
            patch = image[i:i+K, j:j+K, :]
            for c in range(Cout):
                output[i, j, c] = np.sum(patch * kernels[:, :, :, c]) + bias[c]
    return output


# === Value Network (학습 전, 무작위 가중치) ===
# 입력 3채널 → Conv → ReLU → Conv → ReLU → Flatten → Dense → tanh
W1 = np.random.randn(3, 3, 3, 8) * 0.1
b1 = np.zeros(8)
W2 = np.random.randn(3, 3, 8, 4) * 0.1
b2 = np.zeros(4)
W_dense = np.random.randn(4, 1) * 0.1   # flatten 후 4채널×1×1 = 4 → 1
b_dense = np.zeros(1)


def value_net_forward(board):
    h1 = relu(conv2d_multi(board, W1, b1))     # 5x5x3 → 3x3x8
    h2 = relu(conv2d_multi(h1, W2, b2))         # 3x3x8 → 1x1x4
    h2_flat = h2.flatten()                       # 4
    v = tanh(W_dense.T @ h2_flat + b_dense)
    return float(v[0])


# === 여러 보드 상태에 대해 평가 ===
def make_board(positions_black, positions_white):
    """positions: [(r,c), ...]. 5x5x3 표현."""
    board = np.zeros((5, 5, 3))
    board[:, :, 2] = 1.0   # 모두 빈자리로
    for r, c in positions_black:
        board[r, c, 0] = 1.0; board[r, c, 2] = 0.0
    for r, c in positions_white:
        board[r, c, 1] = 1.0; board[r, c, 2] = 0.0
    return board


# 여러 상태 평가
states = [
    ("빈 보드", make_board([], [])),
    ("흑이 가운데 점령", make_board([(2,2)], [])),
    ("백이 가운데 점령", make_board([], [(2,2)])),
    ("흑 우세 (3개)", make_board([(2,2),(1,2),(2,1)], [])),
    ("백 우세 (3개)", make_board([], [(2,2),(1,2),(2,1)])),
]

print("=== Value Network 평가 (학습 전, 무작위 가중치) ===\n")
for name, board in states:
    v = value_net_forward(board)
    print(f"  {name:>18}: V = {v:+.4f}")

print()
print("=== 학습 전이라 의미 없는 값 (무작위) ===")
print("학습 후에는:")
print("  • '빈 보드'        →  V ≈ 0  (균형)")
print("  • '흑이 가운데 점령' → V > 0  (흑 약간 유리)")
print("  • '백이 가운데 점령' → V < 0  (백 약간 유리)")
print("  • '흑 우세 3개'     → V 큰 양수  (흑 명백히 유리)")
print("  • '백 우세 3개'     → V 큰 음수  (백 명백히 유리)")

출력

기대 출력:

=== Value Network 평가 (학습 전, 무작위 가중치) ===

                빈 보드: V = +0.0244
           흑이 가운데 점령: V = +0.0338
           백이 가운데 점령: V = +0.0406
           흑 우세 (3개): V = +0.0284
           백 우세 (3개): V = +0.0337

=== 학습 전이라 의미 없는 값 (무작위) ===
학습 후에는:
  • '빈 보드'        →  V ≈ 0  (균형)
  • '흑이 가운데 점령' → V > 0  (흑 약간 유리)
  • '백이 가운데 점령' → V < 0  (백 약간 유리)
  • '흑 우세 3개'     → V 큰 양수  (흑 명백히 유리)
  • '백 우세 3개'     → V 큰 음수  (백 명백히 유리)

← 이전 학습 — 최종 결과로부터 거꾸로 다음 → MCTS + Value Network