PART 5 시작 — 알파고를 만들 시간

🎯 시즌 1의 클라이맥스

PART 1~4에서 모든 부품을 만들었어:

PART 1: 바둑 규칙 + Board 클래스
PART 2: Minimax 탐색 (한계 발견)
PART 3: MCTS (UCB1 + 무작위)
PART 4: 신경망 (Policy + Value)

이제 모두 합쳐서 알파고를 만든다.

알파고의 학습은 4단계로 진행돼:

📖 알파고 학습 파이프라인 (2016 논문)

Stage 1 — SL Policy Network: 사람 게임 16만 판으로 지도학습. "사람 같은 직관" → 이 챕터의 주제
Stage 2 — RL Policy Network: SL Policy끼리 자가 대국. "이기는 데 더 강한 직관"
Stage 3 — Value Network: RL Policy 게임에서 "이 상태 누가 이기나" 학습
Stage 4 — MCTS 통합: 세 신경망 + MCTS = 알파고

이 챕터에서 Stage 1. 다음 챕터들에서 Stage 2~4. Ch 6에서 7x7 미니 알파고 직접 구현.

📊 SL Policy Network — 숫자로

입력: 19x19x48 보드 표현
모델: 13층 CNN, 192 필터 each, 3x3
출력: 19x19 = 361 자리 확률 분포
학습 데이터: KGS 6단+ 게임 16만 판 → 3,000만 (보드, 다음 수) 쌍
학습 결과: 다음 수 정확도 57.0% (top-1)
학습 시간: 50 GPU × 3주
가중치 수: 약 350만

💡 57%의 의미 — 사람보다 잘하나?

"57%만 맞춤? 의외로 낮네" — 오해.

361자리 중 무작위 1위 적중 = 0.28%
57% = 무작위 대비 200배
top-5 적중률은 약 80%
심지어 사람도 일관되게 같은 수를 두지 않음

이 SL Policy만 단독으로 두면 ELO ~1,900 (아마추어 3단). 30년 정체된 컴퓨터 바둑보다 강한 수준.

이 챕터:

48채널 입력 형식 — 자세히
13층 CNN 구조 (잔차 없음, AlphaGo Zero가 잔차)
SL 학습 결과 — 어떤 모양에 어떤 응수
한계 — 사람을 흉내내는 게 진짜 강한 거?

← 이전 챕터 6 & PART 4 정리 다음 → 48 채널 입력 — 도메인 지식의 인코딩