PART 5 시작 — 알파고를 만들 시간
🎯 시즌 1의 클라이맥스
PART 1~4에서 모든 부품을 만들었어:
- PART 1: 바둑 규칙 + Board 클래스
- PART 2: Minimax 탐색 (한계 발견)
- PART 3: MCTS (UCB1 + 무작위)
- PART 4: 신경망 (Policy + Value)
이제 모두 합쳐서 알파고를 만든다.
알파고의 학습은 4단계로 진행돼:
📖 알파고 학습 파이프라인 (2016 논문)
- Stage 1 — SL Policy Network: 사람 게임 16만 판으로 지도학습. "사람 같은 직관" → 이 챕터의 주제
- Stage 2 — RL Policy Network: SL Policy끼리 자가 대국. "이기는 데 더 강한 직관"
- Stage 3 — Value Network: RL Policy 게임에서 "이 상태 누가 이기나" 학습
- Stage 4 — MCTS 통합: 세 신경망 + MCTS = 알파고
이 챕터에서 Stage 1. 다음 챕터들에서 Stage 2~4. Ch 6에서 7x7 미니 알파고 직접 구현.
📊 SL Policy Network — 숫자로
- 입력: 19x19x48 보드 표현
- 모델: 13층 CNN, 192 필터 each, 3x3
- 출력: 19x19 = 361 자리 확률 분포
- 학습 데이터: KGS 6단+ 게임 16만 판 → 3,000만 (보드, 다음 수) 쌍
- 학습 결과: 다음 수 정확도 57.0% (top-1)
- 학습 시간: 50 GPU × 3주
- 가중치 수: 약 350만
💡 57%의 의미 — 사람보다 잘하나?
"57%만 맞춤? 의외로 낮네" — 오해.
- 361자리 중 무작위 1위 적중 = 0.28%
- 57% = 무작위 대비 200배
- top-5 적중률은 약 80%
- 심지어 사람도 일관되게 같은 수를 두지 않음
이 SL Policy만 단독으로 두면 ELO ~1,900 (아마추어 3단). 30년 정체된 컴퓨터 바둑보다 강한 수준.
이 챕터:
- 48채널 입력 형식 — 자세히
- 13층 CNN 구조 (잔차 없음, AlphaGo Zero가 잔차)
- SL 학습 결과 — 어떤 모양에 어떤 응수
- 한계 — 사람을 흉내내는 게 진짜 강한 거?