시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 1 · SL Policy Network

Fast Rollout Policy — 작은 형제

알파고는 SL Policy 외에 두 번째 정책망을 또 갖고 있어 — Fast Rollout Policy.

📖 왜 두 개의 정책망?

알파고의 MCTS는 두 가지 단계에서 정책망 활용:

  • Expand 단계: 트리 끝에서 새 가지 추가 — 한 번만 정확하게 평가
  • Rollout 단계: 게임 끝까지 둠 — 수십 번 빠르게 평가

속도와 정확도의 트레이드오프 — 두 가지 다른 정책망이 더 효율적.

🎯 SL Policy vs Fast Rollout
속성 SL Policy Fast Rollout
구조13층 CNN선형 모델 + 패턴
정확도57%~25%
속도 (1수)3ms2μs (1500배 빠름)
파라미터3.5M100K
사용처Expand + PUCT priorRollout simulation
💡 Fast Rollout이 부정확해도 OK인 이유

"25% 정확도는 너무 낮은 거 아닐까?" — 그러나:

  • 완전 무작위 대비 90배 좋음
  • 한 rollout이 250수, 그 중 250수 모두에 적용 → 누적 효과 큼
  • rollout 한 번이 무작위보다 훨씬 그럴듯한 게임
  • 한 MCTS에서 수천 rollout 평균 → 강한 통계 신호

속도 × 횟수 × 그럴듯함 = SL Policy 하나만 쓰는 것보다 더 강함.

📖 Fast Rollout의 구현

13층 CNN 대신:

  • 패턴 매칭: 3x3 모양에 대응 응수 lookup
  • 휴리스틱: "단수 살리기", "한 칸 띄움" 같은 규칙
  • 선형 결합: 후보 수마다 점수 → softmax

1990년대 기존 컴퓨터 바둑 기술 + 학습된 패턴. "옛 기술 + 새 학습"의 하이브리드.