Fast Rollout Policy — 작은 형제
알파고는 SL Policy 외에 두 번째 정책망을 또 갖고 있어 — Fast Rollout Policy.
📖 왜 두 개의 정책망?
알파고의 MCTS는 두 가지 단계에서 정책망 활용:
- Expand 단계: 트리 끝에서 새 가지 추가 — 한 번만 정확하게 평가
- Rollout 단계: 게임 끝까지 둠 — 수십 번 빠르게 평가
속도와 정확도의 트레이드오프 — 두 가지 다른 정책망이 더 효율적.
🎯 SL Policy vs Fast Rollout
| 속성 | SL Policy | Fast Rollout |
|---|---|---|
| 구조 | 13층 CNN | 선형 모델 + 패턴 |
| 정확도 | 57% | ~25% |
| 속도 (1수) | 3ms | 2μs (1500배 빠름) |
| 파라미터 | 3.5M | 100K |
| 사용처 | Expand + PUCT prior | Rollout simulation |
💡 Fast Rollout이 부정확해도 OK인 이유
"25% 정확도는 너무 낮은 거 아닐까?" — 그러나:
- 완전 무작위 대비 90배 좋음
- 한 rollout이 250수, 그 중 250수 모두에 적용 → 누적 효과 큼
- rollout 한 번이 무작위보다 훨씬 그럴듯한 게임
- 한 MCTS에서 수천 rollout 평균 → 강한 통계 신호
속도 × 횟수 × 그럴듯함 = SL Policy 하나만 쓰는 것보다 더 강함.
📖 Fast Rollout의 구현
13층 CNN 대신:
- 패턴 매칭: 3x3 모양에 대응 응수 lookup
- 휴리스틱: "단수 살리기", "한 칸 띄움" 같은 규칙
- 선형 결합: 후보 수마다 점수 → softmax
1990년대 기존 컴퓨터 바둑 기술 + 학습된 패턴. "옛 기술 + 새 학습"의 하이브리드.