Fast Rollout Policy — 작은 형제

알파고는 SL Policy 외에 두 번째 정책망을 또 갖고 있어 — Fast Rollout Policy.

📖 왜 두 개의 정책망?

알파고의 MCTS는 두 가지 단계에서 정책망 활용:

Expand 단계: 트리 끝에서 새 가지 추가 — 한 번만 정확하게 평가
Rollout 단계: 게임 끝까지 둠 — 수십 번 빠르게 평가

속도와 정확도의 트레이드오프 — 두 가지 다른 정책망이 더 효율적.

🎯 SL Policy vs Fast Rollout

속성	SL Policy	Fast Rollout
구조	13층 CNN	선형 모델 + 패턴
정확도	57%	~25%
속도 (1수)	3ms	2μs (1500배 빠름)
파라미터	3.5M	100K
사용처	Expand + PUCT prior	Rollout simulation

💡 Fast Rollout이 부정확해도 OK인 이유

"25% 정확도는 너무 낮은 거 아닐까?" — 그러나:

완전 무작위 대비 90배 좋음
한 rollout이 250수, 그 중 250수 모두에 적용 → 누적 효과 큼
rollout 한 번이 무작위보다 훨씬 그럴듯한 게임
한 MCTS에서 수천 rollout 평균 → 강한 통계 신호

속도 × 횟수 × 그럴듯함 = SL Policy 하나만 쓰는 것보다 더 강함.

📖 Fast Rollout의 구현

13층 CNN 대신:

패턴 매칭: 3x3 모양에 대응 응수 lookup
휴리스틱: "단수 살리기", "한 칸 띄움" 같은 규칙
선형 결합: 후보 수마다 점수 → softmax

1990년대 기존 컴퓨터 바둑 기술 + 학습된 패턴. "옛 기술 + 새 학습"의 하이브리드.

← 이전 SL 학습 — 디테일 다음 → SL Policy의 한계 — 사람을 흉내내는 게 진짜 강한가?