Value + Rollout 혼합 — 왜?
"Value 단독이 더 정확하다면 rollout은 왜 쓰는가?"
📖 두 가지가 보완적
Value Network와 Rollout은 다른 종류의 오류:
- Value Network:
- 장점: 빠름, 평균적 정확
- 약점: 학습한 패턴에 갇힘 — 처음 보는 모양에는 잘못된 예측 가능
- 약점: 깊은 계산이 필요한 함정 (사다리, 패) 못 봄
- Rollout:
- 장점: 끝까지 둠 → 함정 발견 가능
- 장점: 게임 규칙 직접 확인
- 약점: 노이즈 큼 (무작위라)
두 가지가 다른 오류 → 혼합하면 오류 평균화 → 더 정확.
🎯 혼합 공식
V_final = λ · V_net(s) + (1 − λ) · V_rollout(s)
알파고는 λ = 0.5 (반반). 왜 0.5?
- 실험으로 결정 — 0, 0.25, 0.5, 0.75, 1 모두 시도
- 0.5가 가장 강함 (논문 Figure 4)
- 두 가지가 동등하게 기여 → 평균이 최적
💡 AlphaGo Zero (2017)의 변화
1년 후 AlphaGo Zero에서:
- Rollout 완전 제거
- Value Network만 사용
- 이유: Value Network가 충분히 정확해짐 (학습 기술 발전)
- 알고리즘 단순화 → 더 강함 (역설적)
왜 단순화가 강함? — Rollout의 노이즈를 빼니까 학습 신호가 깨끗. "Less is More"의 사례. PART 6에서 자세히.
📊 혼합 비율 실험 (논문 Figure 4)
- λ = 0 (rollout 단독): ELO 2,890
- λ = 0.25: ELO 3,250
- λ = 0.5 (반반): ELO 3,500
- λ = 0.75: ELO 3,440
- λ = 1 (value 단독): ELO 3,310
0.5가 가장 강함. "둘 다 동등하게 활용"이 최적.