Value + Rollout 혼합 — 왜?

"Value 단독이 더 정확하다면 rollout은 왜 쓰는가?"

📖 두 가지가 보완적

Value Network와 Rollout은 다른 종류의 오류:

Value Network:
- 장점: 빠름, 평균적 정확
- 약점: 학습한 패턴에 갇힘 — 처음 보는 모양에는 잘못된 예측 가능
- 약점: 깊은 계산이 필요한 함정 (사다리, 패) 못 봄
Rollout:
- 장점: 끝까지 둠 → 함정 발견 가능
- 장점: 게임 규칙 직접 확인
- 약점: 노이즈 큼 (무작위라)

두 가지가 다른 오류 → 혼합하면 오류 평균화 → 더 정확.

🎯 혼합 공식

V_final = λ · V_net(s) + (1 − λ) · V_rollout(s)

알파고는 λ = 0.5 (반반). 왜 0.5?

💡 AlphaGo Zero (2017)의 변화

1년 후 AlphaGo Zero에서:

왜 단순화가 강함? — Rollout의 노이즈를 빼니까 학습 신호가 깨끗. "Less is More"의 사례. PART 6에서 자세히.

📊 혼합 비율 실험 (논문 Figure 4)

0.5가 가장 강함. "둘 다 동등하게 활용"이 최적.