시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 3 · Value Network

Value + Rollout 혼합 — 왜?

"Value 단독이 더 정확하다면 rollout은 왜 쓰는가?"

📖 두 가지가 보완적

Value Network와 Rollout은 다른 종류의 오류:

  • Value Network:
    • 장점: 빠름, 평균적 정확
    • 약점: 학습한 패턴에 갇힘 — 처음 보는 모양에는 잘못된 예측 가능
    • 약점: 깊은 계산이 필요한 함정 (사다리, 패) 못 봄
  • Rollout:
    • 장점: 끝까지 둠 → 함정 발견 가능
    • 장점: 게임 규칙 직접 확인
    • 약점: 노이즈 큼 (무작위라)

두 가지가 다른 오류 → 혼합하면 오류 평균화 → 더 정확.

🎯 혼합 공식
V_final = λ · V_net(s) + (1 − λ) · V_rollout(s)

알파고는 λ = 0.5 (반반). 왜 0.5?

  • 실험으로 결정 — 0, 0.25, 0.5, 0.75, 1 모두 시도
  • 0.5가 가장 강함 (논문 Figure 4)
  • 두 가지가 동등하게 기여 → 평균이 최적
💡 AlphaGo Zero (2017)의 변화

1년 후 AlphaGo Zero에서:

  • Rollout 완전 제거
  • Value Network만 사용
  • 이유: Value Network가 충분히 정확해짐 (학습 기술 발전)
  • 알고리즘 단순화 → 더 강함 (역설적)

왜 단순화가 강함? — Rollout의 노이즈를 빼니까 학습 신호가 깨끗. "Less is More"의 사례. PART 6에서 자세히.

📊 혼합 비율 실험 (논문 Figure 4)
  • λ = 0 (rollout 단독): ELO 2,890
  • λ = 0.25: ELO 3,250
  • λ = 0.5 (반반): ELO 3,500
  • λ = 0.75: ELO 3,440
  • λ = 1 (value 단독): ELO 3,310

0.5가 가장 강함. "둘 다 동등하게 활용"이 최적.