시즌 1 · 알파고편 / PART 3 · PART 3 · 무작위의 힘: MCTS / Ch 2 · UCB1 — 탐험 vs 활용

UCB1 공식 — 한 줄

UCB1의 정식 이름은 Upper Confidence Bound, version 1. 신뢰 구간 상한을 의미해. 공식은:

UCB1i = wi / ni + c · √(ln(N) / ni)
📖 기호 정리
  • i: 후보 i (자리 또는 슬롯머신)
  • wi: 후보 i에서 지금까지 얻은 승수 (또는 보상 합)
  • ni: 후보 i를 시도한 횟수
  • N: 전체 시도 횟수 (모든 후보 합)
  • c: 탐험 상수 (보통 √2 ≈ 1.41)

식이 두 부분으로 나뉘어:

🔑 두 항의 의미
  • w/n (녹색): 활용 항 — 후보 i의 평균 승률. 클수록 그동안 잘했다는 뜻.
  • c√(lnN/n) (파란색): 탐험 항 — 시도 횟수 n이 적을수록 큼. 잘 모르는 후보를 격려.

UCB1 점수가 높은 후보를 선택. 자연스럽게 둘의 균형.

구체적 사례로 직관 잡기:

후보 w / n 평균 (활용) 탐험 항 (c=1.41, N=100) UCB1
A35 / 500.700.431.13
B8 / 100.800.961.76
C15 / 400.380.480.86
💡 표 해석

3개 후보 중 누구를 다음에 뽑을까?

  • A: 평균 70%로 잘하고 있지만 이미 50번 시도 (잘 알려짐) → UCB1 1.13
  • B: 평균 80%로 더 잘하지만 10번뿐 (덜 알려짐) → UCB1 1.76 (큼!)
  • C: 평균 38%로 별로, 40번 시도 → UCB1 0.86 (작음)

다음 시도는 B. 평균도 좋고 더 알려져야 함. C는 거의 안 뽑힘.

B를 더 시도하면 점차 그 진짜 가치가 명확해지고, 만약 진짜 좋으면 계속 뽑히고, 운이었으면 평균이 떨어져 A가 다시 강자가 됨. 자기 조절.

다음 페이지에서 코드로.