UCB1 공식 — 한 줄
UCB1의 정식 이름은 Upper Confidence Bound, version 1. 신뢰 구간 상한을 의미해. 공식은:
UCB1i = wi / ni + c · √(ln(N) / ni)
📖 기호 정리
- i: 후보 i (자리 또는 슬롯머신)
- wi: 후보 i에서 지금까지 얻은 승수 (또는 보상 합)
- ni: 후보 i를 시도한 횟수
- N: 전체 시도 횟수 (모든 후보 합)
- c: 탐험 상수 (보통 √2 ≈ 1.41)
식이 두 부분으로 나뉘어:
🔑 두 항의 의미
- w/n (녹색): 활용 항 — 후보 i의 평균 승률. 클수록 그동안 잘했다는 뜻.
- c√(lnN/n) (파란색): 탐험 항 — 시도 횟수 n이 적을수록 큼. 잘 모르는 후보를 격려.
UCB1 점수가 높은 후보를 선택. 자연스럽게 둘의 균형.
구체적 사례로 직관 잡기:
| 후보 | w / n | 평균 (활용) | 탐험 항 (c=1.41, N=100) | UCB1 |
|---|---|---|---|---|
| A | 35 / 50 | 0.70 | 0.43 | 1.13 |
| B | 8 / 10 | 0.80 | 0.96 | 1.76 |
| C | 15 / 40 | 0.38 | 0.48 | 0.86 |
💡 표 해석
3개 후보 중 누구를 다음에 뽑을까?
- A: 평균 70%로 잘하고 있지만 이미 50번 시도 (잘 알려짐) → UCB1 1.13
- B: 평균 80%로 더 잘하지만 10번뿐 (덜 알려짐) → UCB1 1.76 (큼!)
- C: 평균 38%로 별로, 40번 시도 → UCB1 0.86 (작음)
다음 시도는 B. 평균도 좋고 더 알려져야 함. C는 거의 안 뽑힘.
B를 더 시도하면 점차 그 진짜 가치가 명확해지고, 만약 진짜 좋으면 계속 뽑히고, 운이었으면 평균이 떨어져 A가 다시 강자가 됨. 자기 조절.
다음 페이지에서 코드로.