UCB1 공식 — 한 줄

UCB1의 정식 이름은 Upper Confidence Bound, version 1. 신뢰 구간 상한을 의미해. 공식은:

UCB1_i = w_i / n_i + c · √(ln(N) / n_i)

📖 기호 정리

식이 두 부분으로 나뉘어:

🔑 두 항의 의미

UCB1 점수가 높은 후보를 선택. 자연스럽게 둘의 균형.

구체적 사례로 직관 잡기:

후보	w / n	평균 (활용)	탐험 항 (c=1.41, N=100)	UCB1
A	35 / 50	0.70	0.43	1.13
B	8 / 10	0.80	0.96	1.76
C	15 / 40	0.38	0.48	0.86

💡 표 해석

3개 후보 중 누구를 다음에 뽑을까?

다음 시도는 B. 평균도 좋고 더 알려져야 함. C는 거의 안 뽑힘.

B를 더 시도하면 점차 그 진짜 가치가 명확해지고, 만약 진짜 좋으면 계속 뽑히고, 운이었으면 평균이 떨어져 A가 다시 강자가 됨. 자기 조절.

다음 페이지에서 코드로.