시즌 1 · 알파고편/PART 3 · PART 3 · 무작위의 힘: MCTS/Ch 2 · UCB1 — 탐험 vs 활용
확인 퀴즈
UCB1 공식을 직접 계산해보세요. ln(95) ≈ 4.55, c = 1.41 사용.
세 슬롯머신 A, B, C에 UCB1을 적용 중. 지금까지: A는 30번 시도해 18승 (평균 0.60), B는 5번 시도해 4승 (평균 0.80), C는 60번 시도해 30승 (평균 0.50). 총 N = 95. 탐험 상수 c = 1.41. 다음에 어느 머신을 뽑을까?
핵심 통찰: - B의 활용 항(0.80)도 가장 큼 - 게다가 시도가 적어서 탐험 항(1.34)도 가장 큼 - 두 항이 모두 B에 유리 → 압도적
만약 B가 계속 좋다면 다음 시도들에서 평균이 그대로 유지되고 시도 횟수 늘면서 점차 안정. 운이었다면 평균이 내려와 자연스럽게 다른 머신이 뽑히게 됨.
오답 분석: - A (1.15): 그 다음 후보. 만약 B가 시도되고 평균이 0.5 정도로 떨어지면 다음에 A가 뽑힐 수 있음. - C (0.89): 평균이 낮고 이미 많이 시도되어 탐험 항도 작음. 잘 안 뽑힘. - D (동률 아님): UCB1은 결정론적 공식. 항상 명확한 답이 있음.