탐험 vs 활용 — 영원한 딜레마

식당 선택: 매번 좋아하는 단골(활용) vs 새 식당 시도(탐험)
채용: 검증된 사람(활용) vs 잠재력 있는 신인(탐험)
투자: 안전한 채권(활용) vs 신생 기업 주식(탐험)

모든 의사결정의 근본 트레이드오프:

📖 두 가지 본능

모든 결정은 이 둘 사이의 비중을 어떻게 둘 것인가의 문제.

실생활 예시:

너무 활용만 하면 — 더 좋은 게 있어도 못 발견. 너무 탐험만 하면 — 검증된 좋은 걸 충분히 못 누림. 적절한 균형이 핵심.

⚠️ 게임 AI에서의 문제

1000번의 rollout을 어디 배분?

UCB1은 1985년 Lai-Robbins, 그리고 2002년 Auer et al이 정식화한 공식. 탐험과 활용의 비중을 게임 진행 따라 자동으로 조정해.