탐험 vs 활용 — 영원한 딜레마
모든 의사결정의 근본 트레이드오프:
📖 두 가지 본능
- 활용(Exploitation) — "지금까지 최고였던 걸 또 한다." 안전, 평균값 좋음.
- 탐험(Exploration) — "잘 모르는 새 걸 시도한다." 위험, 그러나 더 큰 보상 가능.
모든 결정은 이 둘 사이의 비중을 어떻게 둘 것인가의 문제.
실생활 예시:
- 식당 선택: 매번 좋아하는 단골(활용) vs 새 식당 시도(탐험)
- 채용: 검증된 사람(활용) vs 잠재력 있는 신인(탐험)
- 투자: 안전한 채권(활용) vs 신생 기업 주식(탐험)
너무 활용만 하면 — 더 좋은 게 있어도 못 발견. 너무 탐험만 하면 — 검증된 좋은 걸 충분히 못 누림. 적절한 균형이 핵심.
⚠️ 게임 AI에서의 문제
1000번의 rollout을 어디 배분?
- 활용만: 처음 한두 번 운 좋은 수에만 집중. 진짜 좋은 다른 수를 못 봄.
- 탐험만 (= Pure MC): 모든 수에 균등. 좋은 수의 진짜 가치를 정밀 측정 못함.
- 균형: 좋아 보이는 수에 더 많이, 그러나 잘 모르는 수에도 가끔. UCB1이 자동으로.
UCB1은 1985년 Lai-Robbins, 그리고 2002년 Auer et al이 정식화한 공식. 탐험과 활용의 비중을 게임 진행 따라 자동으로 조정해.