강화학습 — 흉내내기에서 이기기로

👋 이 챕터에서 다룰 것

지난 챕터의 SL Policy는 "사람 흉내". 이번 챕터에서 그 위에 강화학습(Reinforcement Learning)을 적용 — "이기기"로 학습 목표 전환.

강화학습이 무엇인가:

📖 강화학습 (RL) 핵심

지도학습(SL)과 결정적 차이: 정답 라벨이 없음. 행동의 결과 보상만 있음. 보상을 최대화하는 방향으로 학습.

🎯 알파고의 RL Pipeline

💡 왜 과거 버전과 대국?

현재 자기 자신과만 대국하면? — 같은 정책이라 항상 비슷한 패턴. 다양성 부족.

해결: "opponent pool" — 학습 중간 저장된 과거 모델들 중 무작위 선택. 다양한 상대 → 다양한 시나리오 학습.

2016 알파고는 500개 정도의 과거 모델을 풀에 보유.

📊 RL 학습 결과 (논문)

같은 신경망 구조, 같은 데이터(자가 대국), 다른 학습 목표 → ELO 283 차이.

이 챕터: