SL Policy의 한계 — 사람을 흉내내는 게 진짜 강한가?

SL Policy는 잘 동작했어. 그런데 한계가 있어:

⚠️ 한계 1: 사람의 평균 수준에 갇힘

SL 학습 데이터는 사람 게임. 사람이 자주 두는 수를 학습. 따라서:

SL Policy의 상한선 ≈ 학습 데이터의 평균 수준. 6단 게임 데이터로 학습하면 ~6단 수준. 그 이상은 어려움.

⚠️ 한계 2: "이기는 수"가 아니라 "사람이 둔 수"를 학습

SL Policy의 목표 = "다음 수 맞추기". 그런데 진짜 우리가 원하는 건 "이기는 수". 두 가지는 다름:

"흉내내기"가 "이기기"가 아니야.

💡 해결책 — 강화학습

이 한계가 다음 챕터 RL Policy의 동기.

핵심 아이디어: SL Policy로 시작 → 자기 자신과 대국 → 이긴 게임의 수의 확률 ↑, 진 게임의 수의 확률 ↓.

이러면 사람 흉내가 아니라 "이기는 수"를 직접 학습. SL을 시작점으로 RL이 그 위에 빌드.

📊 RL이 만든 차이 (논문 결과)

학습 데이터 = 사람 게임 (똑같음). 다른 점 = 학습 목표 (다음 수 맞추기 → 이기기). 그것만으로 ELO 300 차이.