시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 1 · SL Policy Network

SL Policy의 한계 — 사람을 흉내내는 게 진짜 강한가?

SL Policy는 잘 동작했어. 그런데 한계가 있어:

⚠️ 한계 1: 사람의 평균 수준에 갇힘

SL 학습 데이터는 사람 게임. 사람이 자주 두는 수를 학습. 따라서:

  • 사람이 자주 안 두지만 사실 강한 수 — 학습 안 됨
  • 사람의 실수 + 한계 — 그대로 학습됨
  • 천재적 신수, 새로운 정석 — 데이터에 없으면 못 만듦

SL Policy의 상한선 ≈ 학습 데이터의 평균 수준. 6단 게임 데이터로 학습하면 ~6단 수준. 그 이상은 어려움.

⚠️ 한계 2: "이기는 수"가 아니라 "사람이 둔 수"를 학습

SL Policy의 목표 = "다음 수 맞추기". 그런데 진짜 우리가 원하는 건 "이기는 수". 두 가지는 다름:

  • 사람이 자주 둔 수 = 안 좋을 수도 있음
  • 사람이 잘 안 두지만 사실 강한 수 = SL Policy는 무시
  • 최적의 수 = 사람의 평균보다 더 좋을 수 있음

"흉내내기"가 "이기기"가 아니야.

💡 해결책 — 강화학습

이 한계가 다음 챕터 RL Policy의 동기.

핵심 아이디어: SL Policy로 시작 → 자기 자신과 대국 → 이긴 게임의 수의 확률 ↑, 진 게임의 수의 확률 ↓.

이러면 사람 흉내가 아니라 "이기는 수"를 직접 학습. SL을 시작점으로 RL이 그 위에 빌드.

📊 RL이 만든 차이 (논문 결과)
  • SL Policy 단독 ELO: 1,917
  • RL Policy 단독 ELO: 2,200
  • RL Policy → SL Policy 80% 승률 (RL이 압도)

학습 데이터 = 사람 게임 (똑같음). 다른 점 = 학습 목표 (다음 수 맞추기 → 이기기). 그것만으로 ELO 300 차이.