시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 2 · RL Policy Network

챕터 2 정리

📌 챕터 2에서 배운 것

  • 강화학습(RL) — 보상으로 학습 (지도 라벨 없음)
  • Policy Gradient (REINFORCE) — 보상 × 로그 확률 그래디언트
  • 이긴 게임의 수 확률 ↑, 진 게임의 수 확률 ↓
  • 자가 대국 — 데이터 자기 생성, opponent pool로 다양성
  • 알파고 RL: 100만 자가 대국, ELO 1,917 → 2,200 (+283)
  • RL이 발견한 새 수 — 이세돌 2국 5선 어깨짚음
  • 한계: Credit Assignment 노이즈, 한 수 결정만 가능
  • 해결: Value Network — 다음 챕터
🏆 첫 RL의 의미

"사람 흉내" → "이기기"의 전환이 완료. 알파고가 사람 한계 너머를 보기 시작한 순간.

이세돌 2국 37수는 그 결과. 사람 직관에 어긋나지만 명확히 강한 수 — RL이 가능하게 한 발견.

➡️ 다음 챕터에서는

Value Network. RL Policy로 만든 자가 대국 데이터로 학습. "이 상태 누가 이길까" 직접 예측.

이게 MCTS의 ③ Simulate를 대체. 끝까지 안 가도 평가 가능. 알파고 ELO 3,500의 마지막 부품.