시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 2 · RL Policy Network

자가 대국 — 데이터 자기 생성

SL이 16만 게임을 사람이 둔 데이터로 학습. RL은 데이터를 스스로 생성.

📖 자가 대국 메커니즘
  1. 현재 RL Policy (θ) 흑으로 둠
  2. opponent pool 중 무작위 모델 (θ') 백으로 둠
  3. 둘이 둠 — 끝까지 (양쪽 다 자기 정책 따라 sampling)
  4. 게임 결과 → 두 쪽 모두의 수에 R 라벨
  5. 현재 RL Policy의 수에 대한 그래디언트 계산
  6. 가중치 갱신
  7. 주기적(약 500 iteration마다) 현재 정책을 opponent pool에 추가
📊 알파고 RL의 데이터 규모
  • 총 자가 대국 게임: 약 100만 게임 (= SL 데이터의 6배)
  • 각 게임 약 250수 → 약 2억 5천만 학습 신호
  • 학습 시간: 50 GPU × 1일
  • opponent pool 크기: 약 500 모델
💡 자가 대국의 강점
  • 무한 데이터 — 사람 게임은 16만이 한계, 자가 대국은 컴퓨터만 있으면 무한
  • 다양성 — opponent pool로 다양한 스타일과 대결
  • "이기기" 목표 — 사람 흉내가 아니라 직접 강해짐
  • 새로운 수 발견 — 사람이 안 두는 자리도 시도하다가 강하면 학습
📖 RL이 발견한 새로운 수

알파고 vs 이세돌 2국에서 알파고가 둔 "37수" (5-가-13). 5선 어깨짚음. 사람 프로 99%가 안 두는 수.

  • SL Policy 확률: 0.4% (사람이 거의 안 둠)
  • RL Policy 확률: ~5% (자가 대국에서 강함을 발견)
  • MCTS 확신: 1% → 25% (시뮬레이션 결과 좋아서 점점 확신)

이세돌 충격 — "사람 직관에 어긋나는 수가 명확히 강함." 알파고가 사람의 한계 너머를 발견.