자가 대국 — 데이터 자기 생성
SL이 16만 게임을 사람이 둔 데이터로 학습. RL은 데이터를 스스로 생성.
📖 자가 대국 메커니즘
- 현재 RL Policy (θ) 흑으로 둠
- opponent pool 중 무작위 모델 (θ') 백으로 둠
- 둘이 둠 — 끝까지 (양쪽 다 자기 정책 따라 sampling)
- 게임 결과 → 두 쪽 모두의 수에 R 라벨
- 현재 RL Policy의 수에 대한 그래디언트 계산
- 가중치 갱신
- 주기적(약 500 iteration마다) 현재 정책을 opponent pool에 추가
📊 알파고 RL의 데이터 규모
- 총 자가 대국 게임: 약 100만 게임 (= SL 데이터의 6배)
- 각 게임 약 250수 → 약 2억 5천만 학습 신호
- 학습 시간: 50 GPU × 1일
- opponent pool 크기: 약 500 모델
💡 자가 대국의 강점
- 무한 데이터 — 사람 게임은 16만이 한계, 자가 대국은 컴퓨터만 있으면 무한
- 다양성 — opponent pool로 다양한 스타일과 대결
- "이기기" 목표 — 사람 흉내가 아니라 직접 강해짐
- 새로운 수 발견 — 사람이 안 두는 자리도 시도하다가 강하면 학습
📖 RL이 발견한 새로운 수
알파고 vs 이세돌 2국에서 알파고가 둔 "37수" (5-가-13). 5선 어깨짚음. 사람 프로 99%가 안 두는 수.
- SL Policy 확률: 0.4% (사람이 거의 안 둠)
- RL Policy 확률: ~5% (자가 대국에서 강함을 발견)
- MCTS 확신: 1% → 25% (시뮬레이션 결과 좋아서 점점 확신)
이세돌 충격 — "사람 직관에 어긋나는 수가 명확히 강함." 알파고가 사람의 한계 너머를 발견.