자가 대국 — 데이터 자기 생성

SL이 16만 게임을 사람이 둔 데이터로 학습. RL은 데이터를 스스로 생성.

📖 자가 대국 메커니즘

현재 RL Policy (θ) 흑으로 둠
opponent pool 중 무작위 모델 (θ') 백으로 둠
둘이 둠 — 끝까지 (양쪽 다 자기 정책 따라 sampling)
게임 결과 → 두 쪽 모두의 수에 R 라벨
현재 RL Policy의 수에 대한 그래디언트 계산
가중치 갱신
주기적(약 500 iteration마다) 현재 정책을 opponent pool에 추가

📊 알파고 RL의 데이터 규모

총 자가 대국 게임: 약 100만 게임 (= SL 데이터의 6배)
각 게임 약 250수 → 약 2억 5천만 학습 신호
학습 시간: 50 GPU × 1일
opponent pool 크기: 약 500 모델

💡 자가 대국의 강점

무한 데이터 — 사람 게임은 16만이 한계, 자가 대국은 컴퓨터만 있으면 무한
다양성 — opponent pool로 다양한 스타일과 대결
"이기기" 목표 — 사람 흉내가 아니라 직접 강해짐
새로운 수 발견 — 사람이 안 두는 자리도 시도하다가 강하면 학습

📖 RL이 발견한 새로운 수

알파고 vs 이세돌 2국에서 알파고가 둔 "37수" (5-가-13). 5선 어깨짚음. 사람 프로 99%가 안 두는 수.

SL Policy 확률: 0.4% (사람이 거의 안 둠)
RL Policy 확률: ~5% (자가 대국에서 강함을 발견)
MCTS 확신: 1% → 25% (시뮬레이션 결과 좋아서 점점 확신)

이세돌 충격 — "사람 직관에 어긋나는 수가 명확히 강함." 알파고가 사람의 한계 너머를 발견.

← 이전 Policy Gradient — 이기는 수의 확률을 높이기 다음 → RL Policy의 한계 — Value가 필요한 이유