챕터 2 정리

📌 챕터 2에서 배운 것

강화학습(RL) — 보상으로 학습 (지도 라벨 없음)
Policy Gradient (REINFORCE) — 보상 × 로그 확률 그래디언트
이긴 게임의 수 확률 ↑, 진 게임의 수 확률 ↓
자가 대국 — 데이터 자기 생성, opponent pool로 다양성
알파고 RL: 100만 자가 대국, ELO 1,917 → 2,200 (+283)
RL이 발견한 새 수 — 이세돌 2국 5선 어깨짚음
한계: Credit Assignment 노이즈, 한 수 결정만 가능
해결: Value Network — 다음 챕터

🏆 첫 RL의 의미

"사람 흉내" → "이기기"의 전환이 완료. 알파고가 사람 한계 너머를 보기 시작한 순간.

이세돌 2국 37수는 그 결과. 사람 직관에 어긋나지만 명확히 강한 수 — RL이 가능하게 한 발견.

➡️ 다음 챕터에서는

Value Network. RL Policy로 만든 자가 대국 데이터로 학습. "이 상태 누가 이길까" 직접 예측.

이게 MCTS의 ③ Simulate를 대체. 끝까지 안 가도 평가 가능. 알파고 ELO 3,500의 마지막 부품.

← 이전 RL Policy의 한계 — Value가 필요한 이유 다음 → Value Network — 알파고의 가장 큰 ELO 기여