챕터 2 정리
📌 챕터 2에서 배운 것
- 강화학습(RL) — 보상으로 학습 (지도 라벨 없음)
- Policy Gradient (REINFORCE) — 보상 × 로그 확률 그래디언트
- 이긴 게임의 수 확률 ↑, 진 게임의 수 확률 ↓
- 자가 대국 — 데이터 자기 생성, opponent pool로 다양성
- 알파고 RL: 100만 자가 대국, ELO 1,917 → 2,200 (+283)
- RL이 발견한 새 수 — 이세돌 2국 5선 어깨짚음
- 한계: Credit Assignment 노이즈, 한 수 결정만 가능
- 해결: Value Network — 다음 챕터
🏆 첫 RL의 의미
"사람 흉내" → "이기기"의 전환이 완료. 알파고가 사람 한계 너머를 보기 시작한 순간.
이세돌 2국 37수는 그 결과. 사람 직관에 어긋나지만 명확히 강한 수 — RL이 가능하게 한 발견.
➡️ 다음 챕터에서는
Value Network. RL Policy로 만든 자가 대국 데이터로 학습. "이 상태 누가 이길까" 직접 예측.
이게 MCTS의 ③ Simulate를 대체. 끝까지 안 가도 평가 가능. 알파고 ELO 3,500의 마지막 부품.