챕터 1 정리

🏆 우리가 이해한 것

알파고의 첫 번째 학습 단계 완료. "사람 같은 직관"을 가진 신경망 탄생.

이 정책망 단독으로도 ELO 1,900 — 2014년까지의 30년 컴퓨터 바둑보다 강한 수준. 그런데 알파고는 여기서 멈추지 않음.

➡️ 다음 챕터에서는

RL Policy Network. SL Policy를 시작점으로 자가 대국 → 이기는 수를 직접 학습.

강화학습(Reinforcement Learning)의 첫 등장. "사람 흉내"에서 "이기기"로 전환.