챕터 4 정리

PUCT = Q(s,a) + c·P(s,a)·√N/(1+n) — UCB1의 진화형
핵심 변화: Policy network 확률 P(s,a)가 탐험에 가중치
"명백히 약한 자리는 시도조차 안 함" — 시간 100배 효율
알파고 MCTS 4단계: Select(PUCT) → Expand(SL Policy) → Evaluate(Value+Rollout) → Backup
한 iteration ≈ 7~8ms, 1수에 50,000 iteration
최종 수: visits 최대 자식 (PUCT 최대 아님)
4 학습 모델 통합: SL Policy + RL Policy + Fast Rollout + Value

🏆 알파고 완성

알고리즘적으로 알파고가 완전히 그려짐. 우리는:

이 모든 부품을 7x7로 직접 만든다 — Ch 6.

➡️ 다음 챕터에서는

이세돌 4국 신의 한 수. 2016년 3월 13일, 78수. 알파고가 처음 진 게임. 한 사람이 신경망을 이긴 마지막 순간.

그 순간을 보드 분석과 함께 자세히. 알파고가 어떻게 망설였고, 이세돌이 무엇을 봤는지.