챕터 4 정리
📌 챕터 4에서 배운 것
- PUCT = Q(s,a) + c·P(s,a)·√N/(1+n) — UCB1의 진화형
- 핵심 변화: Policy network 확률 P(s,a)가 탐험에 가중치
- "명백히 약한 자리는 시도조차 안 함" — 시간 100배 효율
- 알파고 MCTS 4단계: Select(PUCT) → Expand(SL Policy) → Evaluate(Value+Rollout) → Backup
- 한 iteration ≈ 7~8ms, 1수에 50,000 iteration
- 최종 수: visits 최대 자식 (PUCT 최대 아님)
- 4 학습 모델 통합: SL Policy + RL Policy + Fast Rollout + Value
🏆 알파고 완성
알고리즘적으로 알파고가 완전히 그려짐. 우리는:
- Board 클래스 (PART 1)
- MCTS 4단계 (PART 3)
- Policy + Value 신경망 (PART 4)
- PUCT 통합 (이번 챕터)
이 모든 부품을 7x7로 직접 만든다 — Ch 6.
➡️ 다음 챕터에서는
이세돌 4국 신의 한 수. 2016년 3월 13일, 78수. 알파고가 처음 진 게임. 한 사람이 신경망을 이긴 마지막 순간.
그 순간을 보드 분석과 함께 자세히. 알파고가 어떻게 망설였고, 이세돌이 무엇을 봤는지.