챕터 5 & PART 3 정리
📌 챕터 5에서 본 것
- MCTS의 본질적 한계 3가지: rollout 노이즈, 함정 패턴, 도메인 지식 부재
- 2010~2014 19x19 정체기 — ELO 2700에서 4년 멈춤
- 알파고의 본질: MCTS + 두 신경망 (policy + value)
- "무작위" 자리에 "학습된 부품"이 들어감
🎯 PART 3 전체 정리
- Ch 1: 몬테카를로 시뮬레이션 — rollout으로 평가 함수 대체
- Ch 2: UCB1 — 탐험 vs 활용의 수학적 최적 균형
- Ch 3: MCTS 4단계 — Select, Expand, Simulate, Backup
- Ch 4: 7x7 MCTS vs minimax — 중앙 vs 코너의 본질적 차이
- Ch 5: MCTS의 한계 — 신경망이 필요한 이유
🏆 PART 3에서 우리가 만든 것
완전한 작동하는 MCTS 구현. 코드 ~100줄로:
rollout()— 무작위 시뮬레이션UCB1공식 — 탐험과 활용Node클래스 — visits, wins, ucb1()mcts_best_move()— 4단계 통합
이게 2006년 컴퓨터 바둑을 도약시킨 그 알고리즘. 우리가 처음부터 다 만들었어.
📊 시즌 1 진행률
- PART 1 (바둑이라는 우주): 7 챕터 52 섹션 ✅
- PART 2 (탐색 / Minimax): 6 챕터 40 섹션 ✅
- PART 3 (무작위의 힘 / MCTS): 5 챕터 33 섹션 ✅
- PART 4 (신경망): 6 챕터 ⬜
- PART 5 (AlphaGo 2016): 6 챕터 ⬜
- PART 6 (AlphaGo Zero): 5 챕터 ⬜
- PART 7 (AlphaZero): 4 챕터 ⬜
18/32 챕터 = 시즌 1의 56% 완료
➡️ 다음 PART — 신경망의 등장
PART 4에서 신경망의 기초부터 시작. 퍼셉트론 → 다층 신경망 → 역전파 → CNN. 그리고 바둑에 적용해 "다음 수 예측" 모델 만들기.
이게 알파고의 두 번째 핵심 부품. PART 3의 MCTS와 결합되면 PART 5에서 알파고 완성.