시즌 1 · 알파고편 / PART 3 · PART 3 · 무작위의 힘: MCTS / Ch 5 · 무작위 시뮬레이션의 한계

챕터 5 & PART 3 정리

📌 챕터 5에서 본 것

  • MCTS의 본질적 한계 3가지: rollout 노이즈, 함정 패턴, 도메인 지식 부재
  • 2010~2014 19x19 정체기 — ELO 2700에서 4년 멈춤
  • 알파고의 본질: MCTS + 두 신경망 (policy + value)
  • "무작위" 자리에 "학습된 부품"이 들어감

🎯 PART 3 전체 정리

  • Ch 1: 몬테카를로 시뮬레이션 — rollout으로 평가 함수 대체
  • Ch 2: UCB1 — 탐험 vs 활용의 수학적 최적 균형
  • Ch 3: MCTS 4단계 — Select, Expand, Simulate, Backup
  • Ch 4: 7x7 MCTS vs minimax — 중앙 vs 코너의 본질적 차이
  • Ch 5: MCTS의 한계 — 신경망이 필요한 이유
🏆 PART 3에서 우리가 만든 것

완전한 작동하는 MCTS 구현. 코드 ~100줄로:

  • rollout() — 무작위 시뮬레이션
  • UCB1 공식 — 탐험과 활용
  • Node 클래스 — visits, wins, ucb1()
  • mcts_best_move() — 4단계 통합

이게 2006년 컴퓨터 바둑을 도약시킨 그 알고리즘. 우리가 처음부터 다 만들었어.

📊 시즌 1 진행률
  • PART 1 (바둑이라는 우주): 7 챕터 52 섹션 ✅
  • PART 2 (탐색 / Minimax): 6 챕터 40 섹션 ✅
  • PART 3 (무작위의 힘 / MCTS): 5 챕터 33 섹션 ✅
  • PART 4 (신경망): 6 챕터 ⬜
  • PART 5 (AlphaGo 2016): 6 챕터 ⬜
  • PART 6 (AlphaGo Zero): 5 챕터 ⬜
  • PART 7 (AlphaZero): 4 챕터 ⬜

18/32 챕터 = 시즌 1의 56% 완료

➡️ 다음 PART — 신경망의 등장

PART 4에서 신경망의 기초부터 시작. 퍼셉트론 → 다층 신경망 → 역전파 → CNN. 그리고 바둑에 적용해 "다음 수 예측" 모델 만들기.

이게 알파고의 두 번째 핵심 부품. PART 3의 MCTS와 결합되면 PART 5에서 알파고 완성.