시즌 1 · 알파고편 / PART 3 · PART 3 · 무작위의 힘: MCTS / Ch 5 · 무작위 시뮬레이션의 한계

약점 3: 19x19 정체기 (2010~2014)

MCTS의 잠재력과 한계를 가장 잘 보여주는 시기 — 2010~2014.

📅 19x19 MCTS의 흥망
  • 2007: MoGo 9x9 첫 도약 (프로 1단 격파). 19x19에서는 ELO 2300.
  • 2010: MoGo Titan (병렬화 + heavy playout). ELO 2500. 아마추어 5단.
  • 2012: Zen, Crazy Stone 19x19 강세. ELO 2700.
  • 2013: Crazy Stone이 5점 핸디캡 받고 이시다 9단 격파 (큰 사건).
  • 2014: 정체. MCTS의 한계가 드러남. 사람 프로한테 평기에서 못 이김.
  • 2015 10월: 알파고가 판 후이 (프로 2단)를 평기로 5-0. 비공개.
  • 2016 3월: 알파고가 이세돌 9단을 4-1. 인류 충격.

2014년의 상황을 잘 보면:

🔍 2014 시점의 컴퓨터 바둑 상태
  • MCTS 최적화 완료: UCT 변형, RAVE, 병렬화, 패턴 휴리스틱 등 다 시도됨
  • 속도 향상: 멀티코어 + 클러스터, 분당 수백만 iteration 가능
  • 여전히 ELO ~2700: 4년 동안 거의 변화 없음
  • 사람 프로: ELO ~3500. 격차가 마치 인간이 컴퓨터를 800 ELO 차로 압도

알고리즘만 정교화로는 안 됐어. 다른 차원의 발전이 필요했어.

💡 그러나 변화가 시작되고 있었다

2014년 후반, Maddison et al(2015)이 발표 — "신경망을 다음 수 예측에 쓰면 정확도가 사람 수준". 이게 알파고 팀의 출발점.

핵심 발상: rollout을 무작위로 하지 말고 "신경망이 추천하는 그럴듯한 수"로. 사람 게임 데이터로 신경망 학습. 그러면 rollout의 품질이 다르고, 따라서 MCTS 전체가 다르.

알파고는 이것을 발전시켜 2016년 이세돌을 이김.

요약: "MCTS만으로는 부족했다. 무작위 부품 자리에 학습된 부품이 들어가야 했다."