시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 5 · 학습 곡선 실험

AlphaGo Zero 실제 학습 곡선

AlphaGo Zero 논문 Figure 3에 학습 곡선이 있어.

📊 ELO 곡선 (논문 데이터)
ELO  시간       의미
─────────────────────────────────────────
   0  0d        무작위 가중치
 500  3h        초보자
1500  1d        아마추어 강
3000  3d        알파고 Lee 격파 (100-0!)
4000  10d       알파고 Master 수준 (60-0 버전)
4500  21d       알파고 Master 격파
5000  35d       사람 한계 너머
5200+ 40d       수렴, 학습 종료
  
🎯 흥미로운 관찰
  • 매 사이클마다 약간씩 강해짐 — 평가 게임에서 55%+ 승률 통과시만 채택
  • 총 700 사이클 중 약 600 사이클이 채택 (85%)
  • 약 100 사이클은 폐기 — 학습 신호 너무 약함
  • 매 채택은 약 +7 ELO 향상
📊 다른 모델과 ELO 비교
모델 ELO 평가
아마추어 1단~2,300기준
사람 9단~3,300최강 사람
이세돌~3,500알파고 시리즈 당시
알파고 Lee~3,7002016 이세돌급
알파고 Master~4,5002016년 말 60-0
AlphaGo Zero~5,200알파고 Lee +1500

ELO 1,000 차이 = 승률 약 97-99%. 알파고 Lee가 알파고 Zero에 100판 두면 1~3승.

💡 무한 학습의 가능성

AlphaGo Zero가 40일에 수렴한 이유? 그 모델 크기(19블록 잔차)의 표현력 한계. 더 큰 모델로 더 오래 학습하면 더 강해질 수도.

실제로 AlphaZero (다음 PART)는 39블록 사용 + 더 긴 학습 → ELO 5,400+. "천장이 없는" 학습의 새 패러다임.