AlphaGo Zero 실제 학습 곡선
AlphaGo Zero 논문 Figure 3에 학습 곡선이 있어.
📊 ELO 곡선 (논문 데이터)
ELO 시간 의미 ───────────────────────────────────────── 0 0d 무작위 가중치 500 3h 초보자 1500 1d 아마추어 강 3000 3d 알파고 Lee 격파 (100-0!) 4000 10d 알파고 Master 수준 (60-0 버전) 4500 21d 알파고 Master 격파 5000 35d 사람 한계 너머 5200+ 40d 수렴, 학습 종료
🎯 흥미로운 관찰
- 매 사이클마다 약간씩 강해짐 — 평가 게임에서 55%+ 승률 통과시만 채택
- 총 700 사이클 중 약 600 사이클이 채택 (85%)
- 약 100 사이클은 폐기 — 학습 신호 너무 약함
- 매 채택은 약 +7 ELO 향상
📊 다른 모델과 ELO 비교
| 모델 | ELO | 평가 |
|---|---|---|
| 아마추어 1단 | ~2,300 | 기준 |
| 사람 9단 | ~3,300 | 최강 사람 |
| 이세돌 | ~3,500 | 알파고 시리즈 당시 |
| 알파고 Lee | ~3,700 | 2016 이세돌급 |
| 알파고 Master | ~4,500 | 2016년 말 60-0 |
| AlphaGo Zero | ~5,200 | 알파고 Lee +1500 |
ELO 1,000 차이 = 승률 약 97-99%. 알파고 Lee가 알파고 Zero에 100판 두면 1~3승.
💡 무한 학습의 가능성
AlphaGo Zero가 40일에 수렴한 이유? 그 모델 크기(19블록 잔차)의 표현력 한계. 더 큰 모델로 더 오래 학습하면 더 강해질 수도.
실제로 AlphaZero (다음 PART)는 39블록 사용 + 더 긴 학습 → ELO 5,400+. "천장이 없는" 학습의 새 패러다임.