AlphaGo Zero 실제 학습 곡선

AlphaGo Zero 논문 Figure 3에 학습 곡선이 있어.

📊 ELO 곡선 (논문 데이터)

ELO  시간       의미
─────────────────────────────────────────
   0  0d        무작위 가중치
 500  3h        초보자
1500  1d        아마추어 강
3000  3d        알파고 Lee 격파 (100-0!)
4000  10d       알파고 Master 수준 (60-0 버전)
4500  21d       알파고 Master 격파
5000  35d       사람 한계 너머
5200+ 40d       수렴, 학습 종료

🎯 흥미로운 관찰

매 사이클마다 약간씩 강해짐 — 평가 게임에서 55%+ 승률 통과시만 채택
총 700 사이클 중 약 600 사이클이 채택 (85%)
약 100 사이클은 폐기 — 학습 신호 너무 약함
매 채택은 약 +7 ELO 향상

📊 다른 모델과 ELO 비교

모델	ELO	평가
아마추어 1단	~2,300	기준
사람 9단	~3,300	최강 사람
이세돌	~3,500	알파고 시리즈 당시
알파고 Lee	~3,700	2016 이세돌급
알파고 Master	~4,500	2016년 말 60-0
AlphaGo Zero	~5,200	알파고 Lee +1500

ELO 1,000 차이 = 승률 약 97-99%. 알파고 Lee가 알파고 Zero에 100판 두면 1~3승.

💡 무한 학습의 가능성

AlphaGo Zero가 40일에 수렴한 이유? 그 모델 크기(19블록 잔차)의 표현력 한계. 더 큰 모델로 더 오래 학습하면 더 강해질 수도.

실제로 AlphaZero (다음 PART)는 39블록 사용 + 더 긴 학습 → ELO 5,400+. "천장이 없는" 학습의 새 패러다임.

← 이전 코드: 작은 학습 실험 — 손실 곡선 다음 → PART 6 전체 정리