평가 단계 제거 — 다양성의 힘
AlphaGo Zero: 새 모델이 이전 모델 55%+ 승률일 때만 채택. AlphaZero: 무조건 채택.
📖 평가 단계의 본래 목적
AlphaGo Zero에서:
- 학습 후 약해질 가능성 (가중치 갱신이 부작용)
- 약해진 모델로 데이터 생성 → 학습 신호 더 나빠짐
- 최악 → 학습 불안정, 발산
이걸 막기 위해 "55% 통과시만" 채택. 단조 증가 보장.
🎯 그러나 AlphaZero가 발견한 것
- "약간 약한" 모델도 다양한 데이터 생성에 유용
- 매 사이클 채택 → 모델이 약간씩 흔들리며 진화
- 흔들림 = 학습 데이터의 다양성 ↑
- 다양한 데이터 = 최종 모델이 더 강함
역설적: "안정성 추구가 오히려 학습을 약하게 했음".
💡 ELO 비교 — AlphaGo Zero vs AlphaZero
- AlphaGo Zero (40일 학습): ELO 5,200
- AlphaZero (같은 기간, 평가 제거 + 대칭 제거): ELO 5,400+
- 차이 200 ELO — 도메인 지식 제거 후 더 강해짐
"같은 학습 시간에 더 강한" — 모든 직관 반대 결과.
📊 이런 발견이 AI 분야에 미친 영향
AlphaZero 이후 AI 연구의 패러다임 변화:
- 도메인 지식 의존 ↓ 일반 알고리즘 ↑
- "학습이 알고리즘보다 중요"
- 큰 모델 + 큰 데이터 + 단순한 학습 = 최강
- 이게 현재 LLM (GPT 등)의 철학
알파고 시리즈의 마지막 메시지가 현대 AI를 정의함.