평가 단계 제거 — 다양성의 힘

AlphaGo Zero: 새 모델이 이전 모델 55%+ 승률일 때만 채택. AlphaZero: 무조건 채택.

📖 평가 단계의 본래 목적

AlphaGo Zero에서:

학습 후 약해질 가능성 (가중치 갱신이 부작용)
약해진 모델로 데이터 생성 → 학습 신호 더 나빠짐
최악 → 학습 불안정, 발산

이걸 막기 위해 "55% 통과시만" 채택. 단조 증가 보장.

🎯 그러나 AlphaZero가 발견한 것

"약간 약한" 모델도 다양한 데이터 생성에 유용
매 사이클 채택 → 모델이 약간씩 흔들리며 진화
흔들림 = 학습 데이터의 다양성 ↑
다양한 데이터 = 최종 모델이 더 강함

역설적: "안정성 추구가 오히려 학습을 약하게 했음".

💡 ELO 비교 — AlphaGo Zero vs AlphaZero

AlphaGo Zero (40일 학습): ELO 5,200
AlphaZero (같은 기간, 평가 제거 + 대칭 제거): ELO 5,400+
차이 200 ELO — 도메인 지식 제거 후 더 강해짐

"같은 학습 시간에 더 강한" — 모든 직관 반대 결과.

📊 이런 발견이 AI 분야에 미친 영향

AlphaZero 이후 AI 연구의 패러다임 변화:

도메인 지식 의존 ↓ 일반 알고리즘 ↑
"학습이 알고리즘보다 중요"
큰 모델 + 큰 데이터 + 단순한 학습 = 최강
이게 현재 LLM (GPT 등)의 철학

알파고 시리즈의 마지막 메시지가 현대 AI를 정의함.

← 이전 대칭은 안 써도 학습되나? 다음 → 챕터 2 정리