시즌 1 · 알파고편 / PART 7 · PART 7 · AlphaZero (2017) / Ch 2 · 도메인 지식 제거

평가 단계 제거 — 다양성의 힘

AlphaGo Zero: 새 모델이 이전 모델 55%+ 승률일 때만 채택. AlphaZero: 무조건 채택.

📖 평가 단계의 본래 목적

AlphaGo Zero에서:

  • 학습 후 약해질 가능성 (가중치 갱신이 부작용)
  • 약해진 모델로 데이터 생성 → 학습 신호 더 나빠짐
  • 최악 → 학습 불안정, 발산

이걸 막기 위해 "55% 통과시만" 채택. 단조 증가 보장.

🎯 그러나 AlphaZero가 발견한 것
  • "약간 약한" 모델도 다양한 데이터 생성에 유용
  • 매 사이클 채택 → 모델이 약간씩 흔들리며 진화
  • 흔들림 = 학습 데이터의 다양성 ↑
  • 다양한 데이터 = 최종 모델이 더 강함

역설적: "안정성 추구가 오히려 학습을 약하게 했음".

💡 ELO 비교 — AlphaGo Zero vs AlphaZero
  • AlphaGo Zero (40일 학습): ELO 5,200
  • AlphaZero (같은 기간, 평가 제거 + 대칭 제거): ELO 5,400+
  • 차이 200 ELO — 도메인 지식 제거 후 더 강해짐

"같은 학습 시간에 더 강한" — 모든 직관 반대 결과.

📊 이런 발견이 AI 분야에 미친 영향

AlphaZero 이후 AI 연구의 패러다임 변화:

  • 도메인 지식 의존 ↓ 일반 알고리즘 ↑
  • "학습이 알고리즘보다 중요"
  • 큰 모델 + 큰 데이터 + 단순한 학습 = 최강
  • 이게 현재 LLM (GPT 등)의 철학

알파고 시리즈의 마지막 메시지가 현대 AI를 정의함.