시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 3 · self-play 루프

Stage 3: 평가 — 새 모델 채택 여부 결정

학습된 신경망이 정말 강한가? — 평가 게임으로 확인.

📖 평가 절차
  1. 새 모델 (방금 학습한 것) vs 이전 최강 모델 — 400 게임 대국
  2. 두 모델 모두 MCTS 1,600 시뮬레이션 (학습보다 깊게)
  3. τ=0 (deterministic 플레이)
  4. 새 모델 승률 계산
  5. 새 모델 ≥ 55% → 채택. 다음 사이클의 시작점이 됨.
  6. 새 모델 < 55% → 폐기. 이전 최강 모델 유지.
🎯 55% 기준의 이유
  • 50%는 우연 — 두 모델이 거의 같음
  • 55%는 통계적으로 명백히 강함 (400 게임이면 p < 0.01)
  • 약간 강해진 모델만 채택 → 단조 증가 보장
  • 이 안정성이 학습의 핵심
💡 안정성의 비밀

이론적으로 신경망이 자기 자신을 학습하면 신호가 분산할 수 있음. 매번 약간 다른 방향. 해결책:

  • 새 모델이 명백히 강한 경우만 채택
  • 약화 = 폐기
  • 결과: 매 사이클 약간씩 강해지는 단조 곡선

이게 없으면 학습이 불안정 — 강해졌다 약해졌다 반복. AlphaGo Zero 안정성의 핵심.

📊 평가 게임의 비용
  • 400 게임 × 평균 200수 × 1,600 시뮬레이션 = 1억 2천만 시뮬레이션
  • 이게 한 사이클의 평가 — 약 2~3시간 (4 TPU)
  • 1년 학습 시 총 평가 비용 = 700 × 3시간 = 2,100시간

평가 비용도 학습 비용만큼 큼. 그러나 안정성에 필수.

📖 AlphaZero (다음 PART)에서의 변화

1년 후 AlphaZero (2017 말):

  • Stage 3 (평가) 완전 제거
  • 매 학습 후 무조건 새 모델 채택
  • 이유: 학습 데이터의 다양성이 더 좋다는 발견
  • 학습이 더 빠름 + 마지막 ELO도 더 높음

또 다른 단순화. PART 7에서 자세히.