Stage 3: 평가 — 새 모델 채택 여부 결정

학습된 신경망이 정말 강한가? — 평가 게임으로 확인.

📖 평가 절차

새 모델 (방금 학습한 것) vs 이전 최강 모델 — 400 게임 대국
두 모델 모두 MCTS 1,600 시뮬레이션 (학습보다 깊게)
τ=0 (deterministic 플레이)
새 모델 승률 계산
새 모델 ≥ 55% → 채택. 다음 사이클의 시작점이 됨.
새 모델 < 55% → 폐기. 이전 최강 모델 유지.

🎯 55% 기준의 이유

50%는 우연 — 두 모델이 거의 같음
55%는 통계적으로 명백히 강함 (400 게임이면 p < 0.01)
약간 강해진 모델만 채택 → 단조 증가 보장
이 안정성이 학습의 핵심

💡 안정성의 비밀

이론적으로 신경망이 자기 자신을 학습하면 신호가 분산할 수 있음. 매번 약간 다른 방향. 해결책:

새 모델이 명백히 강한 경우만 채택
약화 = 폐기
결과: 매 사이클 약간씩 강해지는 단조 곡선

이게 없으면 학습이 불안정 — 강해졌다 약해졌다 반복. AlphaGo Zero 안정성의 핵심.

📊 평가 게임의 비용

400 게임 × 평균 200수 × 1,600 시뮬레이션 = 1억 2천만 시뮬레이션
이게 한 사이클의 평가 — 약 2~3시간 (4 TPU)
1년 학습 시 총 평가 비용 = 700 × 3시간 = 2,100시간

평가 비용도 학습 비용만큼 큼. 그러나 안정성에 필수.

📖 AlphaZero (다음 PART)에서의 변화

1년 후 AlphaZero (2017 말):

Stage 3 (평가) 완전 제거
매 학습 후 무조건 새 모델 채택
이유: 학습 데이터의 다양성이 더 좋다는 발견
학습이 더 빠름 + 마지막 ELO도 더 높음

또 다른 단순화. PART 7에서 자세히.

← 이전 Stage 2: 신경망 학습 다음 → 챕터 3 정리