Stage 3: 평가 — 새 모델 채택 여부 결정
학습된 신경망이 정말 강한가? — 평가 게임으로 확인.
📖 평가 절차
- 새 모델 (방금 학습한 것) vs 이전 최강 모델 — 400 게임 대국
- 두 모델 모두 MCTS 1,600 시뮬레이션 (학습보다 깊게)
- τ=0 (deterministic 플레이)
- 새 모델 승률 계산
- 새 모델 ≥ 55% → 채택. 다음 사이클의 시작점이 됨.
- 새 모델 < 55% → 폐기. 이전 최강 모델 유지.
🎯 55% 기준의 이유
- 50%는 우연 — 두 모델이 거의 같음
- 55%는 통계적으로 명백히 강함 (400 게임이면 p < 0.01)
- 약간 강해진 모델만 채택 → 단조 증가 보장
- 이 안정성이 학습의 핵심
💡 안정성의 비밀
이론적으로 신경망이 자기 자신을 학습하면 신호가 분산할 수 있음. 매번 약간 다른 방향. 해결책:
- 새 모델이 명백히 강한 경우만 채택
- 약화 = 폐기
- 결과: 매 사이클 약간씩 강해지는 단조 곡선
이게 없으면 학습이 불안정 — 강해졌다 약해졌다 반복. AlphaGo Zero 안정성의 핵심.
📊 평가 게임의 비용
- 400 게임 × 평균 200수 × 1,600 시뮬레이션 = 1억 2천만 시뮬레이션
- 이게 한 사이클의 평가 — 약 2~3시간 (4 TPU)
- 1년 학습 시 총 평가 비용 = 700 × 3시간 = 2,100시간
평가 비용도 학습 비용만큼 큼. 그러나 안정성에 필수.
📖 AlphaZero (다음 PART)에서의 변화
1년 후 AlphaZero (2017 말):
- Stage 3 (평가) 완전 제거
- 매 학습 후 무조건 새 모델 채택
- 이유: 학습 데이터의 다양성이 더 좋다는 발견
- 학습이 더 빠름 + 마지막 ELO도 더 높음
또 다른 단순화. PART 7에서 자세히.