진짜 일반화를 위해 — 마지막 도메인 지식 제거

👋 이 챕터에서 다룰 것

AlphaGo Zero에도 바둑 특화 부분이 있었어. AlphaZero가 그것들도 제거하면서 진짜 일반 알고리즘.

📖 AlphaGo Zero에 남은 도메인 지식

AlphaZero가 1, 2를 제거. 3은 게임마다 약간 조정 허용.

🎯 왜 대칭 제거?

바둑은 회전/반전 대칭이 있지만:

해결: 대칭 사용 안 함. 학습 데이터가 8배 적지만 그만큼 더 오래 학습 — 결과 같음.

💡 평가 단계 제거 — 더 강해짐

AlphaGo Zero: 매 사이클 평가 → 55%+ 승률만 채택. AlphaZero: 평가 제거, 무조건 갱신.

예상: 안정성 떨어져서 약해질 줄 알았지만 — 더 강해짐!

이유:

또 다른 "단순함이 강함" 사례. 평가가 오히려 학습을 좁혔음.