진짜 일반화를 위해 — 마지막 도메인 지식 제거
👋 이 챕터에서 다룰 것
AlphaGo Zero에도 바둑 특화 부분이 있었어. AlphaZero가 그것들도 제거하면서 진짜 일반 알고리즘.
📖 AlphaGo Zero에 남은 도메인 지식
- 대칭 (Data Augmentation) — 한 보드를 8 회전/반전으로 8배 데이터
- 평가 단계 (55% 통과) — 바둑에 최적화된 안정성 메커니즘
- 일부 하이퍼파라미터 — 바둑에 맞춰 조정
AlphaZero가 1, 2를 제거. 3은 게임마다 약간 조정 허용.
🎯 왜 대칭 제거?
바둑은 회전/반전 대칭이 있지만:
- 체스: 좌우 반전만 (위아래 대칭 아님, 좌우 진영 의미)
- 쇼기: 대칭 없음 (말 종류, 방향 매우 중요)
- 일반 알고리즘이라면 대칭 정보 안 쓰는 게 깔끔
해결: 대칭 사용 안 함. 학습 데이터가 8배 적지만 그만큼 더 오래 학습 — 결과 같음.
💡 평가 단계 제거 — 더 강해짐
AlphaGo Zero: 매 사이클 평가 → 55%+ 승률만 채택. AlphaZero: 평가 제거, 무조건 갱신.
예상: 안정성 떨어져서 약해질 줄 알았지만 — 더 강해짐!
이유:
- 평가 안 하면 학습 데이터의 다양성 증가
- 약간 안 좋은 모델도 다양한 데이터 생성에 기여
- 학습 신호가 더 풍부 → 최종 모델 더 강함
또 다른 "단순함이 강함" 사례. 평가가 오히려 학습을 좁혔음.