챕터 2 정리
📌 챕터 2에서 배운 것
- AlphaGo Zero에 남았던 도메인 지식: 대칭(8x augmentation), 평가 단계
- AlphaZero가 둘 다 제거 → 진짜 일반 알고리즘
- 대칭 제거 — 충분한 데이터면 신경망이 자동 학습
- 평가 단계 제거 — 약간 약한 모델도 데이터 다양성에 기여
- 결과: ELO 5,200 → 5,400+ (200 ELO 증가)
🏆 트렌드 — 단순함의 승리
알파고 → Zero → AlphaZero의 진화 = 도메인 지식 제거의 역사:
- 알파고: 4 신경망 + 48 채널 (많은 도메인 지식)
- Zero: 1 신경망 + 17 채널 + 대칭 (덜)
- AlphaZero: 1 신경망 + 게임 입력 + 도메인 지식 0
매 단계마다 단순화 → 더 강함. 현대 AI의 큰 교훈.
➡️ 다음 챕터에서는
틱택토/커넥트포 학습. 우리가 같은 코드를 다른 게임에 적용. PART 2 틱택토 minimax와 비교 — AI는 어떻게 달라지는가.