챕터 2 정리

📌 챕터 2에서 배운 것

AlphaGo Zero에 남았던 도메인 지식: 대칭(8x augmentation), 평가 단계
AlphaZero가 둘 다 제거 → 진짜 일반 알고리즘
대칭 제거 — 충분한 데이터면 신경망이 자동 학습
평가 단계 제거 — 약간 약한 모델도 데이터 다양성에 기여
결과: ELO 5,200 → 5,400+ (200 ELO 증가)

🏆 트렌드 — 단순함의 승리

알파고 → Zero → AlphaZero의 진화 = 도메인 지식 제거의 역사:

알파고: 4 신경망 + 48 채널 (많은 도메인 지식)
Zero: 1 신경망 + 17 채널 + 대칭 (덜)
AlphaZero: 1 신경망 + 게임 입력 + 도메인 지식 0

매 단계마다 단순화 → 더 강함. 현대 AI의 큰 교훈.

➡️ 다음 챕터에서는

틱택토/커넥트포 학습. 우리가 같은 코드를 다른 게임에 적용. PART 2 틱택토 minimax와 비교 — AI는 어떻게 달라지는가.

← 이전 평가 단계 제거 — 다양성의 힘 다음 → 같은 알고리즘, 다른 게임