시즌 1 · 알파고편 / PART 7 · PART 7 · AlphaZero (2017) / Ch 1 · 같은 코드로 여러 게임

AlphaZero (2017 12월) — 일반화의 시대

🚀 2017년 12월 — 또 한 번의 충격

AlphaGo Zero 발표 2개월 후, DeepMind 새 논문:

"Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"

핵심: "같은 알고리즘, 같은 코드. 체스, 쇼기, 바둑 모두 마스터."

📖 AlphaGo Zero vs AlphaZero
속성 AlphaGo Zero (10월) AlphaZero (12월)
대상 게임바둑 only바둑 + 체스 + 쇼기
도메인 지식바둑 대칭 (8 변환)모두 제거
평가 단계매 사이클 평가 (55% 통과)평가 제거 — 무조건 갱신
잔차 블록19 또는 3939 (큰 모델)

또 다른 단순화 — 도메인 지식 + 평가 단계 제거. 더 강해짐.

📊 AlphaZero 성과 (논문 Table 1)
게임 학습 시간 격파한 상대
바둑8시간AlphaGo Zero (60-40)
체스4시간Stockfish 8 (28-0, 72 무승부)
쇼기2시간Elmo (90-2-8)

같은 알고리즘, 같은 코드. 시간만 다름. "각 게임의 최강 AI를 짧은 시간에 격파".

이 PART (4 챕터, 시즌 1 마지막):

  • Ch 1: 같은 코드로 여러 게임 — 인터페이스 설계
  • Ch 2: 도메인 지식 제거 — 대칭, 정석, 패
  • Ch 3: 틱택토/커넥트포 학습
  • Ch 4: 일반화의 의미 — 시즌 1 완결