시즌 1 · 알파고편 / PART 7 · PART 7 · AlphaZero (2017) / Ch 4 · 일반화의 의미

시즌 1 회고 — 우리가 본 4년의 역사

🏆 시즌 1 알파고편 — 우리가 만든 것

PART 1부터 PART 7까지 우리가 직접 만든 부품들:

📖 시즌 1 코드 자취
  • PART 1: Board 클래스 (바둑 규칙) — 5x5 / 7x7 / 19x19 가능
  • PART 2: Minimax + 알파-베타 — 틱택토 완벽
  • PART 3: MCTS 4단계 + UCB1 — 7x7 바둑 정복
  • PART 4: 퍼셉트론 → MLP → CNN → Policy + Value Network
  • PART 5: PUCT + 7x7 미니 알파고 (80줄 통합)
  • PART 6: AlphaGo Zero 학습 파이프라인
  • PART 7: 일반화 — 같은 코드 다른 게임
🎯 알파고 시리즈의 알고리즘 진화
측면 알파고 (2016) AlphaGo Zero AlphaZero
신경망 수411
입력 채널481717 (게임별)
사람 데이터16만 게임00
대칭/도메인많음대칭만없음
평가 단계N/A있음없음
게임 일반화바둑만바둑만바둑+체스+쇼기
ELO3,5005,2005,400+

매 단계마다 단순화 + 강함. 4년의 진화.

💡 핵심 교훈 정리
  1. 알고리즘 부품의 본질을 이해하면 통합 가능
  2. 학습이 알고리즘 자체보다 중요한 경우가 많음
  3. 단순함 + 데이터 + 시간 = 강함
  4. 도메인 지식이 천장이 될 수 있음
  5. "진짜 일반 알고리즘"이 존재함