시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 1 · 백지에서 시작 (tabula rasa)

AlphaGo Zero가 스스로 발견한 것들

흥미로운 부분 — AlphaGo Zero의 학습 과정에서 발견한 패턴들이 사람 정석과 비교됨.

📖 학습 단계별로 발견한 정석 (논문 Figure 5)
  • 3시간 (초보 수준): 모서리 중심 패턴 발견. 사람도 발견한 기본기.
  • 1일: 변(邊) 다툼, 활로 만들기 — 중급 정석.
  • 7일: 침투/연결 — 사람 프로 정석과 거의 동일.
  • 21일: 사람이 모르는 정석 발견. 일부는 사람 정석을 단순 무효화.
  • 40일: 사람 정석 5종 정도 폐기. 더 정확한 응수 발견.
💡 사람 정석을 재발견 + 일부 폐기

학습 중간 모델들의 패턴을 분석한 연구:

  • 대부분의 사람 정석을 독립적으로 재발견: 3-3 침투, 별모양, 한칸뜀 등
  • 그러나 일부는 안 발견 — 사람의 미신적 정석 (실제로 불필요)
  • 새로 발견: 사람이 안 두던 강한 정석들. 그 후 프로 기사들이 학습.

알파고 이후 바둑계 변화: 프로 기사들이 알파고/AlphaZero 학습 → 새 정석들이 표준화됨.

🎯 가장 놀라운 발견 — 화점에서의 변화

사람 정석에서 화점에 둔 후 일반적인 응수가 5종 정도:

  • 3-3 침투
  • 변 4-3
  • 5-3 응수
  • 이단 활로 형성
  • 2-가-3 미끄럼

알파고 Zero가 학습 끝에 가장 자주 둔 응수 — 3-3 침투. 사람은 옛날부터 "3-3은 너무 작다"고 했지만 알파고 Zero는 그게 가장 정확하다고 결론.

그 후 사람 프로계 "3-3 부활". 알파고가 인간 바둑을 바꿈.

📖 "사람과 다른 길로 같은 정상" — 인사이트

AlphaGo Zero의 모든 학습 사이클을 모은 영상이 있어 (DeepMind 공개). 거기서 보이는 것:

  • 학습 초기에는 사람과 매우 다른 모양
  • 중간엔 사람 정석과 비슷
  • 최종엔 다시 사람 정석과 약간 다름 — 더 정확

비유: 정상에 오르는 길이 여러 개. 사람 길과 알파고 길은 다르지만 결국 같은 정상으로. 알파고 길이 약간 더 빠른 길.