AlphaGo Zero가 스스로 발견한 것들

흥미로운 부분 — AlphaGo Zero의 학습 과정에서 발견한 패턴들이 사람 정석과 비교됨.

📖 학습 단계별로 발견한 정석 (논문 Figure 5)

💡 사람 정석을 재발견 + 일부 폐기

학습 중간 모델들의 패턴을 분석한 연구:

알파고 이후 바둑계 변화: 프로 기사들이 알파고/AlphaZero 학습 → 새 정석들이 표준화됨.

🎯 가장 놀라운 발견 — 화점에서의 변화

사람 정석에서 화점에 둔 후 일반적인 응수가 5종 정도:

알파고 Zero가 학습 끝에 가장 자주 둔 응수 — 3-3 침투. 사람은 옛날부터 "3-3은 너무 작다"고 했지만 알파고 Zero는 그게 가장 정확하다고 결론.

그 후 사람 프로계 "3-3 부활". 알파고가 인간 바둑을 바꿈.

📖 "사람과 다른 길로 같은 정상" — 인사이트

AlphaGo Zero의 모든 학습 사이클을 모은 영상이 있어 (DeepMind 공개). 거기서 보이는 것:

비유: 정상에 오르는 길이 여러 개. 사람 길과 알파고 길은 다르지만 결국 같은 정상으로. 알파고 길이 약간 더 빠른 길.