AlphaGo Zero가 스스로 발견한 것들
흥미로운 부분 — AlphaGo Zero의 학습 과정에서 발견한 패턴들이 사람 정석과 비교됨.
📖 학습 단계별로 발견한 정석 (논문 Figure 5)
- 3시간 (초보 수준): 모서리 중심 패턴 발견. 사람도 발견한 기본기.
- 1일: 변(邊) 다툼, 활로 만들기 — 중급 정석.
- 7일: 침투/연결 — 사람 프로 정석과 거의 동일.
- 21일: 사람이 모르는 정석 발견. 일부는 사람 정석을 단순 무효화.
- 40일: 사람 정석 5종 정도 폐기. 더 정확한 응수 발견.
💡 사람 정석을 재발견 + 일부 폐기
학습 중간 모델들의 패턴을 분석한 연구:
- 대부분의 사람 정석을 독립적으로 재발견: 3-3 침투, 별모양, 한칸뜀 등
- 그러나 일부는 안 발견 — 사람의 미신적 정석 (실제로 불필요)
- 새로 발견: 사람이 안 두던 강한 정석들. 그 후 프로 기사들이 학습.
알파고 이후 바둑계 변화: 프로 기사들이 알파고/AlphaZero 학습 → 새 정석들이 표준화됨.
🎯 가장 놀라운 발견 — 화점에서의 변화
사람 정석에서 화점에 둔 후 일반적인 응수가 5종 정도:
- 3-3 침투
- 변 4-3
- 5-3 응수
- 이단 활로 형성
- 2-가-3 미끄럼
알파고 Zero가 학습 끝에 가장 자주 둔 응수 — 3-3 침투. 사람은 옛날부터 "3-3은 너무 작다"고 했지만 알파고 Zero는 그게 가장 정확하다고 결론.
그 후 사람 프로계 "3-3 부활". 알파고가 인간 바둑을 바꿈.
📖 "사람과 다른 길로 같은 정상" — 인사이트
AlphaGo Zero의 모든 학습 사이클을 모은 영상이 있어 (DeepMind 공개). 거기서 보이는 것:
- 학습 초기에는 사람과 매우 다른 모양
- 중간엔 사람 정석과 비슷
- 최종엔 다시 사람 정석과 약간 다름 — 더 정확
비유: 정상에 오르는 길이 여러 개. 사람 길과 알파고 길은 다르지만 결국 같은 정상으로. 알파고 길이 약간 더 빠른 길.