코드: 미니 알파고끼리 자가 대국
실행 결과 — 한 게임이 정상적으로 진행됨! 학습 안 된 네트워크인데도 각 수가 다른 자리에 들어가고 모양이 형성됨.
🎯 결과 분석
- 15수 진행 — 각 수가 다른 자리 (중복 없음)
- 흑 8돌, 백 7돌 — 균형 잡힌 진행
- 좌상귀(1행)와 중앙(2~4행)에 모양 형성
- MCTS의 PUCT가 다양한 자리를 탐색 — possible_moves가 빈 자리만 반환하기 때문
학습 안 된 네트워크 = 무작위에 가까운 수. 그래도 알고리즘 구조는 정상 동작.
💡 진짜 학습된 알파고에서는
- 화점/별점에 더 집중 (Policy 학습 결과)
- 영역 형성을 위한 일관된 전략
- 강한 상대의 침투에 대한 응수 패턴
알고리즘은 우리 코드 그대로. 학습된 가중치만 다름. "코드는 알파고와 같음".
📊 진짜 알파고에서
이세돌 대국에서 알파고 vs 알파고 자가 대국:
- 약 250수 진행 (정상적 바둑 길이)
- 매 수가 강한 프로 수준
- 대국 마다 다른 모양
- 흑/백 승률 거의 동등
우리 미니 알파고는 가능성을 보여주는 코드. 진짜 강한 알파고는 학습이 추가되어야.
PYTHON