시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 6 · 7x7 미니 알파고 구현

코드: 미니 알파고끼리 자가 대국

실행 결과 — 한 게임이 정상적으로 진행됨! 학습 안 된 네트워크인데도 각 수가 다른 자리에 들어가고 모양이 형성됨.

🎯 결과 분석
  • 15수 진행 — 각 수가 다른 자리 (중복 없음)
  • 흑 8돌, 백 7돌 — 균형 잡힌 진행
  • 좌상귀(1행)와 중앙(2~4행)에 모양 형성
  • MCTS의 PUCT가 다양한 자리를 탐색 — possible_moves가 빈 자리만 반환하기 때문

학습 안 된 네트워크 = 무작위에 가까운 수. 그래도 알고리즘 구조는 정상 동작.

💡 진짜 학습된 알파고에서는
  • 화점/별점에 더 집중 (Policy 학습 결과)
  • 영역 형성을 위한 일관된 전략
  • 강한 상대의 침투에 대한 응수 패턴

알고리즘은 우리 코드 그대로. 학습된 가중치만 다름. "코드는 알파고와 같음".

📊 진짜 알파고에서

이세돌 대국에서 알파고 vs 알파고 자가 대국:

  • 약 250수 진행 (정상적 바둑 길이)
  • 매 수가 강한 프로 수준
  • 대국 마다 다른 모양
  • 흑/백 승률 거의 동등

우리 미니 알파고는 가능성을 보여주는 코드. 진짜 강한 알파고는 학습이 추가되어야.

PYTHON