시즌 1 · 알파고편 / PART 4 · PART 4 · 신경망 등장: 직관을 학습한다 / Ch 6 · 기보로 policy net 지도학습

알파고의 실제 학습

이제 알파고가 실제로 어떻게 학습했는지 자세히:

📊 알파고 SL Policy Network 학습 (논문 2016)
  • 데이터: KGS Go Server에서 6단 이상 인간 게임 16만 판
  • 학습 사례: 3,000만 (보드, 다음 수) 쌍
  • 모델: 13층 CNN, 192 필터, 3x3 + ReLU
  • 가중치 수: 약 3,500,000개
  • 학습 시간: 50개 GPU로 3주
  • 학습률: 0.003에서 시작, 점차 감소
  • 배치 크기: 16
📈 학습 진행
  • 학습 시작: 다음 수 정확도 0.28% (무작위)
  • 1 epoch (3,000만 데이터 한 번): 정확도 약 40%
  • 5 epoch: 약 50%
  • 10 epoch (3주): 정확도 57.0% (수렴)

학습 곡선이 너무 길어서 50 GPU 병렬 사용. 그래도 3주.

💡 학습된 SL Policy의 강력함

학습만 받은 SL Policy로 (MCTS 없이) 단독 게임을 두면:

  • ELO 약 1,900 — 아마추어 3단 수준
  • 이건 사람한테 30년 정체된 컴퓨터 바둑보다 강한 수준
  • 알파고 시뮬레이션 0번, 그냥 한 번 forward pass로

이 직관 + MCTS 결합이 알파고. 두 가지가 합치면 ELO 3,500.

📖 학습 후 SL Policy의 행동

알파고 논문에서 학습된 SL Policy의 빈 보드 추천 top 5:

  1. (3,15) 화점 — 13% (사람 프로의 화점 선호 학습)
  2. (15,3) 화점 — 13%
  3. (15,15) 화점 — 11%
  4. (3,3) 화점 — 11%
  5. (10,10) 천원 — 5%

네 화점에 합 48% 집중. 이게 학습된 "사람 같은 직관". 우리 7x7 시범에서 가운데 99% 집중과 같은 원리.