알파고의 실제 학습
이제 알파고가 실제로 어떻게 학습했는지 자세히:
📊 알파고 SL Policy Network 학습 (논문 2016)
- 데이터: KGS Go Server에서 6단 이상 인간 게임 16만 판
- 학습 사례: 3,000만 (보드, 다음 수) 쌍
- 모델: 13층 CNN, 192 필터, 3x3 + ReLU
- 가중치 수: 약 3,500,000개
- 학습 시간: 50개 GPU로 3주
- 학습률: 0.003에서 시작, 점차 감소
- 배치 크기: 16
📈 학습 진행
- 학습 시작: 다음 수 정확도 0.28% (무작위)
- 1 epoch (3,000만 데이터 한 번): 정확도 약 40%
- 5 epoch: 약 50%
- 10 epoch (3주): 정확도 57.0% (수렴)
학습 곡선이 너무 길어서 50 GPU 병렬 사용. 그래도 3주.
💡 학습된 SL Policy의 강력함
학습만 받은 SL Policy로 (MCTS 없이) 단독 게임을 두면:
- ELO 약 1,900 — 아마추어 3단 수준
- 이건 사람한테 30년 정체된 컴퓨터 바둑보다 강한 수준
- 알파고 시뮬레이션 0번, 그냥 한 번 forward pass로
이 직관 + MCTS 결합이 알파고. 두 가지가 합치면 ELO 3,500.
📖 학습 후 SL Policy의 행동
알파고 논문에서 학습된 SL Policy의 빈 보드 추천 top 5:
- (3,15) 화점 — 13% (사람 프로의 화점 선호 학습)
- (15,3) 화점 — 13%
- (15,15) 화점 — 11%
- (3,3) 화점 — 11%
- (10,10) 천원 — 5%
네 화점에 합 48% 집중. 이게 학습된 "사람 같은 직관". 우리 7x7 시범에서 가운데 99% 집중과 같은 원리.