학습 전: 모든 자리 0.0204 균등. 학습 후: 중심(3,3)에 8.14% 집중, 코너는 0.4%. 20배 차이.
🎯 학습이 만든 것
같은 신경망 구조, 같은 입력. 가중치만 다름. 균등 분포 → 의미 있는 분포 전환.
여기서는 "학습된 척" 가짜 가중치 사용. 진짜 학습은 다음 챕터에서.
💡 진짜 알파고의 학습된 정책 (논문에서)
19x19 빈 보드에서 알파고 SL Policy의 top 5 자리:
- (3,15) 화점: ~13%
- (15,3) 화점: ~13%
- (15,15) 화점: ~11%
- (3,3) 화점: ~11%
- (10,10) 천원: ~5%
화점 4개에 합쳐 50% 집중. 사람 프로의 시작 분포와 매우 유사. "사람 같은 직관"의 학습된 모습.
⚠️ 학습은 어떻게 하나? — 마지막 챕터
지금까지 가중치를 손으로 정하거나 무작위로. 진짜 학습은:
- 수십만 사람 프로 게임 데이터 준비
- 각 (보드, 사람이 둔 수) 쌍을 학습 데이터로
- 신경망이 그 수를 맞추도록 가중치 갱신 (역전파)
이게 다음 챕터의 주제. 작은 합성 데이터로 시범 학습.
기대 출력:
=== '학습된 모델' 시뮬레이션 — 위치 기반 prior ===
Logit 점수 (가운데일수록 큼):
-1.0 -0.5 0.0 0.5 0.0 -0.5 -1.0
-0.5 0.0 0.5 1.0 0.5 0.0 -0.5
0.0 0.5 1.0 1.5 1.0 0.5 0.0
0.5 1.0 1.5 2.0 1.5 1.0 0.5
0.0 0.5 1.0 1.5 1.0 0.5 0.0
-0.5 0.0 0.5 1.0 0.5 0.0 -0.5
-1.0 -0.5 0.0 0.5 0.0 -0.5 -1.0
Softmax 후 확률:
0.0043 0.0071 0.0117 0.0194 0.0117 0.0071 0.0043
0.0071 0.0117 0.0194 0.0319 0.0194 0.0117 0.0071
0.0117 0.0194 0.0319 0.0526 0.0319 0.0194 0.0117
0.0194 0.0319 0.0526 0.0868 0.0526 0.0319 0.0194
0.0117 0.0194 0.0319 0.0526 0.0319 0.0194 0.0117
0.0071 0.0117 0.0194 0.0319 0.0194 0.0117 0.0071
0.0043 0.0071 0.0117 0.0194 0.0117 0.0071 0.0043
가운데 (3,3) 확률: 0.0868 ← 가장 큼
코너 (0,0) 확률: 0.0043
중앙 변 (3,0) 확률: 0.0194
비율: 가운데 / 코너 = 20.1배
=== 학습 후 정책의 모습 ===
• 중심에 확률 집중 → 알파고가 화점 선호
• 코너는 거의 0에 가까움 → 약한 자리
• 진짜 학습은 'OS 시작 위치' 같은 일관된 신호로 자동 형성