코드: 작은 학습 실험 — 손실 곡선
실험 결과 — 학습이 일어남! 매 epoch마다 손실 단조 감소.
🎯 결과 분석
- 초기 손실 3.24 → 학습 후 2.88 — 11.2% 감소
- 매 epoch마다 손실 단조 감소 (3.14 → 3.05 → 2.98 → ...)
- 20 epoch만으로는 큰 향상 어렵지만 방향성 명확
이 작은 학습 코드는 매우 단순한 1층 신경망 + 20 epoch만 함. AlphaGo Zero는 39층 + 700 사이클 학습. 같은 메커니즘, 스케일만 다름.
💡 학습 곡선의 모양
위 출력의 손실:
- Epoch 1~4: 3.24 → 3.14 (-0.10)
- Epoch 5~8: 3.14 → 3.06 (-0.08)
- Epoch 9~12: 3.06 → 2.98 (-0.07)
- Epoch 13~20: 2.98 → 2.88 (-0.10)
점차 느려지는 단조 감소. AlphaGo Zero 실제 학습 곡선도 같은 모양:
- 0~3시간: 빠른 향상 (초보 → 1d급)
- 3시간~7일: 중간 속도 (정석 학습)
- 7일~40일: 매우 느린 fine-tuning
모든 신경망 학습의 공통 패턴 — 처음 빠르게, 나중에 점점 천천히.
📖 이 실험과 AlphaGo Zero의 본질적 같음
위 코드와 AlphaGo Zero 학습의 핵심 알고리즘:
- Forward pass — 입력 → 예측 ✅
- Cross entropy 손실 ✅
- 역전파 (위에선 손계산, 진짜는 자동) ✅
- SGD 갱신 ✅
- 반복 → 손실 감소 ✅
차이: 스케일 (25 → 19x19), 깊이 (1층 → 39층), 데이터 (200 → 90억), 시간 (20 epoch → 700 사이클).
PYTHON