시즌 1 · 알파고편 / PART 6 · PART 6 · AlphaGo Zero (2017) / Ch 5 · 학습 곡선 실험

코드: 작은 학습 실험 — 손실 곡선

실험 결과 — 학습이 일어남! 매 epoch마다 손실 단조 감소.

🎯 결과 분석
  • 초기 손실 3.24 → 학습 후 2.88 — 11.2% 감소
  • 매 epoch마다 손실 단조 감소 (3.14 → 3.05 → 2.98 → ...)
  • 20 epoch만으로는 큰 향상 어렵지만 방향성 명확

이 작은 학습 코드는 매우 단순한 1층 신경망 + 20 epoch만 함. AlphaGo Zero는 39층 + 700 사이클 학습. 같은 메커니즘, 스케일만 다름.

💡 학습 곡선의 모양

위 출력의 손실:

  • Epoch 1~4: 3.24 → 3.14 (-0.10)
  • Epoch 5~8: 3.14 → 3.06 (-0.08)
  • Epoch 9~12: 3.06 → 2.98 (-0.07)
  • Epoch 13~20: 2.98 → 2.88 (-0.10)

점차 느려지는 단조 감소. AlphaGo Zero 실제 학습 곡선도 같은 모양:

  • 0~3시간: 빠른 향상 (초보 → 1d급)
  • 3시간~7일: 중간 속도 (정석 학습)
  • 7일~40일: 매우 느린 fine-tuning

모든 신경망 학습의 공통 패턴 — 처음 빠르게, 나중에 점점 천천히.

📖 이 실험과 AlphaGo Zero의 본질적 같음

위 코드와 AlphaGo Zero 학습의 핵심 알고리즘:

  1. Forward pass — 입력 → 예측 ✅
  2. Cross entropy 손실 ✅
  3. 역전파 (위에선 손계산, 진짜는 자동) ✅
  4. SGD 갱신 ✅
  5. 반복 → 손실 감소 ✅

차이: 스케일 (25 → 19x19), 깊이 (1층 → 39층), 데이터 (200 → 90억), 시간 (20 epoch → 700 사이클).

PYTHON