시즌 1 · 알파고편 / PART 4 · PART 4 · 신경망 등장: 직관을 학습한다 / Ch 5 · 작은 CNN 만들기 (7x7)

학습 후의 모습 — 시뮬레이션

학습 전: 모든 자리 0.0204 균등. 학습 후: 중심(3,3)에 8.14% 집중, 코너는 0.4%. 20배 차이.

🎯 학습이 만든 것

같은 신경망 구조, 같은 입력. 가중치만 다름. 균등 분포 → 의미 있는 분포 전환.

여기서는 "학습된 척" 가짜 가중치 사용. 진짜 학습은 다음 챕터에서.

💡 진짜 알파고의 학습된 정책 (논문에서)

19x19 빈 보드에서 알파고 SL Policy의 top 5 자리:

  1. (3,15) 화점: ~13%
  2. (15,3) 화점: ~13%
  3. (15,15) 화점: ~11%
  4. (3,3) 화점: ~11%
  5. (10,10) 천원: ~5%

화점 4개에 합쳐 50% 집중. 사람 프로의 시작 분포와 매우 유사. "사람 같은 직관"의 학습된 모습.

⚠️ 학습은 어떻게 하나? — 마지막 챕터

지금까지 가중치를 손으로 정하거나 무작위로. 진짜 학습은:

  • 수십만 사람 프로 게임 데이터 준비
  • 각 (보드, 사람이 둔 수) 쌍을 학습 데이터로
  • 신경망이 그 수를 맞추도록 가중치 갱신 (역전파)

이게 다음 챕터의 주제. 작은 합성 데이터로 시범 학습.

PYTHON