시즌 1 · 알파고편 / PART 4 · PART 4 · 신경망 등장: 직관을 학습한다 / Ch 5 · 작은 CNN 만들기 (7x7)

챕터 5 정리

📌 챕터 5에서 만든 것

  • Padding 합성곱 — 합성곱 후에도 입력 크기 유지
  • 완성된 7x7 CNN Policy Network — Conv 3층 + softmax
  • 가중치 2,913개 (알파고의 1/1000)
  • 학습 전: 균등 분포 (모든 자리 0.0204)
  • 학습된 척 시뮬: 가운데 0.081, 코너 0.004 — 20배 차이
  • 같은 신경망 구조, 가중치만 다르면 균등 → 의미 있는 직관 전환
🏆 우리가 완성한 것

알파고와 같은 구조의 작은 policy network. 7x7이지만 본질 동일:

  • 입력 형식 ✅
  • 합성곱 + ReLU + softmax ✅
  • 가중치 학습 가능 구조 ✅
  • 출력 형식 (자리별 확률) ✅

이걸 알파고 크기로 키우고 진짜 학습시키면 알파고 SL Policy.

➡️ 다음 챕터에서는 — 마지막!

기보로 policy net 지도학습. 합성 데이터(시뮬 게임)로 우리 7x7 CNN을 실제로 학습. 손실이 줄고, 정확도가 오르는 걸 직접 본다.

PART 4의 마지막 — 알파고의 학습 과정 미니 재현.