챕터 5 정리

📌 챕터 5에서 만든 것

Padding 합성곱 — 합성곱 후에도 입력 크기 유지
완성된 7x7 CNN Policy Network — Conv 3층 + softmax
가중치 2,913개 (알파고의 1/1000)
학습 전: 균등 분포 (모든 자리 0.0204)
학습된 척 시뮬: 가운데 0.081, 코너 0.004 — 20배 차이
같은 신경망 구조, 가중치만 다르면 균등 → 의미 있는 직관 전환

🏆 우리가 완성한 것

알파고와 같은 구조의 작은 policy network. 7x7이지만 본질 동일:

입력 형식 ✅
합성곱 + ReLU + softmax ✅
가중치 학습 가능 구조 ✅
출력 형식 (자리별 확률) ✅

이걸 알파고 크기로 키우고 진짜 학습시키면 알파고 SL Policy.

➡️ 다음 챕터에서는 — 마지막!

기보로 policy net 지도학습. 합성 데이터(시뮬 게임)로 우리 7x7 CNN을 실제로 학습. 손실이 줄고, 정확도가 오르는 걸 직접 본다.

PART 4의 마지막 — 알파고의 학습 과정 미니 재현.

← 이전 학습 후의 모습 — 시뮬레이션 다음 → 드디어 진짜 학습 — 사람의 직관을 신경망에