챕터 5 정리
📌 챕터 5에서 만든 것
- Padding 합성곱 — 합성곱 후에도 입력 크기 유지
- 완성된 7x7 CNN Policy Network — Conv 3층 + softmax
- 가중치 2,913개 (알파고의 1/1000)
- 학습 전: 균등 분포 (모든 자리 0.0204)
- 학습된 척 시뮬: 가운데 0.081, 코너 0.004 — 20배 차이
- 같은 신경망 구조, 가중치만 다르면 균등 → 의미 있는 직관 전환
🏆 우리가 완성한 것
알파고와 같은 구조의 작은 policy network. 7x7이지만 본질 동일:
- 입력 형식 ✅
- 합성곱 + ReLU + softmax ✅
- 가중치 학습 가능 구조 ✅
- 출력 형식 (자리별 확률) ✅
이걸 알파고 크기로 키우고 진짜 학습시키면 알파고 SL Policy.
➡️ 다음 챕터에서는 — 마지막!
기보로 policy net 지도학습. 합성 데이터(시뮬 게임)로 우리 7x7 CNN을 실제로 학습. 손실이 줄고, 정확도가 오르는 걸 직접 본다.
PART 4의 마지막 — 알파고의 학습 과정 미니 재현.