7x7 학습 파이프라인 — 진짜 학습 코드

Self-play: 한 자가 대국 게임 시뮬
학습 한 단계: 데이터 → 가중치 갱신
전체 루프: 여러 사이클 반복

👋 이 챕터에서 만들 것

지금까지 본 AlphaGo Zero 학습 사이클을 작은 코드로. PART 5 미니 알파고에 "진짜 학습"을 추가한다.

📖 코드 구조

3 부분으로 분리:

⚠️ 단순화 — 진짜 알파고 Zero와의 차이

이 챕터의 코드는 교육 목적의 단순화:

전체 학습은 컴퓨터에서 분 단위. 결과보다는 "알고리즘 본질"이 목적.

다음 페이지에서 자가 대국 함수.