시즌 1 회고 — 우리가 본 4년의 역사
🏆 시즌 1 알파고편 — 우리가 만든 것
PART 1부터 PART 7까지 우리가 직접 만든 부품들:
📖 시즌 1 코드 자취
- PART 1: Board 클래스 (바둑 규칙) — 5x5 / 7x7 / 19x19 가능
- PART 2: Minimax + 알파-베타 — 틱택토 완벽
- PART 3: MCTS 4단계 + UCB1 — 7x7 바둑 정복
- PART 4: 퍼셉트론 → MLP → CNN → Policy + Value Network
- PART 5: PUCT + 7x7 미니 알파고 (80줄 통합)
- PART 6: AlphaGo Zero 학습 파이프라인
- PART 7: 일반화 — 같은 코드 다른 게임
🎯 알파고 시리즈의 알고리즘 진화
| 측면 | 알파고 (2016) | AlphaGo Zero | AlphaZero |
|---|---|---|---|
| 신경망 수 | 4 | 1 | 1 |
| 입력 채널 | 48 | 17 | 17 (게임별) |
| 사람 데이터 | 16만 게임 | 0 | 0 |
| 대칭/도메인 | 많음 | 대칭만 | 없음 |
| 평가 단계 | N/A | 있음 | 없음 |
| 게임 일반화 | 바둑만 | 바둑만 | 바둑+체스+쇼기 |
| ELO | 3,500 | 5,200 | 5,400+ |
매 단계마다 단순화 + 강함. 4년의 진화.
💡 핵심 교훈 정리
- 알고리즘 부품의 본질을 이해하면 통합 가능
- 학습이 알고리즘 자체보다 중요한 경우가 많음
- 단순함 + 데이터 + 시간 = 강함
- 도메인 지식이 천장이 될 수 있음
- "진짜 일반 알고리즘"이 존재함