왜 "백지에서 시작"이 더 강한가
직관적으로는 "사람 16만 게임으로 시작 = 좋은 출발점"이라 생각하기 쉬워. 그런데 결과는 반대.
📖 사람 데이터의 함정 — 4가지 한계
- 사람 평균 수준에 갇힘: 6단 게임 학습 → 6단 패턴 학습. 그 이상 발견 어려움.
- 사람 편향 흡수: 사람이 자주 두는 수 = "검증된 수"가 아니라 "사람 직관 수". 사람 실수도 학습.
- 탐험 부족: SL Policy의 P가 좁아져 PUCT 탐험도 좁아짐. 이세돌 78수 못 본 이유.
- 전형성에 갇힘: "이 모양에서는 이렇게" 같은 정형화. 자유로운 발상 어려움.
🎯 백지 학습의 장점
- 편견 없음: 어떤 수도 시도. 사람이 안 두는 수도 탐험.
- 스스로 발견: 자가 대국 중 "이 모양이 강하다"를 직접 검증.
- 일관된 학습 신호: 모든 데이터가 자기 자신의 게임 → 잡음 적음.
- 천장 없음: 사람 수준에 묶이지 않음.
이게 사람 학습 없이도 더 강해진 이유.
💡 "더 단순한 게 더 강하다" 사례
알고리즘 단순화 vs 강함:
- 알파고: SL Policy + RL Policy + Value Network + Fast Rollout = 4 신경망
- 알파고 Zero: 통합 네트워크 (Policy + Value head) = 1 신경망
- 4 → 1 단순화. 그래도 더 강함.
Occam's Razor의 흥미로운 예. "단순한 알고리즘이 학습 신호를 더 깨끗하게 받는다".
📖 사람 학습이 왜 함정인지 — 비유
"사람 100명에게 그림을 배우는 학생" vs "혼자 자기 그림을 100만 장 그리며 배우는 학생":
- 전자: 100명 스타일을 빨리 흡수. 그러나 100명 평균에 머무를 수 있음. 새 스타일 어려움.
- 후자: 처음엔 형편없음. 그러나 끝없는 자기 비판 + 시행착오로 100명 너머 갈 수 있음.
AlphaGo Zero는 후자. 시간이 더 걸리지만 천장이 없음.