SEASON 1
시즌 1 · 알파고편
바둑 한 수에서 자가학습까지
몬테카를로 탐색, 신경망, 강화학습. 알파고의 핵심 엔진을 7x7 바둑판으로 직접 만든다.
처음부터 시작 →PART 1 PART 1 · 바둑이라는 우주
5x5 보드로 시작하는 바둑
Ch 1 바둑판과 돌
점, 선, 교차점부터 시작
Ch 2 활로와 단수
돌이 살아 있다는 것
Ch 3 따냄과 자살수
돌이 잡히는 순간
Ch 4 패 규칙
같은 모양 반복 금지
Ch 5 집과 승부 판정
누가 더 많은 영역을 차지했나
Ch 6 Board 클래스 만들기
파이썬으로 5x5 바둑판 구현
Ch 7 5x5는 풀렸다
완전분석 결과: 흑이 25집 이긴다
PART 2 PART 2 · 게임을 푸는 첫 방법: 탐색
컴퓨터가 수를 읽는다는 것
Ch 1 게임 트리란
Ch 2 Minimax
Ch 3 알파-베타 가지치기
Ch 4 탐색 공간 폭발: 10^170
Ch 5 틱택토 minimax 직접 구현
Ch 6 7x7 바둑에 minimax 시도, 실패 체험
PART 3 PART 3 · 무작위의 힘: MCTS
알파고의 첫 핵심 엔진
Ch 1 몬테카를로 시뮬레이션 (rollout)
- 콘텐츠 준비 중
Ch 2 UCB1 — 탐험 vs 활용
- 콘텐츠 준비 중
Ch 3 MCTS 4단계
- 콘텐츠 준비 중
Ch 4 순수 MCTS로 7x7 바둑
- 콘텐츠 준비 중
Ch 5 무작위 시뮬레이션의 한계
- 콘텐츠 준비 중
PART 4 PART 4 · 신경망 등장: 직관을 학습한다
policy/value network 개념
Ch 1 퍼셉트론에서 MLP까지
- 콘텐츠 준비 중
Ch 2 CNN: 바둑판은 이미지다
- 콘텐츠 준비 중
Ch 3 Policy Network
- 콘텐츠 준비 중
Ch 4 Value Network
- 콘텐츠 준비 중
Ch 5 작은 CNN 만들기 (7x7)
- 콘텐츠 준비 중
Ch 6 기보로 policy net 지도학습
- 콘텐츠 준비 중
PART 5 PART 5 · AlphaGo (2016)
이세돌을 이긴 그것
Ch 1 SL Policy Network
- 콘텐츠 준비 중
Ch 2 RL Policy Network
- 콘텐츠 준비 중
Ch 3 Value Network
- 콘텐츠 준비 중
Ch 4 MCTS + 신경망 = PUCT
- 콘텐츠 준비 중
Ch 5 이세돌 4국 신의 한 수
- 콘텐츠 준비 중
Ch 6 7x7 미니 알파고 구현
- 콘텐츠 준비 중
PART 6 PART 6 · AlphaGo Zero (2017)
인간 기보 없이
Ch 1 백지에서 시작 (tabula rasa)
- 콘텐츠 준비 중
Ch 2 policy + value 합치기
- 콘텐츠 준비 중
Ch 3 self-play 루프
- 콘텐츠 준비 중
Ch 4 7x7 학습 파이프라인
- 콘텐츠 준비 중
Ch 5 학습 곡선 실험
- 콘텐츠 준비 중
PART 7 PART 7 · AlphaZero (2017)
바둑을 넘어
Ch 1 같은 코드로 여러 게임
- 콘텐츠 준비 중
Ch 2 도메인 지식 제거
- 콘텐츠 준비 중
Ch 3 틱택토/커넥트포 학습
- 콘텐츠 준비 중
Ch 4 일반화의 의미
- 콘텐츠 준비 중