← 전체 시즌

SEASON 1

시즌 1 · 알파고편

바둑 한 수에서 자가학습까지

몬테카를로 탐색, 신경망, 강화학습. 알파고의 핵심 엔진을 7x7 바둑판으로 직접 만든다.

처음부터 시작 →

PART 1 PART 1 · 바둑이라는 우주

5x5 보드로 시작하는 바둑

Ch 1 바둑판과 돌

점, 선, 교차점부터 시작

Ch 2 활로와 단수

돌이 살아 있다는 것

Ch 3 따냄과 자살수

돌이 잡히는 순간

Ch 4 패 규칙

같은 모양 반복 금지

Ch 5 집과 승부 판정

누가 더 많은 영역을 차지했나

Ch 6 Board 클래스 만들기

파이썬으로 5x5 바둑판 구현

Ch 7 5x5는 풀렸다

완전분석 결과: 흑이 25집 이긴다

PART 2 PART 2 · 게임을 푸는 첫 방법: 탐색

컴퓨터가 수를 읽는다는 것

Ch 1 게임 트리란

Ch 2 Minimax

Ch 3 알파-베타 가지치기

Ch 4 탐색 공간 폭발: 10^170

Ch 5 틱택토 minimax 직접 구현

Ch 6 7x7 바둑에 minimax 시도, 실패 체험

PART 3 PART 3 · 무작위의 힘: MCTS

알파고의 첫 핵심 엔진

Ch 1 몬테카를로 시뮬레이션 (rollout)

Ch 2 UCB1 — 탐험 vs 활용

Ch 3 MCTS 4단계

Ch 4 순수 MCTS로 7x7 바둑

Ch 5 무작위 시뮬레이션의 한계

PART 4 PART 4 · 신경망 등장: 직관을 학습한다

policy/value network 개념

Ch 1 퍼셉트론에서 MLP까지

Ch 2 CNN: 바둑판은 이미지다

Ch 3 Policy Network

Ch 4 Value Network

Ch 5 작은 CNN 만들기 (7x7)

Ch 6 기보로 policy net 지도학습

PART 5 PART 5 · AlphaGo (2016)

이세돌을 이긴 그것

Ch 1 SL Policy Network

Ch 2 RL Policy Network

Ch 3 Value Network

Ch 4 MCTS + 신경망 = PUCT

Ch 5 이세돌 4국 신의 한 수

Ch 6 7x7 미니 알파고 구현

PART 6 PART 6 · AlphaGo Zero (2017)

인간 기보 없이

Ch 1 백지에서 시작 (tabula rasa)

Ch 2 policy + value 합치기

Ch 3 self-play 루프

Ch 4 7x7 학습 파이프라인

Ch 5 학습 곡선 실험

PART 7 PART 7 · AlphaZero (2017)

바둑을 넘어