← 전체 시즌
SEASON 1

시즌 1 · 알파고편

바둑 한 수에서 자가학습까지

몬테카를로 탐색, 신경망, 강화학습. 알파고의 핵심 엔진을 7x7 바둑판으로 직접 만든다.

처음부터 시작 →

PART 1 PART 1 · 바둑이라는 우주

5x5 보드로 시작하는 바둑

PART 2 PART 2 · 게임을 푸는 첫 방법: 탐색

컴퓨터가 수를 읽는다는 것

PART 3 PART 3 · 무작위의 힘: MCTS

알파고의 첫 핵심 엔진

Ch 1 몬테카를로 시뮬레이션 (rollout)

  • 콘텐츠 준비 중

Ch 2 UCB1 — 탐험 vs 활용

  • 콘텐츠 준비 중

Ch 3 MCTS 4단계

  • 콘텐츠 준비 중

Ch 4 순수 MCTS로 7x7 바둑

  • 콘텐츠 준비 중

Ch 5 무작위 시뮬레이션의 한계

  • 콘텐츠 준비 중

PART 4 PART 4 · 신경망 등장: 직관을 학습한다

policy/value network 개념

Ch 1 퍼셉트론에서 MLP까지

  • 콘텐츠 준비 중

Ch 2 CNN: 바둑판은 이미지다

  • 콘텐츠 준비 중

Ch 3 Policy Network

  • 콘텐츠 준비 중

Ch 4 Value Network

  • 콘텐츠 준비 중

Ch 5 작은 CNN 만들기 (7x7)

  • 콘텐츠 준비 중

Ch 6 기보로 policy net 지도학습

  • 콘텐츠 준비 중

PART 5 PART 5 · AlphaGo (2016)

이세돌을 이긴 그것

Ch 1 SL Policy Network

  • 콘텐츠 준비 중

Ch 2 RL Policy Network

  • 콘텐츠 준비 중

Ch 3 Value Network

  • 콘텐츠 준비 중

Ch 4 MCTS + 신경망 = PUCT

  • 콘텐츠 준비 중

Ch 5 이세돌 4국 신의 한 수

  • 콘텐츠 준비 중

Ch 6 7x7 미니 알파고 구현

  • 콘텐츠 준비 중

PART 6 PART 6 · AlphaGo Zero (2017)

인간 기보 없이

Ch 1 백지에서 시작 (tabula rasa)

  • 콘텐츠 준비 중

Ch 2 policy + value 합치기

  • 콘텐츠 준비 중

Ch 3 self-play 루프

  • 콘텐츠 준비 중

Ch 4 7x7 학습 파이프라인

  • 콘텐츠 준비 중

Ch 5 학습 곡선 실험

  • 콘텐츠 준비 중

PART 7 PART 7 · AlphaZero (2017)

바둑을 넘어

Ch 1 같은 코드로 여러 게임

  • 콘텐츠 준비 중

Ch 2 도메인 지식 제거

  • 콘텐츠 준비 중

Ch 3 틱택토/커넥트포 학습

  • 콘텐츠 준비 중

Ch 4 일반화의 의미

  • 콘텐츠 준비 중