시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 1 · AlphaZero의 한계 — 규칙이 있어야 한다

AlphaZero 한 페이지 복습

한 페이지로 다시 그려보자.

📖 AlphaZero 핵심 흐름
  1. 현재 상태 s를 신경망 f(s)에 입력
  2. 신경망이 정책 p(어디에 둘까)가치 v(누가 이길까) 두 가지를 출력
  3. 이 출력을 MCTS의 가이드로 써서 트리를 키움 (PUCT)
  4. 충분히 시뮬레이션한 뒤, 방문 횟수가 많은 수를 선택
상태 s (현재 바둑판) 신경망 f(s) 정책 p 가치 v MCTS Select ⚠ Expand Evaluate Backup → 둘 수 선택 ⚠ 여기서 "다음 상태"가 필요하다
⚠ 주목할 단계 — Expand

MCTS의 네 단계 중 Expand는 "이 수를 두면 다음 상태가 어떻게 되나"를 계산해서 자식 노드를 만든다.

이 한 줄이 시즌 2 전체를 결정한다. 다음 섹션에서 자세히 본다.