AlphaZero 한 페이지 복습

한 페이지로 다시 그려보자.

📖 AlphaZero 핵심 흐름

현재 상태 s를 신경망 f(s)에 입력
신경망이 정책 p(어디에 둘까)와 가치 v(누가 이길까) 두 가지를 출력
이 출력을 MCTS의 가이드로 써서 트리를 키움 (PUCT)
충분히 시뮬레이션한 뒤, 방문 횟수가 많은 수를 선택

⚠ 주목할 단계 — Expand

MCTS의 네 단계 중 Expand는 "이 수를 두면 다음 상태가 어떻게 되나"를 계산해서 자식 노드를 만든다.

이 한 줄이 시즌 2 전체를 결정한다. 다음 섹션에서 자세히 본다.

← 이전 시즌 2 시작 — 규칙이 사라진 세계 다음 → 시뮬레이션은 규칙을 요구한다