AlphaZero 한 페이지 복습
한 페이지로 다시 그려보자.
📖 AlphaZero 핵심 흐름
- 현재 상태
s를 신경망f(s)에 입력 - 신경망이 정책 p(어디에 둘까)와 가치 v(누가 이길까) 두 가지를 출력
- 이 출력을 MCTS의 가이드로 써서 트리를 키움 (PUCT)
- 충분히 시뮬레이션한 뒤, 방문 횟수가 많은 수를 선택
⚠ 주목할 단계 — Expand
MCTS의 네 단계 중 Expand는 "이 수를 두면 다음 상태가 어떻게 되나"를 계산해서 자식 노드를 만든다.
이 한 줄이 시즌 2 전체를 결정한다. 다음 섹션에서 자세히 본다.