시즌 2 · 알파폴드편/PART 8 · PART 8 · MuZero (2019)/Ch 4 · 잠재 공간에서의 MCTS
확인 퀴즈
MuZero의 MCTS 한 번 시뮬레이션에서 신경망 g와 f는 각각 어떤 단계에서 호출되는가?
해설
Select 단계는 이미 만들어진 트리만 사용하므로 신경망 호출이 없다. 새 리프에 도착하면 g(parent.state, a)로 다음 잠재 상태와 보상을 얻고(Expand), 곧이어 f(s_next)로 정책과 가치를 얻는다(Evaluate). 정책은 자식들의 prior로, 가치는 Backup의 시작값으로 쓰인다. Backup 자체는 트리 갱신만 하고 신경망 호출은 없다. 따라서 한 시뮬레이션당 g 1번 + f 1번이 표준 비용.