시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 5 · Atari + 바둑 + 체스 = 같은 알고리즘

같은 MCTS 코드로 두 환경 처리하기

"같은 알고리즘"이라는 주장을 코드로 보자. 동일한 mcts() 함수가 행동 수도 다르고 보상 구조도 다른 두 환경을 처리한다.

🎯 코드가 보여주는 것
  • 한 도메인 명세({'name', 'n_actions', 'gamma'})만 바꾸면 같은 코드가 작동
  • Chess-like: 행동 20개, γ=1.0 (할인 없음, 보드 게임 스타일)
  • Atari-like: 행동 4개, γ=0.99 (할인 있음, 픽셀 게임 스타일)
  • 가중치는 랜덤이라 결과 자체에 의미는 없지만, 동일한 알고리즘이 두 다른 명세에 작동한다는 게 핵심
PYTHON