시즌 2 · 알파폴드편 / PART 8 · PART 8 · MuZero (2019) / Ch 5 · Atari + 바둑 + 체스 = 같은 알고리즘

환경별로 미세하게 조정한 부분들

"같은 알고리즘"이라고 하지만 환경별로 조정한 작은 노브들이 있다. 정직하게 짚자.

📖 1. 신경망 구조 — 입력층만 다름
  • 보드 게임: 첫 컨볼루션이 19×19 보드를 받음 (또는 8×8, 9×9)
  • 아타리: 첫 컨볼루션이 96×96 픽셀 × 4프레임을 받음
  • 그 이후 ResNet 블록 구조는 모두 동일 (h, g, f 각각 비슷한 깊이)
📖 2. 시뮬레이션 깊이
  • 보드 게임: 800회 시뮬레이션 — 한 수에 시간을 많이 쏟음
  • 아타리: 50회 시뮬레이션 — 실시간 결정이 필요해서 적게
  • 둘 다 "MCTS는 그대로", 단지 시뮬레이션 횟수 파라미터만 다름
📖 3. 할인율 (γ)
  • 보드 게임: γ = 1.0 — 미래 보상도 같은 비중
  • 아타리: γ = 0.997 — 먼 미래는 조금 덜 중요
  • 강화학습 표준 — 환경에 맞게 보통 조정함
📖 4. Reanalyze 사용
  • MuZero는 "reanalyze"라는 기법을 추가로 씀 — 옛 self-play 게임을 최신 신경망으로 다시 분석해서 학습 신호 갱신
  • 아타리에서 특히 효과적 — 데이터가 비싸기 때문에 같은 데이터를 더 잘 활용해야 함
  • 보드 게임에서는 self-play 비용이 상대적으로 더 작아서 reanalyze 비중이 낮음
💡 정리 — 무엇이 "같은가"

변하는 노브들:

  • 입력층, 행동 수, 시뮬레이션 횟수, γ, reanalyze 빈도, two-player 플래그

변하지 않는 본체:

  • h, g, f 세 신경망의 역할과 인터페이스
  • MCTS 4단계 (Select, Expand, Evaluate, Backup)
  • self-play + MCTS 방문 분포 학습
  • 잠재 공간 위에서 계산한다는 핵심 가정

이 본체가 유지되면 "같은 알고리즘". MuZero는 그 본체가 진짜로 도메인을 가리지 않는다는 걸 보여줬다.