환경별로 미세하게 조정한 부분들

"같은 알고리즘"이라고 하지만 환경별로 조정한 작은 노브들이 있다. 정직하게 짚자.

📖 1. 신경망 구조 — 입력층만 다름

보드 게임: 첫 컨볼루션이 19×19 보드를 받음 (또는 8×8, 9×9)
아타리: 첫 컨볼루션이 96×96 픽셀 × 4프레임을 받음
그 이후 ResNet 블록 구조는 모두 동일 (h, g, f 각각 비슷한 깊이)

📖 2. 시뮬레이션 깊이

보드 게임: 800회 시뮬레이션 — 한 수에 시간을 많이 쏟음
아타리: 50회 시뮬레이션 — 실시간 결정이 필요해서 적게
둘 다 "MCTS는 그대로", 단지 시뮬레이션 횟수 파라미터만 다름

📖 3. 할인율 (γ)

보드 게임: γ = 1.0 — 미래 보상도 같은 비중
아타리: γ = 0.997 — 먼 미래는 조금 덜 중요
강화학습 표준 — 환경에 맞게 보통 조정함

📖 4. Reanalyze 사용

MuZero는 "reanalyze"라는 기법을 추가로 씀 — 옛 self-play 게임을 최신 신경망으로 다시 분석해서 학습 신호 갱신
아타리에서 특히 효과적 — 데이터가 비싸기 때문에 같은 데이터를 더 잘 활용해야 함
보드 게임에서는 self-play 비용이 상대적으로 더 작아서 reanalyze 비중이 낮음

💡 정리 — 무엇이 "같은가"

변하는 노브들:

입력층, 행동 수, 시뮬레이션 횟수, γ, reanalyze 빈도, two-player 플래그

변하지 않는 본체:

h, g, f 세 신경망의 역할과 인터페이스
MCTS 4단계 (Select, Expand, Evaluate, Backup)
self-play + MCTS 방문 분포 학습
잠재 공간 위에서 계산한다는 핵심 가정

이 본체가 유지되면 "같은 알고리즘". MuZero는 그 본체가 진짜로 도메인을 가리지 않는다는 걸 보여줬다.

← 이전 학습 규모 — 얼마나 큰 데이터, 얼마나 긴 연산 다음 → 같은 MCTS 코드로 두 환경 처리하기