환경별로 미세하게 조정한 부분들
"같은 알고리즘"이라고 하지만 환경별로 조정한 작은 노브들이 있다. 정직하게 짚자.
📖 1. 신경망 구조 — 입력층만 다름
- 보드 게임: 첫 컨볼루션이 19×19 보드를 받음 (또는 8×8, 9×9)
- 아타리: 첫 컨볼루션이 96×96 픽셀 × 4프레임을 받음
- 그 이후 ResNet 블록 구조는 모두 동일 (h, g, f 각각 비슷한 깊이)
📖 2. 시뮬레이션 깊이
- 보드 게임: 800회 시뮬레이션 — 한 수에 시간을 많이 쏟음
- 아타리: 50회 시뮬레이션 — 실시간 결정이 필요해서 적게
- 둘 다 "MCTS는 그대로", 단지 시뮬레이션 횟수 파라미터만 다름
📖 3. 할인율 (γ)
- 보드 게임: γ = 1.0 — 미래 보상도 같은 비중
- 아타리: γ = 0.997 — 먼 미래는 조금 덜 중요
- 강화학습 표준 — 환경에 맞게 보통 조정함
📖 4. Reanalyze 사용
- MuZero는 "reanalyze"라는 기법을 추가로 씀 — 옛 self-play 게임을 최신 신경망으로 다시 분석해서 학습 신호 갱신
- 아타리에서 특히 효과적 — 데이터가 비싸기 때문에 같은 데이터를 더 잘 활용해야 함
- 보드 게임에서는 self-play 비용이 상대적으로 더 작아서 reanalyze 비중이 낮음
💡 정리 — 무엇이 "같은가"
변하는 노브들:
- 입력층, 행동 수, 시뮬레이션 횟수, γ, reanalyze 빈도, two-player 플래그
변하지 않는 본체:
- h, g, f 세 신경망의 역할과 인터페이스
- MCTS 4단계 (Select, Expand, Evaluate, Backup)
- self-play + MCTS 방문 분포 학습
- 잠재 공간 위에서 계산한다는 핵심 가정
이 본체가 유지되면 "같은 알고리즘". MuZero는 그 본체가 진짜로 도메인을 가리지 않는다는 걸 보여줬다.