행동 공간 — 4672 vs 18

도메인별 차이 중 가장 눈에 띄는 한 가지 — 행동 공간 크기.

📖 환경별 행동 수

크기 비율로 약 600배 차이. 같은 알고리즘으로 다루기엔 큰 격차로 보인다.

🎯 어떻게 같은 알고리즘으로 다루나

핵심은 "행동의 갯수가 알고리즘 골격에 영향을 주지 않는다"는 점이다.

💡 행동 수가 많을 때의 트릭

체스/쇼기처럼 행동 수가 수천 개일 때 모든 자식을 평가하면 비효율적. 그래서:

아타리에서는 18가지 행동이 모두 항상 가능하니 마스킹 불필요.

📖 정리

행동 공간 크기는 알고리즘이 아니라 환경의 명세다. 코드 한 줄(N_ACTIONS = ...)만 바꾸면 처리된다.

이게 "같은 알고리즘"이라는 표현의 핵심 — 변하는 것은 명세, 변하지 않는 것은 처리 절차.