RL Policy의 한계 — Value가 필요한 이유

RL Policy도 한계가 있어. Value Network가 필요한 이유:

⚠️ 한계 1: 노이즈 — Credit Assignment

한 게임 250수 모두에 같은 라벨 (+1 또는 -1). 그런데:

이런 노이즈가 많아서 RL 학습이 SL보다 훨씬 느림. 100만 게임 필요.

⚠️ 한계 2: 단독으로는 MCTS만큼 강하지 못함

RL Policy 단독 ELO 2,200 — 강하지만 사람 프로(3,500)에는 한참 모자람.

왜? — RL Policy는 한 수씩만 결정. "현재 보드 → 다음 수" 단발성. "여러 수에 걸친 계산"은 못함.

MCTS는 여러 수 시뮬레이션 → 깊이 본 결정. 두 가지가 합쳐져야 강함.

🎯 해결책 — Value Network

Value Network = "이 보드 상태에서의 승률 예측".

이러면:

💡 Policy + Value의 분업

알파고는 두 가지를 분리:

이게 사람 바둑 두는 방식과 비슷 — "후보 수를 떠올리고 → 각 수의 결과를 상상해서 평가". 알파고도 그렇게 분업.

다음 챕터에서 Value Network 학습.