RL Policy의 한계 — Value가 필요한 이유
RL Policy도 한계가 있어. Value Network가 필요한 이유:
⚠️ 한계 1: 노이즈 — Credit Assignment
한 게임 250수 모두에 같은 라벨 (+1 또는 -1). 그런데:
- 50수까지 좋았던 수 + 200수째 결정적 실수 → 게임 짐 → 50수까지의 수도 -1로 학습
- 50수까지 안 좋았던 수 + 200수째 행운의 수 → 게임 이김 → 안 좋은 수도 +1로 학습
이런 노이즈가 많아서 RL 학습이 SL보다 훨씬 느림. 100만 게임 필요.
⚠️ 한계 2: 단독으로는 MCTS만큼 강하지 못함
RL Policy 단독 ELO 2,200 — 강하지만 사람 프로(3,500)에는 한참 모자람.
왜? — RL Policy는 한 수씩만 결정. "현재 보드 → 다음 수" 단발성. "여러 수에 걸친 계산"은 못함.
MCTS는 여러 수 시뮬레이션 → 깊이 본 결정. 두 가지가 합쳐져야 강함.
🎯 해결책 — Value Network
Value Network = "이 보드 상태에서의 승률 예측".
- 학습 데이터: RL Policy 자가 대국 결과
- 입력: 보드 상태
- 출력: 그 상태에서의 예상 승률
이러면:
- MCTS의 Simulate를 Value Network로 대체 가능 (다음 챕터)
- Policy Gradient의 baseline으로 사용 가능 (노이즈 ↓)
- "여러 수 계산"이 가능해짐
💡 Policy + Value의 분업
알파고는 두 가지를 분리:
- Policy: "어디 둘까" — 후보 자리 제시
- Value: "이 상태 누가 좋은가" — 평가
이게 사람 바둑 두는 방식과 비슷 — "후보 수를 떠올리고 → 각 수의 결과를 상상해서 평가". 알파고도 그렇게 분업.
다음 챕터에서 Value Network 학습.