시즌 1 · 알파고편 / PART 5 · PART 5 · AlphaGo (2016) / Ch 2 · RL Policy Network

RL Policy의 한계 — Value가 필요한 이유

RL Policy도 한계가 있어. Value Network가 필요한 이유:

⚠️ 한계 1: 노이즈 — Credit Assignment

한 게임 250수 모두에 같은 라벨 (+1 또는 -1). 그런데:

  • 50수까지 좋았던 수 + 200수째 결정적 실수 → 게임 짐 → 50수까지의 수도 -1로 학습
  • 50수까지 안 좋았던 수 + 200수째 행운의 수 → 게임 이김 → 안 좋은 수도 +1로 학습

이런 노이즈가 많아서 RL 학습이 SL보다 훨씬 느림. 100만 게임 필요.

⚠️ 한계 2: 단독으로는 MCTS만큼 강하지 못함

RL Policy 단독 ELO 2,200 — 강하지만 사람 프로(3,500)에는 한참 모자람.

왜? — RL Policy는 한 수씩만 결정. "현재 보드 → 다음 수" 단발성. "여러 수에 걸친 계산"은 못함.

MCTS는 여러 수 시뮬레이션 → 깊이 본 결정. 두 가지가 합쳐져야 강함.

🎯 해결책 — Value Network

Value Network = "이 보드 상태에서의 승률 예측".

  • 학습 데이터: RL Policy 자가 대국 결과
  • 입력: 보드 상태
  • 출력: 그 상태에서의 예상 승률

이러면:

  1. MCTS의 Simulate를 Value Network로 대체 가능 (다음 챕터)
  2. Policy Gradient의 baseline으로 사용 가능 (노이즈 ↓)
  3. "여러 수 계산"이 가능해짐
💡 Policy + Value의 분업

알파고는 두 가지를 분리:

  • Policy: "어디 둘까" — 후보 자리 제시
  • Value: "이 상태 누가 좋은가" — 평가

이게 사람 바둑 두는 방식과 비슷 — "후보 수를 떠올리고 → 각 수의 결과를 상상해서 평가". 알파고도 그렇게 분업.

다음 챕터에서 Value Network 학습.