미니 MCTS를 직접 실행
이론은 충분하니 직접 돌려보자.
🎯 코드가 구현하는 것
- Ch 3에서 본 h, g, f 세 신경망 (랜덤 가중치 — 학습은 안 했지만 인터페이스는 정확)
- Node 클래스 — 트리의 노드
- PUCT 기반 Select
- Expand + Evaluate (g, f 한 번씩 호출)
- Backup (보상 누적 + 할인)
- 30번 시뮬레이션 후 결과 출력
코드 길이가 좀 있지만 위에서 본 모든 개념이 그대로 코드로 옮겨졌을 뿐이다.
PYTHON