코드: 자리별 승률 측정 (Pure Monte Carlo)

드디어 의미 있는 결과 — 가운데 (1,1)이 70.7% 승률로 최고. 다른 모든 자리는 52~62%. 정확히 사람의 직관과 일치.

🎯 핵심 관찰

가운데 (1,1) - 70.7% (가장 강한 수)
코너들 (0,0), (0,2), (2,0), (2,2) - 60~62% (그 다음 강함)
변들 (0,1), (1,0), (1,2), (2,1) - 52~56% (가장 약함)

이 순서가 틱택토 이론과 정확히 일치. 평가 함수 0개, 게임 규칙만 알고도, 무작위 시뮬레이션으로 좋은 수를 찾았다.

💡 알고리즘의 마법

우리는 "가운데가 좋다"를 어디에도 안 가르쳤어. 그저 게임 규칙(이기는 조건)과 무작위 추출만 사용. 그런데 정답이 통계적으로 나옴.

이게 Monte Carlo의 본질 — "공짜로 얻는 평가 함수". 게임 규칙만 있으면 어떤 게임에도 적용 가능.

그런데 — 이게 그렇게 좋은 거면 왜 PART 4에서 신경망 같은 더 복잡한 걸 추가하지? Pure Monte Carlo만 쓰면 되지 않나? 다음 페이지에서 한계를 본다.

PYTHON

# 이제 진짜로: 9자리 각각에 첫 수를 둔 후 1000번 rollout 평균.
# 이게 "Pure Monte Carlo" 알고리즘 — 가장 단순한 무작위 방법.

import random

EMPTY, X, O = ' ', 'X', 'O'

class TicTacToe:
    LINES = [(0,1,2),(3,4,5),(6,7,8),(0,3,6),(1,4,7),(2,5,8),(0,4,8),(2,4,6)]
    def __init__(self, board=None, turn=None):
        self.board = board if board is not None else [EMPTY]*9
        self.turn = turn or X
    def possible_moves(self):
        return [i for i in range(9) if self.board[i] == EMPTY]
    def play(self, pos):
        nb = self.board[:]; nb[pos] = self.turn
        return TicTacToe(nb, O if self.turn == X else X)
    def winner(self):
        for a, b, c in self.LINES:
            if self.board[a] != EMPTY and self.board[a] == self.board[b] == self.board[c]:
                return self.board[a]
        if EMPTY not in self.board: return 'draw'
        return None

def rollout(game):
    while game.winner() is None:
        game = game.play(random.choice(game.possible_moves()))
    return game.winner()


# === Pure Monte Carlo: 각 첫 수에 대한 승률 측정 ===
N_ROLLOUTS = 1000
random.seed(42)

print(f"=== 첫 수별 X 승률 (rollout {N_ROLLOUTS}회씩) ===\n")
print(f"  {'자리':<10} {'X 승':>6} {'O 승':>6} {'무승부':>6} {'X 승률':>10}")
print("  " + "-" * 46)

results = []
for pos in range(9):
    game = TicTacToe().play(pos)   # X가 pos에 둠
    x_wins = o_wins = draws = 0
    for _ in range(N_ROLLOUTS):
        winner = rollout(game)
        if winner == X: x_wins += 1
        elif winner == O: o_wins += 1
        else: draws += 1
    win_rate = x_wins / N_ROLLOUTS
    results.append((pos, win_rate))
    r, c = pos // 3, pos % 3
    print(f"  ({r},{c})      {x_wins:>6} {o_wins:>6} {draws:>6} {win_rate:>9.1%}")

print()
print("=== 최선의 첫 수 (Pure Monte Carlo) ===")
best = max(results, key=lambda x: x[1])
print(f"자리 ({best[0]//3},{best[0]%3}) - X 승률 {best[1]:.1%}")

출력

기대 출력:

=== 첫 수별 X 승률 (rollout 1000회씩) ===

  자리            X 승    O 승    무승부       X 승률
  ----------------------------------------------
  (0,0)         599    275    126     59.9%
  (0,1)         539    347    114     53.9%
  (0,2)         622    245    133     62.2%
  (1,0)         556    315    129     55.6%
  (1,1)         707    184    109     70.7%
  (1,2)         522    358    120     52.2%
  (2,0)         611    244    145     61.1%
  (2,1)         540    329    131     54.0%
  (2,2)         621    261    118     62.1%

=== 최선의 첫 수 (Pure Monte Carlo) ===
자리 (1,1) - X 승률 70.7%

← 이전 코드: 무작위 게임 1번 + 승자 판정 다음 → Pure Monte Carlo의 한계