게임을 넘어 — 어떤 문제로 갈 수 있나

위 다섯 성질이 게임 밖에서도 충족되는 문제가 있을까?

📖 후보 도메인들과 점검

각 후보에 대해 다섯 성질을 점검해보면:

🚗 자율주행

상태: 카메라/라이다/속도 — 정의는 되지만 매우 고차원
행동: 조향각, 가속/제동 — 정의됨
보상: ⚠ 정의 어려움 — "안전"과 "효율"과 "승차감"의 균형
시뮬레이션: 가능하지만 sim-to-real gap 큼
검증: ⚠ 어려움 — 실제 도로 사고는 비싸고 위험

→ 어렵다. 보상 정의와 검증이 약한 고리.

🤖 로봇 조작

상태: 관절 각도, 카메라 — 명확
행동: 토크/모터 명령 — 명확
보상: ⚠ 일부만 — 단순 task(집기)는 OK, 복잡한 task는 모호
시뮬레이션: 가능하지만 물리 정확도 한계
검증: 가능 (실제 task 성공률)

→ 게임만큼은 아니지만 일부 task는 가능.

💬 자연어 생성

상태: 텍스트 컨텍스트 — 명확
행동: 다음 토큰 선택 — 명확
보상: ⚠ 매우 어려움 — "좋은 문장"의 객관적 정의가 없음
시뮬레이션: 자기 학습 가능
검증: ⚠ 어려움 — 인간 평가 외엔 객관 측정 어려움

→ 보상이 약한 고리. RLHF 같은 별도 접근 필요.

🧬 단백질 구조 예측

상태: 아미노산 서열 — 매우 명확 (글자 열)
행동: 모든 원자의 3D 좌표 — 명확
보상: ✓ 매우 명확 — 실제 구조와의 거리 (RMSD, GDT-TS 등)
시뮬레이션: ✓ 가능 — 실제 구조 데이터(PDB) 18만 개 있음
검증: ✓ 가능 — CASP라는 객관적 대회로 측정

→ 게임만큼이나 명확! 다섯 성질을 모두 깔끔하게 만족한다.

💡 단백질 구조 예측이 특별한 이유

비록 도메인은 다르지만, "잘 정의된 문제"라는 성질에서 게임과 매우 비슷하다.

"이 서열의 진짜 3D 구조" — 명확한 정답이 존재 (실험으로 결정 가능)
"이 예측이 얼마나 좋은가" — RMSD/GDT-TS로 0~100 점수화 가능
"이 알고리즘이 다른 알고리즘보다 강한가" — CASP에서 누가 더 좋은지 측정 가능

이게 DeepMind 팀이 단백질을 선택한 가장 큰 이유 중 하나다 — 다음 섹션에서 더 본다.

← 이전 게임이라는 도메인이 가졌던 다섯 가지 좋은 성질 다음 → 그중 단백질을 고른 이유