게임을 넘어 — 어떤 문제로 갈 수 있나
위 다섯 성질이 게임 밖에서도 충족되는 문제가 있을까?
📖 후보 도메인들과 점검
각 후보에 대해 다섯 성질을 점검해보면:
🚗 자율주행
- 상태: 카메라/라이다/속도 — 정의는 되지만 매우 고차원
- 행동: 조향각, 가속/제동 — 정의됨
- 보상: ⚠ 정의 어려움 — "안전"과 "효율"과 "승차감"의 균형
- 시뮬레이션: 가능하지만 sim-to-real gap 큼
- 검증: ⚠ 어려움 — 실제 도로 사고는 비싸고 위험
→ 어렵다. 보상 정의와 검증이 약한 고리.
🤖 로봇 조작
- 상태: 관절 각도, 카메라 — 명확
- 행동: 토크/모터 명령 — 명확
- 보상: ⚠ 일부만 — 단순 task(집기)는 OK, 복잡한 task는 모호
- 시뮬레이션: 가능하지만 물리 정확도 한계
- 검증: 가능 (실제 task 성공률)
→ 게임만큼은 아니지만 일부 task는 가능.
💬 자연어 생성
- 상태: 텍스트 컨텍스트 — 명확
- 행동: 다음 토큰 선택 — 명확
- 보상: ⚠ 매우 어려움 — "좋은 문장"의 객관적 정의가 없음
- 시뮬레이션: 자기 학습 가능
- 검증: ⚠ 어려움 — 인간 평가 외엔 객관 측정 어려움
→ 보상이 약한 고리. RLHF 같은 별도 접근 필요.
🧬 단백질 구조 예측
- 상태: 아미노산 서열 — 매우 명확 (글자 열)
- 행동: 모든 원자의 3D 좌표 — 명확
- 보상: ✓ 매우 명확 — 실제 구조와의 거리 (RMSD, GDT-TS 등)
- 시뮬레이션: ✓ 가능 — 실제 구조 데이터(PDB) 18만 개 있음
- 검증: ✓ 가능 — CASP라는 객관적 대회로 측정
→ 게임만큼이나 명확! 다섯 성질을 모두 깔끔하게 만족한다.
💡 단백질 구조 예측이 특별한 이유
비록 도메인은 다르지만, "잘 정의된 문제"라는 성질에서 게임과 매우 비슷하다.
- "이 서열의 진짜 3D 구조" — 명확한 정답이 존재 (실험으로 결정 가능)
- "이 예측이 얼마나 좋은가" — RMSD/GDT-TS로 0~100 점수화 가능
- "이 알고리즘이 다른 알고리즘보다 강한가" — CASP에서 누가 더 좋은지 측정 가능
이게 DeepMind 팀이 단백질을 선택한 가장 큰 이유 중 하나다 — 다음 섹션에서 더 본다.