그중 단백질을 고른 이유

"잘 정의된 문제"라는 것 외에도, 단백질이 특별한 이유가 있다.

📖 이유 1 — 큰 사회적 영향

단백질 구조 예측 문제는 사회적으로 거대한 영향이 있다.

"풀면 인류에 도움 되는 문제"라는 점이 중요한 동기.

📖 이유 2 — 풍부한 데이터

학습에 필요한 데이터가 이미 50년 동안 모여 있었다. 알파고 시리즈가 가상의 자가 대국으로 데이터를 만든 것과 달리, 단백질은 "실제 데이터"가 풍부.

📖 이유 3 — 객관적 평가 시스템(CASP)

CASP (Critical Assessment of Structure Prediction): 1994년부터 2년마다 열리는 단백질 구조 예측 대회
대회 형식: "아직 공개되지 않은 새 단백질 서열"이 제시됨 → 참가자들이 구조 예측 → 곧 발표되는 실제 구조로 채점
속임수 불가능한 객관적 평가
알파고의 "이세돌과 직접 대국"에 해당하는 검증 무대

📖 이유 4 — 50년간 풀리지 않은 골치

단백질 구조 예측은 1962년 Anfinsen이 "서열이 구조를 결정한다"는 사실을 증명한 이래 60년 가까이 미해결.

오래된 골치라는 점이 매력적이다 — 풀면 큰 임팩트, 안 풀어도 그 동안 못 푼 게 자신만은 아니라는 안전망.

💡 정리 — 네 이유의 결합

큰 영향 + 풍부한 데이터 + 객관 평가 + 오래된 골치 — 이 네 가지가 결합되니 AI 연구자에게 정말 매력적인 문제가 됐다.

거기에 더해, 게임과 마찬가지로 "잘 정의된 문제"라는 성질까지. 도전할 만한 가치가 충분.