그중 단백질을 고른 이유
"잘 정의된 문제"라는 것 외에도, 단백질이 특별한 이유가 있다.
📖 이유 1 — 큰 사회적 영향
단백질 구조 예측 문제는 사회적으로 거대한 영향이 있다.
- 신약 개발: 약은 대부분 단백질(또는 단백질의 일부)에 작용. 구조를 알면 약 설계가 훨씬 빠름.
- 질병 이해: 거의 모든 질병이 단백질 기능 이상과 연관 — 알츠하이머의 아밀로이드, 코로나의 스파이크 단백질 등
- 생명과학 자체: 생물학의 "기본 어휘"가 단백질. 구조를 알면 모든 분야가 진전
"풀면 인류에 도움 되는 문제"라는 점이 중요한 동기.
📖 이유 2 — 풍부한 데이터
- PDB (Protein Data Bank): 1971년부터 축적된 실험 구조 데이터, 약 20만 개 단백질 구조
- 서열 데이터베이스: UniProt 등에 수억 개의 단백질 서열
- 진화 정렬 데이터: 다양한 종의 동일/유사 단백질 비교 데이터 (MSA)
학습에 필요한 데이터가 이미 50년 동안 모여 있었다. 알파고 시리즈가 가상의 자가 대국으로 데이터를 만든 것과 달리, 단백질은 "실제 데이터"가 풍부.
📖 이유 3 — 객관적 평가 시스템(CASP)
- CASP (Critical Assessment of Structure Prediction): 1994년부터 2년마다 열리는 단백질 구조 예측 대회
- 대회 형식: "아직 공개되지 않은 새 단백질 서열"이 제시됨 → 참가자들이 구조 예측 → 곧 발표되는 실제 구조로 채점
- 속임수 불가능한 객관적 평가
- 알파고의 "이세돌과 직접 대국"에 해당하는 검증 무대
📖 이유 4 — 50년간 풀리지 않은 골치
단백질 구조 예측은 1962년 Anfinsen이 "서열이 구조를 결정한다"는 사실을 증명한 이래 60년 가까이 미해결.
- 다양한 방법이 시도됨 — molecular dynamics, homology modeling, threading 등
- 매번 부분 성공만 — 어떤 단백질은 잘 되지만 새 종류는 어려움
- 2018년경 한 천천히 발전하는 분야 — 매년 CASP 점수가 살짝씩만 올라감
오래된 골치라는 점이 매력적이다 — 풀면 큰 임팩트, 안 풀어도 그 동안 못 푼 게 자신만은 아니라는 안전망.
💡 정리 — 네 이유의 결합
큰 영향 + 풍부한 데이터 + 객관 평가 + 오래된 골치 — 이 네 가지가 결합되니 AI 연구자에게 정말 매력적인 문제가 됐다.
거기에 더해, 게임과 마찬가지로 "잘 정의된 문제"라는 성질까지. 도전할 만한 가치가 충분.