시즌 2 · 알파폴드편 / PART 9 · PART 9 · 다리: 게임에서 과학으로 / Ch 4 · 50년의 미해결 문제 — Anfinsen에서 CASP까지

1994년 — CASP의 시작

여러 방법이 등장했는데 — "누가 더 잘하나"를 객관적으로 비교하는 게 문제였다.

📖 객관 비교의 어려움

1990년대 초까지 연구자들이 자신의 방법으로 단백질 구조를 예측 발표했는데:

  • 예측 발표 → 며칠~몇 주 뒤 실제 구조 결정 → "내 예측이 맞았다" 주장
  • 그런데 진짜 깨끗한 비교가 아니었다 — 일부는 실제 구조를 미리 보고 예측을 조정
  • "논문에 발표된 정확도"가 실제보다 높다는 의심이 만연

이 문제를 풀기 위해 "속임수 불가능한 평가 시스템"이 필요했다.

🎯 CASP의 등장 (1994)

CASP — Critical Assessment of protein Structure Prediction.

창립자: John Moult (생물물리학자). 1994년 첫 대회 개최.

핵심 아이디어: 아직 구조가 공개되지 않은 단백질의 서열을 참가자에게 미리 공개하고 예측을 받음. 곧 발표될 실제 구조로 채점.

📖 CASP의 진행 방식
  1. 봄 ~ 여름: 실험으로 구조가 곧 결정될 단백질 약 100개의 서열을 참가자에게 공개
  2. 여름 ~ 가을: 참가자들이 자기 방법으로 예측 (마감 전까지 실제 구조 공개 안 됨)
  3. 가을: 실제 구조가 PDB에 공개됨
  4. 겨울: 독립 평가자들이 예측 vs 실제 비교, 점수 매김
  5. 다음 해 봄: 결과 발표 + 학회 + 논문 출간

2년 주기로 반복.

📖 평가 지표 — GDT-TS

가장 자주 쓰이는 점수: GDT-TS (Global Distance Test - Total Score).

  • 예측 구조와 실제 구조를 정렬
  • 예측 원자가 실제와 얼마나 가까운지 측정 (1Å, 2Å, 4Å, 8Å 임계값 사용)
  • 점수 범위: 0 ~ 100
  • GDT-TS 90+ — 실험 정확도 수준 (사실상 정답)
  • GDT-TS 70~90 — 매우 좋음, 약 설계 사용 가능
  • GDT-TS 50~70 — 큰 도메인 구조는 맞지만 세부 부정확
  • GDT-TS 30~50 — fold 정도는 맞을 수 있음
  • GDT-TS 30 이하 — 거의 무작위
🎯 CASP의 강점 — 속임수 불가

CASP의 디자인이 정직성을 보장한다.

  • 실제 구조는 마감 후에만 공개 → 예측 조정 불가
  • 모든 참가자가 같은 단백질 같은 시점에 예측 → 공정 비교
  • 독립 평가자가 채점 → 자기 평가 불가

그래서 CASP 결과가 단백질 구조 예측의 사실상 진실이 됐다 — "내가 좋다고 주장하려면 CASP에서 증명해라."

💡 1994년 첫 CASP의 결과

첫 대회는 무엇이 가능한지 보여주는 게 목적이었다.

  • 참가팀: 약 35팀
  • 예측 대상: 33개 단백질
  • 결과: 어렵다는 게 확인됨 — 평균 GDT-TS 30 정도, 좋은 예측도 50 미만
  • 특히 "비슷한 템플릿이 없는 경우"에서 거의 모든 팀이 실패

이 결과가 향후 30년의 도전 과제를 정의했다.