1994년 — CASP의 시작
여러 방법이 등장했는데 — "누가 더 잘하나"를 객관적으로 비교하는 게 문제였다.
📖 객관 비교의 어려움
1990년대 초까지 연구자들이 자신의 방법으로 단백질 구조를 예측 발표했는데:
- 예측 발표 → 며칠~몇 주 뒤 실제 구조 결정 → "내 예측이 맞았다" 주장
- 그런데 진짜 깨끗한 비교가 아니었다 — 일부는 실제 구조를 미리 보고 예측을 조정
- "논문에 발표된 정확도"가 실제보다 높다는 의심이 만연
이 문제를 풀기 위해 "속임수 불가능한 평가 시스템"이 필요했다.
🎯 CASP의 등장 (1994)
CASP — Critical Assessment of protein Structure Prediction.
창립자: John Moult (생물물리학자). 1994년 첫 대회 개최.
핵심 아이디어: 아직 구조가 공개되지 않은 단백질의 서열을 참가자에게 미리 공개하고 예측을 받음. 곧 발표될 실제 구조로 채점.
📖 CASP의 진행 방식
- 봄 ~ 여름: 실험으로 구조가 곧 결정될 단백질 약 100개의 서열을 참가자에게 공개
- 여름 ~ 가을: 참가자들이 자기 방법으로 예측 (마감 전까지 실제 구조 공개 안 됨)
- 가을: 실제 구조가 PDB에 공개됨
- 겨울: 독립 평가자들이 예측 vs 실제 비교, 점수 매김
- 다음 해 봄: 결과 발표 + 학회 + 논문 출간
2년 주기로 반복.
📖 평가 지표 — GDT-TS
가장 자주 쓰이는 점수: GDT-TS (Global Distance Test - Total Score).
- 예측 구조와 실제 구조를 정렬
- 예측 원자가 실제와 얼마나 가까운지 측정 (1Å, 2Å, 4Å, 8Å 임계값 사용)
- 점수 범위: 0 ~ 100
- GDT-TS 90+ — 실험 정확도 수준 (사실상 정답)
- GDT-TS 70~90 — 매우 좋음, 약 설계 사용 가능
- GDT-TS 50~70 — 큰 도메인 구조는 맞지만 세부 부정확
- GDT-TS 30~50 — fold 정도는 맞을 수 있음
- GDT-TS 30 이하 — 거의 무작위
🎯 CASP의 강점 — 속임수 불가
CASP의 디자인이 정직성을 보장한다.
- 실제 구조는 마감 후에만 공개 → 예측 조정 불가
- 모든 참가자가 같은 단백질 같은 시점에 예측 → 공정 비교
- 독립 평가자가 채점 → 자기 평가 불가
그래서 CASP 결과가 단백질 구조 예측의 사실상 진실이 됐다 — "내가 좋다고 주장하려면 CASP에서 증명해라."
💡 1994년 첫 CASP의 결과
첫 대회는 무엇이 가능한지 보여주는 게 목적이었다.
- 참가팀: 약 35팀
- 예측 대상: 33개 단백질
- 결과: 어렵다는 게 확인됨 — 평균 GDT-TS 30 정도, 좋은 예측도 50 미만
- 특히 "비슷한 템플릿이 없는 경우"에서 거의 모든 팀이 실패
이 결과가 향후 30년의 도전 과제를 정의했다.