Fold 분류 시스템 — CATH와 SCOP
1990년대 후반, 학계는 — "PDB의 모든 단백질 구조를 체계적으로 분류하자"는 노력을 시작했다.
📖 SCOP (Structural Classification Of Proteins)
1995년 영국 케임브리지의 Alexei Murzin이 시작.
4단계 계층 분류:
- Class: all-α, all-β, α/β, α+β (앞서 본 4가지 클래스)
- Fold: 같은 2차 구조 배열을 가진 도메인 그룹
- Superfamily: 진화적으로 관련된 같은 fold
- Family: 명확한 진화 관계 (서열 동일도 30% 이상)
예 — TIM barrel fold > glycoside hydrolase superfamily > family 30.
📖 CATH (Class, Architecture, Topology, Homologous superfamily)
1997년 영국 UCL의 Janet Thornton 팀이 시작.
4단계 계층 분류 (CATH의 네 글자):
- Class: Mainly α, Mainly β, Mixed α-β, Few SS — 약 4가지
- Architecture: 2차 구조의 큰 모양 (sandwich, barrel, roll, propeller 등) — 약 40가지
- Topology: 2차 구조의 정확한 연결 패턴 (fold) — 약 1500개
- Homologous superfamily: 진화적으로 관련 (서열 또는 구조 유사성) — 약 7000개
예 — Mainly α > Up-down bundle > Globin > Globin-like (myoglobin, hemoglobin 등 포함).
🎯 SCOP vs CATH — 두 시스템의 비교
| 속성 | SCOP | CATH |
|---|---|---|
| 개시 | 1995 | 1997 |
| 방법 | 수동 큐레이션 | 반자동 (알고리즘 + 검수) |
| 단위 | 도메인 | 도메인 |
| 최상위 | Class 4 + 기타 | Class 4 |
| 강점 | 전문가 검수의 일관성 | 자동화로 빠른 업데이트 |
두 시스템이 비슷하지만 — 분류 방식과 일부 fold의 위치가 다르다. 학계는 종종 둘 다 참고.
📖 분류의 의미
이런 분류 시스템이 왜 중요한가:
- 새 단백질 구조가 결정되면 — CATH/SCOP에서 비슷한 것을 빠르게 찾을 수 있음
- 비슷한 구조 → 비슷한 기능 → 새 단백질의 기능 짐작
- fold의 진화적 관계 추적
- 알파폴드 등 구조 예측 도구의 학습 데이터 큐레이션
알파폴드도 학습 시 — CATH/SCOP 분류를 활용해서 다양한 fold가 골고루 학습 데이터에 포함되도록.
🎯 분류의 한계 — Fold space의 연속성
흥미로운 발견 — fold들이 명확히 떨어진 카테고리가 아니라, 연속적 공간일 가능성.
- 일부 fold는 다른 fold와 명확히 구분 가능
- 일부 fold는 "중간 형태" — 두 fold의 특성을 같이 가짐
- "fold space는 클러스터가 있는 연속체" — 최근 연구의 가설
이게 알파폴드가 새 fold도 처음 봐도 어느 정도 예측 가능한 이유일 수 있다 — 학습한 fold들의 "사이"에 있는 구조도 만들 수 있어서.
💡 정리 — 구조의 지도
SCOP과 CATH는 단백질 구조의 "지도"다.
- 각 단백질이 지도 위 어디 있는지
- 다른 단백질과 얼마나 가까운지
- 새 단백질의 위치를 예측 가능
이 지도가 알파폴드 같은 도구의 기반이 된다. 그리고 알파폴드가 등장한 후 — 새로 결정된 구조들이 이 지도를 더 풍부하게 만들고 있다.