Fold 분류 시스템 — CATH와 SCOP

1990년대 후반, 학계는 — "PDB의 모든 단백질 구조를 체계적으로 분류하자"는 노력을 시작했다.

📖 SCOP (Structural Classification Of Proteins)

1995년 영국 케임브리지의 Alexei Murzin이 시작.

4단계 계층 분류:

예 — TIM barrel fold > glycoside hydrolase superfamily > family 30.

📖 CATH (Class, Architecture, Topology, Homologous superfamily)

1997년 영국 UCL의 Janet Thornton 팀이 시작.

4단계 계층 분류 (CATH의 네 글자):

예 — Mainly α > Up-down bundle > Globin > Globin-like (myoglobin, hemoglobin 등 포함).

🎯 SCOP vs CATH — 두 시스템의 비교

두 시스템이 비슷하지만 — 분류 방식과 일부 fold의 위치가 다르다. 학계는 종종 둘 다 참고.

📖 분류의 의미

이런 분류 시스템이 왜 중요한가:

알파폴드도 학습 시 — CATH/SCOP 분류를 활용해서 다양한 fold가 골고루 학습 데이터에 포함되도록.

🎯 분류의 한계 — Fold space의 연속성

흥미로운 발견 — fold들이 명확히 떨어진 카테고리가 아니라, 연속적 공간일 가능성.

이게 알파폴드가 새 fold도 처음 봐도 어느 정도 예측 가능한 이유일 수 있다 — 학습한 fold들의 "사이"에 있는 구조도 만들 수 있어서.

💡 정리 — 구조의 지도

SCOP과 CATH는 단백질 구조의 "지도"다.

이 지도가 알파폴드 같은 도구의 기반이 된다. 그리고 알파폴드가 등장한 후 — 새로 결정된 구조들이 이 지도를 더 풍부하게 만들고 있다.