시즌 2 · 알파폴드편 / PART 10 · 단백질 기초 — 아미노산에서 3차 구조까지 / Ch 3 · 3차 구조 — 도메인, fold, motif

Fold 분류 시스템 — CATH와 SCOP

1990년대 후반, 학계는 — "PDB의 모든 단백질 구조를 체계적으로 분류하자"는 노력을 시작했다.

📖 SCOP (Structural Classification Of Proteins)

1995년 영국 케임브리지의 Alexei Murzin이 시작.

4단계 계층 분류:

  1. Class: all-α, all-β, α/β, α+β (앞서 본 4가지 클래스)
  2. Fold: 같은 2차 구조 배열을 가진 도메인 그룹
  3. Superfamily: 진화적으로 관련된 같은 fold
  4. Family: 명확한 진화 관계 (서열 동일도 30% 이상)

예 — TIM barrel fold > glycoside hydrolase superfamily > family 30.

📖 CATH (Class, Architecture, Topology, Homologous superfamily)

1997년 영국 UCL의 Janet Thornton 팀이 시작.

4단계 계층 분류 (CATH의 네 글자):

  1. Class: Mainly α, Mainly β, Mixed α-β, Few SS — 약 4가지
  2. Architecture: 2차 구조의 큰 모양 (sandwich, barrel, roll, propeller 등) — 약 40가지
  3. Topology: 2차 구조의 정확한 연결 패턴 (fold) — 약 1500개
  4. Homologous superfamily: 진화적으로 관련 (서열 또는 구조 유사성) — 약 7000개

예 — Mainly α > Up-down bundle > Globin > Globin-like (myoglobin, hemoglobin 등 포함).

🎯 SCOP vs CATH — 두 시스템의 비교
속성 SCOP CATH
개시19951997
방법수동 큐레이션반자동 (알고리즘 + 검수)
단위도메인도메인
최상위Class 4 + 기타Class 4
강점전문가 검수의 일관성자동화로 빠른 업데이트

두 시스템이 비슷하지만 — 분류 방식과 일부 fold의 위치가 다르다. 학계는 종종 둘 다 참고.

📖 분류의 의미

이런 분류 시스템이 왜 중요한가:

  • 새 단백질 구조가 결정되면 — CATH/SCOP에서 비슷한 것을 빠르게 찾을 수 있음
  • 비슷한 구조 → 비슷한 기능 → 새 단백질의 기능 짐작
  • fold의 진화적 관계 추적
  • 알파폴드 등 구조 예측 도구의 학습 데이터 큐레이션

알파폴드도 학습 시 — CATH/SCOP 분류를 활용해서 다양한 fold가 골고루 학습 데이터에 포함되도록.

🎯 분류의 한계 — Fold space의 연속성

흥미로운 발견 — fold들이 명확히 떨어진 카테고리가 아니라, 연속적 공간일 가능성.

  • 일부 fold는 다른 fold와 명확히 구분 가능
  • 일부 fold는 "중간 형태" — 두 fold의 특성을 같이 가짐
  • "fold space는 클러스터가 있는 연속체" — 최근 연구의 가설

이게 알파폴드가 새 fold도 처음 봐도 어느 정도 예측 가능한 이유일 수 있다 — 학습한 fold들의 "사이"에 있는 구조도 만들 수 있어서.

💡 정리 — 구조의 지도

SCOP과 CATH는 단백질 구조의 "지도"다.

  • 각 단백질이 지도 위 어디 있는지
  • 다른 단백질과 얼마나 가까운지
  • 새 단백질의 위치를 예측 가능

이 지도가 알파폴드 같은 도구의 기반이 된다. 그리고 알파폴드가 등장한 후 — 새로 결정된 구조들이 이 지도를 더 풍부하게 만들고 있다.