Fold — 도메인의 큰 구조 패턴
도메인이 "독립적으로 접히는 단위"라면, fold는 "그 도메인이 어떤 식으로 접혔는가"의 큰 패턴.
📖 Fold의 정의
Fold는 한 도메인 안의 2차 구조 단위들(α-나선, β-주름)의 배열 패턴이다.
- 몇 개의 나선과 몇 개의 주름이 있는가
- 그것들이 어떤 순서와 방향으로 배열되어 있는가
- 그 배열의 토폴로지(topology) — 어떤 결합 패턴인가
비슷한 fold를 가진 단백질들은 — 서로 매우 다른 서열을 가져도, 구조는 비슷하다. 이게 fold의 큰 발견.
🎯 자연계의 fold 수 — 의외로 적다
1000개의 단백질을 보면 — 1000개의 fold가 있을 거 같지만, 실제로는 그렇지 않다.
- PDB의 16만+ 구조에서 발견된 유니크한 fold: 약 1000~1400개
- 흔한 fold 약 100개가 모든 단백질의 약 80%를 차지
- 가장 흔한 fold 10개가 알려진 단백질의 약 30%
"자연이 fold를 적게 만들고 재활용한다"는 의미. 진화에서 fold 자체는 잘 보존되고, 그 위에 서열을 변형시켜 다양한 기능을 만든다.
📖 같은 fold, 다른 서열
예 — Cytochrome P450 효소.
- 인간에 약 50개, 박테리아에 수백 개의 다른 cytochrome P450
- 서로 서열 동일도 30% 미만 (한 단백질에서 다른 단백질로 — 70% 잔기가 다름)
- 그런데 모두 같은 fold — "P450 fold"라는 특정 패턴
- 모두 비슷한 모양으로 접히고, 비슷한 큰 역할 (heme이라는 보조 분자와 결합)
진화가 1억 년 동안 서열을 70% 바꿔도 fold는 그대로 유지한 사례.
🎯 Fold는 어떻게 결정되나
한 도메인이 어떤 fold로 접히는가는 — 그 도메인의 서열이 결정한다.
- 물리적: 안정성을 최대화하는 방향으로
- 진화적: 자연선택을 통해 안정적이고 기능적인 fold 선호
- 제약: 모든 fold가 가능한 게 아님 — 물리/화학 법칙 안에서 작동 가능한 것만
그래서 — 서열만 봐도 fold를 짐작할 수 있다. 비슷한 서열이면 거의 같은 fold. 다른 서열이지만 — 일부 motif가 같으면 — 같은 fold 가능성 높음. 이게 PART 9 Ch 4에서 봤던 homology modeling의 원리.
💡 정리
"Fold 개수가 한정적이라서 새 단백질의 fold는 알려진 1000개 중 하나일 가능성이 매우 높다."
이 발견이 — 알파폴드 등장 전 30년간 단백질 구조 예측의 큰 전략 (homology modeling, threading)의 기반이었다. 그리고 알파폴드도 결국 — 이 fold들을 학습 데이터로 사용한다.