이 챕터의 핵심 — "서열에서 motif/fold 단서를 뽑을 수 있다"를 코드로 확인하자.
🎯 코드가 하는 일
- 두 가지 표준 motif 패턴 정의:
- Rossmann fold: GxGxxG (NAD/NADP 결합 도메인)
- EF-hand: DxDxDG 또는 DxDxNG (Ca²⁺ 결합)
- 알려진 단백질의 서열에서 정규표현식으로 motif 검출
- 예상대로 — Rossmann fold 단백질에 GxGxxG, EF-hand 단백질에 DxDxDG가 등장
이게 알파폴드 등장 전 — 서열에서 fold/기능을 예측하는 표준 방법. PROSITE 같은 데이터베이스가 수천 개의 이런 motif를 정리.
기대 출력:
단백질 Rossmann EF-hand 길이
------------------------------------------------------------
Alcohol DH (Rossmann) ✓ @7 ✗ 26
GAPDH (Rossmann) ✓ @5 ✗ 26
Calmodulin EF-hand #1 ✗ ✓ @0 21
Calmodulin EF-hand #3 ✗ ✓ @0 21
Cytochrome c (no motif) ✗ ✗ 25
Trypsin (no motif) ✗ ✗ 24
← 서열 안의 특정 패턴(motif)이 단백질의 fold 단서가 된다.
Rossmann fold 단백질에는 GxGxxG가 거의 항상 등장.
EF-hand calcium 결합 단백질에는 DxDxDG가 등장.
알파폴드 같은 도구가 등장하기 전, 이런 motif 검출이
서열에서 fold를 짐작하는 표준 방법이었다.
PROSITE, Pfam 같은 데이터베이스가 수천 개의 motif를 정리.