챕터 3 정리 + Ch 4 (MSA) 예고
📌 이번 챕터 핵심
- 3차 구조: 한 폴리펩티드 사슬의 전체 3D 모양. 소수성 효과 + 4가지 다른 힘이 결정.
- 도메인: 독립적으로 접히는 단위 (50~250 잔기). 큰 단백질은 여러 도메인의 조합.
- Fold: 도메인의 큰 구조 패턴 (2차 구조 배열). 자연계에 약 1000~1400개의 유니크 fold.
- 4 fold 클래스: all-α, all-β, α/β, α+β.
- 유명 fold: TIM barrel, Rossmann fold, Immunoglobulin fold, Greek key, Globin fold 등.
- Motif: fold보다 작은 구조 단위 (5~50 잔기). 특정 기능과 자주 연결.
- 유명 motif: HTH (DNA 결합), zinc finger, leucine zipper, EF-hand (Ca²⁺), P-loop (ATP/GTP) 등.
- 분류 시스템: SCOP과 CATH로 단백질 구조 분류.
- 구조-기능 미묘함: 같은 fold 다른 기능, 다른 fold 같은 기능, 작은 변화 큰 효과.
- 4차 구조: 여러 사슬이 모인 복합체 (hemoglobin α₂β₂, ribosome 등).
📖 한 문단으로
"단백질은 도메인이라는 독립적 단위로 접힌다. 각 도메인은 약 1000개의 표준 fold 중 하나의 패턴을 따른다. 그 fold 안에 더 작은 motif가 있어 특정 기능(DNA 결합, Ca²⁺ 결합 등)을 한다. 여러 사슬이 모이면 4차 구조의 복합체가 된다. 알파폴드의 출력은 정확히 이 — 한 사슬의 3차 구조의 모든 원자 좌표 — 이고, 그게 도메인/fold/motif 정보를 자연스럽게 드러낸다."
➡️ 다음 챕터 — MSA (Multiple Sequence Alignment)
3차 구조까지 알면 — "단백질 구조"의 큰 그림은 잡혔다. 이제 — "어떻게 그 구조를 예측하나"의 핵심 입력 데이터로 넘어간다.
다음 챕터의 주제는 MSA (Multiple Sequence Alignment). 알파폴드의 가장 중요한 입력 중 하나.
- 왜 한 단백질의 서열만 보는 게 아니라 — 진화적으로 관련된 수백~수천 개의 서열을 같이 보는가
- 진화 정보가 어떻게 구조 정보가 되는가
- "공진화하는 잔기 쌍(coevolution)" — 구조 내 가까운 잔기의 진화적 흔적
- MSA를 만드는 도구들 — BLAST, HHblits, MMseqs2
- 알파폴드 1과 2가 MSA를 어떻게 활용하는가
MSA를 잡으면 — 알파폴드의 가장 중요한 입력이 이해된다. 그리고 PART 11(AlphaFold 1)의 알고리즘으로 자연스럽게 들어갈 수 있다.
🧬 PART 10 Ch 3 완료 — 단백질 구조의 어휘를 잡았다
알파벳(아미노산) → 단어(2차 구조) → 문장(3차 구조).
다음 챕터에서 — "이 문장을 어떻게 읽는가"의 핵심 단서, 진화 정보로.