🎯 이 챕터에서 배울 것
- PDB 파일이 도대체 어떻게 생겼는지 — 메모장으로 열어서 보자
ATOM한 줄에 들어있는 정보 해석- pLDDT 점수가 PDB 어디에 숨어 있는지 (놀랍게도 B-factor 자리)
- model_1 ~ model_5의 차이
- 다른 사람의 PDB(예: 1UBQ)와 우리 예측을 비교하는 법 — 핵심 단서
이번 챕터는 우리가 받은 PDB 파일을 진짜로 열어보는 챕터예요. 그 안에 어떤 정보가 어떻게 적혀있는지 알면, 나중에 직접 분석하고 응용할 때 큰 도움이 됩니다.
PDB 파일을 메모장으로 열어보세요
ZIP에서 {jobname}_unrelaxed_rank_001_model_1.pdb를 찾아 메모장 (Windows) / TextEdit (Mac) / 또는 VS Code 같은 텍스트 편집기로 엽니다.
"이게 무슨 파일이지?"라며 더블클릭하지 마세요 — 그러면 어떤 3D 뷰어가 자동으로 열릴 수도 있는데, 우리는 일단 텍스트로 보는 게 목적이에요.
PDB 파일의 큰 구조
열어보면 이런 식으로 생겼어요 (전체는 수십~수천 줄, 일부만 보여줄게요).
크게 세 부분으로 나뉘어요:
- 헤더(HEADER, TITLE, REMARK 등): 메타데이터. "이게 무슨 단백질이고, 누가 만들었는지" 같은 정보.
- ATOM 라인들: 진짜 데이터. 각 원자 하나하나의 좌표.
- TER / END: 단백질 끝 표시.
ATOM 한 줄 해부하기 (가장 중요)
ATOM 라인이 PDB의 핵심이에요. 한 줄이 한 원자를 나타냅니다. 한 줄을 잘게 잘라보면:
pLDDT는 어디 숨어 있나? — B-factor 자리
그래서 위에서 본 라인의 85.32가 바로 그 잔기의 pLDDT입니다.
PyMOL이나 ChimeraX, 3Dmol.js 같은 뷰어는 B-factor 값을 색깔로 칠하는 기능이 있는데, ColabFold PDB를 열면 자동으로 pLDDT 색칠이 됩니다.
같은 잔기의 모든 원자는 같은 pLDDT
잠깐 살펴볼 게 있어요. 한 잔기(예: 1번 메싸이오닌)에는 원자가 여러 개 있죠 — N, CA, C, O, CB, CG, SD, CE. ATOM 라인이 8개나 됩니다.
근데 그 8개 라인의 B-factor 자리가 다 85.32로 같아요. pLDDT는 잔기 단위로 점수를 매기기 때문이에요.
잔기 = 아미노산 한 개 = 원자 여러 개
한 아미노산이 몇 개 원자로 만들어져 있는지 잠깐 정리해봅시다. 7장에서 본 그림이랑 연결돼요.
| 아미노산 (3글자) | 1글자 | 원자 개수 | 비고 |
|---|---|---|---|
GLY |
G | 4 | 가장 작음 (N, CA, C, O만) |
ALA |
A | 5 | CB 추가 |
MET |
M | 8 | 황(SD) 포함, 단백질 시작 |
TRP |
W | 14 | 가장 큰 아미노산 (방향족 인돌) |
그러니까 76 잔기짜리 Ubiquitin의 PDB는 ATOM 라인이 약 600개 정도 됩니다. 잔기별로 4~14개 원자니까 평균 8개로 잡으면 약 600. 실제로도 그 정도예요.
model_1 ~ model_5의 차이
ColabFold ZIP을 열면 model_1.pdb부터 model_5.pdb까지 다섯 개 파일이 있어요. 왜 5개일까요?
🎲 다섯 개의 후보
AlphaFold/RoseTTAFold는 사실 약간씩 다른 5개의 신경망 모델로 학습됐어요. 같은 시퀀스를 넣어도 5개 모델이 약간씩 다른 답을 줍니다.
그래서 5번 다 돌리고, 그중 가장 신뢰도(pLDDT 평균)가 높은 게 model_1으로 저장되도록 정렬해줍니다.
파일명에 rank_001이 model_1, rank_005가 model_5예요.
5개 다 봐야 할까?
- 대부분의 경우 model_1만 봐도 충분합니다. 5개가 거의 비슷한 모양으로 나옵니다.
- 5개가 서로 많이 다르면 그 단백질이 "AI가 자신 없어 하는 단백질"이라는 뜻이에요. 5개를 다 비교해보는 게 좋습니다.
- 특히 어떤 부분(예: loop)이 5개 모델에서 서로 다른 위치에 있다면, 그 부분이 유연하다(flexible)는 단서일 수 있어요.
1UBQ (실제 정답) vs 우리 예측 비교하기
9장에서 말씀드렸듯, Ubiquitin의 X선 결정학 정답은 PDB ID 1UBQ로 공개돼 있어요.
이걸 다운받아서 우리 예측과 비교해보면 "정말 맞췄나?"를 확인할 수 있습니다.
1UBQ 다운로드
- rcsb.org/structure/1UBQ 들어가기
- "Download Files" → "PDB Format" 클릭
1ubq.pdb파일 다운로드
두 파일 비교하기 — 옵션 3가지
- PyMOL Open Source 또는 학생용 무료 라이선스로 설치
- 두 PDB 파일 열기 →
align명령어로 겹치기 - RMSD 값이 정확히 표시됨
- UCSF ChimeraX 다운로드 (cgl.ucsf.edu/chimerax)
- 두 PDB 열기 → 메뉴 Tools → Structure Comparison → Matchmaker
- 자동으로 겹쳐주고 RMSD 표시
- search.foldseek.com 가서 우리 PDB 업로드
- 1UBQ와 자동 비교, TM-score / RMSD 표시
- 설치 없이 가능. 다음 챕터(2차 공개분 예정)에서 자세히
- RMSD < 2Å: 매우 잘 맞췄음 (실험 수준)
- RMSD 2~5Å: 큰 모양은 맞지만 디테일 차이
- RMSD > 5Å: 많이 빗나감
Ubiquitin 같은 작고 안정적인 단백질은 RMSD 0.5~1.5Å 정도가 일반적입니다.
한 번 더 — 다른 단백질로 도전!
Ubiquitin이 잘 맞아떨어졌다면 (pLDDT 90+, RMSD < 2Å), 한 번 더 도전해보세요. 다른 단백질로 ColabFold를 또 돌려보는 거예요.
추천 다음 도전:
- Myoglobin (P02144) — 154 잔기, 미오글로빈, α-나선만 있는 단백질
- GFP (P42212) — 238 잔기, 녹색형광단백질, β-병풍 통구조
- Lysozyme (P00698) — 147 잔기, 항균 효소, 활성부위 잘 보임
- 본인이 관심 있는 단백질! — UniProt에서 찾아서 시퀀스 가져오기
1차 차수 (Phase 2 — 챕터 11~14) 정리
- ColabFold가 뭐고 Robetta와 어떻게 다른지 (11장)
- Colab 노트북 사용법 — 셀, 런타임, GPU 켜는 법 (12장)
- 실전 — ColabFold로 직접 RoseTTAFold/AlphaFold 돌리기 (13장)
- PDB 파일 안에 어떤 정보가 어떻게 저장돼 있는지 (14장)
- pLDDT가 B-factor 자리에 숨어 있다는 것 (14장)
이제 본인은 실제로 단백질 구조 예측을 할 수 있는 사람입니다. 작은 단백질이면 30분이면 충분해요.
한 번 체크하고 가요
PDB 파일의 ATOM 한 줄은 무엇을 나타낼까요?
ColabFold가 만든 PDB 파일에서 pLDDT 점수는 어디에 저장될까요?
ColabFold가 model_1.pdb부터 model_5.pdb까지 5개 파일을 주는 이유는?