제14장. 결과 파일 PDB 읽는 법

🎯 이 챕터에서 배울 것

PDB 파일이 도대체 어떻게 생겼는지 — 메모장으로 열어서 보자
ATOM 한 줄에 들어있는 정보 해석
pLDDT 점수가 PDB 어디에 숨어 있는지 (놀랍게도 B-factor 자리)
model_1 ~ model_5의 차이
다른 사람의 PDB(예: 1UBQ)와 우리 예측을 비교하는 법 — 핵심 단서

이번 챕터는 우리가 받은 PDB 파일을 진짜로 열어보는 챕터예요. 그 안에 어떤 정보가 어떻게 적혀있는지 알면, 나중에 직접 분석하고 응용할 때 큰 도움이 됩니다.

PDB 파일을 메모장으로 열어보세요

ZIP에서 {jobname}_unrelaxed_rank_001_model_1.pdb를 찾아 메모장 (Windows) / TextEdit (Mac) / 또는 VS Code 같은 텍스트 편집기로 엽니다. "이게 무슨 파일이지?"라며 더블클릭하지 마세요 — 그러면 어떤 3D 뷰어가 자동으로 열릴 수도 있는데, 우리는 일단 텍스트로 보는 게 목적이에요.

PDB 파일의 큰 구조

열어보면 이런 식으로 생겼어요 (전체는 수십~수천 줄, 일부만 보여줄게요).

// 헤더 영역 (메타데이터)

HEADER PREDICTION 01-JAN-26 XXXX

TITLE PREDICTED STRUCTURE OF UBIQUITIN

REMARK 1 GENERATED BY COLABFOLD / ALPHAFOLD2

REMARK 2 PLDDT MEAN: 90.5

// ATOM 영역 (원자 하나하나의 좌표)

ATOM 1 N MET A 1 27.388 35.654 18.024 1.00 85.32 N

ATOM 2 CA MET A 1 27.971 34.523 17.331 1.00 85.32 C

ATOM 3 C MET A 1 29.460 34.762 17.092 1.00 85.32 C

ATOM 4 O MET A 1 30.207 33.789 17.083 1.00 85.32 O

ATOM 5 CB MET A 1 27.275 34.282 15.999 1.00 85.32 C

ATOM 6 CG MET A 1 27.683 32.967 15.330 1.00 85.32 C

ATOM 7 SD MET A 1 26.812 32.620 13.787 1.00 85.32 S

ATOM 8 CE MET A 1 25.135 32.234 14.301 1.00 85.32 C

...

ATOM 591 CG2 VAL A 76 15.234 21.563 10.987 1.00 92.10 C

// 끝 표시

TER 592 VAL A 76

END

크게 세 부분으로 나뉘어요:

헤더(HEADER, TITLE, REMARK 등): 메타데이터. "이게 무슨 단백질이고, 누가 만들었는지" 같은 정보.
ATOM 라인들: 진짜 데이터. 각 원자 하나하나의 좌표.
TER / END: 단백질 끝 표시.

ATOM 한 줄 해부하기 (가장 중요)

ATOM 라인이 PDB의 핵심이에요. 한 줄이 한 원자를 나타냅니다. 한 줄을 잘게 잘라보면:

ATOM 1 N MET A 1 27.388 35.654 18.024 1.00 85.32 N

▣ ATOM = 레코드 종류 (ATOM = 단백질 원자)

▣ 1 = 원자 일련번호 (1부터 시작, 단백질 전체에서 unique)

▣ N = 원자 이름 (N=질소, CA=알파탄소, C=카르보닐탄소, O=산소, CB=베타탄소 등)

▣ MET = 아미노산 3글자 코드 (MET=메싸이오닌, ALA=알라닌, GLY=글리신 등)

▣ A = 사슬 ID (단일체이면 A, 멀티머이면 A/B/C/D...)

▣ 1 = 잔기 번호 (이 단백질에서 1번째 아미노산)

▣ 27.388 35.654 18.024 = x, y, z 좌표 (단위: 옹스트롬 Å)

▣ 1.00 = occupancy (점유율, 항상 1.00이라고 보면 됨)

▣ 85.32 = ⭐ B-factor 자리 — 여기에 pLDDT가 들어감!

▣ N = 원소 기호 (N=질소, C=탄소, O=산소, S=황)

PDB ATOM 라인 한 줄의 각 필드

pLDDT는 어디 숨어 있나? — B-factor 자리

🔑

핵심 트릭: ColabFold와 AlphaFold는 PDB 파일의 B-factor 자리를 빌려서 pLDDT 점수를 저장합니다. 원래 B-factor는 X선 결정학에서 "이 원자가 얼마나 흔들리는지"를 나타내는 숫자였는데, AI 예측 PDB에서는 그 자리에 "이 원자의 pLDDT 점수"를 적어둬요.

그래서 위에서 본 라인의 85.32가 바로 그 잔기의 pLDDT입니다. PyMOL이나 ChimeraX, 3Dmol.js 같은 뷰어는 B-factor 값을 색깔로 칠하는 기능이 있는데, ColabFold PDB를 열면 자동으로 pLDDT 색칠이 됩니다.

같은 잔기의 모든 원자는 같은 pLDDT

잠깐 살펴볼 게 있어요. 한 잔기(예: 1번 메싸이오닌)에는 원자가 여러 개 있죠 — N, CA, C, O, CB, CG, SD, CE. ATOM 라인이 8개나 됩니다. 근데 그 8개 라인의 B-factor 자리가 다 85.32로 같아요. pLDDT는 잔기 단위로 점수를 매기기 때문이에요.

잔기 = 아미노산 한 개 = 원자 여러 개

한 아미노산이 몇 개 원자로 만들어져 있는지 잠깐 정리해봅시다. 7장에서 본 그림이랑 연결돼요.

아미노산 (3글자)	1글자	원자 개수	비고
`GLY`	G	4	가장 작음 (N, CA, C, O만)
`ALA`	A	5	CB 추가
`MET`	M	8	황(SD) 포함, 단백질 시작
`TRP`	W	14	가장 큰 아미노산 (방향족 인돌)

그러니까 76 잔기짜리 Ubiquitin의 PDB는 ATOM 라인이 약 600개 정도 됩니다. 잔기별로 4~14개 원자니까 평균 8개로 잡으면 약 600. 실제로도 그 정도예요.

model_1 ~ model_5의 차이

ColabFold ZIP을 열면 model_1.pdb부터 model_5.pdb까지 다섯 개 파일이 있어요. 왜 5개일까요?

🎲 다섯 개의 후보

AlphaFold/RoseTTAFold는 사실 약간씩 다른 5개의 신경망 모델로 학습됐어요. 같은 시퀀스를 넣어도 5개 모델이 약간씩 다른 답을 줍니다.

그래서 5번 다 돌리고, 그중 가장 신뢰도(pLDDT 평균)가 높은 게 model_1으로 저장되도록 정렬해줍니다. 파일명에 rank_001이 model_1, rank_005가 model_5예요.

5개 다 봐야 할까?

대부분의 경우 model_1만 봐도 충분합니다. 5개가 거의 비슷한 모양으로 나옵니다.
5개가 서로 많이 다르면 그 단백질이 "AI가 자신 없어 하는 단백질"이라는 뜻이에요. 5개를 다 비교해보는 게 좋습니다.
특히 어떤 부분(예: loop)이 5개 모델에서 서로 다른 위치에 있다면, 그 부분이 유연하다(flexible)는 단서일 수 있어요.

1UBQ (실제 정답) vs 우리 예측 비교하기

9장에서 말씀드렸듯, Ubiquitin의 X선 결정학 정답은 PDB ID 1UBQ로 공개돼 있어요. 이걸 다운받아서 우리 예측과 비교해보면 "정말 맞췄나?"를 확인할 수 있습니다.

1UBQ 다운로드

rcsb.org/structure/1UBQ 들어가기
"Download Files" → "PDB Format" 클릭
1ubq.pdb 파일 다운로드

두 파일 비교하기 — 옵션 3가지

옵션 1. PyMOL (가장 정확, 설치 필요)

PyMOL Open Source 또는 학생용 무료 라이선스로 설치
두 PDB 파일 열기 → align 명령어로 겹치기
RMSD 값이 정확히 표시됨

옵션 2. ChimeraX (무료, 쉬움)

UCSF ChimeraX 다운로드 (cgl.ucsf.edu/chimerax)
두 PDB 열기 → 메뉴 Tools → Structure Comparison → Matchmaker
자동으로 겹쳐주고 RMSD 표시

옵션 3. 브라우저 (가장 빠름)

search.foldseek.com 가서 우리 PDB 업로드
1UBQ와 자동 비교, TM-score / RMSD 표시
설치 없이 가능. 다음 챕터(2차 공개분 예정)에서 자세히

📏

RMSD가 뭐? Root Mean Square Deviation. 두 구조의 같은 잔기들이 평균적으로 얼마나 떨어져 있는지(Å)를 나타냅니다.

RMSD < 2Å: 매우 잘 맞췄음 (실험 수준)
RMSD 2~5Å: 큰 모양은 맞지만 디테일 차이
RMSD > 5Å: 많이 빗나감

Ubiquitin 같은 작고 안정적인 단백질은 RMSD 0.5~1.5Å 정도가 일반적입니다.

한 번 더 — 다른 단백질로 도전!

Ubiquitin이 잘 맞아떨어졌다면 (pLDDT 90+, RMSD < 2Å), 한 번 더 도전해보세요. 다른 단백질로 ColabFold를 또 돌려보는 거예요.

1차 차수 (Phase 2 — 챕터 11~14) 정리

🏆

여기까지 따라오신 분이 새로 추가로 알게 된 것:

ColabFold가 뭐고 Robetta와 어떻게 다른지 (11장)
Colab 노트북 사용법 — 셀, 런타임, GPU 켜는 법 (12장)
실전 — ColabFold로 직접 RoseTTAFold/AlphaFold 돌리기 (13장)
PDB 파일 안에 어떤 정보가 어떻게 저장돼 있는지 (14장)
pLDDT가 B-factor 자리에 숨어 있다는 것 (14장)

이제 본인은 실제로 단백질 구조 예측을 할 수 있는 사람입니다. 작은 단백질이면 30분이면 충분해요.

한 번 체크하고 가요

체크 1/3 Q1.

PDB 파일의 ATOM 한 줄은 무엇을 나타낼까요?

체크 2/3 Q2.

ColabFold가 만든 PDB 파일에서 pLDDT 점수는 어디에 저장될까요?

체크 3/3 Q3.

ColabFold가 model_1.pdb부터 model_5.pdb까지 5개 파일을 주는 이유는?

📄 결과 파일 PDB 읽는 법