제6장. 단백질 시퀀스 읽는 법 (FASTA)

이제 곧 실제로 단백질 구조 예측을 돌려볼 건데, 그러려면 먼저 "우리가 컴퓨터한테 단백질을 어떻게 알려줄지"를 알아야 해요. 답은 간단합니다. 1글자 아미노산 코드가 줄줄이 적힌 텍스트 파일을 줍니다. 이게 바로 FASTA 포맷이에요.

FASTA 포맷이 뭐임?

이름이 어렵게 들리지만, 실체는 정말 별거 없습니다. 두 줄짜리 텍스트예요.

>sp|P02144|MYG_HUMAN Myoglobin OS=Homo sapiens

MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE
DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKH
PGDFGADAQGAMNKALELFRKDMASNYKELGFQG

이게 한 단백질 — 인간 미오글로빈 (Myoglobin) — 의 FASTA 표기예요. 위에 노가다 챕터에서 1958년에 처음 풀린 그 단백질 맞습니다.

한 줄씩 뜯어보기

1번째 줄 — 헤더 (정보)

>sp|P02144|MYG_HUMAN Myoglobin OS=Homo sapiens

첫 글자가 >로 시작합니다. "여기부터가 한 단백질"이라는 표시예요. 그 뒤로는 그냥 메모입니다.

sp = Swiss-Prot 데이터베이스
P02144 = 이 단백질의 고유 ID (Swiss-Prot이 발급)
MYG_HUMAN = 사람이 읽기 좋은 이름
Myoglobin OS=Homo sapiens = 단백질 이름과 종 (Organism Source)

사실 이 줄은 사람이 알아보라고 적어두는 메모일 뿐이에요. 컴퓨터는 그냥 ">로 시작하면 헤더구나" 정도만 이해합니다. 당신이 직접 시퀀스를 만든다면 헤더는 >나의단백질 정도여도 충분합니다.

2번째 줄부터 — 실제 시퀀스

MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE…

드디어 1장에서 본 그 친구들이 등장합니다. 1글자 아미노산 코드가 줄줄이 적혀 있어요. 이게 곧 단백질의 1차 구조(아미노산 서열)입니다.

미오글로빈은 153개 아미노산으로 만들어진 작은 단백질이에요. 위에 보이는 그 글자 수가 153개입니다. (직접 세보면 진짜 153개입니다.)

📝

줄바꿈은 그냥 보기 좋으라고: FASTA 시퀀스를 60자나 80자마다 한 번씩 줄을 바꿔서 적는 게 관습이에요. 하지만 컴퓨터는 줄바꿈을 무시합니다. MGLSDG...QG 한 줄에 다 적어도 동일해요.

1글자 아미노산 코드 — 다시 만나기

1장에서 이미 한 번 봤지만, 여기서는 진짜로 시퀀스 안에서 어떻게 쓰이는지 다시 한 번 짚고 갈게요.

한 번 더 훑어보세요

각 글자가 어떤 아미노산을 뜻하는지 확인합니다.

중요한 두 글자만 다시 강조

🔑 헷갈리지 말기

M (Methionine, 메싸이오닌) — 거의 모든 단백질의 시퀀스가 M으로 시작합니다. 위에 미오글로빈도 MGLSDGEWQLV...로 시작하죠. DNA의 "시작 코돈(start codon)" ATG가 메싸이오닌을 만들기 때문이에요. 이건 거의 자연의 약속입니다.
C (Cysteine, 시스테인) — 이 글자가 두 번 나오면 둘이 만나서 다리(disulfide bond)를 만들 가능성이 큽니다. 단백질의 3D 구조를 단단하게 고정해주는 핵심 부품이에요. 예측 결과를 볼 때 C가 많이 들어있는 단백질은 구조가 단단할 가능성이 큽니다.

실제 시퀀스를 어디서 구할까?

나중에 실습할 때 본인이 직접 단백질 시퀀스를 가져와야 할 수 있어요. 가장 유명한 사이트들입니다.

UniProt (uniprot.org) — 단백질 데이터베이스의 표준. 검색하면 FASTA 시퀀스 바로 다운로드 가능.
NCBI Protein (ncbi.nlm.nih.gov/protein) — 미국 국립생물정보센터의 단백질 DB. UniProt과 거의 같은 정보.
PDB (rcsb.org) — 이미 구조가 풀린 단백질만 모은 DB. "이미 알려진 답"을 가진 단백질의 시퀀스를 받을 수 있어요. 본인이 만든 알고리즘이 정답을 맞히는지 확인할 때 좋음.

💡

실습 팁: 처음 돌려볼 때는 이미 PDB에 답이 있는 작은 단백질로 시작하세요. 미오글로빈(153개)이나 류시퍼(luciferase) 같은 잘 알려진 단백질을 추천합니다. 그래야 예측 결과가 "정답"과 비슷한지 비교할 수 있어요.

FASTA가 여러 단백질을 담을 수도 있다

한 파일에 단백질 하나만 들어갈 필요는 없어요. >로 시작하는 헤더가 여러 개 있으면 그게 그냥 단백질 여러 개입니다.

>Protein1

MAKRGGVLLPEEHL...

>Protein2

MSVHEKKLLPPGEEQ...

>Protein3

MTYEELKKLSQVVG...

이런 식이에요. ColabFold 같은 도구는 이렇게 여러 단백질을 한꺼번에 받아서 한 번에 다 예측해주기도 합니다.

그래서 실제로 어떻게 쓰이나? — 다음 챕터들 예고

정리하면, 우리가 ColabFold에 단백질 구조 예측을 부탁할 때 하는 일은:

FASTA 포맷의 시퀀스를 준비 (UniProt에서 다운로드하거나 직접 작성)
ColabFold 노트북에 그 시퀀스를 붙여넣기
실행 버튼 클릭 → 클라우드 GPU가 알아서 계산
몇 십분 ~ 몇 시간 후 3D 구조 파일(PDB 포맷) 다운로드
3D 뷰어로 돌려보면서 감상 / 분석

2차 공개분에서 이 다섯 단계를 하나씩 떠먹여드릴 거예요. 코드 한 줄 안 짜도 됩니다.

1차 공개분 정리

📚

여기까지 따라오신 분이 가지고 있는 지식:

단백질 구조 = 1차/2차/3차/4차, 그리고 "모양이 곧 기능"
옛날엔 X선 결정학으로 한 단백질씩 풀었음 — 1년에 ~2800개
컴퓨터로 풀려는 시도가 50년간 안 풀린 이유 (레빈탈의 역설)
2020년 알파폴드2가 GDT 92로 50년 난제 해결
로제타폴드는 베이커 랩의 3-track 오픈소스 카운터펀치
FASTA 포맷 — 단백질 시퀀스를 컴퓨터에 알려주는 표기법

2차 공개분에서는 MSA(다중서열정렬), 로제타폴드 아키텍처 디테일, ColabFold 실전 실행, PDB 결과 해석, 3D 뷰어까지 갑니다.

한 번 체크하고 가요

체크 1/3 Q1.

FASTA 파일에서 헤더(첫 줄)는 어떤 글자로 시작할까요?

체크 2/3 Q2.

단백질 시퀀스 맨 앞 글자 M은 어떤 아미노산이고, 왜 거기 있을까요?

체크 3/3 Q3.

FASTA 시퀀스의 알파벳(A, R, N, D, C, E…)은 무엇을 뜻할까요?

🔤 단백질 시퀀스 읽는 법 (FASTA)