CHAPTER 13 실전 ⏱ 약 20분

▶️ ColabFold 실전 — 셀 하나하나 따라하기

노트북 열고, 시퀀스 넣고, 결과 받기까지 STEP-BY-STEP

📋이전 챕터에서 뭐 했죠?

제12장 — Colab 노트북 사용법 (생물쟁이 첫걸음)

Colab 노트북이 어떻게 생겼는지, 셀(cell)·런타임(runtime)·▶ 버튼이 뭔지 봤어요. 핵심 규칙: 위에서 아래로 ▶ 누르기, 시작 전 런타임 → T4 GPU 켜기.

🎯 이 챕터에서 할 것

실제 ColabFold 노트북을 열어서 RoseTTAFold(또는 AlphaFold2)로 단백질 구조 예측을 직접 돌립니다.

Ubiquitin(76 잔기)으로 약 5~10분이면 끝나요. 끝나면 본인 손으로 만든 PDB 파일을 다운로드하게 됩니다.

이 챕터는 "코드 한 줄도 쓰지 않고 따라하기"입니다. 노트북에 이미 모든 코드가 만들어져 있고, 우리는 그냥 ▶ 버튼을 클릭하면 돼요. 순서대로 따라오세요.

STEP 0. 준비물 다시 확인

최종 체크 ✅

  • 구글 계정 로그인 됨 (Chrome 우측 상단 아이콘 확인)
  • Ubiquitin 시퀀스 손에 있음 (또는 본인이 원하는 단백질 시퀀스)
  • 최소 30분 시간 (절대 못 끊김 — 끊기면 다시 시작해야 함)
  • 안정적인 인터넷 (모바일 핫스팟 권장 안 함)

참고용 Ubiquitin 시퀀스 한 번 더 (복붙용):

>ubiquitin_test
MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGG

STEP 1. ColabFold 노트북 열기

브라우저 새 탭에서 다음 링크를 엽니다. 구글 계정으로 자동 로그인됩니다.

🔗
ColabFold RoseTTAFold 노트북:
colab.research.google.com/github/sokrypton/ColabFold/blob/main/RoseTTAFold.ipynb

또는 더 자주 쓰이는 AlphaFold2 ColabFold:
colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb

노트북이 열리면 좌측에 여러 개의 셀이 보입니다. 각 셀에 이미 코드가 들어있고, 그 위에는 한국어가 아닌 영어 설명이 있어요. 무서워하지 마세요 — 그냥 차례대로 ▶ 누르면 됩니다.

STEP 2. ⭐ 가장 먼저 — GPU 런타임 켜기

⚠️
이 단계를 빼먹으면 ColabFold가 진짜 느리거나 실패합니다. 어떤 셀이라도 실행하기 전에 먼저 GPU 런타임으로 바꿔야 해요.

방법:

  1. 상단 메뉴 "런타임" 클릭
  2. "런타임 유형 변경" 클릭
  3. "하드웨어 가속기" 옵션을 "T4 GPU"로 변경
  4. "저장" 클릭

변경 후 노트북 우측 상단에 "T4" 또는 "GPU 연결됨"이 표시되면 OK.

STEP 3. 첫 셀 실행 — 환경 설치

노트북 맨 위 셀에 "Install dependencies" 또는 "Setup" 같은 제목이 적혀 있을 거예요. 이 셀이 ColabFold와 필요한 라이브러리를 자동으로 설치합니다.

셀 왼쪽의 ▶ 버튼을 누르면 설치가 시작됩니다.

예상 시간: 1~3분. 설치 중에는 셀 아래로 로그가 쭉 흘러갑니다. pip install 어쩌고저쩌고, Downloading 어쩌고저쩌고… 읽지 마세요. 무시하세요. 끝나면 ▶ 옆에 ✓가 뜹니다.

STEP 4. 시퀀스 입력 셀

두 번째 셀에는 "Input sequence" 또는 "Sequence"라는 제목이 있고, 시퀀스를 적는 텍스트 입력란이 있어요. 노트북마다 약간 다른데, 보통 이런 모양입니다.

[Cell 2: Input sequence]
query_sequence:
"MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGI
PPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLR
LRGG"
jobname:
"my_ubiquitin_test"
num_relax: 0 // 그대로 두기
template_mode: "none" // 그대로 두기
시퀀스 입력 셀의 모습 — 입력란만 채우고 ▶

입력란 채우기

  1. query_sequence 입력란에 Ubiquitin 시퀀스를 한 줄로 붙여넣기:
    MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGG
  2. jobname 입력란에 알아볼 이름 (예: my_ubi_001) — 영문/숫자/언더스코어만
  3. 나머지 옵션 (num_relax, template_mode, msa_mode 등)은 건드리지 말기
  4. ▶ 클릭 → 시퀀스가 메모리에 저장됨 (즉시 끝남)
💡
주의: 시퀀스 앞에 FASTA 헤더(>ubiquitin)는 붙이지 마세요. ColabFold 입력란은 시퀀스 글자만 받습니다. Robetta처럼 헤더 줄을 같이 넣으면 안 돼요.

STEP 5. MSA 검색 셀

다음 셀은 보통 "Search MSA" 또는 "Run MMseqs2"라는 제목이 있어요. 이 셀이 우리 시퀀스랑 비슷한 단백질들을 Sokrypton의 MMseqs2 서버에서 찾아옵니다.

▶ 누르면 로그가 줄줄이 흘러갑니다:

Querying MMseqs2 server...
[01/01 23:45:12] Submitting to server
[01/01 23:45:18] PENDING
[01/01 23:45:42] RUNNING
[01/01 23:46:30] COMPLETE
Got MSA: 1247 sequences
예상 시간: 2~5분. Ubiquitin은 비슷한 단백질이 매우 많아서 (모든 진핵세포에 있음) 보통 MSA에 1000~3000개의 시퀀스가 잡힙니다. "Got MSA: 1000+ sequences" 같은 메시지가 나오면 좋은 신호예요.
⚠️
"Could not get MSA" 오류가 뜨면: MMseqs2 서버가 잠시 다운된 거예요. 5~10분 기다리고 다시 ▶. 드물게 시퀀스에 문제(예: 표준 아미노산 아닌 문자 포함)가 있으면 이런 오류가 뜨기도 합니다.

STEP 6. 구조 예측 셀 (메인 — 가장 오래 걸림)

다음 셀이 진짜 메인입니다. 이름은 "Run prediction", "Predict structure", 또는 그냥 "Run"일 거예요. 이 셀이 알파폴드2/RoseTTAFold를 실제로 돌립니다.

▶ 누르면 다음 같은 로그가 흘러갑니다:

Loading model 1 of 5...
Recycling step 1: pLDDT=87.3
Recycling step 2: pLDDT=89.1
Recycling step 3: pLDDT=90.5
Model 1 done. pLDDT mean: 90.5
Loading model 2 of 5...
...
All 5 models done. Best: model_1 (pLDDT 90.5)
예상 시간 (Ubiquitin 기준):
  • 모델당 1~2분 (5개 모델 = 5~10분)
  • 큰 단백질(500+ 잔기)이면 30분 ~ 1시간
  • 매우 큰 단백질(1000+ 잔기)은 무료 GPU 메모리 부족으로 실패할 수 있음

pLDDT 점수 해석

로그에 보이는 pLDDT가 8장에서 소개한 그 신뢰도 점수예요. 0~100 사이로 나옵니다.

  • pLDDT 90+: 매우 높은 신뢰도. 실험 결과와 거의 같다고 봐도 됨.
  • pLDDT 70~90: 좋은 예측. 큰 구조는 맞고 디테일은 약간 불확실.
  • pLDDT 50~70: 보통. 큰 모양은 잡히지만 디테일은 못 믿음.
  • pLDDT < 50: 자신 없음. 단백질이 IDP(원래 구조 없음)이거나 MSA가 빈약한 경우.

Ubiquitin은 매우 안정적이고 MSA도 풍부해서 보통 pLDDT 90+가 나옵니다. 90 이상이 나오면 잘 작동한 거예요.

STEP 7. 결과 시각화 셀

다음 셀은 "Visualize" 또는 "Plot results"라는 제목이에요. ▶ 누르면 결과가 페이지 안에 직접 표시됩니다.

표시되는 것들:

  1. 3D 단백질 모델 (NGL/py3Dmol) — 마우스로 돌려볼 수 있어요. 색깔은 보통 pLDDT 기준 (파랑=고신뢰, 노랑=저신뢰)
  2. pLDDT 그래프 — X축 잔기 번호, Y축 pLDDT 점수. 어느 부분이 잘 예측됐는지 한눈에 보임.
  3. PAE (Predicted Aligned Error) 행렬 — N×N 행렬. 두 잔기 사이 거리의 불확실성. 일종의 신뢰도 지도.
🎨
3D 뷰어에서 해볼 것:
  • 마우스 좌클릭 드래그 → 단백질 회전
  • 마우스 휠 → 줌 인/아웃
  • 마우스 우클릭 드래그 → 이동
  • α-나선(스프링 모양)과 β-병풍(납작한 화살표)이 보일 거예요
  • 색깔 분포로 자신 있는 부분과 자신 없는 부분 확인

STEP 8. 결과 ZIP 다운로드

마지막 셀은 보통 "Download results"예요. ▶ 누르면 ZIP 파일이 본인 컴퓨터로 다운로드됩니다.

ZIP 안에 든 것들:

파일명 내용
{jobname}_unrelaxed_rank_001_model_1.pdb 가장 좋은 예측 (보통 이거 하나만 봐도 됨)
...model_2.pdb ~ model_5.pdb 2~5등 후보 구조
{jobname}_plddt.png pLDDT 그래프 이미지
{jobname}_pae.png PAE 행렬 이미지
{jobname}.json 메타데이터 (잔기별 pLDDT 점수 등)
{jobname}.a3m MSA 데이터 (텍스트)
💾
이 ZIP을 잘 보관하세요! 다음 챕터에서 PDB 파일을 직접 열어보고 분석할 거예요. Colab 세션이 끝나면 노트북 내 파일이 다 사라지니까, 꼭 본인 컴퓨터에 저장해두세요.

흔한 문제 트러블슈팅

❌ "Runtime disconnected"

90분 이상 안 만지면 자동으로 끊깁니다. 다시 연결하고 STEP 1부터 다시 ▶ 누르면 됩니다 (변수가 다 날아가서).

❌ "CUDA out of memory"

단백질이 너무 큼. 시퀀스를 잘라서 도메인 단위로 따로 돌려보세요. 또는 Colab Pro 가입.

❌ "Could not get MSA"

MMseqs2 서버 일시적 다운. 5~10분 기다리고 ▶ 다시.

❌ "No GPU available"

피크 시간이라 무료 GPU가 다 찼음. 1~2시간 후 다시 시도. 또는 다른 구글 계정으로.

⚠️ pLDDT가 낮게 나옴 (50 미만)

단백질이 IDP일 가능성. 또는 MSA가 너무 빈약. 다른 시퀀스로 재시도 추천.

축하합니다! 본인 손으로 단백질 구조 예측 완료

🏆
여기까지 따라오셨다면 본인은 이미:
  • 구글 Colab 위에서 ColabFold(=AlphaFold2/RoseTTAFold)를 직접 돌려봤고
  • 본인이 입력한 시퀀스의 MSA를 1000+ 개 모았고
  • 그 정보로 AI가 만든 3D 단백질 구조를 받았고
  • pLDDT 신뢰도까지 확인했고
  • 결과를 본인 컴퓨터에 ZIP으로 저장했어요.

10년 전 같으면 박사 과정 학생이 1년 걸려도 못 했을 일을, 30분 만에 끝낸 겁니다.

한 번 체크하고 가요

체크 1/3 Q1.

ColabFold 노트북을 열었을 때 가장 먼저 해야 할 일은?

체크 2/3 Q2.

ColabFold 노트북의 셀들을 실행하는 순서는?

체크 3/3 Q3.

ColabFold 실행이 끝나면 결과를 어떻게 받을까요?

다음 챕터로 가기 전에

다운로드 받은 PDB 파일, 그 안을 들여다봅시다

다음 챕터에서는 다운로드 받은 .pdb 파일을 메모장으로 열어서 어떤 정보가 들어있는지 봅니다. ATOM 한 줄에 어떤 게 적혀 있고, pLDDT는 어디에 숨어있는지, model_1~5의 차이는 뭔지 — 떠먹여드려요.