🎯 이 챕터에서 할 것
실제 ColabFold 노트북을 열어서 RoseTTAFold(또는 AlphaFold2)로 단백질 구조 예측을 직접 돌립니다.
Ubiquitin(76 잔기)으로 약 5~10분이면 끝나요. 끝나면 본인 손으로 만든 PDB 파일을 다운로드하게 됩니다.
이 챕터는 "코드 한 줄도 쓰지 않고 따라하기"입니다. 노트북에 이미 모든 코드가 만들어져 있고, 우리는 그냥 ▶ 버튼을 클릭하면 돼요. 순서대로 따라오세요.
STEP 0. 준비물 다시 확인
최종 체크 ✅
- ☐ 구글 계정 로그인 됨 (Chrome 우측 상단 아이콘 확인)
- ☐ Ubiquitin 시퀀스 손에 있음 (또는 본인이 원하는 단백질 시퀀스)
- ☐ 최소 30분 시간 (절대 못 끊김 — 끊기면 다시 시작해야 함)
- ☐ 안정적인 인터넷 (모바일 핫스팟 권장 안 함)
참고용 Ubiquitin 시퀀스 한 번 더 (복붙용):
STEP 1. ColabFold 노트북 열기
브라우저 새 탭에서 다음 링크를 엽니다. 구글 계정으로 자동 로그인됩니다.
colab.research.google.com/github/sokrypton/ColabFold/blob/main/RoseTTAFold.ipynb
또는 더 자주 쓰이는 AlphaFold2 ColabFold:
colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
노트북이 열리면 좌측에 여러 개의 셀이 보입니다. 각 셀에 이미 코드가 들어있고, 그 위에는 한국어가 아닌 영어 설명이 있어요. 무서워하지 마세요 — 그냥 차례대로 ▶ 누르면 됩니다.
STEP 2. ⭐ 가장 먼저 — GPU 런타임 켜기
방법:
- 상단 메뉴 "런타임" 클릭
- "런타임 유형 변경" 클릭
- "하드웨어 가속기" 옵션을 "T4 GPU"로 변경
- "저장" 클릭
변경 후 노트북 우측 상단에 "T4" 또는 "GPU 연결됨"이 표시되면 OK.
STEP 3. 첫 셀 실행 — 환경 설치
노트북 맨 위 셀에 "Install dependencies" 또는 "Setup" 같은 제목이 적혀 있을 거예요. 이 셀이 ColabFold와 필요한 라이브러리를 자동으로 설치합니다.
셀 왼쪽의 ▶ 버튼을 누르면 설치가 시작됩니다.
pip install 어쩌고저쩌고, Downloading 어쩌고저쩌고…
읽지 마세요. 무시하세요. 끝나면 ▶ 옆에 ✓가 뜹니다.
STEP 4. 시퀀스 입력 셀
두 번째 셀에는 "Input sequence" 또는 "Sequence"라는 제목이 있고, 시퀀스를 적는 텍스트 입력란이 있어요. 노트북마다 약간 다른데, 보통 이런 모양입니다.
PPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLR
LRGG"
입력란 채우기
query_sequence입력란에 Ubiquitin 시퀀스를 한 줄로 붙여넣기:MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGGjobname입력란에 알아볼 이름 (예:my_ubi_001) — 영문/숫자/언더스코어만- 나머지 옵션 (
num_relax,template_mode,msa_mode등)은 건드리지 말기 - ▶ 클릭 → 시퀀스가 메모리에 저장됨 (즉시 끝남)
>ubiquitin)는 붙이지 마세요. ColabFold 입력란은 시퀀스 글자만 받습니다.
Robetta처럼 헤더 줄을 같이 넣으면 안 돼요.
STEP 5. MSA 검색 셀
다음 셀은 보통 "Search MSA" 또는 "Run MMseqs2"라는 제목이 있어요. 이 셀이 우리 시퀀스랑 비슷한 단백질들을 Sokrypton의 MMseqs2 서버에서 찾아옵니다.
▶ 누르면 로그가 줄줄이 흘러갑니다:
STEP 6. 구조 예측 셀 (메인 — 가장 오래 걸림)
다음 셀이 진짜 메인입니다. 이름은 "Run prediction", "Predict structure", 또는 그냥 "Run"일 거예요. 이 셀이 알파폴드2/RoseTTAFold를 실제로 돌립니다.
▶ 누르면 다음 같은 로그가 흘러갑니다:
- 모델당 1~2분 (5개 모델 = 5~10분)
- 큰 단백질(500+ 잔기)이면 30분 ~ 1시간
- 매우 큰 단백질(1000+ 잔기)은 무료 GPU 메모리 부족으로 실패할 수 있음
pLDDT 점수 해석
로그에 보이는 pLDDT가 8장에서 소개한 그 신뢰도 점수예요. 0~100 사이로 나옵니다.
- pLDDT 90+: 매우 높은 신뢰도. 실험 결과와 거의 같다고 봐도 됨.
- pLDDT 70~90: 좋은 예측. 큰 구조는 맞고 디테일은 약간 불확실.
- pLDDT 50~70: 보통. 큰 모양은 잡히지만 디테일은 못 믿음.
- pLDDT < 50: 자신 없음. 단백질이 IDP(원래 구조 없음)이거나 MSA가 빈약한 경우.
Ubiquitin은 매우 안정적이고 MSA도 풍부해서 보통 pLDDT 90+가 나옵니다. 90 이상이 나오면 잘 작동한 거예요.
STEP 7. 결과 시각화 셀
다음 셀은 "Visualize" 또는 "Plot results"라는 제목이에요. ▶ 누르면 결과가 페이지 안에 직접 표시됩니다.
표시되는 것들:
- 3D 단백질 모델 (NGL/py3Dmol) — 마우스로 돌려볼 수 있어요. 색깔은 보통 pLDDT 기준 (파랑=고신뢰, 노랑=저신뢰)
- pLDDT 그래프 — X축 잔기 번호, Y축 pLDDT 점수. 어느 부분이 잘 예측됐는지 한눈에 보임.
- PAE (Predicted Aligned Error) 행렬 — N×N 행렬. 두 잔기 사이 거리의 불확실성. 일종의 신뢰도 지도.
- 마우스 좌클릭 드래그 → 단백질 회전
- 마우스 휠 → 줌 인/아웃
- 마우스 우클릭 드래그 → 이동
- α-나선(스프링 모양)과 β-병풍(납작한 화살표)이 보일 거예요
- 색깔 분포로 자신 있는 부분과 자신 없는 부분 확인
STEP 8. 결과 ZIP 다운로드
마지막 셀은 보통 "Download results"예요. ▶ 누르면 ZIP 파일이 본인 컴퓨터로 다운로드됩니다.
ZIP 안에 든 것들:
| 파일명 | 내용 |
|---|---|
{jobname}_unrelaxed_rank_001_model_1.pdb |
가장 좋은 예측 (보통 이거 하나만 봐도 됨) |
...model_2.pdb ~ model_5.pdb |
2~5등 후보 구조 |
{jobname}_plddt.png |
pLDDT 그래프 이미지 |
{jobname}_pae.png |
PAE 행렬 이미지 |
{jobname}.json |
메타데이터 (잔기별 pLDDT 점수 등) |
{jobname}.a3m |
MSA 데이터 (텍스트) |
흔한 문제 트러블슈팅
90분 이상 안 만지면 자동으로 끊깁니다. 다시 연결하고 STEP 1부터 다시 ▶ 누르면 됩니다 (변수가 다 날아가서).
단백질이 너무 큼. 시퀀스를 잘라서 도메인 단위로 따로 돌려보세요. 또는 Colab Pro 가입.
MMseqs2 서버 일시적 다운. 5~10분 기다리고 ▶ 다시.
피크 시간이라 무료 GPU가 다 찼음. 1~2시간 후 다시 시도. 또는 다른 구글 계정으로.
단백질이 IDP일 가능성. 또는 MSA가 너무 빈약. 다른 시퀀스로 재시도 추천.
축하합니다! 본인 손으로 단백질 구조 예측 완료
- 구글 Colab 위에서 ColabFold(=AlphaFold2/RoseTTAFold)를 직접 돌려봤고
- 본인이 입력한 시퀀스의 MSA를 1000+ 개 모았고
- 그 정보로 AI가 만든 3D 단백질 구조를 받았고
- pLDDT 신뢰도까지 확인했고
- 결과를 본인 컴퓨터에 ZIP으로 저장했어요.
10년 전 같으면 박사 과정 학생이 1년 걸려도 못 했을 일을, 30분 만에 끝낸 겁니다.
한 번 체크하고 가요
ColabFold 노트북을 열었을 때 가장 먼저 해야 할 일은?
ColabFold 노트북의 셀들을 실행하는 순서는?
ColabFold 실행이 끝나면 결과를 어떻게 받을까요?