CHAPTER 11 실전 ⏱ 약 12분

☁️ ColabFold가 뭔데?

Robetta보다 빠른 길 — 구글이 빌려주는 GPU 위에서 직접 돌리기

📋이전 챕터에서 뭐 했죠?

제10장 — Robetta 웹서버로 RoseTTAFold 첫 예측

Baker Lab의 Robetta 웹서버에 본인이 직접 시퀀스를 던지고 RoseTTAFold가 만들어준 3D 구조를 받아봤어요. 가장 쉬운 길이지만 큐 대기 때문에 몇 시간 ~ 며칠 걸린다는 단점이 있었습니다.

🎯 이 챕터에서 배울 것

  • ColabFold가 정확히 뭐고, 누가 만들었는지
  • Robetta / 알파폴드 원조 / ColabFold가 어떻게 다른지
  • 왜 ColabFold가 빠른지 (MMseqs2의 비밀)
  • ColabFold로 RoseTTAFold도, 알파폴드도 다 돌릴 수 있다는 것

앞 챕터에서 Robetta는 "시퀀스 던지고 기다리면 메일이 옴" 모델이었어요. 편한데 큐 대기가 길다는 게 문제였습니다. ColabFold는 다른 방식으로 같은 목표(=단백질 구조 예측)에 접근해요. "내가 직접 클라우드 컴퓨터 위에서 돌린다"는 방식.

ColabFold가 뭐임?

ColabFold 알파폴드/로제타폴드를 Google Colab(구글 클라우드) 위에서 누구나 무료로 빠르게 돌릴 수 있게 만든 오픈소스 노트북. Sokrypton 그룹(독일 막스플랑크 + 한국 서울대 + 미국 등)이 만들었음.

원조 알파폴드/로제타폴드는 "코드"였어요. 직접 다운로드해서 본인 컴퓨터에 설치하고, 데이터베이스 수백 GB 받고, GPU 메모리 16GB 이상 확보해서 돌려야 했습니다. 일반 사용자에겐 사실상 불가능이었어요.

그래서 누군가가 생각합니다.

💭
"구글 Colab이 GPU를 무료로 빌려주잖아. 거기다 알파폴드/로제타폴드를 통째로 패키징해서 올려두면, 사람들이 클릭 몇 번으로 무료로 돌릴 수 있지 않을까?"

그게 정확히 ColabFold가 한 일입니다. 2021년 8월, Sergey Ovchinnikov(소크립톤)와 동료들이 첫 버전을 공개했고, 그 후로 단백질 구조 예측 분야에서 가장 많이 쓰이는 도구가 되었어요.

Sokrypton 그룹 — ColabFold를 만든 사람들

ColabFold 코드 저장소는 github.com/sokrypton/ColabFold예요. "sokrypton"이라는 GitHub 계정이 이 도구의 메인 메인테이너입니다.

  • Sergey Ovchinnikov — 메인 개발자. MIT 출신, 현재 학계에서 단백질 디자인 연구
  • Milot Mirdita — MMseqs2 만든 사람. 독일 막스플랑크 연구소. ColabFold가 빠른 진짜 이유의 절반.
  • 여러 오픈소스 기여자들 — 한국, 일본, 유럽 곳곳

완전 오픈소스라 코드도 다 공개되어 있고, 누구나 Pull Request를 보낼 수 있어요. 학계와 시민 개발자들의 합작품이라고 보면 됩니다.

Robetta vs ColabFold — 한눈에 비교

항목 Robetta ColabFold
운영 주체 Baker Lab (워싱턴대) Sokrypton 그룹 (오픈소스)
사용 방식 웹폼에 시퀀스 입력 → 메일 대기 Colab 노트북 직접 실행
대기 시간 몇 시간 ~ 며칠 (큐) 10분 ~ 1시간
결과 받기 이메일 알림 → 링크로 다운로드 Colab에서 즉시 ZIP 다운로드
난이도 매우 쉬움 (폼 채우기) 쉬움 (▶ 버튼 클릭)
컨트롤 제한적 (옵션 적음) 풍부 (모델/리사이클 수/MSA 등)
사용 모델 RoseTTAFold (+ AlphaFold2 옵션) AlphaFold2, RoseTTAFold, ESMFold 등 다양
멀티머 예측 제한적 잘 지원 (AlphaFold-Multimer)
비용 완전 무료 완전 무료 (Colab 무료 티어)
🎯
한 줄 요약: Robetta는 "맡기고 기다리는" 식, ColabFold는 "내가 직접 (쉽게) 실행하는" 식. 급하면 ColabFold, 편하면 Robetta. 둘 다 정답이고 보통은 양쪽 다 돌려서 비교하는 게 좋아요.

왜 ColabFold가 빠른가? — MMseqs2의 비밀

같은 알파폴드/로제타폴드 모델을 돌리는데 ColabFold가 어떻게 더 빠를까요? 답은 MSA 검색 속도에 있어요.

7장에서 봤듯이, 단백질 구조 예측의 핵심에는 MSA(다중서열정렬)가 있습니다. 비슷한 단백질 수천 개를 찾아서 정렬하는 거예요. 이 검색은 거대한 DB(예: UniRef 1억 개 시퀀스)에서 해야 하므로 매우 무거운 작업입니다.

원조 알파폴드의 MSA 검색

원조 알파폴드는 JackHMMERHHblits라는 도구로 MSA를 검색합니다. 매우 정확한데 느려요. 예를 들어 200 잔기 단백질의 MSA를 만드는 데 1~2시간이 걸리는 경우도 흔합니다.

ColabFold의 MSA 검색 — MMseqs2

ColabFold는 MMseqs2(엠엠시퀀스2)라는 더 빠른 검색 도구로 갈아끼웠어요. 정확도는 거의 같지만 10~50배 빠릅니다.

또 한 가지 비밀: ColabFold는 MMseqs2를 자체 서버에서 미리 인덱싱해놓고 HTTP API로 결과만 받아옵니다. 그러니까 본인의 Colab GPU는 MSA 검색은 안 하고 받아오기만 해요. 이 구조 덕분에 200 잔기 단백질이 5~10분 만에 결과까지 나옵니다.

ColabFold가 지원하는 모델들

ColabFold는 단일 모델이 아니라 여러 단백질 구조 예측 모델을 모두 지원하는 플랫폼이에요. 노트북마다 다른 모델을 쓸 수 있습니다.

📘 AlphaFold2 ColabFold
가장 정확. 대부분의 사람들이 이걸 씁니다.
  • 가장 정확도가 높음 (CASP14 GDT 92)
  • 단일체(monomer) + 멀티머(multimer) 모두 지원
  • 노트북 URL: colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
🧪 RoseTTAFold ColabFold
Baker Lab의 RF를 ColabFold 환경에서.
  • 정확도는 AlphaFold2보다 약간 낮음, 하지만 GPU 메모리 적게 씀
  • 오픈소스 응용 작업에 적합
  • 지금 우리가 다루는 그 RoseTTAFold
🚀 ESMFold
MSA 없이 시퀀스만으로 예측. 빠름.
  • Meta AI 작품. 언어 모델 방식.
  • MSA 검색 안 하니까 매우 빠름 (1~2분)
  • 정확도는 알파폴드보다 좀 떨어지지만 단순 스크리닝엔 OK
🎨 RFdiffusion (단백질 디자인)
기존 구조 예측을 거꾸로 — "이런 모양 단백질을 디자인해줘"
  • Baker Lab 작품. 2023년 발표.
  • "구조를 보고 시퀀스 만들기" 가능
  • 의약 디자인에 핵심. 이 웹북 범위 밖이지만 알아두면 좋음.
🎯
이 웹북에서는 일단 RoseTTAFold ColabFold를 다룹니다. 그래야 Robetta와 같은 모델을 ColabFold 환경에서 돌리는 게 어떤지 비교할 수 있거든요. 하지만 다음 챕터(12, 13)에서 배우는 Colab 사용법은 다른 모델 노트북에서도 그대로 적용됩니다.

구글 Colab이 뭐임? (잠깐 옆길)

ColabFold를 쓰려면 Colab을 먼저 이해해야 하니 1분만 옆길로 새요. 다음 챕터에서 자세히 다루지만, 큰 그림은 지금 잡고 가는 게 좋아요.

Google Colab (Colaboratory) 구글이 무료로 제공하는 클라우드 기반 Python 노트북 환경. 본인 컴퓨터에 아무것도 설치 안 하고 브라우저에서 Python 코드를 실행할 수 있다. 무료 티어로 GPU(T4)도 빌려준다.

Colab을 처음 보는 사람을 위해 한 문장으로 정리하면:

💬
"구글이 무료로 빌려주는, GPU가 달린 임시 컴퓨터를 브라우저에서 쓰는 것."

거기 위에 ColabFold가 미리 패키징되어 있고, 우리는 그냥 ▶ 버튼 몇 번 누르면 됩니다. 다음 챕터에서 정말 처음 보는 사람도 안 헷갈리게 인터페이스 하나하나 설명할 거예요.

주의: 무료 GPU의 한계

⚠️
Colab 무료 티어의 한계:
  • 하루에 사용 가능한 GPU 시간이 제한됨 (대략 5~12시간)
  • 한 세션 최대 12시간 (보통은 90분 정도 안 쓰면 끊김)
  • 너무 큰 단백질(1000+ 잔기)은 메모리 부족으로 실패할 수 있음
  • 피크 시간엔 GPU 못 받을 수도 있음 ("리소스 부족" 메시지)

그래도 우리가 다룰 단백질(Ubiquitin 76개, Myoglobin 154개)은 무료 티어로 충분히 빠르게 처리됩니다.

연구실에서 정기적으로 쓰려면 Colab Pro($10/월) 또는 Pro+($50/월) 가입을 추천해요. 더 좋은 GPU(A100), 더 긴 세션, 더 많은 우선순위가 주어집니다. 하지만 학습 목적이라면 무료로 충분합니다.

요약 — 이 챕터에서 가져갈 것

📚 핵심 정리

  1. ColabFold = Sokrypton 그룹이 만든 오픈소스 노트북 — Colab에서 알파폴드/로제타폴드를 무료로 돌리게 해줌
  2. Robetta보다 빠르고 직접 컨트롤 가능 — 단점은 본인이 직접 셀을 클릭해서 돌려야 함 (어렵진 않음)
  3. MMseqs2 덕분에 MSA 검색이 10~50배 빠름 — 200 잔기 단백질도 5~10분
  4. 여러 모델을 다 지원 — AlphaFold2, RoseTTAFold, ESMFold 등
  5. 구글 계정만 있으면 무료로 GPU 사용 가능

한 번 체크하고 가요

체크 1/3 Q1.

Robetta와 비교할 때 ColabFold의 주요 장점은?

체크 2/3 Q2.

MMseqs2는 무엇을 하는 도구일까요?

체크 3/3 Q3.

ColabFold로 돌릴 수 있는 단백질 구조 예측 모델은?

다음 챕터로 가기 전에

Colab 인터페이스를 처음 보면 무서워 보일 수 있어요

다음 챕터에서는 Colab 노트북이 도대체 어떻게 생겼는지, 셀이 뭔지, ▶ 버튼이 뭔지를 생물쟁이가 처음 봐도 안 무섭게 정리합니다. 코드 한 줄 안 짭니다 — 그냥 이미 만들어진 노트북을 "읽고 클릭하는 법"만 배우면 돼요.