🎯 이 챕터에서 배울 것
- ColabFold가 정확히 뭐고, 누가 만들었는지
- Robetta / 알파폴드 원조 / ColabFold가 어떻게 다른지
- 왜 ColabFold가 빠른지 (MMseqs2의 비밀)
- ColabFold로 RoseTTAFold도, 알파폴드도 다 돌릴 수 있다는 것
앞 챕터에서 Robetta는 "시퀀스 던지고 기다리면 메일이 옴" 모델이었어요. 편한데 큐 대기가 길다는 게 문제였습니다. ColabFold는 다른 방식으로 같은 목표(=단백질 구조 예측)에 접근해요. "내가 직접 클라우드 컴퓨터 위에서 돌린다"는 방식.
ColabFold가 뭐임?
원조 알파폴드/로제타폴드는 "코드"였어요. 직접 다운로드해서 본인 컴퓨터에 설치하고, 데이터베이스 수백 GB 받고, GPU 메모리 16GB 이상 확보해서 돌려야 했습니다. 일반 사용자에겐 사실상 불가능이었어요.
그래서 누군가가 생각합니다.
그게 정확히 ColabFold가 한 일입니다. 2021년 8월, Sergey Ovchinnikov(소크립톤)와 동료들이 첫 버전을 공개했고, 그 후로 단백질 구조 예측 분야에서 가장 많이 쓰이는 도구가 되었어요.
Sokrypton 그룹 — ColabFold를 만든 사람들
ColabFold 코드 저장소는 github.com/sokrypton/ColabFold예요. "sokrypton"이라는 GitHub 계정이 이 도구의 메인 메인테이너입니다.
- Sergey Ovchinnikov — 메인 개발자. MIT 출신, 현재 학계에서 단백질 디자인 연구
- Milot Mirdita — MMseqs2 만든 사람. 독일 막스플랑크 연구소. ColabFold가 빠른 진짜 이유의 절반.
- 여러 오픈소스 기여자들 — 한국, 일본, 유럽 곳곳
완전 오픈소스라 코드도 다 공개되어 있고, 누구나 Pull Request를 보낼 수 있어요. 학계와 시민 개발자들의 합작품이라고 보면 됩니다.
Robetta vs ColabFold — 한눈에 비교
| 항목 | Robetta | ColabFold |
|---|---|---|
| 운영 주체 | Baker Lab (워싱턴대) | Sokrypton 그룹 (오픈소스) |
| 사용 방식 | 웹폼에 시퀀스 입력 → 메일 대기 | Colab 노트북 직접 실행 |
| 대기 시간 | 몇 시간 ~ 며칠 (큐) | 10분 ~ 1시간 |
| 결과 받기 | 이메일 알림 → 링크로 다운로드 | Colab에서 즉시 ZIP 다운로드 |
| 난이도 | 매우 쉬움 (폼 채우기) | 쉬움 (▶ 버튼 클릭) |
| 컨트롤 | 제한적 (옵션 적음) | 풍부 (모델/리사이클 수/MSA 등) |
| 사용 모델 | RoseTTAFold (+ AlphaFold2 옵션) | AlphaFold2, RoseTTAFold, ESMFold 등 다양 |
| 멀티머 예측 | 제한적 | 잘 지원 (AlphaFold-Multimer) |
| 비용 | 완전 무료 | 완전 무료 (Colab 무료 티어) |
왜 ColabFold가 빠른가? — MMseqs2의 비밀
같은 알파폴드/로제타폴드 모델을 돌리는데 ColabFold가 어떻게 더 빠를까요? 답은 MSA 검색 속도에 있어요.
7장에서 봤듯이, 단백질 구조 예측의 핵심에는 MSA(다중서열정렬)가 있습니다. 비슷한 단백질 수천 개를 찾아서 정렬하는 거예요. 이 검색은 거대한 DB(예: UniRef 1억 개 시퀀스)에서 해야 하므로 매우 무거운 작업입니다.
원조 알파폴드의 MSA 검색
원조 알파폴드는 JackHMMER와 HHblits라는 도구로 MSA를 검색합니다. 매우 정확한데 느려요.
예를 들어 200 잔기 단백질의 MSA를 만드는 데 1~2시간이 걸리는 경우도 흔합니다.
ColabFold의 MSA 검색 — MMseqs2
ColabFold는 MMseqs2(엠엠시퀀스2)라는 더 빠른 검색 도구로 갈아끼웠어요. 정확도는 거의 같지만 10~50배 빠릅니다.
ColabFold가 지원하는 모델들
ColabFold는 단일 모델이 아니라 여러 단백질 구조 예측 모델을 모두 지원하는 플랫폼이에요. 노트북마다 다른 모델을 쓸 수 있습니다.
- 가장 정확도가 높음 (CASP14 GDT 92)
- 단일체(monomer) + 멀티머(multimer) 모두 지원
- 노트북 URL:
colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
- 정확도는 AlphaFold2보다 약간 낮음, 하지만 GPU 메모리 적게 씀
- 오픈소스 응용 작업에 적합
- 지금 우리가 다루는 그 RoseTTAFold
- Meta AI 작품. 언어 모델 방식.
- MSA 검색 안 하니까 매우 빠름 (1~2분)
- 정확도는 알파폴드보다 좀 떨어지지만 단순 스크리닝엔 OK
- Baker Lab 작품. 2023년 발표.
- "구조를 보고 시퀀스 만들기" 가능
- 의약 디자인에 핵심. 이 웹북 범위 밖이지만 알아두면 좋음.
구글 Colab이 뭐임? (잠깐 옆길)
ColabFold를 쓰려면 Colab을 먼저 이해해야 하니 1분만 옆길로 새요. 다음 챕터에서 자세히 다루지만, 큰 그림은 지금 잡고 가는 게 좋아요.
Colab을 처음 보는 사람을 위해 한 문장으로 정리하면:
거기 위에 ColabFold가 미리 패키징되어 있고, 우리는 그냥 ▶ 버튼 몇 번 누르면 됩니다. 다음 챕터에서 정말 처음 보는 사람도 안 헷갈리게 인터페이스 하나하나 설명할 거예요.
주의: 무료 GPU의 한계
- 하루에 사용 가능한 GPU 시간이 제한됨 (대략 5~12시간)
- 한 세션 최대 12시간 (보통은 90분 정도 안 쓰면 끊김)
- 너무 큰 단백질(1000+ 잔기)은 메모리 부족으로 실패할 수 있음
- 피크 시간엔 GPU 못 받을 수도 있음 ("리소스 부족" 메시지)
그래도 우리가 다룰 단백질(Ubiquitin 76개, Myoglobin 154개)은 무료 티어로 충분히 빠르게 처리됩니다.
연구실에서 정기적으로 쓰려면 Colab Pro($10/월) 또는 Pro+($50/월) 가입을 추천해요. 더 좋은 GPU(A100), 더 긴 세션, 더 많은 우선순위가 주어집니다. 하지만 학습 목적이라면 무료로 충분합니다.
요약 — 이 챕터에서 가져갈 것
📚 핵심 정리
- ColabFold = Sokrypton 그룹이 만든 오픈소스 노트북 — Colab에서 알파폴드/로제타폴드를 무료로 돌리게 해줌
- Robetta보다 빠르고 직접 컨트롤 가능 — 단점은 본인이 직접 셀을 클릭해서 돌려야 함 (어렵진 않음)
- MMseqs2 덕분에 MSA 검색이 10~50배 빠름 — 200 잔기 단백질도 5~10분
- 여러 모델을 다 지원 — AlphaFold2, RoseTTAFold, ESMFold 등
- 구글 계정만 있으면 무료로 GPU 사용 가능
한 번 체크하고 가요
Robetta와 비교할 때 ColabFold의 주요 장점은?
MMseqs2는 무엇을 하는 도구일까요?
ColabFold로 돌릴 수 있는 단백질 구조 예측 모델은?