CHAPTER 05 AI 혁명 ⏱ 약 10분

🧪 로제타폴드의 등장

Baker 연구실의 카운터펀치

📋이전 챕터에서 뭐 했죠?

제4장 — 2020년, 알파폴드가 모든 걸 바꿨다

2020년 알파폴드2가 CASP14에서 GDT 92점이라는 압도적 성적으로 50년 난제를 사실상 해결했습니다. 딥마인드가 만들었고, 2024년 노벨화학상까지 받았어요. 근데 사실 그 노벨상은 셋이 같이 받았는데, 그중 한 명이 바로 로제타폴드를 만든 데이비드 베이커입니다.

드디어 우리 주인공 등장이에요. 로제타폴드(RoseTTAFold)를 만든 사람과 이야기, 그리고 알파폴드와 어떻게 다른지 봅시다.

주인공: 데이비드 베이커 (David Baker)

미국 워싱턴 대학교의 단백질 과학 연구자입니다. 그의 연구실 — 흔히 "베이커 랩(Baker Lab)"이라고 부르는 곳 — 은 30년 가까이 단백질 구조와 디자인을 연구해온 단백질 분야의 최강팀 중 하나예요.

원래 베이커 랩이 만든 가장 유명한 소프트웨어가 "Rosetta"라는 단백질 구조 예측 프로그램이었어요. 이 Rosetta는 2010년대 내내 CASP 대회에서 상위권을 차지하던 베이커 랩의 자랑이었습니다.

알파폴드2가 나온 그 순간, 베이커 랩의 심정

😱
"수십 년 동안 우리가 풀어온 문제를, 구글 자회사가 한 번에 끝내버렸다…"

2020년 12월 알파폴드2 결과가 발표된 직후, 베이커 랩 연구원들의 마음을 상상해보세요. 회의 분위기가 어땠을지. 그런데 베이커 랩은 가만히 있지 않았어요. "우리도 만들자"로 방향을 바꿉니다.

오픈소스가 아니었던 알파폴드2

2020년 11월에 알파폴드2가 발표됐을 때, 딥마인드는 방법론 논문만 공개하고 코드는 공개하지 않았어요. 그래서 다른 연구자들은 직접 비슷한 시스템을 만들어야 했습니다.

베이커 랩은 알파폴드2의 큰 그림(아키텍처 개념)을 읽고, 자기들 나름의 방식으로 같은 결과를 내는 시스템을 만들기 시작합니다. 그 결과물이 RoseTTAFold예요. 2021년 7월에 발표됐습니다.

"3-track network" — 로제타폴드의 핵심 아이디어

로제타폴드의 핵심 아이디어는 이름에 그대로 박혀 있어요. "tracks" = 트랙(차선)이 3개라는 뜻입니다. 무슨 말이냐면 — 단백질을 예측할 때 정보를 세 가지 다른 형태로 동시에 다룬다는 뜻이에요.

1D Track 시퀀스 정보 (아미노산 한 줄) M A K S L V Q R M-A-K-S-L-V-Q-R… "각 아미노산이 누구인지" (글자 시퀀스) 2D Track 두 아미노산 쌍 사이 (거리/접촉 행렬) "i번째 아미노산과 j번째 사이 거리 / 접촉 확률" 3D Track 실제 3D 좌표 (x, y, z 위치) "각 원자가 공간에서 어디에 있는지"
로제타폴드의 3-track 구조 — 1D, 2D, 3D 정보를 동시에 주고받으며 구조를 예측

3개 트랙의 정보가 서로 영향을 주고받으면서 동시에 다듬어집니다. 시퀀스 정보(1D)가 좋아지면 거리 행렬(2D)도 더 정확해지고, 그게 다시 3D 좌표를 더 잘 예측하게 만들고… 이 과정이 계속 반복되면서 점점 더 정확한 답에 수렴해갑니다.

🧠
큰 그림 비유: 한 부서가 다른 두 부서랑 계속 회의하면서 같이 결론을 내는 거예요. "내가 본 단어로는 이런데", "내가 본 좌표로는 이런데", "내가 본 거리 행렬로는 이런데" 셋이 계속 맞춰가는 거죠. 옛날 방법들은 한 가지 정보만 쓰던 게 한계였어요.

로제타폴드 vs 알파폴드2 — 뭐가 다른가?

항목 AlphaFold2 RoseTTAFold
개발팀 DeepMind (구글) Baker Lab (워싱턴대)
발표 시점 2020년 11월 2021년 7월
정확도 매우 높음 (CASP14 GDT 92) 높음 (CASP14 적용 GDT ~80~85)
속도 상대적으로 느림 상대적으로 빠름 (메모리도 적게 씀)
아키텍처 2-track (Evoformer) 3-track (1D+2D+3D)
오픈소스 2021년 7월 공개 (RF 자극) 처음부터 완전 오픈소스 ✨

그래서 어느 게 더 나은가?

2024년 기준으로 보면, 순수 정확도는 알파폴드2가 더 좋습니다. 그래서 단순히 "예측 결과만 빠르고 정확하게" 얻고 싶으면 알파폴드를 쓰는 게 맞아요.

하지만 로제타폴드가 사랑받는 이유가 따로 있어요.

💚 로제타폴드의 강점

  • 완전 오픈소스. 코드, 학습 데이터, 모델 가중치 모두 공개. 자유롭게 수정 가능.
  • 가볍다. 알파폴드2보다 GPU 메모리를 덜 먹어서 일반 GPU로도 큰 단백질을 다룰 수 있음.
  • 변종 만들기 좋다. RoseTTAFold All-Atom, RoseTTAFold Diffusion 등 응용 버전이 계속 나옴.
  • 단백질 디자인에 강하다. 베이커 랩의 본업이 단백질을 새로 디자인하는 거라, 이 방향에서 압도적.

즉 알파폴드2는 "이미 존재하는 단백질의 모양을 예측"하는 데 챔피언이고, 로제타폴드는 "오픈소스 + 응용 가능성"의 챔피언이에요. 둘이 라이벌이면서도 서로를 자극하며 같이 발전하고 있습니다.

그리고 2024년 노벨화학상

🏆
2024년 노벨화학상 수상자 3명:
  • 데미스 허사비스 & 존 점퍼 — AlphaFold2 (1/2 공동 수상)
  • 데이비드 베이커 — 단백질 디자인 분야 30년 공헌 + RoseTTAFold (1/2 단독 수상)

베이커는 단순히 "RoseTTAFold 만든 사람"이 아니라, 그 전부터 단백질을 새로 디자인해서 자연에 없는 단백질을 실제로 만들어내는 일을 30년 가까이 해왔어요. 노벨상은 그 모든 공로를 합쳐서 준 거예요.

이 웹북에서 우리가 할 일

이제 우리가 어디로 갈지 정리하면:

  1. 2차 공개분 (예정)에서 로제타폴드 안에 뭐가 들어있는지 좀 더 자세히 (3-track 디테일)
  2. 2차 공개분 (예정)에서 ColabFold라는 도구로 알파폴드와 로제타폴드를 둘 다 무료로 돌려보기
  3. 2차 공개분 (예정)에서 예측 결과를 받아 3D로 직접 돌려보기

하지만 그 전에 한 가지 더 알아야 해요. 단백질 시퀀스 표기법(FASTA). 다음 챕터에서 다룹니다.

한 번 체크하고 가요

체크 1/3 Q1.

로제타폴드는 어디서 만들었을까요?

체크 2/3 Q2.

로제타폴드의 "3-track network"는 어떤 3가지 정보를 다룰까요?

체크 3/3 Q3.

데이비드 베이커가 단백질 디자인 + 로제타폴드 공로로 노벨화학상을 받은 연도는?

다음 챕터로 가기 전에

이제 실제 시퀀스 표기법(FASTA)을 봅시다

다음 챕터에서는 실제로 우리가 로제타폴드에 넣을 단백질 시퀀스가 어떻게 생겼는지 봅니다. FASTA 포맷이라는 텍스트 형식인데, 한 번 보면 별거 아니에요. 그리고 위에서 본 1글자 아미노산 코드가 진짜로 어떻게 쓰이는지 직접 볼 거예요.