CHAPTER 07 AI 비밀 ⏱ 약 12분

🧩 MSA — 진화 정보의 마법

비슷한 단백질 수천 개를 동시에 비교하면 답이 보인다

📋이전 챕터에서 뭐 했죠?

제6장 — 단백질 시퀀스 읽는 법 (FASTA)

FASTA 포맷으로 단백질 시퀀스를 어떻게 표기하는지 봤어요. >로 시작하는 헤더 한 줄, 그 다음 20개 아미노산을 1글자로 적은 시퀀스. M으로 시작하고, C는 다리(disulfide bond)를 만든다는 것까지.

지금까지는 큰 그림 — "단백질 구조 예측이 50년 난제였고, 알파폴드/로제타폴드가 풀었다" — 만 봤어요. 이제 본격적으로 "그래서 도대체 어떻게 풀었냐"로 들어갑니다. 그 핵심에 MSA가 있어요.

이 챕터 한 줄 요약:

🔑
"한 단백질의 시퀀스만 보지 말고, 비슷한 단백질 수천 개를 동시에 비교해라. 진화가 우리에게 답을 알려준다."

MSA가 뭐임?

MSA (Multiple Sequence Alignment) 여러 생물에서 발견되는, "비슷하지만 조금씩 다른" 같은 역할의 단백질 시퀀스들을 가로로 줄을 맞춰서 한꺼번에 비교한 표.

한국말로 풀면 "다중서열정렬"인데, 표를 한 번 보면 이름이 와닿아요. 예를 들어볼게요.

미오글로빈(myoglobin)이라는 단백질이 사람한테만 있는 게 아니라 고래, 말, 쥐, 닭 등 거의 모든 척추동물에 있어요. 이름은 같지만 시퀀스는 종마다 조금씩 다릅니다. 그 시퀀스들을 가로로 줄 맞춰서 늘어놓으면:

잔기 위치:    1  2  3  4  5  6  7  8  9 10 11 12 13 14 15
>Human
M  G  L  S  D  G  E  W  Q  L  V  L  N  V  W
>Whale
M  V  L  S  E  G  E  W  Q  L  V  L  H  V  W
>Horse
M  G  L  S  D  G  E  W  Q  Q  V  L  N  V  W
>Mouse
M  G  L  S  D  G  E  W  Q  L  V  L  N  V  W
>Chicken
M  G  L  S  D  Q  E  W  Q  L  V  L  K  V  W
보존도:    ★  ·  ★  ★  ·  ·  ★  ★  ·  ·  ★  ·  ★  ★

보세요. 1번 위치는 모든 종에서 M 한 종류만 나옵니다. 완전 보존된(conserved) 위치예요. 반대로 2번 위치는 G/V로 갈리고, 5번 위치는 D/E로 갈리고…

완전히 보존된 위치는 보통 기능에 핵심적인 잔기예요. 바꿀 수 없는 위치, 즉 진화가 절대 손대지 못한 자리. 어떤 위치는 자유롭게 바뀌는데, 또 어떤 위치는 절대 안 바뀐다는 게 큰 단서가 됩니다.

왜 이게 단백질 구조 예측의 핵심이 되었나?

1세대 알파폴드(2018) 이전까지, 컴퓨터 예측은 대부분 "한 단백질 시퀀스 하나만 보고" 풀려고 했어요. 근데 사실 한 시퀀스만 봐선 정보가 절대적으로 부족합니다. 그래서 안 풀렸어요.

2018년경부터 사람들이 깨닫기 시작합니다: "수십~수천 개의 비슷한 단백질을 같이 보면 답이 보인다." 이게 게임 체인저였어요.

공진화(Coevolution) — MSA의 진짜 마법

MSA를 잘 들여다보면 "항상 같이 변하는 두 위치"가 보입니다. 예를 들어:

위치:      15     42
>Sp1
K……D
>Sp2
R……E
>Sp3
K……D
>Sp4
R……E
>Sp5
K……D
15번이 K이면 42번은 항상 D. 15번이 R이면 42번은 항상 E.

이게 우연일 가능성은 낮습니다. 15번과 42번이 3D 공간에서 가까이 있고 서로 짝을 이뤄야 단백질이 제대로 작동한다는 뜻이에요. 한 쪽이 K→R로 바뀌면 다른 쪽도 짝 맞춰 D→E로 바뀌어야 단백질이 살아남는 거죠.

💡 공진화(Coevolution)

두 잔기가 진화에서 같이 변하는 패턴. 이는 곧 그 두 잔기가 3D 구조에서 가까이 있어 직접 상호작용한다는 강력한 단서입니다.

AI한테는 이게 황금 정보예요. 시퀀스만 봐선 모르는 "두 잔기 사이 거리"를 진화 정보가 알려주는 거니까요.

1500개 잔기짜리 단백질에 가능한 잔기 쌍은 약 100만 개입니다. MSA에서 공진화 패턴을 잡아내면 "이 쌍은 가깝다", "저 쌍은 멀다" 같은 단서가 수십만 개 모여요. AI는 이걸 다 활용해서 3D 좌표를 풀어냅니다.

그래서 MSA는 어떻게 만드나? — MMseqs2 / HHblits

직접 만들 필요는 없어요. 컴퓨터가 알아서 해줍니다.

  1. 당신이 시퀀스(쿼리) 하나 제공
  2. 컴퓨터가 거대한 단백질 시퀀스 데이터베이스에서 비슷한 시퀀스를 찾음 (UniRef, BFD, MGnify 등)
  3. 찾은 시퀀스 수백 ~ 수천 개를 가로로 정렬해서 MSA 표 완성

이 과정에서 쓰이는 검색 도구가 MMseqs2(엠엠시퀀스2)와 HHblits(에이치에이치 블리츠)예요. 이름은 외울 필요 없고, "MSA 검색기" 정도로 알아두시면 됩니다. ColabFold는 MMseqs2를 씁니다 — 이게 매우 빨라요.

참고로 ColabFold가 알파폴드보다 빠른 비밀이 여기 있어요. 원조 알파폴드는 MSA 검색에 JackHMMER라는 느린 도구를 썼는데, ColabFold는 MMseqs2로 갈아끼워서 MSA 검색만 수십 배 빨라졌습니다. 그래서 무료 Colab GPU로도 빠르게 결과가 나와요.

MSA가 적으면 어떻게 되나? — Single-sequence 모드의 한계

만약 어떤 단백질이 너무 새로워서 비슷한 친구가 데이터베이스에 없다면? 또는 본인이 디자인한 인공 단백질이라면? 이런 경우에는 MSA가 매우 빈약해요. 그러면 예측 정확도가 떨어집니다.

이럴 때를 위해 ESMFold 같은 single-sequence 모델도 등장했어요. 진화 정보 없이도 시퀀스만으로 예측합니다. 정확도는 약간 떨어지지만, 일부 경우에 더 유용해요. 이건 다음 차수에서 다룹니다.

정리: MSA가 왜 알파폴드/로제타폴드의 비밀병기인가?

🎯 핵심

  1. 한 시퀀스만 보면 정보가 부족하다 → 50년간 안 풀린 이유
  2. 비슷한 단백질 수천 개를 가로로 비교(MSA)하면 진화의 단서가 보인다
  3. 특히 공진화 패턴 = 두 잔기가 3D 공간에서 가깝다는 강력한 단서
  4. AI는 이 단서들을 종합해서 3D 구조를 풀어낸다

이게 알파폴드/로제타폴드가 "옛날 방법"과 다른 본질적인 이유입니다. 시퀀스 한 줄이 아닌, 진화 전체의 결과물을 입력으로 받는 거예요.

한 번 체크하고 가요

체크 1/3 Q1.

MSA(Multiple Sequence Alignment)란 무엇일까요?

체크 2/3 Q2.

두 잔기가 진화에서 같이 변하는 패턴이 보이면 무엇을 의미할까요?

체크 3/3 Q3.

MSA에 잡힌 비슷한 시퀀스가 많을 때, 일반적으로 구조 예측 정확도는?

다음 챕터로 가기 전에

이제 RF 안에서 무슨 일이 벌어지는지 봅시다

MSA가 입력으로 들어가서 어떻게 3D 좌표가 나오는지 — 그 중간 과정 (3-track network) 을 이번엔 좀 더 자세히 봅니다. "두 잔기 사이 거리"가 어떻게 그림으로 표현되고, 어떻게 좌표로 변환되는지.