CHAPTER 03 역사 ⏱ 약 10분

⏳ 50년간 풀리지 않던 난제

컴퓨터로 구조 예측, 그 험난한 여정

📋이전 챕터에서 뭐 했죠?

제2장 — 옛날엔 어떻게 단백질 모양을 알아냈을까?

X선 결정학으로 단백질 구조를 한 개씩 풀어내는 게 얼마나 노가다였는지 봤어요. 한 단백질에 몇 달~몇 년, 1년에 약 2800개 페이스. 자연계 단백질은 2억 개 이상. 이래선 끝이 안 보입니다. 그래서 사람들은 "컴퓨터로 시퀀스에서 바로 구조를 예측할 수 없을까?" 꿈을 꾸기 시작했어요.

이번 챕터의 큰 그림: "컴퓨터로 단백질 3D 구조를 예측하는 것"은 50년 동안 안 풀린 난제였다. 도대체 왜 그렇게 어려웠을까? 그걸 풀어볼게요.

이 문제의 정식 이름: 단백질 폴딩 문제

단백질 폴딩 문제 Protein Folding Problem. 아미노산 서열(1차 구조)만 주어졌을 때, 그 단백질이 자연에서 어떤 3차 구조로 접힐지 예측하는 문제.

1960년대에 크리스천 안핀선(Christian Anfinsen)이라는 사람이 실험으로 보여줬어요. "단백질을 망쳐놓고 다시 풀어주면, 알아서 원래 모양으로 접힌다." 즉, 3D 모양에 필요한 정보가 1차 서열에 다 들어 있다는 뜻이에요. 이걸 안핀선의 가설(Anfinsen's dogma)이라고 부르고, 그 공로로 1972년 노벨화학상을 받습니다.

근데 여기서 모순이 생깁니다.

🤔
"정보가 1차 서열에 다 있다고? 그럼 컴퓨터로도 그 정보를 읽어서 모양을 계산해낼 수 있어야 하는 거 아닌가? 아니, 50년이나 못 했다고?"

맞아요. 그게 바로 답이 안 나온 게 황당했던 이유입니다. 정보는 거기 있는데, 어떻게 꺼내야 할지를 몰랐어요.

왜 이렇게 어려웠을까? — 경우의 수가 미쳤음

한 가지 비유로 시작해봅시다. 100개짜리 아미노산 사슬이 있다고 칩시다. 각 아미노산이 옆 아미노산과 만드는 각도(이걸 φ, ψ 각도라고 합니다)가 대략 3가지 정도라고 가정해볼게요.

그러면 가능한 단백질 모양은? 3100 ≈ 5 × 1047입니다.

🤯
5 × 1047이 얼마나 큰 숫자냐면… 우주 전체에 있는 원자 수가 약 1080이에요. 5 × 1047은 그 정도까지는 아니지만, "현존하는 모든 컴퓨터로 한 모양당 1조분의 1초씩만 검사해도 우주 나이보다 오래 걸리는" 정도입니다. 그냥 모든 모양을 다 시도해보는 건 절대 불가능해요.

이걸 레빈탈의 역설(Levinthal's paradox)이라고 부릅니다. "모든 모양을 무작위로 시도해서 정답을 찾는다면 단백질이 1초 안에 접히는 게 말이 안 된다. 근데 실제 단백질은 1초 안에 접힌다." 자연은 뭔가 영리한 길을 알고 있는 거죠. 우리가 모를 뿐.

그래서 어떻게 풀려고 했나? — 50년의 도전

컴퓨터로 단백질 구조를 풀어보겠다는 시도는 크게 두 갈래로 갈렸습니다.

접근 1: 물리법칙 풀어내기 (Molecular Dynamics, MD)

원자 하나하나의 힘을 다 계산해서 시간에 따라 어떻게 움직이는지 시뮬레이션 하는 방법. 이론적으로는 가장 정확한 답을 줄 수 있어요.

문제: 1초 분량의 단백질 움직임을 시뮬레이션하는 데 슈퍼컴퓨터로도 몇 년이 걸려요. 실제로 단백질이 자연에서 1초 안에 접힌다고 해도, 우리가 그걸 컴퓨터로 흉내내려면 어마어마한 계산이 필요합니다.

접근 2: 비슷한 단백질에서 단서 찾기 (Homology Modeling)

"이 단백질과 비슷한 시퀀스를 가진 단백질의 구조를 이미 알고 있다면, 그 구조를 베껴 쓰자"라는 발상. 한국말로 "비슷한 친구 보고 따라 그리기" 정도예요.

문제: 비슷한 친구가 PDB에 없으면 끝. 그리고 친구가 있어도 디테일이 다른 부분을 못 그립니다. 완전히 새로운 단백질에는 못 써요.

CASP — 단백질 폴딩 올림픽

1994년부터 CASP(Critical Assessment of Structure Prediction)라는 대회가 시작됩니다. 한국말로는 "단백질 구조 예측 대회"예요. 2년마다 한 번씩 열립니다.

📋 CASP는 어떻게 진행되나?

  1. 주최 측이 아직 PDB에 공개되지 않은 단백질들의 시퀀스만 공개합니다 (실험은 진행 중).
  2. 전 세계 연구팀이 그 시퀀스를 받아서 자기네 알고리즘으로 3D 구조를 예측합니다.
  3. 몇 달 뒤 실험 결과가 나오면, 어느 팀의 예측이 가장 정확했는지 비교합니다.
  4. 가장 정확한 팀이 우승. 일종의 단백질 폴딩 올림픽.

측정 지표: GDT 점수

정확도를 어떻게 잴까요? CASP에서 쓰는 가장 중요한 점수가 GDT_TS(Global Distance Test, Total Score)입니다.

  • 100점: 예측이 실험 결과와 완벽히 일치
  • 50점: 대충 비슷한 모양, 자세히 보면 많이 틀림
  • 0점: 완전 빗나감

일반적으로 GDT 90점 이상이면 "실험 결과와 거의 같다"고 봅니다. 즉 의약 연구 등 실용 가능한 수준이에요.

CASP의 성적표 (2018년까지)

0 25 50 75 100 GDT_TS 점수 실험 수준 (90) '94 '96 '98 '00 '04 '08 '12 '16 '18 AF1 '20 AF2 ⚡ CASP 회차 (연도)
CASP 회차별 1등 팀의 GDT_TS 점수 (대략적). 24년 동안 천천히 올라가다가 2020년에 폭발

보시는 대로, 1994년부터 2018년까지 24년 동안 1등 점수는 30점에서 60점 사이를 오갔습니다. 실험과 비교하면 모양은 비슷하지만 디테일은 많이 틀린 수준이에요. 실제 의약 개발에는 사용 못 합니다.

왜 이렇게 안 풀렸을까?

사람들은 진짜 다양한 방법을 시도했어요. 통계적 방법, 물리 시뮬레이션, 기계학습 초기 버전들… 그런데 다 한계가 비슷했습니다. 핵심 정보가 빠져 있었어요.

🧩
나중에 알파폴드가 보여준 답: "시퀀스 하나만 보면 안 된다. 비슷한 단백질 수천 개를 동시에 비교해서 진화 정보를 읽어야 한다." 이게 MSA(Multiple Sequence Alignment)라는 개념인데, 다음 다음 챕터(5장)에서 자세히 다뤄요. 지금은 "옛날 방법들은 이 진화 정보를 충분히 활용 못 했다"고만 기억하시면 됩니다.

2018년의 첫 충격: 알파폴드 1세대

2018년 CASP13 대회에 갑자기 새 얼굴이 등장합니다. 딥마인드(DeepMind) — 알파고를 만든 그 회사예요.

딥마인드가 들고 온 "알파폴드(AlphaFold)"가 단숨에 1등을 차지합니다. 점수는 GDT 약 58점. 얼핏 보면 그저 1~2등 차이로 우승한 거지만, 학계에서는 충격이었어요. 구글 자회사 한 곳이 수십 년 단백질을 연구한 학계 베테랑들을 첫 출전에 이긴 거니까요.

하지만 이때까지만 해도 분위기는 "신선한 결과네, 근데 그래도 의미 있는 GDT 90점은 아직 멀었지" 였어요.

2년 뒤, 2020년. 모든 게 바뀝니다.

한 번 체크하고 가요

체크 1/3 Q1.

CASP 대회는 얼마 만에 한 번씩 열릴까요?

체크 2/3 Q2.

2018년 이전까지 컴퓨터 단백질 구조 예측의 정확도(GDT 점수)는 어땠을까요?

체크 3/3 Q3.

단백질 폴딩 문제가 어려운 핵심 이유는 무엇일까요?

다음 챕터로 가기 전에

2020년, 그 충격을 보러 가요

다음 챕터에서 진짜 클라이맥스가 옵니다. 알파폴드2가 GDT 92점이라는 말도 안 되는 점수로 50년 난제를 사실상 해결합니다. 학계 분위기가 어떻게 변했는지, 어떤 의미였는지 보러 갑시다.