이번 챕터의 큰 그림: "컴퓨터로 단백질 3D 구조를 예측하는 것"은 50년 동안 안 풀린 난제였다. 도대체 왜 그렇게 어려웠을까? 그걸 풀어볼게요.
이 문제의 정식 이름: 단백질 폴딩 문제
1960년대에 크리스천 안핀선(Christian Anfinsen)이라는 사람이 실험으로 보여줬어요. "단백질을 망쳐놓고 다시 풀어주면, 알아서 원래 모양으로 접힌다." 즉, 3D 모양에 필요한 정보가 1차 서열에 다 들어 있다는 뜻이에요. 이걸 안핀선의 가설(Anfinsen's dogma)이라고 부르고, 그 공로로 1972년 노벨화학상을 받습니다.
근데 여기서 모순이 생깁니다.
맞아요. 그게 바로 답이 안 나온 게 황당했던 이유입니다. 정보는 거기 있는데, 어떻게 꺼내야 할지를 몰랐어요.
왜 이렇게 어려웠을까? — 경우의 수가 미쳤음
한 가지 비유로 시작해봅시다. 100개짜리 아미노산 사슬이 있다고 칩시다. 각 아미노산이 옆 아미노산과 만드는 각도(이걸 φ, ψ 각도라고 합니다)가 대략 3가지 정도라고 가정해볼게요.
그러면 가능한 단백질 모양은? 3100 ≈ 5 × 1047개입니다.
이걸 레빈탈의 역설(Levinthal's paradox)이라고 부릅니다. "모든 모양을 무작위로 시도해서 정답을 찾는다면 단백질이 1초 안에 접히는 게 말이 안 된다. 근데 실제 단백질은 1초 안에 접힌다." 자연은 뭔가 영리한 길을 알고 있는 거죠. 우리가 모를 뿐.
그래서 어떻게 풀려고 했나? — 50년의 도전
컴퓨터로 단백질 구조를 풀어보겠다는 시도는 크게 두 갈래로 갈렸습니다.
접근 1: 물리법칙 풀어내기 (Molecular Dynamics, MD)
원자 하나하나의 힘을 다 계산해서 시간에 따라 어떻게 움직이는지 시뮬레이션 하는 방법. 이론적으로는 가장 정확한 답을 줄 수 있어요.
문제: 1초 분량의 단백질 움직임을 시뮬레이션하는 데 슈퍼컴퓨터로도 몇 년이 걸려요. 실제로 단백질이 자연에서 1초 안에 접힌다고 해도, 우리가 그걸 컴퓨터로 흉내내려면 어마어마한 계산이 필요합니다.
접근 2: 비슷한 단백질에서 단서 찾기 (Homology Modeling)
"이 단백질과 비슷한 시퀀스를 가진 단백질의 구조를 이미 알고 있다면, 그 구조를 베껴 쓰자"라는 발상. 한국말로 "비슷한 친구 보고 따라 그리기" 정도예요.
문제: 비슷한 친구가 PDB에 없으면 끝. 그리고 친구가 있어도 디테일이 다른 부분을 못 그립니다. 완전히 새로운 단백질에는 못 써요.
CASP — 단백질 폴딩 올림픽
1994년부터 CASP(Critical Assessment of Structure Prediction)라는 대회가 시작됩니다. 한국말로는 "단백질 구조 예측 대회"예요. 2년마다 한 번씩 열립니다.
📋 CASP는 어떻게 진행되나?
- 주최 측이 아직 PDB에 공개되지 않은 단백질들의 시퀀스만 공개합니다 (실험은 진행 중).
- 전 세계 연구팀이 그 시퀀스를 받아서 자기네 알고리즘으로 3D 구조를 예측합니다.
- 몇 달 뒤 실험 결과가 나오면, 어느 팀의 예측이 가장 정확했는지 비교합니다.
- 가장 정확한 팀이 우승. 일종의 단백질 폴딩 올림픽.
측정 지표: GDT 점수
정확도를 어떻게 잴까요? CASP에서 쓰는 가장 중요한 점수가 GDT_TS(Global Distance Test, Total Score)입니다.
- 100점: 예측이 실험 결과와 완벽히 일치
- 50점: 대충 비슷한 모양, 자세히 보면 많이 틀림
- 0점: 완전 빗나감
일반적으로 GDT 90점 이상이면 "실험 결과와 거의 같다"고 봅니다. 즉 의약 연구 등 실용 가능한 수준이에요.
CASP의 성적표 (2018년까지)
보시는 대로, 1994년부터 2018년까지 24년 동안 1등 점수는 30점에서 60점 사이를 오갔습니다. 실험과 비교하면 모양은 비슷하지만 디테일은 많이 틀린 수준이에요. 실제 의약 개발에는 사용 못 합니다.
왜 이렇게 안 풀렸을까?
사람들은 진짜 다양한 방법을 시도했어요. 통계적 방법, 물리 시뮬레이션, 기계학습 초기 버전들… 그런데 다 한계가 비슷했습니다. 핵심 정보가 빠져 있었어요.
2018년의 첫 충격: 알파폴드 1세대
2018년 CASP13 대회에 갑자기 새 얼굴이 등장합니다. 딥마인드(DeepMind) — 알파고를 만든 그 회사예요.
딥마인드가 들고 온 "알파폴드(AlphaFold)"가 단숨에 1등을 차지합니다. 점수는 GDT 약 58점. 얼핏 보면 그저 1~2등 차이로 우승한 거지만, 학계에서는 충격이었어요. 구글 자회사 한 곳이 수십 년 단백질을 연구한 학계 베테랑들을 첫 출전에 이긴 거니까요.
하지만 이때까지만 해도 분위기는 "신선한 결과네, 근데 그래도 의미 있는 GDT 90점은 아직 멀었지" 였어요.
2년 뒤, 2020년. 모든 게 바뀝니다.
한 번 체크하고 가요
CASP 대회는 얼마 만에 한 번씩 열릴까요?
2018년 이전까지 컴퓨터 단백질 구조 예측의 정확도(GDT 점수)는 어땠을까요?
단백질 폴딩 문제가 어려운 핵심 이유는 무엇일까요?