접힘 형태 알아맞히기 — Threading

Homology modeling의 한계 — "비슷한 서열이 있어야 함". 그런데 흥미로운 관찰이 있었다.

📖 관찰 — 서열은 달라도 모양은 같을 수 있다

1990년대에 드러난 발견:

서열 일치도 10%도 안 되는 단백질끼리도 — 큰 도메인 구조가 매우 비슷한 경우 있음
자연계에서 단백질이 가질 수 있는 "접힘 형태(fold)" 자체는 그렇게 많지 않은 듯
한 추정: 자연계 모든 단백질의 약 1000~5000가지 fold로 분류 가능

그러니까 — 서열은 처음 봐도, 그 단백질이 어떤 알려진 fold에 속하는지 알아맞힐 수 있다면?

🎯 Threading의 아이디어 (1990년대)

"새 단백질의 서열을 알려진 모든 fold에 '실로 꿰어보고' 가장 잘 맞는 걸 고른다."

알려진 fold들의 라이브러리 준비 (PDB에서 추출)
새 단백질 서열을 각 fold에 "장착"해본다 (각 residue를 fold의 위치에 매핑)
그 장착이 얼마나 "자연스러운가"를 점수화 — 소수성 residue가 내부에 있나? 친수성이 표면에 있나? 등
가장 좋은 점수의 fold가 정답이라고 추정

📖 왜 "Threading"이라는 이름인가

이름의 비유 — 서열을 fold라는 "구멍 뚫린 모양"에 실(thread)처럼 꿰어보는 것.

각 fold = 미리 정해진 구조의 골격
새 서열 = 그 골격에 꿰는 실
어느 fold에 가장 잘 꿰어지는지 점수로 판단

📖 대표 도구 — I-TASSER (2007)

Yang Zhang lab에서 개발한 threading + 조립 방법
2006년~2018년 CASP에서 일관되게 상위권
한때 "homology modeling 다음으로 가장 강한 무료 도구"

🎯 Threading의 장점과 한계

장점: Homology modeling이 안 되는 경우(서열 일치도 낮은 경우)에도 fold 알아맞히기 가능
장점: 알려진 fold의 약 80%가 1000개 미만 — 잘 분류된 라이브러리로 다룰 만함
단점: 새 fold(전에 없던 모양)에는 무력 — 라이브러리에 없으니까
단점: 점수 함수가 부정확해서 "잘못된 fold가 가장 좋아 보이는" 경우 흔함

💡 정리 — 2010년대 중반까지의 도구 풍경

알파폴드 이전, 단백질 구조 예측의 도구는 대략 세 갈래였다.

Homology modeling: 비슷한 단백질이 있을 때 (정확도 좋음, 약 70% 단백질 적용 가능)
Threading: 비슷한 단백질이 없을 때 (정확도 보통, 알려진 fold 한정)
Ab initio: 작은 단백질에만 (정확도 낮음, 큰 단백질 비현실적)

이 세 방법 다 합쳐도 — 정확도가 충분치 않았다. 그래서 CASP라는 객관 평가 시스템이 만들어진다. 다음 섹션.

← 이전 이웃을 본다 — Homology modeling 다음 → 1994년 — CASP의 시작