이웃을 본다 — Homology modeling

Ab initio가 비현실적이라면 다른 길이 있다 — "이미 구조가 알려진 단백질을 참고하자".

📖 Homology modeling의 아이디어

서열이 비슷한 단백질은 구조도 비슷할 가능성이 높다.

관찰: 서열 일치도 30% 이상 → 구조가 대부분 비슷
관찰: 서열 일치도 50% 이상 → 구조가 매우 비슷
이건 진화적으로 같은 조상에서 갈라진 단백질들 (= homolog)에서 나타나는 패턴

🎯 방법 (단계별)

1단계 — 템플릿 찾기: 새 단백질의 서열을 PDB(이미 구조가 알려진 단백질 DB)와 비교 → 비슷한 서열 찾음
2단계 — 서열 정렬: 새 단백질과 템플릿의 서열을 정확히 정렬 (어느 residue가 어느 residue에 대응하는지)
3단계 — 골격 복사: 템플릿의 단백질 골격(backbone)을 그대로 새 단백질에 적용
4단계 — 곁사슬 맞추기: 새 단백질의 곁사슬을 적절히 배치
5단계 — 최적화: 에너지 최소화로 살짝 다듬음

📖 대표 도구 — MODELLER (1993)

Andrej Sali가 만든 homology modeling 표준 도구
1993년 이후 30년 동안 가장 많이 쓰임
2010년대 중반까지 새 단백질 구조 모델링의 사실상 표준

🎯 장점 — 실용적

매우 빠름 — 단백질 하나에 몇 분
비슷한 템플릿이 있으면 꽤 정확
일반 컴퓨터에서 실행 가능

⚠ 단점 — 템플릿이 있어야 함

이게 결정적 한계다.

PDB에 비슷한 서열이 없으면 → 적용 불가
"전혀 새로운 종류"의 단백질에는 무력
새 단백질 발견 속도(서열 수십만/년)가 새 구조 결정 속도(수천/년)보다 훨씬 빠름 → 격차 점점 벌어짐

2010년대 후반, 알려진 서열의 약 1/3이 어떤 PDB 단백질과도 충분히 비슷하지 않아 homology modeling 불가능했다.

📖 정확도의 한계

비슷한 템플릿이 있어도 정확도는 제한적이다.

서열 일치도 50% 이상: 골격은 정확, 곁사슬 ±2Å 오차
서열 일치도 30%: 골격 일부 오차, 표면 영역 부정확
서열 일치도 15~30%: "위험 영역" — 큰 도메인 구조는 맞을 수 있어도 디테일 신뢰 안 됨
서열 일치도 15% 이하: 적용 권장 안 함

💡 Homology modeling의 위치

실용적이지만 한계가 명확.

알려진 구조와 비슷한 단백질에만 — 약 70% 적용 가능
나머지 30%는 다른 방법 필요
정확도는 템플릿 품질에 의존

그래서 "비슷한 단백질이 아예 없는 경우"를 위한 다른 접근이 필요했다 — 다음 섹션 threading.

← 이전 처음부터 계산하기 — Ab initio 방법 다음 → 접힘 형태 알아맞히기 — Threading