이웃을 본다 — Homology modeling
Ab initio가 비현실적이라면 다른 길이 있다 — "이미 구조가 알려진 단백질을 참고하자".
📖 Homology modeling의 아이디어
서열이 비슷한 단백질은 구조도 비슷할 가능성이 높다.
- 관찰: 서열 일치도 30% 이상 → 구조가 대부분 비슷
- 관찰: 서열 일치도 50% 이상 → 구조가 매우 비슷
- 이건 진화적으로 같은 조상에서 갈라진 단백질들 (= homolog)에서 나타나는 패턴
🎯 방법 (단계별)
- 1단계 — 템플릿 찾기: 새 단백질의 서열을 PDB(이미 구조가 알려진 단백질 DB)와 비교 → 비슷한 서열 찾음
- 2단계 — 서열 정렬: 새 단백질과 템플릿의 서열을 정확히 정렬 (어느 residue가 어느 residue에 대응하는지)
- 3단계 — 골격 복사: 템플릿의 단백질 골격(backbone)을 그대로 새 단백질에 적용
- 4단계 — 곁사슬 맞추기: 새 단백질의 곁사슬을 적절히 배치
- 5단계 — 최적화: 에너지 최소화로 살짝 다듬음
📖 대표 도구 — MODELLER (1993)
- Andrej Sali가 만든 homology modeling 표준 도구
- 1993년 이후 30년 동안 가장 많이 쓰임
- 2010년대 중반까지 새 단백질 구조 모델링의 사실상 표준
🎯 장점 — 실용적
- 매우 빠름 — 단백질 하나에 몇 분
- 비슷한 템플릿이 있으면 꽤 정확
- 일반 컴퓨터에서 실행 가능
⚠ 단점 — 템플릿이 있어야 함
이게 결정적 한계다.
- PDB에 비슷한 서열이 없으면 → 적용 불가
- "전혀 새로운 종류"의 단백질에는 무력
- 새 단백질 발견 속도(서열 수십만/년)가 새 구조 결정 속도(수천/년)보다 훨씬 빠름 → 격차 점점 벌어짐
2010년대 후반, 알려진 서열의 약 1/3이 어떤 PDB 단백질과도 충분히 비슷하지 않아 homology modeling 불가능했다.
📖 정확도의 한계
비슷한 템플릿이 있어도 정확도는 제한적이다.
- 서열 일치도 50% 이상: 골격은 정확, 곁사슬 ±2Å 오차
- 서열 일치도 30%: 골격 일부 오차, 표면 영역 부정확
- 서열 일치도 15~30%: "위험 영역" — 큰 도메인 구조는 맞을 수 있어도 디테일 신뢰 안 됨
- 서열 일치도 15% 이하: 적용 권장 안 함
💡 Homology modeling의 위치
실용적이지만 한계가 명확.
- 알려진 구조와 비슷한 단백질에만 — 약 70% 적용 가능
- 나머지 30%는 다른 방법 필요
- 정확도는 템플릿 품질에 의존
그래서 "비슷한 단백질이 아예 없는 경우"를 위한 다른 접근이 필요했다 — 다음 섹션 threading.