코드 — Chou-Fasman propensity로 2차 구조 예측

이 챕터의 마지막 코드. Chou-Fasman propensity를 직접 써서 짧은 서열의 2차 구조를 예측해보자.

🎯 코드가 하는 일

P(α) 값 20개, P(β) 값 20개 정의 (Chou-Fasman 1974)
세 가지 알려진 단백질 영역 분석:
- Myoglobin의 α-helix A
- Immunoglobulin V domain의 β-strand
- 일반 mixed 영역
각 영역의 평균 P(α), P(β) 계산
둘을 비교해서 α-helix / β-sheet / loop 예측

이게 1974년 단백질 구조 예측의 첫 컴퓨터 알고리즘. 정확도는 약 50~60%로 한계가 있지만, 직관은 정확히 잡힌다 — "잔기의 화학적 성질이 구조 선호도를 결정한다".

PYTHON

import numpy as np
np.random.seed(42)

# Chou-Fasman propensity values (1974, 1978)
# P_alpha > 1: α-helix 선호, P_beta > 1: β-sheet 선호
p_alpha = {
    'A': 1.42, 'R': 0.98, 'N': 0.67, 'D': 1.01, 'C': 0.70,
    'E': 1.51, 'Q': 1.11, 'G': 0.57, 'H': 1.00, 'I': 1.08,
    'L': 1.21, 'K': 1.16, 'M': 1.45, 'F': 1.13, 'P': 0.57,
    'S': 0.77, 'T': 0.83, 'W': 1.08, 'Y': 0.69, 'V': 1.06,
}
p_beta = {
    'A': 0.83, 'R': 0.93, 'N': 0.89, 'D': 0.54, 'C': 1.19,
    'E': 0.37, 'Q': 1.10, 'G': 0.75, 'H': 0.87, 'I': 1.60,
    'L': 1.30, 'K': 0.74, 'M': 1.05, 'F': 1.38, 'P': 0.55,
    'S': 0.75, 'T': 1.19, 'W': 1.37, 'Y': 1.47, 'V': 1.70,
}

# 실제 알려진 단백질의 두 가지 영역
# 1) Myoglobin의 α-helix A 영역 (PDB 1MBN, residue 4-19)
helix_seq = "EGEWQLVLHVWAKVEAD"
# 2) Immunoglobulin V domain의 β-strand 부분
sheet_seq = "GVTYTCVAHEY"
# 3) 일반 mixed 영역
mixed_seq = "GSAPGTRELRDKVNQ"

print(f"{'영역':<25}{'길이':>5}{'P(α)':>8}{'P(β)':>8}{'예측':>15}")
print("-" * 62)
for label, seq in [
    ("Myoglobin α-helix A", helix_seq),
    ("Ig V β-strand",       sheet_seq),
    ("Mixed/coil 영역",     mixed_seq),
]:
    avg_a = np.mean([p_alpha[a] for a in seq])
    avg_b = np.mean([p_beta[a]  for a in seq])
    if avg_a > 1.05 and avg_a > avg_b:
        pred = "α-helix"
    elif avg_b > 1.05 and avg_b > avg_a:
        pred = "β-sheet"
    else:
        pred = "loop/coil"
    print(f"{label:<25}{len(seq):>5}{avg_a:>8.3f}{avg_b:>8.3f}{pred:>15}")

print()
print("← 각 아미노산의 α/β 선호도 평균으로 2차 구조 예측.")
print("   Chou-Fasman (1974) 방법 — 가장 단순한 통계적 예측.")
print("   정확도 약 50~60% — 한계가 명확하지만 직관은 잡힌다.")
print("   더 강한 방법들(PSIPRED, AlphaFold 등)도 본질은 같다 — ")
print("   '잔기의 화학적 성질이 구조 선호도를 결정'한다는 원리.")

출력

기대 출력:

영역                          길이    P(α)    P(β)             예측
--------------------------------------------------------------
Myoglobin α-helix A         17   1.175   1.012        α-helix
Ig V β-strand               11   0.942   1.157        β-sheet
Mixed/coil 영역               15   0.961   0.888      loop/coil

← 각 아미노산의 α/β 선호도 평균으로 2차 구조 예측.
   Chou-Fasman (1974) 방법 — 가장 단순한 통계적 예측.
   정확도 약 50~60% — 한계가 명확하지만 직관은 잡힌다.
   더 강한 방법들(PSIPRED, AlphaFold 등)도 본질은 같다 — 
   '잔기의 화학적 성질이 구조 선호도를 결정'한다는 원리.

← 이전 Ramachandran plot 다시 — 2차 구조와 (φ, ψ) 다음 → 확인 퀴즈