시즌 2 · 알파폴드편 / PART 10 · 단백질 기초 — 아미노산에서 3차 구조까지 / Ch 1 · 아미노산 20글자 — 단백질의 알파벳

한 글자 코드 — 외우는 방법

단백질 서열은 보통 한 글자 코드로 적는다. 알파폴드 입력도 정확히 이 형식. 외우는 게 도움이 된다.

📖 20종 한 글자 코드 전체
코드 3글자 한글 카테고리
AAla알라닌소수성
RArg아르기닌양전하
NAsn아스파라긴극성
DAsp아스파르트산음전하
CCys시스테인극성 (특수)
EGlu글루탐산음전하
QGln글루타민극성
GGly글리신소수성 (특수)
HHis히스티딘양전하
IIle이소루신소수성
LLeu루신소수성
KLys라이신양전하
MMet메티오닌소수성
FPhe페닐알라닌소수성 (방향족)
PPro프롤린소수성 (특수)
SSer세린극성
TThr트레오닌극성
WTrp트립토판소수성 (방향족)
YTyr티로신극성 (방향족)
VVal발린소수성
🎯 한 글자 코드의 패턴

한 글자 코드가 영어 이름과 정확히 매칭되지 않는 경우들 — 외우는 데 함정.

  • 대부분은 영어 첫 글자 — A(Ala), C(Cys), G(Gly), H(His), I(Ile), L(Leu), M(Met), P(Pro), S(Ser), T(Thr), V(Val)
  • 발음 첫 글자 (예외): F(Phe = "fenylalanine"), Y(Tyr = "Tyrosine"), W(Trp = "tryptoPHan"?)
  • 비슷한 글자 (예외): R(Arg = "aRginine"), K(Lys = "Lys → K는 빈자리"), D(Asp = "asparDic"), E(Glu = "glutamatE"), N(Asn = "asparagiNe"), Q(Gln = "Q-tamine")

특히 D/E/N/Q는 헷갈리기 쉽다. D는 음전하 Asp, E는 음전하 Glu (둘은 길이 차이). N은 극성 Asn (D와 비슷한 위치지만 amide), Q는 극성 Gln (E와 비슷한 위치지만 amide).

📖 외우는 우선순위

20종 다 외울 필요는 없다. 가장 자주 등장하는 순서로 우선순위:

  1. 매우 자주: L, A, G, V, S, E, T, K, I, R (단백질의 약 60% 차지)
  2. 중간: D, P, N, Q, F, Y
  3. 덜 자주: H, M, C, W (특히 W가 가장 희귀)

실용적으로 — 4가지 카테고리 + 특수 3종(G, P, C)만 잡고, 코드는 자료를 보면서 익히는 게 효율적.

💡 단백질 서열의 예 — 인슐린 A 사슬

실제 단백질 서열이 어떻게 적히는지:

GIVEQCCTSICSLYQLENYCN

인간 인슐린 A 사슬 (21 아미노산). 이 21글자가 정확한 3D 구조를 만들어 — 혈당 신호 전달이라는 기능을 한다.

  • G(Gly), I(Ile), V(Val), E(Glu), Q(Gln), C(Cys, 4번 등장 — 이황화 결합 형성)...
  • 이 21글자만 알면 알파폴드가 정확한 3D 모양을 예측 가능