한 글자 코드 — 외우는 방법
단백질 서열은 보통 한 글자 코드로 적는다. 알파폴드 입력도 정확히 이 형식. 외우는 게 도움이 된다.
📖 20종 한 글자 코드 전체
| 코드 | 3글자 | 한글 | 카테고리 |
|---|---|---|---|
| A | Ala | 알라닌 | 소수성 |
| R | Arg | 아르기닌 | 양전하 |
| N | Asn | 아스파라긴 | 극성 |
| D | Asp | 아스파르트산 | 음전하 |
| C | Cys | 시스테인 | 극성 (특수) |
| E | Glu | 글루탐산 | 음전하 |
| Q | Gln | 글루타민 | 극성 |
| G | Gly | 글리신 | 소수성 (특수) |
| H | His | 히스티딘 | 양전하 |
| I | Ile | 이소루신 | 소수성 |
| L | Leu | 루신 | 소수성 |
| K | Lys | 라이신 | 양전하 |
| M | Met | 메티오닌 | 소수성 |
| F | Phe | 페닐알라닌 | 소수성 (방향족) |
| P | Pro | 프롤린 | 소수성 (특수) |
| S | Ser | 세린 | 극성 |
| T | Thr | 트레오닌 | 극성 |
| W | Trp | 트립토판 | 소수성 (방향족) |
| Y | Tyr | 티로신 | 극성 (방향족) |
| V | Val | 발린 | 소수성 |
🎯 한 글자 코드의 패턴
한 글자 코드가 영어 이름과 정확히 매칭되지 않는 경우들 — 외우는 데 함정.
- 대부분은 영어 첫 글자 — A(Ala), C(Cys), G(Gly), H(His), I(Ile), L(Leu), M(Met), P(Pro), S(Ser), T(Thr), V(Val)
- 발음 첫 글자 (예외): F(Phe = "fenylalanine"), Y(Tyr = "Tyrosine"), W(Trp = "tryptoPHan"?)
- 비슷한 글자 (예외): R(Arg = "aRginine"), K(Lys = "Lys → K는 빈자리"), D(Asp = "asparDic"), E(Glu = "glutamatE"), N(Asn = "asparagiNe"), Q(Gln = "Q-tamine")
특히 D/E/N/Q는 헷갈리기 쉽다. D는 음전하 Asp, E는 음전하 Glu (둘은 길이 차이). N은 극성 Asn (D와 비슷한 위치지만 amide), Q는 극성 Gln (E와 비슷한 위치지만 amide).
📖 외우는 우선순위
20종 다 외울 필요는 없다. 가장 자주 등장하는 순서로 우선순위:
- 매우 자주: L, A, G, V, S, E, T, K, I, R (단백질의 약 60% 차지)
- 중간: D, P, N, Q, F, Y
- 덜 자주: H, M, C, W (특히 W가 가장 희귀)
실용적으로 — 4가지 카테고리 + 특수 3종(G, P, C)만 잡고, 코드는 자료를 보면서 익히는 게 효율적.
💡 단백질 서열의 예 — 인슐린 A 사슬
실제 단백질 서열이 어떻게 적히는지:
GIVEQCCTSICSLYQLENYCN
인간 인슐린 A 사슬 (21 아미노산). 이 21글자가 정확한 3D 구조를 만들어 — 혈당 신호 전달이라는 기능을 한다.
- G(Gly), I(Ile), V(Val), E(Glu), Q(Gln), C(Cys, 4번 등장 — 이황화 결합 형성)...
- 이 21글자만 알면 알파폴드가 정확한 3D 모양을 예측 가능