한 글자 코드 — 외우는 방법

단백질 서열은 보통 한 글자 코드로 적는다. 알파폴드 입력도 정확히 이 형식. 외우는 게 도움이 된다.

📖 20종 한 글자 코드 전체

🎯 한 글자 코드의 패턴

한 글자 코드가 영어 이름과 정확히 매칭되지 않는 경우들 — 외우는 데 함정.

대부분은 영어 첫 글자 — A(Ala), C(Cys), G(Gly), H(His), I(Ile), L(Leu), M(Met), P(Pro), S(Ser), T(Thr), V(Val)
발음 첫 글자 (예외): F(Phe = "fenylalanine"), Y(Tyr = "Tyrosine"), W(Trp = "tryptoPHan"?)
비슷한 글자 (예외): R(Arg = "aRginine"), K(Lys = "Lys → K는 빈자리"), D(Asp = "asparDic"), E(Glu = "glutamatE"), N(Asn = "asparagiNe"), Q(Gln = "Q-tamine")

특히 D/E/N/Q는 헷갈리기 쉽다. D는 음전하 Asp, E는 음전하 Glu (둘은 길이 차이). N은 극성 Asn (D와 비슷한 위치지만 amide), Q는 극성 Gln (E와 비슷한 위치지만 amide).

📖 외우는 우선순위

20종 다 외울 필요는 없다. 가장 자주 등장하는 순서로 우선순위:

실용적으로 — 4가지 카테고리 + 특수 3종(G, P, C)만 잡고, 코드는 자료를 보면서 익히는 게 효율적.

💡 단백질 서열의 예 — 인슐린 A 사슬

실제 단백질 서열이 어떻게 적히는지:

GIVEQCCTSICSLYQLENYCN

인간 인슐린 A 사슬 (21 아미노산). 이 21글자가 정확한 3D 구조를 만들어 — 혈당 신호 전달이라는 기능을 한다.