시즌 2 · 알파폴드편 / PART 10 · 단백질 기초 — 아미노산에서 3차 구조까지 / Ch 1 · 아미노산 20글자 — 단백질의 알파벳

왜 정확히 20종인가

흥미로운 질문 — 왜 자연계 단백질은 정확히 20종의 아미노산만 쓰나? 더 많을 수도, 적을 수도 있는데.

📖 화학적으로 가능한 아미노산 수
  • 실험실에서 만들 수 있는 아미노산: 수백 종 (자연 + 합성)
  • 자연계에 존재하는 아미노산: 약 500종 이상 (식물, 미생물 등)
  • 그런데 단백질 합성에 쓰이는 표준 아미노산: 딱 20종

(엄밀히 말하면 21종 — 일부 단백질이 selenocysteine을 쓰고, 22번째 pyrrolysine도 있다. 하지만 거의 모든 단백질은 20종 안에서 해결.)

🎯 이론 1 — 유전자 코드의 제약

아미노산은 DNA의 코돈(3글자 조합)으로 지정된다.

  • DNA 글자 4종(A, T, G, C)을 3개씩 조합 → 4³ = 64가지 코돈
  • 64가지 중 3개는 stop 코돈 (단백질 합성 종료 신호)
  • 나머지 61개 코돈이 20종 아미노산을 지정 — 한 아미노산이 평균 3개의 코돈에 대응 (중복성)

이게 20이라는 숫자의 이론적 상한선의 단서다. 64에서 stop을 빼면 약 60이고, 충분한 중복성을 두려면 20 근처가 합리적.

🎯 이론 2 — 진화적 우연 + 화학적 다양성의 균형

20이라는 숫자가 정확히 이 값인 건 진화적 우연일 수 있다. 하지만 "20 정도"가 합리적인 이유:

  • 너무 적으면(예: 5종): 단백질이 다양한 화학을 못 함 — 효소, 신호, 구조 등 다 못 만듦
  • 너무 많으면(예: 100종): 단백질 합성 기계(리보솜)가 더 복잡해져야 함, 오류율도 올라감
  • 20 정도가 다양성과 정확성의 좋은 균형
📖 20종이 만드는 다양성

20종으로 만들 수 있는 단백질의 다양성을 계산해보자.

  • 100글자 단백질의 가능한 서열: 20¹⁰⁰ ≈ 10¹³⁰
  • 이 중 자연계에 실제 존재하는 단백질: 약 10¹² 종류 (모든 생명체 합쳐)
  • 비율: 거의 모든 가능한 서열은 아직 자연이 시도조차 안 함

그러니까 20종이 적은 게 아니다 — 100글자만 해도 우주의 원자 수보다 훨씬 많은 가능성.

💡 정리 — 20이라는 마법의 숫자

"왜 20인가"는 완전히 풀린 질문이 아니다. 그러나 다음 두 가지는 확실:

  • 화학적으로 충분한 다양성 (소수성, 친수성, 전하, 크기 등)
  • 유전 코드의 제약 안에서 합리적인 숫자

그래서 모든 자연계 생명이 같은 20종을 공유한다 — 인간도, 박테리아도, 식물도, 바이러스도 같은 알파벳.