시즌 2 · 알파폴드편 / PART 9 · PART 9 · 다리: 게임에서 과학으로 / Ch 5 · AI의 등장 — DeepMind와 CASP13

2016~2018 — 조용한 2년

2016년 말 ~ 2018년 말. 외부에 거의 알려지지 않은 시간.

📖 무엇이 진행되고 있었나
  • 딥러닝 기반 첫 구조 예측 시스템 설계
  • PDB 데이터 정리 및 학습 파이프라인 구축
  • MSA(Multiple Sequence Alignment) 데이터 활용 방법 탐색
  • 여러 신경망 아키텍처 실험
  • 2017년 봄부터 점진적으로 형태가 잡힘 — "Contact Map + 거리 예측" 접근
🎯 AlphaFold 1의 핵심 아이디어 (대략)

구체적 알고리즘은 PART 11에서 자세히 다루지만, 큰 그림만:

  • 입력: 단백질 서열 + 진화적으로 관련된 다른 단백질들의 서열 (MSA)
  • 중간 출력: "각 residue 쌍의 거리 분포" — 즉 "i번째와 j번째 residue가 얼마나 가까운가"의 확률 분포
  • 최종 출력: 이 거리 정보를 만족하는 3D 구조 (gradient descent로 찾음)

이게 그때까지의 접근들과 다른 점 — "거리 예측"을 직접 학습 목표로 삼는다는 것.

📖 학계는 거의 모르고 있었다

DeepMind가 단백질 한다는 소문은 있었지만 구체적 진행 상황은 비밀.

  • 2018년 초까지 단백질 학계 학회에서 DeepMind 발표 없음
  • 논문 발표 없음
  • 일부 학계 사람들은 "구글이 단백질 한다며? 큰 결과는 없는 듯"이라고 추측
  • 일부는 "그쪽에서 큰 일 준비 중일 것"이라고 의심

이게 의도된 전략 — CASP에서 첫 등장을 만들기 위한 침묵.

🎯 왜 CASP를 첫 무대로 골랐나

전략적 선택이었다.

  • CASP는 객관 평가 — DeepMind가 "공정하게 진짜로 잘했다"는 걸 증명할 수 있는 무대
  • 2년 주기 — 결과 발표 시점을 미리 알고 거기 맞춰 준비 가능
  • 학계의 모든 다른 그룹이 같이 참가 — 직접 비교 가능
  • 학계 내부에서의 검증 → 외부 발표 시 "정말 풀린 거다" 보증

알파고가 이세돌 대국이라는 공개 검증을 거친 것과 같은 패턴 — "객관적 무대에서 직접 증명"이 DeepMind의 검증 방식.

📖 2018년 중반 — 내부에서의 자신감

2018년 여름까지 내부 검증을 통해 AlphaFold 1이 기존 접근들보다 강하다는 게 확인됐다.

  • 옛 CASP 데이터로 후향적 평가 — 기존 1위 이상 성능
  • 특히 "비슷한 템플릿이 없는" 어려운 경우에서 큰 우위
  • 가을 CASP13에 참가 결정 — 첫 외부 검증

그리고 2018년 12월, CASP13 결과 발표 무대 — 다음 섹션.