2016~2018 — 조용한 2년
2016년 말 ~ 2018년 말. 외부에 거의 알려지지 않은 시간.
📖 무엇이 진행되고 있었나
- 딥러닝 기반 첫 구조 예측 시스템 설계
- PDB 데이터 정리 및 학습 파이프라인 구축
- MSA(Multiple Sequence Alignment) 데이터 활용 방법 탐색
- 여러 신경망 아키텍처 실험
- 2017년 봄부터 점진적으로 형태가 잡힘 — "Contact Map + 거리 예측" 접근
🎯 AlphaFold 1의 핵심 아이디어 (대략)
구체적 알고리즘은 PART 11에서 자세히 다루지만, 큰 그림만:
- 입력: 단백질 서열 + 진화적으로 관련된 다른 단백질들의 서열 (MSA)
- 중간 출력: "각 residue 쌍의 거리 분포" — 즉 "i번째와 j번째 residue가 얼마나 가까운가"의 확률 분포
- 최종 출력: 이 거리 정보를 만족하는 3D 구조 (gradient descent로 찾음)
이게 그때까지의 접근들과 다른 점 — "거리 예측"을 직접 학습 목표로 삼는다는 것.
📖 학계는 거의 모르고 있었다
DeepMind가 단백질 한다는 소문은 있었지만 구체적 진행 상황은 비밀.
- 2018년 초까지 단백질 학계 학회에서 DeepMind 발표 없음
- 논문 발표 없음
- 일부 학계 사람들은 "구글이 단백질 한다며? 큰 결과는 없는 듯"이라고 추측
- 일부는 "그쪽에서 큰 일 준비 중일 것"이라고 의심
이게 의도된 전략 — CASP에서 첫 등장을 만들기 위한 침묵.
🎯 왜 CASP를 첫 무대로 골랐나
전략적 선택이었다.
- CASP는 객관 평가 — DeepMind가 "공정하게 진짜로 잘했다"는 걸 증명할 수 있는 무대
- 2년 주기 — 결과 발표 시점을 미리 알고 거기 맞춰 준비 가능
- 학계의 모든 다른 그룹이 같이 참가 — 직접 비교 가능
- 학계 내부에서의 검증 → 외부 발표 시 "정말 풀린 거다" 보증
알파고가 이세돌 대국이라는 공개 검증을 거친 것과 같은 패턴 — "객관적 무대에서 직접 증명"이 DeepMind의 검증 방식.
📖 2018년 중반 — 내부에서의 자신감
2018년 여름까지 내부 검증을 통해 AlphaFold 1이 기존 접근들보다 강하다는 게 확인됐다.
- 옛 CASP 데이터로 후향적 평가 — 기존 1위 이상 성능
- 특히 "비슷한 템플릿이 없는" 어려운 경우에서 큰 우위
- 가을 CASP13에 참가 결정 — 첫 외부 검증
그리고 2018년 12월, CASP13 결과 발표 무대 — 다음 섹션.