DeepMind의 실제 전환 — 알파고 직후의 결정

이론적으로 단백질이 좋은 문제라는 건 알겠다. 그런데 DeepMind는 어떻게 실제로 이 전환을 했을까?

📖 2016년 — 알파고 직후

2016년 3월: 이세돌 대국
그 직후 DeepMind 내부에서 "다음에 무엇을 할 것인가" 논의
몇 가지 후보: 의료 영상, 단백질, 추가 게임, 에너지 최적화 등
설립자 Demis Hassabis가 단백질에 강한 관심 (그 자신이 케임브리지 시절 컴퓨터 신경과학 박사 출신)

📖 2016~2017 — 조용한 준비

약 1~2년간 외부에 거의 알려지지 않은 채 단백질 팀 구성
구조생물학자, 머신러닝 연구자, 그리고 알파고 팀 출신 일부 합류
PDB 데이터 분석, 기존 방법 연구, 첫 알고리즘 설계

📖 2018년 — CASP13 첫 출전

2018년 12월 CASP13(13번째 대회)에 처음 등장.

참가자명: "AlphaFold" — 알파고 작명 방식 그대로
결과: 압도적 1등. 2등(중국 Zhang lab)을 거의 두 배 차이로 따돌림
평균 GDT-TS 약 58 — 1990년대부터의 답보 상태를 단번에 깨버림
단백질 학계에 큰 충격

📖 2020년 — CASP14의 결정타

2020년 11월 CASP14. 새 모델 AlphaFold 2 출전.

GDT-TS 평균 92 — 실험 정확도에 거의 도달 (실험으로 결정한 구조도 ±오차가 있는데 그 수준)
구조생물학자 John Moult(CASP 창립자): "이 문제는 풀렸다"고 공식 선언
전 세계 단백질 연구의 흐름을 바꿈

📖 2021년 — 오픈소스 공개

AlphaFold 2 코드와 가중치 전부 오픈소스 공개 (GitHub)
EMBL-EBI와 협력 — AlphaFold Database 무료 공개
2023년까지 약 2억 개 단백질 구조 예측 데이터베이스 구축
전 세계 연구자들이 자기 연구에 무료로 사용

💡 흥미로운 사실

알파고가 이세돌을 이긴 게 2016년 3월. AlphaFold 2가 단백질 문제를 풀어버린 게 2020년 11월. 그 사이가 약 4년 반.

4년 반 동안 같은 팀이 완전히 다른 도메인의 60년 묵은 문제를 풀어냈다.

"같은 사고방식이 다른 도메인에도 통한다"의 가장 강력한 실증.

📖 한 가지 정직한 점 — 운도 따랐다

물론 모든 게 계산대로는 아니었다. 잘 풀린 데에는 운도 있다.

이미 50년 모인 PDB 데이터가 마침 충분히 컸음
2017년 발표된 Transformer 아키텍처가 단백질 시퀀스 데이터에 잘 맞았음
알파고 팀의 인프라(TPU, 학습 시스템)가 그대로 재활용 가능했음

좋은 문제 선정 + 적절한 시기 + 축적된 도구 — 이 셋이 맞물려 가능했던 성과.

← 이전 그중 단백질을 고른 이유 다음 → 시즌 1에서 시즌 2로 이어지는 것과 끊어지는 것