엔비디아, 구글 딥마인드·EMBL과 세계 최대 단백질 복합체 데이터셋 공개
- 단백질 상호작용 연구 위한 170만 단백질 복합체·3,000만 구조 추가
- AI 기반 단백질 구조 예측으로 신약 개발·감염병 연구 가속, 연구자 접근성 확대
AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(www.nvidia.co.kr)가 미국 새너제이에서 열린 세계 최대 AI·가속 컴퓨팅 콘퍼런스인 ‘엔비디아(NVIDIA) GTC 2026’에서 구글 딥마인드(Google DeepMind), EMBL 산하 유럽바이오정보과학연구소(European Bioinformatics Institute), 서울대학교 스타이네거 랩(Steinegger Lab)과 함께 알파폴드 단백질 구조 데이터베이스(AlphaFold Protein Structure Database)를 대폭 확장했다고 밝혔다. 이번 업데이트를 통해 약 170만 개의 고신뢰 단백질 복합체 예측 데이터가 검색 가능한 데이터베이스에 추가됐으며, 약 3,000만 개의 추가 예측 구조가 일괄 다운로드 형태로 제공된다.
새롭게 추가된 데이터셋은 동종 분야 최대 규모로, 데이터베이스를 단백질 간 상호작용을 전례 없는 수준에서 모델링할 수 있는 종합 리소스로 확장한다.
구글 딥마인드의 알파폴드-멀티머(AlphaFold-Multimer) 모델이 데이터베이스에 포함된 AI 기반 단백질 구조 예측을 제공했다. 이 과정에서 오픈폴드(OpenFold) 추론 파이프라인에 엔비디아 컴퓨팅 라이브러리인 엔비디아 텐서RT(TensorRT)와 cu이퀴바리언스(cuEquivariance)를 통합해 기존 대비 100배 이상 빠른 추론 속도를 구현했다.
이 데이터베이스는 사전 계산된 단백질 구조를 가설로 제공함으로써, 새로운 약물 표적과 질병 생물학 연구에서 실험적 검증을 가속한다.
특히 고성능 슈퍼컴퓨터에 접근하기 어려운 저자원 환경의 연구자들이 직면한 막대한 계산 장벽을 해소한다.
이번 이니셔티브는 생물 분류학적 다양성을 대표하는 단백질 집합인 참조 프로테옴(reference proteomes)과 세계보건기구(WHO) 우선순위 목록을 중심으로 구성돼 감염병 연구를 강화하는 데 기여한다.
제약 산업에서는 이러한 예측 구조가 강력한 초기 가설로 활용돼 후속 실험실 연구를 크게 가속하고, 시간과 자원을 절감할 수 있다.
| 유동식 기자 press@ruliweb.com |
