"혹독한 환경에서 살아남아"...새 바이러스 16만 개, AI가 발견
공공 데이터에 묻혀 있던 바이러스를 빠르게 식별해 내
인공지능(AI)이 16만 개가 넘는 새로운 RNA 바이러스를 발견했다. 역대 최대 규모인 이번 바이러스 발견은 바이러스 다양성에 대한 지식을 크게 확장시켰다는 평가를 받고 있다.
《셀(Cell)》에 발표된 연구에 따르면 호주 시드니대 연구진은 복잡한 유전체 정보를 포함한 방대한 양의 유전자 서열 데이터를 계산하는 딥 러닝 알고리즘인 루카프로트(LucaProt)를 구축해 최대 4만7250개의 뉴클레오티드로 구성된 긴 바이러스 유전체와 16만1973개의 RNA 바이러스를 발견했다.
일반적으로 인간 질병과 관련이 있는 RNA 바이러스는 전 세계의 극한 환경에서도 발견된다. 연구 저자인 에드워즈 홈스 교수는 “이러한 바이러스의 대부분은 이미 시퀀싱이 완료돼 공공 데이터베이스에 있었지만 너무 다양해서 아무도 무엇인지 알지 못했다”라며 “그것들은 종종 ‘암흑 물질’ 시퀀스라고 불리는 것을 구성했는데 루카프로트는 이 모든 이질적인 정보를 정리하고 분류해 이 암흑 물질의 의미에 처음으로 빛을 비출 수 있었다”라고 설명했다.
루카프로트는 시퀀스 정보와 예측된 구조 정보를 모두 통합해 RNA 의존성 RNA 중합(RdRP) 시퀀스를 정확하게 감지할 수 있었다. 발견된 바이러스에는 이전에 제대로 연구되지 않았던 그룹이 많이 포함됐고, 예외적으로 긴(최대 47,250개의 뉴클레오티드) 길이와 게놈 복잡성을 가진 RNA 바이러스 게놈도 포함됐다. 연구진은 “루카프토트는 암흑 물질을 계산하고 모든 RNA 바이러스가 복제에 사용하는 단백질의 시퀀스와 2차 구조를 기반으로 바이러스를 식별하도록 훈련됐다”며 “기존 방법을 사용했다면 많은 시간이 소요되었을 바이러스 발견을 상당히 빠르게 진행할 수 있었다”라고 말했다.
새롭게 발견된 RNA 바이러스는 공기, 온천, 열수 분출구 등 다양한 환경에 존재했으며, 생태계에 따라 바이러스의 다양성과 풍부함이 상당히 달랐다. 연구 저자인 에드워즈 홈스 교수는 “극한의 환경이 이렇게 많은 종류의 바이러스를 보유하고 있다는 것은 바이러스가 엄청난 다양성을 가지고 있으며 가장 혹독한 환경에서도 살아남을 수 있는 끈기를 가지고 있다는 또 다른 사례일 뿐”이라며 “바이러스와 기타 기본 생명체가 어떻게 생겨났는지에 대한 단서를 제공할 가능성이 있다”라고 말했다.