"AI 알파폴드, 지구상 모든 단백질 구조 예측"
지구상 100만 종 생명체의 2억 개 단백질 구조 예측 완료
알파고로 유명한 딥마인드의 단백질 구조 예측 인공지능(AI) 알파폴드가 지구상에 존재하는 100만종의 생명체가 만들어낼 수 있는 2억 개의 단백질 구조 전체 예측을 끝마쳤다고 영국의 가디언과 과학전문지 《네이처》가 28일(현지시간) 보도했다.
구글의 자회사로 런던에 본부를 둔 딥마인드는 이날 이를 발표하면서 유럽분자생물연구소(EMBL-EBI)와 손잡고 구축한 2억 개의 단백질 3D 구조 데이터베이스를 무료 공개하겠다고 밝혔다. 딥마인드 설립자이자 최고경영자(CEO)인 데미스
하사비스는 "이 데이터베이스가 단백질 우주 전체를 포괄한다”면서 “우리는 디지털 생물학의 새로운 시대의 시작점에 서 있다”고 말했다.
딥마인드는 딥러닝이라고 불리는 인공지능 기술을 사용해 이세돌 같은 프로 바둑기사들을 완패시킨 알파고를 개발한 인공지능 개발업체. 2020년 11월 딥마인드는 같은 기술을 이용해 알파폴드 네트워크를 개발했다고 발표했다. 알파폴드라는 이름은 단백질의 염기서열이 접혀서 만드는 3차원 구조를 풀어내는 ‘단백질 폴딩’을 수행하는 인공지능이란 의미다.
알파폴드는 8개월만인 지난해 7월 인체에서 생성되는 2만여 개의 단백질 전체를 포함해 대장균, 초파리, 생쥐까지 20개의 다른 생명체에 의해 생성되는 35만 개의 단백질 구조를 3D로 예측했고 해당 데이터베이스를 무료로 공개했다. 이는 시작에 불과했으니 다시 1년 만에 지구상의 모든 생명체가 만들어낼 수 있는 단백질 전체의 구조를 규명해냈다.
지난해 35만 개 단백질 구조 발표만으로 알파폴드는 생명과학계에 돌풍을 일으켰다. 단백질의 3D 모형을 알아내는데 과거 X선 결정학과 저온 전자 현미경법을 동원해 엄청난 시간과 비용이 들던 것을 알파폴드는 매우 빠르고 정확하게 예측 생산해 냈기 때문이다. 예측의 정확도에 대한 정보까지 제공해주기 때문에 과학자들이 어떤 모형에 의지할 것인지 판단할 수 있게 해줬다.
EMBL-EBI에 따르면 2억1400만 개 이상의 예측 중 약 35%는 매우 정확하다고 판단되는데 이는 실험적으로 결정된 구조와 동등하다는 것을 의미한다. 다른 45%는 실험실에서 구조를 예측하지 않고 응용 프로그램을 돌려 검증해내기 충분한 정확도를 자랑한다. 단백질 구조에 대한 실험실 데이터를 확보한 경우에도 알파폴드 예측과 비교를 통해 그것이 정확한지 검증할 수 있다. 알파폴드의 예측이 잘못된 경우도 단백질 자체의 내재적 모순에 의해 발생한 것이기 때문에 그 오류가 명백히 드러나게 된다.
하사비스는 "알파폴드 예측이 동식물과 박테리아가 만들어내는 모든 단백질의 예측 구조를 포함하기에 지속가능성, 식량불안, 방치된 질병과 같은 문제 해소에 도움을 줄 수 있다”고 말했다. 그는 "과거엔 단백질 결정학이라는 기술을 사용하여 단백질 분자가 어떻게 생겼는지 알아냈다. 단백질 분자가 매우 역동적으로 움직이기 때문에 결코 쉬운 일이 아니었지만 알파폴드 예측모델과 실험증거를 맞춰 보는 걸로 명쾌한 이해가 가능해졌다“면서 ”이 통찰력은 이제 가장 강력한 전염 차단 항체를 유도하는 개선된 백신을 설계하는 데 사용될 것"이라고 밝혔다.
과학자들은 이미 신약 개발을 돕기 위해 이전의 예측들 중 일부를 사용하고 있다. 올해 5월 영국 옥스포드대의 매슈 히긴스 교수가 이끄는 연구진은 알파폴드 모델을 사용해 주요 말라리아 기생충의 전염을 막을 수 있는 항체가 어디에 결합할 수 있는지를 알아냈다고 발표했다.
알파폴드 예측모델은 영국 포츠머스대 효소혁신센터의 과학자들이 전 세계에 흩어져 있는 1억5000만t의 페트병과 다른 플라스틱 폐기물을 분해할 수 있는 효소를 찾아내는데 도움을 주고 있다. 효소는 유기체 내부의 화학반응을 촉매하는 고분자 단백질의 하나다. 효소혁신센터의 존 맥기한 교수는 “플라스틱 분해 효소는 매우 거대한 구조를 갖고 있기에 이를 규명하는데 꽤 오랜 시간이 필요했는데 과거에 볼 수 없었던 3차원 모델로 접근이 가능해지면서 규명속도가 가속화하는 패러다임의 변화가 일어났다”고 가디언과 인터뷰에서 말했다.
EMBL-EBI의 선임연구원인 재닛 손튼 교수(구조생물학)은 가디언과 인터뷰에서 “모든 사람이 사용할 수 있게 무료 공개된 알파폴드 단백질 구조 예측은 이미 무수한 방식으로 활용되고 있다”며 “이번 업데이트는 앞으로 몇 개월에서 몇 년 사이 더 새롭고 흥미로운 발견을 촉발할 것으로 기대 된다”고 밝혔다.