“인간 단백질 돌연변이 중 32% 질병 유발해”

구글 인공지능 ‘알파미센스’, 질병 관련 돌연변이를 콕 찍어내

알파미센스는 인간과 유사한 영장류의 DNA 데이터를 받아 어떤 과오 돌연변이가 흔하고 무해한지 또 어떤 과오 돌연변이가 희귀하고 유해한 것인지를 분석했다. [사진= 게티이미지뱅크]
구글 과학자들이 개발한 인공지능(AI)을 활용해 인간 단백질을 만드는 유전자 중에서 질병을 유발할 돌연변이를 추려냈다. 전체 돌연변이 중 51%는 무해한 반면 32%가량이 질병 유발과 관련된 것으로 조사됐다. 19일(현지시간) 《사이언스》에 발표된 구글 딥마인드 연구진의 논문을 토대로 영국 가디언이 보도한 내용이다.

연구진은 희귀 질환의 연구와 진단을 가속화하기 위한 노력의 일환으로 수백만 개의 인간 유전자 돌연변이 중 질병과 관련된 돌연변이와 무해한 돌연변이를 가려내는 1차 작업을 마쳤다고 발표했다. 지구상에 존재하는 35만 개의 단백질 구조를 3D로 예측한 인공지능 알파폴드(AlphaFold)에 기초한 새로운 인공지능 네트워크 알파미센스(AlphaMissense)를 통해서다.

알파미센스는 DNA 코드에서 철자 하나가 틀려서 발생하는 과오 돌연변이(missense mutation)를 예측하는 인공지능이다. 과오 돌연변이는 단백질의 기본 구성단위인 아미노산을 이루는 3개의 염기서열 중 1개의 염기서열이 바뀜에 따라 다른 아미노산을 코딩하게 되어 결국 단백질의 활성을 저해하게 되는 유전적 돌연변이 현상을 말한다. 과오 돌연변이 중 상당수는 무해하지만 일부는 단백질이 작동하는 방식을 방해하고, 낭포성 섬유증과 겸상 적혈구 빈혈, 그리고 뇌 발달에 문제를 일으킬 수 있다.

연구진은 알파미센스를 통해 인간 단백질에 영향을 미칠 수 있는 7100만개의 단일 문자 돌연변이를 모두 평가했다. 프로그램의 정확도를 90%로 설정했을 때 과오 돌연변이의 57%는 무해하고 32%는 해로울 것으로 예측했다. 나머지 11%는 불확실한 것으로 분류됐다.

연구진은 이를 토대로 온라인에 무료 예측 목록을 공개했다. 돌연변이가 어떻게 질병을 유발하는지 또는 희귀한 장애를 가진 환자를 진단하는 방법을 연구하는 유전학자와 임상의를 돕기 위해서다.

일반적인 사람은 게놈 전체에 걸쳐 약 9000개의 과오 돌연변이를 가지고 있다. 인간 전체에서 발생하는 400만 개 이상의 과오 돌연변이 중 단 2%만이 양성 또는 병원성으로 분류됐다. 의사들은 이미 어떤 돌연변이가 질병을 유발할 수 있는지 예측하는 컴퓨터 프로그램이 있지만 예측이 부정확하기 때문에 진단을 위한 뒷받침하는 증거만 제공할 수 있다.

연구진은 알파미센스가 어떤 돌연변이가 질병을 유발하는지 더 신속하게 찾아내는 데 도움이 될 것이라고 밝혔다. 알파미센스는 또한 이전에 특정 장애와 연관되지 않았던 돌연변이를 표시하고 의사에게 더 나은 치료법을 안내할 수도 있다고 연구진은 말했다.

알파미센스는 인간과 유사한 영장류의 DNA 데이터를 받아 어떤 과오 돌연변이가 흔하고 무해한지 또 어떤 과오 돌연변이가 희귀하고 유해한 것인지를 분석했다. 동시에 수백만 개의 단백질 서열을 연구하고 “건강한” 단백질이 어떻게 생겼는지를 학습함으로써 단백질의 ‘언어’를 훈련했다. 이를 토대로 인간 단백질 관련 돌연변이의 위험을 점수화했다.

연구진의 일원인 구글 딥마인드의 준 청 연구원은 단백질 언어가 인간의 언어와 매우 비슷하다고 설명했다. “영어 문장 속 단어를 다른 단어로 대체하면 영어에 익숙한 사람은 단어 대체가 문장의 의미를 바꾸는지 여부를 즉시 알 수 있는 것과 같은 원리”라는 것.

이 연구에 참여하지 않은 영국 에든버러대의 조 마쉬 교수(컴퓨터생물학)는 알파미센스가 “큰 잠재력”을 지니고 있다고 평가했다. 만약 임상 전문가들이 알파미센스를 신뢰할 만하다고 판단하게 되면 그 예측은 향후 질병 진단에 더 큰 영향을 미칠 수 있기 때문이다.

영국 웰컴생어 연구소의 인간 유전학 수석 그룹 리더인 벤 레너 교수도 “검증이 필요하겠지만 어떤 DNA 변화가 질병을 유발하고 어떤 DNA가 질병을 유발하지 않는지를 밝히는 데는 많은 도움이 될 것 같다”고 말했다. 그러나 그는 “딥마인드 모델에 대한 한 가지 우려는 그것이 극도로 복잡해 생물학보다 더 복잡할 수 있다는 것“이라며 ”우리가 이 모델들이 실제로 어떻게 작동하는지 결코 이해할 수 없을지도 모른다“고 덧붙였다.

해당 논문은 다음 링크(https://www.science.org/doi/10.1126/science.adg7492)에서 확인할 수 있다.

    한건필 기자

    저작권ⓒ 건강을 위한 정직한 지식. 코메디닷컴 kormedi.com / 무단전재-재배포, AI학습 및 활용 금지

    댓글 0
    댓글 쓰기

    함께 볼 만한 콘텐츠

    관련 뉴스