왜 AI는 아프리카 아이의 병을 잘 찾지 못했나?
[김명신의 유전자 이야기]⑨AI와 유전체 기반 개인맞춤의료
나는 바둑을 좋아한다. 정확히 말하자면 바둑 두는 것보다 보는 것을 좋아한다. 내 바둑 관람의 시작은 어릴 때로 거슬러 올라간다. 외할아버지께서는 꽤나 바둑을 잘 두셨고, 가끔 상대할 사람이 없을 때는 어린 나를 앞에 두고 이것저것 묻는 내 질문에 답변을 하며 혼자서 바둑을 두시기도 했다.
한동안 잊고 있던 바둑은 2016년 알파고 대 이세돌, 구글딥마인드챌린지 매치를 통해 새로운 모습으로 나타났다. 알파고는 바둑 대국에서는 은퇴했지만, 여러 나라에서 만든 인공지능(Artificial Intelligence, AI) 바둑프로그램이 나와서 사람들과 대국도 하고 바둑을 가르치는 데 사용되고 있으며, 큰 경기 중계에서는 기사들의 한수 한수에 따라 실시간 승률을 예측해주어 관람의 재미를 더하고 있다.
딥마인드는 알파고를 은퇴시키면서 앞으로 암 등 질병 치료와 같은 과제를 해결하는 데 AI를 사용할 수 있도록 하겠다고 선언했고 실제로 2019년 급성 신장 손상을 진단하는 능력을 평가하여 논문으로 보고했다. 우리에게 잘 알려진 IBM의 ‘닥터 왓슨’은 암과 유전체 두 분야에 대한 사업을 시작했는데, 국내에도 ‘왓슨 포 온콜로지’가 도입되면서 암을 진단하고 치료 방향을 정확히 제시하는 능력을 보여주어 미래에 의사의 역할을 대체할 수 있는지가 이슈가 된 적이 있다.
최근 자료를 찾아보니 국내 도입 5년이 못 미쳐 여기저기서 닥터 왓슨에 대한 실망의 목소리가 들리고, 지난해 5월 IBM도 왓슨을 실패한 사업으로 규정하였다고 한다. 전문가 의견과의 일치도가 떨어지고 각 나라의 언어, 표현 등의 특징을 반영하지 못하는 등 아직 완성되지 않은 기술을 섣불리 시장에 내놓은 것이라는 평이 대부분이었다.
하지만 닥터 왓슨의 위기가 의료분야의 AI 개발에 위기만을 가져온 것은 아니다. 현재 의료분야 AI는 부족한 정보를 촘촘히 채워주고 정확도를 높이는 보완적인 기능을 담당하는 쪽으로 더욱 성장해가고 있다.
유전체 분야에서도 꾸준히 AI를 적용해보는 노력을 하고 있으며 점점 구체화되는 단계에 접어들었다. 사람 유전체는 30억 염기쌍으로 구성되어 있으므로 유전체 데이터는 규모가 매우 크다. 또한 질병, 개인의 특성 등에 영향을 주는 염기서열 변이를 결정하고 연계시키는 프로세스는 더욱 복잡할 수밖에 없다.
예를 들어 어떤 유전자 돌연변이가 발견되면 그 변이가 실제로 인체에 미치는 영향이 어느 정도인지를 분석하기 위해서 다양한 종의 생물 아미노산 정보와 12만 명의 사람으로부터 얻은 데이터를 학습한 프로그램을 이용한다. 만약 단백질을 코딩하지 않는 비코딩 부위에 돌연변이가 발생했다면 해당하는 변이가 인체에 미치는 영향력을 예측하기가 더욱 어려워진다. 이런 경우에는 32계층 심층신경망(32-layer deep neural network)을 이용한 스플라이스AI(SpliceAI)를 사용하여 해당 변이의 복잡한 작용 메커니즘을 감별한다.
이렇게 유전자 변이의 영향력을 예측하는 것 외에도 AI는 여러 분야에서 응용되고 있다. 대규모 안면 인식 학습 데이터를 바탕으로 환자의 얼굴 사진을 딥러닝으로 분석해 의심되는 유전병과 관련 유전자를 제시해주는 프로그램도 개발됐다. AI 기반 컴퓨터비전시스템(AI-based computer vision systems)으로 종양 조직의 이미지를 통해 암을 분자 수준 이상으로 검출하고 파악하려는 연구도 진행되고 있다.
바둑으로 시작한 이야기가 의료로 넘어오면서 이야기가 길어졌지만 꼭 강조하고 싶은 것이 있다. 현재까지 수집된 유전체 데이터의 대부분은 유럽 가계의 사람들로부터 얻은 것이며 다른 인종에서 얻은 정보는 적다.
앞서 언급한 얼굴 인식 프로그램도 초기에 벨기에 어린이의 다운증후군 인식률은 80%, 콩고 흑인 어린이의 인식률은 37%였다가 데이터 세트의 다양성을 향상시킨 결과 인식률이 향상됐다. 이처럼 다양한 모집단으로부터 데이터를 얻지 못한 채 AI 예측 모델이 개발되면 다시 이런 오류에 빠질 가능성이 있다.
따라서 여러 상황을 반영할 수 있는 충분한 양의 데이터를 통해 AI 알고리즘을 개발하고 충분한 검증을 거쳐 실용화하는 단계가 필요하다. 더 나아가 유전체 데이터를 임상에 유용한 정보로 만들 수 있도록 여러 유전자 간의 상호작용을 포함한 유전적 위험 요인 분석과 함께 질병에 영향을 주는 환경, 생활 습관과 같은 비유전적 요소들과 병원 데이터, 디지털 모니터링 장치 등에서 얻는 정보들을 통합적으로 분석하는 것이 각 개인에 맞는 미래 의료에서 AI가 담당할 주요 역할이 될 것이다.