구글 AI, 미국 의료면허시험 모의테스트 통과
이전 기록 깨고 85% 정확도 달성했다
챗GPT 소식으로 들썩이는 가운데 구글의 의학 중심 인공지능(AI) 모델이 미국 의료면허시험(USMLE) 모의 테스트에서 85%의 정확도로 AI 모델의 역대 최고 점수를 기록했다.
런던 구글 헬스 의료기계학습 연구팀을 이끄는 외과 의사 겸 과학자인 앨런 칼틱스링암 박사는 “Med-PaLM 2(경로 언어 모델)로 알려진 AI 모델이 “미국 의료면허시험 테스트를 전문가인 의사 수준으로 일관되게 치렀다”고 보고했다.
Med-PaLM 2는 객관식과 주관식 질문에 답하고, 답변에 대한 서면 설명을 해서 평가했다. 칼틱스링암 박사는 “인간과 같은 정확성과 효율성에 도달하려는 이전 AI 모델의 시도보다 현저하게 개선된 결과를 보여줬다”고 말했다.
칼틱스링암 박사는 의료 매체 ‘메드페이지 투데이’에 최근 “의학의 역사를 살펴보면 의사에게 초능력처럼 보이던 것을 제공하는 유용한 새로운 도구가 항상 있었다”고 말했다. 그는 “AI가 간병인에게 시간이라는 선물을 돌려주고, AI가 의사와 다른 간병인이 환자와 더 많은 시간을 보내고 의료에 시간과 인류애를 불어넣을 수 있게 해서 접근성과 가용성을 높이는 것이 목표”라고 말했다.
구글 헬스 AI의 연구 과학자인 비벡 나타라잔 박사는 Med-PaLM 2가 “의료 영역의 안전성에 대한 뉘앙스를 정말 빠르게 학습하고 매우 빠르게 조정한다”고 말했다. 그는 이 모델이 “구글의 대규모 언어 모델(LLM)과 심층적인 도메인 전문 지식 및 선구적인 기술이 조합된 결과”라고 설명했다.
이렇게 높은 정확도와 높은 점수에도 불구하고 연구원들은 과학적 정확도와 추론과 같은 14개의 다른 기준을 사용하여 테스트한 결과, Med-PaLM 2에도 여전히 상당한 한계가 있다고 언급했다.
칼틱스링암 박사는 “이러한 시스템은 완벽하지 않다”고 말했다. 그는 “때때로 무언가를 놓칠 것이다. 때때로 하지 말아야 할 것을 언급할 것이고 그 반대의 경우도 있을 것이다. 그러나 유용한 도구가 될 가능성은 분명하다"고 말했다. 그는 ”이 연구의 목표가 AI 모델의 의학적 정확성을 테스트하여 임상의를 보완하고 의료 시스템에 가치를 더할 수 있는 도구가 될 수 있는지를 보는 것“이라고 덧붙였다.
그는 “이는 장차 의사 작업 과정을 원활하게 하고 임상의에게 통찰을 줄 것이며, 보완적이고 협력적인 도구가 될 것”이라고 말했다.