점쟁이 보다 용한 챗GPT? ...10년 뒤 심장병 걸릴 지 정확히 예측
연세대 용인세브란스병원 심장내과 배성아 교수팀 연구
최근 국내 연구진이 챗gpt(대화형 인공지능 서비스)의 심혈관 질환 예측 정확도를 입증했다.
챗GPT는 이미 사회 전반에서 폭넓게 활용되고 있다. 특히 GPT-4 모델 기반의 챗GPT(이하 GPT-4)는 미국 의사면허시험(USMLE)에서 90% 이상의 정답률로 합격했을 뿐 아니라 선천성 희귀병 진단과 같은 의학 분야에서도 뛰어난 성능을 보였다. 하지만 그간 환각 현상과 정확·편향성 문제 등으로 인공지능(AI)을 의료 분야에 적용하는 것은 쉽지 않았다.
연세대 의대 용인세브란스병원 심장내과 배성아, 의생명시스템정보학교실 윤덕용 교수 연구팀은 대규모 환자 코호트 데이터인 영국 바이오뱅크(UK Biobank)의 약 5만 명, 한국인유전체역학조사사업(KoGES)의 약 6000 명의 데이터를 수집했다.
그런 뒤 환자의 △나이 △병력 △피검사 자료를 바탕으로 GPT-4에게 향후 10년 내 심혈관계 질환의 발생 가능성을 물은 뒤 예측 능력을 평가했다.
평가 결과 GPT-4는 실제 의료계에서 심혈관 질환 예측에 널리 사용되는 모델인 프레이밍햄 위험 점수(Framingham Risk Score)과 미국심장학회·심장협회(ACC·AHA)의 위험 점수와 유사한 성능을 나타냈다.
분석에는 모델의 정확도를 나타내는 통계 기법인 '수신기 작동 특성 곡선 아래 면적(AUROC)'을 활용했다. 이는 특정 검사도구의 진단 정확도를 나타내는 통계 기법이다. AUROC에서는 면적이 1에 가까울수록 정확도가 높다는 것을 의미한다.
AUROC 기준으로 GPT-4는 0.725를 기록했다. 프레이밍햄 위험 점수(0.728)와 미국심장학회·심장협회의 위험 점수(0.733)과 비슷한 수준이었다. 0.725는 예측 정확도가 상당히 높은 축에 해당한다.
윤덕용 교수는 "GPT-4는 의료용으로 만들어지지 않았지만 대규모 학습 데이터로부터 적절한 의료 지식을 습득했다"며 "이에 따라 여러 심혈관 질환 위험 변수를 적절히 결합하면 유의미한 결과를 도출할 수 있다는 가설을 확인했다"고 설명했다.
이어 윤 교수는 "기존 GPT-4를 기반으로 심혈관 질환 예측 정확도를 더 높인 업그레이드 버전을 만드는 것이 목표다"며 "이로 인해 향후 자신의 심혈관 상태를 진단하기 어려워 병원을 찾아야만 하는 일반인들의 의료 접근성을 높이는데 기여할 수 있을 것"이라고 덧붙였다.
연구 결과는 과학 저널 셀(Cell)이 출간하는 국제 학술지 《아이사이언스(iScience)》에 최근 게재됐다.