AI는 평등할까? “인종별로 질병진단 정확도 달라”
진단 정확도, 백인에서 가장 높고 아시아인 최저
의료 분야에서 인공지능(AI)을 활용해 질병을 진단할 때 인종 별로 정확도에 차이가 있다는 연구 결과가 나왔다.
기계 학습(머신 러닝)은 인공지능이 데이터를 분석해 규칙을 발견하고, 그 규칙을 새로운 데이터에 적용하는 원리를 말한다. 의료계에선 방대한 환자 데이터를 입력한 뒤 신규 환자의 발병 여부를 판단하는 방식으로 사용된다.
이와 관련, 미국 플로리다대 생물의학과 및 산부인과, 컴퓨터 공학과 공동 연구팀은 가임기 여성을 대상으로 무증상 세균성 질염을 진단하는 의료 기계 학습 모델의 성능을 검증하기 위해 실험을 설계했다. 연구팀은 아시아인, 흑인, 히스패닉, 백인 여성 각각 100명으로 이루어진 총 400명의 데이터를 AI모델에 학습시킨 뒤 인종 별로 정확도를 분석했다.
그 결과 백인 여성의 데이터가 정확도 97.5%로 가장 정확한 진단이 가능했다. 흑인(91.5%), 히스패닉(89.2%)이 뒤를 이었다. 아시아인의 경우 82.9%로 진단 정확도가 가장 낮았다. 해당 기계 학습 모델이 양성으로 잘못 진단한 사례가 가장 많았던 인종은 히스패닉이었으며, 음성으로 잘못 진단한 사례는 아시아인에게서 가장 많이 나타났다.
이는 기계 학습 모델을 진단에 활용할 때 히스패닉 여성은 불필요한 의료비 지출이 늘어나며, 아시아 여성들은 질병이 악화될 때까지 방치될 위험이 크다는 것을 의미한다.
연구팀에 따르면 인종 별로 질의 위치, 모양, 자연적으로 가지고 있는 박테리아 수치 등이 다르기 때문에 질염의 발병 조건에 차이가 날 수 있다. 기계 학습 모델은 이를 고려하지 못했다는 것이 이번 연구 결과의 가장 유력한 이유다.
연구팀은 “흔히 AI는 기계적으로 정확하고 모두에게 평등할 것이라고 생각하기 쉽지만, 모든 인종 집단에게 동일한 결과나 효용을 제공하지는 않는다는 것이 이번 연구 결과를 통해 드러났다”며 "질병을 진단하는 영역에서 인공지능과 기계 학습이 엄청난 편의성을 제공하는 것은 사실이지만, 의료 편견을 완화하기 위해선 분명한 개선이 필요하다"고 평가했다.