챗GPT가 의사 상담 대체할까? 실제 비교하니…
美 연구팀 블라인드 테스트… 전문가 79% “챗GPT가 나아”
환자의 의학 관련 질문에 대해 챗GPT가 작성한 대답이 의사의 대답보다 만족도가 높았다. 미국의 한 연구팀이 무작위로 선정한 195개 질문에 대한 대답을 비교 분석한 결과다.
대화형 인공지능(챗봇)인 챗GPT의 열풍이 거센 가운데, 미국 샌디에이고 소재 캘리포니아대 퀄컴 연구소의 연구팀은 인공지능이 환자의 질문에 얼마나 잘 대답할 수 있는지를 실험했다. 연구팀은 미국 최대 온라인 커뮤니티 ‘레딧’의 하위 게시판인 ‘에스크닥스(AskDocs)’에서 무작위로 195개 질문을 수집했다.
에스크닥스는 활동하는 회원만 45만명이 넘는 사이트로, 환자가 의료 관련 질문을 공개적으로 올리면 실제 면허가 있는 의사가 답변하는 형태로 운영된다. 연구팀은 이 사이트에서 수집한 195개의 질문에 대한 의사와 챗GPT의 답변을 각각 패널에게 평가하도록 했다.
패널은 소아과, 노인 질환, 전염병 및 예방의학, 내과, 종양학 등을 전공한 의료 전문가 총 세 명으로 구성되었다. 이들은 답변 작성자가 의사인지 챗GPT인지 모르는 상태에서 ‘어느 답변이 더 나은지’, ‘정보의 질이 만족스러운지’, ‘답변이 환자의 상태를 충분히 공감하는지’에 대해 평가했다.
그 결과 전문가 평가의 79%가 “챗GPT의 답변이 의사보다 만족스러웠다”고 응답했다. 정보의 품질 면에서 챗GPT의 답변에 대한 긍정적인 평가는 의사가 작성한 답변보다 약 3.6배 더 높았다. 환자에 대한 공감 면에서도 챗GPT이 의사보다 9.8배 많은 긍정적 피드백을 얻었다.
연구팀은 이러한 결과는 챗GPT가 더 길고 자세한 답변을 했기 때문이라고 추측했다. 실제로 의사가 작성한 195개 답변은 평균 52개의 단어로 구성된 반면 챗GPT는 평균 211개의 단어를 사용했다. 연구팀은 갈수록 비대면 진료의 수요가 커지는 최근 의료계 흐름에서 챗봇을 적절하게 활용하면 의사의 업무 부담을 낮출 수 있을 것으로 기대했다.
연구팀은 “이번 결과가 챗봇이 인공지능보다 뛰어나다는 것을 의미하지는 않는다”고 강조했다. 의사와 환자는 기존에 쌓은 관계를 바탕으로 질문하고 답변할 가능성이 있지만, 이번 실험에서는 개별적인 질문만 평가했기에 이 결과를 보편적으로 적용하기엔 무리가 있다는 것이다. 챗봇은 의료 목적으로 개발된 것이 아니며 제공하는 정보가 부정확하거나 불완전할 가능성이 있어 의사를 완전히 대체하는 것은 어렵다.
연구팀은 “중요한 것은 의사가 챗GPT라는 도구를 활용해 의료 환경을 개선하는 것”이라며 “챗GPT는 의사가 환자를 대하는 태도를 바꿀 수 있다”고 말했다. 이번 연구 결과는 미국의학협회의 국제학술지 ‘JAMA 내과학지(JAMA Internal Medicine)’에 게재됐다.