환자정보 ‘페타바이트’ 시대 넘보는 의료계…AI 접목 가능성은?

엔비디아-서울대병원 인공지능 포럼 주최, "AI 대규모 활용하는 첫 해 될 것"

[사진=엔비디아-서울대병원 HCLS 포럼]
“인공지능(AI) 프로그램들이 인간의 지능을 넘어서는 ‘특이점’ 위에 서있는 것은 아닐까 하는 생각을 자주 한다. 분명한 것은 우리 모두는 지금, 새로운 기회를 맞고 있다는 점이다.”

데이터 사이언스 분야를 연구하는 의료계 전문가들이 심심찮게 흘리는 말이 있다. 이제는 정보의 테라바이트(TB·1000GB)를 넘어서 페타바이트(PB·1000TB) 시대를 바라보고 있다는 것. 아직 일상생활에서 쉽게 접할 수 있는 단위는 아니지만, 대용량 컴퓨터 서버 등에선 실제로 사용되고 있다.

이렇듯 전문가들은 광범위한 데이터를 통합해 인공지능 모델에 학습시킬 경우, 기존 생성형 AI 프로그램에서 문제로 지적된 환각현상(Hallucination·거짓을 사실인 것처럼 답변하는 문제) 등 여러 기술적인 난제들이 일정 부분 해결될 것으로 예상하는 눈치다.

특히, 헬스케어 분야에선 이러한 맹점을 줄인 최신 기술 ‘파운데이션 모델(Foundation Model)’의 상용화에도 적잖은 기대를 걸고 있다.

25일 서울대병원 마취통증의학과 이형철 교수는 엔비디아와 서울대학교병원이 공동으로 주최한 ‘HCLS(Healthcare and Life Science) 서밋 코리아 2023’ 포럼에 연자로 참석해 이 같은 의견을 밝혔다. 이 교수는 서울대병원 정보화부실장 및 데이터사이언스연구부장을 맡고 있다.

이 교수는 “올해는 병원에서 AI를 대규모로 이용하는 첫 해가 되지 않을까 개인적으로 생각한다”며 “20년 넘게 축적된 데이터들은 인공지능 시대에 중요한 자산으로 여러 연구자의 아이디어와 역량으로 분석돼야 할 중요한 자료”라고 강조했다.

이에 따르면, 서울대병원은 처방전달시스템(OCS)을 처음으로 구출할 당시 6TB의 서버로 시작해, 25년이 지난 지금 PB를 넘는 방대한 분량의 데이터를 쌓고 있다.

병원정보시스템(HIS)에 총 629만9363명 환자 기록(20TB)과, 의료영상정보전송시스템(PACS)에 446만967명 자료(1029TB), 차세대염기서열분석(NGS)엔 병리 7412명 및 연구실 3402명 자료(총 297TB), 병리학 분야엔 환자 슬라이드 101만3917명과 디지털 13만1852명(총 1185TB) 등의 자료가 구축된 상태다.

이 교수는 “해당 데이터를 효율적으로 분석하기 위해 먼저 병원전자의무기록(EHR)의 경우, 데이터 웨어하우스 프로그램(SUPREME 2.0)을 이용해 일체의 데이터를 가명화해 대부분의 연구를 IRB(의학연구윤리심의위원회) 심의 면제를 받아 연구가 가능하도록 했다”고 설명했다.

또한 “다음달 오픈 예정인 클라우드 기반 데이터 플랫폼인 ‘SNUHUB’를 통해 원내외에 있는 연구자들 누구나 접속해 엔비디아의 고성능 컴퓨팅 자원을 활용할 수 있도록 했다”며 “원내 데이터를 반출하지 않고 분석할 수 있도록 설계된 최신 플랫폼”이라는 점을 강조했다.

해당 플랫폼이 공식적으로 오픈하게 되면, 병원 내에 있는 연구자료나 생체신호, 병리데이터를 활용한 다양한 연구들이 수행될 것으로 기대했다.

이 교수는 “개인적으로도 여러 연구자들과 플랫폼을 이용해 공동 연구를 생각 중”이라며 “병원 데이터사이언스연구부는 국내 최초로 엔비디아에 DGX A100 서버를 도입해 지속적으로 연구를 진행하고 있다. PB 분량의 연구 데이터를 확보해 각종 원내 데이터를 연구용으로 별도 복사한 후 가명화해 여러 연구에 활용하는 상황”이라고 소개했다.

2016년 ‘알파고’의 등장 이후로 수 많은 딥러닝 알고리즘을 활용한 AI 모델들이 의료 분야에 발표되고 있다. 실제로 의료연구 데이터베이스 펍메드(PubMed)에 따르면, 머신러닝 및 딥러닝 키워드로 한 논문은 작년 한 해에만 총 4만5168건이 출간되며 폭발적으로 늘었다.

더불어 현재 미국 식품의약국(FDA)으로부터 승인을 받은 AI 모델도 500개가 넘은 상황이다. 하지만, 이들 대부분이 한 두 가지 문제를 해결하는데 초점을 맞춘 “활용 범위가 좁은 모델”로 실사용에는 한계가 있는 것으로 평가된다.

여기서 대안으로 나온 것이 광범위한 대규모 데이터로 학습된 인공지능 ‘파운데이션 모델(Foundation Model)’이다. 이 교수는 “해당 모델이 개발되면 많은 문제들을 하나의 모델로 동시에 해결할 수 있을 것”으로 내다봤다.

올해 네이처(Nature) 학술지에는 이러한 의료 모델을 적용한 사례를 소개한 미국 뉴욕대병원 논문이 발표되기도 했다. 통합 AI 모델이 병원내 생체신호와 수술영상, 유전자, 병리 등의 방대한 자료뿐만이 아니라 각종 의료 지식을 학습함으로써 활용도가 크게 넓어진다는 평가였다.

그는 “그럼에도 해결해야 할 문제는 아직 남았다. 범위가 좁은 개별 모델들에 비해 성능은 좋아졌지만 만족할 만한 결과를 얻기까지 연구자들은 엔비디아 A100 GPU 24개를 3주 동안 사용해야 했다”며 “앞으로 진행될 연구들의 매개변수(파라미터)도 동시에 기하급수적으로 늘게 될 것”이라고 덧붙였다.

이와 관련해, 서울대병원은 매년 병원 자체 데이터를 활용해 연구자들과 협력하는 ‘MAIC(Medical AI Challenge) 대회’를 열고 있다. 올해에도 심전도 기반 생체 나이 추정이나 급성 심손상 예측, 의료영상 분석과 관련된 대회가 개최될 예정이다.

한편, 이날 포럼을 주관한 엔비디아는 미국 반도체기업으로 생성형 AI 열풍의 최대 수혜 업체로 평가받는다. 생성형 AI 개발에 핵심적인 역할을 담당하는 그래픽처리장치(GPU)를 전문으로 제조하면서, 관련 시장의 90% 이상을 점유한 상황이다.

2018년 Internal Medicine Journal에 발표된 백서에 따르면 헬스케어는 세계에서 가장 많은 데이터를 생성하는 산업이다. 하지만 현재 의료 업계에는 방대한 양의 데이터를 처리할 수 있는 기술 인프라가 부족하다. 이는 비용 상승과 새로운 치료법이 시장에 출시될 때까지의 오랜 기다림으로 나타나는 엄청난 비효율을 만들어낸다.

때문에 엔비디아의 데이터 처리 및 AI 역량이 의료 산업에서 강력한 힘을 발휘할 수 있을 것이라는 전망이 나온다.

    원종혁 기자

    저작권ⓒ 건강을 위한 정직한 지식. 코메디닷컴 kormedi.com / 무단전재-재배포, AI학습 및 활용 금지

    댓글 0
    댓글 쓰기

    함께 볼 만한 콘텐츠

    관련 뉴스