AI 신약 강국, ‘바이오데이터’ 활용에 달렸다

“공공연구비 투입된 바이오데이터는 공익화해야”

 

국회의원회관에서 열린 '제약바이오산업의 AI 대전환' 토론회. 사진=천옥현 기자

“국가연구비가 들어간 바이오데이터는 반드시 활용되도록 의무화해야 한다. 연구자가 원천 데이터를 내놓는 것은 부담스럽고 매우 어려운 일이다. 하지만 직접적 공개가 아닌 연합학습에 바이오데이터를 제공하도록 하면 그동안 활용되지 못했던 연구데이터의 가치를 제고하고, 활용을 촉진할 수 있다.”

김화종 K-멜로디 사업단 단장은 26일 국회의원회관에서 열린 ‘제약바이오산업의 AI대전환’ 토론회에서 바이오데이터를 공익화해야 한다고 제안했다. K-멜로디 사업은 과학기술정보통신부와 보건복지부가 공동 추진하고 있는 연합학습 신약개발 가속화 프로젝트다. 제약사와 연구소, 대학, 병원 등에 분산된 신약개발 관련 데이터를 안전하게 활용할 수 있는 AI플랫폼을 구축하고 있다.

김 단장은 “AI 바이올로지가 발전하려면 데이터, 컴퓨팅, 소프트웨어가 있어야 하는데 소프트웨어는 원천기술이 어느 정도 공개돼 있고, 클라우드 컴퓨팅도 예산을 투입하면 된다. 하지만 바이오데이터는 구하기가 어렵다”며 “바이오데이터 활용 능력을 강화하면 다른 나라와 차별화할 수 있고, 이 분야에서 선진국이 될 수 있다”고 주장했다.

하지만 바이오데이터는 개인정보보호와 지적재산권 이슈 등으로 공유와 활용이 제한적이다. 생물학적, 의학적, 유전적 정보 등 개인의 민감한 정보를 담고 있기 때문에 수집하고 처리하는데 엄격한 기준이 적용된다.

김 단장에 따르면 이 문제를 해결하기 위해 활용되는 게 연합학습이다. 연합학습은 데이터를 직접 가지고 오지 않아도, AI모델의 파라미터(가중치)만 공유해 AI를 학습할 수 있는 기술이다. 파라미터는 개인정보가 아니기 때문에 이를 공유하는 것은 법적 문제가 없다. 이에 따라 정보보호 문제를 해결하면서도 데이터를 활용할 수 있다.

또한 데이터의 가치를 산정할 수 있다는 점도 장점이다. 기존 데이터 활용 방식에서는 데이터를 수집하는 곳이 모든 이익을 가져간다. 데이터 가치를 정확하게 계산할 수 없기 때문이다. 반면 연합학습 방법에서는 데이터가 사용된 후 사용량(기여도)을 측정할 수 있기 때문에 가치 산정과 보상체계 구축이 가능하다는 설명이다. 이미 구글, 엔비디아 등에서 연합학습 핵심기술을 개발해 활용하고 있다.

다만 이를 제대로 활용하기 위해서는 법제도와 정책 등이 필요하다고 김 단장은 강조했다. 그는 “국가연구비가 들어간 공공사업 등의 데이터는 연합학습에 활용될 수 있도록 의무화하는 법을 만들 수 있다고 생각한다”며 “또한 이런 데이터 활용도를 논문 인용도처럼 연구 평가에 반영하면, 많은 연구자들이 연구에 동참할 것”이라고 했다.

그러면서 “연합학습에서 공유되는 모델 가중치가 개인정보보호법이나 지식재산권 유출이 아니라는 법적 해석이 필요하다”며 “이 데이터가 개인정보가 아니라는 유권해석이 나와 있긴 하지만, 확대 해석될 수도 있으므로 개인정보보호법에 해당하지 않는다는 내용을 명시해야 한다”고 덧붙였다.

이에 대해 패널로 참여한 남호정 GIST 전기전자컴퓨터공학부 교수는 “데이터는 모델의 모든 성능을 결정짓는 가장 중요한 요인이 되는데, 공개된 데이터만으로 인공지능을 개발하는 것은 차별성이 떨어진다”며 “데이터를 연합학습에 활용할 수 있는 제도적인 장치를 마련해 준다면 정확도 있고, 수준 높은 인공지능 모델을 개발하기가 더 수월해질 것”이라고 말했다.

심은혜 보건복지부 보건의료데이터진흥과장은 “연합학습이 의료데이터를 활용할 수 있는 좋은 수단이라는 것에 공감하지만, 국내서 의료 분야에 연합학습을 활용하고 있는 방식은 많지 않다”며 “새로운 연구과제들을 통해 기술 개발하는 작업을 하고, 이와 함께 국민들이 의료데이터 활용의 필요성을 공감하고, 동의하는 분위기를 만들어야 한다”고 말했다.

    천옥현 기자

    저작권ⓒ 건강을 위한 정직한 지식. 코메디닷컴 kormedi.com / 무단전재-재배포, AI학습 및 활용 금지

    댓글 1
    댓글 쓰기

    함께 볼 만한 콘텐츠

    관련 뉴스