바이오 빅데이터로 '연관성.패턴' 찾아 질병 조기진단
앞으론 개인 맞춤형 질병 예방 예측으로
헬스케어 산업은 빅데이터 생성과 분석을 기반으로 이뤄지고 있다. 빅데이터를 기반으로 인공지능(AI)이나 머신러닝(ML) 기술을 활용해 바이오 및 의료 산업에 활용한다. 의료 연구는 사용 가능한 풍부한 데이터 내 숨겨진 '연관성'이나 '패턴'을 찾아 질병을 개선하는데 초점을 맞추고 있다. 바이오 업체들은 빅데이터 기술을 활용한 플랫폼이나 진단 서비스를 내놓고 있다.
20일 바이오협회 바이오경제연구센터에 따르면 생명공학 빅데이터에 활용된 '오믹스 기술'은 생체정보 분석을 필요로 하는 빅데이터를 생성하며, 세포와 조직에 걸쳐 많은 세포 구성요소를 상세하게 연구할 수 있도록 했다. 특히 건강, 질병 등을 이해하는데 크게 기여했으며 멀티오믹스를 통해 여러 분야의 데이터를 통합했다. 유전자, 전사체 등 여러 생물학적 조건 데이터 결과를 결합해 프로파일링하고 다양한 질병 메커니즘에 대한 이해를 얻고 있다.
빅데이터는 기존 소프트웨어나 인터넷 기반 플랫폼으로는 관리할 수 없는 대용량 데이터다. 엄청난 양의 데이터 용량, 실시간 생성 속도, 다양성(3V) 등이 특징이다.
바이오 업계에서는 개인정보나 전자건강기록(EMR) 등 데이터 소스를 활용해 질병 예방 전략, 예측 등의 식으로 활용하고 있다. 개발 환자의 요구에 맞는 맞춤형 의료를 제공하고 질병 진단과 치료를 지원하는 방식으로 발전하고 있다.
치료제 개발에도 빠르게 적용되고 있다. 유전체 빅데이터를 기반으로 환자에게 개별화 할 수 있는 치료방법을 도와주고 있다. 과거에는 세포나 동물 실험에서 발견된 질병 관련 경로나 지식에 따라 약물이 개발됐다. 하지만 유전적 변이나 생물학적 차이로 인해 인간에게 대입하기 어려운 경우도 많았다.
국내 기업들은 빅데이터 기술을 활용해 분석, 진단 플랫폼을 개발했다.
신테카바이오는 전세계 다양한 인종의 유전체시퀀싱 데이터를 마하 슈퍼컴퓨팅 기술로 분석하고 있다. 또 유전체 빅데이터를 생성 운영하는 시스템은 암 약물선별과 희귀질환 진단 등 정밀의료에 활용된다.
테라젠바이오는 첨단 유전체 분석 기술을 바탕으로 맞춤형 진단·솔루션과 차세대 염기서열 분석(NGS) 임상검사, 의료 빅데이터 등 서비스를 제공하고 있다. 유전자 분석 기반으로 암 위험도 예측, 약물 기전 파악, 맞춤형 항암제 선별 등 알고리즘을 개발해 특허를 받았다.
또 쓰리빌리언은 AI 유전변이 해석 시스템을 활용해 환자가 가지고 있는 증상이 7000여개 유전질병과 상관성이 있는지 검정하는 과정을 통해 최종 진단하는 서비스를 하고 있다.
다만 복잡한 데이터 정보를 효율적으로 분류·통합해 사용해야 한다는 과제가 있다. 현재 멀티오믹스나 메타분석, 공동발현 분석 등은 모두 대규모의 복잡한 데이터에서 정보를 추출하는 것을 기반으로 하기 때문이다. 또 데이터 이해관계자 간의 갈등, 데이터 소유권, 개인정보보호 등은 해결해야 한다.
바이오경제연구센터는 "바이오 분야 빅데이터 개선을 위해서는 정크데이터의 중복성과 과부하를 최소화하기 위해 기업, 산업과 데이터 생성팀 간의 협업, 그리고 컴퓨터 엔지니어, 데이터과학자, 생물의학 과학자, 임상의사 등의 학제 간 부서 및 센터 구축 등의 조치가 필요할 것"이라고 설명했다.
한편 빅데이터 시장 규모는 지난해 1626억 달러(약 226조원)에서 오는 2026년 2734억 달러(약 380조원)로, 약 11% 증가율을 보일 것으로 예상된다. 생명공학·의료산업은 갈수록 다양한 정보 수집이 가능해짐에 따라 빅데이터를 적용할 수 있는 가장 중요한 영역 중에 하나로 자리잡고 있다.