'빅데이터' 활용 헬스케어, 데이터 통합•형평성 중요

빅데이터를 이용하는 헬스케어 기업들이 극복해야 하는 주요 장애물은 대규모 데이터의 복잡한 특성을 작업하고, 서로 다른 데이터 유형을 통합하는 가장 효율적인 방법을 찾는 것이란 진단이 나왔다.

20일 한국바이오협회 바이오경제연구센터생명과학 분야에서 빅데이터의 영향과 향후 방향보고서에 따르면, 데이터 간 이질성, 데이터 이해 관계자 간의 갈등, 데이터 소유권, 데이터 개인정보 보호 및 무결성 등은 바이오 연구에 있어서 빅데이터가 넘어야 할 산이다.

한국바이오협회 바이오경제연구센터 박봉현 책임연구원은생명공학 분야는 기술혁신으로 인해 다양한 소스에서 정보를 수집하는 것이 점점 더 가능해지고 있다데이터는 생명공학에 적용할 수 있는 가장 중요한 영역 중 하나가 됐다고 분석했다.

빅데이터는 기존 소프트웨어나 인터넷 기반 플랫폼으로는 관리할 수 없는 대용량 데이터를 의미한다. 엄청난 양의 데이터를 포함하는 용량(Volume), 실시간으로 생성되는 속도(Velocity), 다양한 형태로 제공되는 다양성(Variety) 3V 특징을 갖고 있다.

현재 하루에 생성되는 연구 데이터의 양은 이전 10년 동안 생성된 양과 비슷할 것으로 추정되는데, 특히 헬스케어 산업은 빅데이터로 많은 영향을 받았다. 다양한 분야에서 분석 도구, 인공 지능(AI) 및 머신러닝(ML) 기술을 사용해 의료비용 절감, 수익흐름 개선, 개인화 의학 개발 등에 쓰인다.

헬스케어·의료 연구의 경우 데이터 리소스에서 파생된 데이터 내에 숨겨진 연관성이나 패턴을 찾아 질병을 개선하는데 초점이 맞춰진다.

빅데이터를 활용해 헬스케어 서비스를 제공하고 있는 국내 기업의 경우 에비드넷, 신테카바이오, 테라젠바이오, 쓰리빌리언 등이 있다.

에비드넷은 의료 빅데이터를 바탕으로 질병현황, 약물 처방 빈도, 수술 빈도, 검사 빈도 등의 메타데이터 분석 및 패턴정보를 제공하는 ‘EVIX-INSIGHTTM’ 플랫폼을 개발했다.

신테카바이오는 전 세계 다양한 인종, 수천 명의 유전체시퀀싱 데이터를 마하 슈퍼컴퓨팅 기술로 분석하고 있으며, 자체 기술인 ‘Adiscan’ 엔진으로 3가지 데이터베이스인 대립유전자깊이정보, 유전형질정보, 반수체정보를 생성한다. 유전체 빅데이터를 생성하고 운영하는 시스템은 암 약물선별 및 희귀질환 진단과 같은 병원 정밀의료를 위해 활용, 질병 연관성 검증에 역할을 하고 있다.

테라젠바이오는 첨단 유전체 분석 기술을 바탕으로 맞춤형 진단 및 솔루션과 차세대 염기서열 분석(NGS) 임상 검사, 의료 빅데이터 등의 서비스를 제공하고 있으며 유전자 분석 기반의 암 위험도 예측, 약물 기전 파악, 맞춤형 항암제 선별 등이 가능한 알고리즘을 개발해 특허를 받았다.

쓰리빌리언은 인공지능 유전변이 해석 시스템을 활용해 10만 개의 유전변이에서 병원성 변이를 판별하고, 동시에 환자가 갖고 있는 7000여 개의 유전질병과 상관성이 있는지 검정하는 과정을 통해 최종 진단하는 서비스를 제공하고 있다.

이외에도 국내 여러 기업들이 빅데이터 기술을 활용한 플랫폼 개발이나 진단·분석 서비스 등을 제공하고 있다.

박 책임연구원은이 과정에서 빅데이터를 개선하기 위한 몇 가지 방법으로는 데이터 형평성 촉진 및 정크데이터 중복·과부하 최소화가 있다또 기업과 산업 및 데이터 생성 팀 간의 협업을 촉진하는 방법 등이 있다고 말했다.

한편 글로벌 시장조사보고서 마켓앤마켓(Markets and Markets)에서 발간한 ‘Global Forecast to 2026’에 따르면 빅데이터 시장 규모는 2021 1626억 달러(한화 약 226조원)에서 2026 2734억 달러( 380조원)로 약 11%의 증가율을 보이며 성장할 것으로 전망된다.