USE CASES/사례 연구

지식 그래프를 도입한 XAI 신약개발 솔루션

(주)비트나인 2020. 3. 11. 16:48
지식 그래프를 도입한 XAI 신약개발 솔루션 

2012년 화이자의 비아그라 특허가 만료되자마자 70여 가지의 국내 제네릭 의약품 (복제품)이 쏟아져나와 연간 1000억 원 가량 되는 발기부전치료제 시장에서 출혈경쟁으로 인해 상당수 업체가 비용 낭비를 자초하게 되었습니다. IMS 헬스코리아의 ‘2016년 1차 보고서’에 의하면 국내 의약품 시장이 계속 성장은 하되, 연간 성장률은 또한 점점 줄어들 것이라는 전망이 나왔습니다. 

 

국내 제약시장에서는 캐시카우를 창출하고 의약품 시장의 성장을 불러일으키기 위해서는 ‘신약개발’이 필요하다는 결론을 내렸습니다. 

 

오늘의 블로그는 신약개발에 대한 이슈 및 해결방안을 소개하고 신약 개발시장의 AI 도입하면 어떤 효과를 불러낼 수 있을지 설명하겠습니다. 

 

신약개발에 대한 이슈 및 해결방안

신약을 개발하기 위해 수많은 이론과 가설을 기반한 임상 실험을 진행했으나, 기존 환경에서는 각각 다양한 실험 데이터를 표준화하기 어려웠고, 빅데이터 및 지식의 활용이 제한이 되었습니다.

 

기존의 엑셀 시트나 표(table)가 아닌 직관적이면서, 수많은 데이터 통합이 가능하고, 연구원들의 임상실험을 설계하는 데 있어서 신속하게 의사 결정을 지원하는 도구가 필요했습니다.

 

1개의 신약을 개발을 위해서 정보 탐색과 약물 설계를 하는데 드는 총 개발비용은 2000억 원, 총 개발 기간은 15년, 그리고 10,000개 이상의 후보물질 발굴이 필요합니다.

신약개발 기간

개발 비용과 기간을 최소화하기 위해서는 국내 대형 제약사를 중심으로 데이터 분석과 AI를 도입하여 활발한 연구를 진행할 수 있도록 비트나인이 해결방안을 찾고 있습니다. 


인공지능(AI)의 신약개발 효과

이미 SK 바이오팜, jw 중외제약, CJ Healthcare, 대웅제약과 같은 국내 제약 회사는 AI 활용을 확대하고 있으며, AI 신약개발시장은 2024년까지 40억 달러까지 성장할 것으로 예측됩니다.  

AI 신약개발에서의 그래프 DB 적용방안

신약개발에 있어 AI의 중요성이 화두가 되고 있으나, 국내 빅데이터 및 AI 환경으로는 데이터 수집이나 체계화가 되어있지 않아 제대로된 신약개발을 하기 어렵습니다. 하지만 비트나인의 아젠스그래프가 해당 문제점에 대한 대안이 될 수 있습니다. 

그래프 AI가 제공하는 4가지 장점:

1. Flexible Platform

국가 바이오 빅데이터, 병원 데이터, 신약후보물질 연구 및 특허 데이터 등 방대하고 다양한 소스의 데이터를 수집 및 공유할 수 있는 유연한 플랫폼 구축

2. Complex Relation

약과 바이오의 복잡한 메커니즘을 연관 관계로 표현할 수 있는 DB와 검색시스템을 구축 

3. Knowledge Base

방대한 바이오 데이터 속에서 딥러닝을 통해 자연어처리(NLP) 및 개체명 인식, 관계추출 등으로 데이터의 지식 체계를 구축하고, 바이오 데이터 간의 관계 속에서 분석이 가능하게 함

4. Explainable AI

AI가 가지고 있는 블랙박스 같은 불확실성을 제거하며, 신약개발 연구원들에게 의사 결정 지원을 해줄 수 있는 설명 가능한 AI 기술을 구축

 

기존 약물의 새로운 용도 발굴

아젠스그래프는 바이오 데이터를 가지고 지식 그래프를 구축하고 그래프 분석을 이용하여 암세포에 영향을 미치는 데이터의 패턴을 찾아내어 약물 간 조합의 시너지를 예측하는 기술을 구축할 수 있습니다. 또한, 딥러닝과 그래프 기술을 활용하여 현재까지 확인되던 약물의 효능과 다른 새로운 효능을 예측하는 분석을 할 수 있게 됩니다. 

관계를 통해 기존에 확인된 약물의 새로운 용도 발굴

지식 그래프로 모델링을 통해 알 수 있는 신약개발 솔루션 

신약개발과 관련된 바이오 지식 그래프를 구축하기 위하여, 아래의 4가지의 외국 오픈 바이오 데이터베이스를 아젠스그래프에 실행해봤습니다. 

 

Bio Database 설명
Cancer Cell Line Encyclopedia (CCLE) 암세포 라인에 대한 유전자 발현, 유전자 유형, 약물 민감도 데이터 보유
Cancer Therapeutics Response Portal (CTRP) 항암제 약물 반응에 관여하는 환경-유전 상호작용 연구 데이터 보유
The Cancer Genome Atlas (TCGA) 각 암종에 대하여 유전자 발현과 환자의 인종, 종양 위치, 병기, 성별 등의 정보 포함
REACTOME Database 특정 유전자나 단백질에 관련된 신호전달경로를 찾아보거나 분석 가능

 

4가지 오픈 데이터베이스를 통합하고, 유전자 - 세포 - 약의 데이터 관계를 구성했습니다.

 

유전자-세포-약 의 데이터 관계 구성

바이오 지식 그래프를 통해 특정 암에 대한 영향력 있는 약물 후보를 조회하기 위해 아젠스그래프로 아래와 같은 시나리오를 진행했습니다.

 

 

연구 Case 1

- 기존에 FDA에서 승인된 약물의 데이터에서 유전자 ‘ERBB2’와 연관된 유방암 항암제 연구를 계획 중

- 기존 항암제의 수많은 연구 기록을 지식화한 바이오 지식 그래프를 활용하여 약물의 효능이 좋으면서도, 유전자 ‘ERBB2’연관세포주들에 가장 영향력 있었던 약물의 후보를 도출하고 싶음

 

약물 효능이 좋으면서 유전자'ERBB2'와 연관된 세포주 및 세포주에 가장 영향력 있던 약물후보
약물의 효능이 좋으면서도, 유전자 ‘ERBB2’연관된 세포에 가장 영향력 있었던 약물후보에 대한 그래프 패턴을 나타냄

세포주가장 영향력 있던 약물 후보 ‘Lapatinib’의 관계를 확인 후, 각 세포주에 미친 약물 효능을 비교


이어서 두 번째 시나리오입니다. 바이오 지식 그래프를 통해 기존 약과 약물 후보와의 세포 간 상호작용에 대해 조회했습니다.


연구 Case 2

- 유방암 항암 효능이 뛰어나다고 잘 알려진 약물 A가 있음

- 기존 항암제의 수많은 연구 기록을 지식화바이오 지식 그래프를 통해서 약물 A와 효능이 유사한 약물 후보을 도출하고, 후보 약물과 약물 A 세포주들의 유사한 관계확인하고 싶음

 

바이오 지식 그래프를 통한 약물A와 효능이 유사한 약물후보군 세포주의 유사관계 분석

 

좌측 이미지: 유방암 항암 효능에 좋은 ‘Lapatinib’과 비슷한 효과를 가지는 약물 후보군을 그래프로 도출 우측 이미지: ‘Lapatinib’과 가장 유사한 약물 후보 ‘Afatinib’와 공통세포에 대한 약물 효능을 서로 비교

세 번째는 지식 그래프를 통해 유전자 전이 경로를 탐색하여 질병과 관련될 가능성을 조회했습니다.


연구 Case 3

- 유전자 A유전자 B 간 유전자 전이 경로에 대해 알기 위함.

- 바이오 지식 그래프를 활용하여 두 유전자 사이의 유전자-전이 경로를 살펴보고 질병과 관련될 가능성이 있는 유전자 경로를 발견하고 싶음

 

Shortest Path를 활용한 두 유전자 전이 경로

Shortest Path를 활용한 두 유전자 ‘CD274’와 FGF19’ 사이의 유전자 전이 경로 그래프를 통해서 두 유전자 간 경로 중 단독으로 연결되어있는 경로인 ‘PD-1 Signaling’이 중요한 경로임을 발견할 수 있었습니다.

 

마지막으로 바이오 지식 그래프를 통해 유전자 유형에 따른 분류 시각화를 해봤습니다.

 

연구 Case 4

- 간암과 관련된 유전자를 연구 중

- 간암과 관련된 많은 실험이 수많은 연구 기록을 지식화한 바이오 지식 그래프통해서 유전자환자 성별간암 진단 병기에 따라 분류비교

 

바이오 지식그래프를 이용한 유전자 유형에 따른 분류 시각화
간암과 관련된 실험에서 확인된 유전자들 가운데 환자 성별에 따른 유전자를 분류하여 연구자로 하여금 인사이트를 제공 간암과 관련된 실험에서 확인된 유전자들 가운데 간암 진단 병기에 따른 유전자를 분류하여 연구자로 하여금 인사이트를 제공

 

신약개발 시장에서의 그래프 기술의 가능성

대다수의 국내 제약사는 신약개발을 위해 AI 도입을 진행 중입니다. 하지만 바이오 분야에 대한 국내 빅데이터 및 AI 환경은 초기 단계이기 때문에 데이터 수집과 체계화가 되지 않아 데이터를 활용하기가 쉽지 않습니다. 하지만 앞서 시나리오를 통해 보이듯이 비트나인의 그래프 DB가 바이오 데이터 통합 및 지식화의 한계를 뛰어넘게 하는 대안임을 확인 할 수 있습니다. 

 

아젠스그래프로 4가지의 오픈 바이오 DB를 통합하여 지식 그래프를 구축했습니다. 지식 그래프를 활용하여 4가지 유형의 분석시나리오를 세우고, 이에 따른 분석 결과를 도출했습니다. 

 

그래프 기술로 솔루션을 구축할 수 있음을 확인했지만, 우선 해당 인공지능 시스템이 윤리적인지를 묻고 사람 중심으로 적용할 수 있는지를 알아야 합니다. 사람의 생명과 직결되는 연구의 산출물인 바이오 데이터 특성상 리스크가 큰 데이터 분석 영역임을 알 수 있습니다. 바이오 데이터에 대해 섣부른 예측모형을 구축한다면 위험한 서비스가 될 수 있습니다. 

 

결론적으로 현재 바이오 데이터 시장에 필요한 것은 의사결정 지원 도구인 설명 가능한 AI 기술입니다. 연구 시나리오에서도 알 수 있듯이 지식 그래프를 통해 과정과 결과를 시각화된 데이터로 볼 수 있으며, 이는 전문가가 참고하여 중요한 의사결정을 할 때 도움이 될 수 있습니다. 바이오 지식 그래프를 연구자의 니즈에 맞게 구축하고 활용한다면, 신약개발 후보물질을 발견하는 연구를 하는데 시간 및 노력을 줄일 수 있을 것입니다.