TECH REVIEW

WX : Novel 바이오마커 발굴 기술

디어젠(주)는 새로운 바이오마커를 발굴할 수 있는 AI기술 Wx에 대한 연구성과를 발표했습니다. 연구 성과는 Nature Scientific Report 저널에 게재되어 있으며, 이와 관련 된 2개의 특허를 출원 했습니다.

Introduction

바이오 마커란 “생체적인 특징이나 상태를 나타내는 표지자”로 이해 할 수 있습니다. 특정 질병의 메커니즘을 나타내는 마커를 찾으면 신약의 새로운 타깃이 도출될 수 있으며, 질병의 상태 마커를 찾으면 진단 마커로 사용될 수 있습니다.

특히 NGS(Next Generation Sequencing) data의 급격한 생성과 환자 데이터의 디지털화로 인해 신약 타깃 및 진단 타깃으로써 새로운 바이오 마커 발굴에 대한 시도가 증가하고 있습니다. 이에 디어젠은 자체 개발한 인공지능 기술을 통해 이러한 바이오 마커 발굴 플랫폼을 구축하고 있습니다.

Deargen’s Gene Selection Algorithm

바이오마커 발굴의 핵심은 많은 바이오마커 후보군 중에 주요한 마커 후보군을 선별하는 일입니다. 그중에서도 가장 핵심적인 부분은 수많은 유전자 중 마커 유전자를 선별하는 작업입니다. RNA-seq 기술의 등장으로 질병이나 실험의 결과에 따른 유전자 전체 분포를 분석할 수 있게 되었고, 따라서 이러한 유전자 데이터를 분석하면 어떤 유전자가 바이오마커로서의 역할을 수행하는지 알 수 있게 됩니다. 

지금까지는 DEG(differentially expression gene )라는 통계학적인 방법으로 유의미한 유전자 후보군을 선별했지만, 이러한 방법은 수학적인 통계 기반이기 때문에 실제 pheno-type의 양상을 반영하지 못하고 유전자 수와 샘플 수가 많아지면 뽑히는 후보 자체가 너무 많아져 후보 선별 자체가 힘들어집니다. 또한, 통계적 p-value 값 이외에는 선별된 유전자의 중요도를 알 수 없다는 문제가 있습니다. 다른 feature selection 알고리즘(MRMR, fisher score, LLL21, SVM etc) 또한 Large-scale feature space에서는 유의미한 결과를 내지 않음을 확인하였습니다. 

따라서 디어젠에서는 이러한 단점을 극복한 딥러닝 기반 feature selection 알고리즘인 Wx를 개발하였습니다. 기존에는 딥러닝으로 학습되더라도 내부의 네트워크가 블랙박스로 여겨져 아웃컴과 인풋 데이터의 분석이 어려웠습니다. 디어젠에서는 딥러닝 학습 내부의 가중치 값을 분석하여 인풋 피쳐와 아웃컴 과의 상관관계를 도출하였으며, 중요도 점수를 산정하여 유전자 및 바이오 마커를 선별 할 수 있도록 하였습니다.

Method

일반적으로 Neural Network은 수많은 Node로 구성된 Layer를 적층하여 표현할 수 있습니다. 그리고 하나의 노드는 Input과 Weight의 곱과 Activation Function으로 표현될 수 있습니다.

Softmax layer를 통한 classification 딥러닝 모델이 학습되면 아래와 같이 Yi label을 가지는 Feature Xi에 대해  weight와 input 값의 곱의 확률 분포로 나타낼 수 있습니다.

이러한 상태에서 우리는 다음과 같이 feature weight를 분석하였습니다. 각 인풋 feature가 classification label에 얼마만큼 영향을 주었는지 알기 위해, 각 feature 별로 DI(Discriminative Index) 지수를 산정한 후 그 차이의 크기가 큰 순으로 WX score를 부여했습니다.

기존 Neural Network를 분석하여 feature 중요도를 계산한 논문에서는 각 피쳐에서 학습된 weight만을 분석하였기 때문에 실제 input feature가 얼마나 outcome에 영향을 주었는지 실제적으로 반영하기 힘들었습니다. 그러나 Wx 알고리즘에서는 input feature의 input value까지 고려하여 수식을 설계하였습니다. 따라서 input value와 feature weight를 곱한 Wx 값의 difference 값 분석을 통해 더욱더 유의미한 feature 중요도 점수를 산정 할 수 있었습니다.

Conclusion

다음은 주요 암종에 대해 각각 Wx로 선별한 14개, 7개의 유전자와 다른 알고리즘으로 선별된 유전자의 암/정상 분류 정확도 비교 표입니다. 기존 리포트 되었던 Peng의 방법 및 가장 많이 쓰이고 있는 툴인 edgeR로 선별된 14개의 유전자 패널 대비 주요 암에서 높거나 유사한 정확도를 보여 주고 있습니다. 또한 상위 7개의 유전자 패널만으로 암/정상을 예측했을 때 Martinez의 방법 보다 대부분의 암에서 높은 정확도를 보여주었습니다.

아래는 암 이외의 질병에서 wx 14 유전자와 기존 알고리즘의 정확도 비교 표입니다. Peng의 14개 유전자 패널 대비 wx로 선별된 상위 14개 유전자로 월등한 정확도를 보여 주었습니다.

Deargen’s opportunities

 디어젠은 신약 노블 타깃 선정을 위해 Meta 분석 및 Wx 알고리즘을 사용하고 있습니다. 예를 들자면 특정 질병에 대해 공개된 수많은 수의 유전자 프로파일링 실험(RNA-seq)을 Meta 분석을 통해 Batch Effect를 보정한 후, Wx 알고리즘으로 가장 질병 specific한 유전자를 선별할 수 있습니다. 현재 다수의 파이프라인에서 이러한 접근으로 새로운 타깃을 선별하였습니다. (치매, 류머티즘, ALS, 사코페니아 등)

 디어젠에서는 논문과 코드로 공개된 기초적인 Wx 알고리즘을 더욱 발전 시켜 고도화된 바이오마커 발굴 알고리즘 및 플랫폼을 확보하고 있습니다. 이러한 플랫폼 구축을 위해 방대한 양의 데이터 학습 및 자체 딥러닝 모델 구축을 수행하였습니다. 또한 DearTrans 서비스와 연계하여 지속적인 데이터 학습을 통해 계속하여 모델 성능 향상을 수행하고 있습니다.

 마지막으로 디어젠은 Wx 알고리즘을 활용하여 폐암 예후 패널을 제작하여 현재 실제 환자를 대상으로 유효성을 평가하고 있으며, 예후 예측에 좀 더 특화된 Cascaded Wx 알고리즘을 개발하였습니다.