학습을위한네거티브데이터가존재하지않는경우의 microrna 타겟예측방법 이제근 O1,2 김수진 1,2 장병탁 2,3 서울대학교생물정보학협동과정서울대학교바이오정보기술연구센터 (CBIT) 서울대학교컴퓨터공학부 jkrhee@bi.snu.ac.kr, sjkim@bi.snu.ac.kr, btzhang@bi.snu.ac.kr microrna target prediction when negative data is not available for learning Je-Keun Rhee O1,2 Soo-Jin Kim 1,2 Byoung-Tak Zhang 2,3 Graduate program in Bioinformatics, Seoul National University Center for Bioinformation Technology (CBIT), Seoul National University Department of Computer Science & Engineering, Seoul National University 요약 기존의알려진데이터에기반하여분류알고리즘을통해새로운생물학적인사실을예측하는것은생물학연구에매우유용하다. 하지만생물학데이터분류문제에서 positive 데이터만존재할뿐, negative 데이터는존재하지않는경우가많다. 이와같은상황에서는많은경우에임의로 negative data 를구성하여사용하게된다. 하지만, negative 데이터는실제로 negative 임이보장된것이아니고, 임의로생성된데이터의특성에따라분류성능및모델의특성에많은차이를보일수있다. 따라서본논문에서는단일클래스분류알고리즘중하나인 support vector data description (SVDD) 방법을이용하여실제 microrna target 예측문제에서 positive 데이터만을이용하여학습하고분류를수행하였다. 이를통해일반적인이진분류방법에비해이와같은방법이실제생물학문제에보다적합하게적용될수있음을확인한다. 1. 서론 알려지지않은새로운생명현상을밝혀내기위한생물학연구에서는최근들어컴퓨터를이용한분석이중요한위치를차지하고있다. 특히기계학습 (machine learning) 기술은이러한목적으로매우유용하게이용될수있다. 기계학습기법중대표적인한분류중하나인감독학습 (supervised learning) 에서는주로기존의알려진데이터를기반으로학습하여새로운데이터를적절한클래스로분류 (classification) 하는문제를다루고있다. 의사결정나무 (decision tree), 인공신경망 (artificial neural networks), 베이지안망 (Bayesian networks), 서포트벡터머신 (support vector machine, SVM) 등이이를위해일반적으로사용되는방법들이다. 생물학연구에서는이와같은분류방법을이용하여새로운사실을예측할수있다. DNA 서열정보에기반한유전자예측, 각종임상정보및 유전자발현데이터를이용한질병진단및예측, 서열및구조적특성을이용한단백질상호작용정보예측등이생물학연구에서기계학습기술이일반적으로많이이용되는대표적인예라고할수있다 [1, 2, 3]. 이와같은기계학습기반의분류문제를위해서는적합한학습데이터가필요하다. 일반적으로학습데이터는 positive data 와 negative data 로구성된다. 기계학습기술은데이터의특성에기반한방법이므로, 학습데이터의구성에따라분류모델및분류성능에큰차이를보이게된다. 하지만생물학문제에서는 negative 데이터구성에어려움이존재한다. Positive 데이터는기존에알려진사실들에기반하여학습데이터를구성하는것이가능하다. 하지만특정현상에대한어떤데이터가실제로는전혀일어날수없는사실인지, 혹은실제로는가능하지만아직실험적인어려움으로밝혀내지못한것인지를구분하는것이어렵다. 따라서많은경우에 negative 데이터를명확하게정
의하기에는어려움이있다. Negative data 가존재하지않는경우일반적으로는임의 (random) 로 negative data 를발생시켜서사용한다. 하지만임의로만들어진데이터가실제로 negative 에적합한데이터임을증명할수는없다. 또한임의의 negative 데이터가실제 positive 데이터와는특성이매우많이다른경우, 실제문제에서의예측성능은많이떨어지게된다. 따라서생물학적예측모델을만들시 positive 데이터와유사하면서, negative 로사용할수있는데이터를만들고자많은노력을기울이고있지만, negative 데이터구성을위한보장된방법은없는것이사실이다. 이와같은문제점을해결할수있는방법중하나는단일클래스분류기 (one-class classifier) 를사용하는것이다. 일반적인분류모델이이진분류, 혹은다중분류문제를다룰수있는데에비해, 단일클래스분류기는 positive 데이터만을이용하여특이점을구분해내는역할을수행한다. 따라서 negative 데이터가존재하지않거나, 소량만존재하는경우에도효과적으로예측하는것이가능하다. 본논문에서는단일클래스분류기중하나인 SVDD (support vector data description) 방법을이용하여 microrna target 유전자를예측한다 ( 그림 1). SVDD 는대표적인이진분류기인 SVM 의변형된형태로 positive 데이터만을이용하여분류할수있다 [4]. 이방법을통해기존의연구와는달리임의의 negative 데이터를생성하는일없이도효율적인분류가가능함을확인한다. 대한포함하고특이점을가장적게포함하는중심 a와반경 R로구성된최소한의구 (hypersphere) 이다. 이는 d- 차원입력공간에존재하는 n개의데이터로구성되는학습 데이터의집합 D={x i i=1,2,.., n} 에대해서 R d 위에정의되는중심이 a이고반경이 R인구 H를이용하여학습클래스의영역을표현하는것이다. 또, 각학습데이터 x i 와중심 a 사이의거리가 R을초과하는경우에는벌점 (penalty) 을부과하는방법을사용한다, 에러함수는식 (1) 과같이정의하며이를최적화하여최소한의반지름을가지는구를구한다. 그림 2 SVDD 의기본개념 그림 1 전체적인실험개요 여기에서특이점과구의크기는변수 ξ i (slack variable) 에의해조절된다. ξ i 는 i 번째학습데이터 x i 가구 H 에서벗어나는벌점이며, C 는구의크기, 즉반지름과에러의상대적중요성을조절하는상수 (trade-off constant) 이다. 이를통해성능관점에서 C 값이클경우검출룰이높아지지만이에따라에러검출률도높아지는결과를얻을수있고, C 값이작을경우에는작아진구로인해검출률은낮아지지만에러검출률은줄어드는결과를얻을수있다. 최적화하는데연산을편리하게하기위해 Lagrangean multiplier 를도입하여위의식을 dual problem 으로변환하였다. Lagrangean multiplier 를이용하여정리한함수 L 의식은식 (2) 와같다. 2. 실험방법 2-1. Support vector data description (SVDD) SVDD 는분류대상이되는하나의학습클래스에속한데이터만을이용하여학습을수행할수있는단일클래스문제 (one-class classification problems) 를해결하는데유용한기법중하나이다. 단일클래스분류알고리즘중가장대표적인 SVDD 는그림 2 와같이특이점 (outlier) 을검출하여주어진목적 (target) 데이터대부분을포함하는경계선을찾는다 [4]. 이와같은경계선은목적데이터를최 식 (2) 에서 α i. γ i 는 Lagrangean multiplier 를나타내며 α i. 0, γ i 0 의조건을가진다. 이와같은조건에서 α i. γ i 는최대화하면서각 R, a, ξ i 에대해서최소화하는값으로최적화한다. 식 (2) 를변수 R, a, ξ i 에관하여각각편미분한식을 0 으로하여등식을구성하여 0 α i 0 이라는새로운
조건을얻어최소한의구를찾기위해학습해야하는최대화해야하는함수 L 을식 (3) 과같이정리할수있다. L 함수를최대가되도록하는 Lagrangean multiplier, α i 를구하여구하고자하는구의반경 R 과중심 a 를구할수있다. 또, 입력공간위에서정의되는구는매우간단한형태의영역만을표현할수있으므로커널 k 를통하여정의되는고차원특징공간 (Feature space) 으로의변환을통해비선형적으로분류를가능하게하여보다좋은성능을얻을수있다. 데이터들의내적인 (x i x j) 에커널을적용하여다시쓰면식 (4) 와같다. 커널을적용한 K(x i x j ) 은 Mercer's 이론을만족해야한다. 또, 커널은다항식 (polynomial) 커널, Radial basis function (RBF) 커널, 가우시안 (Gaussian) 커널등여러가지가있다. 각각의커널은문제에따라다른성능을보이므로풀고자하는문제에적절한커널을이용하여야한다. 그림 3 mirna 의세포내조절기작 mirna 의 target 유전자예측은많은연구자들에의해활발하게수행되고있다. 대표적인 target 예측방법들은표 1 에보인다. mirna target 예측은일반적으로상보적인결합서열정보와그때의구조및에너지정보들에기반하여 target 가능성을예측한다. Target 연구 표 1 대표적인 microrna target 예측연구 웹사이트 2-2. microrna target 예측 miranda[6] http://www.microrna.org//miranda.html microrna (mirna) 는약 22nt 크기의작은 RNA 분자로서, 유전자발현양조절에중요한역할을수행하는것으로알려져있다 [5]. 유전자는일반적으로전사 (transcription) 와번역 (translation) 과정을차례로거치면서, 단백질 (protein) 로발현된다. 기존에는유전자의발현양이전사조절인자 (transcription factor) 들에의해주로조절받는것으로생각되어왔다. 하지만최근들어 mirna 에의한조절기작이밝혀지면서 mirna 연구는생물학분야에서매우중요한위치를차지하게되었다. 세포내에서 mirna 는유전자가 mrna 로전사된후, mrna 의 3 UTR 영역에결합하여, mrna 가단백질로번역되는것을억제하는역할을한다 ( 그림 3). 따라서특정 mirna 들이어떤유전자의발현을억제할수있는지확인하는것은중요한문제이다. PicTar[7] TargetScan[8] mitarget[9] RNAhybrid[10] http://pictar.bio.nyu.edu http://genes.mit.edu/targetscan http://cbit.snu.ac.kr/~mitarget 2-3. 실험데이터및실험설정 http://bibiserv.techfak.uni-bielefeld.de/rnahyb rid/welcome.html microrna target 예측을위한데이터는기존의 mitarget 연구에서사용된데이터를그대로사용하였다 [9]. mitarget 연구에서는 SVM 모델을이용하여 mirna target 유전자를예측하였다. 이데이터는총 41 개의 feature set 으로구성되며, 각각에대한정보는표 2 에보인다.
Feature 구분 표 2 실험에서사용된 feature 구성 Feature 의특성 사용된 negative 데이터가그수도적고대체로비슷한조건하에서실험된결과로그특성이크게다르지않은경우가많이포함되어있기에, 최종성능에큰영향을주지는못한것으로여겨진다. Structural Thermodynamic Position-based mirna와 유전자가 결합하였을 때의구조적특성정보 결합 에너지에 기반하여 얻어진 특성 각위치별서열조성정보 표 4 SVDD와 SVM의분류성능비교 SVDD SVM TP 0.7885 0.9808 TN 0.6774 0.0645 1.2 SVDD 실험은 Gaussian RBF kernel 을이용하였고, sigma 값은 3 으로하여실험하였다. 3. 실험결과 예측정확도 1 0.8 0.6 0.4 TP TN SVDD 를이용한 mirna target 예측은 mitarget 연구에서사용한데이터중 152 개의문헌에서증명된 positive 데이터만을이용하여학습하였다. 이데이터로부터 5-fold cross-validation 을통해얻어진예측정확도는 75.5% 로나왔다. 또한본연구에서는 mitarget 연구에서사용된 negative 데이터를일부추출하여특이점정보로넣고학습을수행해보았다. 표 3 은 152 개의 positive 데이터만을이용하여학습한결과와, negative 데이터를그개수를변화시켜가면서추가하였을경우의예측성능을 5-fold cross-validation 을통하여얻은결과를보여준다. 표 3 negative 데이터의개수변화에따른 SVDD 성능변화 Negative data 수 False Positive False Nagative 0 0.24494 NA 10 0.24494 0.0000 30 0.2385 0.0666 50 0.2514 0.0800 일반적으로 SVDD 는 positive 데이터만을이용하여학습하지만, 일부 negative 데이터를특이점정보로넣어줌으로서보다정확한결과를얻을수있다. 본실험에서는문헌에서알려진실제로 microrna 가 target 하지않는다는사실이생물학실험적으로알려진정보를특이점으로사용하여학습결과를비교하였다. 본실험에서는 negative 데이터의구성에따라그성능에조금씩차이를보이기는하였으나, 현저히많은차이를보이지는못하였다. 이는특이점으로 0.2 0 SVDD 분류방법 SVM 그림 4 SVDD 와 SVM 에서의 True Negative 차이비교 표 4 는독립적인테스트데이터를구성하여 SVDD 와 SVM 을이용한예측결과를비교한표이다. 이실험에서는 100 개의 positive 데이터와 10 개의 negative 데이터로학습한후, 총 84 개의독립적인테스트데이터로예측성능을비교한것이다. 일반적으로 SVM 은이진클래스분류문제에서우수한성능을보이는것으로알려져있다. 하지만현재의문제와같이이용가능한 negative 데이터가부족한경우에는표 4 에서보는것과같이 SVM 에서는그결과를정확하게분류해내지못하고있다. 표 4 에서보는것과같이, SVM 을이용한예측에서는 true negative 의경우약 6.45% 의값을보이고있다. 이는실제로 microrna 의 target 이안되는결과에대해서도 SVM 모델에서는대부분 positive 로예측함을의미한다. 이에비해 SVDD 방법은 SVM 과는달리 true negative 의경우에서도 70% 에가까운성능을보이고있다. 따라서 SVM 과같은이진분류기는본논문에서다루고있는것과같은문제를해결하기에는적합하지않은방법이다. 즉실제로 negative 임이밝혀진사례가절대적으로부족한상황에서는 SVM 과이진분류기를사용하는것에문제가있음을명확히알수있다.
4. 결론 across seven Drosophila species and comparison to mammalian targets, PLoS Comput. Biol., 1: e13, 본논문에서는생물학적인분류및예측문제에서 SVDD의적용가능성을살펴보았다. 유전자조절기작에중요한역할을하고있는것으로알려진 microrna 관련연구를통해, 기존의 target 예측연구보다 SVDD를이용하는것이보다효율적일수있음을실험적으로보여주었다. 일반적으로 SVDD와같은단일클래스분류알고리즘은전 2005. [8] B.P. Lewis, C.B. Burge, D.P Bartel, Conserved seed pairing, often flanked by adenosines, indicates that thousands of human genes are microrna targets, Cell, 120: 15 20, 2005. [9] S.-K. Kim, J.-W. Nam, J.-K. Rhee, W.-J. Lee, 체데이터에서일부의특이점을인지하거나, noise를찾는 B.-T. Zhang. mitarget: microrna target-gene 문제등에서주로이용되어왔다 [11]. 하지만본연구에서는증명된 negative 데이터를얻기힘든생물학문제에단일클래스분류알고리즘을이용함으로서, 기존의연구들과 prediction using a Support Vector Machine, BMC Bioinformatics, 7(1): 411, 2006. [10] M. Rehmsmeier, P. Steffen, M. Höchsmann, R. 는다른성격의생물학연구에도이와같은알고리즘이유 Giegerich, Fast and effective prediction of 용하게사용될수있음을보였다. microrna/target duplexes, RNA, 10: 1507-1517, 기계학습기반의일반적인분류알고리즘들은적절한학습 2004. 데이터가존재할때, 그성능이극대화될수있다. 하지만실제생물학문제에적용하기에는데이터수도부족하며, 특히연구가많이진행되지않았거나, 최근들어활발히연 [11] V. Hodge and J. Austin, A Survey of Outlier Detection Methodologies, Artif. Intell. Rev., 22(2): 85-126, 2004. 구가진행되고있는중요한문제들의경우에서는더더욱 확실하게증명된데이터를얻기어렵다는문제가있다. 따 라서일반적으로많이쓰는이진분류알고리즘, 혹은다중 분류알고리즘을적용하여예측하는경우에는본논문에서 보인것과같이유용한결과를얻기어려울수있는것이 다. SVM 방법에기반한단일분류기인 SVDD 외에도 K-nn 기반단일분류기, 가우시안혼합모델 (gaussian mixture model) 기반단일분류기등다른형태의단일분류알고 리즘에대한연구역시활발히진행되고있다. 이러한단일 클래스분류알고리즘들은각데이터의특성에따라유용 하게사용될수있을것이다. 참고문헌 [1] A. Bernal, K. Crammer, A. Hatzigeorgiou, F. Pereira, Global Discriminative Learning for Higher-Accuracy Computational Gene Prediction. PLoS Comput Biol., 3(3): e54, 2007. [2] T.S. Furey, N. Cristianini, N. Duffy, D.W. Bednarski, M. Schummer, D. Haussler, Support vector machine classification and validation of cancer tissue samples using microarray expression data, Bioinformatics, 16(10): 906-914, 2000. [3] L. Nanni and A. Lumini, An ensemble of K-local hyperplanes for predicting protein-protein interactions Bioinformatics, 22(10): 1207-1210, 2006. [4] D.M.J. Tax and R.P.W. Duin, Support Vector Data Description, Machine Learning, 54(1): 45-66, 2004. [5] D.P. Bartel, MicroRNAs: genomics, biogenesis, mechanism, and function, Cell, 116(2): 281-297, 2004. [6] B. John, A.J. Enright, A. Aravin, T. Tuschl, C. Sander, D.S. Marks, Human MicroRNA targets, PLoS Biol., 3(7): e264, 2005. [7] D. Grün, Y.L. Wang, D. Langenberger, K.C. Gunsalus, N. Rajewsky, microrna target predictions