마이크로어레이기반 mirna 모듈분석을위한하이퍼망분류기법 347 마이크로어레이기반 mirna 모듈분석을위한하이퍼망분류기법 (Hypernetwork Classifiers for Microarray-Based mirna Module Analysis) 김선 김수진 장병탁 (Sun Kim) (Soo-Jin Kim) (Byoung-Tak Zhang) 요약마이크로어레이는분자생물학실험에있어중요한도구로사용되고있으며, 마이크로어레이데이타분석을위한다양한계산학적방법이개발되어왔다. 그러나, 기존분석방법은주어진조건에영향을주는개별유전자를추출하는데강한방면, 유전자간의복합작용에의한영향을분석하기힘들다는단점을가지고있다. 하이퍼망모델은생물학적인네트워크작용을모방한구조이며, 계산과정에서요소간의복합작용을직접고려하기때문에기존방법에서다루기힘들었던요소간상호작용분석이가능하다는장점을가진다. 본논문에서는마이크로어레이데이타를기반으로 microrna (mirna) 프로파일분석을위한하이퍼망분류기법을소개한다. 하이퍼망분류기는 mirna 쌍을기본요소로하여진화과정을통해 mirna 분류데이타를학습한다. 학습된하이퍼망으로부터유의하다고판단되는 mirna 모듈을쉽게추출할수있으며, 사용자는추출된모듈의유의미성을직접판단할수있다. 하이퍼망분류기는암관련 mirna 발현데이타분류실험을통해 9.46% 의정확도를보임으로써기존기계학습방법에비해뛰어난성능을보여주었으며, 하이퍼망분석을통해생물학적으로유의한 mirna 모듈을찾을수있음을확인하였다. 키워드 : 하이퍼망, mirna 모듈분석, 마이크로어레이, 데이타분류 Abstract High-throughput microarray is one of the most popular tools in molecular biology, and various computational methods have been developed for the microarray data analysis. While the computational methods easily extract significant features, it suffers from inferring modules of multiple co-regulated genes. Hypernetworks are motivated by biological networks, which handle all elements based on their combinatorial processes. Hence, the hypernetworks can naturally analyze the biological effects of gene combinations. In this paper, we introduce a hypernetwork classifier for microrna (mirna) profile analysis based on microarray data. The hypernetwork classifier uses mirna pairs as elements, and an evolutionary learning is performed to model the microarray profiles. mirna modules are easily extracted from the hypernetworks, and users can directly evaluate if the mirna modules are significant. For experimental results, the hypernetwork classifier showed 9.46% accuracy for mirna expression profiles on multiple human cancers, which outperformed other machine learning methods. The hypernetwork-based analysis showed that our approach could find biologically significant mirna modules. Key words :hypernetworks, mirna module analysis, microarrays, classification 본연구는과학기술부국가지정연구실 (NRL) 사업및산업자원부차세대신 Copyright@2008 한국정보과학회ː개인목적이나교육목적인경우, 이저작기술개발사업의분자진화컴퓨팅 (MEC) 과제에의하여일부지원되었다. 물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처 학생회원 : 서울대학교컴퓨터공학부를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든 skim@bi.snu.ac.kr 유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야 학생회원 : 서울대학교생물정보학협동과정합니다. sjkim@bi.snu.ac.kr 정보과학회논문지 : 소프트웨어및응용제35권제6호 (2008.6) 종신회원 : 서울대학교컴퓨터공학부교수 btzhang@bi.snu.ac.kr 논문접수 : 2008년 월 2일심사완료 : 2008년 4월 22일
348 정보과학회논문지 : 소프트웨어및응용제 35 권제 6 호 (2008.6). 서론마이크로어레이를이용한유전자발현프로파일분석은분자생물학분야에서가장중요한접근방법의하나로사용되고있다 []. 기존기법은한번에한개또는소수의유전자들을대상으로한측정방법이었던데반해, 마이크로어레이기술은동시에수천개의유전자발현을측정할수있다. 생체내에서발생하는생물학메커니즘은여러다양한유전자들이서로영향을주고받으며전체적으로조절되므로, 전체유전체수준에서발현양상을총체적으로관찰할수있는마이크로어레이분석은필수적이라할수있다. 따라서이는암과같은특정질병메커니즘을분자레벨에서분석하는도구로서널리이용되고있기도하다. 한편, 최근들어개별유전자의전체적인분석보다는생물학적인모듈단위로의분석이암조절메커니즘을밝히는데중요하다는사실이밝혀졌다 [2]. 이러한생물학적모듈단위의분석은개별유전자의발현정도는의미가없더라도두개이상조합하여상호조절인자로서발현에영향을주는원인을파악할수있다는점에서생물학적으로중요한의미를가진다. 그러나, 상호조절유전자모듈을파악하기위해암과관련한생물학적경로 (pathway) 를유추하는것은결코쉽지않은문제다 [3]. 암관련유전자를분석하기위한대표적인마이크로어레이분석방법은개별유전자와특정샘플등사이의상관관계를측정하는것이다. 상관관계가높은유전자는마이크로어레이발현패턴에서암또는일반조직 (tissue) 를구별하는척도가된다. 따라서상관관계를측정하는방법은질병과관련된특정발현패턴을분석하기위한방법으로써널리사용되고있다. 그렇지만이방법은유전자간의상호관계가아닌개별유전자단위의분석을수행하기때문에앞에설명한바와같은유전자모듈단위로의분석에는적절하지못하다. 기계학습을이용한마이크로어레이분석방법이최근들어각광받고있다. 유전자발현데이타의클러스터링방법으로는베이지안망이대표적이며, 특히발현데이타의분류를위해서는최대마진분류를기반으로한지지벡터머신 (support vector machines) 및부스팅기법이다수사용되고있다 [4,5]. 여기에서마진분류기법은유전자발현데이타의샘플들이마진을기준으로분리되도록하는경계를찾는방법이다. 그러나, 이러한통계기법에기반한기계학습방법의한계는비선형분류문제에서의최적해를찾는그자체에있다. 기본적으로개별유전자를기준으로하여고차원에사상시키는방법에의한분류방법이기때문에유전자들사이에존재하는관계를파악하기쉽지않고, 그들이복합작용에의해일어나는역할역시쉽게분석하기힘들다. 최근에 유전자를개별단위가아닌생물학적모듈로서간주하여유전자발현데이타분석을시도한사례가보고되었지만 [6,7], 마이크로어레이로부터직접여러유전자모듈의상호유도작용을분석하거나유추하는작업은여전히어려운문제로남아있다. microrna (mirna) 는약 2~25 nucleotide길이의 small RNA의한종류로서유전자발현을제어하는중요조절인자중하나로알려져있다. mirna는목적 mrna의 3 -untranslated region (3 -UTR) 에불완전한상보결합을통해유전자의발현을억제, 전사후번역을방해하게된다 ( 그림 ). 이처럼 mirna는다양한생물학적과정에관여하며유전자조절네트웍의구성요소로주목을받고있다. 최근에는마이크로어레이, bead assay, quantitative PCR, serial analysis gene expression (SAGE) 등과같은분석방법을이용하여 mirna 의기능을연구하기위한대량의발현데이타가산출되고있으며, 이를이용하여암과 mirna의상관성을분석하기위한노력이최근에이루어지고있다. 특정 mirna에의해암유전자의발현패턴이변화되어암발생을유도한다고보고되고있으며, 따라서 mirna의이상발현패턴은암진단의주요잣대로인식되고있다 [8]. 한편, 생체내에서발생하는생물학적메커니즘은매우복잡하고다양한과정에의해발생되기때문에 mirna간의복합작용을분석하는것은의미있는일이라고할수있다. 본논문에서는 mirna 발현프로파일데이타로부터암과연관된유전자모듈을찾아내기위한하이퍼망분류방법을제시하고자한다. 하이퍼망 [9,0] 은랜덤하이퍼그래프모델의한종류로서하이퍼그래프에가중치를가진간선을사용한다. 생체분자네트웍은세포내의환그림 mirna 조절기작
마이크로어레이기반 mirna 모듈분석을위한하이퍼망분류기법 349 경이변화함에따라이에빨리적응하면서도안정성을유지한다는특징을가지는데, 하이퍼망은이러한생체분자네트웍의특징을모방하여만들어진모델이다. 환경에대한적응력및안정성과같은속성은암조절메커니즘과같은복잡하고큰규모의생물학문제를분석하는데유용할수있다. 하이퍼망의또다른특징은예측한결과에대해그이유를사람이이해할수있는형태로쉽게분석할수있다는점이다. 이러한하이퍼망구조는고차원자질 (feature) 을이용, 최적의조합구성및가중치를구하는데사용되며, 이를위한기법으로본논문에서는진화학습알고리즘을제시한다. 높은분류정확도와함께암발현패턴과관련된 mirna 페어를찾기위한실험수행결과, 하이퍼망기반분류기법은기존기계학습기법인신경망또는지지벡터머신과대등한분류성능을보여주었으며, 결정트리와나이브베이즈보다뛰어난성능을보여주었다. 그리고학습된하이퍼망분류기에서암과연관이있다고예측된 mirna 모듈을추출하였으며, 목적유전자에대한통계적분석및온톨로지분석등을통해추출된 mirna 모듈이유의미한결과가될수있음을보였다. 본논문의구성은다음과같다. 2장에서는마이크로어레이데이타의분류및분석을위해사용한하이퍼망모델의구조및이론적배경을설명한다. 3장에서는하이퍼망모델을이용해마이크로어레이데이타를분류하기위한진화학습과정을설명한다. 4장은 mirna 발현프로파일을하이퍼망분류기에적용한실험결과및분석내용을다루며, 마지막으로 5장에서본논문의결론을내리고자한다. 2. 하이퍼망분류기본장에서는마이크로어레이데이타를분류하고그결과를분석하기위한구조인하이퍼망모델을설명한다. 생체분자네트웍구조에기반한하이퍼망은그래피컬모델의일종으로서하이퍼그래프의간선에가중치가붙은형태를취한다. 하이퍼그래프는널값을가지지않는노드들을연결하는간선들로구성되는무방향성그래프 (G) 이다 []. 즉, G ={X,E} 에서 X ={X, X 2,...,X n}, E={E, E 2,..., E m} 이며, E i ={x i, x i2,...,x ik} 이다. 여기에서 E i 를하이퍼간선이라고부른다. 수학적으로, E i 는집합이며그크기 ( 차수 ) 는 이상이다. 다시말해일반적인그래프는간선이최대 2개까지의정점을연결할수있는데반해, 하이퍼간선은 2개이상의간선들간의연결이가능하다. 이제차수 k의하이퍼간선은 k-하이퍼간선이라하겠다. 이러한하이퍼간선의정의는그래프이론에서정의되는수학적인기법을그대로사용할수있으면서네트웍을표현하는데있어더많은자유를허용하는 그림 2 하이퍼그래프의예 이점을가지게된다. 그림 2는 7개의정점 X ={X, X 2,..., X 7} 과각기다른차수를가지는 5개의하이퍼간선 E ={E, E 2,..., E 5} 로구성되는하이퍼그래프의예를보인것이다. 하이퍼망은앞에서설명한하이퍼그래프의각하이퍼간선에가중치를할당하여일반화한형태로써, 가중치에의해각정점집합이얼마나강하게연결되어있는지를표현할수있게되었다. 하이퍼망은하이퍼그래프에가중치 W가추가된 H =(X, E, W) 로정의되며, 여기에서 X ={X, X 2,..., X n}, E ={E, E 2,..., E m}, W ={w, w 2,..., w m} 이다. 따라서, 하나의 k-하이퍼망은정점의집합 X와 X[k] 의부분집합인 E, 그리고하이퍼간선의가중치집합인 W로구성되며, 여기에서 E = X[k] 는구성요소가정확히 k개인 X의부분집합을말한다. 만약모든하이퍼간선 E i 의차수가 k라면, 이를 k-uniform 하이퍼망이라고한다. 예를들어, 일반그래프는 w i =인 2-uniform 하이퍼망이다. 생체분자네트웍관점에서보면하이퍼망을구성하는하이퍼간선은모듈, 모티프 (motif), 회로 (circuit) 와같은빌딩블록들에해당한다고볼수있다 [2]. 특히, 높은가중치를가지는하이퍼간선은생물학문제에서중요한역할을수행한다고말할수있을것이다. 이러한관점에서볼때, 하이퍼망구조는복합또는상호작용을하는생물학모듈을분석하는툴로사용될수있다. 학습모델에서의학습과정은주어진데이타셋을저장하는과정으로볼수있으며, 테스트과정은특정예제에의해저장된데이타를검색하는과정이라고말할수있다. 이런관점에서하이퍼망은이론적으로확률메모리로써사용될수있다. 하이퍼망의에너지를 E(x (n) ;W) 라고하자. 여기에서 x (n) D는하이퍼망에저장된 n번째데이타이며, W는하이퍼망의파라미터, 즉, 하이퍼간선의가중치를말한다. 이때, 하이퍼망으로부터데이타가생성될확률은 Gibbs 분포가정하에다음과같이주어진다. P( x w) = exp Z( W ) { Ε( x ; W )},
350 정보과학회논문지 : 소프트웨어및응용제 35 권제 6 호 (2008.6) 여기에서 exp{-e(x (n) ;W} 는 Boltzmann 요소이며 Z(W) 는정규화요소이다. 데이타를분류하는문제에있어서데이타는자질의집합 x i 및클래스 y로구성된다. 즉, (x,y) D이다. 하이퍼망분류기는위에정의한하이퍼망구조, 즉정점의집합 X에정점 y를추가한형태이기때문에결합확률 P(x,y) 를다음과같이나타낼수있다. P( x, y) = exp W Z( W ) { x W } { Ε( x, y; )} 분류기는주어진입력에대하여각클래스에대한조건부확률을계산하여가장높은확률값을갖는클래스를예측값으로리턴해주는장치이다. 이는다음과같은수식으로형식화할수있다. P( x, y) y* = arg max P( y x) = arg max, y y P( x) () 여기에서 P(x,y)=P(y x)p(x) 이고 y는클래스를의미한다. 분류기는정확한확률값을구하는것이중요하기보다는, 각클래스간의차이를보고결과를예측하는형태이기때문에, P(x) 는생략이가능하며, 따라서수식 () 은다음과같이정리할수있다. P( x, y) y* = argmax = argmax P( x, y) y P( x) y = arg max exp Ε( ; ) y ZW ( ) = arg max exp Ε( ; ) y { x W } = arg max Ε ( x; W) = arg min Ε( x; W). y y 에너지함수 E(x;W) 는선형함수, sigmoid 함수, Gaussian 함수등여러가지형태로정의될수있다. 종합해보면, 하이퍼망은하이퍼간선및하이퍼간선의가중치로구성되는일련의규칙집단 (population) 을사용하여특정데이타집합을표현하는확률모델이라고할수있다. 3. 하이퍼망학습알고리즘 2장에서정의한하이퍼망분류기는에너지함수 E를최소화하는클래스 y를선택하는것이다. 여기에서학습과정은주어진데이타를표현할수있도록하이퍼간선의가중치를조절하는것이다. 본장에서는앞에서정의한하이퍼망분류기를기반으로분류성능을최대화하는하이퍼망분류기를생성하기위한진화학습기법을제시한다. 진화연산기반의하이퍼망학습을수행하기위한가정은다음과같다. 하나의하이퍼망분류기는한해집단. 을나타내며, 한하이퍼망분류기를구성하는하이퍼간선은개체이다. 여기에서개체는자질과클래스의조합으로써주어진자질의조건이만족하면해당클래스가된다는규칙을의미하게된다. 따라서한해집단은각개체에의해정의되는규칙의앙상블로분류예측을하는시스템이된다. 이는유전자프로그래밍과유사한개념이다. 한편, 하이퍼간선의가중치는한집단안에서똑같은모양의개체를가질수있도록함으로써표현될수있으며, 따라서하이퍼망의진화학습은분류성능을최대한으로하는방향으로개체수를조절하는문제가된다. 그림 3은하이퍼간선이해집합의개체로표현되는형태를예로보인것이다. 그림 3 진화연산기반하이퍼망학습에서의개체표현의예초기집단을구성하기위한방법으로본논문에서는랜덤그래프모델을활용한다. 랜덤그래프는랜덤과정에의해서생성된그래프를말한다 [9]. 초기해구성을위해랜덤그래프모델을사용하는이유는다음과같다. k-하이퍼그래프에서가능한하이퍼간선의개수는다음과같이정의된다. n! E = C( n, k) = k!( n k)!, 여기에서 n = X 이다. 만약가능한모든그래프의집합을 Ω라고한다면, 그크기는 Ω =2 C(n,k) 가된다. 따라서 k 및 n이증가함에따라서 Ω 은기하급수적으로증가한다. 따라서조합의경우의수가폭발적으로증가하는문제를해결하기위해랜덤그래프에기반한방법을해집합구성을위해사용한다. 기존하이퍼망과구별하기위해랜덤그래프에의해만들어진하이퍼망을이제부터랜덤하이퍼망이라고하겠다. 랜덤그래프는가능한모든그래프집합으로부터동등한확률로그래프를랜덤하게추출한다. 여기에서확
마이크로어레이기반 mirna 모듈분석을위한하이퍼망분류기법 35 률공간을 (Ω, F, P) 이라정의할수있으며, Ω는모든그래프의집합, F는 Ω의모든부분집합의패밀리, 그리고 Ω에속하는모든원소 ω에대한확률은다음과같이할당된다. P( C(, k ) ω ) = 2 n. 정의된확률공간은 C(n,k) 개바이너리공간의곱으로써표현될수있으며, 한코인을 C(n,k) 번만큼던져서얻은결과 ( 베르누이시행 ) 로해석될수있다. 랜덤하이퍼망은이항랜덤그래프과정에의해생성될수있으며, 실수 p(0 p ) 에대한이항랜덤그래프 ψ(n, p) 는앞서설명한확률공간및다음확률에의해정의된다. E( Ψ) C( n, k ) E( Ψ) P ( Ψ) = p ( p), 여기에서 E(ψ) 는 ψ의간선의개수를말하며, 랜덤하이퍼망은이와같은랜덤하이퍼그래프과정을반복함으로써만들어진다. 그림 4 초기해집합구성을위한랜덤하이퍼망생성알고리즘그림 4는랜덤하이퍼그래프과정에의해초기해집합, 즉랜덤하이퍼망을만드는알고리즘을설명한것이다. 비어있는하이퍼망으로부터시작해, p의확률로선택된학습데이타 x로부터 H' 가만들어지며이과정이반복수행된다. H' 생성을위해 (-p) 의확률로학습데이타를이용하지않은랜덤 H' 을생성할수도있으며, 이는해집합의다양성에영향을준다. 생성된 H' 에대해하이퍼간선 E' 의개체들, 즉가중치 w init 만큼이초기해집합에추가된다. 랜덤하이퍼망 H의업데이트는미리정의된해집합의크기가채워질때까지반복된다. 랜덤하이퍼망의생성은문제에대한분류성능을떨어뜨리지않으면서, 가능한조합의기하급수적인증가로야기되는계산상의복잡도, 즉해집합의크기를효과적으로줄여주는역할을수행하게된다. 그림 5는본논문에서최적하이퍼망을구하기위해 그림 5 하이퍼망분류기를위한진화학습알고리즘 사용한진화학습알고리즘을보인것이다. 랜덤하이퍼망으로부터시작해학습데이타 (x,y) 가관찰되면현재해집합을기준으로분류작업을수행하며, 이에대한결과로클래스 y * 가얻어진다. 만약, y * 가정답이라면, 현재해집합은최적의상태라고간주하여수정되지않는다. 만약 y * 가오답이라면, E i E(x,y) 에대해일정한비율만큼해당개체를증가시킨다. 한편, 앞에정의한하이퍼망은학습데이타에대한확률메모리모델이기때문에전체확률분포를유지하기위해업데이트가일어날때마다정규화과정을거치게된다. 여기에제시한하이퍼망의학습알고리즘은지역최적해로수렴하며, 진화학습과정은최적해를찾기위해분류오류를줄이는방향으로경사도탐색 (gradient search) 을하는것과유사하다. 데이타 (x,y) 는 x=(x, x 2,...,x n) {0,} n, y {0,} 이고, 에너지함수 E(x (n) ;W) 는 sigmoid 함수라고가정하자. Ε( x; W ) = + exp 여기에서 f (x,w) 는다음과같다. E ( f ( x, W )) f (x, W ) = wi wi 2... w x i Ei ixi2... xi Ei i=. 참고로 x ixi2... xi Ei 는하이퍼망의 k-하이퍼간선를표현하는조합이다. 이때, 에러함수는다음과같이정리된다 [3]. N G( W ) = ( y ln E( x ; W ) + ( y )ln( E( x ; W ))) n=. 이를편미분한 g = G / W 는다음과같다 [3]. G gi = = w i N n= ( y y * ) x,. (2) (n) 여기에서 G / W 는모든데이타에대한 g 의합 이므로, 매입력데이타마다 g ( y y * ) 의반대방
352 정보과학회논문지 : 소프트웨어및응용제 35 권제 6 호 (2008.6) 향으로가중치 W를조절하는온라인형태의학습을생각할수있으며, 이때가중치 W는시스템의분류가틀렸을경우에만수정된다. 결국그림 5에주어진학습알고리즘은수식 (2) 의온라인경사도탐색과정을단순화한과정이된다 [4]. 4. 실험결과및분석실험을위해암에관련된 mirna 모듈분석을위한마이크로어레이데이타 [5] 를사용하여분류실험을수행하였다. 실험에사용한 mirna 마이크로어레이데이타는 89개의샘플에서 5개의 mirna의발현을측정한것이다. 89개의샘플은 68개의암조직과 2개의정상조직으로구성되어있다. 표 은데이타샘플의구성조직을보인것이다. 학습데이타는실험을위해각샘플의중간값에기반하여 mirna의발현수준을 0 또는 로나누어바이너리변환하여하이퍼망분류기에적용하였다. 이러한변환과정을거친이유는하이퍼망구현의편의성및 mirna 모듈의분석을쉽게하는데있다. 하이퍼망의 표 실험에사용한 mirna 데이타샘플조직정보 Tissue type Cancer Normal Bladder 6 Breast 3 6 Colon 4 7 Kidney 3 4 Lung 2 5 Pancreas 8 Prostate 6 6 Uterus 0 Melanoma 0 3 Mesothelioma 0 8 Ovary 0 5 구조는 2-uniform 하이퍼망을구성하였으며, 이는 mirna 모듈의차수가증가함에따른희소성 (sparseness) 문제 및주어진데이타에대한결과모듈의의미분석의난 이도를고려함에따른것이다. 그림 6은 mirna 발현 데이타가하이퍼망분류기에적용되는과정을도식화한 것이다. 그림 6 mirna 발현데이타를이용한하이퍼망분류기구성
마이크로어레이기반 mirna 모듈분석을위한하이퍼망분류기법 353 표 2 분류기법에따른정확도비교 분류기법 정확도 신경망 0.923 랜덤하이퍼망 0.946 지지벡터머신 0.90 결정트리 0.8876 나이브베이즈 0.834 그림 7 mirna 발현데이타에대한하이퍼망분류기의학습에따른성능변화그래프본문에설명한랜덤하이퍼망을이용하여초기해집합을구성하였으며, 개체의절반은확률 p =0.5에의해학습데이타로부터선택하였고, 나머지부분은랜덤하게선택하였다. 이는해집합의다양성및클래스간확률차이가적을경우임의성을반영하기위함이다. 전체해집합의개체크기는 50,000개로설정하였으며, 각개체의초기가중치 (w init) 는동일하게,000으로설정하였다. 하이퍼망분류기의에너지함수로는 sigmoid 함수를사용하였다. 해집합이학습되는정도, 즉하이퍼간선의가중치가변화되는정도 η = Δc Ei / c Ei 는데이타에대한적응성과안정적인학습사이의균형을맞추는데중요한요소이다. 따라서실험에서는 η값을 0.0부터시작하여매번 epoch의전체정확도가이전보다떨어질경우, 0.75 η만큼학습비율을감소시켰다. 하이퍼망학습의정지조건은 40회의 epoch을기준으로하였다. 그림 7은마이크로어레이데이타에대한하이퍼망학습의각세대별분류정확도를보인것이다. 초기해집합의구성에서학습이진행됨에따라하이퍼망분류기의분류성능은증가하며, 데이타에대한학습이 20회정도반복된후에수렴이되고있음을알수있다. 하이퍼망학습이수렴하기전의과정은최적의 mirna 분류를위해후보하이퍼망을탐색하는과정이며, 최적의하이퍼망을찾게되면그만큼성능의증가곡선이떨어지는형태를취하게된다. 4. mirna 발현데이타분류성능표 2는랜덤하이퍼망과기존기계학습기법의분류성능을비교한것이다. 기존기계학습기법으로는신경망, 지지벡터머신, 결정트리및나이브베이즈가사용되었으며, leave one-out cross validation을이용하여성능을측정하였다. 그결과, 랜덤하이퍼망분류기는 0.946의정확도로서결정트리및나이브베이즈보다높은성능을보여주었으며, 신경망과지지벡터머신과는대 등한분류성능을보여주었다. 신경망과지지벡터머신은일반문제에서안정적으로비교적높은성능을보여주는기계학습기법으로알려져있다. 그러나, 두가지방법모두학습된결과에대한원인분석이쉽게가시화될수없다는단점을가진다. 한편랜덤하이퍼망분류기는분류성능외에유전자모듈분석을위한도구로서의장점을가지고있기때문에, 이런점에서신경망및지지벡터머신과의차별성이존재한다. 4.2 mirna 모듈분석하이퍼망을구성하는개체, 즉하이퍼간선은특정자질의조합으로표현되기때문에특정클래스를생성하기위한하나의규칙으로서해석될수있다. 따라서마이크로어레이데이타를학습한하이퍼망분류기의개체는그가중치에따라서주어진문제를푸는데중요한규칙이된다고볼수있다. 표 3은 0번의실험을반복하여얻어진하이퍼망들을분석하여높은가중치를보이고중복발생된 mirna 모듈을나열한것이다. hsamir-47은이형접합소실 (LOH, loss of heterozygosity) 의발생률이높은대표유전자 (marker gene) 의위치에서 2Mb이내의지역에있다 [6]. 이형접합소실은정상세포에서조절되지않는암세포로변환되는메커니즘에서나타나는유전적변화의대표적인현상중하나이다. has-mir-25는자궁암과유방암에서 DNA copy수가정상인경우보다더많이나타나는지역에위치하고있다 [7]. DNA copy 수의변화는암조직에서 mirna 발현에영향을미치는주요요인이될수있으므로, 특정암에서정상에서와달리 DNA copy 수의변화가나타나는지역에위치한 mirna는암과관련이있다고말할수있다. 또한, has-mir-23b는 9q 염색체유전체결손이많이일어나는두지역중한지역에위치한다. 표 3 학습된하이퍼망에서높은가중치를가지는 mirna 모듈 mirna modules mirna (a) mirna (b) I has-mir-47 has-mir-296 II has-mir-25 has-mir-7 III has-mir-30b has-mir-23b IV has-mir-05 has-mir-33a V has-mir-47 has-mir-206
354 정보과학회논문지 : 소프트웨어및응용제 35 권제 6 호 (2008.6) 그림 8 mirna 모듈에존재하는 mirna 목적유전자들의발현양상 염색체의일정지역에서의유전체결손등변화가일어나는것은암발생과관련이있다고알려져있다 [6]. 하이퍼망분류기에의해찾아진 mirna 모듈을검증하기위해표 3의상위 2개모듈인모듈 I 및 II를구성하는 mirna들의목적유전자들의발현양상을분석해보았다. 그림 8은랜덤하게추출한유전자와모듈 I 및 II 각각의 mirna 목적유전자발현정도를이용하여계산한상관계수분포그래프이다. 즉, 모듈 I의 has-mir-47, has-mir-296의목적유전자와모듈 II 의 has-mir-25, has-mir-7의목적유전자를추출하여각모든쌍에대해계산한상관계수와랜덤하게추출한유전자들간의상관계수들과분포를비교한것이다. 목적유전자들의상관관계곡선이랜덤한유전자들의곡선보다오른쪽으로치우쳐있는것은상대적으로더높은상관관계가있다는것을의미하며, 곧하이퍼망에의해찾아진 mirna 모듈의목적유전자들이더높은공동발현 (co-expression) 을한다는것을말한다. 4.3 mirna 모듈의생물학적유의성분석추출된 mirna 모듈의생물학적유의성을검증하기위해서모듈을구성하고있는 mirna의목적유전자들을추출하여 Gene Ontology (GO) 분석을통해기능적인연관관계를알아보았다. GO는유전자들간기능적긴밀성을검증하는데표준적으로쓰이는분석방법이다. 이 GO 프로젝트의목적은세가지구조로유전자들을 biological process (BP), cellular component (CC), molecular function (MF) 세가지로분류하여, 종에의존적이지않은독립적인관점에서각유전자에대해생물학적분석을제공하는것이며, 전형적으로검증은통계적으로유의한지여부에따라판단된다. 만약찾아진모듈에서각 mirna가생물학적으로밀접한관련이있다면, 그모듈의 mirna 목적유전자들간에도기능적으로상관성이존재할것이다. mirna가특정생물학적환경에서목적유전자의기능에결정적인영향을줄수있기때문에, mirna의목적유전자를이용한분석은생물학적으로유의하다. 표 4는 GOstat[8] 을이용한모듈 I(has-mi-47 및 has-mir-296) 의분석결과이며, p -value<0.0인유의한텀 (term) 목록을나타낸것이다. 표에나타난바와같이, 두 mirna가공통으로타겟하고있는 3개의목적유전자 (BCL3, BCL6, CCND, CCND2, CDH, DDX6, ETV6, FGFR, MYCL, IRF4, NF2, NRAS, PDGFB) 가유의한수준으로나타났다. 전체적으로, 모듈 I에서의목적유전자들은전사, 단백질결합, 세포조절, 생리학적또는생물학적과정에연관된특정기능의카테고리에속해있다. 표 5는모듈 I을구성하고있는 mirna와 GO 텀이유의한수준으로나타난공통목적유전자 3개에대한정보를보여주고있다. has-mir-47과 has-mir-296 의염색체내위치정보와두 mirna의공통목적유전자기능에대한설명을정리한것이다. 앞서언급한 표 4 모듈 I 의 mirna 목적유전자에대한 GO 텀분석 GO ID Term Ontology *p-value Genes GO:0050794 Regulation of cellular physiological process BP 2.63E-8 GO:0050789 Regulation of physiological process BP 6.43E-8 BCL3, BCL6, GO:0005634 Nucleus CC.52E-7 CCND, CCND2, GO:0065007 Biological regulation BP.60E-6 CDH, DDX6, ETV6, FGFR, GO:003323 Regulation of cellular metabolic process BP 3.73E-6 MYCL, IRF, GO:0045449 Regulation of transcription BP 3.9E-6 NF2, NRAS, GO:000555 Protein binding MF 4.36E-6 PDGFB GO:00929 Nucleobase, nucleotide and nucleic acid metabolism BP 7.22E-6
마이크로어레이기반 mirna 모듈분석을위한하이퍼망분류기법 355 표 5 모듈 I의 mirna의위치및목적유전자에대한설명 mirna Chromosome Start-End Position has-mir-47 Chr9 22047078-2204749 has-mir-296 Chr20 56826065-5682644 Target Description BCL3 B-Cell Leukemia/Lymphoma-3 BCL6 B-Cell Lymphoma-6 (zinc finger protein 5) CCND Cyclin D CCND2 G/S-specific cyclin D2 CDH cadherin, type, E-cadherin (epithelial) DDX6 DEAD (Asp-Glu-Ala-Asp) box polypeptide 6 ETV6 ets variant gene 6 (TEL oncogene) fibroblast growth factor receptor, fms-related FGFR tyrosine kinase 2, Pfeiffer syndrome IRF4 interferon regulatory factor 4 MYCL NF2 NRAS PDGFB v-myc myelocytomatosis viral oncogene homolog, lung carcinoma derived neurofibromin 2 (bilateral acoustic neuroma) neuroblastoma RAS viral oncogene homolog platelet-derived growth factor beta polypeptide, (simian sarcoma viral (v-sis) oncogene homolog) 바와같이 has-mir-47은 9q.22 염색체에서이형접합소실발생률이높은지역에위치하고있으며, hasmir-296은염색체 20번에존재한다. 또한, 표 5에나타난 3개의유전자는모두종양형성메커니즘과정에적극적으로포함되어있다. 예를들어, BCL3는 DNA 손상을유도할수있을뿐만아니라, 세포분열주기를조절하여암억제유전자로서의기능을하는 p53의활동을제어하는데필요한유전자이다 [9]. 또, BCL6 역시 p53 암억제유전자의발현을낮추고, B 세포에서 DNA 손상을유발하는기능이있다 [20]. 따라서, BCL3 와 BCL6 두유전자발현의변화는암을형성하는메커니즘에영향을줄수있으며더나아가암의성장과존속을결정하는데주요한역할을할수있는유전자임을알수있다. 모듈 II에대한 GO 분석도모듈 I과같은결과를보여주었으며, 따라서하이퍼망분류기를이용해추출된 mirna 모듈은복합작용이있는암관련모듈이라고할수있다. 5. 결론 본논문에서는마이크로어레이데이타를분석하기위한방법으로하이퍼망분류기를사용하여 mirna 모듈을인식하는기법을제안하였다. 학습데이타를저장하고예측하기위해확률모델의일종인하이퍼망분류기를정의하였으며, 제한된컴퓨팅환경하에서효과적으 로최적해를찾기위해랜덤그래프모델과진화학습알고리즘을소개하였다. 하이퍼망은생체분자네트웍에기반해만들어진모델로서지지벡터머신또는신경망과같은기존기계학습기법과는다르게학습결과를사람이이해할수있는형태로직접분석가능하다는장점을가진다. 암과관련된 mirna 발현프로파일을이용한분류실험에서하이퍼망분류기는결정트리및나이브베이즈보다뛰어난분류성능을보여주었으며, 신경망및지지벡터머신과대등한성능을보여주었다. 학습된하이퍼망분류기를통해발견된 mirna 모듈이생물학적으로의미가있는지를보기위해 GO 분석및목적유전자에대한통계분석방법을이용하였으며, 그결과분석모듈의생물학적유의미성을발견할수있었다. 하이퍼망분류기및진화기반학습방법은좋은분류성능과함께사람이이해및분석가능한해법을제공한다는점에서자질선택과같은전처리과정에사용되거나마이크로어레이데이타외에분석능력이중요한다른문제에도활용될수있을것으로보인다. 참고문헌 [ ] Ramaswamy, S. and Golub, T.R., "DNA Microarrays in Clinical Oncology," Journal of Clinical Oncology, Vol.20, pp. 932-94, 2002. [2] Segal, E., Friedman, N., Kaminski, N., Regev, A., and Koller, D., "From Signatures to Models: Understanding Cancer Using Microarrays," Nature Genetics, Vol.37, s38-s45, 2005. [3] Segal, E., Friedman, N., Koller, D., and Regev, A., "A Module Map Showing Conditional Activity of Expression Modules in Cancer," Nature Genetics, Vol.36, pp. 090-098, 2004. [4] Brown, M.P.S., Grundy, W.N., Lin, D., Cristianini, N., Sugnet C.W., Furey, T.S., Ares, M., Jr., and Haussler, D., "Knowledge-Based Analysis of Microarray Gene Expression Data by Using Support Vector Machines," Proceedings of the National Academy of Sciences, Vol.97, No., pp. 262-267, 2000. [ 5 ] Dettling, M. and Buhlmann, P., "Boosting for Tumor Classification with Gene Expression Data," Bioinformatics, Vol.9, pp. 06-069, 2003. [6] Subramanian, A., Tamayo, P., Mootha, V.K., Mukherjee, S., Ebert, B.L., Gillette, M.A., Paulovich, A., Pomeroy, S.L., Golub, T.R., Lander, E.S., and Mesirov, J.P., "Gene Set Enrichment Analysis: A Knowledge-Based Approach for Interpreting Genome-Wide Expression Profiles," Proceedings of the National Academy of Sciences, Vol.02, pp. 5545-5550, 2005. [7] Huang, E., Ishida, S., Pittman, J., Dressman, H., Bild, A., Kloos, M., Kloos, M., Pestell, R.G., West,
356 정보과학회논문지 : 소프트웨어및응용제 35 권제 6 호 (2008.6) M., and Nevins, J.R., "Gene Expression Phenotypic Models That Predict the Activity of Oncogenic Pathways," Nature Genetics, Vol.34, pp. 226-230, 2003. [ 8 ] Meltzer, P.S., "Cancer Genomics: Small RNAs with Big Impacts," Nature, Vol.435, pp. 745-746, 2005. [9] Zhang, B.-T., "Random Hypergraph Models of Learning and Memory in Biomolecular Networks: Shorter-Term Adaptability vs. Longer-Term Persistency," IEEE Symposium on Foundations of Computational Intelligence, pp. 344-349, 2007. [0] Kim, S., Kim, S.-J., and Zhang, B.-T., "Evolving Hypernetwork Classifiers for microrna Expression Profile Analysis," IEEE Congress on Evolutionary Computation, pp. 33-39, 2007. [] Berge, C., Graphs and Hypergraphs, North-Holland Publishing, 973. [2] Milo, R., Shen-Orr, S., Itzkovitz, S., Kashitan, N., Chklovskii, D., and Alon, U., "Network Motifs: Simple Building Blocks of Comples Networks," Science, Vol.298, pp. 824-827, 2002. [3] MacKay, D., Information Theory, Inference, and Learning Algorithms, Cambridge University Press, 2004. [4] Kim, S., Heo, M.-O., and Zhang, B.-T., "Text Classifiers Evolved on a Simulated DNA Computer," IEEE Congress on Evolutionary Computation, pp. 996-9202, 2006. [5] Lu, J., Getz, G., Miska, E.A., Alvarez-Saavedra, E., Lamb, J., Peck, D., Sweet-Cordero, A., Ebert, B.L., Mak, R.H., Ferrando, A.A., Downing, J.R., Jacks, T., Horvitz, H.R., and Golub, T.R., "MicroRNA Expression Profiles Classify Human Cancers," Nature, Vol.435, pp. 834-838, 2005. [6] Calin, G.A., Sevignani, C., Dumitru, C.D., Hyslop, T., Noch, E., Yendamuri, S., Shimizu, M., Rattan, S., Bullrich, F., Negrini, M., and Croce, C.M., "Human microrna Genes are Frequently Located at Fragile Sites and Genomic Regions Involved in Cancers," Proceedings of the National Academy of Sciences, Vol.0, No.9, pp. 2999-3004, 2006. [7] Zhang, L., Huang, J., Yang, N., Greshock, J., Megraw, M.S., Giannakakis, A., Liang, S., Naylor, T.L., Barchetti, A., Ward, M.R., Yao, G., Medina, A., Brien-Jenkins, A.O., Katsaros, D., Hatzigeorgiou, A., Gimotty, P.A., Weber, B.L., and Coukos, G., "MicroRNAs Exhibit High Frequency Genomic Alterations in Human Cancer," Proceedings of the National Academy of Sciences, Vol.03, pp. 936-94, 2006. [8] Beissbarth, T., Speed, T.P., "GOstat: Find Statistically Overrepresented Gene Ontologies within a Group of Genes," Bioinformatics, Vol.20, No.9, pp. 464-465, 2004. [9] Kashatus, D., Cogswell, P., and Baldwin, A.S., "Expression of the Bcl-3 Proto-Oncogene Suppresses p53 Activation," Genes and Development, Vol.20, pp. 225-235, 2006. [20] Phan, R.T. and Dalla-Favera, R., "The BCL6 Proto-Oncogene Suppresses p53 Expression in Germinal-Centre B Cells," Nature, Vol.432, pp. 635-639, 2004. 김 선 999년 2월숭실대학교컴퓨터학부학사. 200년 2월서울대학교전기 컴퓨터공학부석사. 200년~현재서울대학교전기 컴퓨터공학부박사과정. 관심분야는텍스트마이닝, 생물정보학, 정보검색, 진화연산, 기계학습 김수진 2004년 8월숙명여자대학교정보과학부학사. 2005년~현재서울대학교협동과정생물정보학석박사통합과정. 관심분야는생물정보학, 기계학습, 확률그래프모델, 진화연산 장병탁 986년서울대학교컴퓨터공학학사. 988 년서울대학교컴퓨터공학석사. 992년독일 Bonn대학교컴퓨터공학박사. 992 년~995 년독일국립정보기술연구소 (GMD) 연구원. 995년~997년건국대학교컴퓨터공학과조교수. 997년~현재서울대학교컴퓨터공학부교수, 인지과학, 뇌과학, 생물정보학협동과정겸임. 관심분야는 Biointelligence, Probabilistic Models of Learning and Evolution, Molecular/DNA Computation