유전체빅데이터공유및인공지능시대 강근수단국대학교자연과학대학미생물학과 kangk1204@dankook.ac.kr 서론 기술의발전은패러다임의전환을야기한다. 스마트폰의개발및급속한발전은다양한산업을생성하였으며사람들의생활패턴패러다임을변화시켰다. 이러한패러다임의변화는기초생명과학, 임상및의료분야에서도일어나고있다. DNA microarray 및차세대염기서열분석 (next-generation sequencing, NGS) 기술의급속한발전과보급은가설을세우고연구에들어가는기존의연구방법 (hypothesis-driven approach) 에서벗어나, 전체현상을보고가설을정하는접근방법 (hypothesis-generating approach) 을가능하게했다. NGS는게놈 (genome) 및연관된분자들에대한분자지도 (molecular map) 를만드는기술이다. 따라서기존에알려진지식검증이외에알려지지않은특성의발굴도동시에가능 하다. 예를들어 TCGA (the cancer genome atlas, http:// cancergenome.nih.gov/) 프로젝트는다양한종류의암에대하여대규모환자집단 (cohort) 을대상으로 NGS 기반유전체연구를수행하여기존에알려진 p53 (TP53) 유전자의변이이외에다양한새로운유전자의변이등을발굴하였다. 그리고 ENCODE (ENCyclopedia Of DNA Elements, https://www. encodeproject.org/) 컨소시엄은인간게놈 (human genome) 에존재하는모든 DNA elements 발굴및기능유추를목적으로다양한종류의세포에서 8,000 건이상의분자지도를생성하였다. 이러한장점때문에 NGS 기술은전세계적으로기초생명과학뿐만아니라임상및의료분야에서도광범위하게활용되고있으며유전체빅데이터 (Big data) 의생산에일조하고있다. 이번에서는현재공개되어있는유전체데이터의규모와공유현황및향후전망에대해서알아보고자한다. 01
MOLECULAR AND CELLULAR BIOLOGY NEWSLETTER 공개된유전체빅데이터 모든생명체는유전체를가지고있다. 현시점에서유전체연구란, 전장유전체 (genome) 및이와연관된전사체 (transcriptome), 후성유전체 (epigenome) 와같은전체 (genome-wide) 를보는연구를의미한다. 이러한연구를가능하게한 Microarray 혹은 NGS 기술은일반적으로논문공개시점에서원본데이터를공개하는것을암묵적인원칙으로하고있다. 대표적으로 NCBI (National Center for Biotechnology Information) 에서관리하는 GEO (Gene Expression Omnibus), EMBL-EBI (European Bioinformatics Institute) 에서관리하는 ENA (European Nucleotide Archive) 가 Microarray, NGS와같은데이터를보관및관리하고있다. 2016년 9월기준으로 GEO의 microarray 기반유전자발현 (expression profiling by array) 연구 series는약 46,000 건이며 [1], NGS기반유전자발현 (expression profiling by high throughput sequencing, RNA-seq) 연구 series는약 9,000 건이등록되어있으며공개되어있다 ( 표 1). 최근공개된하나의 series (GSE75330) 는쥐의중추신경계에서분리한 5,069개의단일세포에대한전사체분석 (single-cell RNA-seq) 을수행한결과를담고있으며, 원본파일의크기는 SRA (Sequence Read Archive) 압축형태로약 230 기가바이트 (gigabytes, 10 9 bytes) 이다 [2]. GEO에서 SRA형태로공개된 NGS 데이터의양은약 4 페타바이트 (petabytes, 10 15 bytes) 에도달하고있다. NGS 기술의발전및비용의하락은이러한 NGS 데이터생산을더욱가속화할것으로예상된다. 앞으로는유전체빅데이터 (big data) 를어떻게생산할수있는가보다는어떤유사한유전체데이터가공개되어있고, 유전체데이터를새롭게생산하는것의필요성과재분석을통해기존에밝혀진정보와다른새로운정보를추출할수있는지에대한고민이수반되어야할것이다. 공개된유전체데이터재사용의중요성 최근 NGS 데이터기반논문의경향을보면연구자가생산한 NGS 데이터외에기존에공개된 NGS 데이터를통합분석함으로써주장하는가설에대한독립적인신뢰성을확보하는경향이있다. 예컨대, 인간유전체에존재하는 DNA상의조절인자 (DNA regulatory element) 인 super-enhancer의기능을대규모로분석한연구는 [3] 공개된 250여개이상의 NGS 데이터 (ChIP-seq) 및질병과연관되어있다고알려진단일염기 Series type 기준 ( 상위 5 개 ) Series count Expression profiling by array 46,726 Expression profiling by high throughput sequencing 9,032 Genome binding/occupancy profiling by high throughput sequencing 6,236 Non-coding RNA profiling by array 2,744 Genome binding/occupancy profiling by genome tiling array 2,201 Organism 기준 ( 상위 5 개 ) Series count (samples) Homo sapiens 28,588 (1,123,108) Mus musculus 21,085 (332,891) Rattus norvegicus 2,758 (75,232) Saccharomyces cerevisiae 2,041 (41,814) Arabidopsis thaliana 2,770 (37,950) 표 1. GEO 에공개된데이터의종류및규모 (2016 년 9 월 3 일기준 ) 2016 9 02
다형성 (single nucleotide polymorphism, SNP) 정보를통합분석하여 super-enhancer의질병과의연관성을증명하였다. 추가적인실험및데이터생산없이도공개된데이터재분석만으로 STAT (Signal Transducers and Activators of Transcription) 전사인자의세포특이적인 DNA 결합위치의기능을유추한연구도이러한경향을잘반영하고있다 [4]. 따라서이제는내가생산한데이터를가지고나만의연구를하는것이아닌, 어떠한데이터가공개되어있는지먼저검색및탐구한후, 가설및연구방향을결정하여이를증명하는것이연구의시간, 비용, 방향및효율성을높이는데중요하다고할수있다. 웹기반공개된유전체데이터재분석및해석플랫폼 공개된유전체빅데이터를실험기반연구자 (wet-lab scientist) 가이용할수있도록웹상에서쉽게재분석하는플 랫폼개발이지속적으로이루어지고있다. NCBI는현재가장많은양의데이터를차지하는 microarray 기반유전자발현데이터 (expression profiling by array) 를재분석하여발현이변한유전자들 (differentially expressed genes, DEGs) 을웹상에서발굴해주는 GEO2R이라는분석플랫폼을제공하고있다 (http://www.ncbi.nlm.nih.gov/geo/geo2r/) [1]. GEO2R을이용하면 microarray 데이터분석에대한사전지식이없어도공개된 microarray를웹상에서쉽게분석할수있다. 다음은흡연경험이없는폐암환자 60명을대상으로수행된 microarray 기반전사체연구 [5] 의재분석과정이다. ( 그림 1): GEO2R 웹사이트에서데이터고유아이디인 GSE19804 ( 공개된 microarray 및 NGS 데이터는 GEO에등록되어있다면 GSE/GSM 고유아이디가있음 ) 를입력한다음폐암조직샘플 (n=60) 및정상조직샘플 (n=60) 그룹을설정하고분석을수행한다 (Top 250 버튼클릭 ). 총 120개의전사체를분석한결과발현이통계적으로유의미하게변한유전자 (DEG) 리스트를웹상에서얻는데까지걸린시간은평균 3분미만이었 그림 1. GEO2R 을이용한공개된 microarray 데이터 (GSE19804) 재분석방법 03
MOLECULAR AND CELLULAR BIOLOGY NEWSLETTER 다. AGER 유전자가정상조직대비폐암조직에서발현이현저하게저하됨을쉽게확인할수있다 (FDR-adjusted p value = 6.23 x 10-36 ) ( 그림 1). GEO2R은 microarray 기반전사체데이터분석은가능하지만 NGS기반유전체데이터분석은지원하지않는다. Microarray와는달리 NGS기반데이터는분석과정이여러단계를거치게되어있어서복잡하고결과를정형화 (standardization) 시키기어렵기때문이다. Galaxy [6] 나 GenePattern [7] 과같은웹기반분석플랫폼을이용하면공개된 NGS 데이터의재분석이가능하지만, 실험기반연구자 (wet-lab scientist) 및바이오인포매틱스 (bioinformatics) 초보자가진행하기에는상당한괴리감이존재한다. 기본적으로각분석과정이어떤역할을하는지전체분석과정에대한개념을알고있어야하며, Galaxy나 GenePattern이제공하는플랫폼형식에익숙해져야하기때문이다. 따라서 NGS 데이터의분석과정을연구자가학습할필요없이공개된유전체데이터를내부적으로처리하여데이터베이스화시킴으로써최종결과를기반으로해석을도와주는 InSilicoDB (https://insilicodb. com/) 와같은플랫폼이다음세대분석및해석플랫폼으로써각광받을것으로기대된다. 유전체빅데이터와인공지능 NGS 기술의보급및확산으로 NGS기반유전체데이터의양은기하급수적으로증가하고있으며, 이러한경향은더욱가속화될것이다 ( 그림 2). 기술의지속적인발전으로단일세포에서의 NGS 기반연구도가능해짐에따라서최근공개되는데이터는연구시료의개수가 1,000 단위를넘어서고있다. 암과같은질환을정복하기위한대규모연구도지속적으로증가하고있다. 265개의항암약물에대한 1,001 개의다양한암세포주 (cancer cell line) 의 DNA methylation 변화를 microarray로측정한결과도공개되어있으며 (GSE68379) [8], 흑색종 (melanoma) 조직에서세포를분리하여 4,645개의 single-cell RNA-seq을수행한데이터도공개되어있다 (GSE72056) [9]. 데이터의개수가많아짐에따라서일반적인통계기반분석으로놓칠수있는중요한특성 (feature) 을인공지능분야의기계학습 (machine learning) 알고리즘기반으로발굴하는것이가능해졌다. 기계학습알고리즘을적용한예를보면, 이세돌과알파고의바둑대결로유명해진딥러 그림 2. NCBI PubMed에공개된 NGS 기반연구논문의증가추세닝 (Deep learning) 알고리즘을이용한 DNA에붙는단백질이선호하는 DNA 염기서열정보예측 [10], 폐암환자의병리이미지기반예후예측등 [11], 다양한기초및임상빅데이터에적용되어좋은결과를보여주고있다. 음성인식및이미지분류에서최고의성능을보이는기계학습알고리즘이유전체빅데이터에적용된다면정형화된분석으로간과되었던질병의조기진단및예후예측에사용될수있는새로운표지자 (biomarker) 를발굴할수있을것이며, 또한다양한기초, 임상및의료빅데이터에광범위하게적용되어우리의삶을질적으로향상시키는데중요한역할을할것이다. 결론 최근 NEJM (the New England Journal of Medicine) 에, 연구기생충 (research parasite, 공개된데이터를재분석하여자신의연구에이용하는연구자들 ) 이라는신조어까지만들며, 임상유전체데이터공개에반하는논지의사설이기재되었다 [12]. 공개된데이터를재분석시범할수있는잘못된해석에대한주의가주된요지이지만, 공개된빅데이터를재분석하여새로운정보를추출및이용하는많은연구자들의반발을불러일으켰다 [13]. 유전체데이터는기본적으로유전체의일부가아닌전체에대한분자지도 (molecular map) 를작성한산물이기때문에다양한관점에서재분석시원연구자 (primary researcher) 가놓쳤던사실을새롭게발견할여지가충분히존 2016 9 04
재한다. 더군다나기계학습기반알고리즘적용시일반적인분석으로찾을수없었던새로운특성 ( 혹은표지자 ) 을찾는것이가능해진시점에서인공지능분야를접해보지않은원연구자가이러한방법론을적용할가능성은전무하다. 앞으로더많은유전체데이터가생산되는것이자명한만큼연구자들은서로가경쟁자가아닌빅데이터의선순환 (virtuous cycle) 을통한조력자가되어야할것이다. 이를위해, 실험기반연구자 (wet-lab scientist) 들이공개된다양한유전체데이터를쉽게검색및해석할수있는사용하기쉬운웹기반플랫폼의개발이절실하다. 데이터를공유및탐색함으로써, 비슷한연구의중복적인시간과비용의소모를방지할수있으며, 궁극적으로더효율적인연구를수행하는것이가능하기때문이다. 앞으로쏟아질유전체, 임상이미지, 의료정보와같은다양한빅데이터 7. Reich M, Liefeld T, Gould J, Lerner J, Tamayo P, Mesirov JP., GenePattern 2.0. Nat. Genet. 2006, 38:500-501 8. Iorio F, Knijnenburg TA, Vis DJ, Bignell GR, Menden MP, Schubert M, Aben N, Gonçalves E, Barthorpe S, Lightfoot H et al., A Landscape of Pharmacogenomic Interactions in Cancer. Cell 2016, 166:740-754 9. Tirosh I, Izar B, Prakadan SM, Wadsworth MH, Treacy D, Trombetta JJ, Rotem A, Rodman C, Lian C, Murphy G et al., Dissecting the multicellular ecosystem of metastatic melanoma by single-cell RNAseq. Science 2016, 352:189-196 10. Alipanahi B, Delong A, Weirauch MT, Frey BJ., Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Nat. Biotechnol. 2015, 33:831-838 11. Yu KH, Zhang C, Berry GJ, Altman RB, Ré C, Rubin DL, Snyder M., Predicting non-small cell lung cancer prognosis by fully automated microscopic pathology image features. Nat. Commun. 2016, 7:12474 12. Longo DL, Drazen JM., Data Sharing. N. Engl. J. Med. 2016, 374:276-277 13. Drazen JM, Data Sharing and the Journal. N. Engl. J. Med. 2016, 374:19 의합리적인공유정책수립, 사용하기쉬운빅데이터검색및해석플랫폼개발, 인공지능알고리즘을이용한유전체데이터재분석을통한과학의발전을기대해본다. 참고문헌 1. Barrett T, Wilhite SE, Ledoux P, Evangelista C, Kim IF, Tomashevsky M, Marshall KA, Phillippy KH, Sherman PM, Holko M et al., NCBI GEO: archive for functional genomics data sets--update. Nucleic Acids Res. 2013, 41:D991-995. 2. Marques S, Zeisel A, Codeluppi S, van Bruggen D, Mendanha Falcão A, Xiao L, Li H, Häring M, Hochgerner H, Romanov RA et al., Oligodendrocyte heterogeneity in the mouse juvenile and adult central nervous system. Science 2016, 352:1326-1329 3. Hnisz D, Abraham BJ, Lee TI, Lau A, Saint-André V, Sigova AA, Hoke HA, Young RA., Super-enhancers in the control of cell identity and disease. Cell 2013, 155:934-947 4. Kang K, Robinson GW, Hennighausen L., Comprehensive meta-analysis of Signal Transducers and Activators of Transcription (STAT) genomic binding patterns discerns cell-specific cis-regulatory modules. BMC Genomics 2013, 14:4 5. Lu TP, Tsai MH, Lee JM, Hsu CP, Chen PC, Lin CW, Shih JY, Yang PC, Hsiao CK, Lai LC et al., Identification of a novel biomarker, SEMA5A, for nonsmall cell lung carcinoma in nonsmoking women. Cancer Epidemiol Biomarkers Prev. 2010, 19:2590-2597 6. Afgan E, Baker D, van den Beek M, Blankenberg D, Bouvier D, Čech M, Chilton J, Clements D, Coraor N et al., The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 2016, 44:W3-W10 저자약력 강근수 2000-2006 서강대학교, 생명과학과, 학사 2006-2011 한국과학기술원, 생명과학과, 박사 2011-2012 한국과학기술원, 생명과학과, 박사후연구원 2012-2014 National Institutes of Health, NIDDK, 박사후연구원 2014-현재 단국대학교, 자연과학대학미생물학과, 조교수 05