1 2014 년전문가리포트 7 호 유전체빅데이터연구동향 김운봉한국생명공학연구원국가생명연구자원정보센터센터장김용민한국생명공학연구원국가생명연구자원정보센터전임연구원양진옥한국생명공학연구원국가생명연구자원정보센터선임연구원 1. 정의및필요성 가. 유전체빅데이터정의 최근빅데이터 (big data) 는우리사회의핵심키워드로등장하고있다. 한예시로, 최근모방송사에서방영되고있는드라마에서남자주인공이여자주인공전남편의뇌구조를분석장면에서 빅데이터를이용해서분석한뇌구조 라는대사에서도쉽게체감할수있다. 이렇듯빅데이터는새로운개념이아니라 1990년이후인터넷이확산되면서정형화된정보와비정형형태의정보가무수히발생하게되면서정보홍수 (information overload) 나정보폭발 (information explosion) 이라는개념으로정의되었고, 지금의빅데이터라는개념으로이어지게되었다. 빅데이터는컴퓨터기술의발전으로대용량데이터의생산, 저장, 관리, 처리능력이급격히향상되고있으며, 단순히크기와관련된문제가아니라, 빅데이터의 3대요소를통해새로운데이터의의미를찾아내는개념이다 ( 그림1).
www.bioin.or.kr 2 빅데이터 3대요소 : 1) 데이터규모 (Volume), 2) 처리및저장속도 (Velocity), 3) 데이터종류의다양성 (Variety) [ 그림 1. 빅데이터의구성요소 ] 생물학분야에서의유전체빅데이터란, 유전체 (omics) 분석을통해서생성된대용량의바이오데이터를지칭하는것으로서, 전장유전체 (genome), 전사체 (transcriptome), 단백체 (proteome), 및후성유전체 (epigenome) 등의분야가있다. 유전체빅데이터의생산및분석은최근에개발된차세대염기서열분석 (Next Generation Sequencing) 방법의도입으로인해기하급수적으로증가하여, 최근 2년간유전체빅데이터의생산량은페타 (petabyte, 1015 byte) 수준에이르고있으며, 매년 2배이상증가하고있다 [1]. 이와더불어, 앞에서언급한분야뿐만아니라, 대용량의염기서열정보와다양한생물학적인연구분야의정보가통합되어대사유전체학 (metabolomics) 과같은다양한생물학적인현상을설명할수있는분야가등장하고있다. 가. DNA 서열 Megabase 당비용변화나. 인간유전체서열결정비용변화 [ 그림 2. 연도별 DNA 서열결정비용의변화
3 2014 년전문가리포트 7 호 나. 필요성 최근에등장한차세대유전체염기서열분석 (Next Generation Sequencing) 기술의진보에힘입어지난 10 년간유전체빅데이터는기하급수적으로증가하고있으며, 차세대염기서열분석방법의도입으로인해눈에띄게감소한염기서열분석비용으로인해유전체빅데이터의생성이폭발적으로일어나고있다. 염기서열분석비용의감소는생물학자들로하여금인간을비롯한생명체의유전체정보 (genome) 를연구의기본정보로활용하게하였으며이로인해모든분석을유전체에대비하여분석할수있는데이터단위로유도하게되었다. 이러한결과로단백체, 전사체, 조절체및대사체등의거대데이터로해석하기위한학문인유전체학 (omics) 이발전하고있다. 이와같은초고속의대용량유전체데이터는유전체연구의방법론적혁명을통해생명공학의기술패러다임을변화시키고있으며, 유전체정보생산및분석연구는신약, 진단 / 예방, 국방, 농업, 수산, 식품, 환경, 에너지등거의모든산업영역에막대한파급효과를미치는핵심기반기술로서선진국은물론개발도상국에서도경쟁적으로투자를확대해나가고있는실정이다 [2]. [ 그림 3. 빅데이터도입에따른유전체연구의변화 ]
www.bioin.or.kr 4 폭발적으로증가하는유전체빅데이터의효율적인저장, 관리및분석을위한인프라의요구조건및수요의증가는관련된산업의발전을유도하고있다. 폭발적으로증가하는유전체빅데이터의처리를위한대안으로현재부상하는것이클라우드컴퓨팅 (cloud-based computing) 이며, 클라우드컴퓨팅기술의도입으로컴퓨터자원이부족한연구자도서비스기관의클라우드컴퓨팅서비스를이용해서자신의유전체빅데이터를서비스기관에서제공하는분석툴만을이용해서분석하는것뿐만아니라자신의데이터의성격에맞는사용자맞춤형의분석또한가능해졌다. 즉, 생명정보의연구가이전의한방향연구에서쌍방향연구가전환이될수있는여건이갖추어진것이다. 유전체빅데이터의등장은생명현상의이해에대한깊이를더해줄수있게할뿐만아니라, 개인유전체분석을통한개인맞춤형의료및관련기반연구의발전을유도하여새로운융복합산업을창출하고있다. 2. 국내외연구동향 가. 국외연구동향 앞에서도언급했던것처럼, 2002년인간유전체해독당시에 10억달러에달했던유전체분석비용은 2000년대중반차세대염기서열분석방법이개발된이후에천달러내외로감소했으며, 염기서열분석비용의감소는생물학연구의경향을중요한유전체해독에서모든관심유전체의해독으로바꾸게하는결정적인계기가되었다. 이러한경향으로인해, 현재해외에서의유전체빅데이터연구동향은단일유전체해독프로젝트에서대규모의신규유전체해독하는작업으로바뀌고있으며, 대표적인연구가 BGI(Beijing Genome Institute) 의 3 million Genome Project 와 TAIR(The Arabidopsis Information Resource) 의 1001 genome project, 영국의 100k Genome project 등이있다.
5 2014 년전문가리포트 7 호 [ 표 1. 해외유전체해독프로젝트 ] 프로젝트명 3-Million Genomes Project 1001 Genome Project 100K Genome Project 주요내용 - 중국의 BGI 에의해서 2011 년 11 월에시작된유전체염기서열해독프로젝트임 - 수백만종의식물, 동물, 인간, 곰팡이, 박테리아, 조류및바이러스의유전체의정보를갖는데이터베이스구축을목적으로시작된프로젝트 - The Million Plant and Animal Genome Project, The Million Micro-ecosystem Genome Project, The Million Human Genome Project 로구성 - 2008 년에시작된프로젝트로모델식물인애기장대 1001 개의 strain 에서의 whole-genome sequece variation 을보기위해시작 - 2010 년막스플랑크연구소에서 80 여개의 accession 들에대한유전체정보를공개하였으며, 그이후 1049 개에대한 Arabidopsis accession 들에대한유전체해독을수행하고있음 - 2012 년에시작된프로젝트로서영국의 100,000 명환자의 whole genome 을분석하는프로젝트로 2017 년까지프로젝트완료를목표로함 - 신약개발, 유전체기반의학서비스및과학발전에기여할것으로기대하고있는프로젝트임 ENCODE Project - 2003 년 9 월미국의 National Human Genome Research Institute (NHGRI) 에의해시작된프로젝트 - 인간유전체염기서열에서유전자기능과관련된모든요소들을규명해내는프로젝트임 미국의 George M Church의개인게놈프로젝트 (10k personal genome project) 는 10만명의개인유전형, 표현형, 환경적요인의연관성을위해, Genome in a Bottle Consortium는데이터의표준화를제시하는목적으로진행되었다. 이러한연구를통해서얻어진막대한유전체빅데이터의연구를통해서, 연구자들은관심있는유전자및유전체의진화를대상유전체와대상유전체와연관된다른유전와의비교연구를통해서분석할수있게되었고그결과관심유전체의및유전자의진화에대한이해를높일수있게되었다.
www.bioin.or.kr 6 [ 그림 4. 바이오빅데이터의발전사 ] 인간유전체연구의경우 ENCODE Project로대표되는기능연구, 주요질환과관련된후성유전체연구등을포함하는유전체연구및노화와관련유전체연구등이활발히진행되고있다. 유전체빅데이터의연구에있어서중요한분야중하나가데이터베이스이며, 막대한양으로생성되고있는유전체빅데이터의저장및공유를위해서중요한요소로서최근에는생물학정보의논문출판을위한중요한요소가되고있다. 또한다양한연구목적을토대로생산된데이터가관련된메타정보와함께표준화되어저장되면, 데이터유형에따라최적화된분석방법을적용하여유전적변이의생물학적인연관성을효율적으로분석할수있게된다. 이와같은새로운패러다임의데이터베이스가중요해지면서주목받기시작한것이 Biocuration 이다. Biocuration 은유전체빅데이터의구성 (organization), 표현 (representation) 및접근성 (accessibility) 을연구자와컴퓨터에보장해주는작업으로서생물학연구분야에서기본적인작업이되고있다 [2]. 이러한작업의연장선상에서연구로부터얻어진지식또는연구성과를공유하기위한연구커뮤니티차원의표준유전체데이터베이스가개발되어현재서비스되고있다 ( 표1).
7 2014 년전문가리포트 7 호 [ 표 2. 연구지식공유데이터베이스 ] Species Database URL Model organism database Ades aegypti VectorBase www.vectorbase.org Anopheles gambiae VectorBase www.vectorbase.org Arabidopsis thaliana The Arabidopsis Information Resources www.arabidopsis.org Caenorbabditiselegans WormBase www.wormbase.org Candida albicans Candida Genome Database www.candidagenome.org Culex pipiens VectorBase www.vectorbase.org Danio rerio Zebrafish Information Network http://zfin.org Dictyostelium discoideum dictybase http://dictybase.org Drosophila sp. FlyBase http://flybase.org Clycine max SoyBase www.soybase.org Homo sapiens HUGO Gene Nomenclature Committee www.genenames.org Hordeum vulgare Barley Genetic Stocks Database http://ace.untamo.net/bgs Ixodes scapularis VectorBase www.vectorbase.org Leishmania sp. GeneDB ww.genedb.org Mus musculus Mouse Genome Informatics www.informatics.jax.org Oryza sp. Gramene http://gramene.rog Paramecium tetraurelia ParameciumDB http://paramecium.cgm.cnrs-gif.fr Pediculus humanus VectorBase www.vectorbase.org Rattus norvegicus Rat Genome Database http:rgd.mcw.edu Saccharomyces cerevisiae Saccharomyces Genome Database www.yeastgenome.org Schizosaccaromyces pombe GeneDB www.genedb.org Solanaceae sp. Slo Genomics Network http://sgn.cornell.edu Strongylocentrotus purpuratus SpBase http://sugp.caltech.edu/spbase Triticum sp. GrainGenes http://wheat.pw.usda.gov Trypanosoma sp. GeneDB www.genedb.org Xenopus laevis Xenbase www.xenbase.org Xenopus tropicalis Xenbase www.xenbase.org Zea mays Maize Genetics and Genomics Database www.maizegdb.org Nucleotide, protein and structure databases All species GenBank www.ncbi.nlm.gov/genbank All species UniProt www.pir.uniprot.org All species Protein Data Bank http://rcsb.org/pdb/home/home.do Taxonomy All species NCBI Entrez Taxonomy www.ncbi.nlm.gov/sites/entrez?db =taxonomy
www.bioin.or.kr 8 이러한데이터베이스의특징은개별연구자, 연구그룹 / 컨소시엄, 연구기관등에서생성되는다양한유전체빅데이터뿐만아니라관련연구논문의정보까지연계하여해당유전체의깊이있는연구를할수있도록다양한연구자원을공유하는데있다. 이러한표준유전체정보를바탕으로현재 GWAS(Genome Wide Association Study) 분석이활발히진행되고있으며, GWAS 분석을통해오이와토마토육종의역사를밝혀낸논문과같이최근저명해외학술지에다수의 GWAS 관련논문이출판되기도한다 [3-5]. 나. 국내연구동향 국내의경우, 국외의연구진에비해차세대염기서열분석방법을이용한분석이최근에도입되어연구가진행되고있으며, 지난수년간차세대염기서열분석방법을이용한유전체연구가활발히진행되어최근에저명해외학술지에연구결과를출판하였다 [6]. 국내의경우, 농업분야에서주요작물에대한유전체연구가활발히진행되고있으며이와같은연구를통해서주요작물의표준유전체데이터 [6, 7] 와이를활용한유전체재해석데이터와같은다수의유전체빅데이터연구성과가도출되고있다. 더나아가서산업적인측면에서, 이렇게분석이된유전체빅데이터를이용한주요작물의육종에활용하기위한다양한시도가이루어지고있으며, 축산분야에서도작물연구분야와같이, 주요가축인소, 돼지, 말등을중심으로한동물유전체연구, 유용표지유전자탐색, 유전자지도를작성함으로써경제적인형질을지배하는유전자의분리, 항병성유전자의특성을규명하고, DNA 진단에의한개체식별마커개발하는것을목표로동물유전체프로젝트가진행이되고있다. 인간유전체연구분야에서는한국인특이적인유전질환에관한연구, 전세계적으로진행되고있는인간유전체연구에참여하여인간질환및노화연구를통한삶의질향상을위해노력하고있다. 하지만, 이와같은활발한연구에도불구하고국내에서는다양한연구팀, 연구단, 전문연구기관및대학에서진행되고있는유전체분석을통해서생성되는다양하고방대한양의유전체정보를통합관리할수있는데이터베이스가전무한실정이다.
9 2014 년전문가리포트 7 호 3. 유전체빅데이터활용사례 차세대염기서열분석방법의발전으로유전자분석비용과시간이급속히줄어들면서유전체분야에다양한바이오신기술이개발되기시작하였으며, 새로운분야와의융합이강조되고있다. 이러한융복합연구는맞춤형신약개발기술, 생명시스템분석기술, 유전체정보이용기술, 줄기세포기술및원격건강관리서비스등이대표적이다. 천달러의비용으로개개인의유전체염기서열을분석해내면서각종질병의예방및진단그리고개개인의맞춤의학에활용할수있는시대가오고있다. 2000년대에들어서염색체의부분결손또는증폭을탐색하기위한기술및 microrna 탐색기술과유전자발현조절부위의 methylation 탐색등의신기술이개발되면서질병에대한주요원인유전자를찾고, 암과희귀질환의조기진단및암치료제개발에새로운패러다임이제시되었으며, 이를통해많은수의질환유발유전자들이밝혀졌다 ( 그림 5). [ 그림 5. 기간별전체엑솜분석을통해밝혀진질환유발유전자의수 ] ( 출처 : Nature Reviews Genetics, 14: 681-691) 인간암유전체의 microrna 발현패턴을분석하면인체의암세포가나타내는발현프로파일링을발견할수있게되었으며, 현재까지 217종의 microrna가암발생초기와진행과정에관여되어있으며계속적으로새로운암관련 microrna의기능이밝혀지고있다. 또한유전체조절영역의 methylation은유전자발현의조절과직접연관이되어있음이알려지면서유전적질환과
www.bioin.or.kr 10 암유전체연구에대한관심이높아지고있으며, 활발한관련연구를통해서유전체변이정보 (OMIM, Online Mendelian Inheritance in Man)[8] 및암유전체에대한데이터 (COSMIC, Catalogue Of Somatic Mutations In Cancer)[9] 를통합관리하는데이터베이스가구축되어유용한정보를제공하고있다 ( 그림 6). [ 그림 6. COSMIC 데이터베이스에등록되는기간별암관련정보 ] ( 출처 : Cell, 155: 27-38) 이러한연구성과들을통해서암진단및희귀난치성질환에대한진단기술및치료제개발이꾸준히증가하고있다 ( 그림 7). [ 그림 7. 희귀난치성질환치료제의연도별개발양상 ] ( 출처 : Nature Reviews Genetics, 14: 681-691)
11 2014 년전문가리포트 7 호 4. 향후발전방향 앞으로의유전체빅데이터의연구방향은크게두가지로분류할수있다. 첫번째가단일표준유전체구축에서발전한다수의표준유전체구축및유전체재분석및이를활용한집단유전학적방법에적합한 GWAS 분석을통한농업과축산분야로의응용이며, 두번째는고도화된표준유전체정보와전사체, 단백체및후성유전체정보와임상정보를결합한질환치료및개인맞춤형의료일것이다. 국내외에서지금도다양한분야의유전체연구가진행되고있으며, 이러한연구들이통합적인시각에서연계가된다면이전에비해서더욱큰가치를창출할수있을것이다. 주요작물유전체연구와작물의근권미생물에대한메타유전체분석을통합하여근권미생물에의한작물의유전자발현양상을분석하고이해하는홀로바이옴분석은근권미생물에의한작물의반응을보다심층적으로이해할수있고이를통해작물의내병성및생산성을이전에비해획기적으로증가시킬수있게할것이다. 또한, 인간의질환관련연구에있어서인간유전체연구뿐만아니라장내미생물과인간과의상호작용을유전체빅데이터를통해서접근한다면이전의연구로밝혀낼수없었던인간질환에대한궁금증을풀어낼수있을것이다. 인간유전질환연구분야에서도유전체분석뿐만아니라전사체, 후성유전체및임상정보를결합함으로써, 유전질환에대한근본적인이해를높여서해결불가능할것으로보이는유전질환치료에새로운장을열수있을것으로기대한다. 이와관련되어정부는, 2013년 12월 유전체기반헬스케어ʼ를신산업분야로선정하여집중육성하겠다는계획을발표한바에의하면 유전체기반헬스케어ʼ는 안전, 건강등 4대국민생활분야융합신산업ʼ의하나로서, 한국인유전적특성에맞는 유전정보빅데이터체계ʼ를구축하는것이그골자이다. 이를위해 2021년까지국민 10만명의유전체자원을확보, 14대질환군별유전체기반맞춤의료가이드라인을마련할계획이나지금까지는부처간시스템연계, 한국인유전체자원의확보및공유, 활용인프라등의미흡으로기업의유전체서비스창출에애로를겪었던것도사실이다.
www.bioin.or.kr 12 이와같은문제를해결하기위하여정부는공공기관이생산, 보유하고있는유전체자원의공유와활용촉진을위해공공보유유전체자원, 정부사업연구결과물등에대해각소관부처에의무적으로제출토록하고, 이렇게제출된유전체자원은 국가생명연구자원정보센터 (KOBIC)ʼ에서중점관리할수있도록하고있다. 하지만앞에서도언급한것처럼, 다양한분야의융복합연구를위해서가장필요한것이연구성과의공유임에도불구하고실질적인데이터의공유는제대로이뤄지지않고있는실정이다. 지금과같이국가연구비를통해생산해낸유전체빅데이터가국내에서조차제대로공유가되지않는다면, 국내에서이루어지는연구는각연구단위에서생산및관리가되어새로운융복합연구를창출해내지못할뿐더러후속연구및관련연구에전혀도움이되지않을것이다. 이는진정한의미의유전체빅데이터가아닐것이며, 국제적인경쟁력또한잃어버리게하는일일것이다. 이러한면을개선하고자현재여러부처에서경쟁적으로부처에서생산되는유전체빅데이터를모으고관리하고자하는시도가일어나고있으며, 실제로미래창조과학부의국가생명연구자원정보센터 (KOBIC) 와농촌진흥청의국립농업생명공학정보센터 (NABIC) 가유전체빅데이터를수집, 저장및관리를하고있다. 또한질병관리본부에서도인체유래빅데이터를수집관리하기위한시스템 (CODA) 를구축중에있으며, 국가생명연구자원정보센터 (KOBIC) 와의연계를위한방안도함께고민하고있다. 하지만, 이렇게모인유전체데이터가부처를초월하여통합관리되지않는다면이러한작업역시유전체빅데이터연구에큰힘이되지못할것이다. 국가생명연구자원정보센터 (KOBIC) 의경우, 현재진행되고있는다부처유전체사업을통해생성되는유전체빅데이터를각부처의정보기관으로부터연계받아통합관리및정보분양을할수있는시스템 (Genome Infranet) 을현재구축중에있으며, 국내외에서생산된다양한유전체빅데이터를수집하고이를이용한비교유전체학 (Comparative genomics) 분석을할수있는오믹스포탈인 Prometheus를구축중에있다. 내년상반기중에이러한작업이완료가되면, 국가생명연구자원정보센터 (KOBIC) 를통해국내외연구자들이현재공개된다양한유전체빅데이터를이용하여비교유전체학분석을할수있을것으로기대가되며, 국내에서생산
13 2014 년전문가리포트 7 호 된다양한분야의생명정보를검색및분양을통해다양한후속연구가진행될것으로기대가된다. 이를위해서국내외연구자들의인식전환을통해서, 연구주관부처의강제성이동반된데이터등록이아닌자발적인등록을통해서다양한유전체빅데이터가통합관리시스템에등록이되어활용될수있기를바란다.
www.bioin.or.kr 14 참고문헌 1. Vivien Marx, The big challenges of big data, 2013, Nature, 498: 255-260 2. DougHowe et al., The future of biocuration, 2008, Nature, 455: 47-50 3. Qi J. et al., A genomic variation map provides insights in to the genetic basis of cucumber domiestication and dieversity, 2013, Nature Genetics, 45: 1510-1515 4. Shang Y. et al., Biosynthesis, regulation, and domestication of bitterness in cucumber, 2014, Science, 346: 1084-1088 5. Lin T. et al., Genomic analyses provide insights into the history of tomato breeding, 2014, Nature Genetics, 46: 1220-1226 6. Kim S. et al., Genome sequence of the hot pepper provides insights into the evolution of pungency in Capsicum species, 2014, Nature Genetics, 46: 270-278 7. The Brassica rapa Genome Sequencing Project Consortium, The Genome of the mesopolyploid crop species Brassica rapa, 2011, Nature Genetics, 43: 1035-1039 8. Boycott. et. al., Rare-disease genetics in the era of next-generation sequencing: discovery to translation, 2013, Nature Reviews Genetics, 14: 681-691 9. Koboldt DC. et. al., The Next-Generation Sequencing Revolution and Its Impact on Genomics, 2013, Cell, 155: 27-38
2014 년전문가리포트 7 호 발행처 : 생명공학정책연구센터대전유성구과학로 125 연락처 : 042-879-8376 홈페이지 : http://www.bioin.or.kr * 본지의내용을인용할때에는반드시출처를명시하여주시기바랍니다.