생명공학오믹스데이터의표준화 Standardizations in Bio-Omics 질병관리본부국립보건연구원유전체센터바이오과학정보과 Ⅰ. 들어가는말 생명공학자들의유명한우스갯소리중에 칫솔은같이사용해도같은유전자이름은사용하지않는다 는이야기가있다. 이처럼유전자가여러가지별칭을가지고있을만큼다른분야에비해생명공학분야의표준화속도는느린편이다. 그러나근래에들어와서생명공학분야에서표준화가큰이슈가되고있으며표준화만을주제로하는학회가열리고소모임이활성화되고있다. 표준화가활발히추진되는배경에는생명공학오믹스 1) 데이터의공유가큰몫을하고있다 [1]. 과거에는개개의실험실에서소규모의연구를진행하였으며연구자들이본인데이터외에는관심을가지지않았다. 그러나대규모의연구가진행되면서데이터를생산하는데많은시간과비용이소요되고여러데이터세트를통합하여분석하려는연구자가늘어나면서데이터를공유하려는움직임이활발해지고있다. 데이터공유에대한움직임은연구비지원기관 (funding agencies) 과학술지발행처 (journal publisher) 를중심으로이루어지고있다. 많은연구비지원기관에서는연구비지원시데이터공유를의무화하고있으며학술지발행처에서는학술지에게재승인을요청하기전에데이터공개를유도하고있다. 많은연구비지원기관에서는해당기관의연구비를받아서생산되는데이터에대한정책을수립중이다 [2]. biosharing 웹사이트에서는데이터공유관련정책및표준화등의정보를얻을수있다 [3]. 효과적으로데이터를공유하기위해서는다른연구자들이필요로하는데이터관련정보들이표준화된용어로제시되고, 공유되는데이터도표준화된형식을사용하여야할것이다. 따라서데이터를공유하기위해서는크게데이터정보기술형식 (data informing checklists), 용어의표준화 (ontology) 와데이터형식 (data format) 등세분야에서표준화가이루어져야한다. Ⅱ. 몸말 본원고에서는데이터공유를위해표준화가필요한데이터정보기술형식 (data informing checklists), 용어의표준화 (ontology) 및데이터형식 (data format) 과관련된프로젝트를차례로소개하고자한다. 1. 데이터정보기술형식 (Data Informing Checklists) 데이터를유용하게공유하기위해서는공유하고자하는데이터에대한설명이명확하고충분하게제시되어야한다. 이를위해다른연구자들이필요로하는정보들이모두제공되어야하며제공되는정보들이표준화된형식과용어를사용하여기술되어야한다. 이러한데이터기술형식의표준화에대한여러프로젝트를유기적으로추진하기위하여 MIBBI(Minimum Information for Biological and Biomedical Investigations) 컨소시엄이구성되었다 [4,5]. 컨소시엄이름에서사용된 Minimum' 의뜻은데이터공유시최소한제공하여야하는정보목록을도출하는것을목표로삼았기때문에붙여진것이다. MIBBI에는아래에언급한 18개의프로젝트가등록되어있다. 1) 오믹스 (omics) : 유전체 (genomics), 단백질체 (proteomics), 대사체 (metabolomics) 와같이각분자생물학분야의연구를총체적으로지칭하기위하여사용되는접미어. 또한유전체, 단백질체, 대사체등모든 -omics 를통틀어일컫는말이기도함. - 1 -
CIMR(Met a bo lo m i c s S t a n d a r d s In i t i a t i ve's Co r e In fo r m a t i o n fo r Ma t a bo lo m i c s Repo r t i n g) - 대사학 (metabolomics) 실험및데이터관련표준화 - 미생물학, 동물학, 식물학을포함한전반적인생물학분야, 크로마토그래피와핵자기공명법 (NMR) 과같은분석방법및통계분석방법등에중점 - http://msi-workgroups.sourceforge.net/ MIACA(Mi n i m um In fo r m a t i o n Abo ut a Cellula r As s a y) - Cell perturbation 실험및데이터관련표준화 - sirna 또는소화합물 (small chemical compound) 과같은분자또는온도변화와같은환경자극인자를사용한 cell perturbation 실험및실험데이터등에중점 - http://miaca.sourceforge.net MIAME(Mi n i m um In fo r m a t i o n Abo ut a Mi c r o a r r a y Exper i m en t ) - 유전자발현용마이크로어레이 (Microarray) 실험및생산된데이터분석관련표준화 - MGED(Microarray and gene expression data society) 가주최 - http://www.mged.org/workgroups/miame/miame.html MIAPA(Mi n i m um In fo r m a t i o n Abo ut a Phylo gen et i c An a lys i s ) - 생물에서유래된각종서열 ( 예, DNA서열, 단백질서열 ) 의정렬 (alignment) 소프트웨어및계통도 (phylogenies) 와진화파생도 (cladograms) 구축을위한 alignment SW 사용법관련표준화 - http://www.mibbi.org/index.php/projects/miapa MIAPE(Mi n i m um In fo r m a t i o n Abo ut a Pr o t eo m i c s Exper i m en t ) - 질량분석기 (mass spectrometry), 전기영동기 (gel electrophoresis) 또는액체크로마토그래피 (liquid chromatography) 등의분석기로부터생산되는데이터및분석방법관련표준화 - http://www.psidev.info/miape/ MIARE(Mi n i m um In fo r m a t i o n Abo ut a n RNA i n t er fer en c e Exper i m en t ) - High-throughput RNA interference screen 관련표준화 - sirna 또는 small hairpin RNA 등의 RNA를 cellular assay 또는유세포분석기 (flow cytometry) 를활용하여 screen하는실험및실험데이터에중점 - http://www.miare.org/ MIFlo wcyt (Mi n i m um In fo r m a t i o n Abo ut a Flo w Cyt o m et r y Exper i m en t ) - 세포의상태또는기능을측정하기위한유세포분석기 (flow cytometry) 사용법관련표준화 - 분석샘플, 탐침 (probe), 형광색소 (fluorochrome) 와실험기기, 생산된데이터분석방법에중점 - 2 -
- http://flowcyt.souceforge.net/ MIGen (Mi n i m um In fo r m a t i o n Abo ut a Gen o t ypi n g exper i m en t ) - SNP(Single nucleotide polymorphism) 또는 microsate llite를판별 (genotyping) 하는방법과생산된데이터, 유전역학연관성연구 (genetic association) 및변이간의연관성분석 (linkage analysis) 관련표준화 - http://www.mibbi.org/index.php/projects/migen MIGS (Mi n i m um In fo r m a t i o n Abo ut a Gen o m e S equen c e) - 유전자서열, 위치, 염기서열분석 (sequencing) 방법등에관한표준화 - DDBJ, EMBL, GenBank와같은국제적서열데이터베이스표준화의확장이며 MIMS와유기적으로운영 - http://gensc.org/ MIMS (Mi n i m um In fo r m a t i o n Abo ut a Met a gen o m i c S equen c e/s a m ple) - 메타게놈의서열및샘플관련표준화 - MIGS와유기적으로운영 - http://gensc.org/ MIMIx(Mi n i m um In fo r m a t i o n Abo ut a Mo lec ula r In t er a c t i o n exper i m en t ) - 분자상호작용을밝히기위한실험관련표준화 - 상호작용을알아보기위한분자, 실험방법및분자들의역할 ( 생물학적기능이아닌실험에서의역할 ) 등에중점 - http://www.psidev.info/ MIMPP(Mi n i m um In fo r m a t i o n Abo ut a Mo us e Phen o t ypi n g Pr o c ed ur es ) - 마우스 (mouse) 의표현형을구분하는프로토콜 (protocol) 관련표준화 - 행동성표현형과생리학적표현형을모두포함 - http://www.interphenome.org/ MINI(Mi n i m um In fo r m a t i o n Abo ut a Neur o s c i en c e In ves t i ga t i o n ) - 신경과학연구에서활용되는전기생리학관련표준화 - http://carmen.org.uk/standards/ MIQAS (Mi n i m um In fo r m a t i o n fo r QTLs a n d As s o c i a t i o n S t ud i es ) - QTL(Quantitative trait loci) 와그형질에유의한유전자지표 (genetic marker) 관련표준화 - http://miqas.sourceforge.net/ MIqPCR(Mi n i m um In fo r m a t i o n a bo ut a Qua n t i t a t i ve Po lym er a s e Cha i n Rea c t i o n ) - Quantitative PCR관련실험에사용되는변수 (parameter) 관련표준화 - http://www.rdml.org/ MIRIAM(Mi n i m um In fo r m a t i o n Reques t ed In t he An n o t a t i o n o f bi o c hem i c a l Mo d els ) - 생화학시스템 (biochemical system) 의이론적인모델기술관련표준화 - http://biomodels.net/miriam MIS FIS HIE(Mi n i m um In fo r m a t i o n S pec i fi c a t i o n Fo r In S i t u Hybr i d i z a t i o n a n d i m m un o hi s t o c hem i s t r y Exper i m en t s ) - ISH(In situ hybridization) 또는 IHC(immunohistoc-hemistry) 실험관련표준화 - http://mged.sourceforge.net/misfishie/ S TRENDA(S t a n d a r d s fo r Repo r t i n g En z ym o lo gy Da t a ) - 효소반응실험및실험데이터관련표준화 - 관련심포지움 (ESCEC, Experimental Standard Conditions of Enzyme Characterization) 격년개최 - http://www.strenda.org/ - 3 -
2. 용어의표준화 (Ontology) 통일된용어를사용하는것은데이터공유시뿐만아니라시스템생물학과같이여러곳으로부터유래된데이터를통합하여연구를진행할때매우중요하다. 용어의표준화에대한관심은다른두분야보다일찍시작되었으며 MIBBI보다먼저 OBO(Open Biomedical Ontologies) 라는온톨로지 (Ontology; 이하용어의표준화 ) 관련컨소시엄이구성되었다 [6,7]. 사실 MIBBI는 OBO를모범으로삼아구성된것이다. OBO에는약 50개의프로젝트가등록되어있으며대표적인프로젝트만을소개하면다음과같다. GO (Gen e O n t o lo gy) - 유전자및단백질과같은유전자산출물관련용어표준화 - 가장많이주목을받는프로젝트로서 NHGRI와 EBI를비롯한많은기관에서참여및지원을함 - http://www.geneontology.org S O (S equen c e O n t o lo gy) - 생물학적서열의유형및특성관련용어표준화 - WormBase, FlyBase, Mouse Genome Informatics와 Sanger Institute 등이추진하고있음 - http://www.sequenceontology.org PRO (Pr o t ei n O n t o lo gy) - 단백질과단백질간의상관관계관련용어표준화 - http://pir.georgetown.edu/pro/ S B O (S ys t em s B i o lo gy O n t o lo gy) - Systems biology 분야에서필요한용어표준화 - http://pir.georgetown.edu/pro/ CL(Cell O n t o lo gy) - 원핵생물부터포유류까지존재하는모든세포유형관련용어표준화 - http://obofoundry.org/cgi-bin/detail.cgi?cell O B I(O n t o lo gy fo r B i o m ed i c a l In ves t i ga t i o n s ) - 생명의료공학연구에서활용되는프로토콜 (protocol), 기기및분석방법에관련용어표준화 - 방대한분야를다루기때문에각분야별로소그룹을구성해서추진하고있음 - http://obi-ontology.org/ DO (Di s ea s e O n t o lgy) - 인간질병관련용어표준화 - http://diseaseontology.sf.net FMA(Fo un d a t i o n a l Mo d el o f An a t o m y) - 인간을포함한포유류신체구조관련용어표준화 - http://fma.biostr.washington.edu 3. 데이터형식 (Data Format) 데이터정보기술형식이나온토로지보다이분야의표준화속도는훨씬더느린편이다. 분야별로다양한데이터가생산되고또한실험기기마다다른형식의데이터가생산되는것이큰어려움중의하나이다. 또한이데이터형식분야는앞의두분야와달리관련표준화프로젝트를아우르는 MIBBI나 OBO와같은컨소시엄이아직존재하지않는다. 대표적인프로젝트만을소개하겠다. MAGE- TAB (Mi c r o Ar r a y a n d Gen e Expr es s i o n TAB ) - 유전자발현용마이크로어레이 (Microarray) 에서생산된데이터형식표준화 - MGED(Microarray and gene expression data society) 가주최 - 4 -
- http://www.mged.org/mage-tab/ HUPO PS I(Hum a n Pr o t eo m e O r ga n i s a t i o n s Pr o t eo m i c s S t a n d a r d s In i t i a t i ve) - 단백질체학 (proteomics) 관련데이터표준화 - 질량분석기 (mass spectrometry), 전기영동기 (gel electrophoresis) 등에서생산된데이터표준화 - http://www.psidev.info S B ML(S ys t em s B i o lo gy Ma r kup La n gua ge) - 생물학적현상 (Biological process) 의모델에사용하는데이터표준화 - 대사학 (metabolism), 세포신호 (cell-signaling) 등의시뮬레이션에사용 - http://sbml.org/ S RF(S equen c e Rea d Fo r m a t ) - DNA 서열데이터표준화 - 연구자와더불어서열분석기기업체 (Roche, Illumina, ABI) 도참여하고있음 - http://srf.sourceforge.net/ Ⅲ. 맺는말 위에서언급하였듯이현재생명공학오믹스데이터의표준화는연구비지원기관, 학술지발행처가주축이되어추진되고있다. 하지만이러한표준화작업에는데이터공유의주체가될연구자와데이터를생산하는기기를제공하는기기업체들의적극적인참여가필수적이다. 연구자와기기생산업체들이참여함으로써현실적이고널리활용될수있는표준화가이루어질것이다. 미국 NCBI와유럽 EBI 등미국과유럽의기관및연구자를중심으로표준화가추진되고있는데우리나라도적극적으로참여할필요가있다. 현재우리나라는단백질관련표준화컨소시엄에참여하고있는실정이다. IV. 참고문헌 1. Field, D.(2009) Science 326, p.234-236 2. http://biosharing.org/2009/03/data-policies-of-major-funding-agencies.html 3. http://biosharing.org 4. http://www.mibbi.org 5. Taylor, C.F. et al.(2008) Nature Biotechnoloy 26(8), p.889-96 6. http://www.obofoundry.org 7. Smith, B. et al.(2007) Nature Biotechnology 25(11), p.1251-5 - 5 -