편집순서 1 : 겉표지 ( 뒷면 ) ( 측면 ) ( 앞면 ) D 신 B 변의종유바전이자러정조보기분탐석지도유구전개자발 학술연구용역사업최종결과보고서 신변종바이러스조기탐지유전자 DB의유전자정보분석도구개발 Gene Information Analysis Tool Development of Virus Sequence Database 주의 ( 주의내용기재 ) ( 글 14 point 고딕체 ) 2 0 0 9 주관연구기관 : ( 주 ) 인실리코젠 질병관리본부 질병관리본부
주의내용 주 의 1. 이보고서는질병관리본부에서시행한학술연구용역사업의최종결 과보고서입니다. 2. 이보고서내용을발표할때에는반드시질병관리본부에서시행한 학술연구용역사업의연구결과임을밝혀야합니다. 3. 국가과학기술기밀유지에필요한내용은대외적으로발표또는공개 하여서는아니됩니다.
목 차 Ⅰ. 연구개발결과요약문 ( 한글 ) 신변종바이러스조기탐지유전자 DB의유전자정보분석도구개발 ( 영문 ) Gene Information Analysis Tool Development of Virus Sequence Database Ⅱ. 학술연구용역사업연구결과 제1장최종연구개발목표 1.1 목표 1.2 목표달성도 1.3 국내. 외기술개발현황제2장최종연구개발내용및방법 2.1 연구내용 2.2 연구방법제3장최종연구개발결과 3.1 Primer 디자인프로그램설치 / 개발 3.2 PSI-BLAST 등단백질정보분석프로그램 3.3 EMBOSS 분석툴개발 3.4 사용자에게편리한웹인터페이스제4장연구결과고찰및결론제5장연구성과 5.1 활용계획제6장기타중요변경사항
편집순서 4 : 요약문 최종결과보고서요약문 과제명 중심단어 신변종바이러스조기탐지유전자 DB 의유전자정보분석도구개발 Primer Design, PSI-BLAST, EMBOSS, JalView 주관연구기관 ( 주 ) 인실리코젠주관연구책임자강병철 연구기간 2008. 7. 1. - 2009. 4. 30. 기구축된 신 변종병원체조기탐지 DB 시스템 을보다효율적으로활용하기위해, 실제사용자가필요로하는생물정보학적분석도구를파악하여개발, 설치하였고, 분석결과를직관적으로이해할수있도록결과포맷을개선하였음. 이를통하여실제사용자가데이터분석을폭넓게수행할수있으며, 보다편리하게결과를활용할수있도록기반을마련하였다. 웹상에서 Primer 디자인이가능하도록, Primer 디자인프로그램을개발, 설치하였음 보다정밀한유사성검색을수행하기위해, PSI-BLAST 프로그램을개발, 설치하였음 사용자요구사항분석을통해, 생물정보학통합분석도구인 EMBOSS 프로그램을개발, 설치하였음 구축된개발도구들을사용자가직관적으로이해할수있도록, 분석결과를웹에서직접확인하거나이메일로확인할수있도록개발, 설치하였음
편집순서 5 : 요약문 ( 영문 ) Summary Title of Project Key Words Gene Information Analysis Tool Development of Virus Sequence Database Primer Design, PSI-BLAST, EMBOSS, JalView Institute Insilicogen Project Leader Byeong-chul Kang Project Period 2008. 7. 1. - 2009. 4. 30. In order to enhance usability and convenience of the Virus Sequence Database, new bioinformatics tools were chosen by users' demand and adopted to improve interface of result. The activities as the followings have led to widely-spread use of the system. Functions of primer design on web were adopted from Primer3. PSI-BLAST function and database were added to the current BLAST programs. Bundle of bioinformatics programs from an EMBOSS package was adopted. All results from the deployed programs can be verified both directly on web interface and via email.
편집순서 6 : 총괄연구과제의연구결과 학술연구용역사업연구결과 제1장최종연구개발목표 1.1 목표 신 변종병원체조기탐지유전자 DB 시스템 의활용도를높이기위한생물정보학적분석도구의체계적통합 신 변종전염병출현조기탐지바이러스 DB 는 DNA Sequence Data와더불어, 지역정보, 환자정보, 바이러스별특성, 기타역학정보가추가된입체적인바이러스 DB로써현재 http://vsd.cdc.go.kr 에서서비스중임 구축된 DB의활용도를높이고동시에큐레이션생산성을향상시키기위해서는수요가높은생물정보학적분석도구를우선적으로선별하고웹환경으로통합할필요가있음 가. 벤치마킹 다수의바이러스의유전정보를다루는생물학적데이터베이스사이트들중에서대표적인동향은다음과같음 3 개사이트의 사이트명 ( 기관명 ) 특징 URL NCBI Viral Genomes Resource (NCBI) GenBank, DDBJ, EMBL 에등록된모든바이러스서열정보를제공 웹상에서미리계산된비교분석결과를검색할수있으며, 웹도구를제공 http://www.ncbi.nl m.nih.gov/genome s/viruses/viruse s.html (LANL) Viral Bioinformatics Resource (The Viral Bioinformatics Resource Center) 바이러스별로특징적인 2 차분석정보를제공함 대표적으로 HCV Sequence Database, HIV Drug Resistance Database, HIV Sequence Database, HIV RT and Protease Sequence Database, HIV Molecular Immunology Database 등이있음 NIH 에서지원받는생물정보기관중의하나로써주요한병원성바이러스에대한분석도구를개발하고제공하고있음 콘텐츠개발에필요한새로운분석이나해석기법을소프트웨어로개발하는것에중점을두고있음 http://www.lanl.go v/ http://www.brc-ce ntral.org/ - 1 -
현재기구축된 신 변종전염병출현조기탐지바이러스 DB, 즉 VSD와대표적인바이러스정보사이트와비교하면아래와같음 전문가 curation 을위한정보화체계와그내용구축에집중하여분석도구의다양화는부족한실정임 따라서, 연구자수요에맞춘생물정보학적분석도구의확대와기능개선이필요함 나. 생물정보분석도구의다양화및개선의필요성 전세계에공개되고있는원천서열데이터베이스는미국 NCBI에서무료로제공하고있으며, 그양이폭발적으로증가하고있음 ( 예 : 현재 HIV-1 등록건수 15만건상회 ) 로스알라모스등에서는 NCBI에서제공하는데이터를가공하고주석을부여한다양한 2차데이터베이스를공개해왔는데, 최근점차상용화또는등록된사용자위주로정보의공개범위가축소되고있는현황임 ( 예 : 로스알라모스의 Influenza DB) 이에대응하여우리나라가상대적인경쟁력을조기에확보할수있는독창적인바이러스데이터베이스를구축하기위해 2006년부터 신 변종전염병출현조기탐지바이러스 DB 구축사업을성공적으로추진하고있음 (http://vsd.cdc.go.kr) 신 변종전염병출현조기탐지바이러스 DB 구축사업의확산을위해서생물정보학기술을활용한미생물체의염기서열규명및분석이최전방에서역할을담당할것임 HIV나조류독감과같이변종의출현이빈발한경우에는전세계적으로아종의진화경로를추적하는것이중요한데, 이러한서열데이터를종합하여분석하는생물정보학 (bioinformatics) 의역할이중요해지고있음 - 2 -
오늘날미지의미생물염기서열을수일내에규명하여 virulence factor나감염기작, 면역회피인자, 수용체, 항원등에대한정보를신속히얻어백신개발전략등을수립할수있게되었음 바이러스 ( 특히 RNA 바이러스 ) 는면종이매우빈번히출현하고전염성이치명적인경우가많으므로, 국내생명정보학연구자들의축적된기술을활용하여단기간에집중적으로소수의특정바이러스유전체에대한체계적이고독창적인데이터베이스를구성한다면활용성은물론국가기술력의인지도를높일수있는좋은분야로판단함. 바이러스출현에대한국가의신속대응체계구축할필요있음 바이러스분석도구개발을통한효과 1.2 목표달성도 연구분야연구내용 ( 계획 ) 주요결과달성도 Primer 디자인프로그램설치 / 개발 PSI-BLAST 등단백질정보분석프로그램 생물정보학분석도구 3종선정및개발생물정보툴분석결과파서 사용자에게편리한웹인터페이스 - 사용자가선택한바이러스서열에서 Primer 디자인가능하도록개발 - 다양한 primer design 옵션선택기능개발 - 정밀한유사성검색수행을위한도구 - 단백질서열특이적 PSSM 프로파일구축 - 사용자요구사항분석을통해분석도구선정 - 선정된 3종의분석도구개발 - 생물정보분석툴결가파서구현 - 사용자가원하는형태의결과포맷제공 - 분석결과를사용자가직관적으로이해할수있는형태로제공 - 필요한경우그래픽형태의결과제공 - 사용자가선택한바이러스서열에서 primer 디자인가능하도록개발완료 - 다양한 primer design 옵션선택기능개발완료 - PSSI 웹디자인완료 - PSI-BLAST 설치완료 100% 100% - EMBOSS 분석툴구축완료 100% - EMBOSS 분석툴구축완료 100% - 웹에서직접확인또는메일로확인하도록개선 - 필요한경우그래픽형태의결과제공 100% - 3 -
1.3 국내 외기술개발현황 가. NCBI Viral Genomes Resource NCBI Viral Genomes Resource는바이러스서열에대한 primary repository 역할을하고있으며다양한 Entrez 데이터베이스와연계되어사용자에게유전자, 단백질, 구조, 문헌정보를함께제공하고있음 기본적으로 BLAST와같이 NCBI에서제공하는도구와함께바이러스에특징적으로 genotyping tool을웹상에서제공하고있음 인플루엔자바이러스에대해서는, 독립된홈페이지를통하여, 데이터베이스, 서열정렬, 게놈, 계통수, BLAST, FTP 등의자료를제공하고있으며, 변종을포함하여 273 건의단백질서열을제공함 - 4 -
SARS Coronavirus 에대해서는별도의홈페이지를통하여다양한정보를폭넓게제공하고있음 (2) 로스알라모스연구소 로스알라모스연구소에는 HCV와 HIV에특화된데이터베이스와분석도구를제공하고있으며다양한분석기법이구현되어있음 바이러스학을연구하는생물학자들이많이응용하는분야에대한특성화에성공하여바이러스연구자에게널리알려져있음 로스알라모스미국립연구소는전략연구의일환으로 HIV, HCV, Influenza, HPV 등의병원성바이러스서열데이터베이스를운영하고있음 HIV에대해서는, 서열, 저항성, 면역성, 백신데이터베이스를제공하고있음 - 5 -
특히, NCBI에서제공하는서열에대하여, 원문판독에의한역학, 변종등고급부가정보를제공하고있으며, 표준서열을발표하고있음 서열데이터에대해서는다양한고급검색기능과더불어 genotyping, 계통분석등강력한분석도구를제공하고있음 - 6 -
(3) PathoSystem Resource Integration Center PATRIC에서는몇종의 Virus 유전체에대한구조및 3차원구조와 Phylogenetic Tree와 Ortholog group등다양한정보를일반연구자들이쉽게이해할수있도록재구성하여제공함. (4) Viral Bioinformatics Resources Viral Bioinformatics Resources는생물정보학적접근에특성화되어고급분석기법들에대한소개와웹도구를제공하고있음 생물정보학고급사용자에게는매우다양한분석법을제공하고있으나, 초보자에게는다소난해한도구들이많음 그러나, 바이러스데이터가급증할경우필요한다양한분석기법들이준비되고있음 - 7 -
제 2 장최종연구개발내용및방법 2.1 연구내용 구분 내용 Primer 디자인프로그램설치 / 개발 - 사용자가선택한바이러스서열에서 pr i mer 디자인가능하도록개발 - 다양한 primer design 옵션선택기능개발 PSI-BLAST 등단백질정보분석프로그램 생물정보학분석도구 3종선정및개발 생물정보툴분석결과파서 - PSI-BLAST 프로그램개발 - EMBOSS 분석툴개발 - EMBOSS 분석툴개발 사용자에게편리한웹인터페이스 - 분석결과를사용자가직관적으로이해할수있는형태로제공 - 필요한경우그래픽형태의결과제공 2.2 연구방법 현재구축된 VSD 의소프트웨어구조와각요소의버전은다음과같음 - 8 -
Primer 디자인프로그램설치 / 개발 Primer 분석도구는 Primer3를이용할것임 Primer3 자체의웹인터페이스구현과함께 ClustalW 와연계할수있도록함 사용자는다음의절차에의해서 primer를디자인할수있음 1. VSD에서관심있는서열을선택하거나 또는 multiple FASTA 형식의파일을폼에입력을함 2. ClustalW를수행하여 multiple-alignment를수행함 3. 관심있는 sequence와 column을웹상에서선택하고 4. consensus sequence 추출옵션을선택, 5. Primer3 프로그램입력에전송 6. primer 디자인결과뷰어 PSI-BLAST 등단백질정보분석프로그램 NCBI PSI-BLAST 인터페이스에대한벤치마킹및사용자응용분석 Iteration 단계에따른동적인터페이스구현 분석시간지연을고려한대기화면설계를수행 EMBOSS 분석툴개발 생물정보학분석도구 3 종선정및개발과생물정보툴분석결과파서에관하여분석 생물정보통합소프트웨어인 EMBOSS 분석도구설치 웹에서사용할수있도록구현 사용자에게편리한웹인터페이스 기존 VSD의 Look&Feel을최대한수용하여일관된사용성을제공함으로써신속한 learning curve와결과의이해도를높일수있도록함 선정된분석도구의기존웹인터페이스를분석후 UI 시안을제안하고, 실무협의회와운영위원회를거쳐확정할것임 - 9 -
제 3 장최종연구개발결과 3.1 Primer 디자인프로그램설치 / 개발 Primer Design 프로그램개발완료 그림 1. Primer Design 화면 (Tools -> Primer3) 3.2 PSI-BLAST 등단백질정보분석프로그램 PSI-BLAST 프로그램개발완료 그림 2. PSI-BLAST 화면 (Tools -> PSI-BLAST) - 10 -
3.3 EMBOSS 분석툴개발 EMBOSS 분석툴개발완료 그림 3. EMBOSS 화면 (Tools -> EMBOSS) 3.4 사용자에게편리한웹인터페이스 분석결과를웹에서직접확인하거나이메일로확인하도록개선 그림 4. ClustalW 화면 (Tools -> ClustalW) - 11 -
제 4 장연구결과고찰및결론 현재서비스제공 URL 은다음과같음 http://vsd.cdc.go.kr 기구축된시스템의데이터활용을위한인프라를성공적으로구축 Primer 디자인을웹상에서간편하게수행할수있도록프로그램제공 정밀한유사성검색을수행할수있도록 PSI-BLAST 프로그램제공 다양한생물정보분석을수행할수있도록 EMBOSS 프로그램제공 사용자가분석결과를직관적으로이해할수있도록웹인터페이스제공 이와같은연구수행을통해서 데이터를보다효과적으로활용할수있는토대구축 보다효율적인바이러스연구를하기위한근간마련 지속적인업데이트와관리를통해서, 국제적으로통용될수있는시스템으로의발판구축 - 12 -
제 5 장연구성과 5.1 활용계획 기본적으로바이러스창궐에대비한신속대응체계로써활용 기개발된시스템을일부참여연구자에서다양한연구자로확대하여활용할수있도록함으로써국내외바이러스연구에기여함 본연구과제의결과물로얻어지는데이터베이스및분석도구들은 Web을통해서국내외연구자들에게실시간으로공개되고활용되므로, 관련기술의전파 / 통합 / 재창출의사이클이매우가속화될수있을것 임 본용역과제에참여하는연구자들은변종바이러스의데이터처리와해석에관한기술적노하우를축적할수있는중요한기회가되므로, 향후이와관련된다양한생물정보데이터처리분야에서더욱고난도의연구를수행할수있는능력개발의기회도될것임 제 6 장기타중요변경사항 생물정보학분석도구 3종선정및개발, 생물정보툴분석결과파서에관한연구는생물정보통합분석도구인 EMBOSS 분석툴구축으로변경하기로함. - 13 -