「국가연구개발사업의 관리 등에 관한 규정」하위 규정 제정목록

Size: px

Start display at page:

Download "「국가연구개발사업의 관리 등에 관한 규정」하위 규정 제정목록"

누리 호
6 years ago
Views:

1 보안과제 ( ), 일반과제 ( ) 생명연구자원확보관리및활용사업 차세대유전체정보생산및분석기반구축 (Genome Infra-structure for Next Generation Sequencing) 한국생명공학연구원 미래창조과학부

2 제출문 미래창조과학부장관귀하 이보고서를 " 생명연구자원확보관리및활용사업 " 과제 ( 단위과제 " 차세대유전체정보생산및분석기반구축 ") 의보고서로제출합니다 년 4 월일 주관연구기관명 : 한국생명공학연구원주관연구책임자 : 정해영연구원 : 김남신 " : 박기정 " : 양진옥 " : 이병욱 " : 이진혁 " : 추인선 " : 허보경 " : 황승우 - i -

4 과제고유번호 해당단계연구기간 ~ 단계구분 1/2 연구사업명 중사업명 세부사업명 바이오 의료기술개발사업 생명연구자원확보관리및활용 연구과제명 대과제명 세부과제명 차세대유전체정보생산및분석기반구축 연구책임자 연구기관명및소속부서명 해당단계총 : 46 명해당단계참여내부 : 9 명연구비연구원수외부 : 37 명정해영총연구기간총 : 46 명 참여 내부 : 9 명 총연구비 연구원수 외부 : 37 명 한국생명공학연구원국가생명연구자원정보센터 참여기업명 정부 :2,750,000천원 기업 : 천원 계 : 천원 정부 : 2,750,000 천원 기업 : 천원 계 : 천원 국제공동연구상대국명 : 상대국연구기관명 : 위탁연구연구기관명 : 한양대학교연구책임자 : 고인송 요약 ( 연구결과를중심으로개조식 500 자이내로작성합니다 ) 보고서면수 : 연구개발목표및내용 Ÿ 차세대유전체연구를선도할국가적연구기반의구축 Ÿ 차세대유전체정보분석전문가양성을위한교육프로그램의개발및시행을통해유전체연구관련생명정보학지식과분석기술을보급 Ÿ NGS 대용량데이터의처리및분석을위한고성능전산장비시스템의구축 2. 연구결과 Ÿ 최신 NGS 장비 2종 (Illumina HiSeq 2000 및 MiSeq) 을도입하여운영시스템구축 Ÿ 대용량 NGS 원천데이터를분석하기위한 High-Performance Computing 시스템, 대용량스토리지및부대설비구축 Ÿ 줄기세포, 질환유전체, 토양및인체장내메타게놈등 5건의유전체정보시범생산사업실시 Ÿ NGS 기반대용량유전체자료분석을위한파이프라인의구축및서비스 Ÿ 차세대생명정보교육단기프로그램개발및교육워크샵 18회실시 3. 기대효과및활용방안 Ÿ 차세대유전체연구를위한유전체정보생산 / 분석 / 공동연구측면의국가적기반확보 Ÿ 융합적유전체연구의모델사례제시 Ÿ 다양한유전체응용분야의연구활성화를위한핵심기반기술확보 색인어 ( 각 5 개이상 ) 한글 영어 차세대시퀀싱, 차세대유전체, 생물정보, 염기서열, 생명정보학교육 NGS, genome, bioinformatics, bioinformatics education, nucleotide sequence - iii -

5 - iv -

6 요약문 Ⅰ. 제목 차세대유전체정보생산및분석기반구축 Ⅱ. 연구개발의목적및필요성 연구개발목적 차세대유전체염기서열해독기술 (Next-Generation Sequencing, NGS) 에기반한국가적차원의대용량유전체정보생산및분석인프라를구축하고차세대유전체정보분석전문가양성을위한교육프로그램을제공함으로써유전체빅데이터시대가가져올사회 경제적변혁을대비하고맞춤의료, 유용생명자원개발, 유전체정보인프라활성화등신산업창출에기여하고자함 연구개발필요성 유전체정보는모든산업영역에막대한파급효과를미치는핵심기반기술임 - 보건의료, 산업 ( 에너지및환경 ), 농식품등의핵심기술 - 유전체정보분석대상은인간, 동식물및미생물을포괄함 - 전세계적으로유전체정보기반의맞춤의학및질병원인규명을위한유전체연구가활발히진행 NGS 기술의발달에따라서유전체정보처리와해석이중요해짐 - NGS 기술의발달에따라서유전체정보가폭발적으로증가 - 시퀀싱비용이지속적으로감소함에따라유전체정보생산량이급증 - 유전체연구를위한대규모데이터생산, 처리및해석인프라요구 유전체분석전문인력의수요증대 - 유전체정보분석전문인력의체계적인양성은향후국가기술경쟁력의확보를위해시급히추 진되어야할현안임 유전체정보분석을위한국가적전산인프라구축의필요성증대 - 다양한 NGS 장비들의발달로 2015년전후로대용량유전체데이터를다루기위한수퍼컴퓨팅시스템이일반화됨 - 생명정보분석기술의발전으로생명공학과보건의료산업분야에서데이터증가속도가가파르게증가 - v -

7 연구개발목표 차세대유전체연구를선도할국가적연구기반의구축 차세대유전체정보분석전문가양성을위한교육프로그램을체계적으로개발하고, 이를정기적인 workshop을통해제공함으로서유전체연구관련생명정보학지식과분석기술을보급 NGS 대용량데이터의처리및분석을위한고성능전산장비시스템의구축 Ⅲ. 연구개발의내용및범위 차세대유전체정보생산기반시설의확보 - 최신 NGS 장비도입및공동활용시스템의구축 NGS 유전체정보생산시범사업을통한대용량유전체정보생산시범사업 - 기기운영위원회, 시범사업추진위원회구성을통해사업의객관성유지 - 공동연구협력을통한주요유전체데이터의생산 대용량유전체데이터정보처리및분석기반구축 - 클러스터기반의 NGS 데이터분석파이프라인개발 - RNA-seq 데이터로부터유전자의발현정량화 - 발현변화분석파이프라인개발 - 멀티오믹스데이터의통합분석파이프라인구축등 차세대유전체분석인력양성단기교육프로그램개발및실시 - 교육프로그램설계및표준화 - 교육실습을위한환경구축 - 주제및단계에따른교육프로그램개발및 workshop 개최 - 교육 workshop의평가및업데이트 Ⅳ. 연구개발결과 차세대유전체정보생산기반시설의확보 - Illumina HiSeq 2000 시스템도입및 HiSeq 2500 으로업그레이드 - Illumina MiSeq 시스템도입 NGS 유전체정보생산시범사업을통한대용량유전체정보생산시범사업 - 위암줄기세포의전사체및후성유전체분석 - 염증성장질환모델시스템에서미생물군집분석 - 식물상호작용 microbiome 연구 - 유방암에서의 SNP, DNA methylation, 유전자발현정보분석 - NGS 기반기술의폐암 MeDIP-seq 및 small RNA-seq 원천데이터확보 차세대유전체정보분석파이프라인의확보및고급분석방법개발 - Somatic variant 분석을위한 Exome-seq 분석파이프라인개발 - vi -

8 - Whole genome에서 structural variation 검출을위한분석파이프라인개발 - small RNA-seq(miRNA-seq) 데이터분석파이프라인구축 - NGS 데이터를활용한질병관련 SNP 감별파이프라인개발 - microrna(mirna) 분석을위한포털시스템구축및서비스 - NGS 기술을이용한환경유전체 (metagenome) 의해독및분석파이프라인 대용량유전체데이터정보처리및분석기반구축 - 대용량의 NGS 원천데이터를처리할수있는 High-Performance Computing(HPC) 시스템을구축 (600 core 이상클러스터, 100 TB 이상의스토리지, 초고속데이터전송네트워크및 UPS 설치및현재구축중인 KOBIC의전산시스템을연동하여국가적유전체데이터분석인프라로활용 ) 차세대유전체분석인력양성단기교육프로그램개발및실시 - 총 18회의교육프로그램시행 - 연인원 679명참가 - 교육만족도 : 4점이상 (5점만점 ) Ⅴ. 연구개발결과의활용계획 차세대시퀀싱장비를이용한체계적인유전체정보생산과분석시스템을구축하여국내대형연 구사업의유전체분야의연구에모델이되는연구체계완성 다양한형태의대용량 NGS 데이터를국내연구자들이용이하게사용할수있는기반을구축 현재국내에서매우취약한대용량유전체정보의분석을위한전산및분석기반시스템구축을 통하여조성된연구기반을모델로국내의유전체분야의효율성과생산성제고에기여 NGS 기술을활용하여구축된다양한대용량게놈서열데이터의종합적인분석을지원하는웹기 반툴의활용, 유전자탐색을수행하는데필요한기타여러가지웹기반의생물정보학기반의데 이터베이스와툴의활용 생명정보학교육컨텐츠확보및공개서비스제공 - vii -

9 SUMMARY Genomics has provided applications in many fields important for both human welfare and the sustainability of our cultivation, including medicine, biotechnology, energy, and the environment. Next-generation sequencing (NGS) technologies, which were made available right after the completion of the Human Genome Project ( ), have provided us with unprecedented throughput, scalability, and speed for genomic research. This project aims at providing a nation-wide infrastructure for the production, analysis, and management of NGS data. Two state-of-the-art NGS platforms, Illumina HiSeq 2000 (upgraded to HiSeq 2500) and MiSeq systems, together with a high-performance computing cluster and storage, were successfully built and tested. To facilitate the collaborative work among domestic researchers with competitive biological resources and insightful hypotheses supporting them, five pilot-scale NGS data production and analysis projects have been conducted. They include three intramural projects: a transcriptomic and epigenetic analysis of stomach cancer stem cells, a population analysis of gut microbiome for inflammatory bowel disease, and plant-soil microbime interaction. The extramural projects were an analysis of SNP, DNA methylation, and gene expression for mammary cancer, and MeDIP-seq and small RNA-seq analyses of lung cancer. We also developed an array of analysis pipelines for NGS data, such as an exome-seq data analysis for somatic variant detection, a whole-genome seq analysis for structural variant detection, the identification of disease-associated SNPs, a data analysis and visualization for mirna-seq, and a metagenomic analysis. The scope of this research project also encompasses the development of a short-term training program for a next-generation genome analysis. After benchmarking domestic and overseas bioinformatics courses and organizing expert pools in both academic and industrial fields, we provided 18 sessions of educational programs for 679 trainees. - viii -

10 CONTENTS Chapter 1. Introduction Section 1. Research objectives... 1 Section 2. Necessity of research... 2 Section 3. Scope of research... 6 Chapter 2. Status of the art report Section 1. Domestic research... 7 Section 2. Overseas research Chapter 3. Methods and results Section 1. Theoretical and experimental strategies Section 2. Results Chapter 4. Achievement and contribution Section 1. Yearly achievements Section 2. Contribution to the related fields Chapter 5. Plan for application of the results Chapter 6. Overseas information acquired for this study Chapter 7. Current status of research facilities and utilities Chapter 8. References ix -

11 목차 제 1 장연구개발과제의개요 제 1 절연구개발의목적... 1 제2절연구개발의필요성 유전체정보의활용성증대 차세대유전체서열해독기술 (Next-Generation Sequencing, NGS) 대용량유전체처리와해석의중요성확대 대용량유전체정보생산거점및분석인프라구축 차세대유전체분석인력양성프로그램의필요성... 5 제3절연구개발의범위 차세대유전체정보생산기반시설의확보 ( 최신 NGS 장비와전산인프라 ) 차세대유전체정보생산시범사업을통한국가적연구역량제고 NGS 원천데이터의분석을위한 High-Performance Computing(HPC) 시스템의구축및운영 차세대유전체정보분석파이프라인의확보및고급분석방법개발 차세대유전체정보분석교육프로그램개발및교육수행 ( 위탁과제 )... 6 제2장국내외기술개발현황제1절국내기술개발현황 국내유전체정보생산기반시설현황 후성유전체분야국내연구현황 메타게놈분야국내연구현황 국내유전체정보분석관련단기교육프로그램현황 NGS 대용량데이터의처리및분석을위한국내고성능전산장비시스템의구축현황... 9 제2절국외기술개발현황 국제유전체정보생산기반시설현황 국외유전체정보분석파이프라인의개발현황 메타게놈분야국외연구현황 국외유전체교육프로그램운영현황 NGS 대용량데이터의처리및분석을위한고성능전산장비시스템의구축 x -

12 제3장연구개발수행내용및결과제1절연구개발의추진전략및방법 차세대유전체정보생산기반시설의확보 차세대유전체정보분석파이프라인의확보및고급분석방법개발 차세대유전체정보생산시범사업 차세대유전체분석인력양성단기교육프로그램 대용량유전체데이터정보처리및분석기반구축 제2절연구개발의내용및결과 차세대유전체정보생산기반시설의확보 차세대유전체정보분석파이프라인의확보및고급분석방법개발 차세대유전체정보생산시범사업 차세대유전체분석인력양성단기교육프로그램 대용량유전체데이터정보처리및분석기반구축 제 4 장목표달성도및관련분야에의기여도 제 1 절연차별목표달성도 제 2 절관련분야에의기여도 제5장연구개발결과의활용계획제1절차세대유전체정보생산기반시설의확보 제2절차세대유전체정보분석파이프라인의확보및분석방법개발 제3절 NGS 유전체정보생산시범사업 제4절차세대유전체분석인력양성단기교육프로그램 제5절대용량유전체데이터정보처리및분석기반구축 제6절다부처유전체사업으로의연계활용 제6장연구개발과정에서수집한해외기술정보제1절차세대시퀀싱 (NGS) 기술발달현황 제2절해외연사초청세미나 제3절해외학회참석 제 7 장연구시설 장비현황 제 8 장참고문헌 xi -

14 제 1 장연구개발과제의개요 제 1 절연구개발의목적 유전체분석속도의획기적인증가및비용의감소로인하여유전체정보는생명과학과의학분야에서필수적인연구데이터로서의고유한가치뿐아니라이로부터파생될수있는산업적가치에대한사회전반적인관심이집중되고있다. 예를들어개인유전체정보를기반으로한질병의조기진단과맞춤치료등 healthcare 서비스는현재의일상적인건강검진이나혈액검사처럼보편화될것으로예상되고있다. 보건의료분야이외에도생명자원의보존및개량을위한마커발굴, 유용유전자원의확보, 환경복원등인류가현재직면하고있는문제를해결하여지속적인번영을누리기위한열쇠로서유전체정보의활용에대한관심과중요성이점차커지고있다. 유전체연구는이제모든생명공학분야에서필수적으로활용되는연구기법이되어가고있으 며, 차세대유전체서열해독기술 (Next-Generation Sequencing, NGS) 로부터생산되는대용 량정보의관리및분석을위하여새로운개념의연구기법을필요로하고있다. 본연구과제에서는차세대유전체연구를선도할국가적연구기반을구축하는것을기본적인목표로하고있으며, 이를위하여 1) 최신 NGS 장비의도입및활용, 2) 차세대유전체정보분석전문가양성을위한교육프로그램의개발및제공, 3) NGS 대용량데이터의처리및분석을위한분석파이프라인구축및고성능전산장비시스템의구축을주요목표로하고있다. 세부적인사항으로는최신 NGS 장비의도입을통해공동활용시스템을구축하고, 이로부터창의적연구에필요한유전체데이터를생산하는것을포함하고있다. 차세대유전체연구 의궁극적인목적은 NGS 유전체정보생산및분석파이프라인 ( 대용량전산장비포함 ) 을위한국가적인프라의제공및유전체정보분석전문인력양성을통하여, 유전체정보의단순한대량생산과분석이아니라이로부터얻어질지식을토대로하여산업화로이어질수있는기술적인발판을마련하는것이다. 1

제 2 절연구개발의필요성 1. 유전체정보의활용성증대 유전체정보생산및분석연구는신약, 진단 / 예방, 국방, 농업, 수산, 식품, 환경, 에너지등 거의모든산업영역에막대한파급효과를미치는핵심기반기술로서선진국은물론개발도 상국에서도경쟁적으로투자를확대해나가고있는실정이다. 가.

15 제 2 절연구개발의필요성 1. 유전체정보의활용성증대 유전체정보생산및분석연구는신약, 진단 / 예방, 국방, 농업, 수산, 식품, 환경, 에너지등 거의모든산업영역에막대한파급효과를미치는핵심기반기술로서선진국은물론개발도 상국에서도경쟁적으로투자를확대해나가고있는실정이다. 가. 향후보건의료, 산업 ( 에너지및환경 ), 농식품등모든 BT 연구개발은유전체연구를중심으로통합될것으로전망나. 유전체정보의분석대상도다수의정상인, 질병환자군, 식물, 동물, 미생물군집을포괄하고있으며, 의학, 생물학, 농학등생명공학연구의전영역을망라함다. 특히유전체정보에기반을둔맞춤의약시대가가시화되면서질병관련유전체특허를획득하기위해선진각국은앞다투어유전체정보생산경쟁에뛰어들고있음 [ 그림 1] 유전체정보활용 2. 차세대유전체서열해독기술 (Next-Generation Sequencing, NGS) 2004 년말무렵부터등장한 NGS 기술에의해유전체정보생산비용과시간이현저하게감소 함에따라각분야에서는유전체정보를생산하고이를활용하기위한다양한프로젝트가경 2

16 쟁적으로진행중에있다. NGS 기술은발전을거듭하여이미 Roche/454나 SOLiD 등의일부플랫폼은이미시장에서퇴출되어가고있으며, 단일 DNA 분자에서일어나는뉴클레오티드연장반응을실시간적으로모니터하여대용량의염기서열정보를얻어내는이른바 3세대유전체서열해독기술 까지이미실용화되어상업적서비스를실시하고있는실정이다. 이와같이 NGS 기법의발달로인하여세계각국에서는 Roche/454, Illumina, Ion Torrent, Pacific Biosciences 등다양한공급처의 NGS 기기들을구입하여대용량으로 NGS 데이터들을생산함으로써유전체연구를주도하고있다. 특히 Illumina에서는 2014년초인간유전체를 1,000 달러에해독할수있는초고용량장비인 HiSeq X10을출시하여본격적인개인유전체시대를열어가고있다. NGS 장비를활용한대규모의유전체프로젝트도활발히진행되고있는데, 1만종이상의생물의유전체를해독하는 10K Genome Proejct, 27개인구집단을대표하는 2,500명의유전체정보를생산하는 1000 Project, 25,000 종이상의암조직의유전체정보를분석하는 International Cancer Genome Consortium(ICGC) 등이그사례이다. [ 그림 2] NGS 의년도별추세 3. 대용량유전체처리와해석의중요성확대 최근의 NGS 기술의발달과오믹스 (Omics) 기술의비약적인발전으로인하여유전체서열의 생산속도가폭발적으로증가하고있으며, 그에따라서 NGS 기반의오믹스데이터생산및 활용이중요해지고있다. NGS 로부터생산되는정보는규모와형식모든측면에서기존의 1 세 3

17 대 (Sanger chemistry, capillary-based squencing) 유전체정보와는크게다르다. 1 세대장비 의경우 1 회운전으로생산되는데이터는수십 Mb 수준이지만, 3 세대 NGS 기기는 300 Gb 에 이르며, 가까운시일내에 Tb 수준을상회할것으로기대되고있다. 가. 2014년초출시된 Illumina X10은 dual flow cell 운전의경우 3일내에 2 x 150 nt의데이터를약 Tb 규모로생산할수있다. 나. 이는인간유전체를 30x로해독한다고가정했을때일년동안약 18,000명이상의개인유전체정보를생산하는속도에해당하며, 그동안유전체연구의주류를이루었던 reference sequencing 및 re-sequencing의개념을넘어서인간집단수준의연구를가능하게해줄것이다. 전세계적으로유전체연구가 NGS 기반으로생산된다양한데이터를기반으로급속히개편됨에따라대규모의데이터생산, 처리및해석을위한인프라가절실히요구되고있다. 유전체정보는생산기술의혁신적인발전에따라서약 2-3년주기로신기술이개발되고있으므로그에따라서유전체연구의신개념이탄생하고, 이에대비한연구체계의구축이시급하다. 또한 NGS의발전으로인해생산되는유전체정보가폭발적으로증가하면서이와연계한유전체, 전사체및후성유전체등의연구가활발히진행되고있다. 이와같이폭증하는유전체정보의처리를위한대규모저장및연산장치가필수적이지만개인 PC나개별실험실단위에서는이를구축하는것이불가능하므로국가차원의정보분석인프라구축이시급하게요청되고있다. 4. 대용량유전체정보생산거점및분석인프라구축 최근 NGS 기술의발달에따라서유전체정보생산속도와정확도가향상된새로운장비가지속적으로발표되고있으며, 그에따라서유전체정보생산비용도현저하게낮아지고있는추세이다. 따라서기존의장비와비교하기어려운수준의사양을갖춘장비가출시되고있으며, 그에따라서최신의 NGS 기기의구입이필요하다. 국내의일부회사에서 NGS 장비를이용한시퀀싱서비스를제공하고있지만, 아직까지는비용상의문제로개인연구자들이 NGS를이용한유전체데이터생산에쉽게접근하는것이어려운실정이다. 뿐만아니라 NGS 유래데이터는정보의특성 ( 분량, 정확도등 ) 이기존의 1세대기법과는매우다르므로, 원자료의특성에맞추어새롭게개발된알고리즘및소프트웨어의적용을필요로한다. 다시말하자면 NGS 기반으로생산되는유전체정보는만들시목적에맞는분석기법과연계하였을때좋은결과가나타나게된다. 이를위해서유전체정보생산은유전체 (whole-genome or exome), 전사체 (RNA-seq, mirna), 및후성유전체 (MeDIP, histone 4

18 modification) 등의멀티오믹스 (multi-omics) 데이터의병행생산이요구된다. 5. 차세대유전체분석인력양성프로그램의필요성 가. 배경급속한유전체연구관련장비의발달에따른새로운개념의대용량데이터들이급격히증가하고있으며, 향후맞춤의학을비롯한유전체기반연구및산업의발전은대규모오믹스데이터의효과적인분석과해석능력에크게의존할것으로전망되고있지만현재국내산학연모든분야에서유전체관련데이터의생산속도와분석수요에비하여전문인력이절대적으로부족한실정이다. 특히 NGS 기술의일반화로인한차세대생물정보학분석전문인력의양성이시급하다. 유전체학관련분야뿐아니라대부분의기초의학및생명현상의연구에도유전체데이터및정보를효과적으로활용하는능력이연구경쟁력향상에매우중요하게작용하고있다. 특히미래생명과학자로성장할생명과학관련대학원생및연구원들을위한유전체및생명정보학교육프로그램이확충되어야만한다. 나. 유전체데이터의복잡성전체데이터는유전체, 후성유전체, 전사체, 단백체등으로구분되며데이터의형태가서로이질적이고매우복잡한양상을띠고잇다. 즉유전체정보만해도특정종의표준유전체 (reference genome), 개체 / 인종간변이정보, 종간의차이를보는비교유전체 (comparative genomics), 그리고배양이불가능한미생물을연구하기위해환경으로부터직접분리한유전체를대상으로하는메타게놈 (metagenomics) 등매우다양한분야가존재한다. 전사체의경우도 microarray와 NGS 기반의 RNA-seq으로나뉘며, 시퀀싱기기의종류및 protocol 그리고분석의목적에따라서다양하게세분할수있다. 유전체데이터는동일한데이터를분석하더라도분석의목적과방법에따라수십가지다른측면에서의분석이가능하다. 유전체데이터의큰규모와복잡성으로인하여, 그중한두가지특면을연구하는데에도석박사급의전문인력에의한집중적인분석을필요로한다. ENCODE, TCGA 등국제적인대형유전체프로젝트에서볼수있듯이, 최근유전체 관련연구는유전체, 전사체, 후성유전체등이질적이고복합적인데이터를통합하여 분석하는쪽으로그추세가전환되고있다. 또한실험기기의발전과비용감소로인하 5

여이러한추세역시점차가속화되고있다. 암유전체등질환유전체, 약물유전체등개인별맞춤의료를겨냥한연구도마찬가지로유전체, 발현체, 후성유전체, 대사체등서로이질적이고복잡한데이터를통합하여분석하는방법을통해급속한진전을이루어내고있다. [ 그림 3] 암유전체연구등에서활용되는다양한종류의오믹스데이터 사례.

19 여이러한추세역시점차가속화되고있다. 암유전체등질환유전체, 약물유전체등개인별맞춤의료를겨냥한연구도마찬가지로유전체, 발현체, 후성유전체, 대사체등서로이질적이고복잡한데이터를통합하여분석하는방법을통해급속한진전을이루어내고있다. [ 그림 3] 암유전체연구등에서활용되는다양한종류의오믹스데이터 사례. 제 3 절연구개발의범위 본과제에서는최신형의 NGS 장비도입기획으로부터데이터의시범생산, 원천데이터의분석을위한전산시스템도입, 차세대유전체정부분석파이프라인의개발및고급분석방법개발, 차세대유전체정보분석교육프로그램의개발및수행등 NGS 데이터생산및분석기반의구축과결과물의효율적인분석을위한교육에이르는전과정을포괄하고있으며, 상세한항목은다음과같다. 1. 차세대유전체정보생산기반시설의확보 ( 최신 NGS 장비와전산인프라 ) 2. 차세대유전체정보생산시범사업을통한국가적연구역량제고 3, NGS 원천데이터의분석을위한 High-Performance Computing(HPC) 시스템의구축및 운영 4. 차세대유전체정보분석파이프라인의확보및고급분석방법개발 5. 차세대유전체정보분석교육프로그램개발및교육수행 ( 위탁과제 ) 6

제 2 장국내외기술개발현황 제 1 절국내기술개발현황 1. 국내유전체정보생산기반시설현황 가. 우리나라는 NGS 기기의실제보유수는 156 대로조사되었으며이는전세계 4 위권으로 나타나있음 (2014 년 4 월 17 일현재 ; Omicsmaps.com). 우리나라의경우에는민간기업 및대학, 연구소를중심으로 NGS 가보급되어있는특징을나타내고있음.

20 제 2 장국내외기술개발현황 제 1 절국내기술개발현황 1. 국내유전체정보생산기반시설현황 가. 우리나라는 NGS 기기의실제보유수는 156 대로조사되었으며이는전세계 4 위권으로 나타나있음 (2014 년 4 월 17 일현재 ; Omicsmaps.com). 우리나라의경우에는민간기업 및대학, 연구소를중심으로 NGS 가보급되어있는특징을나타내고있음. [ 그림 4] 한국및아시아의시퀀싱장비보유현황 ( ) 나. 국내의유전체연구는미래부, 복지부, 농림부각부처별로필요에맞게여러사업들이 진행되어왔고최근 3 년사이급속히차세대염기서열결정기를도입한유전체연구들 이발주되어진행되고있음. 다. 국제적으로차세대시퀀싱장비들은 2 세대에서 3 세대로넘어가는단계에접어들었으며, 국내에서는민간중심으로이에대비한준비작업이활발히진행중에있음. (1) 현재대부분의국내민간회사는 Illumina HiSeq 2500 으로의업그레이드를끝낸상 태임. (2) 마크로젠은초대용량시퀀싱장비인 Illumina X10 을 2014 년에도입하여세팅중 7

21 에있어국제적경쟁력을갖추고있음. (3) DNALink 는 3 세대시퀀싱기기인 PacBio RS II 를 2012 년도입하여현재운용중 에있으며미생물및동, 식물유전체, 특히드노보전장유전체해독에널리쓰이고 있음. (4) 국내에서는대용량유전체연구를수행할수있는전산인프라를구축하고있는곳 은 KOBIC 을포함하여극소수에불과하며, 이또한국내유전체분석수요를감당 할수없는실정임. 2. 후성유전체분야국내연구현황 차세대 sequencing 기법을이용하여유전체분석, 유전자발현분석이수행되어왔으나아직유전체및후성유전체 (epigenomics) 를종합적으로분석한예는우리나라를포함하여세계적으로도입단계에있으며전례가많지않음. 본연구에서시도한 breast cancer cell line을이용한 SNP 분석과 DNA methylation 분석을통한유전자의발현양상을추적하는연구는우리나라에서는시도된바가없음. 국내에서는서울대학교의대, 산업체연구소등이한국인관련유전체및전사체연구를수행한바있으나이연구는유전체및전사체의유전정보를외국의다른인간유전체와의비교유전체학적기법으로분석하였음. 국가생명연구자원정보센터와이화여대연구팀이 genomics, epigenomics 정보를종합적이용하여암의기작을연구를수행한바있으며, 연세대학교와 KAIST팀이 epigenomic요소와유전자의발현관계에대한연구를진행하였음. 그러나이들연구에서 SNP, DNA methylation site 등을분석하는시도는이루어지지않았으며, 연구의대상이되는 cell line도소수만을사용하였음. 따라서, 본연구를통해차세대시퀀싱등으로생산된대규모특정암관련분자수준의유전 정보를분석하는새로운기법개발이가능하며이를통해특정암진단키트의개발등에활 용할수있음. 3. 메타게놈분야국내연구현황 가. 서울대이원재교수팀은모델시스템인초파리를이용하여장내미생물체가동물의면역시스템의발달에미치는영향을보고하였음. 하지만, 인간의질병과미생물체상관관계연구는외국의선도그룹에비하여매우뒤쳐져있는상황임. 나. 특히, 염증성장질환에대한연구는미생물체보다는인간의유전적요인에초점이맞춰져있는실정으로미생물체에초점을맞춘연구가필요함 8

22 4. 국내유전체정보분석관련단기교육프로그램현황 가. 한국유전체학회통계유전학워크샾 (2005~ 현 ) R 을이용한기초통계및실습, 기초 / 임상유전학, 생명정보학, microarray 데이터분석, CNV/SNP/GWAS 등다양한분야에걸친 1-2 일단기교육코스제공. 나. 서울대학교시스템바이오정보의학연구센터 (2011~ 현 ) 매년 GDA(Genome Data Analysis Workshop) 을개최하여생물학관련연구자들이유전체자료의분석및연구를체계적이고효율적으로수행할수있도록지원함. 다. 연세대학교연세프로테옴연구센터 (2006~ 현 ) 매년하계와동계에각각 1 회씩프로테오믹스워크샵을개최하여다양한프 로테오믹스실험기법및분석방법을교육, 실무적해결책을제공. 라. 경희대학교의과대학의공학교실 (2006~2007) 생명정보학사용자교육 (BioMeidcal Informatics Workshop) 개최하여유전체 DB 활용, SNP의이해및활용, Microarray의이해및활용등의최신생명정보학도구의활용을집중교육하는프로그램제공 마. 한국유전체학회, 서울대학교 NICEM 및식물유전체육종연구소 (2011) EBI-NGS 데이터심층분석워크샵을개최, 유럽바이오인포매틱스협회에서연사를초청하여실제 Next-generation sequencing 데이터를 de novo assembly와 re -sequencing을중심으로교육 바. 그밖의교육 (1) 연세대학교융합신약연구센터 (2010)Asia Hub for e-drug Discovery Symposium 을개최하여한, 중, 일신약개발 관련연구자들이관련정보를교환하고의견을공유하는장을마련함. (2) 부산대학교병원부산지역암센터 (2010~ 현 ) 부산지역암센터연구심포지엄을개최하여암바이오마커개발에서의 bioinformatics의활용과전망, 부산지역암센터연구사업단성과발표및향후발전전략을소개함. 5. NGS 대용량데이터의처리및분석을위한국내고성능전산장비시스템의구축현황 가. 차세대시퀀싱 (NGS) 기술을중심으로한생명공학기술의발달과함께수년내유전 9

23 체정보가대량으로생성될것으로예측하고있으나국내에서는삼성 SDS, KT 등의일부 기업들이상업화를목적으로대비하고있음. 나. 2009년이후유전체데이터증가속도가매우가파르고미국, 영국, 중국등의선진국에비해바이오분야의 IT 인프라가취약함. 다. 모든분야의생물정보데이터분석을목적으로 2000 core 이상클러스터시스템이갖추어진 KOBIC에서도기하급수적으로늘어나는 NGS 데이터를감당하기어려운실정. [ 그림 5] 2000 core 의클러스터를확보하고있는 KOBIC 클러스터연산시스템월사용량 라. 국내최고수준의슈퍼컴퓨터를운영하고있는한국과학기술정보연구원 (KISTI) 에서도 본격적으로유전체데이터를분석하기위한전산시스템과클라우드컴퓨팅기술을적용 하기위한준비단계임 제 2 절국외기술개발현황 1. 국제유전체정보생산기반시설현황 가. 전세계적으로 NGS 기기의보급은 2000 년대후반부터빠르게이루어지고있으며, 이를 이용한데이터생산은기하급수적으로증가하고있으며, 그에따라서유전체정보생산 시간과비용이획기적으로절감되고있음. (1) Illumina 사에서 2010 년출시하여최근까지표준장비로쓰이고있는 HiSeq-2000 기기의경우 250Gb/run, ABI 의 SOLiD4 는 300Gb/run 이가능함 10

보급연도 배열장 ( 염기수 ) 해독시료수해독총염기수 30 억염기서열해독 / 대 3 세대 PacBio 2010~ ~1,500 - ~1,000 억 / 시약 2 분 HeliScope 2008 20~45 9,000 만 / 시 ~10 억 / 일약 3 일 2 세대 ABI SOLiD 2007 25~35 3,000 만 /5 일 ~20 억 /10 일약 15 일

24 보급연도 배열장 ( 염기수 ) 해독시료수해독총염기수 30 억염기서열해독 / 대 3 세대 PacBio 2010~ ~1,500 - ~1,000 억 / 시약 2 분 HeliScope ~45 9,000 만 / 시 ~10 억 / 일약 3 일 2 세대 ABI SOLiD ~35 3,000 만 /5 일 ~20 억 /10 일약 15 일 Solexa ~50 1,000 만 /10 일 ~10 억 /5 일약 15 일 454FLX 2006 ~ 만 / 일 ~1 억 / 일약 30 일 DeNOVA 2006 ~1,000 4,608/ 일 ~0.05 억 / 일약 600 일 1 세대 ABI3730xl 2002 ~800 2,304/ 일 ~0.02 억 / 일약 1,500 일 [ 표 1] NGS 기기의전반적인정보 (2) 최근 3 세대 NGS 가시장에출시되기시작하였는데 Pacific Biosciences 사의 SMRT 기술기반기기, VisiGen Biotechnologies 의단일분자유전체정보해독기가대표적임. 나. 국가별기관별 NGS 기기의보유가급속히증가하고있으며, 빠르게새로운기기로갱 신됨 (1) 대륙별로보면, 북미대륙이 596 대, 유럽 290 대, 아시아 158 대, 오세아니아 ( 호주 ) 31 대, 남미 12 대, 아프리카 1 대순으로 NGS 보유대수는대륙별 1 인당국민소득과 비례하는현상을보이고있음. [ 그림 6] 국내외시퀀싱장비보유현황 ( ) 11

25 (2) 유전체정보해독기기별로는 Illumina Genome Analyser IIx가 597대로가장많이보급되어있으며, 그뒤를이어 ABI SOLiD가 203대, Roche 454가 194대, Illumina HiSeq 2000이 76대, Heliscope이 11대, Pacific Biosciences에서 5대, Polonator가 2대순으로보급되어있음. (3) 한편, NGS기기별로설치된유전체센터수를보면, Illumina Genome Analyser 2x 는 222개센터에설치되어있으며, Roche 454는 171개센터, ABI SOLiD는 116개센터, Illumina HiSeq 2000은 29개센터, Heliscope from Helicos는 8개센터, Pacific Biosciences는 6개센터, Polonator는 2개센터에설치되어있음. (4) NGS 시스템보유수면에서미국의브로드연구소가 114대로가장많은 NGS를보유하고있으며, 그뒤를이어 BGI 68대, 워싱턴대학게놈센터 58대, 웰컴트러스트생어연구소 43대, 캐나다마이클스미스게놈사이어스센터 24대, 미국에너지성 JGI 20대순임. 2. 국외유전체정보분석파이프라인의개발현황 가. The Cancer Genome Atlas (TCGA, 는미국국립보건원 (NIH) 소속의암연구소 (NIH) 위주로진행되고있으며, 대용량유전체시퀀싱을포함하는유전자분석기술의응용을통해암을분자수준에서모든암의분석을목적으로하고각암당 300TB의 raw 데이터와 1차처리한유전체정보를공개하고있음. 나 Genomes Project는 2008년영국의웰컴트러스트생어연구소 (Wellcome Trust Sanger Institute), 중국의베이징지노믹스연구소 (Beijing Genomics Institute), 미국의휴먼게놈연구소 (National Human Genome Research Institute) 등이공동으로참여하고있음. 다. 슈퍼컴퓨터를이용한생물정보데이터활용은 Cloud Computing 시스템으로이동하는 추세이며, 다음소프트웨어들은 Amazon EC2 의 AMI(Amazon Machine Image) 나 Amazon Elastic MapReduce 를통해서실행가능. [Ref 1] (1) Galaxy: Amazon EC2 서비스에포팅해서사용가능한 Biology(NGS/SNP GWAS) 웹기반워크플로우소프트웨어. (2) Crossbow: Bowtie 라는 Alignment 소프트웨어와 SoapSNP 이라는 variation calling 소프트웨어를 Hadoop 기반으로가능하게해주는 whole genome resequencing 분 석파이프라인소프트웨어. 12

(3) CloudBurst: MapReuce 기반으로 Alignment 소프트웨어. (4) Amazon Elastic Compute Cloud (Amazon EC2) 는서버스펙을자유자재로바꿔가 며운용할수있는 Amazon Web Service(AWS) 중하나. [ 그림 7] Amazon.com 의바이오클라우드서비스 라.

26 (3) CloudBurst: MapReuce 기반으로 Alignment 소프트웨어. (4) Amazon Elastic Compute Cloud (Amazon EC2) 는서버스펙을자유자재로바꿔가 며운용할수있는 Amazon Web Service(AWS) 중하나. [ 그림 7] Amazon.com 의바이오클라우드서비스 라. Amazon EC2 서버를운용할지역 ( 미동부, 미서부, 유럽, 아시아 ) 을지정하고, 원하는 OS, 보안, 모니터링등서버를운용하는데필요한모든환경을직접커스터마이징하며사용할수있으며, 자유롭게서버를직접설정하기에는어려운면이있겠으나, AWS Management Console과 Eclipse plug-in을지원해주기때문에비교적쉽게서비스를이용할수있음. 3. 메타게놈분야국외연구현황 가. 미국 Washington University의 Jeffery I. Gordon 교수연구팀에서는같은식이를섭취한비만생쥐와정상생쥐의장내미생물체를 16S rrna 유전자를통해분석한결과차이가있음을보고하였으며, 비만과연관된장내미생물체가식이로부터에너지를회수하는효율이더높음을발견하였음. 나. Eckburg 등은건강한사람의장내점막과분변으로부터미생물의다양성을조사한결 과동정되지않은새로운종이상당한비중을차지하고있음을발견하였으며, 시료간 에상당한차이가있음을확인하였음. 13

27 다. The Institute for Genomic Research( 현재 J. Craig Venter Institute) 의 Steven R. Gill 등은최초로 WGS sequencing 방법으로인체장내미생물체의메타지노믹스분석을실시하여장내세균은인간유전체와비교하였을때 glycan, 아미노산및 xenobiotic의분해, 메탄생성, 그리고 2-methyl-D-erythritol 4-phosphate pathway 를경유한비타민과 isoprenoid 생합성기능이더발달되어있음을밝혔음. 라. 미국은 2007년 NIH의로드맵과제로서 Human Microbiome Project를선정하고컨소시엄을구성하였으며, 다양한질환 ( 비만, 당뇨, 소화기관관련질환등 ) 에대한연구를진행하고있으며, 유럽에서는 2008년 8개국이참여해 MetaHIT 컨소시엄을구성하고현재 21.2 백만유로를투자하여연구를진행하였음. 마. 컨소시엄은 2010 년장내미생물체의유전자목록을 Nature 지에발표하였으며, 종분포 및기능에따라장내미생물체의타입을결정하여 2011 년 Nature 지에발표하였음. 바. 염증성장질환은 Crohn s 병및궤양성대장염을포함함. 이들질환은유럽및미국에서높은발병률을보이고있으며, 난치병으로인식되어사회적문제가되고있음. 이를해결하기위해많은연구가진행되어왔으며, 대부분의연구는질병의원인으로인간의유전적요인에서찾으려시도되어왔음. 사. 하지만, 최근질환의급증현상을설명하기엔부족한상황으로, Frank et al.(2007) 에 따르면이러한질환은유전적요인뿐만아니라장내미생물의군집의 imbalance 에의 해야기될수있다고보고되고있음. 아. 한국인의경우, 서구인이지니는유전적요인을지니지않음에도발병되는것으로파악되고있어미생물군집구조의불균형및구조의변형이발병원으로추정된다. 또한, 한국인의경우서구와달리크론병에있어서남성의빈도가매우높은것으로알려져있는점역시유전적요인만의문제는아님을보여줌. 자. 한국에서도산업화이후, 크론병및궤양성대장염의발생빈도가늘고있어염증성장 질환의근본적원인을규명이시급함. 4. 국외유전체교육프로그램운영현황 가. NHGRI/NIH 를중심으로한다양한유전체및유전학관련교육프로그램운영 (1) 미국 NIH 의 NHGRI(National Human Genome Research Institute) 의교육프로그램 은유전체분석과관련된생물정보학분야는물론유전학과변이체등매우다양하 게 Online 상에서서비스. 14

28 (2) 보스턴의 Harvard & MIT, 워싱턴대학, 베일러의과대학및 UCSD 등의대형게 놈센터를중심으로다양한교육및인력양성프로그램을운영하고있음. (3) 특히 NCI(National Cancer Institute) 와위의센터를중심으로진행중인 TCGA(The Cancer Genome Atlas) 프로젝트는모든암의 multi-omics 데이터를 10,000 샘플이상의데이터를만들고데이터공개와함께통합분석하기위한도구및교육을진행하고있음. ( [ 그림 8] NHGRI 교육프로그램 나. 하버드대학과 MIT 에서공동으로운영하는 Broad 연구소의 NGS 데이터분석 workshop (1) 의학및유전학적관점에서 NGS 데이터분석방법론에중점을두고있으며 NGS 데 이터의시각화분석을위해 Integrative Genomics Viewer 등자체적으로개발한 분석도구를사용함. (2) Workshop 자료는 pdf 와 video 파일을다운받을수있게하여일반인들도활용할 수있도록하고있음. < 그림 9> Broad 연구소교육프로그램 15

29 다. 영국 Sanger 연구소 (Welcome Trust 게놈센터 ) 의 NGS Course (1) 분석방법론과이들방법들의실제데이터에대한응용을포함하는교육프로그램 으로서, 샘플프랩, NGS 유전체분석기술, 데이터분석방법론및툴등에대한 교육을포함. (2) Manufacture 의현장교육과는달리 Illumina Solexa 시퀀싱플랫폼을중심으로실 험, 분석기술, 데이터분석방법론및소프트웨어의이용을포함하여생물학적문제 및데이터해석을위한실질적인해석이가능. (3) 관련사이트 : 라. 중국 BGI(Beijing Genomics Institute) 의 NGS 기반유전체데이터분석교육 (1) 200 대의 Illumina Solexa 시퀀싱기기를보유하고있으며 ( 그림참조 ), Solexa 를 기반으로하는 NGS 분석기술및생산된데이터의저장, 프로세싱, 표준화등에필 요한 IT 기술들을교육. (2) BGI 에서 NGS 데이터분석을위해개발한 SOAP, SOAP2, CAT, ReAS, RePS, Maq 등을이용한 alignment, de novo assembly, structural variation 분석등의내 부 / 외부교육프로그램을운영. (3) 코스프로그램내용은영국 Sanger 연구소와유사. (4) Human, Plant, Animal, Micro-organism Genome project 에서생산한데이터를저 장, 교환, 분석을위한 17 개의데이터베이스시스템을운영및교육. (5) BGI 는매년 250 명이상의대학원생을연구원으로고용하여교육및 NGS 중심의 유전체분석교육을시키고있으며, 그규모와능력면에서세계최고수준임을인 간및팬더게놈프로젝트등을통해증명. 16

30 [ 그림 10] BGI 에서운영중인 DBs 마. Canadian Bioinformatics Workshops (1) 2007 년부터정기적으로생물정보학의다양한분야의분석워크샵을진행하고있으 며, 특히 NGS 데이터분석을중심으로각강좌마다 2 일의집중교육을진행하고있 음. (2) 암유전체분석, 생체경로및네트워크, NGS 데이터, 대사체, microarray 등유전체 데이터분석에관한교육프로그램포함. (3) 관련웹사이트 바. Michigan 주립대학생물정보학코스의 NGS 데이터분석교육프로그램 (1) 관련사이트 : (2) 2주간의집중코스로첫번째주는 UNIX 플랫폼상에서대용량데이터를다루고두번째주는 mapping, assembly 및 ChIP-seq과 RNA-seq과같은 resequencing 개념의 short-read 데이터분석법을집중적으로강의하고수강자는다음과같은분야의기본지식이필요. (3) 교육에서는 variation 분석을위한 mapping, mrna-seq 데이터로부터전사체분석, ChIP-seq 데이터로부터 enriched genomic region 의 short-read 데이터분석법을 집중적으로습득할수있도록함. 17

31 (4) 코스를수료하면수료증을발급하고학생은특수과목의학점과연계시킨 credit 을 부여함. (5) 효율적으로대용량 NGS 데이터를분석을위한통계학교육프로그램으로서 R 과 Bioconductor 교육을진행. (6) NGS 분석소프트웨어개발과데이터분석 : 국제 1000 게놈프로젝트의데이터를 생산하는거점센터에서 NGS 데이터를분석할수있는소프웨어개발과 NGS 교육 프로그램을병행하여운영 사. Cold Spring Harbor Laboratory 의유전체관련교육프로그램 (1) 유전체연구와관련한다양한종류의단기교육코스를운영. (2) 관련사이트 : (3) Programming for Biology" 코스는프로그래밍에익숙하지않은일반실험실물학 연구자들에게프로그램의기초지식을교육하는코스. (4) 세명의 instructor 가프로그램을구성하고주된강의를담당하며그이외에 10 여 명의외부강사로구성. (5) Perl 을중심으로교육하며주된교육내용은 introductory coding, survey of available biological libraries, practical topics in bioinformatics, analysis pipelines 구축등포함 국가 기관 교육프로그램 미국 NHGRI/NIH - 교육프로그램은유전체분석과관련된생물정보학분야는물론유전학과변이체등매우다양하게 Online 상에서서비스 미국 NCI - TCGA(The Cancer Genome Atlas) 프로젝트는모든암의 multi-omics 데이터를 10,000 샘플이상의데이터를만들고데이터공개와함께통합분석하기위한도구및교육 - workshop 자료는 pdf와 video 파일을다운받을수있게하여일반인들도활용 영국 Sanger - 분석방법론과이들방법들의실제데이터에대한응용을포함하는교육프로그램으로서, 샘플프랩, NGS 유전체분석기술, 데이터분석방법론및툴등에대한교육 중국 BGI - GI에서 NGS 데이터분석을위해개발한 SOAP, SOAP2, CAT, ReAS, RePS, Maq 등을이용한 alignment, de novo assembly, structural variation 분석등의내부 / 외부교육 18

32 미국 미국 캐나다 Michigan 주립대학 Cold Spring Harbor Laboratory Canadian Bioinformatics Workshops 프로그램을운영 - 생물정보학코스의 NGS 데이터분석교육프로그램 - 2주간의집중코스로첫번째주는 UNIX 플랫폼상에서대용량데이터를다루고두번째주는 mapping, assembly 및 ChIP-seq과 RNA-seq과같은 resequencing 개념의 short-read 데이터분석법을집중적으로강의 - 유전체연구와관련한다양한종류의단기교육코스를운영. - Programming for Biology" 코스운영으로프로그래밍에익숙하지않은일반실험실물학연구자들에게프로그램의기초지식을교육하는코스 년부터정기적으로생물정보학의다양한분야의분석워크샵운영 - 암유전체분석, 생체경로및네트워크, NGS 데이터, 대사체, microarray 등유전체데이터분석에관한교육프로그램 [ 표 2] 주요국가별유전체교육프로그램 5. NGS 대용량데이터의처리및분석을위한고성능전산장비시스템의구축 가. The Cancer Genome Atlas (TCGA, 는미국국립보건원 (NIH) 소속의암연구소 (NIH) 위주로진행되고있으며, 대용량유전체시퀀싱을포함하는유전자분석기술의응용을통해암을분자수준에서모든암의분석을목적으로하고각암당 300TB의 raw 데이터와 1차처리한유전체정보를공개하고있음. 나 Genomes Project는 2008년영국의웰컴트러스트생어연구소 (Wellcome Trust Sanger Institute), 중국의베이징지노믹스연구소 (Beijing Genomics Institute), 미국의휴먼게놈연구소 (National Human Genome Research Institute) 등이공동으로참여하고있음. 연구수행기관 연구개발의내용 연구개발성과의활용현황 - 한국인게놈데이터분석국가생명연구자원 - 대용량 NGS 데이터확보 - 다양한멀티오믹스데이터분석및정보센터 (KOBIC) 코어이상의클러스터확보서비스 KISTI - 국내최대규모의전산시스템구축 - 바이오클라우드컴퓨팅준비 - 생물정보데이터센터구축예정 TCGA - 20 종이상의암유전체데이터확보 - 각암종마다 300TB 스토리지와이를분석하기위한클러스터확보 - 세계의모든연구자들에게공개 19

33 NHGRI Genomes Project - 인간게놈해독및변이분석 - 인간의암의변이 (somatic Sanger - COSMIC (Catalogue of Somatic mutations) 카타로그를작성하기 Institute Mutations in Cancer) 위한프로젝트 - 유방암조직 1,000 시료에대해 METABRIC exome, RNA sequencing, copy number profiling, transcriptomics 분석 [ 표 3] 대용량유전체데이터분석이가능한전산장비를갖추고있는연구기관 20

34 제 3 장연구개발수행내용및결과 제 1 절연구개발의추진전략및방법 1. 차세대유전체정보생산기반시설의확보 가. NGS 장비의선정및도입 (1) 차세대유전체연구를선도할국가적유전체정보생산기반을구축하기위하여 1 차년도 (2011) 에는국내외에서가장높은보급률을보이는 Illumina 사의 HiSeq 2000 시스템을도입하였다. (2) KOBIC 은생명연구자원및유전체정보의총괄관리와등록및활용을전담하는 전문센터이므로, 분석용연구장비의직접적인관리및운용을전담할수있는 전문조직인인체유래자원센터에장비및부대시설을설치하여활용한다. (3) 2 차년도에는 HiSeq system 의 chemistry 를그대로이용하면서소용량의시료를 빠른시간내에시퀀싱할수있는최신장비인 MiSeq 시스템을추가로도입하 여사용자의다양한요구사항에대한빠르고유연한대처가가능하도록하였다. 연구장비예산심의위원회 ( 심 ) 의심의 의결을거쳐예산및장비기종 에대한타당성을인정받아도입추진 2. 차세대유전체정보분석파이프라인의확보및고급분석방법개발 가. Somatic Variant 분석을위한 Exome-seq 분석 pipeline 개발 (1) 연구의개요 최근개인의모든유전체염기서열을분석할수있는차세대염기서열분석 (next-generation sequencing) 기술의발전으로다양한분야에서학문적발전이가속화되고있다. 특히환자의유전체에존재하는단백질을코딩하는모든엑손 (exon) 부위를선별하여대량의염기서열을분석하는엑솜염기서열분석 (exome sequencing) 방법은다양한유전질병의원인유전자를발굴하는데사용되고있다. 엑솜염기서열분석방법은특정유전모형으로다음세대에전달되는질병가계도시료에서환자와정상인의모든엑손부위를차세대염기서열분석기술로해독하여질병특이적인원인유전변이형을발굴하는방법이다. 지금까지약 7,000개가까운단일유전자질환이보고되어있으며, 이중에서원인유전자가밝혀진질병은 2,893 21

35 개이고원인이밝혀지지않은질병은 1,771개이다. 그리고추가적으로단일유전자질환일것으로추정되는질병도약 1,977개정도가존재하는것으로알려져있다. [Ref. 2] 원인유전자가밝혀진단일유전자질병의경우, 대부분의원인유전변이형들은단백질을코딩하는엑손부위에존재하고있다. 더욱이인간유전체의단백질코딩부위는질병의원인유전변이형의약85% 를차지할것으로예측되고있다. 이러한사실은인간의유전체에서약 1.5% 를차지하고있는엑손부위만을판별하여도단일유전자에의하여발생하는대부분의원인유전자및원인유전변이형검색이가능함을시사한다. (2) 연구의목표 단일유전자질병의원인유전자및원인유전변이형발굴을위해서는엑솜염기서열분석방법이적은비용으로매우효과적으로사용할수있는유전분석법이될것이다. 연구자는관심있는질병의원인이 coding region의유전적변이 (genomic variants) 에의한 protein의기능변화에있을것이라는가정하에 whole exome sequencing 분석을수행한다. 특히최근 cancer biology 분야에서 exome-seq을이용하여 SNV, InDel, 그리고 CNV(copy number variation) 등의 somatic 변이들을보고하고있다. 이분석단계에서가장기본적으로수행되는과정은 reference genome에 read들을 mapping하는과정이다. mapping 정보가정확하지않으면이후단계의 variant 분석결과를신뢰하기어렵기때문에 alignment에서부터 clean up processing까지모든단계가신중하게수행되어야한다. Exome-seq을이용한 cancer의 genetic variation 을분석하기위해많은알고리즘들이개발되어왔다. Exome-seq alignment로맵핑된결과로 SNV 및 InDel, CNV 분석등그목적에맞게또다시다양하고복잡한프로그램을사용해야한다. 이러한유전자변이분석을한번에수행할수있는 somatic variant 검출 pipeline을개발하고사용자는분석에필요한워크플로우를선택하고분석 pipeline에서제공하는다양한 option parameter를조정하여대용량유전체데이터분석을편리하게진행할수있도록제공한다. 나. Whole Genome 에서 Structure Variations 검출을위한분석 pipeline 개발 (1) 연구의개요 현재널리사용되고있는 Next Generation Sequencing(NGS) 은대용량의 DNA sequencing 데이터를생성하고있으며, 이들데이터로부터구조변이를검출하는것은, 암이나만성질환등의진단과치료에활용할수있어서, 매우중요하다. 구조변이검출방법은크게 NGS 기술이전과이후로나눌수있는데, NGS 기술이전은 Array-CGH를비롯한어레이칩기반기술을사용하여구조변이를검출했고 NGS 기술이후 PEM 방식과 DOC 방식으로구조변이를검출한다. PEM 기반의 structural variants discovery method은 paired-end read의 insert size 정보 22

36 를이용한다. Paired-end reads가 reference genome에 mapping을수행한후, reference genome에 mapping된 read의 insert size와 signature에서 read의 insert size 차이를계산하여 structural variants을검출한다. 이때, paired-end read는순방향과역방향모두를고려하여 reference genome에 mapping하게되므로 inversion의검출이가능하다. (2) 연구의목표 Paired-end read를찾고분석하는 PEM기반의기법들은 microarray 기반의방법들보다훨씬높은 resolution을지원한다. PEM 기반의 structural variants 검출기법은 statistics computation을수행하는전처리단계와 clustering 및 variants validation을수행하는분석단계로구성된다. statistics computation 수행할때, mapped paired-end reads는 concordant와 discordant로분류된다. read의방향이옳고매핑된거리가 read들의 fragment size 평균의 2.7 standard deviation 범위에속한 paired reads을 concordant로, 범위에속하지않은 paired reads은 discordant 로분류된다. 이렇게분류된 concordant만을이용하여 breakpoint 계산시참조되는 mean read length, insert size, mean fragment size, standard deviation 등의통계수치를산출한다. discordant로분류된 paired read는 structural variations로간주되며, 이들을 insertion, deletion, inversion, linking, duplication 등의유형으로분류하고각유형에대해빈도를계산하여 signature를생성한다. 끝으로산출된통계정보와 signatures들을기반으로 structural variants로예측되는 paired reads를 clustering하고 breakpoint 계산하여, structural variant discovery analysis을수행한다. 생성된 signatures를이용하여, signature가밀집된영역을찾는작업을 clustering라고한다. clustering은하나의 signature를이용하여 structural variants 가일어난위치를계산하는것보다 structural variants의후보지역을효과적으로 filtering 할수있도록돕는다. 즉, clustering을통해우연히 matching될수있는부분을미리제거하여, 예측의신뢰도가향상될뿐만아니라, structural variants의위치를보다정확히예측될수있다. clustering 후에하나의 cluster에 mapping된 signatures을이용하여해당 cluster를대표하는 paired read를선택하고 structural variants가발생한위치를계산한다. 이때 variant가일어난위치를 breakpoint라하며, structural variants가발생한 breakpoint를계산한다. NGS 대용량데이터에서구조변이검출분석 pipeline을대용량유전체데이터분석이가능한 hadoop을적용하여 scalability를보장하는 pipeline을구축하고, 질병과연관된 1000bp 이상의 insertion, deletion 타입의 structural variants를통상적인시간내에예측할수있도록한다. 23

37 다. small RNA-Seq(miRNA-Seq) 데이터분석파이프라인구축 (1) 연구의개요 MicroRNA는 21~25bp의길이를가지는 small RNA의한종류로 RNA 감소, 단백질번역억제를통해단백질의발현을조절한다. 이러한 mirna를발견하고특징지을수있는기술로차세대유전체시퀑싱기술이접목된 mirna-seq이개발되었다. mirna-seq은 RNA-Seq의다른형태로 small RNA가풍부한입력물질을사용한다. 이기술은연구자들에게조직에특이적인발현패턴, 질병연관, mirna의동형물질을연구할수있도록해주고이전에발견되지않는새로운 mirna를발견하도록해준다. (2) 연구의목표 제대로조절이되지않는 mirna가암과같은질병을유발한다는증거는 mirna-seq이진단과예후로써미래에잠재적으로중요한도구가된다는것을나타낸다.[ref. 3, 4] 다른 mirna 프로파일링기술과같이 mirna은서열에독립적이고범위에대한장점을가지고높은가격, 기반시설요구, 실행길이, 잠재적인인공산물의단점을가지고있다.[Ref. 5] 본연구를통해 mirna 데이터분석의핵심인 1) 서열 reads에서 mirna의풍부레벨을얻는것, 2) 새로운 mirna를발견하는것, 3) 발현의차이가나는 mirna를결정하는것, 4) 연관된 mrna 유전자타겟을결정하는것을목표로한다. [Ref. 6] 라. NGS 데이터를활용한질병관련 SNP 감별 pipeline 개발 (1) 연구의개요 맞춤의료시대도래에맞춰개인질환유전체에서특정변이를규명하는연구가활발히진행되고있고, NGS 기술로인해연구의진행속도는가속화되었다. 질병을유발하는 SNP의변이를파악하는핵심요소는단백질의변형이어떻게되는지파악하는것이다. SIFT[Ref. 7], POLYPHEN[Ref. 8] 등기존의많은연구가진행되었으나단백질구조와기능을이용해 SNP의질병유발관련성을찾는것은미비한상황이다. 기존의단백질정보 (conserved sequence, domain, secondary structure 등 ) 를가지고정확한분석을하는것은한계를드러내고있다. (2) 연구의목표질병과관련있는 SNP를감별하기위해서는 wild type가차이를보이는변이를찾아내고, 단백질기능을규명하는연구를진행한다. 단백질의기능을규명하는생물정보학적도구는많이개발되어있다. 본연구를통해서 1) 기존에알려진단백질기능데이터베이스를통합하고, 2) 알려진도구에서나온결과값의정확성을높이 24

38 기위한 Trainning Gold Data Set 을만들고, 3) 전체과정을일괄적으로자동화시 키는 pipeline 을구축하고자한다. 마. microrna(mirna) 분석을위한포털 (Portal) 시스템구축및서비스 (1) 연구의개요 기존인간유전체연구에서는인간의유전체에서단백질로번역되는유전자만이단백질로번역되고그것들이유전자발현에영향을준다고생각하여이들유전자에대한연구가많이이루어졌다. 하지만최근기존에쓸모없던영역이라고생각되었던즉단백질로번역되지않는 non-coding RNA가유전자발현에중요한역할을한다고밝혀진후다양한 small RNA에대한연구가있었고지금도다양한시도가이루어지고있다. [Ref. 9] 그중에서실제단백질로번역되지않지만특정유전자의발현을조절하는 mirna에대한많은연구가진행되고있으며지금도새로운 mirna가각종 (species) 별로밝혀져데이터베이스에등록되고있다. 현재 mirna 의대표적인데이터베이스인 mirbase에는 206개의종과 24,521(hairpin) 개의 mirna가등록되어있다 [Ref. 10]. 의학적인관점에서 mirna가인간의질병에관여하고있음이밝혀졌고, 특히만성림프구성백혈병 (chronic lymphocytic leukemia) 이발생하는데 mirna가관여하고있다는최초보고 [Ref. 3] 이후다양한 mirna가암 (cancer) 을일으키는중요한단서 (oncomir) 가된다고보고되고있다 [Ref. 11, 12, 13]. (2) 연구의목표 다양한 mirna가발견되고기능이밝혀지고있는가운데신규발견되는 mirna의증가속도는 2005년이전과이후로확연한차이를보이고있다. 이는지난수년간 NGS(Next Generation Sequencing) 기술의발달로인하여기존대비저렴한비용으로대량의데이터를빠르게생산할수있게되고, 이렇게생산된데이터는 SRA[Ref. 14], GEO[Ref. 15] 및 TGCA[Ref. 16] 등국제서열등록시스템에등록하고공개되고있어필요한경우다양한데이터를받아분석할수있게되었다. 하지만이렇게대량의데이터가빠르게생산되고생성된데이터를이용하여다양한신규 mirna가밝혀짐에따라서기존에알려진문헌정보및기능을효율적으로분류하고검색할수있는시스템에대한필요성이증대되고있고수요가증가하고있다. 즉산재한많은데이터 ( 빅데이터 ) 의홍수속에서중요한데이터를찾아필요한정보를얻는것은일반연구자들에게는점점복잡하고어려운일이되고있다. 따라서이런요구를해결하기위해기존에알려진 mirna에대한정보를통합적으로수집하고체계적으로분류하여데이터베이스화하여질병별, 기관 (Organ) 별로관련된문헌및관련정보를쉽게제공하여일반연구자들이 mirna를연구하는데효율적인정보를얻을수있도록도와주는데목적을두고있다. 25

39 바. NGS 기술을이용한환경유전체 (metagenome) 의해독및분석파이프라인고도화 (1) 연구의개요 NGS 기술이개발되기이전에는지구상에는수많은미생물이존재함에도불구하고 해독된미생물종은전체의 1% 도해독되지않았을정도로미미하여각각의미생물 유전체의특징을분석하는연구에만국한되어왔다. 그러나저비용대비대용량의염기서열해독을가능하게한 NGS 기술은더욱많은미생물유전체를해독할수있는기회를제공할뿐만아니라, 인간의피부, 장, 토양, 바다, 식물의근권등을포함한모든자연환경에서군집하는모든미생물의유전체, 즉환경유전체의해독과분석을가능하게했다. 환경유전체연구는주어진환경에군집하고있는모든미생물유전체를분석함으로 써특정환경에적응하는미생물의다양성을확인할수있고, 역으로환경유전체를 통해서군집했던그당시의환경과주변생태계를유추할수있다. 또한의학적, 산업적으로유용한미생물혹은대사물질을생성하는유전자를환경 유전체를통해서발견할수도있다. (2) 연구의목표 환경유전체연구는다양한생물학적정보를연구자들에게제공해줄수있 을뿐만아니라, 단일종의미생물에국한된연구에서탈피하여환경과의상호작용 에대한미생물의역할을광범위하게분석할수있는기반을제공해준다. 그러나환경유전체는빅데이터로염기서열이생성및해독되기때문에고급화된컴퓨팅기술과고비용의컴퓨터재원이필요하다. 현재미생물다양성분석을위한다수의프로그램들이개발되어져왔지만효율적인컴퓨터재원관리와함께다수의사용자를만족하면서대용량의데이터를처리하는자동화된파이프라인은아직미흡하다. 그러므로빅데이터에걸맞게대용량데이터처리시스템을지원하는컴퓨터재원을바탕으로효과적으로구동이가능한프로그램을조사하고, 입력되는환경유전체데이터에서분석된결과까지자동적으로실행되는파이프라인을설계함으로써효율적으로환경유전체를분석할수있는환경을제공하도록하였음 3. 차세대유전체정보생산시범사업 가. 위암줄기세포의전사체및후성유전체분석 26

40 (1) 연구의개요 본연구에서는암의주요원인으로작용할수있는전사체및후성유전체의양상을 연구할수있도록위암관련암줄기세포및비암줄기관련 DNA 정보를차세대염기서 열분석기술을기반으로도출함. (2) 연구의목표 이들의정보를바탕으로생물정보학적분석을통하여, 전사체, 후성유전체적차이를파악하는것을목적으로하여, 전사체연구는 RNA sequencing, 후성유전체연구는 MBD sequencing을하여 Differnetially methylated Promoter 지역에서의유전자발현을살펴봄으로임상적으로유전체및후성유전적표지자를찾는것을목적으로함. 나. 염증성장질환모델시스템에서미생물군집분석 (1) 연구의개요 미생물은고등동식물의건강유지와질병발생에매우중요한역할을담당하는것으로알려져있으며, 인간의경우, 일부미생물종류는만성적질환을야기하는원인으로도생각됨. 본연구에서는장질환환자와정상인의장내미생물군집구조비교연구를통하여질병과정상상태에서의상재균총의관계를설명하고자한다. 2006년메타지노믹스연구를통하여장내미생물체와비만과도밀접한관련을맺고있다는증거가 Nature지에보고되었음. 2009년초장내미생물군집구조와당뇨병과의상관관계가보고되기도하였음. 이러한소화기계통질병들이외에도암, 자폐증과같은각종질병들도인체내미생물과상관성이있다는것이보고되고있음. 또한, 지난 5월에는인체피부의건, 습, 지성에따른각부위별미생물군집이조사되어 Science지에보고되었으며, 이것은아토피피부염등그동안치료하기힘들었던많은피부질환에대한이해에도움을줄수있을것으로사료된다. 인간은살아가면서많은미생물들과부딪히며살아가고있음. 피부, 구강, 소화기, 호흡기, 생식기등인체내곳곳에서미생물과인간은서로영향을끊임없이주고받으며살아가고있음. 과거장내미생물이인체가만들지못하는영양소를공급해주는것으로만생각해왔지만, 최근에는면역형성과정에서도큰영향을미치는것으로밝혀지고있으며, 이외에도당뇨병, 비만등여러질병들이유전요인뿐만아니라장내미생물군집의분포에도영향을받는것으로보고된바있다. 과거장내미생물연구는군집의복잡성으로인하여유산균및병원성세균에국한 27

41 되어연구가되어왔으나, 차세대염기서열분석기술의발달로인하여해양생태계나광산침출수등과같은군집구조가복잡하지않은생태계를넘어서군집구조가매우복잡하다고알려져있는생태계에서도심도있는군집분석이가능해졌음 년에는이러한차세대염기서열분석기술을활용하여 Human Microbiome Projects의첫논문으로장내미생물유래유전자카탈로그가발표되기도하였다. 염증성장질환은아직까지정확한원인이밝혀지지않았으며, 크론병의경우, 유전적요인으로면역시스템에장애가발생하여발병하는것으로생각되어지고있긴하지만, 유전적요인으로최근질환이급증하는현상을설명하기엔힘듦. 일부보고서에따르면, 염증성장질환환자에서미생물군집구조가변화된것으로관찰되어미생물군집구조가원인의중요한요소일지모른다고함. 특히, 한국인의경우, 유전적요인이없는상황에서도질환이발병하는것으로파악되어후자의가설을지지하고있다. 염증성장질환을치료하기위해 Asacol, Pentasa, Entocort, Lialda, Salofalk 등의약품이개발되어왔으며, 이들시장은 2006년 18억달러에서 2009년까지연평균 24% 의성장률을보이고있으며, 2019년에는 56억달러에이를것으로전망됨. 하지만, 이들의약품으로도질환을완치하기는어려우며, 재발율이높아근본적인원인을파악하는것이급선무이다. (2) 연구수행방법 1) 시료의입수한양대구리병원한동수교수팀으로부터장내시경을통하여항생제등으로치료받지않은염증성장질환 ( 크론병및궤양성대장염 ) 을가진환자와정상인의회맹부 ( 소장과대장의경계부 ) 위치의직경 2~3 mm에해당되는표피조직을제공받음. 2) 시료의처리각 biopsy 시료로부터 genomic DNA 추출 kit를이용하여 100 ng/ul 이상의 metagenome을회수하였음. 회수된 DNA에 bacterial genome의유무를확인하기위하여 16S universal primer(pbact27f, pbact1492r) 를이용하여증폭함. 그결과회수된 metagenome 내에 bacterial genome이충분히존재하는것을확인할수있었음. 3) Amplicon 제작 회수된 metagenome 으로부터 bacterial 군집구조를확인하기위하여 16S rrna gene 의 variable region 1~3 영역을증폭하기위한 primer 를이용하 여각시료로부터 amplicons 을획득함. 28

42 과량의 human genomic DNA 및 mitochondrial DNA로인하여 nonspecific band가형성되어이를제거하기위해 gel extraction 방법및 magnetic beads를활용한정제방법을활용하여 size selection을수행함. gel extraction 방법결과 DNA의손실이 magnetic beads를사용할때보다심하여 magnetic beads를활용한방법으로 sequencing을진행한후에생물정보학적방법을활용하여 eukaryotic DNA를제거함. 4) DNA sequencing amplicons을 Ion-torrent기기를활용하여 sequencing 하였으나, reads의 quality가매우낮아서 454/Roche GS FLX Titanium을활용하여 reads를생산하였음. Pyrosequencing 방법을통하여생산된대량의염기서열은 SILVA 및 RDP database를활용하여 taxonomic assignments를수행하였음. 각시료에서 Good s coverage가 0.98(1이최대값 ) 이상되도록군집을포괄할정도의충분한시퀀싱 reads를획득하였음. 또한, 생산된 reads 로부터 Esprit-tree tools 을활용하여각 reads 를 clustering 하고이를이용하여각각의 alpha diversity 수치를계산하였음 다. 식물상호작용 microbiome 연구 (1) 연구의개요 식물의근권에서식하는미생물은식물과의상호작용을통하여식물의면역과성장에큰영향을미치는요인으로알려져있음. 식물-미생물상호작용의이해를통해식물병의효과적인방제방법을모색하는것이가능한데, 토양에존재하는미생물군집의동정을위해서 metagenome 기법을활용하는것이매우중요함. (2) 연구의목표 본연구주제를제안한 KRIBB 류충민박사는식물생장촉진근권세균 (Plant growth-promoting rhizobaceria, PGPR) 에의한 Arabidopsis thaliana에서 Cucumber mosaic virus에대한새로운신호전달체계를확립하였고, 세계최초로세균의휘발성물질에의한식물의생장촉진및면역유도기전을밝혀 PNAS와 Plant Physiology에발표하였으며, 온실가루이 (whitefly) 가지상부에감염하였을시지하부의유용생장촉진세균을뿌리에서유인하여다시있을지모르는다양한식물병과곤충의피해를막을수있는식물의새로운기전을밝혀 plant social networking 29

43 system" 이라명명함 본연구에서는 NGS 를기반으로한식물상호작용미생물을 metagenome 기법으로 접근하여 plant microbiome 연구의기초기술을확보하여세계기술수준을선점하 고효과적인미생물제어를위한기초를이루고자함. 라. 유방암에서의 SNP, DNA methylation, 유전자발현정보분석 (1) 연구의목표 1) sequence variation 과 DNA methylation 과의상관관계를규명하는기술개발 2) 유전자발현과표현형과의상관관계를규명하는기법개발 3) DNA methylation 과유전자발현상관관계규명기법개발 4) bisulfite DNA-seq 실험및데이터처리 5) genetic variation 과유방암표현형질비교연구 6) co-expression network 을이용하여유방암표현형질비교연구 7) DNA methylation, 유전자발현, genetic variation 과의상관관계연구 (2) 연구의개요 본연구에서는 genome-wide MBDCap-seq(Methyl-CpG-Binding domain protein capture sequencing) 기술을이용한메틸화된 genomic영역을찾아내고, 다르게메틸화된부분을확인하고자한다. MBDCap-seq데이터는 bisulfate 처리없이 DNA 를시퀀싱하여 base-level methylation정보를얻지못한다. 이를보완하기위해다르게메팉화된유전체영역을시퀀싱하여 single base level genomic 변화, 즉 SNP 그리고 single cytosine level methylation 정보를얻기위해실험을진행하였다. 실험을통해나오는결과인 30 ICBP유방암에서유전자발현정보를 RNA-seq하여 30개 cell line의모든유전체변이를측적하고이를이용하여유전자 co-expression network을구성한후유전체변이, SNP, DNA 메틸화그리고유전자발현사이의포괄적인상호연관관계에대한연구를수행하고자하였다. 이연구결과는 co-expression network을구성한후유전체변이, SNP, DNA 메틸화그리고유전자발현사이의포괄적인상호연관관계에대한이해를획기적으로증진할것으로기대된다. 30

44 (3) 연구수행방법 1) 30 개 breast cancer cell line 으로부터 breast cancer 발생관련 SNP 발굴기선 행연구결과로부터얻어진유전체상의 differentially methylated region 만선택적 으로 seqeucing 하여 MPILEUP 또는 SOAPSNP 프로그램을이용하여발굴. 2) 이들 SNP 가 DNA methylation 에미치는영향규명 기선행연구결과로부터얻어진유전체상의 differentially methylated region 을 bisulfite 처리하여 sequencing, cytosine base level methylation 정보수집. 3) SNP와 DNA methylation이 breast cancer type( 표현형 ) 에미치는영향구명상기결과로얻어진정보를이용하여 breast cancer type에영향을미치는 SNP 와 DNA methylation을발굴하고, SNP 가 DNA methylation과유전자발현에어떤영향을주어 breast cancer type이달라졌는지규명함. 4) 30 개 breast cancer cell line 에서 genetic variation 과유방암표현형질비교연 구 RNA-seq 실험을통한 NGS 데이터를이용하여 genetic variation 을규명하고 유방암표현형질을비교연구함. 차세대시퀀싱정보를체계적으로비교, 분석하기위한전처리시스템을개발 하고유전체, DNA methylation 상호관계를통합하는기법및시스템을개 발하기위한토대로이용함. RNA-seq 기술을유방암전사체에적용하여단일염기정밀도의연구를진행한결과, 상당한양의새로운전사물, 엑손, 그리고 untranslated regions가밝혀졌다는사실이최근의연구결과들을통해보고되고있음. 따라서우리는 RNA-seq기술을이용하여유방암에서셀고유의유전체변이정보를도출하고이정보와 DNA methylation 및유전자발현과의상관관계를연구하고자함. 5) co-expression network 을이용하여유방암표현형질비교연구 RNA-seq 데이터를이용하여유전자발현정보를측정한후 co-expression network 을이용하여유방암표현형질비교연구함. 본연구에서는 RNA-seq 정보를이용하여 co-expression network 를구성한 31

45 다. 특히유방암에관련된 sub-network를만들고, 형질에따라다르게발현되는유방암에관련된 sub-network의순위를정하는컴퓨터기법을개발한다음, 이결과를이용해 DNA methylation과의연관관계를밝히는다음단계의연구를수행한다. 또한 Gene Ontology 정보, 유방암의기작정보, 단백질-단백질상호작용정보를이용하여 co-expression network 중, 형질에따라다르게발현되는 sub-network를모두데이터마이닝을통해밝혀내고자함. 6) DNA methylation, gene expression, genetic variation과의상관관계연구. 상기결과로얻어진정보를이용하여 genetic variation을 co-expression network에적용하여 genetic variation이빈번하게나타나는전사인자와 DNA methylation과의관계를규명 7) 위의연구결과를종합하고, 유전체변이 (SNP, copy number variation, gene fusion, alternative splicing, genome re-arrangement) 정보를이용하여, co-expression network의순위를결정함. 그다음, 그중에서전사조절인자 (TF) 와관련되고, TFBS가 hyper-methylated region과관련된 co-expression network들을찾아서유방암과표현형질에관련된유전자들을도출하고, 유전체변이, DNA methylation, 유전자발현의상관관계를밝히는연구를수행함 마. NGS 기반기술의폐암의 MeDIP-seq 및 small RNA-seq 원천데이터확보 (1) 연구목표 NGS(Next-Generation Sequencing) 기술을이용하여폐암의 MeDIP-Seq 및 small RNA 연구자료를생산및확보함. 1) 한국인폐암의 MeDIP-Seq 및 small RNA 의염기서열데이터를 NGS 기술로 확보함. 2) 통합분석시스템구축및관련분야보급을위해확보된서열정보를표준데 이터로정리함. 3) 궁극적으로폐암의진단예후마커, 원인성유전자변형및신약타겟을발굴하 기위한기본실험의기반을확립함. (2) 연구수행방법 1) 환자시료확보 32

46 임상적의미를부여할수있도록대조실험 (control) 시료를포함하여실험을 디자인하고, 환자의조직샘플을최대한다수확보함. 정확한실험결과의해석을위해서각환자당 2종의샘플을준비함. 즉, 환자당폐암조직, 정상대장조직샘플을최소한 14명에대해확보함. 이를통해환자당샘플간의비교그리고샘플당환자끼리의비교가가능하도록함. 환자샘플의원활한공급을위하여이미구축된병원 ( 삼성서울병원 ) 과의 공동연구체계를적극활용함. 분석항목 Seq 방법 시료종류 필요한 Seq 양 / 샘플 소요기간 시료양 1 MeDIP Seq GAIIx 1x36bp 면역침전 50ng 1 lane 1 month (IP) DNA 2 small RNA GAIIx 1x36bp total RNA 5ug 1 lane 1 month Seq [ 표 4] 서열확보세부정보 2) Methylated CpG island DNA 염기서열확보 (MeDIP-Seq) Methylated CpG island-associated DNA 에대한항체를이용하여해당유전 자부위를면역침전시킨뒤 NGS 기술을통하여염기서열을생산함. MeDIP-Seq 의대조실험 (control) 시료로는면역침전 (immunoprecipitation ; IP) 실험에서같은 genomic DNA 에 control antibody(igg) 만을적용한샘 플을사용함. 전문염기서열분석업체와의논의를통해얻은시료확보및염기서열생산 방법은아래와같음. Methyl-DIP Single End Sequencing Anti-methylated CpG 항체를이용한 chromatin immunoprecipitation 을수행 할것임. 과정에필요한 magnetic bead 에결합된항체를포함한다양한 reagent 는 commercial kit 를이용함. Sample Preparation - 준비된 DNA 는 Illumina 사의 ChIP-Seq Sample Prep Kit 를이용하여양말 단의 overhang 을처리하고 phosphorylated blunt ends 를만든다음 3' 말 단에 A" 염기를붙임. 여기에 Kit 에포함되어있는 sequencing 용 33

47 Adaptor 를 ligation. - 이렇게만들어진 mixture 를 2% Agarose gel 을이용해전기영동한후, size marker 를기준으로 200±25 bp 부위를절단해서이크기의 DNA 조 각만을추출. - 추출한 DNA 는 Adaptor sequence 를이용하여 PCR 로증폭하여최종 Methyl-DIP library 를완성하고 BioAnalyzer 를통해 QC 한다. 30 seconds at 98 C 18 cycles of: 10 seconds at 98 C 30 seconds at 65 C 30 seconds at 72 C 5 minutes at 72 C Hold at 4 C Sequencing - DNA template를 6-8pM로희석하여준비하고아래그림과같이 Cluster Station에 Standard Cluster Generation Kit v2의 Flow cell과 Manifold 및각시약을장착하고 program을동하여 Flow cell상에 cluster를생성함. - 준비된 Flow cell 은 24 시간이내에 Illumina Genome Analyzer GAIIx 에 장착하고 Illumina 36 Cycle Sequencing Kit v3 를이용하여 Sequencing reagent 를준비하여장착하고 sequencing 수행. 3) Small RNA 발현염기서열확보 (small RNA-Seq) 폐암세포주와환자의조직에서 small RNA 를추출하고 reverse transcription 을수행한뒤 NGS 기술을통하여염기서열을생산함. 전문염기서열분석업체와의논의를통해얻은시료확보및염기서열생산 방법은아래와같음. Small RNA Single End Sequencing Total RNA 준비 34

48 - mirneasy Mini Kit(Qiagen p/n ) 를이용하여, mirna section 이 제외되지않은 total RNA 를확보. - total RNA 를 200ng/uL 로준비. dilution 은 nuclease-free water 이용. - control RNA 는 Ambion FirstChoice human brain total RNA(catalog # AM7962) 이용 RNA QC - 추출된 RNA는 Protein, genomic DNA의 혼합여부를 Nanodrop spectrophotometer를이용하여 absorbance ratio로평가하고 Capillary electrophoresis(agilent Bioanlayzer 2100) 를이용하여 28S:18S 의비율 측정을통해 RNA integrity를평가함. Ligate the 3' and 5' Adapters(Illumina Small RNA Preparation Kit 이용 ) - 200ng/uL 의 total RNA 5uL 와 1X v1.5 srna 3' Adapter 1uL, ligation master mix 를섞어 20 PCR machine 에 1 시간 incubation Reverse Transcribe and Amplify - 5' and 3' Ligated RNA 4.0μl 와 Diluted SRA RT Primer 1.0μl 를넣고혼 합하여 70 PCR machine 에서 2 분간가열후 ice 로옮김. - SuperScript II Reverse Transcriptase 를이용해 Reverse Transcription 수행후생성된 single strand reverse-transcribed cdna 를 template 로 하여 amplification 진행하고정제함. 35

- 준비된 Flow cell 은 24 시간이내에 Illumina Genome Analyzer GAIIx 에 장착하고 Illumina 36 Cycle Sequencing Kit v3 를이용하여 Sequencing reagent

49 [ 그림 11] RNA quality Sequencing - DNA template를 6-8pM로희석하여준비하고아래그림과같이 Cluster Station에 Standard Cluster Generation Kit v2의 Flow cell과 Manifold 및각시약을장착하고 program을동하여 Flow cell상에 cluster를생성함. - 준비된 Flow cell 은 24 시간이내에 Illumina Genome Analyzer GAIIx 에 장착하고 Illumina 36 Cycle Sequencing Kit v3 를이용하여 Sequencing reagent 를준비하여장착하고 sequencing 수행. - 실험실내기확립된방법으로 total DNA 를추출함. RNA 의 size 에기초 하여 small RNA 군을확립하고 random hexamer primed reverse transcription 실험을이행함. 4) NGS 플랫폼관련폐암유전체표준염기서열데이터정리 NGS 플랫폼에서생산된검증된염기서열정보의통합을통해암유전체염 36

50 기서열의표준데이터를정리하고제시함. mrna-seq, small RNA-Seq 에서나온 NGS 염기서열에대하여다음의엄 격한검증작업을수행함. - 자체염기서열품질을엄격히확인함. - 공개데이터베이스에존재하는유사 NGS 염기서열과의비교검증함. 검증된 NGS 염기서열데이터를한국인폐암유전체표준 NGS 데이터로정 리하고, 데이터베이스에등록한후국내연구자들에게보급함. 바. NGS 기술기반편평상피세포폐암원천 multiomics data 확보 (1) 연구목표 1) 편평상피세포폐암 (SCC, Squamous cell carcinoma) 환자들을대상으로멀티오 믹스데이터를확보함. 2) 여러타입별폐암의원인을밝히기위해, 분자수준에서의차이를분석해유전 자변이의다양성 (genomic heterogeneity) 을확보하고, 환자마다의약물반응 (drug sensitivity) 의차이를알아봄. 3) 암성종양에서원인돌연변이유전자세트의특성에따라다른항암치료방법이 사용될수있으며변이의존재여부에따른효율적인치료방법선택을위한변 이정보를구축함. 4) 암원인을밝히기위한유전체, 전사체, 후성유전체정보의확보및활용을위한 인프라구축. (2) 연구수행방법 1) 편평상피세포폐암 동일한폐암이라도그안에서다양하게세분되며, 형태학적으로동일군으로분류가된다고하더라도분자수준에서의차이를분석해보면유전자변이의다양성 (genomic heterogeneity) 이대단히크며이것이환자마다의약물반응 (drug sensitivity) 에큰차이를보임. 암성종양에서원인돌연변이유전자를찾는것이중요한원인은각돌연변이에따라다른항암치료방법이사용될수있으며 37

51 변이의존재여부에따라효율적인치료방법선택이가능할수있음. 본연구는폐암환자중비소세포폐암의환자중에서도편평상피세포폐암 (SCC, Squamous cell carcinoma) 의케이스만을대상으로하여대규모유전체분석및 데이터제공을통해암의상세분류를목적으로함. 2) 환자시료확보 폐암환자중비소세포폐암의환자중에서도편평상피세포폐암 (SCC, Squamous cell carcinoma) 의케이스만을선별함. 임상적의미를부여할수있도록대조실험 (control) 시료를포함하여실험을 디자인하고, 환자의조직샘플을최대한다수확보함. 정확한실험결과의해석을위해서각환자당 2종의샘플을준비함. 즉, 환자당폐암조직, 정상대장조직샘플을최소한 5명에대해확보함. 이를통해환자당셈플간의비교그리고샘플당환자끼리의비교가가능하도록함. 환자샘플의원활한공급을위하여이미구축된병원 ( 삼성서울병원 ) 과의 공동연구체계를적극활용함. 3) 임상시료로부터분석시료의분리및확보 4 가지 multi-omic 분석을위해필요한 genomic DNA 와 total RNA 를임삼시 료로부터기존의본연구실에서정형화된방법을이용하여추출함. 4) 각환자에대해다음의 4 가지 multi-omic 분석을시행하고데이터확보함. 분석항목 방법시료종류필요한시료양 양 샘플소요기간 HiSeq 2x100bp Genomic DNA 2 lanes Genomic DNA [ 표 5] Multi-omics 데이터확보 38

5) NGS 플랫폼관련폐암유전체표준염기서열데이터정리 NGS 플랫폼에서생산된검증된염기서열정보의통합을통해암유전체염 기서열의표준데이터를정리하고제시함. Exome-Seq, mrna-seq, small RNA-Seq 에서나온 NGS 염기서열및 ArrayCGH 데이터에대하여다음의엄격한검증작업을수행함. 자체염기서열품질을엄격히확인함.

52 5) NGS 플랫폼관련폐암유전체표준염기서열데이터정리 NGS 플랫폼에서생산된검증된염기서열정보의통합을통해암유전체염 기서열의표준데이터를정리하고제시함. Exome-Seq, mrna-seq, small RNA-Seq 에서나온 NGS 염기서열및 ArrayCGH 데이터에대하여다음의엄격한검증작업을수행함. 자체염기서열품질을엄격히확인함. 공개데이터베이스에존재하는유사 NGS 염기서열과의비교검증함. 검증된 NGS 염기서열데이터를한국인폐암유전체표준 NGS 데이터로정 리하고, 데이터베이스에등록한후국내연구자들에게보급함. [ 그림 12] NGS 기술기반 multi-omics data 생산및보급추진체계 사. 한국인암유전체해독 : 침윤성방광암환자조직확보및유전자발현프로파일링 (1) 연구의배경 방광암은주로고령에서자주발생하는대표적인고령화질병으로, 고령화사회에 본격적으로접어들면서국내에서발생빈도가매우상승하고있음. 방광암은병기진행상태에따라표재성방광암 (Ta, T1) 과침윤성방광암 (T2, T3, T4) 으로구분되는데, 침윤성방광암의경우환자의예후가매우좋지않은 것으로알려져있음 ( 그림 13). 39

[ 그림 13] 종양병기에따른방광암의구분 표재성방광암은비교적예후가좋은편이나, 해부학적구조및수술기법상의특징 으로매우재발이잦으며, 표재성방광암환자의 20% 정도는추적관찰중침윤성 방광암으로병기가진행함. 침윤성방광암은병기가매우세분화되어있고, 다른기관으로의전이여부가환 자의예후를결정하는중요요소임.

53 [ 그림 13] 종양병기에따른방광암의구분 표재성방광암은비교적예후가좋은편이나, 해부학적구조및수술기법상의특징 으로매우재발이잦으며, 표재성방광암환자의 20% 정도는추적관찰중침윤성 방광암으로병기가진행함. 침윤성방광암은병기가매우세분화되어있고, 다른기관으로의전이여부가환 자의예후를결정하는중요요소임. 침윤성방광암의 gold standard 치료법은방광적출술 (cyctectomy) 이며, 환자의상 태에따라항암치료여부룰결정함. 같은침윤성방광암환자라할지라도예후는매우다양하며, 항암치료의감수성및 반응또한환자마다제각각임. 그러므로침윤성방광암환자의예후를설명할수있는방광암 subtype 을찾는것 은매우중요하며, 분자생물학적수준에서그특징을구별할수있는것으로알려 져있음. 40

4. 차세대유전체분석인력양성단기교육프로그램 가. 추진체계 [ 그림 14] 교육운영추진체계 나. 연구내용 (1) 본과제는총괄과제의주관기관인국가생명연구자원정보센터 (KOBIC) 와긴밀한협 조를통해공동으로수행 (2) 전문가 Pool 및강사진의구성은한국생물정보시스템생물학회 (KSBSB) 의협조를통해각분야에서국내최고수준의전문가를섭외할것임.

54 4. 차세대유전체분석인력양성단기교육프로그램 가. 추진체계 [ 그림 14] 교육운영추진체계 나. 연구내용 (1) 본과제는총괄과제의주관기관인국가생명연구자원정보센터 (KOBIC) 와긴밀한협 조를통해공동으로수행 (2) 전문가 Pool 및강사진의구성은한국생물정보시스템생물학회 (KSBSB) 의협조를통해각분야에서국내최고수준의전문가를섭외할것임. 1-2차년도중에는총괄 ( 책임자 : 이상혁 ) 및세부 ( 책임자 : 이화여대김완규 ) 과제책임자가학회회장및이사로참여하여원활한소통창구역할을할수있음. 3차년도에는위탁과제 ( 책임자 : 한양대학교고인송 ) 의형태로교육기능이수행되었음. (3) 교육프로그램설계및표준화 1) 구체적인모듈설계 2) 유전체정보분석교육을담당할관련전문가 Pool 선정및조직화 ( 표 6 참조 ) (4) 교육실습을위한환경구축 41

55 1) 이화여대시스템생물학연구소내에유전체분석실습용서버를설치하고, 실습을 위한예제데이터, 분석프로그램등을관리함. 또한서울에서개최되는 Workshop 의전반적인준비및진행을수행. 2) 국가생명연구자원정보센터 (KOBIC) 는 Workshop 수강생등록등행정적인관리를 책임지며대전에서개최되는 Workshop 의전반적인준비및진행을수행함. 3) 필요에따라강의조교를배정함. (5) 교육 workshop 의평가및업데이트 1) 매 workshop 마다교육생설문조사및강사자체평가를실시하여강의의실효 성및수준제고. 2) MIT, Broad Institue, Canadian Bioinformatics 교육프로그램등해외교육프로그 램의모니터를통해서최신트렌드를반영함. 3) 최신분석기법에대한리뷰및 workshop 평가에기반한강좌내용업데이트. 4) 연차별로 Workshop 커리큘럼의리뷰및업데이트. (6) 교육수료인증서발급 1) 교육 workshop 을성실히수행한교육생에게는한국생명공학연구원 (KRIBB) 과한 국생물정보시스템생물학회 (KSBSB) 의이름으로교육수료인증서를수여 (7) 유전체정보분석 workshop 프로그램 ( 안 ) 42

56 프로그램모듈전문가 예시 기초 생명정보학기초및실습 기초 프로그래밍기초및실습 고급 오믹스데이터의생체경로및네트워크분석 고급 차세대염기서열 데이터분석 회이상실시 생명정보학기초 [ 표 6] 유전체정보분석 workshop 프로그램 김상수 숭실대 조광휘 숭실대 이병욱 권경훈 한국기초과학지원연구원 백대현 서울대 이근우 경상대 김주한 서울대 김영주 최선심 강원대 윤석준 숙명여대 노규형 김경아 서울대 유웅식 가천의대 박태성 서울대 추인선 장영준 김완규 이화여대 황대희 포항공대 조수영 이화여대 조성범 질병관리본부 이도헌 카이스트 김동섭 카이스트 백은옥 서울시립대 우현구 아주대 이인석 연세대 이상혁 김남신 정연준 카톨릭대 박지완 한림대 최정균 노태영 포항공대 김영준 연세대 5. 대용량유전체데이터정보처리및분석기반구축 가. 대용량 NGS 데이터계산용연산서버및저장용스토리지구축 (1) 2011년최신시퀀싱장비들은한번의구동으로매월수백 GB의 raw data가생성되고이를분석할때수십 TB의데이터가생성됨. 예를들면, 한명의인간유전체전체를해독하기위해서는약 2테라바이트가생성되며, 데이터분석시하루에 1테라바이트에해당하는데이터가생성됨. (2) 이를효율적으로다루기위한클러스터시스템과대용량스토리지와연결하기위한 고성능네트워크, 24 시간운용하기위한 UPS 시스템을구축. 구분 단위 내용 클러스터시스템 600Core(12대 ) CPU : AMD Opteron 6176(2.3GHz) X 4EA Memory: 256GB, Disk: 2TB 병렬파일스토리지 100TB 병렬파일시스템 (lustre) 100TB 구축 고성능네트워크 1EA QDR InfiniBand Switch X 1EA QDR InfiniBand HCA X 20EA UPS 1EA 20KVA [ 표 7] 대용량 NGS 데이터계산용연산서버및저장용스토리지 나. 클러스터시스템도입 43

57 (1) 클러스터도입과정및일정 이러한대용량데이터처리는대규모저장공간과분석에필요한연산장치가필수적으로일반적인시스템구성으로는근본적으로불가능하여고도의생명정보분석기술과이에대응하는연산을위한클러스터시스템을확보하여방대한계산작업을원활하게수행하며동시에커뮤니케이션통신을위한병렬처리를고성능네트워크 를구축함으로서시스템의극대화를도모하였음 1) 모델명 : DELL R815(64core,256G memory),dell R910(40core,1TB memory) 2) 수량 : DELL R815(8EA),DELL R910(1EA) 3) 제조국 : 미국 4) 설치장소 : 대전광역시유성구과학로 125 한국생명공학연구원통합전산센터 201 호 5) 제조회사 : DELL 6) 활용용도 : 현재운영중인클러스터시스템은향후예상되는대용량의데이터를분석하기위한계산자원이부족하여계산시스템의추가증설이요구되는상황이다. 또한향후증가되는 NGS 분석데이터의처리를위해서는현재운영중인클러스터시스템의성능증가가요구되고있기때문에, 클러스터장비의추가구매를통해원활하고효율적인연구활동을수행하고스토리지의활용을극대화함에그목적이있다. 7) 기자재명 : 병렬계산시스템 ( 클러스터 ) 구매. 8) 도입과정 : 2011 년 2 월 ~4 월 : 클러스터구축계획수립 44

58 . [ 그림 15] 클러스터시스템도입 1 차계획안 [ 그림 16] 2 차클러스터시스템도입계획안 9) 1 차클러스터 ( 생명연구자원체계구축사업 ) 4/27~7/6: 행정처리 45

59 8/8~31 :1 차클러스터도입 (48core 192G Memory 13node) 10) 2 차클러스터 1( 대용량유전체데이터정보처리및분석기반구축사업 ) 10/5 : 장비심의요청서제출 10/26: 장비심의승인 11/7 : 입찰서규구매과에서조달청으로전달 11/17~29: 입찰공고 ( 첨부 1 참조 ) 11/29 13:00 : 입찰마감 11/30 오후 2~3 시 : 제안평가 12/5~9 : 선정업체신용평가및계약 2012/1/5 :UPS 영선작업 1/9~13: 장비도입및구축 1/16~31: 시범서비스시작 2/1 : 정식서비스시작 11) 기존에 KOBIC 에구축된클러스터시스템과본과제에서새롭게구축될클러스 터시스템과의연계및호환성을위한시스템을구축함. 아래의그림은기존 시스템과의연계및호환에관련된구성도임. 다. 대용량스토리지시스템도입 (1) 대용량스토리지도입목적 이러한대용량데이터처리는대규모저장공간과분석에필요한연산장치가필수적으로일반적인시스템구성으로는근본적으로불가능하여고도의생명정보분석기술과이에대응하는연산을위한클러스터시스템을확보하여방대한계산작업을원활하게수행하며동시에커뮤니케이션통신을위한병렬처리를고성능네트워크 를구축함으로서시스템의극대화를도모하고 대용량차세 46

그림 17] 신규클러스터와기존클러스터의통합구성도 [ 그림 18] 클러스터증설을위한장비관련제안 (2)

60 대시퀀싱데이터분석시다량의파일이생성되어생성할수있는파일갯수를확 인하는아이노드용량공간부족으로인해데이터분석에차질이생겨 이를해결하 고자스크래치스토리지를도입하고자함 [ 그림 17] 신규클러스터와기존클러스터의통합구성도 [ 그림 18] 클러스터증설을위한장비관련제안 (2) 대용량데이터를빠르고효율적으로분석하고저장하기위해병렬분산파일시스템 (lustre) 을사용을함. (Lustre: 일반적으로대규모클러스터컴퓨팅에사용되는 47

61 대규모병렬분산파일시스템 ) (3) 대용량스토리지제안제품 ([ 그림 18] 참조 ) (4) 대용량차세대시퀀싱 (NGS) 데이터분석시특정데이터가기하급수적으로파일이생성되어생성할수있는파일갯수를확인하는아이노드용량부족으로인해데이터분석에차질이생겨, 특정데이터부분을분리저장하여, 이를해결하고자이번스크래치스토리지도입이시급함. (5) NGS 기반으로생산되는데이터의저장분석용으로테스트함. 한명의인간유전 체전체를해독하기위해서는약 2 테라바이트가생성되며, 데이터분석시 1TB 이 상의데이터가생성됨. 라. 기타부대시설및관련장비 (1) 전산시스템구축에요구되는부대설비들을구축하여클러스터및대용량스토리지 들의활용도를최대로하였음. (2) 부대시설로는온도및습도유지에필요한항온항습기와데이터의손실을방지하기 위한정전전원장치 (UPS) 가필요. [ 그림 19] 대용량전산시스템구축에필요한관련설비 48

62 [ 그림 20] 대용량스토리지제안제품 49

63 [ 그림 21] 한명의전장유전체분석으로부터소요되는데이터분량 50

64 마. 작업내용및예정일정표 일정표 [ 표 8] 작업내용및예정일정표 51

65 제 2 절연구개발의내용및결과 1. 차세대유전체정보생산기반시설의확보 가. HiSeq2000 (Illumina Next Generation high throughput Sequencing system) (1) HiSeq2000 시스템도입 1) 국가생명연구자원정보센터의차세대유전체생산기반구축및정보생산사업의유전체생산기반연구비를이용하여 HiSeq2000 sequencer를도임하기위해국가생명연구자원정보센터과제책임자와의긴밀한협의후시퀀서장비를도입결정. 2) 본장비의최종구매가격이약 8 억으로하나의과제로구매를하기에는금액이 부족하여장비구입비용으로금액이책정되어있는 2 개의과제를묶어구매결 정. 3) 고가장비의도입하기위하여국가연구시설장비정보 NTIS 의장비심의위원회에 심의요청서를제출하여승인받음. 4) 구매요구하는 sequencing 장비인 HiSeq2000 은미국 Illumina 사에서제작한 장비로써이제품은 ( 주 ) 비엠에스가국내의대리점이기때문에비엠에스를통해 서 HiSeq2000 견적서를받음. 5) 2012년연말에 HiSeq2500으로의업그레이드를하는조건으로장비도입. - HiSeq 2500은시약을섞어서준비하는과정을생략하고시약을녹여바로사용할수있도록패키지형태로출시되었으며, 기존에는 cbot 장비에서 cluster generation을따로진행하야했던과정과 paired-end 진행시추가시약을장착하여두번째 read 생산을진행해야했던과정이생략되고대신 HiSeq 장비내에서시료와시약만장착해주면 cluster generation과 data 생산까지모든과정이자동으로진행됨. - Read length도향상되어 2x100 cycle뿐만아니라 2x150 cycle도가능함. 6) 비엠에스에스를통해 HiSeq2000 sequencer 장비한국생명공학연구원검수과 를통해서도입됨. 7) 비엠에스에스에서 HiSeq2000 장비의설치및시운전완료 52

--> (2012 년구매당시 HiSeq2000) ( 현재업그레이드완료 HiSeq2500) [ 그림 22] HiSeq200 외관 HiSeq2000 규격 - 서열길이 : 100 bp, 150bp - 1 run 당 read 개수 : 30 million reads or more - 총데이터생산량 : up to 300 Gbp - 데이터생산방법 : Single

5" Enterprise SATA or better - 샘플준비시간 : less than 2 day (2) HiSeq2000 사용용도 Hiseq2000은 flowcell위의 cluster station에붙어있는 library fragment를 1 cycle 마다형광물질을붙이고레이저로이를읽는방식으로이루어진다.

66 --> (2012 년구매당시 HiSeq2000) ( 현재업그레이드완료 HiSeq2500) [ 그림 22] HiSeq200 외관 HiSeq2000 규격 - 서열길이 : 100 bp, 150bp - 1 run 당 read 개수 : 30 million reads or more - 총데이터생산량 : up to 300 Gbp - 데이터생산방법 : Single and paired-end - 컴퓨터사양 : 2 x intelxeon E GHz CPU, 64GB RAM, 8x1.0 TB 3.5" Enterprise SATA or better - 샘플준비시간 : less than 2 day (2) HiSeq2000 사용용도 Hiseq2000은 flowcell위의 cluster station에붙어있는 library fragment를 1 cycle 마다형광물질을붙이고레이저로이를읽는방식으로이루어진다. 그리고이렇게저장된이미지정보를내부의 RTA라는프로그램을통해초기데이터로보이거나저장된다. Hiseq2000에서각 base를읽을때발생하는현상중흥미로운것은 heterogeneous 샘플에서각 cycle별로보여주는 nucleotide composition은일반적으로 GC의함량이높으나, multiplexing 단계에서는 index에따라극명하게 composition의차이가나타난다. 혹시 index를기록하지못하였다고하더라도다시한번확인할수있다. 이런 based composition reading은 cluster density가높을수록두드러지는데, 이역시도앞으로나올 kit에서해결된다. Hiseq2000 system은현존하는장비중가장많은유전체정보를생산할수있는장비로대용량유전체서열해독 (de novo 및 re-sequencing), 유전자조절연구, 유전체기반대사체및 53

67 methylation 연구, SNP 발굴및구조분석,Small RNA 발굴및분석,DNA- 단백질 상호작용연구등에많이사용되고있는장비로써구성은아래와같다. 1) HiSeq2000 유전체데이터분석종류 Metagenome Sequencing ( 특정환경내에서의미생물군집분석 ) :16S Metagenomics 의경우 1 x 100 bp Large genome De novo sequencing : 인간, 동물, 식물 (2 x 100bp) Large genome Resequencing : 인간, 동물, 식물 (2 x 100bp) RNA-Seq transcriptome sequencing : 인간, 동물, 식물 (2 x 100bp) 유전자발현조절하는프로모터분석 Chip-Seq: 1 x 100 bp 유전체기반후성유전체데이터분석 (MeDip-seq): 1 x 100 bp (3) HiSeq2000 NTIS 장비등록번호 1) 금액 : 823,666,600 원 2) 취득일자 : 2012 년 05 월 21 일 3) 활용범위 : 공동활용허용가능 4) NTIS 장비등록번호 : NFEC ) 장비구축과제명 : 차세대유전체정보생산및분석기반구축및인터지노믹 스기반생체방어연구 6) 장비활용범위 : 전체지놈의발현정보를분석할때는기존에 reference 정보가있을경우와신규로분석하는두가지경우에따라전략이달라질수있다. 이미인간을비롯한소, 말, 돼지, 쥐등의동물과벼, 애기장대, 콩, 옥수수등의지놈정보가이미밝혀진종의서로다른 genotype의지놈의 sequencing이필요할때는가장경제적으로분석할수있는 read length가짧은 Hiseq2000를이용한 100bp paired end 정보를이용해도분석이가능하다. 이들의짧은 read의 sequence를 reference genome에 mapping하여 reference 비교를통한 DNA 변이를확인할수있다. 이 54

68 러한 DNA변이가 coding region이있을경우 regulation과관련된정보를확인할수있다. 최근약용물질인황금의 transcriptome을 Hiseq2000으로분석하여 de novo assembly하여정보를확인한경우약 5만개의유전자에서총 80Mb정도의정보를확인할수있었다. 유전자를 3가지방법 (Cellular process, Molecular function, Biological component) 으로분류하였을때기능중에 binding 과 catalytic activity 가가장많이있는것으로조사되었다. (4) HiSeq2000 견적서및도입가격 1) HiSeq2000 도입가격 : US$ 860, ( 한화 823,666,600) ***** [ 그림 23] HiSeq2000 계약서 55

69 (5) HiSeq2000 장비활용실적 1) 장비별유전체데이터생산현황 [ 표 9] 장비별유전체데이터생산현황 [ 건수 ] 2) 유전체데이터서비스 ( 샘플종류 ) [ 표 10] 유전체데이터서비스 [ 건수 ] 56

70 (6) 2012 년 HiSeq2000 장비운영리스트 날짜프로젝트명내용 _SN700908R_ 0060_A800CGABXX _SN700908R_ 0061_AC0R6VACXX _SN700908R_ 0066_AC0R6VACXX _SN700908R_ 0067_BC0R6NACXX _SN700908R_ 0068_BD13L8ACXX _SN700908R_ 0069_AD12M9ACZZ _SN700908R_ 0077_Bc0yfyacxx _SN700908R_ 0078_AD130JACXX _SN700908R_ 0082_AC13L4ACXX _SN700908R_ 0095_Ad18r5acxx _SN700908R_ 0096_Bd19cmacxx _SN700908R_ 0068_BD13L8ACXX HiSeq2000 장비테스트 - 기계 setting HiSeq2000 장비 (Test Run) 양배추 4 sample + control 4 sample ( 한개 lane에양배추 + coltrol) 양배추 4 sample + control 4 sample ( 한개 lane에양배추 + coltrol) 인간 Resequencing 1 인간 Resequencing 2 넙치 7 lane + control 1 lane 넙치 7 lane + tenebrio 1 lane 양배추 16 sample 유전체의학센터 - rna seq 양배추 5 lane + rna 3 lane 인간 Resequencing 시퀀싱 3 [ 표 11] 2012 년 HiSeq2000 장비운영리스트 나. MiSeq (Illumina Next Generation high throughput Sequencing system) (1) MiSeq 시스템도입 1) 국가생명연구자원정보센터의차세대유전체생산기반구축및정보생산사업의유전체생산기반연구비를이용하여 Miseq sequencer를도임하기위해국가생명연구자원정보센터과제책임자와의긴밀한협의후시퀀서장비를도입결정. 2) 고가장비의도입하기위하여국가연구시설장비정보 NTIS 의장비심의위원회에 심의요청서를제출하여승인받음. 3) 구매요구하는 sequencing 장비인 MiSeq SystemV2 은미국 Illumina 사에서제 작한장비로써이제품은 ( 주 ) 비엠에스가국내의대리점이기때문에비엠에스를 통해서 Miseq 견적서를받음. 57

and paired-end 5) 컴퓨터사양 : 2 x intelxeon E5-2630 2.3 GHz CPU, 64GB RAM, 8x1.0 TB 3.

71 4) 비엠에스에스를통해 MiSeq sequencer 장비한국생명공학연구원검수과를통 해서도입됨. 5) 비엠에스에스에서 MiSeq 장비의설치및시현완료 [ 그림 24] Miseq 장비외관 (2) MiSeq 규격 1) 서열길이 : 36bp, 75bp, 100 bp, 150bp, 300 bp 2) 1 run 당 read 개수 : 30 million reads or more 3) 총데이터생산량 : up to 7 Gbp 4) 데이터생산방법 : Single and paired-end 5) 컴퓨터사양 : 2 x intelxeon E GHz CPU, 64GB RAM, 8x1.0 TB 3.5" Enterprise SATA or better 6) 샘플준비시간 : less than 2 hours (3) MiSeq사용용도차세대유전체분석시스템은 Sequencing By Synthesis Technology를이용하여 Target Genome의염기서열분석을 Bac등의 Vector를이용한 library 제작과정을거치지않고한번에처리할수있다. 이시스템은염기서열을분석하고자하는 template를작은조각으로 fragmentation하여 sequencing을위한 Adaptor를붙이고이 adaptor를이용하여전용분석 chip인 Flow cell에 hybridization 시킨다. 이상태로 Adaptor를이용한증폭을실시, sequencing에이용될 cluster를생성한다. 본 System은 flow cell 상의각 cluster에 laser를조사하여형광의세기를 CCD camera를이용하여측정하는장치로염기서열을분석할수있다. 위의예이외의본 System은생물의학, 유전학, 법의학또는임상진단연구용으로 ( 예 : 유전 58

72 자의발현정도측정, 병원균의진단, 염기서열결정, 육종감별등 ) 사용될수있 다. (4) MiSeq 유전체데이터분석종류 1) 특정타겟을이용한 Amplicon Sequencing : 1 x 250 bp 2) Metagenome Sequencing( 특정환경내에서의미생물군집분석 ) :16S Metagenomics 의경우 2 x 150 bp 3) Samll genome De novo sequencing : 미생물 (2 x 250bp) 4) Small genome Resequencing : 미생물 (2 x 250 bp) 5) RNA-Seq transcriptome sequencing : 미생물 (2 x bp) 6) 유전자발현조절하는프로모터분석 Chip-Seq : 1 x 36 bp (5) MiSeq NTIS 장비등록번호 1) 금액 : 167,687,845 원 2) 취득일자 : 2013 년 04 월 18 일 3) 활용범위 : 공동활용허용가능 4) NTIS 장비등록번호 : NFEC ) 장비구축과제명 : 차세대유전체정보생산및분석기반구축 6) 장비활용범위 : MiSeq 의특징은기존대용량시퀀서인 HiSeq 의기법 (chemistry) 을그대로 유지하면서소형화에성공하여, 장비크기와가격을줄이고작업을더빠르고 간편하게만들었다는점임. MiSeq 은 2 x 150bp 에서최대 24 시간의 run time 으로 Gb 의데이터 를생산하며, 향후 2 x 250bp 가되면 35 시간이상의 run time 으로 7Gb 까지 가능함. 59

73 Miseq 의경우 paired-end sequencing 을각각 100bp 을읽을수있기때문 에작은사이즈의 genome 의지놈분석이가능함. 전체지놈의유전자발현정보를분석할때는기존 reference 정보가있을 경우와신규로분석하는두가지경우에따라전략이달라질수있는데 Miseq 의경우두가지경우모두가가능함. (6) MiSeq 견적서및도입가격 1) MiSeq 도입가격 : US$ 185, ( 한화 167,687,845) ***** [ 그림 25] MiSeq 계약서 60

74 (7) MiSeq 장비활용실적 1) 장비별유전체데이터생산현황 [ 표 12] 장비별유전체데이터생산현황 2) 유전체데이터서비스 ( 샘플종류 ) [ 표 13] 유전체데이터서비스실적 2. 차세대유전체정보분석파이프라인의확보및고급분석방법개발 가. Somatic variant 분석을위한 Exome-seq 분석 pipeline 개발 (1) 연구수행내용및결과 61

75 Somatic variant 검출 pipeline은 fastx [Ref. 17] 와 FastQC [Ref. 18] 을이용하여 poor quality reads와 sequencing artifact들을제거하는 Quality control을수행하고 filtered data에대해 quality check한결과를 report해주어사용자가분석에사용하기적합한 data인지판단할수있도록한다. bwa [Ref. 19] 를이용하여 reference genome에 read alignment를수행하고, 좀더정확한변이검출을위해 PICARD [Ref. 20], Genome Analysis ToolKit (GATK) [Ref. 21] 와같은프로그램을이용하여 biased read들을제거하고 InDel 주변의 local realignement 수행및 base quality recalibration과정을수행한다. 이처럼 genetic variant 분석에적합한 sorted and cleaned bam 파일을생성하기위해목적에맞는여러가지복잡한프로그램의사용이요구되며이러한일련의분석단계를 pipeline으로제작하여쉽게공유하고이용할수있도록인터페이스를제공한다. [ 그림 26] exome sequence alignment 분석 pipeline Varscan2 [Ref. 22] 와 samtools [Ref. 23] 를이용하여각 position에서의 supporting allele count를바탕으로 SNV과 InDel 여부를계산하며, 사용자가원하는기준으로p-value, minimum variant depth 정보를이용하여 variant를 filter할수도있다. variant들의중요도와생물학적의미를판단하기위해 biological annotation을수행하는것은매우중요한단계이며이를위해 ANNOVAR [Ref. 24] 를이용하여 functional impact, dbsnp 정보등의 annotation을수행한다. CNV 분석을위하여기존의여러가지 array 기반 algorithm들이개발되어왔으며 Varscan2 또한 array기반 segmentation algorithm을사용하도록결과를출력한다. 62

76 이처럼목적에맞는분석을위해여러프로그램을연계하여사용해야하는경우가많으며 CLOSHA는 Varscan2의출력물을 Bioconductor에서제공하는 tweede-seq [Ref. 25], DNAcopy [Ref. 26] 등의 R package들과연계시켜 Trimmed Mean of M-value (TMM) normalization 및 Circular Binary Segmentation (CBS) algorithm을이용한 segmentation을수행하고수행된결과를보여주는 visualization 까지일련의분석과정을손쉽게하도록한다. [ 그림 27] Exome-sequence 에서 Somatic variant 분석을위한 pipeline (2) 연구활용및토의 [ 그림 28] Somatic variant 분석을위한 pipeline 웹서비스 약 7,000 여개의단일유전자질환이보고되어있지만보고된질환의절반도아직원 인유전자가밝혀지지못한상황이다. 그리고기존에밝혀진원인유전자의돌연변 이형들은대부분단백질을코딩하는부위의돌연변이에의하여발생하고있어서인 63

77 간유전체에서단백질을코딩하는엑손부위만을선별적으로분리하여염기서열을분석하는엑솜염기서열분석방법은희귀한유전질환의신규원인유전자발굴을위한매우효과적인유전분석법이될것이다. 엑솜은전체유전체의약1.5% 정도를차지하고있어서매우경제적으로분석이가능하다. 이러한일련의분석방법을고도화된분석 pipeline으로개발하여, 다수의연구자들이분석에용이하게사용할수있도록시공간적제약이적은웹서비스로분석서비스를제공한다. 제공된고도화된분석 pipeline을기반의분석으로다양한복합질병의유전분석에도활용되어개인맞춤의학의실현을앞당기는데크게기여할것으로기대된다. [ 표 14] Somatic mutations 결과리스트 나. Whole Genome 에서 Structure Variations 검출을위한분석 pipeline 개발 (1) 연구수행내용및결과 Structural variants 검출및분석알고리즘은유전자구조적변이검출에널리활용되는 BreakDancer [Ref. 27] 방법에기초하고있으며, 결과의품질을개선하기위해전처리단계에서 variant filtering과 sorting 단계를추가하였으며, 변이예측단계에서는 group validation을단계를추가하였다. hadoop 기반의 structural variants 검출및분석단계는크게하나의 mapreduce를이용한워크플로우로분석이진행된다. mapreduce 분석시 map에서는입력받은대용량 NGS 데이터에서 SAM format에포함되어있는데이터중 flag 값을이용하여 paired-end read의매핑된정보를기반으로정상적인서열 (concordant) 과구조적변이로판별되는서열 (discordant) 로분류한다. 10진수 Flag 값을 2진수로치환하여, read의매핑된정보를유추하고이정보를기반으로 signature type으로그룹핑한다. 이렇게 signature type별로그룹핑된데이터를 signature type과 read name으로키를조합하여정렬하고그룹화하여 read의 alignment된 start position으로 2차보조정렬을수행한다. 이렇게하는목적은 structural variants prediction 단계에서 clustering을좀더정교하기위한것이다. 64

[ 그림 29] Structural variations 검출및분석 pipeline Map과 shuffle 분석단계를통해구조적변이로분류되었던서열을대상으로참조유전체내에비슷한위치에매핑된구조적변이서열을하나의그룹으로군집 (clustering) 하는데군집을형성하는이유는하나의리드가매핑되고정의된

만일페어드엔드리드가매핑되어있어도다른염색체에매핑되어있다면이전까지의서열들을하나의군집으로형성하고새로이유전체에매핑된서열부터새로운군집의시작으로보고군집을형성해간다.

78 [ 그림 29] Structural variations 검출및분석 pipeline Map과 shuffle 분석단계를통해구조적변이로분류되었던서열을대상으로참조유전체내에비슷한위치에매핑된구조적변이서열을하나의그룹으로군집 (clustering) 하는데군집을형성하는이유는하나의리드가매핑되고정의된 signature를기반으로구조변이가일어난위치를군집화를수행함으로써여러요인으로잘못매핑된부분을제거할수있어예측의신뢰도를향상시킬수있을뿐만아니라, 구조변이의위치를보다정확히예측할수있다. 군집할필요조건으로는우선한쌍의페어드엔드리드가같은염색체 (chromosome) 내에매핑되어있어야한다. 만일페어드엔드리드가매핑되어있어도다른염색체에매핑되어있다면이전까지의서열들을하나의군집으로형성하고새로이유전체에매핑된서열부터새로운군집의시작으로보고군집을형성해간다. 군집을형성한페어드엔드리드들중에서리드의거리차이가해당하는구조적변이유형별평균거리차보다작을경우구조적변이가발생한지점 (break point) 을예측할수없기때문에군집형성시서열은무시하며, 참조 (reference) 유전체에매핑된 signature 분포를고려하여클러스터를형성한다. 조건을만족하는구조적변이서열을대상으로참조유전체에매핑된염색체와페어드엔드리드가매핑된시작점이빠른순으로정렬하여, 비슷한조건의위치에매핑된서열들을하나의그룹으로군집해간다. 군집된구조적변이서열들중에서구조적변이라고예측되어진변이의양끝단을구조적변이지점이라고한다. 군집내에매핑된구조적변이서열들에서리드의정렬시점과정렬종료지점이큰지점을기준으로변이가발생했을지점의범위를예측한다. 최종 reduce 분석모듈에서는구조적변이의양끝단 (breakpoint) 을예측하여검출된구조적변이결과는 hadoop distribution file system에저장되고결과파일을하나의파일로합병하여사용자의로컬하드디스크에저장된다. 65

[ 그림 30] hadoop 의 map-reduce 에적용한 structural variations 분석알고리즘 (2) 연구활용및토의 본연구에서는대용량 NGS 데이터를분석시 map-reduce 프로그래밍모델기반의대량의 NGS 데이터를이용한 structural variants discovery 분석이가능하다는것을확인하였다.

79 [ 그림 30] hadoop 의 map-reduce 에적용한 structural variations 분석알고리즘 (2) 연구활용및토의 본연구에서는대용량 NGS 데이터를분석시 map-reduce 프로그래밍모델기반의대량의 NGS 데이터를이용한 structural variants discovery 분석이가능하다는것을확인하였다. bioinformatics 분야에서의대용량데이터분석시항상문제로제기되는컴퓨팅리소스에따른성능에한계를 hadoop의장점인컴퓨팅리소스가부족할경우노드증설로문제가해결된다는것이다. [ 그림 31] Structural variations 분석결과파일예시 개발된파이프라인을이용하여구조적변이검출을실행해보았다. 결과에서는참조 유전체에매핑된 signature 분포를고려하여클러스터를형성한다. 실제 ( 회색막대 ) 분포와계산되어맞춰진 ( 실선 ) 분포를나타내고있다. 파란선은변이가없는경우 66

80 ( 분포의평균은삽입크기인 208bp), 빨강선은 deletion이일어난경우 ( 평균 ~232 bp) 를나타낸다. 아래의테이블에서는구조적변이라예측되는지점의범위를출력한다. 구조적변이검출을위해웹플랫폼기반의서비스를운용하고있다. 웹서비스를이용한구조적변이검출분석을진행할수있으며, 분석결과를웹파일탐색기를제공함으로써결과를확인할수있도록지원하고있다. 다. small RNA-Seq(miRNA-Seq) 데이터분석파이프라인구축 (1) 연구수행내용및결과 본연구에서는 small RNA-Seq 데이터에서오로지 mirna을중점적으로발굴하여분석하는파이프라인을구축하고자한다. 우리의분석파이프라인은다음과같이 1) preprocessing, 2) mapping, 3) normalization, 4) quantification, 5) identification of differentially expressed micrornas (DEmiRs) and their associated mrna targets인 5가지과정으로요약된다. 전처리과정에서는 3 부분에서 adaptor 서열을제거하여순수한 small RNA의서열정보만모으고서열의 quality가높은것들만사용하게된다. 걸러진 reads들은대상종의유전체 reference나 mirna 정보를담고있는데이터베이스에 mapping을시킨다. 그렇게나온 mirna는 read counts로수량화하게되고 normalization을거쳐알려진 mirna의정보를계산한다. 계산되어진 mirna의수치를통해여러가지방법으로프로파일링을하고통계적인방법을통해발현이유의하게차이가나는 mirna를검출하게된다. 검출된 mirna의정보와유전자의발현정보를통합하여 mirna와타겟유전자의상관관계를계산하게된다. 그중에서서로 negative한연관관계를가진후보들을추려서결과로보여주게된다. 67

[ 표 15] 6 명의정상인과폐암환자의 mapping 통계치 Raw 데이터에서 adaptor 서열이제거된 reads 들을

81 [ 그림 32] mirna-seq 데이터분석을위한파이프라인요약도 (2) 연구활용및토의 개발된파이프라인을이용하여 6 명의폐암환자에서다음과같은결과를얻었다. [ 표 15] 6 명의정상인과폐암환자의 mapping 통계치 Raw 데이터에서 adaptor 서열이제거된 reads 들을 perfect match 옵션으로 Bowtie V 프로그램을돌린결과약 70% 을상회하는 reads 들이 mirna 에 mapping 된것을확인하였다. 이렇게 mapping 된 reads 들을가지고 TMM 알고리즘을통해서 68

82 mirna의 count 정보를 normalization 하였다. R 프로그램에서제공하는 edger 패키지를통해통계학적으로유의하게정산인과환자에서발현이차이가나는 mirna 을추출하였다. 정상인과비교했을때폐암환자에서 fold change가 2배 up-regulated 23개의 mirna을발견하였고 2배보다 down-regulated 17개의 mirna를발견하였다. (FDR < 0.01) [ 그림 33] 폐암환자에서발현이차이가나는 mirna 리스트 기능적으로중요한 microrna를추가적으로알아보기위해타겟유전자들의발현수치를이용해서 mirna와타겟유전자들의연관관계를알아보았다. 타겟유전자들은똑같은샘플에서나온유전자발현정보에서 DEG(Differentially Expressed Genes) 에포함되는것으로제한하였다. mirna와타겟유전자의관계를위해실험적으로검증된관계와예측된관계까지모두사용하였다. 검증된타겟관계는문헌의결과에서발표된 mirecords [Ref. 28], mirtarbase [Ref. 29], TarBase [Ref. 30] and mirwalk [Ref. 31] (last update 11, 2011) 데이터베이스를통합하여얻었고예측된관계는 TargetScan [Ref. 32] 을이용하여얻었다. Pearson-correlation 방법을이용하여계수가 0.5보다작고 P-value가 0.05보다작은상관관계를추린결과 151개의 negative 상관관계를얻었다. (14개는실험적으로검증된관계, 137개는예측된관계 ) non-demir와 DEG의 negative한상관관계를알아보기위해 false positive를줄이기위하여실험적으로검증된관계만사용하였다. 같은 cutoffs 수치를이용하고 microrna의발현이 2배이상인것을사용하여추가적으로 53개의 negative한상관관계를얻게되었다. 그래서전체적으로 31개의 microrna와 DEG 안에있는 165개의타겟유전자들사이에서 204개의 negative한상관관계를얻게되었다. 69

83 [ 그림 34] Negative 한상관관계를갖는 microrna 와타겟유전자리스트 라. NGS 데이터를활용한질병관련 SNP 감별 pipeline 개발 (1) 연구수행내용및결과 본 pipeline 의 LIBSVM[Ref. 33] 을 training 과 test 를위해서 SwissVar[Ref. 34] (Swiss Variation) 에서실험으로검증된 data 를사용했다. data format 및개수는 아래그림 39 와표 16, 17 과같다. 70

[ 표 16] SwissVar data Training Set Test Set Polymorphism 3038 300 Disease 1336 300 [ 표 17] SwissVar data 개수 SwissVar의서열을이용하여질병과관련이있는지판단하기위해서는각정보들의수치화가필요하다.

84 [ 표 16] SwissVar data Training Set Test Set Polymorphism Disease [ 표 17] SwissVar data 개수 SwissVar의서열을이용하여질병과관련이있는지판단하기위해서는각정보들의수치화가필요하다. 정확도가높은방법들을선별하고이를수치화하여 LIBSVM을사용해서 training 시켜야하는데각종프로그램들은아래 flowchart의내용과같으며 Wild type과 SNP type을기본으로하고있다. 본 pipeline의 input은두가지로나누어진다. 단백질서열과단백질구조이며각각 4개의프로그램및 DB를사용하게된다. 첫번째로서열기반의분석 pipeline을보면 Domain 정보를비교하기위해 PFAM[Ref. 35], SCOP[Ref. 36], UNIPROT[Ref. 37] 을사용했다. 그리고 Conserved 서열이변이를일으켰는지확인을위하여 NCBI CDD[Ref. 38] 를이용하였으며 SNP가단백질의안정성에문제를일으키는지확인을위하여 I- mutant3.0[ref. 39] 을이용하였다. 그리고기존에많이알려지고쓰고있는 SIFT[Ref. 7], POLYPHEN[Ref. 8] 을사용하였다. 두번째로단백질구조로분석하는 pipeline은구조의변형을위주로비교하게된다. protein-protein이나 protein-chemical의 binding site가변형되었는지판단하는 Ligsite라는프로그램을사용하였다. 실질적인 functional site의변형은많은문제를야기한다는사실은이미 71

[ 그림 35] 질병과관련있는 SNP 판별을위한 piepline flowchart (2) 연구활용및토의 구축된 pipeline의성능을기존의분석도구인 SIFT[Ref. 7], POLYPHEN[Ref.

85 많은논문으로검증된바있다. 그리고 folding에영향을주는지알아보기위해서 turn 부분의 coil을비교하였다. surface를비교하기위하여 Sheba3.1을이용하였다. 그리고 Secondary structure의비교를위해예측프로그램인 DSSP와비교프로그램인 Ssea를사용하였다. 자동화처리전과정은 [ 그림 35] 와같다. [ 그림 35] 질병과관련있는 SNP 판별을위한 piepline flowchart (2) 연구활용및토의 구축된 pipeline의성능을기존의분석도구인 SIFT[Ref. 7], POLYPHEN[Ref. 8] 과비교해본결과 SIFT 79%, POLYPHEN 81%, 본 piepine 84% 로정확성이 3% 정도상승한걸알수있었다. 질병관련 SNP 감별 pipeline은일반연구자누구나간단하게설치할수있고, 인풋데이터값만있으면손쉽게변이에따른단백질의기능변화를볼수있다. 증가되는 Whole exome 및 Whole genome 데이터의변이분석에많은도움을줄것이다. 마. microrna(mirna) 분석을위한포털 (Portal) 시스템구축및서비스 (1) 연구수행내용및결과 72

NGS 방법을통한 mirna 연구가많이수행됨에따라전세계적으로잘알려진공개데이터베이스인 GEO(Gene Expression Omnibus), SRA(Sequence Read Archive) 및 TCGA(The Cancer Genome Atlas) 등으로부터 mirna 단편화된서열및 microarray 정보를통합적으로수집하였고,

86 NGS 방법을통한 mirna 연구가많이수행됨에따라전세계적으로잘알려진공개데이터베이스인 GEO(Gene Expression Omnibus), SRA(Sequence Read Archive) 및 TCGA(The Cancer Genome Atlas) 등으로부터 mirna 단편화된서열및 microarray 정보를통합적으로수집하였고, 수집된단편서열을이용하여기존에실험을통하여밝혀진 mirna의서열에정렬하여알려지지않은 novel mirna를찾아분류하였다. 두번째로기존문헌을조사하여실험으로알려진모든 mirna를질병별, 기관별로분류하여사용자가보다쉽게분류기준별로검색할수있도록하였다. 마지막으로 mirna는특정유전자의발현을조절하기위하여타겟유전자와바인딩하여유전자를조절하는기능을한다하지만현재도실험이아닌계산적인방법으로 mirna의타겟이되는유전자를예측하는방법은어렵다. 따라서기존에알려진 mirna의타겟유전자및인공지능방법을이용한예측프로그램의결과를통합하여사용자가관심있는 mirna의바인딩타켓의후보를제안하여사용자가쉽게검색할수있도록하였다. [ 그림 36]. mirgator 3.0 모식도 mirna portal 시스템은 migator v3.0 서비스는현재 시스템은사용자가관심있는 mirna를 mirbase 기준의 id로검색할수있으며아래그림과같이사용자의관심 mirna의 id를이용하여검색하면간단한실험및스터디정보와각실험에서사용하였던서열정보를페이지에서확인할수있으며각각의스터디에링크를통하여문헌정보를확인해볼수있도록하였다. 필요한경우특정 mirna를분석하기위해실험에서얻어온단편화된서열 (Read) 을이용하여얼라인먼트 ( 정렬 ) 된뷰어를확인할수있다. 또한 mirna와 73

0: a microrna portal for deep sequencing, expression profiling, and mrna targeting, Nucleic

87 mirna가조절할 mrna가바인딩할가능성이있는유전자리스트및반대로특정유전자와바인딩할가능성이있는 mirna의리스트를확인할수있도록정보를제공하고있으며, 기존실험을통해얻은 mirna-mrna 발현상관관계정도를 heatmap 형태로확인할수있도록하였다. [ 그림 37] mirgator 3.0 분석결과 mirgator v3.0: a microrna portal for deep sequencing, expression profiling, and mrna targeting, Nucleic Acids Research 2013 Jan;41(Database issue):d 게재 (2) 연구활용및토의 현재매월평균 600 여명이방문하고있으며, 전세계다양한국가에서접속하여사 용하고있다. 74

88 [ 그림 38] mirgator 3.0 사용접속현황 바. NGS 기술을이용한환경유전체 (metagenome) 의해독및분석파이프라인고도화 대용량의환경유전체염기서열을이용한미생물다양성분석파이프라인은다음과같 은작업의흐름에의해설계하였음. (1) 시료의채취및 amplicon sequencing 우선인간의장내, 피부, 토양, 바다, 식물의근권등에서군집하는미생물들을채취 하여 454 GS FLX 등의대용량염기서열해독기를통해샘플내의모든 16S rrna 단편서열을해독하면, 수천에서수억의염기서열이생성된다. (2) Quality control 생성된염기서열은 Quality control 단계에서서열의해독상에서발생할수있는문제 (homopolymer, chimeric 서열, 잘못해독된서열등 ) 를 AmpliconNoise같은프로그램으로문제가되는단편서열을제거하고, 미생물다양성분석이가능한단편의염기서열들을추출한다. 비록 AmpliconNoise는대용량의단편서열을처리하게에는다소느린속도를보이지만, 비교적정확한결과를도출하므로유용하게사용될수있다. (3) OTU 분석 75

OTU 분석단계에서는단편의염기서열을 operational taxonomic unit (OTU) 로가정하여 CLUSTOM, ESPRIT-Tree, DOTUR등과같은 OTU clustering 프로그램으로 OTU를 family, genus, species로그룹화하는데, 이때

그룹화된 OTU들은 SILVA, Greengene과같은다양한데이터베이스와 local alignment 또는 global alignment 프로그램을사용하여각 OTU 혹은 OTU 그룹에대한 taxon을결정하고최종적으로샘플에존재하는미생물의군집상태를분석한다.

89 OTU 분석단계에서는단편의염기서열을 operational taxonomic unit (OTU) 로가정하여 CLUSTOM, ESPRIT-Tree, DOTUR등과같은 OTU clustering 프로그램으로 OTU를 family, genus, species로그룹화하는데, 이때 16S rrna 단편서열의수가많기때문에처리속도가우수하면서정확도가높은 CLUSTOM이유용하다. 그룹화된 OTU들은 SILVA, Greengene과같은다양한데이터베이스와 local alignment 또는 global alignment 프로그램을사용하여각 OTU 혹은 OTU 그룹에대한 taxon을결정하고최종적으로샘플에존재하는미생물의군집상태를분석한다. (4) 최종분석단계 최종적으로분석된샘플내의모든미생물에대한 taxa 정보와채취할때의환경에대한정보 (metadata) 는다른환경의환경유전체와비교분석할수있고, 특이적환경에의환경유전체는예측분석을위한지표로서활용될수있다. 파이프라인의각단계에사용되는프로그램은대용량의처리를위한컴퓨터재원에맞게컴파일하여재구성하거나, 분산처리가가능하도록프로그램에서제공하는옵션을사용하는등의최적화작업도함께진행된다. [ 그림 37] 미생물다양성분석파이프라인 [ 그림 39] 피부에대한미생물다양성 (Nature, 2011) 76

3. 차세대유전체정보생산시범사업 가. 위암줄기세포의전사체및후성유전체분석 1) MBD -Seq 을이용한 DNA 메틸화분석 3 명의환자로부터분리한정상, 위암줄기세포및비암줄기세포에서 DNA 메틸화차이를규명하기위해 MBD sequencing 을수행하였고, DMR (Differentially Methylated Region) 을찾았음.

90 3. 차세대유전체정보생산시범사업 가. 위암줄기세포의전사체및후성유전체분석 1) MBD -Seq 을이용한 DNA 메틸화분석 3 명의환자로부터분리한정상, 위암줄기세포및비암줄기세포에서 DNA 메틸화차이를규명하기위해 MBD sequencing 을수행하였고, DMR (Differentially Methylated Region) 을찾았음. 또한 Promter 영역의 DMR 을유전자발현의상관관계를직접분석함으로써, 유전자발현에직접적으로영향을미치는 DMR 타겟유전자를찾아냄. DNA는 MBD-seq 및 RRBS 등의차세대염기서열분석기술을이용한후성유전체분석을수행함. MBD-seq( 그림 39 참조 ) 은인간의 MBD2 (methyl-cpg binding domain 2) 단백질을이용한메칠-DNA의면역침강법을수행하고차세대염기서열분석을통해전유전체의 DNA methylation profile을얻는방법임. [ 그림 40] MBD-Seq 수행절차 염기서열해독및 reference 서열매핑 위암진행 3단계에대해 MBD-seq 절차에따라각샘플별로약 2,400~2,800 만개의서열을얻을수있었으며, MBD-seq의경우메틸화부위의서열가운데시퀀싱된 76bp에대해서만매핑정보가있으므로방향성을고려하여시퀀싱이전사이즈인 200 bp로확장을하여메틸화된범위로가정하여이후분석을진행하였음. Saturation 분석 77

91 DNA 메틸화는연속된 CG 서열에서빈번하게발생하기때문에, 레퍼런스지 놈의 CpG 위치를기반으로 coverage 및 depth 를계산하였으며, 다음분석을 위한시퀀스리드들의 depth 가충분히 saturation 되었는지를분석. 위암단계별메틸레이션패턴분석 위암진행단계별로메틸화수준을측정하기위해시료사이에차이가나는부분을 MES 값을이용한 normalization을통해보정후각단계별로비교하였으며, 정상조직 (Normal) 과위암줄기세포 (GCSC) 의비교에서상대적으로큰차이를보였으며, 위암줄기세포와비암줄기세포에서의차이가가장적었음. 2) RNA Seq 을이용한전사체연구 RNA-Seq은분석시료로부터추출된 mrna를대상으로시행하는차세대염기서열분석기술로써 ([ 그림 40] 참조 ), 도출된 read 수를이용해 RNA 변화양을측정함과동시에 alternative splicing, allele-specific expression, non-coding RNA 발현등의다양한 RNA의정량적인변화를측정하게함. 동시에 sequence mutation, fusion transcript 과같은 DNA 상의변화에대한 정보도제공하고있어, 암진행과정에서의주요유전적변이를조사하는데 많은정보를제공할수있는유용한방법임. 78

92 [ 그림 41] RNA-Seq 수행절차 전사체분석을위해서는 RNA-Seq 방법을적용하여줄기성세포와비줄기성 세포사이에서차이가나게발현되는전사체및 alternative splicing 양상을 분석함. Tophat으로나온 junction bed 파일을사용하여, 엑손과유전자레벨의 junction 그래프를그리고, 위암줄기세포와비암줄기세포사이에차이가나는 spliced 엑손을찾은후, 유전자레벨에서는차이를보이지않는형식의분석을 in house script를이용하여분석함. 3) 유전자전사체분석과 DNA 메틸화분석의통합분석 연구의최종목표인유전자발현에대한정보및이에영향을미치는메틸레 이션레벨을종합적으로분석하고자함 ([ 그림 41] 참조 ). 79

[ 그림 42] 유전자전사체분석과 DNA 메틸화분석의통합분석 workflow 4) 위암줄기세포의 small RNA 분석

93 이미알려진내용인유전자발현과주로해당유전자의프로모터를포함한 upstream 영역의메틸레이션관계를토대로 negative correlation 결과를보이 는유전자그룹을선별함. [ 그림 42] 유전자전사체분석과 DNA 메틸화분석의통합분석 workflow 4) 위암줄기세포의 small RNA 분석 Small RNA-Seq 을수행하여위암줄기세포와비암줄기세포에서의차이나 는 small molecule 을규명하여, stemless 에중요한 factor 를밝히고자함. [ 그림 43] srna 분석 workflow 80

94 일반적으로수행하는 mirna 분석법을사용하여, 위암줄기세포와비암줄기세 포간에차이나는 mirna 를선정한후, 앞서설명한 DMR(Differentially methylated region) 간에차이나는지를확인함 ([ 그림 42] 참조 ). 추가분석으로, 위암줄기세포와비암줄기세포간에차이나는 mirna 의기능 분석을통해서줄기세포와연관있는 mirna 의리스트를확인함. (2) 연구개발내용및결과 1) RNA Seq 분석결과 Heatmatp 분석결과및유전자세트분석결과 정상세포, 위암줄기세포와비줄기세포에서모든유전자를대상으로유전자발현패턴을분석하였으며 ([ 그림 44]-A 참조 ), 유전자의발현패턴이어떤기능적인의미를갖는지를살펴보기위해, PAGE(Parametric Analsis of Geneset Enrichment) 를이용하여유전자세트분석을수행함. 그결과, biological process에서는 development관련유전자들이줄기세포와비교하여비줄기세포에서많이포함되어있었으며 ([ 그림 44]-B 참조 ) KEGG pathway 에서는 MAPK pathway와 Notch signaling pathway에서줄기세포와비교하여발현이많이하는유전자가포함되어있음을확인하였음 ([ 그림 44]-C 참조 ). [ 그림 44] 유전체분석결과 시각화를통한위암줄기세포특이적 alternative splicing 변이 81

Alternative splicing variant분석을수행한결과 normal, 비줄기세포에서와다른위암줄기세포특이적 splicing 패턴을찾을수있었음. 각조직에서찾은위암줄기세포특이적 splicng을후보인 TPM1 gene을조직에서보았을때 ([ 그림 45]-A 참조 ) 와위암세포주 ([ 그림 45]-B 참조 ) 에서각각나타냄.

95 Alternative splicing variant분석을수행한결과 normal, 비줄기세포에서와다른위암줄기세포특이적 splicing 패턴을찾을수있었음. 각조직에서찾은위암줄기세포특이적 splicng을후보인 TPM1 gene을조직에서보았을때 ([ 그림 45]-A 참조 ) 와위암세포주 ([ 그림 45]-B 참조 ) 에서각각나타냄. [ 그림 45] 위암특이적 alternative splicing 변이 2) 프로모터메틸레이션과유전자발현의상관관계 비암줄기세포에서 hyper-methylation 되어있으며유전자발현이감소하는 유전자 MBD-seq분석으로찾은 DMP(Differentially methylation in Promoter) 와 RNA-seq으로찾은 DEG(Differentially expressed gene) 간의상관관계분석을통해위암줄기세포와비교해보았을때비줄기세포에서 hyper -methylation되어있으며, 유전자발현이감소하는패턴을보이는유전자를찾음. ([ 표 18] 참조 ) chrom spos epos id M_fc strand chrom 2 chr chr7 chr chr3 chr chr7 chr chr15 chr chr2 chr chr6 chr chr3 chr chr6 genespo s geneepo s strnad gene exon anno gene2 E_fc 2 Promo INSIG INSIG1. + ter 1 62 Promo HES1. + HES1 ter 52 Promo EEPD EEPD1. + ter 1 81 Promo SPRE SPRED1. + ter D1 07 ARL ARL4C 1 - exon C 33 ULBP3. - FRMD4 FRMD exon B 4B 54 Promo PIM1. + PIM1 ter 76 Promo ULBP ter 3 62 [ 표 18] 비암줄기세포에서과메틸화되어있으며유전자발현이감소하는유전자 82

96 프로모터메틸레이션과유전자발현의 negative 상관관계를갖는유전자의세 포주에서발현양. - 위암줄기세포와비교했을때비줄기세포에서 hyper-methylation 되어있으며유전자발현이감소하는유전자중에서줄기세포의유지에영향을주는 HES1(hairy and enhancer of split-1) 과줄기세포에서 development 와 differentiation에많은연구가진행된 SPRED1(Sprouty-related, EVH1 domain-containing protein 1) 유전자를다양한위암세포주에서발현양을측정함. - HES1 유전자는 SNU601, AGS 와 SNU719 에서발현이많이증가되어있 었으며, hs738, SNU005, SNU668, SNU001 에서현저히감소되는것을 확인할수있었음 ([ 표 19] 참조 ). - SPRED1 유전자는 SNU601, SNU638, SNU016 과 SNU719 에서발현이증 가되어있었으며, MKN1, SNU216, SNU668 에서발현이감소되고있음을 확인할수있었음.([ 표 19] 참조 ) [ 표 19] HES1 과 SPRED1 유전자의다양한위암세포주에서발현양 3) 위암줄기세포와비교하여비암줄기세포에서과발현되는 mirna 의 Fuctional annotation 결과 위암줄기세포와비교하여비암줄기세포에서과발현되는 mirna 의기능분석을 통해서 mir222,mir184, mir296 가줄기세포의분화를조절하는것을확인함 ([ 표 20] 참조 ) Name Overlapping Entities p-val ue cell growth MIR222,MIR155,MIR125A,MIR26A1,MIR192,MIR101-1,MIR200C,MIR31,MIR215,MIR141,MIR324,MIR10A,MIR 2.22E 83

LET7G,MIR326,MIRLET7B,MIR204,MIR296,MIR30E,MIR181A2,MIR152-05 epithelial to mesenchymal transition MIR155,MIR192,MIR10B,MIR200C,MIR215,MIR141,MIR200B,MIR429 7.

97 LET7G,MIR326,MIRLET7B,MIR204,MIR296,MIR30E,MIR181A2,MIR epithelial to mesenchymal transition MIR155,MIR192,MIR10B,MIR200C,MIR215,MIR141,MIR200B,MIR E -05 cell proliferation MIR222,MIR196B,MIR155,MIR125A,MIR26A1,MIR15B,MIR192,MIR101-1,MIR200C,MIR184,MIR107,MIR31,MIR215,MIR 141,MIR210,MIR212,MIR10A,MIRLET7G,MIR326,MIRLET7B,MIR335,MIR197,MIR584,MIR mesenchymal to epithelial transition cell invasion vascularization MIR200C,MIR141,MIR429 MIR222,MIR155,MIR10B,MIR101-1,MIR200C,MIR31,MIR200B,MIR335,MIR584 MIR222,MIR125A,MIR26A1,MIR192,MIR101-1,MIR107,MIR210,MIR10A,MIR200B,MIRLET7B,MIR osis MIR222,MIR155,MIR125A,MIR128-2,MIR26A1,MIR15B,MIR192,MIR101-1,MIR184,MIR107,MIR31,MIR182,MIR141,MIR2 10,MIR326,MIR204,MIR335,MIR296,MIR30E,MIR cell cycle cell migration cell differentiation MIR222,MIR155,MIR26A1,MIR15B,MIR192,MIR107,MIR31,MIR215,MIR141,MIR210,MIR212,MIRLET7G,MIRLET7B,MIR 335 MIR222,MIR155,MIR125A,MIR10B,MIR101-1,MIR200C,MIR31,MIR210,MIRLET7G,MIR204,MIR339 MIR222,MIR196B,MIR155,MIR125A,MIR26A1,MIR101-1,MIR200C,MIR184,MIR107,MIR182,MIR141,MIR210,MIR10A,MI R326,MIRLET7B,MIR204,MIR stem cell differentiation DNA repair smooth muscle cell differentiation MIR222,MIR184,MIR296 MIR196B,MIR155,MIR31,MIR182,MIR210 MIR26A1,MIR10A [ 표 20] 비암줄기세포에서과발현되는 mirna 의 functional annotation 나. 염증성장질환모델시스템에서미생물군집분석 (1) Amplicon 의제작및점검 회수된 metagenome 내에 bacterial genomic DNA 가충분히존재하는것을다음그 림과같이확인할수있었음. [ 그림 46] Bacterial 16S rrna gene 의 amplicons 84

98 [ 그림 46] 16S rrna gene 분석을위한 amplicon 위치 [ 그림 47] pyrosequencing 을위한 amplicons (2) 대용량 DNA sequencing 을통한군집구조조사 염증성장질환환자의 시료에서는 및 그룹이정상인의군집에서보다매우높은비율로존재하는것을확인할수있었음 또한 정상인에비하여 가속하는 그룹및 그룹의비율이현저히낮음을확인할수있었음 하지만 이러한 패턴은서양인으로부터획득한군집구조와는또다른양상을보임 85

99 [ 그림 48] Class 수준에서의미생물군집양상 다. 식물상호작용 microbiome 연구 (2) 연구수행방법 1) 토양시료의확보 본연구를위하여 10 년동안지속적으로고추를재배한충북보은지역의고추 포장에서토양을채집하여 microbiome 연구에사용함 2) 해충처리 온실가루이 (whitefly) 에노출시키기전과후 1 주일간격으로식물체주위의토 양을채취하여 DNA 와 RNA 를추출함 3) 라이브러리의제작 본연구실에서기확립된방법으로 fosmid library 를작성함 4) metagenome sequencing 에의한군집분석 근권미생물군집을대상으로분리한메타게놈으로부터 16S rrna 유전자를 barcord primer 를이용하여증폭하여 NGS 방법으로 16S rrna gene amplicon 86

100 의대규모염기서열을획득함. 이를 Greenegenes/SILVA/RDP 등 16S rrna gene database와비교하여각염기서열을동정하고 MEGAN 프로그램을활용하여시각화함 라. 유방암에서의 SNP, DNA methylation, 유전자발현정보분석 Sequence variation을위한실험을진행하여 DNA 메틸화와유전체상관관계를규명하는연구를수행한결과및유전자발현과표현형과의상관관계를규명하는기반기술을개발한결과를 BMC Bioinformatics (2012, 13(suppl 3) S15) 와 Journal of Translational Medicine( :54) 에각각보고하였다. 또한여러 DNA 영역 (promotor, CpG island, CpG shore, exon, intorn) 의 methylation과유전자발현상관관계를 Pearsons' correlation 으로측정하여유방암의표현형질에따라 DNA methylation과유전자발현상관관계가다름을보였다. 미국으로부터유방암세포주의 DNA를전달받아, 각염기서열단위의메틸화정도를분석하기위해 NICEM에의뢰하여 bisulfite DNA-seq 실험을수행하여유방암표현형질에따라다르게메틸화되는부분을찾고그부분의 genetic variation을알아내고이를표현형질과연결하는연구를진행하였다. 또한, TF-gene network를구축하여유방암표현형질사이에다른발현량을보이는모듈을찾아내었으며이모듈들이실제적으로유방암의표현형질을다르게나타내는모듈이라는것을확인하였다. DNA 염기서열다양성과 DNA 메틸화의관계를연구함으로써염기서열의메틸화된정도와메틸화패턴이염기서열에의해결정된다는주장을뒷받침할만한정보들을찾아내었다. 마. NGS 기반기술의폐암의 MeDIP-seq 및 small RNA-seq 원천데이터확보 (1) 연구내용 1) 임상적의미를부여할수있는폐암유전체의실험을디자인하고시료를확보 함. 임상적의미가명확한환자의조직샘플을다수확보함 (14 명 ). 대표적호발성암인비소세포성폐암 (non-small cell lung carcinoma) 를대상 으로함. Data 의가치를극대화하기위해환자군을비흡연여성으로제한하고환자의 숫자를최대한으로늘리는 study design 을채택함. 역시 study design 의일부로서암조직의주변에있는정상페조직을비교군 으로확립함. 87

101 면역침전을통해 methylated CpG DNA 의염기서열을각조직당성공적으 로생산하고후성유전체분석의기반을제시함. 2) 폐암시료확보 삼성서울병원흉부외과연구실로부터임상시료의확보함. Methylated CpG island DNA 시퀀싱분석을위한 genomic DNA 분리, 정량, QC 테스트를진행하여손상되지않은 genomic DNA 임을확인. Small RNA-seq 분석서비스를위한 total RNA 의분리, 정량, QC 테스트를 진행하여적격의시료를선별함. Methylated CpG island DNA 염기서열확보. Infinium HumanMethylation450 BeadChip 분석서비스를진행하여 Methylated CpG island DNA 을조사하고염기서열확보과정을수행중임. small RNA 염기서열확보. Illumina HiSeq 분석서비스를통해 small RNA 염기서열확보과정을수행중 임. (2) 연구결과 각샘플조합에대하여최근개발된 NGS (Next-Generation Sequencing) 염기서 열분석기술을이용하여다음과같은다양한플랫폼의염기서열데이터를생산및 확보함. 1) MDIP-Seq 염기서열생산 Infinium HumanMethylation450 BeadChip 분석서비스를진행함. Infinium HumanMethylation450 BeadChip에는 450,000 이상의 methylation sites를포함하며, 1,000개이상의 cancer-related gene과 110 여개의 mirna promotor region을포함함. 88

[ 그림 49] infinium HumanMethylation450 BeadChip 분석서비스의진행과정모식도 Sample Read Length (bp) # Total Reads # Mapped Reads # Unique Reads P1N 101 41,779,688 39,548,851 (94.66%) 15,793,858 (39.

102 [ 그림 49] infinium HumanMethylation450 BeadChip 분석서비스의진행과정모식도 Sample Read Length (bp) # Total Reads # Mapped Reads # Unique Reads P1N ,779,688 39,548,851 (94.66%) 15,793,858 (39.94%) P1T ,417,109 36,503,317 (95.02%) 15,625,835 (42.81%) P3N ,574,772 35,756,820 (95.16%) 14,031,413 (39.24%) P3T 50 50,891,334 42,044,848 (82.62%) 18,107,822 (43.07%) P4N 50 59,214,920 46,856,827 (79.13%) 15,087,562 (32.20%) P4T 50 56,687,621 46,337,339 (81.74%) 17,790,651 (38.39%) P5N 50 58,092,682 46,192,828 (79.52%) 14,840,240 (32.13%) P5T 50 53,599,728 44,132,418 (82.34%) 16,596,380 (37.61%) P6N 75 41,654,421 38,132,616 (91.55%) 14,516,599 (38.07%) P6T ,105,545 36,468,222 (93.26%) 14,089,757 (38.64%) P8N 50 52,503,587 38,309,352 (72.97%) 12,765,207 (33.32%) P8T 50 58,414,225 45,588,245 (78.04%) 16,060,922 (35.23%) *N,normal;T,tumor. [ 표 21] MeDIP-Seq 데이터의매핑결과 2) CpG island DNA 의 probe 수가각환자간다양함을확인할수있었음. 89

103 [ 그림 50] CpG site 3) small RNA 발현염기서열생산 Sample Total reads P1N 28,645,348 P1T 34,742,127 P3N 32,728,775 P3T 30,531,469 P4N 29,140,944 P4T 29,433,890 P5N 30,970,140 P5T 30,105,887 P6N 31,808,386 P6T 28,894,660 P8N 32,016,524 P8T 32,667,150 * N, normal; T, tumor. 3' removed reads 17,741,526 22,193,690 23,684,929 19,386,535 20,325,562 15,214,198 22,981,541 19,611,741 22,587,121 15,240,466 19,651,378 17,044,498 Reads on mirna Unmapped Unique reads 12,998,220 (73.3%) 4,743,306 (26.7%) 468,113 17,356,451 (78.2%) 4,837,239 (21.8%) 384,296 15,457,357 (65.3%) 8,227,572 (34.7%) 390,295 14,321,414 (73.9%) 5,065,121 (26.1%) 297,653 14,202,756 (69.9%) 6,122,806 (30.1%) 367,457 10,971,932 (72.1%) 4,242,266 (27.9%) 366,762 16,928,225 (73.7%) 6,053,316 (26.3%) 308,108 15,517,262 (79.1%) 4,094,479 (20.9%) 336,814 16,063,355 (71.1%) 6,523,766 (28.9%) 324,151 11,737,779 (77.0%) 3,502,687 (22.9%) 326,881 13,281,147 (67.6%) 6,370,231 (32.4%) 317,851 13,050,868 (76.6%) 3,993,630 (23.4%) 361,839 [ 표 22] small RNA 시퀀싱데이터의매핑결과. mirna ID FDR logfc npatde npat2fold mirna ID FDR logfc npatde npat2fold hsa-mir E hsa-mir-27a* 6.47E hsa-mir-9* 6.49E hsa-mir-30a* 3.28E

hsa-mir-96 3.11E-06 2.64 6 6+ hsa-mir-30c-2* 1.24E-04-2.30 5 5- hsa-mir-127-3p 4.52E-04 2.14 6 6+ hsa-mir-126 9.23E-07-2.79 6 6- hsa-mir-134 1.55E-04 2.31 6 5+ hsa-mir-126* 2.79E-04-2.

104 hsa-mir E hsa-mir-30c-2* 1.24E hsa-mir-127-3p 4.52E hsa-mir E hsa-mir E hsa-mir-126* 2.79E hsa-mir-135b 4.01E hsa-mir-135a 1.59E hsa-mir-135b* 1.56E hsa-mir-139-5p 3.35E hsa-mir E hsa-mir E hsa-mir E hsa-mir-144* 6.54E hsa-mir-183* 1.53E hsa-mir E hsa-mir E hsa-mir-338-5p 7.94E hsa-mir E hsa-mir-338-3p 1.05E hsa-mir-301b 3.06E hsa-mir E hsa-mir-380* 3.19E hsa-mir-486-5p 1.17E hsa-mir-409-3p 7.23E hsa-mir-486-3p 1.20E hsa-mir E hsa-mir E hsa-mir E hsa-mir E hsa-mir E hsa-mir E hsa-mir E hsa-mir E hsa-mir E hsa-mir E * FDR, log 2FC(foldchange)fromedgeR program * npatde = number of patients with differential expression in edger test (FDR cutoff = 0.01) for each patient * npat2fold = number of patients over two fold expression change (+,- indicates up- or downregulation in tumor tissue) [ 표 23] Table. 차등발현되는 microrna 의리스트 4) 다양한 NGS 플랫폼에서생산검증된염기서열정보와의통합. 궁극적으로폐암관련진단예후마커, 원인성유전자변형및신약타겟을발굴 하기위한기본실험기반을확립함. [ 그림 51] 폐암규명을위한멀티오믹스적해석 (3) 원천데이터활용및기대효과 1) 원인성유전자변형발굴등을통해폐암메커니즘을규명하고, 궁극적으로폐 91

암의진단예후마커, 원인성유전자변형및신약타겟을발굴하는데기여할 수있음. 2) 유전체와전사체의 NGS 플랫폼으로부터생산된염기서열데이터와표준데이터로정리된암유전체데이터는생물학및생물정보연구자들이각분야의비교분석등의연구에활용할수있어국내관련학문및산업분야의활성화에기여할수있음.

105 암의진단예후마커, 원인성유전자변형및신약타겟을발굴하는데기여할 수있음. 2) 유전체와전사체의 NGS 플랫폼으로부터생산된염기서열데이터와표준데이터로정리된암유전체데이터는생물학및생물정보연구자들이각분야의비교분석등의연구에활용할수있어국내관련학문및산업분야의활성화에기여할수있음. 3) 다양한 NGS 플랫폼으로부터생산된염기서열정보를통합하여분석할수있는 생물정보학기반의해석툴및알고리즘개발과확장에기여할수있음. 바. NGS 기술기반편평상피세포폐암원천 multiomics data 확보 (1) 연구내용및결과 1) 한국인평상피세포폐암환자에서 Exome-seq, RNA-seq, small RNA 및 CNV 데이터에대한연구자료를생산및확보하며보된서열정보를표준데이터로 정리함. 2) 멀티오믹스데이터생산및확보 Whole-Exome Sequencing 데이터 [ 표 24] Whole-Exome Sequencing 데이터 mrna Sequencing 데이터 92

106 [ 표 25] mrna Sequencing 데이터 small-rna Sequencing 데이터 [ 표 26] small-rna Sequencing 데이터 93

arraycgh 방법및데이터 [ 표 27] arraycgh 방법 [ 표 28] arraycgh 데이터 (2) 원천데이터활용및기대효과 차세대시퀀싱기술을이용한멀티오믹스데이터는암및질환의원인을규명할수있는높은가치의데이터이다. 의학및생물학분야의전문가가긴밀한네트워크를형성하여암및질병에대한해석을시도하고, 진단예후마커발굴과신약개발을위한기초를다졌으면한다. 사.

107 arraycgh 방법및데이터 [ 표 27] arraycgh 방법 [ 표 28] arraycgh 데이터 (2) 원천데이터활용및기대효과 차세대시퀀싱기술을이용한멀티오믹스데이터는암및질환의원인을규명할수있는높은가치의데이터이다. 의학및생물학분야의전문가가긴밀한네트워크를형성하여암및질병에대한해석을시도하고, 진단예후마커발굴과신약개발을위한기초를다졌으면한다. 사. 한국인암유전체해독 : 침윤성방광암환자조직확보및유전자발현프로파일링 (1) 유전자발현프로파일조사 연세대세브란스병원비뇨기과교실로부터현재까지 136 침윤성방광암환자조직을 확보하고유전자발현프로파일데이터를생성하였음. 생성된침윤성방광암유전자발현프로파일데이터를기구축중인 Korean Cancer Genome Database (KCGD) 에등록하였음. 94

침윤성방광암환자가크게유전자발현패턴이확연히다 른두개의그룹으로나뉨을확인할수있음 (4,456 genes by SD > 0.7) ( 그림 x).

108 생성된유전자프로파일링데이터를기반하여 136 환자의발현수준을정규화없이 요약표시하였을때, 각환자마다발현량에있어어느정도의변이가있는것으로판 별되므로 quantile 정규화기법을이용하여이를보정하였음 ( 그림 x). [ 그림 52] 정규화전후의침윤성방광암유전자발현의 box plots (n=136) 정규화를거친유전자발현데이터를이용하여 unsupervised hierarchical clustering 분석법을적용하였을때, 침윤성방광암환자가크게유전자발현패턴이확연히다 른두개의그룹으로나뉨을확인할수있음 (4,456 genes by SD > 0.7) ( 그림 x). [ 그림 53] 침윤성방광암 136 샘플의 unsupervised hierarchical clustering 본결과는같은침윤성방광암환자라할지라도, 분자수준에서서로다른특징을가 지는 subtype 이존재함을의미하며, 두환자군의특징이침윤성방광암환자의예후 와어떤연관성을가질가능성이높음을의미함. (2) DNA 시료기반타겟시퀀싱및 exome 시퀀싱데이터생산 95

연세대세브란스병원비뇨기과교실로부터침윤성방광암의 DNA 시료를확보하고 이와정합되는임상정보를정리하였음. 체계적으로정리된임상정보를바탕으로주어진예산범위내에서 DNA 시퀀싱을통 한정보를생산중에있음. 침윤성방광암의 DNA 시퀀싱데이터활용방안 - 이미확보한 300 샘플의한국인방광암유전자발현프로파일데이터와통합분석 을수행할수있음.

109 연세대세브란스병원비뇨기과교실로부터침윤성방광암의 DNA 시료를확보하고 이와정합되는임상정보를정리하였음. 체계적으로정리된임상정보를바탕으로주어진예산범위내에서 DNA 시퀀싱을통 한정보를생산중에있음. 침윤성방광암의 DNA 시퀀싱데이터활용방안 - 이미확보한 300 샘플의한국인방광암유전자발현프로파일데이터와통합분석 을수행할수있음. - 예후가극단적으로떨어지는한국인침윤성방광암의 subtype 및예후예측마커 발굴에활용할예정. - 본생성된데이터는국내외연구자들이추가적인연구에활용할수있도록 KCGD 를통하여공개함. - 타암종의한국인암유전체데이터와통합분석할수있는시범사업에활용가능. - 최근보고에따르면이미알려진유방암의 subtype 을이용하여, 방광암에서유전자 발현이비슷한유방암유사 subtype 을정의할수있음이보고되었음 (Choi et al., 2014) ( 그림 54). [ 그림 54] 유방암의 Basal and Luminal Subtypes 특징을가지는방광암과연관유전자들의 돌연변이패턴 - 그러므로침윤성방광암의 DNA 시퀀싱데이터를시작으로타암유전체데이터와 의통합분석에적용함으로써 personalized cancer medicine 이가능한생물정보학 인프라구축에활용할수있을것으로사료됨. 96

110 4. 차세대유전체분석인력양성단기교육프로그램 가. 유전체정보 Workshop 운영 (1) 교육운영프로세스구축 [ 그림 55] 교육운영프로세스 1) 전체적인교육계획일정및계획수립은이화여대에서담당하고, 교육의주제에 따른커리큘럼과강사선정은 KSBSB 학회와협의하여선정. 2) 세부교육수립및교육장교육생숙식등은지역에교육장소선정에따라, 예약 및관리운영은서울은이화시스템생물학연구소 (ERCSB), 대전은국가생명연구자 원정보센터 (KOBIC) 에서담당하여진행. 교육대상자를위한실시간블로그운영 ( - 접근성이높은블로그를운영함으로써교육의활성화도모 (*SNS 와연계 ) - 블로그를이용하여고객과의소통함으로써열린교육지양 - 국내외생명정보교육정보및프로시딩스, 실습자료등제공 97

111 [ 그림 56] 차세대생명정보교육 Blog 3) 교육등록및접수 한국생물정보시스템생물학회 (KSBSB) 에서개발한교육등록및관리시스템을 이용하여쉽게등록하고관리. 교육별, 수강별, 교육이수자등의정보등관리. [ 그림 57] 교육등록및관리시스템 4) 매교육시마다교육생의사전학습능력조사를실시하여더좋은교육을제공하 고자노력 98

112 [ 그림 58] 온라인사전설문조사 5) 교육준비 교육생들의수준에맞춘강의교재제작 ( 무료배포 ) * 저작권에저촉되지않는선에서온라인 PDF 자료무료배포 [ 그림 59] 강의교재제작 6) 교육계획에맞춘전산환경준비 99

113 [ 그림 60] 실습서버세팅및프로그램설치 7) 교육실시 매회교육생모집시조기등록마감이될정도로높은반응을얻고있으며, 실무위주의교육을지향함으로써교육만족도매우높임 100

114 [ 그림 61] 교육사진 8) 교육평가및고찰 교육과정을모두이수한교육생들에게한국생명공학연구원장 (KRIBB), 한국 생물정보시스템생물학회 (KSBSB) 장의명의로발행되는수료증제공함으로써 적극적참여를도모하고교육의위상과, 신뢰성을높임. 매회과목별교육평가실시하여교육의질적향상재고하고교육의장담점을 파악하고, 교육생의의견을반영하여교육운영의고도화. (2) KOBIC 생명정보교육 Workshop 실적 1) 회차별교육실적 No 회차교육기간교육주제교육생 회 (1 일 ) Linux 기반사체 (RNA-seq) 데이터분석 30 명 ( 학생 19, 일반 11) 회 ~21(2 일 ) RNA-seq 기반전사체분석 28 명 ( 학생 14, 일반 14) 회 ~29(3 일 ) 유전체분석과시각화를위한 R 언어실습 31 명 ( 학생 16, 일반 15) 회 ~14(3 일 ) NGS 기반유전체, 전사체분석 29 명 ( 학생 15, 일반 14) 회 ~05.3(5 일 ) 차세대시퀀싱정보분석교육 42 명 ( 학생 12, 일반 30) 16 15회 ~26(2일) Linux,SQL,R,Python 을활용한생명정보분석 28명 ( 학생18, 일반10) ~28(2일) 교육 ( 기초과정 ) 24명 ( 학생10, 일반14) 회 (2 차 ) 14 회 (1 차 ) ~02.15(3 일 ) R 언어를이용한 Multi-omics 자료통합분석 32 명 ( 학생 20, 일반 12) ~01.31(4 일 ) R 언어를이용한 Multi-omics 자료통합분석 32 명 ( 학생 15, 일반 17) 회 ~12.07(3 일 ) 시스템생물학분석교육 30 명 ( 학생 14, 일반 16) 회 ~10.16(5 일 ) RNA-Seq 및 NGS 데이터분석교육 40 명 ( 학생 15, 일반 25) 회 ~08.28(2 일 ) 희귀질환 / 암유전체 Exome 분석중급교육 23 명 ( 구분 X) 회 ~08.01(3일) 생명정보실무를위한프로그램교육 40명 ( 구분X) ~08.03(2일) (Linux, Python MySQL, R) 40명 ( 구분X) 9 9 회 ~18(2 일 ) 네트워크생물학 시스템생물학에서네트워크분석 40 명 ( 학생 16, 일반 24) 8 8 회 ~30(5 일 ) 생물학자를위한생물정보기초교육 40 명 ( 학생 14, 일반 26) 7 7 회 ~29(3 일 ) 네트워크생물학 시스템생물학에서네트워크분석 30 명 ( 학생 13, 일반 17) 6 6 회 ~12.23(5 일 ) 차세대시퀀싱 (Next-Generation Sequencing) 40 명 ( 학생 21, 일반 19) 101

115 5 5 회 ~11.04(5 일 ) 정보분석 차세대시퀀싱 (Next-Generation Sequencing) 정보분석 50 명 ( 학생 33, 일반 17) 4 4 회 ~09.01(4 일 ) 생명정보분석을위한기초프로그래밍교육 30 명 ( 학생 19, 일반 11) 3 3 회 (1 일 ) 2 2 회 ~03(2 일 ) Advanced Ensembl Cource - API &de novo Assembly - Curtain 마이크로어레이와 NGS 를이용한암유전체데이터분석 26 명 ( 학생 10, 일반 16) 35 명 ( 학생 17, 일반 18) 1 1 회 ~23(2 일 ) 차세대시퀀싱 (NGS) 데이터의분석및활용 74 명 ( 학생 26, 일반 48) 계 17 회 69 일 21 개강좌 814 명 *4회부터과제와연계하여교육시작 *21회교육 : 2014년 5월13일개최예정 [ 표 29] 회차별교육실적 2) 년도별교육실적연간인력양성목표 명이상으로초과달성구분 합계교육횟수 교육인원 명 * 과제기간 ~ (1년차 ) / ~ (2년차 ) [ 표 30] 년도별교육실적 (3) 교육평가및업데이트 1) 사전설문조사 ( 교육생의학습능력평가 ) 와사후설문조사 ( 강의평가 ) 2 번시행. 2) 매회교육시교육생의사전수요조사를통하여학습능력을파악하여교육생에맞 춘강의계획을수립하고교육실시후사후설문조사 ( 강좌별평가 ) 를통한여교육 의질적향상도모. 3) 교육의특성에맞는설문조사의재설계및온라인설문조사실시. 4) 설문조사는교육평가뿐만아니라교육의장단점, 교육의니즈파악등도조사. 102

116 [ 그림 62] 고객만족조사설문 ( 온라인 ) 103

4 점내외로 대체적으로교육에만족하는결과를나타내고있음. 2) 교육의재등록률 (30% 이상 ) 이될정도로매우만족도가높음.

117 (4) 교육평가결과 1) 조사된평가는검토하여차후교육에적극적으로반영. 2) 매회조사결과보고서작성 [ 그림 63] 교육평가보고서 (5) 교육만족도조사결과 1) 교육을수료자로부터실시한고객만족 ( 조사결과모든강좌가평균 4 점내외로 대체적으로교육에만족하는결과를나타내고있음. 2) 교육의재등록률 (30% 이상 ) 이될정도로매우만족도가높음. * 재등록률 : 2 회이상강의를수강한비율 3) 14 회 (R 언어 Multi-omics 자료통합분석 ) 는사후설문조사 ( 교육평가및고객니즈 조사 ) 를통하여교육생들의요구사항을최대한반영하여기획한교육으로 4.51 점으로매우만족에근접하는결과치나타냄. 104

118 [ 표 31] 회별만족도조사결과 5. 대용량유전체데이터정보처리및분석기반구축 가. 클러스터시스템구축 (1) 구축된클러스터시스템 [ 그림 64] 구축된클러스터시스템및 병렬파일시스템 (Lustre) 과고성능네트워크 (2) 새롭게구축된클러스터시스템은기구축된 시스템과연계를통하여최대 의효과를낼수있도록시스템을구축하였음 나. 각노드들간의네트워크연결을아래와같이하여최대의성능을낼수있도록하였 105

119 음 [ 그림 65] 네트워크구성도 [ 그림 66] 랙실장도구성 106

120 [ 그림 67] 기존클러스터들과의네트워크연결도 [ 그림 68] SFA10K Controller HCA 포트구성도 107

121 [ 표 32] 구축된 NGS 클러스터서버의구성목록 108

122 [ 표 33] 구축된 PGP 클러스터의구성목록 [ 표 34] Lustre 서버의소프트웨어구성목록 109

123 다. 구축된 UPS 시스템 [ 그림 69] UPS 시스템 라. 기구축된 KOBIC_1 전산시스템에본연구과제에서구입한 KOBIC_2 시스템을연동하 여활용함 (1) FTP 서버독립운영 (2) Download 시 Aspera 사용 110

[ 그림 70] 신규클러스터와기존클러스터구성도 (3) 도입된클러스터의성능테스트결과 1) 성능테스트 (HPL) 구분 PLSI + cluster STR Cluster NGS Cluster PGP Cluster 노드수 71 101 13 8 노드당 core 수 4 8 48 64 전체 core 수 284 808 624 512 Core clock 2 GHz 2.

124 [ 그림 70] 신규클러스터와기존클러스터구성도 (3) 도입된클러스터의성능테스트결과 1) 성능테스트 (HPL) 구분 PLSI + cluster STR Cluster NGS Cluster PGP Cluster 노드수 노드당 core 수 전체 core 수 Core clock 2 GHz 2.66 GHz 2.3 GHz 2.3 GHz 노드당메모리양 4 GB 16 GB 192 GB 256 GB 전체메모리양 284 GB 1616 GB 2496 GB 2048 GB 네트워크 Gigabit Ethernet Gigabit Ethernet x 2 Infiniband QDR Infiniband QDR Rpeak 1136 Gflops Gflops Gflop Gflops Rmax 492 Gflops 2052 Gflops 3570 Gflops 3011 Gflops [ 표 35] 성능테스트 PLSI + cluster, STR Cluster, NGS Cluster 는 KOBIC 서버실에기구축된 시스템임. NGS Cluster 와비교하여노드당 Core 수가 64 로증설하여실제노드수를 줄임으로써공간효율성및전력사용양을절감할수있음. 111

125 Rpeak 대비실측치인 Rmax 값은 63% 의효율을보임. 2) 성능테스트 (IOZONE, IOR, Hitachi VS DDN Storage) Hitachi storage( 기존스토리지, 기존 Lustre filesystem) Hitachi Storage (Lustre) pgpclustre /BiO IOZONE IOR Read Write 4k 33,444 MB/sec 336 MB/sec 1024k 14,894 MB/sec 352 MB/sec 4k 12,618 MB/sec 168 MB/sec 1024k 20,452 MB/sec 202 MB/sec [ 표 36] Hitachi storage 2 신규스토리지 신규 DDN Storage (Lustre) pgpclustre /BiO IOZONE IOR Read Write 4k 9,809 MB/sec 2,127 MB/sec 1024k 19,013 MB/sec 2,106 MB/sec 4k 6,109 MB/sec 1,533 MB/sec 1024k 16,675 MB/sec 1,514 MB/sec [ 표 37] DDN storage 3) Infiniband 성능테스트 osu benchmarks bw(unidirectional bandwidth) mpirun -host ib-pgp-0-0,ib-pgp-0-1./osu_bw # OSU MPI Bandwidth Test v3.1.1 # Size Bandwidth (MB/s)

126 [ 표 38] osu benchmarks bw osu benchmarks bibw(bidirectional bandwidth) mpirun -host ib-pgp-0-0,ib-pgp-0-1./osu_bibw # OSU MPI Bi-Directional Bandwidth Test v3.1.1 # Size Bi-Bandwidth (MB/s) [ 표 39] osu benchmarks bibw osu benchmarks latency mpirun -host ib-pgp-0-0,ib-pgp-0-1./osu_latency 113

127 # OSU MPI Latency Test v3.1.1 # Size Latency (us) [ 표 40] osu benchmarks latency 고성능네트워크인 Infiniband QDR 40Gb/s 구축후성능테스트한자료 임. Size 별로초당전송할수있는대역폭을나타냄. Latency 성능우수 : CPU 코어및 Size 증가에따른유연한성능보장. 114

128 제 4 장목표달성도및관련분야에의기여도 제 1 절연차별목표달성도 구분목표달성도 내용 차년도 차세대유전체정보생산설비확보 시스템도입및운영 대용량유전체정보생산시범사업수행 대용량유전체정보분석기술개발 전문가 수집 교육커리큘럼선정 교육환경구축 와 의상관관계를밝히기위한유방암세포주 종확보및분석기반기술확보 폐암환자의조직 종을확보하고 및 데이터생산 위암줄기세포의전사체및후성유전체분석 염증성장질환환자의장내 정보생산 식물상호작용미생물의 정보생산 데이터로부터 분석파이프라인 데이터로부터유전자의발현정량화 발현변화분석파이프라인 후성유전체데이터처리및분석파이프라인 멀티오믹스데이터의통합분석파이프라인구축및가시화 과학회 의협조를통한분야별전문가 구성및선정 커리큘럼설계표준화 강의내용의표준화및모듈화 교육담당인력 강사및조교 선정 강의및실습일정 장소선정 실습용서버및소프트웨어설치 유전체정보분석 총 회교육 실시 명참가 초고속전산시스템구축 이상의클러스터구축 차년도 대용량스토리지구축 이상의대용량스토리지구축 전산부대설비구축 차세대유전체정보생산설비확보 대용량유전체정보생산시범사업수행 초고속데이터전송네트워크및 구축 으로업그레이드 시스템도입및운영 유방암세포주의 수행하고 과유방함표현형질비교연구및 을이용한분석 한국인폐암으로부터확보된 및 결과를통합분석 115

129 차년도 최종평가 대용량유전체정보분석기술개발 완료하여표준데이터화하고폐암예후진단마커 원인유전자변형및신약타겟으로활용가능한자료마련 클러스터기반의 데이터분석파이프라인 데이터로부터유전자의발현정량화 발현변화분석파이프라인 멀티오믹스데이터의통합분석파이프라인 유전체정보분석 총 회교육 실시 명참가 평가및업데이트 유전체정보분석관련컨텐츠제공 사전설문조사와강의평가를통한강의자료업데이트및사후관리 교육실습을통한분석관련컨텐츠제공 원자료 프로그램및 등 차세대유전체정보생산설비확보 시스템의지속적활용 대용량유전체정보생산시범사업수행 대용량유전체정보분석기술개발 한국인침윤성방광암의타겟시퀀싱및 데이터생산 진행중 한국희귀종참조표본및미니돼지유전체해독을위한준비작업 데이터를이용한질병관련 분석파이프라인개발 기술을이용한환경유전체해독및분석파이프라인 유전체분석 운영 총 회교육 실시 명참가 국내외교육현황조사 유전체교육정책방안제시 데이터생산시스템 유전체정보생산 분석시스템구축 논문성과 유전체정보분석 운영 유전체정보분석컨텐츠확보및표준화 국내학위과정 단기교육프로그램및국외유전체교육프로그램현황조사 설문조사와 회의전문가자문회의를통하여장 단기교육발전방안제시 으로업그레이드 및 시스템의도입및운영 내부시범사업 건수행 위암줄기세포의전사체및후성유전체분석 염증성장질환환자의장내메타게놈정보생산 식물상호작용미생물메타게놈정보생산 외부시범사업 건수행 폐암 데이터생산 유방암 유전자발현정보분석 월 수준의 데이터분석이가능한클러스터 스토리지및고속네트워크구축 이상의대용량스토리지구축 초고속네트워크및 등부대설비구축 총 편게재 미등재 총 회교육 실시 명참가 평균교육만족도 점이상 점만점 강의자료 실습용데이터및스크립트의제공 116

130 전문가간네트워크및공동연구활성화 *3 차년도마지막교육은본보고자료작성이후인 2014 년 5 월 13 일개최예정임 시범생산 데이터의가공을통한표준유전체분석정보제공 내외부의 정보생산및분석시범사업을통한연구교류 차세대유전체분석교육전문가 구성및수강생간의네트워킹을통한공동연구활성화 제 2 절관련분야에의기여도 최신 NGS 장비 2종을도입하여운영시스템을구축하고, 외부시퀀싱업체에비교하여상대적으로저렴한분석비용에서비스를제공함으로써국내연구자들에게대용량유전체및 multi-omics 데이터의활용기회를부여하였으며, 유전체정보생산-분석인프라와실험연구자를연결하는협력연구체제의유용성을입증하였음 유전체정보생산시범사업의운영을통하여합리적인가설과우수한기술및시료를확보하고있는연구자에게최신대용량유전체데이터의생산기회를제공하였으며, 공동연구체계를구축함은물론보건의료와농생명등다양한응용분야에서의연구활성화를위한핵심기반기술을확보하는데기여하였음 - 폐암, 유방암, 염증성장질환등의료적활용성이높은시료에대한유전체분석 - 농업분야의활용성이높은식물근권상호작용미생물의메타게놈해석 - 한국인폐암환자에대한유전체해독자료는정말가공을통하여분석프로세스구축이나마커및의약후보유전자도출등의목적에쓰일수있는표준자료화 21회이상의차세대유전체정보분석단기교육을제공함으로써점차수요가증가하는 NGS 자료기반유전체정보분석전문인력을체계적으로양성하는데기여하였고, 전문가 KOBIC과학회 (KSBSB) 등전문가풀에의한교육프로그램구성과사전조사및만족도조사에의한프로그램개선등모범적인교육시스템을제시하였음 - 본과제와연계한 KOBIC 차세대유전체교육은 4~21회 - 평균교육만족도 4점이상 (5점만점 ) - 수강생들의요청에의해제 15차교육 (R 언어를이용한 multi-omics 자료통합분석 ) 은 2회실시 본과제를통해확립된클러스터기반 NGS 분석파이프라인등제반분석도구들은은포 스트게놈다부처유전체사업을위한 고급유전체분석서비스 의일환으로활용될예정 117

131 NGS 기술을이용한유전체데이터생산시스템과연동하여초고속연산장비 (High Performance Computing, HPC) 시스템을구축하고, 유전체연구의국가적기반이되는연 구체계를구축하였음 118

132 제 5 장연구개발결과의활용계획 제 1 절. 차세대유전체정보생산기반시설의확보 1. 차세대시퀀싱장비를이용한체계적인유전체정보생산과분석시스템을구축하여국내 대형연구사업의유전체분야의연구에모델이되는연구체계완성 2. 다양한형태의대용량 NGS 데이터를국내연구자들이용이하게사용할수있는기반을구 축 3. 현재국내에서매우취약한대용량유전체정보의분석을위한전산및분석기반시스템 구축을통하여조성된연구기반을모델로국내의유전체분야의효율성과생산성제고에 기여 4. NGS 기술을활용하여구축된다양한대용량의인간게놈서열데이터와게놈서열데이터의 종합적인분석을지원하는웹기반툴의활용, 유전자탐색을수행하는데필요한기타여러 가지웹기반의생물정보학기반의데이터베이스와툴의활용 5. 생명정보학교육에활용할수있는컨텐츠확보및공개서비스제공 제 2 절. 차세대유전체정보분석파이프라인의확보및분석방법개 발 1. 급증하는 NGS 기반데이터의분석에필수적인전처리, 매핑, 변이검출 (SNP 및 structural variation), 메타게놈집단분석등필수요소프로그램의제공 2. 개발된개별파이프라인은일체화된워크벤치형태로통합하여분석의편의성증대 3. 요소프로그램및통합작업환경의고도화를통하여지적재산권확보 4. 본사업을통해도출된 NGS 분석프로그램및노하우는 2014 년부터본격화될다부처유전 체사업에서정보활용화시스템에응용 제 3 절. NGS 유전체정보생산시범사업 119

133 1. WGS, Exome-seq, RNA-seq, metagenome sequencing 등연구목적과대상에따른다 양한분석기법의확립에기여 2. 본과제에서생산된정보는생명정보교육프로그램및 NGS 데이터분석알고리즘에쓰일 수있는공개형표준데이터로서활용될수있음 3. 데이터생산과관리및분석에이르는전방위적연구협력체계구축에기여 제 4 절. 차세대유전체분석인력양성단기교육프로그램 1. 산학연각분야에서절대적으로부족한유전체정보분석전문인력의체계적인양성 2. 교육프로그램을모듈화하고단계별교육인증서를발급함으로써생명정보학교육과정 의표준을제시 3. 국내유전체관련연구인력및그룹간의네트워킹및공동연구활성화를통한국내 유전체관련연구의질적인도약 4. 개인별맞춤의학등유전체기반의미래의학및산업에대비한전문인력배출 제 5 절. 대용량유전체데이터정보처리및분석기반구축 1. NGS 장비를이용한체계적인유전체정보생산과연계하여대용량데이터분석시스 템을구축하여국내대형연구사업의유전체분야의연구에모델이되는연구체계완성 가. 다양한형태의대용량 NGS 유전체정보를국가생명자원정보센터 (KOBIC) 를통하 여국내연구자들연구자들이용이하게사용할수있는기반을구축 나. 현재국내에서매우취약한대용량유전체정보의분석을위한전산기반시스템구축 을통하여조성된연구기반을모델로국내의유전체분야의효율성과생산성제고에 기여 다. NGS 기술을활용하여구축된다양한대용량의인간게놈서열데이터와게놈서열데 이터의종합적인분석을지원하는웹기반툴의활용, 유전자탐색을수행하는데필요 한기타여러가지웹기반의생물정보학기반의데이터베이스와툴의활용 120

134 (1) 차세대 DNA 시퀀스에서생산된게놈서열단편을정렬, 분석하여전체적인게놈 분석을가능하게하는여러가지생물정보학기반의툴을테스트, 조합하여전체적 인연구개발파이프라인구축함. 제 6 절. 다부처유전체사업으로의연계활용 1. 본과제를통해습득된대용량 NGS 데이터생산및분석기반구축노하우와연구 / 교 육을위한인적네트워크는 2014 년도부터본격추진될다부처유전체사업의수행과정 에서도출될다양한형태의유전체데이터분석과관리및공동활용에기여할것임 2. 다부처유전체사업에서부처간유전체정보연계와공동활용의중심으로서의 KOBIC 의역할이강조되고있으며, 따라서본사업에서도출된데이터관리 분석기법 과공동연구체계가폭넓게응용될것임 121

135 제 6 장연구개발과정에서수집한해외과학기술정보 제 1 절차세대시퀀싱 (NGS) 기술발달현황 1. 차세대시퀀싱 (NGS) 기술의발달에따른인간유전체분석을중심으로한대용량데이터 처리의중요성이강조 (Wheeler DA et al., The complete genome of an individual by massively parallel DNA sequencing. Nature 452, 2008). 2. NGS 기술은최근 Nature, Science 등에서향후 20 년간생명과학, 의약산업에서획기적인 발전을주도할핵심기술이될것으로전망 (Pushkarev D. et al., Single-molecule sequencing of an individual human genome. Nature biotechnology 2009). 3. 1,000 Genomes Project, 암유전체프로젝트 (The Cancer Genome Atlas, TCGA), 10,000 척추동물게놈프로젝트등다양한메타게놈프로젝트들이진행중 (Stratton MR et al., The cancer genome. Nature 458:2009). 4. NGS 기술을활용한대용량유전체데이터생산이국제적으로활발하게진행중 (Human genome: Genomes by the thousand. Nature 2010). ( 표 41] 참조.) 프로젝트이름국가명연구내용 UK 10K project UK 10K Heart Disease Project HD project Genomic Cancer Care Alliance 영국 영국 미국 미국 ClinSeq Project 미국 German Cancer Research Center VCU Schizoph renia Study 독일 미국 Ÿ Sanger Center, $15.7M ( 약 180억 ) 의연구비 Ÿ 영국내 1만명의염기서열결정연구 ( ) Ÿ 4천명은전체염기서열결정 Ÿ 6천명은전체 exomes 염기서열결정 ( 당뇨병, 자폐증, 정신분열증및심장병환자 ) Ÿ UK's Royal Brompton Hospital, Imperial College London Ÿ 심장병환자 1만명의전체 exome 염기서열결정 Ÿ SOLiD 사용, $15 M ( 약 170억 ) Ÿ 년 (10년프로젝트 ) Ÿ Gladstone intitute, ISB, Complete Genomics Ÿ Huntington's disease 환자및가족의전체염기서열결정 Ÿ 가계도의전체염기서열결정을통한 complex disease 원인유전자규명 연구 Ÿ 수십억규모의연구비, SOLiD 4 사용 Ÿ 100명의암환자의전체염기서열결정 Ÿ Fox Chase Cancer Cener, Scripps Genomic Medicine, Omicia, Camino Hospital, TGRI, Life Technologies Ÿ NHGRI에서추진하는동맥경화질병의돌연변이연구 Ÿ 1,000-1,500 명의환자의 exome 연구 Ÿ National High-Throughput Sequencing Center funded by German Federal Ministry of Education and Research Ÿ 10 SOLiD 4 systems Ÿ 1,000명암환자의전체염기서열, transcriptomes, copy number variation 결정 Ÿ Ÿ Life Technologies, EdgeBio, Virginia Commonwealth University 정신분열증환자와정상인포함 1,500명에대해메틸화양상을조사하고별도의 1,600에서검증 122

136 [ 표 41] 각국유전체연구사업 년도이후, Ion Torrent사의 PGM(Personal Genome Machine), Pacific BioScience사의 RS, Illumina사의 Miseq등의새로운기기의도입으로짧은시간에유전체분석을중심으로한대용량데이터생산이가능 ( 정보과학회지제 31권제8호 ) ([ 표 42] 참조.) [ 표 42] 최신 NGS 기기의특징 6. 차세대유전체강국으로부상한중국의최근동향 중국은중앙정부주도하에중국과학원 (CAS) 을중심으로지방정부별거점센터를마련하는 등유전체정보분야의국제적주도권을잡기위한다양한프로젝트를진행하고있으며이 를위해자체적으로최고수준의전산시스템을구축 가. 대용량유전체정보의효율적인활용을위한종합정보연계체제와지능형검색시스템을 구축 나. 대량생물정보데이터분석을위한유기적국가핵심거점망을운영 다. 베이징게놈연구소 (BGI, 를중심으로한게놈데 이터생산및생물정보분석분야에세계최대규모의역량을구축하였다 ([ 그림 71] 참 조.). 123

137 [ 그림 71] 중국 BGI 가자체생산하는생물정보데이터증가에대비하여구축한 IT 인프라 제 2 절해외연사초청세미나 1) Dr. Tao Jiang (University of California-Riverside) (1) 초청연제 : A Combinatorial Approach to the Inference of Isoform from Short Sequence Reads (2) 일시 : 2011년 12월 13일화요일오후 4시 (3) 장소 : 한국생명공학연구원나눔관대회의실 (4) 기술정보 : RNA-seq 데이터로부터발현값이낮은 mrna transcripts (Isoform) 의구분기술및민감도와정확도가높은새로운알고리즘소개 2) Dr. Peter J Park (Harvard Medical School) (1) 초청연제 : Sequencing the Cancer Genome (2) 일시 : 2012년 8월 8일수요일오후 4시 (3) 장소 : 한국생명공학연구원본관동대회의장 (4) 기술정보 : Whole-genome sequencing 데이터를가지고 retro-transposition event를예측하고, Structural variants를재구성하는기술을소개 3) Dr. 최무림 (Yale Medical School) (1) 초청연제 : Application of whole exome sequencing in disease-associated variant discovery (2) 일시 : 2012년 10월 25일목요일오후 5시 (3) 장소 : 한국생명공학연구원나눔관대회의실 124

138 (4) 기술정보 : Human diseases 의다양한 Whole exome sequencing type 을통한강력한 disease 관련 variant 를선별하는알고리즘소개 4) Dr. 김상우 (University of California, San Diego) (1) 초청연제 : Computational approaches for genomic variant detection from next generation sequencing data (2) 일시 : 2013년 3월 14일목요일오후 4시 (3) 장소 : 한국생명공학연구원본관동소회의실 (4) 기술정보 : Genomic variation의서로다른 type에서정확도높은 variation을찾기위한새로운 computational 접근법소개 5) Dr. 황태현 (The University of Texas) (1) 초청연제 : Network-based learning methods and computational analysis for cancer genomics (2) 일시 : 2013년 7월 30일화요일오후 1시 (3) 장소 : 한국생명공학연구원연구동세미나실 (4) 기술정보 : 새로운 network/graph-base learning algorithm 개발및 biomarker 발견을위한 Protein-protein interaction Network 통합방법소개 6) Dr. 최정현 (Georgia Regents University) (1) 초청연제 : DNA Methylation Profiling of Chronic Lymphocytic Leukemia Using Reduced Representation Bisulfite Sequencing (2) 일시 : 2013년 11월 20일수요일오후 5시 (3) 장소 : 한국생명공학연구원연구동세미나실 (4) 기술정보 : NGS기반 Bisulfite Sequencing 소개및분석파이프라인소개 7) Dr. 이주석 (MD Anderson Cancer Center) (1) 초청연제 : TCGA 프로젝트의빅데이터를중심으로한암유전체정보의활용방안 (2) 일시 : 2014년 4월 28일월요일오후 5시 (3) 장소 : 한국생명공학연구원국가생명연구자원정보센터회의실 (4) 기술정보 : TCGA 프로젝트현황및암유전체정보활용방안소개 제 3 절해외학회참석 1) NGS Asia congress 2011 (1) 일시 : 2011 년 10 월 2 일 ~ 2011 년 10 월 5 일 125

139 (2) 장소 : Concorde Hotel Singapore (3) 기술정보 : 최신 NGS 데이터분석을위한 platform, application, computational tools 의 동향및정보습득 2) American Association for Cancer Research(AACR) 2012 (1) 일시 : 2012년 3월 31일 ~ 2012년 4월 6일 (2) 장소 : McCormick Place in Chicago, Illinois. (3) 기술정보 : 전세계암유전체최신 NGS 분석연구에대한동향파악및기술습득 3) RECOMB 2012 (1) 일시 : 2012년 4월 18일 ~ 2012년 4월 26일 (2) 장소 : PRBB building Barcelona (3) 기술정보 : RECOME-seq 프로시딩, 최신 NGS normalization method 기슬습득 4) American Society of Human Genetics(ASHG) 2012 (1) 일시 : 2012년 11월5일 ~ 2012년 11월 11일 (2) 장소 : Moscone Convention Center San Francisco (3) 기술정보 : NGS 데이터의 variation detection 동향및새로운 algorithm 습득 5) American Association for Cancer Research(AACR) 2013 (1) 일시 : 2013년 4월 5일 ~ 2013년 4월 11일 (2) 장소 : Convention Center Washington D.c (3) 기술정보 : 개인유전체, 암맞춤의료및바이오마커개발연구정보습득 6) REOCMB 2013 (1) 일시 : 2013년 4월 6일 ~ 2013년 4월 13일 (2) 장소 : Tsinghua University Beijing (3) 기술정보 : 유전체분석을위한국제프로젝트동향파악및 RECOME-seq 프로시딩 7) ISMB 2013 (1) 일시 : 2013년 7월 18일 ~ 2013년 7월 25일 (2) 장소 : ICC Berlin (3) 기술정보 : SIG 책자, Conference proceeding, 생물학네트워크분석현황 8) American Association for Cancer Research(AACR)

140 (1) 일시 : 2014년 4월 4일 ~ 2014년 4월 11일 (2) 장소 : Convention Center San Diego (3) 기술정보 : 유전체정보를바탕으로한최신암연구동향, TCGA, ICGC등의국제암유전체프로젝트의최신데이터정보습득 127

141 제 7 장연구시설ㆍ장비현황 ( 도입ㆍ개발한연구시설ㆍ장비현황및국가과학기술종합정보시스템장비고유번호를기술합니다 ) 장비명제작사명 / 모델명금액 NTIS 장비등록번호 초고속염기서열분석장치 Illumina HiSeq 2000 System 823,666,600 원 NFEC 염기서열장치 Illumina/MiSeq System 167,687,845 원 NFEC 대용량 NGS 데이터분석용클러스터시스템증설 Dell/Lion Cluster System 347,226,680 원 NFEC

142 제 8 장참고문헌 1. (Schadt EE et al. Computational solutions to large-scale data management and analysis. Nat Rev Genet. 11(9):647-57, 2010). 2. Journal of Genetic Medicine 2010;7: Farazi. "mirnas in human cancer". The Journal of Pathology Sandhu, S. Potential Applications of MicroRNAs in Cancer Diagnosis, Prognosis, and Treatment. Semin Oncol Baker. "MicroRNA profiling: separating signal from noise". Nature Methods SIFT web server: predicting effects of amino acid substitutions on proteins. Nucleic Acids Res Predicting functional effect of human missense mutations using PolyPhen-2. Curr Protoc Hum Genet Chen. "The evolution of gene regulation by transcription factors and micrornas". Nature Reviews Genetics Griffiths-Jones S."miRBase: microrna sequence, targets and gene nomenclature". Nucleic Acids Res ( 11. Mraz, M. "MicroRNAs in chronic lymphocytic leukemia: From casuality to associations and back". Expert Review of Hematology Jiang Q. "mir2disease: a manually curated database for microrna deregulation in human disease". Nucleic Acids Research Mencía A. "Mutations in the seed region of human mir-96 are responsible for nonsyndromic progressive hearing loss". Nat. Genet SRA: 15. Barrett T. NCBI GEO: archive for functional genomics data sets 10 years on. Nucleic 129

143 Acids Res TCGA: 17. Hannon GJ: FASTX-Toolkit [ 18. fastqc: Li H. and Durbin R. Fast and accurate long-read alignment with Burrows-Wheeler Transform. Bioinformatics, picard: McKenna A. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res Koboldt, D. VarScan 2: Somatic mutation and copy number alteration discovery in cancer by exome sequencing Genome Research Li H. The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics, Wang K. ANNOVAR: Functional annotation of genetic variants from next generation sequencing data. NAR Esnaola M. A flexible count data model to fit the wide diversity of expression profiles arising from extensively replicated RNA-seq experiments. BMC Bioinformatics Olshen AB. Circular binary segmentation for the analysis of array-based DNA copy number data. Biostatistics Chen K. BreakDancer: an algorithm for high-resolution mapping of genomic structural variation. Nat Methods Xiao F. mirecords: an integrated resource for microrna-target interactions. Nucleic acids research : D Hsu SD. mirtarbase: a database curates experimentally validated microrna target interactions. Nucleic acids research

144 30. Papadopoulos GL. The database of experimentally supported targets: a functional update of TarBase. Nucleic acids research Dweep H. mirwalk--database: prediction of possible mirna binding sites by "walking" the genes of three genomes. Journal of biomedical informatics Garcia DM. Weak seed-pairing stability and high target-site abundance decrease the proficiency of lsy-6 and other micrornas. Nature structural & molecular biology Easy retrieval of single amino-acid polymorphisms and phenotype information using SwissVar. Bioinformatics The Pfam protein families database. Nucleic Acids Res J 36. SCOP: a structural classification of proteins database for the investigation of sequences and structures. J Mol Biol UniProt: the Universal Protein knowledgebase. Nucleic Acids Res CDD: a Conserved Domain Database for protein classification. Nucleic Acids Res A three-state prediction of single point mutations on protein stability changes. BMC Bioinformatics

145 [ 별첨 ] 위탁연구과제최종보고서 차세대유전체정보분석교육프로그램개발및 국내외생명정보학교육현황조사를통한 향후교육계획수립 한양대학교산학협력단 연구책임자 : 고인송

146 목차 제 1 장연구개발과제의개요 절차세대유전체분석인력양성단기교육프로그램 제 2 장연구개발수행내용및결과 제 1 절연구개발내용 제 2 절연구개발결과 제 3 장목표달성도및관련분야에의기여도 제 1 절연구개발의최종목표 제 4 장기대효과 별첨 1. 17~20 차교육보고서 별첨 2. 국내생명정보교육운영설문조사결과보고서

147 1 장연구개발과제의개요 1 절차세대유전체분석인력양성단기교육프로그램 1. 배경가. 급속한유전체연구관련장비의발달에따른새로운개념의대용량데이터들이급격히증가하고있으며, 향후맞춤의학을비롯한유전체기반연구및산업의발전은대규모오믹스데이터의효과적인분석과해석능력에크게의존할전망 나. 현재국내산학연모든분야에서유전체관련데이터의생산속도와분석수요에비 하여전문인력이절대적으로부족한실정임. 특히차세대시퀀싱 (Next Generation Sequencing, NGS) 기술의일반화로인한차세대생물정보학분석전문인력양성이시급 다. 유전체학관련분야뿐만이아니라, 대부분의기초의학및생명현상의연구에도유전체데이터및정보를효과적으로활용하는능력이연구경쟁력향상에매우중요하게됨. 특히미래생명과학자로성장할생명과학관련대학원생및연구원들을위한유전체및생명정보학교육프로그램이확충되어야함 2. 필요성가. 유전체데이터는유전체, 후성유전체, 전사체, 단백체등으로분류되며데이터의형태가서로이질적이고복잡함. 즉유전체정보만해도특정종의표준유전체 (reference genome), 개체 / 인종간변이정보, 종간의차이를보는비교유전체 (comparative genomics) 그리고메타게놈 (meta-genomics) 등매우다양함. 전사체의경우도 microarray와 NGS 기반의 RNA-seq로나뉘며시퀀싱기기의종류및 protocol 그리고분석의목적에따라다양하게세분됨. 1

148 나. 유전체데이터는동일한데이터를분석하더라도분석의목적과방법에따라수십가지다른측면에서의분석이가능함. 유전체데이터의큰규모와복잡성으로인하여, 그중한두가지측면을연구하는데에도석박사급의전문인력에의한집중적인분석을필요로함. 다. ENCODE, TCGA등국제적인대형프로젝트에서보듯이, 최근유전체관련연구는유전체, 전사체, 후성유전체등이질적이고복합적인데이터를통합하여분석하는쪽으로그추세가전환되고있음. 실험기기의발전과비용감소로인하여이러한추세는점점가속화되고있음. 라. 암유전체등질환유전체, 약물유전체등개인별맞춤의료를겨냥한연구도마찬가지 로유전체, 발현체, 후성유전체, 대사체등서로이질적이고복잡한데이터를통합하 여분석하는방식을통해급속한진전을이루어내고있음. 마. 국내전문인력의부족과유전체데이터의증가로인한분석단계에서의병목현상 을해소하기위하여체계적이고실질적인유전체정보분석전문가양성프로그램이 시급히필요함. 바. 유전체분석연구의복잡성과분야의다양성을고려할때, 관련정규학위과정 ( 서 울대, 부산대. 포항공대, 카이스트, 숭실대, 한양대등 ) 을포함한유전체정보분석 교육여건과기회가충분하지못함. 2

149 2 장연구개발수행내용및결과 제 1 절연구개발내용 1. 추진체계 그림 교육운영추진체계 2. KOBIC 주관유전체정보분석 Workshop의공동운영가. 차세대유전체단기 Workshop의지속적운영 (1) 2010년부터실시하고있는차세대유전체 (NGS) 관련단기강좌교육프로그램에대하여 KOBIC과의연구협력을통하여지속적으로운영하고유전체연구의최신동향및현장수요를반영한커리큘럼설계, 국내최고의생명정보전문인력구성을통하여국내최고수준의교육서비스제공 나. 교육환경구축및운용 (1) 체계적인교육계획을수립하고교육홍보, 접수 / 등록, 예약, 교육사전조사, 실습환경구축 (2) 보다효율적인교육운영을위하여교육능력별 ( 초급, 중굽 ) 교육강좌를운영하고, 강좌별사전설문조사 ( 학습능력조사 ) 를통하여수강생의눈높이에맞추어강의준비 (3) KOBIC과의공동연구를통하여최고의실습환경을구축 ( 실습서버구축, 실습을위한데이터, 프로그램설치, 실습조교운영등 ) 다. 교육평가및업데이트 3

150 (1) 매회 Workshop 강좌별로교육평가 ( 강의만족도 ) 실시및교육생강의의실효성및수준제고 (2) 최신분석기법에대한리뷰및 workshop 평가에기반한강좌내용업데이트 (3) 1회성교육인아닌교육생과의지속적인 Feedback 강화노력 3. 국내외생명정보학장단기교육현황및수요조사를통한교육정책방향제시 가. 국내외생명정보학교육현황조사 (1) 국내외주요생명정보학교육현황및교육과정조사 (2) 국외주요단기교육프로그램연수를통한최신교육프로그램의벤치마킹 나. 생명정보학교육수요조사 (1) 생명정보학전문가로구성된자문회의개최를통하여국내생명정보학의교육의현황과문제점을살펴보고생명정보학교육의활성화방안을도출 (2) 의학, 유전체학등관련분야연구자대상으로 Survey 조사를통해교육수요를예측하고, Workshop 교육생을대상으로설문조사, 간담회개최등으로교육에대한요구사항을적극반영하여보다좋은교육서비스를제공 다. 생명정보학교육정책방향제시 (1) 단기교육발전방안 : 단기워크숍 (1주이내 ) (2) 중기교육발전방안 : 산학연연계를통한실무형인턴쉽프로그램 (1달이상 ) (3) 장기교육발전방안 : 인증과정, 학위과정 (1년이상 ) 4

151 제 2 절연구개발결과 1. 차세대유전체단기 Workshop 의지속적운영 (* 별첨 1 교육보고서참고 ) 가. KOBIC 생명정보교육워크샵운영현황 ( 위탁과제수행기간 ~ ) No. 회차 교육기간 교육주제 교육생 1 21회 (1일) 예정 시스템생물학 (Network Biology) 분석교육 25~30명예정 2 20회 (1일) Linux 기반전사체 (RNA-seq) 데이터분석 30명 ( 학생19명, 일반11명 ) 3 19회 ~21(2일) RNA-seq 기반전사체분석 28명 ( 학생14, 일반14) 4 18 회 ~29(3 일 ) 유전체분석과시각화를위한 R 언어실습 31 명 ( 학생 16, 일반 15) 5 17 회 ~14(3 일 ) NGS 기반유전체, 전사체분석 29 명 ( 학생 15, 일반 14) 계 5 회 5 회 (10 일 ) 5 개강좌 118 명 (( 학생 64, 일반 54) +30 명예정 나. 교육환경구축및운용 (1) 체계적인교육계획을수립절차확립 (2) 수준별강의개설및정보제공 - 보다효율적인고교육운영을위하여설문조사분석을통해다음강의주제를선정 하고선정된강의는강좌별사전설문조사 ( 학습능력조사 ) 를통하여수강생의눈높 이에맞추어강의준비 - 교육대상자를위한실시간 및 운영 접근성이높은블로그를운영함으로써교육의활성화도모 와연계 을이용하여고객과의소통함으로써열린교육지양 국내외생명정보교육정보및프로시딩스 실습자료등제공 5

152 < 그림 > KOBIC 교육 Facebook < 그림 > 차세대생명정보교육 Blog (3) 교육실습환경구축 - KOBIC 전산실과의업무협조를통하여교육주제에맞는실습환경구축 내교육용 서버구축 - 원활한교육실습을위하여교육에사용될프로그램설치및테스트를실시하고있 으며, 관련분야에익숙한실습조교를선정하여실습교육에대한만족도를높임 < 그림 > KOBIC 서버실및실습서버세팅 다. 교육평가및업데이트 - 매회 Workshop 강좌별로교육대상자분석, 강좌별교육평가 ( 강의만족도 ) 실시하여 반영하고있으며교육에대한건의사항을통하여교육의질적향상을도모하고 6

단백질구조, 유 전체학, 신약개발등의교육프로그램을운용 커리큘럼 ( 학부 ) 구분 1학년 2학년 3학년 4학년 분자생물학미생물학, 생화학1 생물통계 의생명시스템특론1 논문연구1 1학기 일반생물학1,2

153 - 1 회성교육에그치지않고교육후과제제출과, 교육생과의지속적인피드백을통하여 교육의계속성을확보 3. 국내외교육현황및수요조사를통한교육정책방향제시 가. 국내외생명정보학교육현황조사 (1) 국내대학의생명정보학관련정규학위프로그램 ( 가 ) 숭실대학교의생명시스템학부 숭실대학교생명정보학과 : 한국최초의생명정보중심교육관련학과로전통생물학과 생명정보학의전문성을고루갖춘인재양성을목표로하고있으며, 단백질구조, 유 전체학, 신약개발등의교육프로그램을운용 커리큘럼 ( 학부 ) 구분 1학년 2학년 3학년 4학년 분자생물학미생물학, 생화학1 생물통계 의생명시스템특론1 논문연구1 1학기 일반생물학1,2 면역학미생물학및실험화학정보학및실습생화학1, 미생물, 일반생물 1 및실험미적분학유기화학 1 프로그래밍, 화학1 및분자생물화학1 및실험실험유전학일반생물 1 및화학1및실험구조생물학일반생물1,2 알고리즘실험프로그래밍및실습물리화확, 유기화학생물물리학생화학2 일반물리, 생명정보학및실습일반생물, 화학, 일반생물1 생화학1 기기분석실험 신약개발및실습화학정보개론 화학1및실험 7

2 학기 프로그래밍및실습일반생물 2 및실험물리 1 및실험 물리화학및실험화학 1 및실험생화학 1 일반생물일반화학생화학실험선형대수 계산분자생물및실습프로그래밍, 생물정보개론분자생물학실험물리화학, 유기화학세포생물학분자생물학유전체학개론생물통계 의생명시스템특론 2 논문연구 2 기능유전체학생물정보개론유전체학합성생물학분자생물학

154 2 학기 프로그래밍및실습일반생물 2 및실험물리 1 및실험 물리화학및실험화학 1 및실험생화학 1 일반생물일반화학생화학실험선형대수 계산분자생물및실습프로그래밍, 생물정보개론분자생물학실험물리화학, 유기화학세포생물학분자생물학유전체학개론생물통계 의생명시스템특론 2 논문연구 2 기능유전체학생물정보개론유전체학합성생물학분자생물학 커리큘럼 ( 대학원 ) ( 나 ) 이화여자대학교생명과학과 년부터생명과학, 컴퓨터학, 통계학, 수학, 화학과의학문적연계를통하여바이오인포매틱스연계전공을개설하여운영하고있으며, 시스템생물학을기본바탕으로프로그래밍, 생물통계, 데이터마이닝, 알고리즘개발등의교육프로그램을운영 년 3월에대학원시스템생물학과설립예정 8

155 커리큘럼 ( 학부 ) 학사학위과정교과목 석사연계 게놈정보학기초세포생물학분자생물학 I 생화학 I 생화학 II 분자생물학 II 세포생물학 I 생물정보학및시스템생물학분자진화학생물리화학 화학생물학컴퓨터프로그래밍및실습고급컴퓨터프로그래밍및실습자료구조자바프로그래밍데이터베이스웹컴퓨팅실습컴퓨터알고리즘인공지능 수치미분방정식응용통계의입문행렬대수학전산통계학및실습회귀분석실험계획법다변량분석및실습데이터마이닝및실습바이오정보처리이산수학및프로그래밍수치해석학 생명정보학개론 / 생명정보학실습 / 바이오인포매틱스알고리즘바이오인포매틱스개론 ( 다 ) 포항공대시스템생명공학부 - 생물시스템의복잡하고다이나믹한생체네트워크규명을위해주요네트워크분자들의 Epigenome, DNA structural variations, Trascriptome, Interactome 등을총체적으로분석하기위한 NGS 데이터생산및분석프로그램등의교육을통해고급유전체연구인력을양성 커리큘럼 ( 대학원 I-Bio) 구분전공필수필수선택전공선택 융합생명과학고급 Biotechnology 고급시스템스생물학계량이론생물학시스템생명공학특강 Computational Biology 1 Mathematics for Biologists 고급분자생물학 I Biophysics 고급세포생물학생화학특강 바이오영상생체유체생물통계학유전체및단백체정보처리나노생체재료미세유체역학입문학제간연구방법론 A~E 디지털영상처리기계학습패턴인식론시스템생물학나노바이오공학연체물리학뇌과학특론생물통계물리학비선형동역학및혼돈이론바이오커뮤니케이션 교과목명 조직생화학프로테오믹스와분자네트워크생물정보학고급생물통계학분자생물리학생리분자화학생체전달현상생물분리공정특강세포배양공학생물공정공학분자생물공학특론인체역학생체공학현대생물학동향 : Molecular Imaging 고급대사공학시스템생명공학특강 IBIO 대학원세미나 ( 라 ) KAIST 바이오및뇌공학과바이오융합교육과연구를위해 2002년에신설되었으며, 현재학과전체 17명의교수중바이오정보학분야에 5명의교수가재직하고있으며학사과정과대학원과정을운영 9

156 커리큘럼 ( 학부 ) 구분전공필수전공선택연구 Bioengineering Fundamentals Molecular &Cellular Biology Bioengineering Laboratory I Bioengineering Laboratory II Special Topics on BioSystems(1) Special Topics on BioSystems(2) Bioengineering Senior Project Science Communication &Leadership Molecular Biology Instrumental Analysis for Biomaterials Biotechnology Laboratory Computational Neuroscience Biomedical Statistics Bio-Data Engineering Bioinformatics Cognitive Neuroscience Biomedical Imaging BioNano Engineering Bio-Inspired systems Micro Heat &Mass transfer BioNano Laboratory Biomechanics Graduation Research Individual Study Seminar 교과목명 Cell Biology Biochemistry II General Biochemistry Physical Principles in Biological Systems Anatomy &Pysiology Bio-Data Structures Bioinstrumentation Fundamentals Systems Biotechnology Brain Science Fundamentals Bio-database systems Network of Things Bio-Signal Processing System Modeling in Bioengineering Analog Microelectronics circuits Digital systems laboratory and bio-applications Biofluidics Dynamic Motion and Response Special Topics in bio and Brain Engineering 커리큘럼 ( 석, 박사과정 ) 과목구분 교과목명 공통필수 필수 선택 Special Lecture on Leadership Ethics and Safety I Scientific Writing Introduction to Computer Applications Probability and Statistics Introduction to Materials and Engineering Engineering Economy and Cost Analysis Introduction to Instruments Entrepreneurship and Business Strategies Patent Analysis and Invention Disclosure Collaborative System Design and Engineering 전공선택 Bioinformation and Bioelectronics Bioanalytical technology Technology Commercialization and Venture Business Biology for Engineers Genomics and Proteomics Information and Electronics for Scientists Biopharmaceuticals Brain Dynamics Methods in Neuroscience Neurophysiology and Information Bioinformatics Bioinformatics Laboratory Computing Technology Systems Biology Data Mining Biostatistics Bio-Intelligence Database Construction Hearing and Auditory Model Human Visual Model Biomedical Imaging System Nanomaterial Process and Behavior Nano Electro Mechanical Systems Bioelectronic Devices Computational Cell Biology Cell Signaling Network Advanced Cognitive Neuroscience Bio-Pattern Recognition Bio-Network 10

157 연구 Proteome Bioinformatics Medical Image Processing Digital Biomedical Signal Processing Biophotonics Neural Networks BioElectroMechanics Microtransducers and Laboratory Metabolic Engineering Clinical Neuroscience Thesis/Dissertation Research (Master) Individual Study (Master) Seminar (Master) Thesis/Dissertation Research (Doctoral) Seminar (Doctoral) Advanced BioSeminar Computer Graphics and Bio-Application Neural Engineering Nanobiotechnology Nano- Micro-Machining Process Laboratory Nanotechnology in Medicine Special Lectures in Bio and Brain Engineering Special Lectures in Bio and Brain Engineering(1) Special Lectures in Bio and Brain Engineering(2) Leadership &Communication ( 마 ) 서울대학교협동과정생물정보학전공 - 설립목적은생명과학정보를해석하고이를이용할수있는우수한석사및박사과정의학생을교육시켜유전체학 (Genomics), 및단백질체학 (Proteomics) 등을포함하는생물정보학 (Bioinformatics) 분야의고급인력을양성하는데있음 - 8개단과대학 90여명의교수가모여본과정을개설하였으며, 2002년전기에처음으로석사과정학생을선발하며시작되었고, 공동지도교수제를도입하여학생당 2명의지도교수가선정되어 IT와 BT분야를융합하여공부하도록함 커리큘럼 ( 대학원 ) 구분 전공필수 전공선택 전공인정과목 교과목명 생물정보학및실습 1 (Bioinformatics and Practice 1) 생물정보학및실습 2 (Bioinformatics and Practice 2) 생물정보학및실습 3 (Bioinformatics and Practice 3) 생물정보학세미나생물정보학특론 1 생물정보학특론 2 서열분석및실습단백질구조분석바이오데이터마이닝화학정보학 생물정보통계학바이오칩정보학 협동과정생물정보학전공운영위원회의에서검토및승인받은과목으로서울대학교에소속된단과대학에서개설된과목으로한다. (2) 국내유전체생명정보단기교육프로그램 < 국내주요실습형단기교육현황 > 교육기관 ( 교육책임자 ) 한양대 ( 고인송 ) 서울의대 ( 김주한 ) 교육대상교육기간교육주제 일반 / 대학원생 (1 일 ) 일반 / 대학원생 ~28 (5일) BIT 융합생명정보학워크숍 - 전사체데이터분석교육 - NGS 기술의이해와전사체분석에대한이해 - RNA-seq 분석실습 (RNA-seq 데이터기본분석, RNA-seq 결과해석및경향성분석, Gene Fusion, Case Study) GDA 2014(Genome Data Analysis Workshop) - Advanced Microarray Data Analysis - Next Generation Sequencing & Personal Genome Data Analysis 11

158 한양대 ( 고인송 ) 서울대 ( 박태성 ) 이화여대 ( 이상혁 ) 한국유전체학회 학부생 3~4 학년 ~14 (5 일 ) 동계 ~5 (5 일 ) 하계 일반 / 대학원생 ~7 (2일) 일반 / 대학원생 일반 / 대학원생 ~15 (2 일 ) ~22 (2 일 ) ~19 (5 일 ) - RNA-seq Data Analysis - Exome Sequencing and Cancer Genome Bioinformatics - Translational Bioinformatics: Thousands of Public Data Analysis 맞춤의학을위한 BT+IT 융합워크숍프로그램 - 생명의료정보학 (BioMedical Informatics) 소개 : 오믹스 (Omics), 생물정보학, 시스템생물학, 의료정보학 - 맞춤의료 (4P Medicine) 로여는미래의학 - DNA & RNA 데이터분석의기초 - 생물통계학의기초 - SNP 데이터분석, Microarray 데이터분석 - 차세대염기서열분석 (NGS; Next Generation Sequencing) : NGS 분석기술, Exome Seq, RNA Seq 데이터분석 - 생물정보학프로그래밍 Ⅰ& II - 단백체 (Proteomics) 데이터분석 & 단백체서열분석실습 - Python programming 입문 & 실습서울대통계학과창의연구단교육 - STOM(Statistical analysis of OMics data): Genomics 이화시스템생물학연구소에서생명정보 BIT 워크샵 차세대시퀀싱데이터의분석 (Exome-Seq, RNA-Seq) 대용량오믹스데이터의시스템네트워크적분석 2013 제 8 회 KOGO 통계유전학워크샵 - R 을이용한통계학 (Biostatistics Using R) - 유전학기초 (Introduction to Genetics) - 유전체역학연구방법론 (Methods in Genomic Epidemiology) - 암유전체학 (Cancer Genome Analysis) - 생물학자를위한리눅스 (Linux for Biologists) - 후성유전체학 (Practical Course for Comparative Epigenomics) - Copy Number Alteration (CNA), Copy Number Variation (CNV) 분석기법 - 네트워크분석 (Network Analysis) - 바이오정보학입문 (Bioinformatics for Beginners and Intermediate Users) - 질병유전체분석법 (Genetic Variation and Diseases) - 전장유전체분석기법 (GWAS) - 임상연구자를위한유전체정보분석기술 (Translational Genomics Research) ( 가 ) 한국유전체학회통계유전학워크샾 (2005~ 현 ) R을이용한기초통계및실습, 기초 / 임상유전학, 생명정보학, microarray 데이터분석, CNV/SNP/GWAS 등다양한분야에걸친 1-2일단기교육코스제공 ( 나 ) 서울대학교시스템바이오정보의학연구센터 (2011~ 현 ) 매년 GDA(Genome Data Analysis Workshop) 을개최하여생물학관련연구자들이유전체자료의분석및연구를체계적이고효율적으로수행할수있도록지원함. ( ( 다 ) 연세대학교연세프로테옴연구센터 (2006~ 현 ) 매년하계와동계에각각 1회씩프로테오믹스워크샵을개최하여다양한프로테오믹스실험기법및분석방법을교육, 실무적해결책을제공 12

( 라 ) 한국유전체학회, 서울대학교 NICEM 및식물유전체육종연구소 (2011) EBI-NGS 데이터심층분석워크샵을개최, 유럽바이오인포매틱스협회에서연자를초청하여실제 Next-generation sequencing 데이터를 de novo assembly와 re-sequencing을중심으로교육 (3) 국외유전체교육프로그램운영현황조사및밴치마킹 ( 가 )

159 ( 라 ) 한국유전체학회, 서울대학교 NICEM 및식물유전체육종연구소 (2011) EBI-NGS 데이터심층분석워크샵을개최, 유럽바이오인포매틱스협회에서연자를초청하여실제 Next-generation sequencing 데이터를 de novo assembly와 re-sequencing을중심으로교육 (3) 국외유전체교육프로그램운영현황조사및밴치마킹 ( 가 ) NHGRI/NIH를중심으로한다양한유전체및유전학관련교육프로그램운영 - 미국 NIH의 NHGRI(Natinal Human Genome Research Institute) 의교육프로그램은유전체분석과관련된생물정보학분야는물론유전학과변이체등매우다양하게 Online 상에서서비스 - 보스턴의 Harvard & MIT, 워싱턴대학, 베일러의과대학및 UCSD 등의대형게놈센터를중심으로다양한교육및인력양성프로그램을운영하고있음 - 특히 NCI(National Cancer Institute) 와위의센터를중심으로진행중인 TCGA(The Cancer Genome Atlas) 프로젝트는모든암의 multi-omics 데이터를 10,000 샘플이상의데이터를만들고데이터공개와함께통합분석하기위한도구및교육을진행하고있음 ( < 그림 > NHGRI 교육프로그램 ( 나 ) 하버드대학과 MIT에서공동으로운영하는 Broad 연구소의 NGS 데이터분석 workshop - 의학및유전학적관점에서 NGS 데이터분석방법론에중점을두고있으며 NGS 데이터의시각화분석을위해 Integrative Genomics Viewer 등자체적으로개발한분석도구를사용함 - Workshop 자료는 pdf와 video 파일을다운받을수있게하여일반인들도활용할수있도록하고있음 13

< 그림 > Broad 연구소교육프로그램 ( 다 ) 영국 Sanger 연구소 (Welcome Trust 게놈센터 ) 의 NGS Course - 분석방법론과이들방법들의실제데이터에대한응용을포함하는교육프로그램으로서, 샘플프랩, NGS 유전체분석기술, 데이터분석방법론및툴등에대한교육을포함 - Manufacture의현장교육과는달리 Illumina Solexa

160 < 그림 > Broad 연구소교육프로그램 ( 다 ) 영국 Sanger 연구소 (Welcome Trust 게놈센터 ) 의 NGS Course - 분석방법론과이들방법들의실제데이터에대한응용을포함하는교육프로그램으로서, 샘플프랩, NGS 유전체분석기술, 데이터분석방법론및툴등에대한교육을포함 - Manufacture의현장교육과는달리 Illumina Solexa 시퀀싱플랫폼을중심으로실험, 분석기술, 데이터분석방법론및소프트웨어의이용을포함하여생물학적문제및데이터해석을위한실질적인해석이가능 - 관련사이트 : ( 라 ) 중국 BGI(Beijing Genomics Institute) 의 NGS 기반유전체데이터분석교육 - 200대의 Illumina Solexa 시퀀싱기기를보유하고있으며 ( 그림참조 ), Solexa를기반으로하는 NGS 분석기술및생산된데이터의저장, 프로세싱, 표준화등에필요한 IT 기술들을교육 - BGI에서 NGS 데이터분석을위해개발한 SOAP, SOAP2, CAT, ReAS, RePS, Maq 등을이용한 alignment, de novo assembly, structural variation 분석등의내부 / 외부교육프로그램을운영 - 코스프로그램내용은영국 Sanger 연구소와유사 - Human, Plant, Animal, Micro-organism Genome project에서생산한데이터를저장, 교환, 분석을위한 17개의데이터베이스시스템을운영및교육 - BGI는매년 250명이상의대학원생을연구원으로고용하여교육및 NGS 중심의유전체분석교육을시키고있으며, 그규모와능력면에서세계최고수준임을인간및팬더게놈프로젝트등을통해증명 14

그림 에서운영중인 ( 마 ) Canadian Bioinformatics Workshops - 2007년부터정기적으로생물정보학의다양한분야의분석워크샵을진행하고있으며, 특히 NGS 데이터분석을중심으로각강좌마다 2일의집중교육을진행하고있음 - 암유전체분석, 생체경로및네트워크, NGS 데이터, 대사체, microarray 등유전체데이터분석에관한교육프로그램포함 -

161 그림 에서운영중인 ( 마 ) Canadian Bioinformatics Workshops 년부터정기적으로생물정보학의다양한분야의분석워크샵을진행하고있으며, 특히 NGS 데이터분석을중심으로각강좌마다 2일의집중교육을진행하고있음 - 암유전체분석, 생체경로및네트워크, NGS 데이터, 대사체, microarray 등유전체데이터분석에관한교육프로그램포함 - 관련웹사이트 ( 바 ) Michigan 주립대학생물정보학코스의 NGS 데이터분석교육프로그램 - 관련사이트 : UNIX 플랫폼상에서대용량데이터를다루고두번째주는 mapping, assembly 및 ChIP-seq과 RNA-seq과같은 resequencing 개념의 short-read 데이터분석법을집중적으로강의하고수강자는다음과같은분야의기본지식이필요 - 교육에서는 variation 분석을위한 mapping, mrna-seq 데이터로부터전사체분석, ChIP-seq 데이터로부터 enriched genomic region의 short-read 데이터분석법을집중적으로습득할수있도록함 - 코스를수료하면수료증을발급하고학생은특수과목의학점과연계시킨 credit을부여함. - 효율적으로대용량 NGS 데이터를분석을위한통계학교육프로그램으로서 R과 Bioconductor 교육을진행 - NGS 분석소프트웨어개발과데이터분석 : 국제 1000 게놈프로젝트의데이터를생산하는거점센터에서 NGS 데이터를분석할수있는소프웨어개발과 NGS 교육프로그램을병행하여운영 15

( 사 ) Cold Spring Harbor Laboratory 의유전체관련교육프로그램 - 유전체연구와관련한다양한종류의단기교육코스를운영 - 관련사이트 : http://meetings.cshl.edu/courses.

biological libraries, practical topics in bioinformatics, analysis pipelines 구축등포함 ( 아 ) 교토대학교생물정보학워크숍 : Kyoto Symposium on Bioinformatics for Next Generation Sequencing with Application in Human

162 ( 사 ) Cold Spring Harbor Laboratory 의유전체관련교육프로그램 - 유전체연구와관련한다양한종류의단기교육코스를운영 - 관련사이트 : - Programming for Biology" 코스는프로그래밍에익숙하지않은일반실험실물학연구자들에게프로그램의기초지식을교육하는코스 - 세명의 instructor 가프로그램을구성하고주된강의를담당하며그이외에 10 여명의외부강사로구성 - Perl 을중심으로교육하며주된교육내용은 introductory coding, survey of available biological libraries, practical topics in bioinformatics, analysis pipelines 구축등포함 ( 아 ) 교토대학교생물정보학워크숍 : Kyoto Symposium on Bioinformatics for Next Generation Sequencing with Application in Human Genetics ~13, 일본교토대학교 학회명 2nd Kyoto Symposium on Bioinformatics for Next Generation Sequencing with Application in Human Genetics 일시 ~15 장소 일본교토대학교 DAY1: MASSIVELY-P ARALLEL SEQUENCING IN HUMAN GENETICS 9:00 9:30 Opening remarks & Course overviews Fumihiko Matsuda, Mark Lathrop 9:30 10:45 Lecture: Design and implementation of studies in human genetics Joseph D. Terwilliger 10:45 11:15 Coffee break 11:15 12:00 Lecture: Next-generation sequencing (NGS) in human genetics Mark Lathrop 12:00 13:00 Lunch 13:00 13:30 Practical: Basic Linux (optional) Staff 13:30 14:30 Lecture: Understanding NGS data analysis workflow Louis Letourneau 14:30 15:00 Coffee break 15:00 17:30 Practical: NGS quality control and variant calling Louis Letourneau 16

163 DAY2: APPLICATIONS TO HUMAN GENETICS DAY3: STATISTICS FOR NGS DATA 8:15 9:00 Discussions with instructors 9:00 10:00 Lecture: NGS Variant Calling (SNV, CNV) Louis Letourneau 10:00 11:00 Lecture: Annotating and prioritising variants in human disease studies Jacek Majewski 11:00 11:15 Coffee break 11:15 13:00 Practical: Analysis of disease variants Jacek Majewski 13:00 14:00 Lunch 14:00 15:00 Interpreting cancer sequence data Richard Houlston 15:00 16:00 Introduction to statistical testing Daniel E. Weeks 16:00 16:30 Coffee break 16:30 18:00 Practical: Introduction to statistical testing in human genetics Daniel E. Weeks 8:00 8:30 Discussions with instructors 8:30 9:45 Practical: Pseudomarker for combined linkage and association analysis Joseph D. Terwilliger 9:45 10:00 Coffee break 10:00 11:00 Lecture: Statistical testing with NGS data Suzanne M. Leal 11:00 12:00 Practical: Statistical testing with NGS data Suzanne M. Leal 12:00 13:00 Lunch 13:00 13:45 Lecture: Computer methods for predicting gene effects and detecting disease variants Pak-Chung Sham 13:45 14:30 Practical: Computer methods for predicting gene effects and detecting disease variants Pak-Chung Sham 14:30 15:30 Lecture: Multi-marker and linear mixed model approaches to mapping disease and quantitative trait loci, Peter Carbonetto 15:30 16:00 Coffee break 16:00 17:00 Practical: Multi-marker and linear mixed model approaches to mapping disease and quantitative trait loci, Peter Carbonetto 17:00 17:45 Course wind-up: Genes and environment Jurg Ott 17

164 교육프로그램내용의특징 : 바이오데이터를다루는일반생물정보학교육과유전체역학데이터를다루는유전통계학교육을융합하여교육한다는특징이있고모두외국연자를초청하여교육하여교육의질을높임 1. Design and implementation of studies in human genetics - sequencing을하기이전에실험설계단계에서영향을끼치는가족력이나음주, 흡연, 주변환경요인등을충분히고려하여실험설계를하는것이좀더정확한결과를이끌어낼수있음. 2. Next-generation sequencing (NGS) in human genetics - NGS분석을위해서필요한툴, 그리고각툴에필요한파라메타에대한설명, 툴들을사용한실제적인 pipe line을구성하는예제를보여줌으로서실제적인분석툴을짜는과정을보여줌. 3. Understanding NGS data analysis workflow - NGS의기본원리 /paired end 방식의 sequencing 에대한설명 - RNA seq에대한이론적인설명 (Paired end, fragment synthesis, mapping, Bowtie(mapping), BAM/SAM format) - DNA-seq/Chip-seq/ 에대한이론적인설명 - Galaxy, 기본 analysis tools 사용법 (QC control, trimming, samtools, GATKs) 4. NGS Variant Calling (SNV, CNV) - Snp analysis, 사용하는 tools, snp call 을위해사용되는공식, samtools 와 GATKs 의알고리즘, Vcf format, parameter, Variants calling 에대한설명 (ndel, deletion, insertion등 structural error) - Copy number variations/alterations(congenital abnormalities, somatic alterations, benign variations) 5. Annotating and prioritising variants in human disease studies - Exom sequencing을통해서가족간의 genetic trouble에대한 analysis를설계하는방법에대한설명 6. Statistical testing with NGS data 7. Computer methods for predicting gene effects and detecting disease variants 나. 생명정보학교육수요조사 ( 별첨 #2참조) (1) 조사목적 - 국내생명정보교육에대한연구자들의니즈파악을통한교육수요예측및설계 - 국내생명정보교육프로그램의발전과효율적인교육운영을위한연구자의견조사 (2) 조사대상및방법 - 생명정보분야관련연구자 - 생명정보분야교육지원자및대상자 - 생명정보분야관심대상자 ( 생명정보분야학회참석자 ) 한국시스템생물정보학회 (KSBSB), 한국유전체학회 (KOGO) - 조사방법 : 온라인 ( & 오프라인조사 18

165 < 그림 > 설문조사에응답한성별, 연령별분석 (3) 조사일시 ~ (4) 설문지의구성 - 설문지의구성은응답자의특성-7문항 / 교육인지도및만족도-6문항 / 교육수요, 교육운영방향-7문항총 20문항과기타교육을장단점을서술형으로기술하는 2문항으로구성구분문항비고응답자의특성성별, 연령, 소속, 학력, 전공분야, 연구분야, 연구활동지역 7 교육경험 / 수강한교육분야 / 교육에대한만족도교육인지도교육에대한전문성만족도 / 수강한교육과업무와의연계성 6 및만족도교육운영체계의만족도 교육수요, 교육운영방향 교육을수강하는목적 / 교육강좌운영의지속 / 충분한교육의 제공 / 기간별, 수준별, 분야별교육과정개설교육의운영지역 7 기타교육의장단점 2 다. 생명정보학교육정책방향제시 (1) 전문가자문회의개최목적 : 생명정보학전문가및교육수요자로구성된자문회의개최를통하여국내생명정보학의교육의현황과문제점을살펴보고생명정보학교육의활성화방안을도출 < 주요전문가자문회의일정표 > 19

166 날짜회의제목자문전문가 미국생물정보학교육현황자문및바이오빅데이터자문회의 20 공구교수 ( 한양대 ), 김선교수 ( 서울대 ) 최정현교수 ( 미국조지아대 ) 김덕수, 원영도, 노미나, 남진우교수 ( 한양대 ) 회의내용 1. 미국은맞춤의료를지향하는 Biomedical Informatics 교육이대세임 2. 생물정보와임상의료정보를통합분석하는기술을개발해야함 3. whole genome NGS 데이터가대량생산되는시대에대비하여 IT 수퍼컴퓨팅하드웨어인프라가필요함 4. 바이오빅데이터를분석할수있는인력양성도매우절실히필요함 날짜회의제목자문전문가 멀티오믹스데이터분석교육관련자문회의 회의내용 1. 향후교육방향에관한자문 : 초급에서중급으로이행하는교육 2. 멀티오믹스분석경험사례 : 과제물없이는실무능력이안생김 김상철박사 ( 삼성유전체연구소 ) 조성범박사 ( 국립보건연구원 ) 황승우박사 (KOBIC) 날짜회의제목자문전문가 BIT 융합학부생워크샵교육내용검토 이재형교수 ( 경희대 ) 임태연교수 ( 한양대 ) 회의내용 1. microarray data 분석이후에 RNA seq data 분석수요가급증하고있음. 2. 생물정보학자를위한교육도좋지만실험하는사람이접근할수있는고급사용자교육이필요함. 3. 임상유전체데이터분석수요가최근 NGS 데이터생산이많아져서특히 RNA seq 데이터와 exome 데이터분석교육이시급함. 특히의사들을위해주말교육이필요함 날짜회의제목자문전문가 유전체기반바이오빅데이터를활용한맞춤의료의산업화방안 공구교수, 노미나교수 ( 한양대 ) 허철구박사 ( 국립암센터 ) 김상수교수 ( 숭실대 ) 박종화박사 ( 테라젠 ) 회의내용 1. 맞춤의료산업화에가장필요한두가지는생명의료정보학전문인력의양성과법제도개선이다. 2. 전문인력양성은대학에서산업체와연계하여석사및박사과정을 MBA 와유사하게실무형학위과정을만들어공급해주면좋겠다. 3. 생명윤리법및맞춤의료법등에의해규제일변도정책보다는선진국과경쟁할수있게단계적완화가필요함 날짜회의제목자문전문가 Linux 기반전사체 (RNA-seq) 데이터분석관련자문회의 노미나교수, 채영규교수 ( 한양대 ) 박현석교수 ( 이화여대 ) 곽규범교수 ( 차의과학대학교 ) 회의내용 1. ENCODE 프로젝트를활용한유전체데이터분석을위한수요가매우높음. 2. 실험하는연구자들이 ENCODE 데이터베이스를활용해서연구하기에는기초지식이너무부족함. 3. 생물정보학자들은데이터를생산한실험자들이무엇을원하는지잘파악하지못함. 4. 실험연구자들과생물정보학자를연결해서 ENCODE 데이터베이스를잘활용하는교육프로그램을개발하는것이필요함. 날짜회의제목자문전문가 RNA-seq 데이터분석교육에관한자문회의 고준수박사 ( 테라젠 ), 박해일교수 ( 카톨릭대학교 ) 홍윤호교수 ( 서울대학교 ) 김종헌박사 ( 일산병원 ) 회의내용 1. 임상의사들을위한주말교육을더자주만들어달라. 2. Galaxy tool 이나 Gisys 와같은사용자중심의분석도구교육도병행해서해주기바람 일교육이아닌적어도 2~3 일교육으로늘려주기바람.

(2) KOBIC 생명정보교육협력회의개최 ( 국립농업과학원 ) ( 가 ) 시간 : 2013. 12.

167 (2) KOBIC 생명정보교육협력회의개최 ( 국립농업과학원 ) ( 가 ) 시간 : ( 화 ) 오전 10:30 ( 나 ) 장소 : 국립농업과학원농생명자원부1층차세대유전체사업단장실 ( 다 ) 참석자 : - 박기정센터장, 김남신박사 / KOBIC - 박범석단장, 한장호과장, 황지혜박사 / 농과원 - 고인송교수, 정의석연구원 / 한양대 ( 라 ) 회의내용 : - KOBIC과차세대유전체사업단양기관의교육운영협력방안모색 - 교육의질적향상과참여자의적극성을확보하기위한방안마련 - 수준별교육운영및주제별교육운영전략 - 단기, 중기, 장기교육의운영전략 (3) 생명정보학교육발전방안제시 1) 단기교육발전방안 : 단기워크숍 (1주이내 ): Ÿ 서울의대 GDA 교육, 한국유전체학회통계유전학워크숍등생명정보분석입문자를대상으로하는 1~5일단위의단기워크숍이여러곳에서활성화되고있으므로, 앞으로의 KOBIC 교육은 2010~2013년까지수행한초급교육수준의 1~3일단기교육은이들기관에게물려주고, 새롭게등장한분야를소개하는초급교육프로그램의개발과초급교육을마친사람들을대상으로하는실전형중급교육을지향하는것이바람직함 Ÿ 중급교육프로그램개발은교육용데이터의개발, 교육후평가용연습과제물의개발등교육담당자의많은노력이필요할것이므로년 4회정도의 2일교육일정이바람직함 2) 중기교육발전방안 : 산학연연계를통한실무형인턴쉽프로그램 (1 달이상 ): Ÿ 현재농림부사업단과제참여자를대상으로하는중기과정의소수정예교육프로 21

168 Ÿ Ÿ 그램등평균 1주 1일교육으로몇주동안교육하는형태의각부처사업단과제참여자만을대상으로하는교육이일부수행되고있음 KOBIC이특히미래창조과학부가지정한서울대, 숭실대, 이화여대, 한양대의 4개대학의 BIT융합연계교육기관또는산업체와연계하여이런중기과정의소수정예교육프로그램을시도해보는것은학계나산업계인력수급에도매우도움이되는일로생각됨 EBI 등외국의생물정보학 / 유전체학교육기관과연계하여 1년에 1회외국연자들을초청하여구성하는 2일교육프로그램의개발도바람직함. 현재한중일생물정보교육은실습교육이없고강의위주의워크숍인데, 이것을실습이포함된워크숍으로발전시키는시도를해보는것도좋겠음 3) 장기교육발전방안 : 인증과정, 학위과정 (1년이상 ) Ÿ 현재전문의를대상으로정부지원없이독자적으로서울의대김주한교수가주관하는 정보의학인증의과정 (CPBMI, Certified Physician for BioMedcial Informatics) 이매주토요일 6시간, 학기당 14주의 1년에걸친 2학기과정으로성공적으로운영되어 1기수료생을배출하였고, 현재 2기생 1학기가끝났음. 수료후인증시험을통과하면대한의료정보학회의인증서를수여하고있음 Ÿ 서울대병원이다시보건복지부유전체분석훈련센터로지정되어서울의대김주한교수가 2014년 5월부터 CPBMI와유사한형태로매주목요일 1주 5시간, 1학기 14주의 1년 2학기과정인 CSBMI (Certified Scientist for BioMedcial Informatics) 교육프로그램을시작할예정임 Ÿ KOBIC이정규직교육전담인력이최소한 3명이상있는경우에한국생물정보학회와더불어이러한유형의석사학위과정을속성으로수료할수있게하는 6개월 ~ 1년단위의인증프로그램을개발하면, 학위과정에다시들어가기어렵지만생명정보학을제대로배우고싶은많은잠재수요를충족시키며부족한생명정보분석전문인력의양성에크게기여할것임 22

169 3 장목표달성도및관련분야에의기여도 제 1 절연구개발의최종목표 1. 최종목표가. 차세대유전체정보분석전문가양성을위한교육프로그램을체계적으로개발하여, KOBIC과공동으로이를정기적인 workshop을통해제공함으로써유전체연구관련생명정보학지식과분석기술을보급나. 국내외생명정보학장단기교육현황및교육수요를조사하고, 이를토대로국내생명정보학교육의정책방향을제시 2. 연차별연구개발목표및내용 구분연구개발목표연구개발내용및범위 KOBIC 유전체분석 Workshop 운영 - 차세대유전체 (NGS) 관련단기강좌교육프로그램지속적운영 - 유전체연구의최신동향및현장수요를반영한커리큘럼설계 - 생명정보분야별전문가인력 Pool 확보 - 교육실습을위한환경구축 ( 전산교육장, 서버세팅, 실습데이터설치, 프로그램설치등 ) 1 차년도 평가및업데이트 국내외생명정보학 교육현황조사 - 매 Workshop마다강좌별교육만족평가실시및교육생 Feedback - 평가에기반한강좌내용업데이트 - 국내외주요생명정보학교육현황및교육과정조사 ( 학위과정, 단기과정 ) - 국외주요단기교육프로그램연수를통한최신교육프로그램의벤치마킹 국내생명정보학교육수요조사 - 생명정보학전문가자문회의를통한생명정보학교육활성화방안도출 - 유전체학등관련분야연구자대상교육수요조사 - 교육대상자대상설문조사및간담회 생명정보학교육정책방안제시 생명정보학교육단기, 중기, 장기교육발전방안제시 23

170 3. 계획대비달성도 ( 선정시제시된연구목표 ) 번호세부연구목표달성내용달성도 (%) 1 KOBIC 유전체분석 Workshop 의 4 회이상 지속적운영 - 17 회 ~21 회 ( 예정 ) 까지 5 회워크샵운영 100% 2 교육환경구축및운영 - 교육운영절차를수립하고강좌에맟준실습환경을구 축 ( 실습서버, 데이터, 프로그램설치, 실습조교등 ) 100% 3 교육평가및업데이트 - 교육전교육생을대상으로사전설문조사실시 ( 교육생순준파악 ) 과강좌별교육평가 ( 교육만족도 ) 실시로교육생의실효성및수준제고 -최신분석기법에대한리뷰및 workshop 평가에기반한강좌내용업데이트 -1회성교육인아닌교육생과의지속적인 Feedback 강화노력 100% 4 국내외생명정보학 교육현황조사 - 국내생면정보학운영대학커리큘럼조사 - 국내외생명정보교육과정조사및제공 100% 5 -산학연유전체학, 생물정보학, 의학등관련분야연구자대상으로 Survey 조사를통해교육수요를예측 -생명정보학전문가로구성된자문회의개최를통하여생명정보학교육수요조국내생명정보학의교육의현황과문제점을살펴보고생사명정보학교육의활성화방안을도출 -Workshop 교육생을대상으로설문조사및실시간의견조사를통하여요구사항적극반영 100% 6 생명정보학교육정책방향제시 - 전문가회의를통한단기, 중기, 장기발전방안제시 100% 24

171 4 장기대효과 1 기술적측면가. 주요오믹스 ( 유전체, 전사체등 ) 데이터에대해서표준화된분석파이프라인을제공함으로써유전체관련연구의효율성과경쟁력향상나. 산학연각분야에서절대적으로부족한유전체정보분석전문인력의체계적인양성다. 국내생명정보학학위과정개설에필요한표준교육과정개발의기초자료제공 2. 경제적 / 산업적측면가. 교육프로그램을모듈화하고생명정보학교육과정의표준을제시함으로써국내유전체관련연구의질적인도약촉진나. 개인별맞춤의학등유전체기반의미래의학및산업에대비한전문인력배출다. 국내유전체관련연구인력및생명정보전문인력간의네트워킹및공동연구시너지를통한국내유전체관련연구의효율성향상 25

172 주의 1. 이보고서는미래창조과학부에서시행한바이오 의료기술개발사업의연구보고서입니다. 2. 이보고서내용을발표하는때에는반드시미래창조과학부에서시행한바이오 의료기술개발사업의연구결과임을밝혀야합니다. 3. 국가과학기술기밀유지에필요한내용은대외적으로발표하거나공개하여서는아니됩니다. 26

모두 보기

농림축산식품부장관귀하 본보고서를 미생물을활용한친환경작물보호제및비료의제형화와현장적용매뉴 얼개발 ( 개발기간 : ~ ) 과제의최종보고서로제출합니다 주관연구기관명 : 고려바이오주식회사 ( 대표자 ) 김영권 (

농림축산식품부장관귀하 본보고서를 미생물을활용한친환경작물보호제및비료의제형화와현장적용매뉴 얼개발 ( 개발기간 :2014. 7. 29 ~ 2016. 7. 28.) 과제의최종보고서로제출합니다. 2016. 7. 28. 주관연구기관명 : 고려바이오주식회사 ( 대표자 ) 김영권 ( 인 ) 협동연구기관명 : 목원대학교산학협력단 ( 대표자 ) 고대식 ( 인 ) 협동연구기관명