13 th Asian Institute in Statistical Genetics and Genomics Graduate School of Public Health, Seoul National University, Seoul, Korea July 16 (Mon) 21(Sat), 2018 2018 Module Schedule (July 16-17) 1. Biostatistics using R Jinheum Kim Ju-Hyun Park Univ. of Suwon Dongguk Univ. 2. Introduction to Genetics Bermseok Oh Kyung Hee Univ. 3. Analysis of High Throughput Sequencing Data in Population Scale Hyunmin Kang Goo Jun Univ. of Michigan Univ. of Texas Health Science Center 4. NGS-based Immune Information Analysis Sangwoo Kim Yonsei Univ. (July 18-19) 5. Applications of NGS in Translational Genomics Murim Choi Seoul National Univ. 6. Multi-omics Data Analysis Hokeun Sun SungHwan Kim 7. Large-scale Genome Data Analysis using KoreanChip Bong Jo Kim KNIH Pusan National Univ. Keimyung Univ. 8. Metagenome Analysis Woo Jun Sul Chung-Ang Univ. (July 20-21) 9. NGS Cancer Gene Panel Analysis and Applications Yeun-Jun Chung Seung-Hyun Jung The Catholic Univ. 10. Genomic Epidemiology Ji Wan Park Hallym Univ. 11. Getting Your Papers Published Peter Park Harvard Medical School 12. Cancer Genomics Sanghyuk Lee Ewha Womans Univ.
1. R 을이용한기초통계학 (Biostatistics using R) 강사 : 김진흠, 박주현 소속 : 수원대학교데이터과학부, 동국대학교통계학과 강의개요 : 본강좌에서는기초통계학의기본개념을학습하고상용소프트웨어인 R을이용한실습을병행하고자한다. 본강좌에서사용하는 R 패키지는 SAS, SPSS, MINITAB, STATA 등과달리무료로제공되며저장공간이많이필요하지않기때문에현재가장널리사용되고있는소프트웨어이다. 또한 R 패키지는다른통계패키지와달리개발이용이하고최근연구결과들이패키지에탑재될때까지소요되는시간이짧아통계관련연구에매우유용하게사용되고있다. 본강좌에서는 R 설치와기본사용법, R을활용한그래픽스, 일변량자료의정리와요약방법등 R을활용한자료처리방법과상관분석및회귀분석, 범주형자료의독립성검정을포함하는이변량자료의분석방법, 추정과가설검정, 두집단의비교, 분산분석등기초통계이론에대하여강의할것이다. 준비물 : 개인노트북 일자시간강의내용담당강사명구분 Session 6 R 설치및소개 박주현 인터넷접속필요 R 을활용한그래픽스 박주현 인터넷접속필요 일변량자료의정리및요약 박주현 인터넷접속필요 확률과확률분포, 표본분포 박주현 인터넷접속필요 추정 김진흠 인터넷접속필요 가설검정 김진흠 인터넷접속필요 두집단의비교및분산분석 김진흠 인터넷접속필요 이변량자료의분석 : 상관분석, 회귀분석, 독립성검정 김진흠 인터넷접속필요
2. 유전학기초 (Introduction to Genetics) 강사 : 오범석 소속 : 경희대학교의과대학 강의개요 : 유전학비전공자를위하여전달유전학, 분자유전학, 집단유전학, 질병유전학, 통계유전학등의기본개념을이해시킨다. 멘델의유전법칙, 가계도, 유전자의구조및발현, 염색체의구조, Human Genome Project 및유전변이, 유전질환의기전및 Genetic counseling, 복합질환의유전학적이해등의주제를다룬다. 표현형질이세대간어떻게전달되는가, 표현형질을결정하는유전자는유전체상에서어떤모양으로존재하는가그리고유전자가어떻게발현되는가, 인간유전체사업이후활발하게진행되고있는질병유전체는우리에게어떤교훈을주고있는가등을강의하고자한다. 이들주제를통하여, 유전학적인기초지식을가르치고분석결과에대한생물학적인이해를높여적절한실험디자인을하도록도와주고자한다. 그외에도최신지견으로 Personalized Medicine/Precision Medicine에대한설명도포함된다. 준비물 : 없음
일자시간강의내용담당강사명구분 유전학의태동 : 멘델의법칙, 가계도, 유전질환오범석실습없음 염색체의구조 : Karyotype, 염색체이상오범석상동 유전의결정인자 : DNA, Gene, Genome structure 오범석 상동 유전형과표현형 : 유전자의기능과조절오범석상동 유전자의다양성 : Human Genome Project, Genetic variation, DNA sequencing, Personal 오범석 Genome 상동 Session 6 복합형질의유전학적이해 : 복합형질의특성, 상관성분석, Linkage disequilibrium, Haplotype, 오범석 GWAS, Molecular pathology 상동 집단유전학의이해 : Gene pool, Genotype, DNA 오범석 typing, Natural selection 상동 유전상담 : 유전상담과위험도평가오범석상동
3. 고출력시퀀싱데이터의집단규모분석 (Analysis of High Throughput Sequencing Data in Population Scale) 강사 : 강현민 (Hyun Min Kang), 전구 (Goo Jun) 소속 : 미시건대학교생물통계학과 (Department of Biostatistics, School of Public Health, University of Michigan), UT 휴스턴인간유전학센터 (Human Genetics Center, School of Public Health, University of Texas Health Science Center Houston) 수강생수준 : 본강좌는유전체 / 유전학연구에현재종사하고있는연구자혹은유전체 / 유전학연구에관심이있는초보자를대상으로합니다. 이강좌를잘소화하기위해서는유전학과관련된기본적지식 ( 예 : 멘델의법칙 ), 기본적인통계학지식 ( 예 : p-value), 그리고 UNIX 에대한기본적인지식 ( 예 : https://www.codecademy.com/learn/learn-the-command-line 의무료강좌부분 ) 을갖추는것을권해드립니다. [ This course is intended for researchers who are actively engaged in genomics/genetics research and interested beginners. Ideally, participants are expected to have some basic knowledge of human genetics (such as Mendelian inheritance), core statistical principles (such as p-values), and basic UNIX skills) ] 강의개요 : 최근급속도로발전한고출력시퀀싱기술은유전체, 전사체, 후생유전체데이터등을전대미문의규모로양산하고있습니다. 자연발생하는유전적변이가질병에미치는영향을이해하기위해서는어떻게많은유전체를조화롭고검정력이높은방법으로적절히분석할수있는지아는것이필요합니다. 이강좌는전장유전체혹은엑솜유전체데이터를집단규모로설계하고분석하는데필요한개념과지식을배우는것을목표로합니다. 시퀀스정렬, 데이터품질관리, 변이추출 (SNP, Indel, 구조적변이등 ) 분석을위한실용적인지식과실습에초점을맞춥니다. 또한, 집단규모의다중오믹스분석의일환으로시퀀싱된유전체와전사체간의연관분석을시행합니다. [ The dramatic advance of high-throughput sequencing technologies in the last decade has produced tremendous amount genomic, transcriptomic, and epigenomic sequence data at an unprecedented scale. To investigate the impact of naturally occurring genetic variants on disease traits, it is important to understand how to properly analyze many sequenced genomes together in a harmonized manner so that powerful statistical methods can be applied. In this short course, we aim to learn the key concepts and knowledge to design and analyze whole-genome or wholeexome sequence reads for genetic mapping in population-based studies. We will focus on practical knowledge and hands-on experiences in analyzing sequence data, including alignment, quality control, calling genetic variants such as SNPs, Indels, and structural variants. We will use publicly available RNA-seq datasets learn how to perform association analysis between sequence genomes and transcriptomes as examples of multi-omics sequence analysis at population-scale. ]
일자시간강의내용담당강사명구분 Design and analysis of sequencing studies in population scale 강현민 강의 Alignment and quality control of sequenced genomes Calling short variants (SNPs and Indels) from sequence reads 전구강현민 Calling structural variants (large deletions and CNVs) from sequence reads 전구 Variant annotation, filtering and data harmonization 전구 Session 6 Haplotype-aware analysis of genomic sequence reads 강현민 Introduction to RNA-seq experiments and eqtl analysis 전구 Population-scale analysis of singlecell RNA-seq data 강현민
4. NGS 를이용한면역정보분석 (NGS-based Immune Information Analysis) 강사 : 김상우, 김소라, 김은영 소속 : 연세대학교의과대학의생명시스템정보학교실 강의개요 : 최근생물정보학기술의발달로 in silico 상태에서암환자의면역상태, 면역치료반응예측, 면역세포구성등을알아낼수있는여러알고리즘과소프트웨어가발표되었다. 본강좌는면역항암치료등에서최근많은관심을받고있는다양한면역정보분석을 NGS, microarray 등대규모생물정보데이터를이용하여분석하는방법을이론과실습을병행하여진행하고자한다. 특히 IEDB 등대규모데이터베이스의내용과이용방법, RNA-seq 을이용한 HLA typing, NGS 를이용한 somatic mutation 의 burden 측정, 신항원 (neoantigen) 예측및발현량을이용한면역세포구성예측을통하여실제환자데이터에적용할수있는프로그램및파이프라인구축수준의분석능력을배가한다. 일자시간강의내용담당강사명구분 Session 6 강의 1 in silico 면역정보분석의배경 김상우 강의 강의 2 in silico HLA typing 김상우 강의 강의 3 mutation burden 및신항원예측 김상우 강의 강의 4 발현정보를이용한면역세포구성예측 김상우 강의 실습 1 In silico HLA typing 김소라, (HLAminer, POLYSOLVER) 김은영 실습 실습 2 Detection of mutatedpeptide 김소라, 김은영 (Mutect2, customprodb) 실습 실습 3 In silico IC50 prediction 김소라, (NetMHC) 김은영 실습 실습 4 Neoantigen prediction 김소라, (pvac-seq, Neopepsee) 김은영 실습
5. NGS 를통한중개연구 (Application of NGS in Translational Genomics) 강사 : 최무림, 유용진, 이영하, 유태경, 조재소, Jana Kneissl, 이정은, 이초롱 소속 : 서울대학교의과학과 강의개요 : NGS를기반으로하는유전체학의발전에의하여질병원인의유전적이해도가가파르게상승하고있다. 이러한경향에힘입어유전체학을이용한중개연구도활발히이루어지고있으며이를통하여정밀의학으로대표되는기초적, 임상적발전이이루어지고있다. 본강좌에서는질병의유전학적이해를통한최근동향을알아본후중개연구를위한여러종류의질환연구의예시와실습을수행할것이다. 또한중개연구의발전에힘입은정밀의학의예시와실습, 최근연구동향을학습한다. 이를위하여 NGS 데이터의해석과이를위한공공 DB의사용법, 다양한유전성질환 ( 희귀질환, 복합질환, 암을비롯한 somatic 질환 ) 의연구디자인, 분석법, 데이터해석과결과의의생명적의미부여과정을다룰것이다. 각실습시간은주강사에의한약간의이론적인강의와참여강사에의한실제데이터를이용한실습으로구성되어있다. 준비물 : 노트북지참 실습 : 인터넷접속, linux, R 사용 수강생수준 : 제한없음
일자 시간 강의내용 담당강사명구분 질병의유전학적이해및정밀의학의구현최무림강의 NGS methodology 최무림 강의 중개연구를위한 public DB 의종류와이영하 활용법 유용진 Public data repository 활용 유태경 Deep learning 기반유전체데이터분석이정은 유용진 Session 6 Whole exome sequencing 분석과이영하 Mendelian 질병원인규명법조재소 이영하 RNA sequencing 데이터분석 Jana K. 유태경 Single cell RNA sequencing 데이터분석이초롱
6. 빅데이터분석기법을활용한다중오믹스데이터분석 (Multi-omics Data Analysis) 강사 : 선호근, 김성환 소속 : 부산대학교통계학과, 건국대학교응용통계학과 강의개요 : 본강좌에서는빅데이터통계분석기법을활용하여다중유전체 (multiple omics) 데이터를분석하는여러가지방법들을학습한다. 주로통계패키지인 R 프로그램을이용하여실제데이터및모의분석을병행실습하고, 현재많은관심을받고있는유전체빅데이터분석및이종유전체결합분석에대한그현황과방법론을다루고자한다. 또한실제데이터분석실습을통하여의생명과학적의미를도출하는방법도함께다룬다. 강의는크게두가지파트로나뉜다. 첫번째파트는주로빅데이터통계분석에사용하는 regularization technique 을학습한다. 구체적으로는 penalized likelihood 에기반을둔 lasso (least absolute shrinkage and selection operator), elastic-net, group lasso 등의변수선택방법들을다루며또한이를고차원유전체빅데이터연관분석 (genetic association study with high-dimensional genomic data) 에적용시키는방법을 R 실습을통해학습한다. 두번째파트는주로다른종류의유전체데이터를결합하여분석하는이종유전체결합분석에대해학습한다. 구체적으로는메타품질관리 (MetaQC), 메타유전자탐색 (MetaDE), 메타군집분석 (Meta clustering), 메타판별분석 (Meta prediction) 및메타시각화 (Meta visualization) 등의방법론을살펴볼예정이다. 준비물 : 노트북지참 ( 통계패키지 R 설치 ) 실습 : 인터넷접속 ( 웹서핑및 CRAN/bioconductor 에서통계패키지다운로드및설치 ) 수강생수준 : R 프로그램에대한경험및기초지식을가지고있어야한다.
일자 시간 강의내용 담당강사명구분 통계적변수선택및교차검증 (Statistical variable selection and cross-선호validation) 벌점우도함수기반모수규제화방법들 (Penalized likelihood-based regularization 선호근 methods) 고차원유전체데이터분석선호근 (Analysis of High-dimensional genomic data) 난소암 DNA 메틸화데이터분석 (Analysis of High-dimensional DNA 선호근 methylation ovarian cancer data) Omics 통합분석개관및 MetaQC (Quality 김성환 control) Session 6 MetaDE (differential expressed genes) 분석김성환 Omics 데이터통합시각화 (Visualization) 김성환 Omics 데이터통합군집및분류 (clustering 김성환 and classification) 분석
7. 한국인칩을이용한대규모유전체정보분석 (Large-scale Genome Data Analysis using KoreanChip) 강사 : 김봉조, 김영진, 문상훈, 황미영, 한소희, 공진화 소속 : 국립보건연구원 강의개요 : 본강좌에서는국립보건연구원에서제작한 Korea Biobank Array ( 이하한국인칩 ) 를소개하고, 이를이용한유전체정보분석방법을설명한다. 한국인칩은한국인질병유전체연구를위해한국인전유전체분석정보및마이크로어레이정보를기반으로제작된 SNP 칩으로써한국인유전체대표성확보 (genomic coverage) 를위해 tagging SNP 및기능유전변이등약 83만개의프로브로구성되어있다. 본강좌에서는한국인칩사업소개, 한국인칩컨텐츠특징및성능분석결과, 수십만명규모의유전체정보분석등한국인칩을이용한전장유전체연관성분석의모든과정을습득할수있도록실습을병행하여진행한다. 준비물 : 개인노트북 일자 시간 강의내용 담당강사명 구분 한국인칩사업소개 ( 현황및분양방법등 ) 김봉조 강의 한국인칩컨텐츠특징및성능소개 문상훈 강의 한국인칩유전체정보정도관리 (1) 김영진 강의 한국인칩유전체정보정도관리 (2) 황미영 실습 한국인칩유전체정보분석 ( 연관성, 메타, Conditional 분석등 ) 김영진 강의 Session 6 한국인칩유전체정보분석 ( 연관성, 메타, Conditional 분석등 ) 한소희 실습 한국인칩유전체정보분석결과해석 (1) 문상훈 강의 한국인칩유전체정보분석결과해석 (2) 공진화 실습
8. 메타지놈분석 (Metagenome Analysis) 강사 : 설우준, 김혜진 소속 : 중앙대학교시스템생명공학과 강의개요 : 본강좌에서는마이크로바이옴분석에필요한메타지노믹스 (metagenomics) 및미생물군집분석에대한기본적인이해와 NGS (next-generation sequencing) 수행을통해산출되는방대한양의서열 (sequence) data 를다룰수있는생물정보학적 (bioinformatics) 분석법을실습하고자한다. 본강좌에서는마커유전자 ( 예 : 16S rrna gene) 의시퀀싱을통해샘플링한미생물군집을분석하기위해파이프라인 QIIME 과마이크로바이옴의메타유전체의기능분석및예측을위한 shot-gun 메타지놈분석에대해실습하고자한다. Raw sequence 의메타유전체분석에접근하기어려운수강생들에게초점을맞추어전처리과정부터 read-based 및 assembly-based 분석까지전반적인분석법들을소개하고자한다. 준비물 : 개인노트북 일자 시간 강의내용 담당강사명 구분 메타지놈분석개요 설우준 강의 Computational pre-processing 설우준 (Raw read quality control) ( 성훈제, 김태윤 ) Read-based profiling (MetaPhlAn2, HUMAnN2, etc) 설우준 ( 성훈제, 김태윤 ) Assembly-based profiling (EDGE, MOCAT2, etc) 설우준 ( 성훈제, 김태윤 ) 미생물군집분석개요 김혜진 강의 Session 6 Raw Sequence Merge 김혜진 (OTU Table 생성 ) ( 김진주, 오한나 ) Community structure 의이해 (QIIME/ α-diversity, β-diversity) 김혜진 ( 이규찬, 오한나 ) 데이터의시각화 using R (LEfSe, Randomforest, PCoA) 김혜진 ( 이규찬, 김진주 )
9. NGS 암유전자패널분석및활용 (NGS Cancer Gene Panel Analysis and Applications) 강사 : 정연준, 정승현 소속 : 가톨릭대학교미생물학교실, 가톨릭대학교암진화연구센터 강의개요 : 차세대염기서열분석과생명정보분석기술의발전으로인해개인의유전체정보생산이보편화되었다. 이러한유전체정보, 특히개개인의암유전체정보는정밀의료의핵심요소이며암유전자패널분석을통하여개인맞춤진단과치료가가능하다. 본강좌에서는암유전자패널데이터분석의기본적인지식및최신정보를강의와실습을통해익힐계획이다. 구체적으로는암유전자패널데이터에서돌연변이분석법, 염색체변이분석법, 현미부수체불안정성 (microsatellite instability) 분석법, 돌연변이패턴분석법, 암진화과정분석법등을소개할예정이다. 또한체액생검 (liquid biopsy) 에서의저준위돌연변이검출을위한 molecular barcode 패널에대해소개하며, 분석법을알아보고자한다. 준비물 : 개인노트북 수강생수준 : NGS 유전자패널검사분석을처음접하는자 일자 시간 강의내용 담당강사명 구분 NGS 유전자패널검사개요 정연준 강의 암유전자패널설계방법 정승현 강의 암유전자패널돌연변이분석 (1) 정승현 암유전자패널돌연변이분석 (2) 정승현 암유전자패널염색체변이분석 정승현 Session 6 암유전자패널 MSI 분석 정승현 Mutation signature 분석 정승현 암진화분석 정승현
10. 유전체역학 (Genomic Epidemiology) 강사 : 박지완, 조윤신, 지선하 소속 : 한림대학교의과대학, 한림대학교자연과학대학, 연세대학교보건대학원 강의개요 : 유전체역학은유전과환경의상호작용이질병의발생과분포에미치는영향을밝히기위한학문이다. 본강좌에서는질병유전체학의기본개념을설명하고최신유전체역학연구에서보편적으로사용되는연구방법론과대표적인분석 tool 을이용하여임상-역학-유전변이데이터를분석하고결론을추론하는방법을습득한다. 질병위험요인을밝히기위한 Study design( 가족, 환자-대조군, 코호트연구 ) 과연구유형 ( 유전적연관성, 멘델리안무작위분석법, 시계열분석, 유전- 환경상호작용 ) 에적합한분석 tool 사용법, 표본수산정, 통계분석법을중심으로중급수준의분석능력습득을목표로한다. 준비물 : 개인노트북
일자 시간 강의내용 담당강사명 구분 Overview: Genome Epidemiology Study designs & Causal inference Linkage vs. Association 박지완 Microarray vs. Whole genome 강의 sequencing Genetic Association Analysis Sample size calculation TagSNP selection 박지완 강의 / 실습 Linear/Logistic regression analysis Genome-wide Association Study Microarray data analysis - Plink Meta-analysis - Metal 조윤신 강의 / 실습 Analysis for rare/low frequency In silico functional analysis variants NGS Data Analysis EPACTS 조윤신 강의 / 실습 Survival Analysis Cox proportional hazard regression 박지완 analysis 강의 / 실습 Kaplan-Meier curve & Log rank test Gene-Environment Interaction Session 6 GMDR Genome-wide scan for GXE 박지완 강의 / 실습 Mendelian Randomization 지선하 강의 / 실습 Beyond Genome-wide Association Studies 박지완 Presenting Research Results 강의
11. Getting Your Papers Published 강사 : Peter J Park 소속 : Harvard Medical School 강의개요 : As many young researchers realize in due time, running one's own lab requires a new set of skills--e.g., obtaining grants, recruiting and training students, and managing collaborations. In particular, one typically finds that being smart and working many long nights is necessary but not sufficient for publishing papers in top journals. The aim of this course is to discuss these challenges and learn from one another on how to be more productive in our academic pursuits. I will share what I have learned about how to run a lab effectively and to publish in "high-impact" journals. The topics I will cover include picking a research topic, writing a clear manuscript, writing cover letters, selecting reviewers, responding to reviewers' comments, and communicating with editors. Depending on the interest of the audience, I will also discuss ideas for writing effective letters of recommendations, finding and dealing with experimental collaborators, and applying for positions overseas. I will present numerous case studies of successful and not-so-successful emails/letters/projects, and will invite others to share theirs. I will provide case studies of genomics papers, but the lessons should be understandable to a general audience. My laboratory focuses on computational analysis of genome and epigenome data. My qualifications include reviewing >100 manuscripts, getting a multitude of manuscripts rejected (~70 times at Nature family journals), and reading >1000 graduate school applications. My trainees have gone on to faculty positions at top institutions including three at Harvard. This course is intended for principal investigators (PhDs and MDs) and advanced postdoctoral fellows, but others may be considered if there is space. If the number of applicants exceeds the number of available slots, preference will be given to those in more advanced career stages. Requirements: Willingness to speak freely and constructively. Note: In the past, I have offered a course in cancer genomics. As there are other courses in cancer genomics now, I decided to offer a course on a different topic that I think will be of interest to a broad audience. The course will be conducted mostly in Korean.
일자시간강의내용담당강사명구분 Overview; Choosing Which Projects to Work on Peter J Park Understanding the Publication Process; How to Write Cover Letters Peter J Park Improving Clarity of Your Writing and Figures; Importance of Getting Feedback Peter J Park Writing Rebuttals How to Fight Back! Peter J Park Common Mistakes in Writing Peter J Park Session 6 How to Write Recommendation Letters and CVs Peter J Park How to Work with Collaborators; Resolving Authorship Issues Peter J Park More Discussions Peter J Park
12. 암유전체학 (Cancer Genomics) 강사 : 이상혁 소속 : 이화여자대학교생명과학과 강의개요 : 본강좌에서는암유전체학의최근발전동향및주요주제를데이터분석의측면에서살펴보고자한다. 차세대시퀀싱 (NGS) 방법의도입에따라암유전체학은비약적인발전을거듭하여맞춤의료, 정밀의료의첨단분야로확립되고있다. 1일차강의에서는차세대시퀀싱기반의암유전체학에대한소개와 NGS 데이터의기본적인분석방법을다룰것이다. 모든분석의근간이되는 whole exome sequencing 과 transcriptome sequencing 데이터분석을통하여 somatic variants 를찾고발현데이터로부터 DEGs, signature genes, gene fusion 등을구하는방법을실습과함께익힐것이다. 2일차강의는임상적인응용에중점을두고환자의상세분류, 암의이질성및진화, 단세포시퀀싱, 면역치료법, PDX 마우스의임상응용등의다양한주제를다루고자한다. 실습은교육생들이추후실제연구에활용할수있도록분석프로토콜을제공하고설명할것이다. 준비물 : 개인노트북 일자시간강의내용담당강사명구분 Session 6 차세대시퀀싱과암유전체학개요이상혁강의 Variant Discovery (Mutations, Indels, CNAs) Transcriptome Analysis (Expression, Signatures, Gene fusions) NGS 데이터분석실습 이상혁 이상혁 강의 강의 김상옥, 장예은 Patient Stratification Methods Based on 황소현 Multi-Omics Data ( 차의과대학교 ) 강의 Tumor Heterogeneity & Clonal 이상혁 Evolution, Single cell genomics 강의 Cancer Immunotherapy 이상혁강의 PDX Mouse Models for Clinical 이상혁 Applications 강의