3 주차 Molecular and Biological Chemistry 3
DNA sequencing
Sequencing 1) DNA sequencing: Maxam-Gilbert method http://en.wikipedia.org/wiki/maxam%e2%80%93gilbert_sequencing 2) DNA sequencing: Sanger method http://www.bio.davidson.edu/courses/bio111/seq.html 3) Highthroughput sequencing (Pyro-sequencing) http://en.wikipedia.org/wiki/pyrosequencing DNA 염기서열의결정은 PCR 기술과더불어생물정보학에가장기초가되는기술이다. 최초의염기서열결정법은 Maxam-Gilbert 방법이고, 전통적으로 Sanger method 에의한 sequencing 이주된방법이었고, 최근에는 Sanger 방법도기술개선을통해한번반응에약 900bp 정도의염기서열을읽을수있게되었다. 2005 년부터는신기술에의해염기서열결정에비약적인발전을이루는데, 이후개발된혁신적인모든방법들을 Next Generation Sequencing (NGS) 라한다.
Maxam- Gilbert method 최초의염기서열결정방법으로여러가지조건의용액으로염기서열을 partial cleavage 하는것을기본원리로한다. 0.1N NaOH 를 5 초간처리하면전체염기서열에서특정염기 ( 예를들어 A 와 G) 를한개또는두개정도자르는역할을함. 다른조건들은 G 만을, T 와 C 를, C 만을자르게디자인되어있다.
Sanger method Sanger method 의특징은 ddntp 를이용하여 polymerization 을 termination 시키는것이다! One-dye (or isotope) four-lane system
Sequencing Detection method: 1. radio-isotope S35 2. Silver staining 3. Florescence dye Automated Sanger method 1. Plate type 2. Capillary type i. one capillary ii. Multiple capillaries 분해 (Maxam-Gilbert method) 또는합성되다 termination 을일으킨 DNA 조각은눈에보이지않는다. 그러므로방사성동위원소또는 Florescence dye 로표지 (labeling) 시키던지아니면 DNA 를 detect 할수있는시약 (EtBr, 또는 Silver Staining) 을써서 DNA band 를가시화한다. Sanger method 는일반적인시퀀싱방법으로자리잡게되었고, 1) radioactive isotope 를이용한 manual gel sequencing method 의시기와 2) florescence dye 와 automation 된 large gel running 시기를거쳐, 3) multiple capillary 에의한전자동화된 system 으로발전하게된다.
Four-dye one-lane system
현대적 Sanger sequencing 의결과는 chromogram 으로나타내어진다. 참조 : chrom + gram 의합성어로색으로나타내어지는그래프라는의미.
Chromogram 을분석함으로서 PCR 또는 sequencing 과정중무엇이잘못되었는지분석할수있어야함. 전형적인 heterogenous sequence: 249bp 부터 AAA 의 major sequence 와 AAAA 의 minor sequence 가섞여나온것임.
Seqeuncing service 업체인 MACROGEN 에서제공하는이상한 DNA sequencing 결과의진단예. http://dna.macrogen.com/kor/support/seq/ seq_trouble.jsp
~1990년대말 Radioisotope + gel type manual Sanger sequencing Vertical electrophoresis kit Gel dryer Intensifying screen
1990 년대중반 ~ 약 10 년 Gel-type Automatic sequencer - One lane four dye 의 florescent dye 에의한 gel running 의 detection 방법을자동화한것 ABI 377
2000년대중반 ~ 현재 Capillary-type Automatic sequencer - Gel 이아닌 capillary를이용한전기영동방법으로정확도를증가시키고, running 시간을획기적으로줄였다. 전체기기의염기서열결정용량은 capillary 수에따라다르다. 주로 96 well plate를이용하여 96개단위로 running이이루어지며, 현재는대부분각각의 well을 4등분하여 96X4=384 well plate를이용한다. ABI 3730: ABI 3100 - ABI (Applied Biosystem) 3730 기기는현재도 Sanger sequencing 서비스에사용되고있다. 한개의반응에서얻어질수있는 sequence 는현재약 900bp 로서 384 plate 를이용한한번의반응에약 350kbp 를얻게된다.
2005 년말 ~ 현재 NGS: next generation sequencing 2005 말부터개발된새로운개념의염기서열결정방법들. 그때까지의 Sanger sequencing chemistry 를사용한방법들에비하여생산해낼수있는염기서열의용량이획기적으로증가함. 454 회사에서개발된최초의 NGS system 은 1 회반응에일주일정도의시간이소요되며약 20Mbp 를생산해냈다. 현재에는비슷한개념의다양한기술들이개발되어 1) 보다많은용량, 2) 한개의반응에서얻을수있는보다긴길이의염기서열, 3) 보다빠른반응시간에염기서열정보를얻어내고자경쟁하고있다. 대표적인기업 ( 또는 system) 으로는 Roche/454, Illumina/Solexa, ABI/SOLiD, Hilicos BioScience 등이있다. 참고 : Moore 의법칙은컴퓨터의메모리집적도가 18 개월마다배로증가하고가격은반으로떨어진다는법칙이다. NGS 의개발에의해염기서열결정분야에있어서도 Moore 의법칙이상의혁명적인효율적데이터획득이이루어지고있다.
Natue 지에출판된최초의 NGS 시스템소개
Next Generation Sequencing 기기들 GS Titanium; Roche 454 SOLiD; ABI Solexa; Illumina Helicos; Helicos Bioscience
NGS 1): 454 Technology 최초의 NGS는 2005년 454 사 ( 社 ) 에서처음개발되어 2005 년 9 월 Nature 지에발표된바있다 (Margulies 등, 2005). 454는현재다국적기업인 Roche가인수하여 Roche의 brand로본기술이제공된다. 이방법은세가지의신기술을결합한것인데, 이들은다음과같다. 1) emersion based clonal amplification (empcr) 의기술, 2) DNA 분자가합성될때형광을발하는염기서열결정기술 (pyrosequencing) 3) 광섬유들을평행하게붙여만든 pico-titer plate를이용하여광섬유의각각의구멍속에서반응이일어나게하여반응물을움직이지못하게함. 454 sequencing은다음과같은과정을거쳐이루어진다. 1) DNA를짧은크기로자르고 2) 양쪽끝에염기서열을알고있는짧은 adaptor DNA sequence를붙임 3) Adaptor가붙은각각의 DNA 조각들은 adaptor DNA sequence와상보적인 sequence를갖는 primer가부착된 bead에붙는다. 이때각각의 bead에는단한개의 DNA fragment만이붙는다. 4) empcr 기술을이용하여 bead에붙은 DNA가똑같은많은 DNA로증폭되어 bead에붙어있게한다. 5) Bead들에붙어있는증폭된 DNA들을 denature 시켜 single strand form 으로 bead에붙어있게됨. 6) Bead들의 solution은 pico-titer plate 에뿌려져한개의구멍에하나의 bead가자리잡게된다. 7) Piro-titer plate에의해위치가고정된 bead들은여기에붙어있는 single strand DNA에서 pyrosequencing 반응을일으켜 DNA의 sequence에따라순차적으로다른색의빛을발하게된다. 8) CCD camera로위치에따라순차적으로발생하는빛의색을기록하여컴퓨터로이를해석하여 bead 에붙어있는각각의 fragment에해당하는 DNA의염기서열을알아낸다.
NGS 1): 454 Technology - 454 technique 단점 : 동일한염기서열이길게반복될때 (polyn) 반복수를정확히판단하기어려워에러를발생시킬수있다. 장점 : 경쟁기술인 Solexa/Illumina 기술에비해한번에읽어낼수있는 sequence 의길이가길다 ( 현재약 450bp 정도임 ) 454 기술은 2016 년현재이미더이상기술개발이없이단종된기술이되고말았다.
Micro-titer plate 의원료 : Optic fibers ( 광섬유 ). 매우작은 well 을만들어내어한개의 bead 가들어갈수있어 bead 의위치를고정시킨다.
NGS 1): 454 sequencing 과정
CCD camera 가잡은 454 system 의발광사진
많은 짧은 read 들로서하나의 consensus sequence 를만들어내는과정 Contig: 결정된짧은염기서열들을조합하여만들어낸긴염기서열 Coverage: contig 의각부분에 original read 들이얼마나많이중복적으로기여했는지를나타냄
현재가장낮은가격으로많은염기서열을제공하는대중적인기술이고, 초기 NGS인 454에비해훨씬증가한양의염기서열을제공한다. 현재가장많이쓰이고있는 Hiseq2000 모델로는한번 running에약300 Gbp를제공한다. 장점은염기서열결정의단가를획기적으로줄였다는것이고, 단점은한번에읽을수있는염기서열의길이가상대적으로짧다는것이다 ( 일반적으로약 100 bp). 최근개발된 MiSeq이라는모델에서는 300bp 까지가능. Solexa/Illumina sequencing 과정 1) DNA를적당한크기로자른다 ( 보통약 500bp) 2) DNA의좌우에다른염기서열의 adaptor를붙인다. 3) Pico-titer plate 대신 primer sequence가촘촘히붙어있는 plate를사용하여잘린각각의 DNA가세로로 pate에붙을수있게한다. 4) 세로로서있는 DNA는늘어져다른끝이 plate의다른 primer와붙을수있게된다. 5) 이를 PCR에이용하여같은종류의 DNA들이한장소에많이모여세로로서있게만든다. 6) 서로반대방향인염기서열이섞여서한묶음을이루고있는모양으로한방향의염기서열에대하여위에서부터 sequencing 반응이일어나고, 이후독립적으로다른방향의염기서열에대한 sequencing 반응을하여두정보를합친다. 7) Sequecing by synthesis 기술을이용하여 nucleotide가합성될때고유의색을발하게한다. 8) CCD 카메라로기록한시간에따른발광장면을컴퓨터는분석하여각각의시퀀스를얻게된다.
Illumina 를이용한결과의특징 : 한가닥의 DNA 로부터염기서열을결정할때순방향과역방향으로각각약 100bp 정도읽게된다. 그러므로 DNA 를일정크기로잘라만든조각이 500bp 일경우좌우로 100bp 씩을얻게되고, 중간의 300bp 는모르는서열로연결되게된다. 가장일반적인 illumina data 의구조 : 100bp 정도의염기서열 + 300bp 정도의모르는염기서열 + 100bp 정도의염기서열 100bp 약 300bp 의모르는서열 100bp
https://www.youtube.com/watc/h? v=womkfikwlxm Illumina 기술에의한염기서열결 정은 매우 많은염기서열을한번에 얻을수있다. 그러므로종종많은시 료를섞어서염기서열을결정하기도 한다. 이때섞은시료들을구분하기 위하여시료각각을구분하는 index sequence 를각각의시료에붙인다. 전체염기서열결정후 index sequence 로시료들은구분한후각 각정렬하여결과를얻게된다. index sequence: 여러시료를섞 어실험할때각각의시료를구분할 수있는짧은염기서열. 실험의첫단 계인 adantor 를붙이는과정에 index sequence 를삽입한다.
Illumina data 의 assemble 과정
Capacity of Next Generation Sequencers 96 x 1,000 bp = 96,000 bp = 100Kb ABI 3730; ABI 950,000 x 450 bp = 405,000,000 bp = 405Mb GS Titanium; Roche 454 30,000,000 x 7 x (101 x 2) bp = 42,420,000,000 bp = 42.5Gb Solexa GA2; Illumina 30,000,000,000 x 7 = 약 250Gb HiSeq2000; Illumina 940,000,000 x 75 bp (50+25) = 70,500,000,000 bp = 70.5Gb SOLiD 4; ABI
NGS 기종별한반응에서얻을수있는염기서열길이 Generation Company Platform Approx. Read Length (nt) First ABI/Life Technologies 3730xl 600-1000 Next Roche/454 Genome Sequencer FLX Titanium 300-1000 Next Illumina HiSeq 2000 36-150 Next Illumina MiSeq 300 Next ABI/Life Technologies 5500xl SOLiD System 50-75
A Huge Number of Sequence Data in NCBI Human NCBI, which is the major sequence repository, presents the rapid growth of sequences. http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html
개인유전체시대의시작 : 각자의전체유전체를밝혀개인식별, 개인적유전병치료, 궁극적으로는클로닝에이용될수있음 미래사회를장악하고있는 DNA 염기서열정보에대한내용. 우주선을발사하는회사 < 가타카 > 를출입하기위해본인확인및유전자상태를검사하려고혈액을뽑아내면순간적분석이이루어진다.
Restriction enzyme 제한효소 : DNA 의특정서열을인식하여자르는효소. 인식하는염기서열의수에따라 sixcutter, four-cutter 등이있으며특징적으로인식하는부위는항상 palindrome sequence ( 회문서열 ) 이다. 제한효소와 ligase 의발견에의해현대생명과학의각분야에서이용되는재조합 DNA 를만들어낼수있다.
Enzyme Source Recognition Sequence Cut EcoRI Escherichia coli 5'GAATTC 5'---G/AATTC---3' EcoRII Escherichia coli 5'CCWGG 5'---/CCWGG---3' BamHI Bacillus amyloliquefaciens 5'GGATCC 5'---G/GATCC---3' HindIII Haemophilus influenzae 5'AAGCTT 5'---A/AGCTT---3' TaqI Thermus aquaticus 5'TCGA 5'---T/CGA---3' NotI Nocardia otitidis 5'GCGGCCGC 5'---GC/GGCCGC---3' HinfI Haemophilus influenzae 5'GANTC 5'---G/ANTC---3' Sau3 Staphylococcus aureus 5'GATC 5'---/GATC---3' Degenerate codes PovII Proteus vulgaris 5'CAGCTG 5'---CAG/CTG---3' SmaI Serratia marcescens 5'CCCGGG 5'---CCC/GGG---3 HaeIII Haemophilus aegyptius 5'GGCC 5'---GG/CC---3 AluI Arthrobacter luteus 5'AGCT 5'---AG/CT---3 EcoR Escherichia coli 5'GATATC 5'---GAT/ATC---3 KpnI Klebsiella pneumoniae 5'GGTACC 5'---GGTAC/C---3 PstI Providencia stuartii 5'CTGCAG 5'---CTGCA/G---3 SacI Streptomyces achroogenes 5'GAGCTC 5'---GAGCT/C---3 SalI Streptomyces albus 5'GTCGAC 5'---G/TCGAC---3 ScaI Streptomyces caespitosus 5'AGTACT 5'---AGT/ACT---3 SphI Streptomyces phaeochromog 5'GCATGC enes 5'---G/CATGC---3 StuI Streptomyces tubercidicus 5 AGGCCT 5'---AGG/CCT---3 XbaI Xanthomonas badrii 5'TCTAGA 5'---T/CTAGA---3 N = C or G or T or A W = A or T
Electrophoresis and Southern Blotting
Blotting: Southern Hybridization 특정분자의획득과판별에 blotting이사용됨. 최초로생물학자 Edwin Southern이 DNA-DNA hybridization을개발하여자신의이름을따 Southern blotting이라함. 이후개발된 RNA-DNA hybridization 이용하여특정 mrna를검출하는방법을 Northern hybridization 이라하고, Protein-antibody interaction을이용하여특정 protein을검출하는방법을 Western hybridization 이라함. 한가닥으로된핵산이이와상보적인염기서열의또다른한가닥의핵산과적당한조건에서만나게되면이중나선 (DNA-DNA or DNA- RNA) 을형성하는현상 (hybridization) 의원리를응용한것으로 DNA 샘플속에특정서열이존재하는지를판별할때사용된다.
Blotting: Southern Hybridization
Blotting: Southern Hybridization
Southern Hybridization
문제 : Magnolia kobus 에서 MADS-box 유전자를검출하였다. 검출방법은 MADS-box 유전자가매우보존된특정염기서열을갖고있기때문에 MADS-box sequence 들이갖는 degenerate primer 를이용한것이다. 전체 RNA 를추출하여 cdna 를만든후만들어진 degenerate primer 와 polyt primer 를이용하여 PCR 을한후만들어진각각의 fragment 를 cloning 과정을통하여분리하여 DNA sequencing 을하게된다. 이제하나의유전자염기서열을갖고있다고했을때이유전자서열이전체유전체에서단일서열인지아니면복수의유전자가존재하는지를알려고 southern blotting 을실시하였다. 우선전체 DNA 를추출하여세 tube 로나누어각각 six cutter 인 EcoRI, HindIII, BamHI 을처리하여전기영동한후이를 nylon filter 에 blotting 하였고, 위에서검출된 MADS-box 유전자에 specific 한 100bp 정도의 probe 를작성하였다. Probe 는검출된 MADS-box 유전자에 specific 한 primer set 을 design 하고 PCR 하여그 product 의길이가 100bp 정도가되게하였다. Probe 와잘린 DNA 가전달된 filter 를이용하여 hybridization 을실시하였더니아래와같은결과사진을얻을수있었다. 여기서우리가예상할수있는사실은? 3kbp 2.5kbp 2kbp 1.5kbp 1kbp 0.5kbp marker EcoRI 처리 HindIII 처리 BamHI 처리
Microarray 대용량의 hybridization 결과를볼수있는것이 microarray technique 이다. Microarray 는이미서열을알고있는수많은유전자들의특정염기서열들을각각슬라이드글라스와같은작은공간에배열하여 DNA chip 을만들어이를이용하여각시료가갖고있는 DNA 의종류와발현유무를대용량으로판별하는방법이다. DNA chip 을만들때는잉크젯프린트의원리를이용하고있고, 예를들면 Arabidopsis 유전자 25,000 개를단한개의슬라이드글라스에종류별로배열한 DNA chip 을만들수있다. 여기에비교를위한두부위에서추출한 RNA 를각각 cdna 로만든후빨간색과초록색의형광물질로각각표지시켜이를 DNA chip 과 hybridization 시킨다. 레이저로 DNA chip 을 scan 하면한시료에대하여다른시료에서특정유전자가 up regulation 되었는지 down regulation 되었는지알수있다. 두시료가비슷한양상의발현을보이면노란색이감지된다. 이러한원리로특정시료가다른시료보다어떤유전자들이더발현하고어떤유전자들이덜발현하는지전반적인상대값을파악할수있게된다.
Shot-gun sequencing gdna library cdna library EST: expressed sequencing tag BAC library (bacterial artificial chromosome) http://www.youtube.com/watch?v=vg7y5eezsjk
gdna library: 고등생물의전체유전체의크기는매우커서유전체연구등을할때작은단위로나누어연구할필요가있다. Genomic DNA 를잘라서각각의 fragment 하나하나를 plasmid 와결합시키고이것을박테리아넣어각각의균주를보관하면특정부위가필요할때그균주만을이용할수있다. 이렇게전체유전체를나누어박테리아에부분적으로보관하는것을 gdna library 라고한다. cdna library: gdna library 와마찬가지로특정시료에서추출한전체 RNA 를각각 plasmid 에넣고이를박테리아에넣어각각의균주로서한가닥의 mrna 를보관할수있게한것이다. EST (expressed sequencing tag): cdna library 속에어떤유전자가각각들어있는지를확인하고자한쪽방향에서만시퀀싱을하여데이터를모아놓아어떤유전자인지 tagging 하는것을말한다. 특정유전자를이용할필요가있을때는그균주를키워 finished sequencing 에의해그유전자의전체염기서열을확정한다. BAC library (bacterial artificial chromosome): gdna library 의한종류로매우긴 fragment 를한꺼번에보관하기때문에 artificial chromosome 이라고불리는것이다.