<BFA9BFEEB5BF5FB9DAC5C2BCBA5FB8B6C0CCC5A9B7CEBEEEB7B9C0CC284D F FBFB5BDC52E687770>

Similar documents
Crt114( ).hwp

고차원에서의 유의성 검정

Microsoft PowerPoint - bioinfo_09lect12_shpark_microarray.ppt [호환 모드]

G Power

슬라이드 1

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Microarray 기초 및 응용

Jkbcs016(92-97).hwp

연구분야 ( 코드 ) 과제번호 과제성격 ( 기초, 응용, 개발 ) 응용실용화대상여부비실용화 연구과제명 과제책임자 세부과제 지원목적과제프로그램공개가능여부공개 ( 공개, 비공개 ) ( 국문 ) 전장유전체유전자다형데이터를이용한표적유전자의발굴 ( 영문 ) Ide

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

(001~006)개념RPM3-2(부속)


<4D F736F F F696E74202D20C7D0BFACBBEAB9DAC1D8BFF8>

( )실험계획법-머리말 ok

statistics

Table 1. Complete Genomes Eukaryote Archaea Prokaryote Arabidopsis thaliana, Caenorhabditis elegans, Drosophila melanogaster, Homo sapiens, Saccharomy

공휴일 전력 수요에 관한 산업별 분석

용역보고서

2016 학년도약학대학면접문제해설 문제 2 아래의질문에 3-4분이내로답하시오. 표피성장인자수용체 (epidermal growth factor receptor, EGFR) 는수용체티로신인산화효소군 (receptor tyrosine kinases, RTKs) 의일종으로서세

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

슬라이드 1

Microsoft PowerPoint - 26.pptx

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

03-서연옥.hwp


1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

methods.hwp

Chapter 26

???? 1

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

= ``...(2011), , (.)''


<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

부문별 에너지원 수요의 변동특성 및 공통변동에 미치는 거시적 요인들의 영향력 분석

PowerPoint Presentation

- 1 -

<B0A3C3DFB0E828C0DBBEF7292E687770>

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

Main Title

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

<BBFDC8ADC7D02E687770>

2002년 2학기 자료구조

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt


3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

03-최신데이터

Chapter 6. Nucleotides and Nucleic Acids 세포대사에서뉴클레오타이드 (nucleotide) 의기능은무엇인가? Objective 유전체학 (genomics) 과단백체학 (proteomics) 기본개념이해 재조합 DNA 기술 (recombin

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

Microsoft PowerPoint - IPYYUIHNPGFU

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

PowerPoint 프레젠테이션

(5차 편집).hwp

농림수산식품 연구개발사업 운영규정

exp

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

쉽게배우는알고리즘 6장. 해시테이블 테이블 Hash Table

석사논문.PDF

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: * Review of Research

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Jkafm093.hwp

확률과통계 강의자료-1.hwp

DBPIA-NURIMEDIA

<4D F736F F F696E74202D20B1E8BCB120B1B3BCF6B4D420B0ADBFACC0DAB7E1>

7.ƯÁýb71ÎÀ¯È« š


Can032.hwp

슬라이드 1

<4D F736F F F696E74202D2035BBF3C6F2C7FC5FBCF8BCF6B9B0C1FA2E BC8A3C8AF20B8F0B5E55D>

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

<C7D1B1B9B0E6C1A6BFACB1B8C7D0C8B828C0CCC1BEBFF85FC0CCBBF3B5B75FBDC5B1E2B9E9292E687770>

untitled

UI TASK & KEY EVENT

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

I


학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

<C7A5C1F620BEE7BDC4>

untitled

목차 1. 서론 줄기세포의간세포분화능평가시고려사항 간세포분화능평가시험법 분

Microsoft Word - [2017SMA][T8]OOPT_Stage_2040 ver2.docx

À±½Â¿í Ãâ·Â

시안

cdna의신장반응이저해된다. 이와같이 AMV 유래 RTase 와 MoMLV 유래 RTase 는모두일장일단을가지나필자는 MoMLV 유래 RTase 를선호한다. 또두효소는최적 ph, 최적염농도등에서도차이가있으므로주의해야한다. 최근 Myers 등은 RTase 활성과 PCR

에너지경제연구 Korean Energy Economic Review Volume 9, Number 2, September 2010 : pp. 1~18 가격비대칭성검정모형민감도분석 1

박선영무선충전-내지

슬라이드 1

278 경찰학연구제 12 권제 3 호 ( 통권제 31 호 )

Microsoft Word doc

DBPIA-NURIMEDIA

사회통계포럼

김기남_ATDC2016_160620_[키노트].key

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

???? 1

제 3강 역함수의 미분과 로피탈의 정리

09권오설_ok.hwp

조사연구 using odds ratio. The result of analysis for 58 election polls registered in National Election Survey Deliberation Commission revealed that progr

04김호걸(39~50)ok

2

Transcription:

마이크로어레이 박태성

머리말 21세기는지식과정보가그국가의경쟁력을좌우하는지식기반산업사회로나아가고있으며, 최고가아니면살아남을수없는무한경쟁시대가되어가고있습니다. 이러한변화속에서각국가에서는미래유망기술 (Emerging Technology) 을선정하여국가역량을집중함으로써차세대국가경쟁력을확보하려는여러가지노력을기울이고있습니다. 최근우리나라에서도미래유망기술에대한관심이어느때보다도증대되고있는가운데, 한국과학기술정보연구원에서는과학계량학적인방법으로미래국가유망기술을예측하기위한일련의연구를수행하고있습니다. 본보고서는과학기술정보데이터베이스 (SCIE) 에서최근 6 년간분야별피인용도가높은핵심논문들을가지고정보계량학적인분석을행하여선정된핵심유망연구영역에대해관련국내전문가들의자문을토대로작성된 R&D 동향보고서입니다. 본보고서가관련과학기술정보를국내에확산시키고, 미래국가유망기술의전략적육성을위한연구개발활동에작으나마도움이되었으면합니다. 마지막으로본보고서를집필한저자들의노고에감사드리며, 본고의내용은한국과학기술정보연구원의공식의견이아님을밝혀둡니다. 2005년 12월한국과학기술정보연구원원장

ⅰ 목차 제 1 장서론 1 1. 연구의배경 1 2. 연구의방법 2 제2장마이크로어레이의개요 3 1. 마이크로어레이 3 2. 마이크로어레이의응용분야 6 3. 마이크로어레이의기본원리및제작방법 9 가. 마이크로어레이의기본원리 9 나. 마이크로어레이제작방법 11 제 3 장마이크로어레이의종류 17 1. cdna 마이크로어레이 17 2. Affymetrix Oligonucleotide chip(genechip) 21 제4장마이크로어레이자료분석 29 1. 분석개요 29 2. DNA microarray 자료의표준화 31 가. 슬라이드내표준화 33 나. 슬라이드간표준화 38 3. 유의한유전자탐색 (identifying differentially expressed genes) 40 가. 그룹이 2개인경우 41 나. SAM 44 제 5 장결론및제언 49 참고문헌 53

ⅲ 표목차 < 표 2-1> DNA 마이크로어레이의여러가지제작기술 14 그림목차 < 그림 2-1> 유전자발현연구에사용되는마이크로어레이의 general overview 12 < 그림 2-2> 마이크로어레이실험의모식도 13 < 그림 2-3> 핀마이크로어레이와잉크젯프린팅어레이의스팟팅모식도 15 < 그림 3-1> cdna 칩의이미지 17 < 그림 3-2> cdna 마이크로어레이실험 18 < 그림 3-3> cdna 자료의구조 20 < 그림 3-4> 마이크로어레이슬라이드의일반적인모양 20 < 그림 3-5> GeneChip의 Array output 21 < 그림 3-6> Affymetrix GeneChip. 23 < 그림 3-7> Affymetrix DNA 칩제작과정 24 < 그림 3-8> 광식각법 (Photolithography) 을이용해서고체기질위에올리고뉴클레오티드를합성하는과정 24 < 그림 3-9> 특정부분만빛이들어가게끔만들어진마스크를통해칩에빛이쬐어지는그림 25 < 그림 3-10> Affymetrix GeneChip 의모식도 25 < 그림 3-11> GeneChip 이혼성화 (Hybridization) 하는것을보여주는그림 26 < 그림 3-12> Expression probe와 array design 27

ⅳ < 그림 4-1> 반복실험된두 cdna microarray 실험결과 32 < 그림 4-2> intensity dependent LOWESS 표준화방법을적용한결과 37 < 그림 4-3> print-tip intensity dependent LOWESS 표준화방법을적용한경우 37 < 그림 4-4> Leukemia(ALL:27 / AML:11) DNA microarray data 39 < 그림 4-5> 표준화후의 Leukemia DNA microarray data 40 < 그림 4-6> SAM을이용한유의한유전자의판정 46 < 그림 4-7> SAM에서얻어진유전자목록을가지고그린 Normalized Gene Expression 47

1 제 1 장 서 론 1. 연구의배경 21세기지식기반사회에서과학기술경쟁력은국가경쟁력의원천이며, 이에세계각국들은미래의경쟁에살아남기위해핵심기술과제를선정하여연구개발에박차를가하고있음. 우리나라과학기술부도 2005년 6월 미래국가유망기술위원회 를구성하여 과학기술예측조사 (2005-2030) 결과 (2005년 5월, 국가과학기술위원회보고 ) 에서도출된기술후보군을바탕으로 미래국가유망기술 21 을선정하여발표한바있음. 또한한국과학기술정보연구원 (KISTI) 에서는 2005년 SCIE 논문데이터베이스를이용한정보계량학적분석을통해 미래유망연구영역선정연구 를시도하였으며, 본보고서는그결과에기초하여최근 2~3년간논문의인용도가급속히높아지고있는유망연구영역을중심으로기술논평형식으로풀이한심층적 Expert Review 임.

2 마이크로어레이 2. 연구의방법 한국과학기술정보연구원에서는 SCIE 데이터베이스에등록된논문 (1999~2005 년상반기까지발표된논문 ) 중에서, 각연도및각분야별 ( 저널분류 22분야 ) 로피인용수가상위 1% 인고인용논문 (HCP; Highly cited papers) 을추출하고공인용분석 (Co-citation analysis) 및동시단어분석 (Co-word analysis) 등의과학계량학적방법들과전문가평가 (Expert evaluation) 를통해 미래유망연구영역 을도출하였음. 상기도출된미래유망연구영역중에서통계학적방법으로최근논문의인용도가급격히상승하는연구영역을과학기술분야별로추출하여본테크이슈보고서의주제로삼았음. 본보고서는마이크로어레이 (Microarray) 기술에있어서최근많이발표되고있는논문들을종합하여관련분야연구에대한기초지식과함께세계적인연구동향을개괄적으로살펴보고, 미래핵심기술로자리잡기위한연구개발전략을제시하였음.

3 제 2 장 마이크로어레이의개요 1. 마이크로어레이 DNA 마이크로어레이 (Microarray) 란염기서열을알고있는 DNA 분자를소형기판위에고밀도로배열해놓은것이다. 마이크로어레이의장점은대량의유전자발현상황을총체적으로탐색할수있다는것이다. DNA 마이크로어레이기술은화학과분자생물학을비롯한기계공학, 전자공학등의여러분야가융합되어만들어진기술로생명현상과관련된유전체수준의연구에크게기여하고있다. 마이크로어레이의종류는현재, 칩위에올려지는물질의종류에따라, DNA 칩, 단백질칩, 세포칩, 신경세포칩등여러가지가있지만, 여기서는마이크로어레이라함은 DNA 마이크로어레이를의미한다. 10여년간의인간유전체사업결과로우리는인간이지니고있는 30억개의 DNA 염기서열을모두해독하게되

4 마이크로어레이 었으며, 방대한양의인간유전체 DNA 서열정보를얻게되었다. 인간유전체사업의목적은유전체의서열정보를해독하는것과더나아가궁극적으로유전체들의기능과구조를밝히는것이다 (Rashidi and Buehler, 2000). 따라서방대한서열정보를기반으로하여, 생물 의학적으로유용한정보를이끌어내기위한유전체연구가활발하게진행되고있다. 인간의생명현상은수만개에이를것으로추정되는유전자들과다른물질들사이의복잡한상호작용에의해이루어지는것으로알려져있다. 전통적인 hypothesis driven 방법으로는수만개의유전자들간의관계를살펴보는데에한계가있다. DNA 마이크로어레이기술은수만개의유전자조각들을하나의마이크로어레이에놓을수있기때문에, 전체유전체에대한정보를한번의실험에서얻을수있다. 몇개의유전자만을대상으로하는서던법 (Southern method) 이나노던법 (Northern method) 을통한기존기술과는비교도안될정도로상당히많은정보를얻을수있는특징이있다. 따라서마이크로어레이기술은방대한서열정보를바탕으로하는유전체의구조와기능을밝히려는기능유전체학연구에필수적인도구가되었다. 전통적인생물학연구의 hypothesis-driven 기법과구별하여, DNA 마이크로어레이기술은 data-driven 이라

제 2 장마이크로어레이의개요 5 부른다. 전자는가설에기초하여실험하고현상을설명하는반면, 후자는가설없이실험하여자료를얻고분석을하여, 그것을기반으로새로운가설과모형을구축한다. 마이크로어레이를사용한 data-driven 기법은대량의자료에서유용한지식을찾는것이목적이며, 다수의타당한가설들 (plausible hypotheses) 을생성해낸다. DNA 마이크로어레이를통해확인된유전자의발현형태는기존의연구방법인 RT-PCR(Reverse Transcriptase Polymerase Chain Reaction) 이나단백질분석등을통해다시검증한다. 앞으로의마이크로어레이관련연구는대량의유전체자료로부터보다가능성있는높은가설을생성해주는역할을하는방향으로활발히응용될것으로기대된다. DNA 마이크로어레이기술은 1995년 Stanford 대학의 Pat Brown Lab에서유전자의발현변화를연구하기위한목적으로 DNA 마이크로어레이를처음개발하였다 (Eisen, et al., 1998, 1999). 마이크로어레이는기판위에배열하는 DNA의길이에따라서올리고칩 (oligo chip) 과 cdna 칩으로구분한다. cdna 칩에는최소한 500개이상의염기들로구성된유전자가, 올리고칩에는 15-25 개의염기들로이루어진올리고뉴클레오티드 (oligonucleotide) 가사용된다. 올리고뉴클레오티드칩 ( 또는올리고칩 ) 은정확한염기서열을알고있기때문에하나의염기변화에대한다형성에대한연구가가능하다는장점이있다. 단일염기다

6 마이크로어레이 형성 (Single Nucleotide Polymorphism, SNP) 이란 DNA 염기서열이보통 100에서 300 염기마다하나씩바뀌는것을말하며, 평균적으로인구집단의 1% 이상의빈도로일어나는유전적인변이를말한다. 2. 마이크로어레이의응용분야 DNA 마이크로어레이기술의응용분야는유전자발굴 (gene discovery), 암분류 (tumor classification), 유전자발현형태에따른질병위험도평가 (risk assesment), 질병예후진단 (prognosis prediction) 질병진단 (disease diagnosis), 신약개발 (drug discovery), 독성학연구 (toxicological research), 식품안정성평가, 유전병연구등그범위는아주넓다. 마이크로어레이는서로다른조직이나조건의차이에서다르게발현되는유전자를찾고, 기존에알고있는유전자발현형태를기초로하여새로운유전자발굴에도사용되고있다. 또한하나의유전자가다른유전자들과어떻게상호작용 (interaction) 하는지를규명하는연구에도널리쓰이고있다 (Brazhnik et al., 2002). 마이크로어레이기술은군집분석 (clustering analysis) 을통해발현형태가비슷한유전자군을찾기위한연구에응용될수있다. 이를통해유전자의기능을찾을수있

제 2 장마이크로어레이의개요 7 다 (Eisen, et al., 1998). Golub et al. (1999) 은마이크로어레이기술을통해임상적으로구분이되지않는암종류를더세분하여새로운암종류를찾을수있는데유용하게사용될수있음을입증했다. 마이크로어레이기술은암의발전단계별로유전자발현변화를감지하여질병진행정도에따라다르게반응하는유전자를식별해내는데사용될수있다 (Alizadeh, et al., 2000). 시간이나상태에따라변하는유전자발현형태를통해유전자발현 pathway 를구성하려는노력도이루어지고있다. 또한세포주기 (cell cycle) 에관여하는마이크로어레이실험을통해세포주기조절에관여하는유전자에대한연구도많이진행되었다 (Friedman et al., 2000; Spellman, et al., 1998). 질병이하나의유전자만에의해발생되는경우는드물고, 여러가지유전자들이상호작용하여영향을미치는경우가많으므로, 이러한현상들을관찰하는데에도전체유전자의발현양상을총체적으로볼수있는마이크로어레이의사용은필수적이라하겠다 (Schena, 1999; Weinstein, 2002). 독성유전체학 (toxicogenomics) 이란기능유전체학과분자

8 마이크로어레이 독성학의접목분야이다. 독성유전체학의목적은개체가어떤독성물질에노출되었을때그에따른유전자의변화를살펴보고, 그관계를알아보는것이다. 약물유전체학 (pharmacogenomics) 은유전체로부터약물의대사등에관련된대량의자료를생산해내고유전체분석을통하여약물에대한환자의반응을미리예측하고, 여러약물중에그환자에게서가장좋은치료효과를보이면서도부작용이최소일것으로예상되는약물을선정하는맞춤의학의한분야이다. 마이크로어레이기술은약물투여전과후의유전자발현변화를전체유전체수준에서살펴볼수있고, 약물대사와관련된중요한약물유전체학자료를생성해줄것으로기대한다 (Slonim et al., 2001). Scherf et al.(2000) 은 60개의암세포주 (cell line) 를가지고유전자발현수준을측정하고, 70,000 여개가넘는잠재적인항암치료제에대한세포주의민감성을비교하였다. 이연구를통해항암치료제에민감한주요한유전자발현형태를발견하였으며, 공통적으로약물에대해잠재적 (potential) 민감성을갖는세포주들을군집화하였다. 마이크로어레이기술은낭포성섬유증 (Srivastava et al., 1999), 정신분열증 (Kawanishi et al., 2000) 등을비롯한여러질병의연구에도사용되고있다.

제 2 장마이크로어레이의개요 9 3. 마이크로어레이의기본원리및제작방법 가. 마이크로어레이의기본원리 세포내에서기능을하는, 단백질을구성하는아미노산들을결정짓는염기들이있는 DNA 부분을유전자라고한다. Genomic DNA는이중나선구조로핵안에서단단히꼬여져있다. DNA의염기배열중단백질로변환되는부분은핵안에서 mrna 로전사된다음핵공을통해빠져나온후, 세포질의리보솜에서단백질합성을시작한다. DNA의염기배열중, 단백질로변환되는부분은전사되어세포안에서 mrna 로존재한다. 세포에존재하는 mrna의양이그대로단백질의양과반드시동일한것은아니지만, 앞으로만들어질가능성있는단백질의양을나타내고있는것이기에이를통해서세포의활동상과상태를알수있다. 특정유전자를전사 (transcription) 하여만들어진 mrna 는추후번역 (translation) 과정을통해단백질을생성하는데사용되므로 mrna 의양은해당유전자의발현정도를나타내는척도로삼을수있다. 측정된 mrna의양이많을때에는해당유전자가활성화되었다는것을뜻하며, 적을때에는유전자가비활성화되었다는것을뜻한다. 유전자를찾을때는 mrna 를

10 마이크로어레이 찾으면된다. RNA는 DNA와달리단일나선으로불안정하며, 또한수명이짧기때문에실험실에서다루기가힘들다. 그래서보통유전자발굴에는 RNA를인공적으로이중나선의 DNA로전환시키는데, 이것이바로 cdna (complementary DNA) 다. cdna 는 DNA안에 mrna 로전사되는부분만을인공적으로만들어낸것이다. RNA의염기는티민 (T) 이우라실 (U) 로바뀐것을제외하고는 DNA와동일하다. DNA에서전사된 mrna 는핵에서빠져나올때 3 부분에아데닌 (A) 을달고나온다. 이것을 poly A tail 이라고하며, 세포질에있는 mrna 가가지고있는특성중의하나이다. mrna 가있는곳에티민 (T) 으로구성된 poly T primer와, RNA를 DNA로역전사시키는역전사효소 (reverse transcriptase) 를넣어주면, DNA가합성되면서 RNA-DNA 결합체가생긴다. 여기에다시 RNA를분해하는 Rnase H 효소를넣어주면, RNA가분해되는데, 이때모든 RNA가완전히분해되지는않는다. 분해되지않고남아있는 RNA 조각들을 primer 로사용, DNA 중합효소 (DNA polymerase) 를이용하여상보적인 DNA 가닥을만들게되는데, 이것이 cdna 이다. cdna 자체가반드시하나의완전한유전자를의미하지는않는다. cdna 는생체내에서발현되는유전정보의일

제 2 장마이크로어레이의개요 11 부이다. 생체내에서발현되는유전정보들을모아놓은것을 cdna library 라한다. 보통 cdna 마이크로어레이에서는소형기판위에고밀도로미리올려놓은프로브 (probe) 로 cdna 를주로쓴다. 프로브는어레이위에미리심어놓는 DNA 서열로, 이를통해특정조건에서어느서열정보가발현되었는지를알수있다. 올리고뉴클레오티드 (oligonucleotide) 는 10bp에서 60bp의염기로구성된길이가짧은뉴클레오티드를의미한다. 나. 마이크로어레이제작방법 세포가나타내는특성은발현되는유전자들의상호작용결과이다. 세포의상태를표현하는방법중하나는주어진상태에서어떤유전자들이얼마만큼발현이되고있는지를정량적으로표시하는것이다. DNA 마이크로어레이는노던법을응용 확장한것으로, 한번의실험으로대용량의유전자발현을측정할수있다. DNA 마이크로어레이는 DNA가상보적으로결합하는성질을이용하는것이다. < 그림 2.1> 에유전자발현연구에사용되는 DNA 마이크로어레이의핵심원리가잘나타나있다. 즉, 관심있는

12 마이크로어레이 조직에서 mrna 를추출하여유전자발현을탐지할수있는염료 (dye) 를붙인 cdna( 또는 crna) 를만들고, 이를미리만들어진 DNA 마이크로어레이에혼성화시키면서로상보적인서열이있는부분에서는형광이나타난다. 형광의강도를측정해서유전자의상대적인발현량을알아본다. < 그림 2-1> 유전자발현연구에사용되는마이크로어레이의 general overview. (Draghici., 2003) < 그림 2-2> 은유전자발현연구를위한 DNA 마이크로어레이실험의전반적인순서를보여준다. 실험계획을세우고, 관심있는대상 ( 마이크로어레이실험에서는보통표본 (sample) 이라고함 ) 에서 RNA를추출한다. 추출한 RNA에형광염료 (fluorescent dye) 로표지 (labelling) 를한다. 이렇게표본을준비하여마이크로어레이에혼성화

제 2 장마이크로어레이의개요 13 (hybridization) 시켜준다. 결합이되지않은유전자들을씻어낸다음에스캐너를통해형광의강도를측정하여수치로나타내어주고, 이렇게얻어진자료들은일련의표준화과정을거친후에유의하게발현된유전자를탐색하고, 군집분석등을실시한다. < 그림 2-2> 마이크로어레이실험의모식도 (Leung et al. 2003)

14 마이크로어레이 DNA 칩은제작방법에따라일반적으로네가지로분류할수있는데, 핀마이크로어레이 (pin microarray), 잉크젯프린팅 (inkjet printing) 어레이, 광식각 (photolithography) 칩, 전자어레이 (electronic array) 이다. < 표 2-1> 에마이크로어레이의제작방법과이에따라현재만들수있는칩의종류, 관련회사가정리되어있다. < 표 2-1> DNA 마이크로어레이여러가지제작기술 제작기술특징 DNA chip 관련회사 P i n microarray Inkjet Phothlithogr aphy Electronic array Pin 을이용한 microarrayspotting Inkjet 원리를이용한 micro dropping Photolithography 를이용하여 oligonucleotide 를직접합성하면서제작 전기를이용하여제작 cdna, oligonucleotide cdna, oligonucleotide Incyte GenomicsMolecular CynamicsMucrosys temsgenomic solution CartesianIncyte GenomicsPackard Instruments oligonucleotide Affymetrix oligonucleotide Nanogen Motorola Life Science 핀마이크로어레이는 1995년 Stanford 대학의 Brown Lab(Patrick O. Brown; http://cmgm.stanford.edu/ pbrown) 에서처음개발된후, Incyte Genomics에서상업화한방식이다. 이것은자동화시스템 (robotic print head) 를이용하여, PCR을통해증폭된유전자가담겨져있는 well plate에서유전자를찍어서마이크로어레이슬라이드에직접찍는방식이다. 잉크젯방식은잉크젯원리를이용하여칩을만드는것

제 2 장마이크로어레이의개요 15 으로, 핀대신에컴퓨터잉크젯프린터에서쓰이는것과같은원리의카트리지를사용하는것이다. 이카트리지안에유전자가들어있어서전기적인힘으로유전자를마이크로어레이슬라이드위에뿌리는것이다. 핀마이크로어레이는핀이칩표면에직접닿는것에비해잉크젯프린팅어레이는칩표면에닿지않고뿌릴수있어정량의유전자가붙어있는칩을생산할수있다는장점이있으나, 카트리지안의유전물질교환과같은기술적인문제가있다. < 그림 2-3> 에핀마이크로어레이와잉크젯프린팅어레이의제작방식이잘나타나있다. < 그림 2-3> 핀마이크로어레이와잉크젯프린팅어레이의스팟팅모식도. 광식각칩은 Affymetirx 사에서반도체칩제작에사용되는광식각기술을응용하여유리위에수만개의다른염기들을직접합성하여칩을제조한것이다. 이방법은 15~25개의염기로이루어진올리고뉴클레오티드를칩위에서직접합성하는데에이용된다.

16 마이크로어레이 Affymetrix사에서광식각법을이용하여시판하고있는올리고뉴클레오티드칩을 GeneChip 이라부른다. 보통올리고칩은 Affymetrix 사의 GeneChip 을의미했으나, 요즘은핀마이크로어레이방식과잉크젯방식으로올리고뉴클레오티드를붙여만든올리고뉴클레오티드칩을의미하기도한다. 전자어레이는 DNA의음 (-) 전하성질을이용, 칩표면특정위치에 (+) 전기를넣어그위치에원하는유전자를붙게만드는방법으로미국의 Nanogen 에서개발한칩이다. 핀을이용한마이크로어레이스팟팅이나잉크젯의원리를응용한기술로만들어지고있는 cdna 칩은비교적적은비용과쉬운제작방식으로인해현재널리사용되고있으며, Affymetrix 사의올리고칩은반도체집적기술을접목시켜높은집적도와응용성뿐만아니라신뢰성높은결과물을제공하고있어주목받고있는기술이다. DNA 마이크로어레이칩은제작방법에따른분류외에도칩위에부착되는프로브 (probe) 의종류에따라서도분류된다. 프로브는칩위에부착되는개개의유전자나 EST를의미한다. 제작방법에따른분류보다는칩위에부착되는프로브의종류 (cdna 또는올리고뉴클레오티드 ) 에따라서분류하는것이좀더일반적이다. 다음에서현재널리사용되고있는 cdna 칩과올리고뉴클레오티드칩을좀더자세히살펴보자.

17 제 3 장 마이크로어레이의종류 1. cdna 마이크로어레이 < 그림 3-1> cdna 칩의이미지 < 그림 3-1> 는유전자발현연구에관한마이크로어레이실험을통해얻어진 cdna 칩이미지이다. 녹색이나적색은특정조건 ( 예를들면, 암또는정상세포 ) 에치우친유전자임을뜻하고, 노란색은두가지조건에서동일하게발현되는유전자임을나타낸다.

18 마이크로어레이 마이크로어레이실험과정은크게세부분으로나눌수있다. 마이크로어레이를만드는과정, 표본들로부터 RNA를추출하여마이크로어레이와혼성화시키는과정, 스캐닝을하여정량화하고분석을하는과정이다. < 그림 3-2> 는 cdna 마이크로어레이실험에대한그림이다. 관심있는조직에서 mrna 를추출하여유전자발현을탐지할수있는염료 (dye) 를붙인 cdna( 또는 crna) 를만들고, 이를미리만들어진 DNA 마이크로어레이에혼성화시키면서로상보적인서열이있는부분에서는형광이나타난다. 형광의강도를측정해서유전자의상대적인발현량을알아보는것이다. < 그림 3-2> cdna 마이크로어레이실험 (Duggan et al,. 1999)

제 3 장마이크로어레이의종류 19 cdna 마이크로어레이슬라이드한장에기록되는 cdna 수는적게는수백개에서많게는수만개에달한다. 즉 cdna 실험을통해서동시에수백개에서수만개에달하는유전자의발현양상을한번에살펴볼수있음을뜻한다. 실험이끝난슬라이드에대해서는이미지분석 (image analysis) 을통해뽑아진유전자발현정보들의수치를토대로일련의자료처리를거쳐유전자발굴작업을하게된다. < 그림 3-3> 은 cdna 마이크로어레이자료의일반적인구조를보여주고있다. 이자료는유전자를나타내는행, 표본정보가있는열과발현값으로구성된다. < 그림 3-4> 은 cdna 마이크로어레이슬라이드의일반적인모양을보여준다. 하나의슬라이드는여러개의 subarray로나뉘며, subarray는다시같은핀으로찍혀지는핀그룹으로구성되며, 핀그룹은각각스팟으로구성되어있는데, 보통이스팟이개개의유전자나 EST를의미한다.

20 마이크로어레이 < 그림 3-3> cdna 자료의구조 (Brazma et al., 2001) < 그림 3-4> 마이크로어레이슬라이드의일반적인모양 (Churchill, 2002)

제 3 장마이크로어레이의종류 21 2. Affymetrix Oligonucleotide chip(genechip) < 그림 3-5> GeneChip의 Array output. (http://www.affymetrix.com) 칩위에올려져있는프로브의길이가길면, 정확히일치되는 (matched) 유전자가아님에도불구하고비슷한서열이있는부분이프로브와반응하여발현값을보이는경우가있다. 또한프로브들끼리결합하여정확한마이크로어레이실험결과를얻기어려운경우가있다. 이런한계를어느정도보완할수있는것이올리고칩이다. 올리고칩은유전자서열중에서그유전자를대표할만한부분을선별한후, 그부분을짧은올리고뉴클레오티드로합성하여프로브로이용한다. 보통 25bp 정도의길이로올리고뉴클레오티드를만든다. 칩위에서합성되는각각의올리고뉴클레오티드는두개의프로브에의해표현되는데, 원래의유전자서열부분과똑같은완전일치 (Perfect Match, PM) 프로브와가운데부분의한개의뉴클레오티드만다른불일치

22 마이크로어레이 (Mismatch: MM) 프로브로구성되어있다. Li and Stormo (2001) 은좋은품질의올리고뉴클레오티드칩을만들기위해최적의올리고를선택하기위한새로운알고리즘을제안하였다. Rouillard, et al. (2002) 는특정유전자를올리고뉴클레오티드칩에사용할때에가장적절한올리고의구조를밝히기위한소프트웨어를제안하였다. PM과 MM 프로브를반도체제조공정과비슷한공정과정을통해합성한다. 광식각법기술을이용한것으로, Affymetrix 사의 GeneChip 이대표적인예이다. < 그림 3-5> 은이러한기술로만들어진 GeneChip 의실험이미지이다. < 그림 3-6> 는 GeneChip 의실험이미지를중심으로 GeneChip 을전체적인관점에서본것이다. GeneChip 의어레이크기는약 1.28 cm2인데, 현재는 500,000개의올리고뉴클레오티드가집적된칩제조가가능하다. < 그림 3-7> 은 GeneChip 을만드는과정이다. 이때중요한과정중의하나가프로브를칩위에서직접합성하는것이다. 이것은앞에서잠깐언급한, 반도체공정의광식각법기술을응용한것으로그원리는 < 그림 3-8> 과 < 그림 3-9> 에잘나타나있다.

제 3 장마이크로어레이의종류 23 < 그림 3-6> Affymetrix GeneChip. 이두그림은광식각기술을이용하여올리고뉴클레오티드를합성하는과정을보여준다. 빛에민감한화학물질로덮여있는칩판 (plate) 위에작고많은구멍이뚫린포토마스크 (photomask) 를씌우고빛을쪼이면구멍을통해빛이투과되는표면의특정부분에만화학물질이활성화된다. 활성화된판표면에빛에민감한화학물질이결합된첫번째염기를붙인다. 다시빛을쪼여첫번째염기에붙은화학물질을활성화시킨후두번째염기를붙인다. 이과정을반복하여 20개내외의올리고뉴클레오티드를합성한다. < 그림 3-10> 은이렇게만들어진 GeneChip 의모식도이다.

24 마이크로어레이 < 그림 3-7> Affymetrix DNA 칩제작과정 (Bergeron, 2002) < 그림 3-8> 광식각법 (Photolithography) 을이용해서고체기질위에올리고뉴클레오티드를합성하는과정 (Bergeron, 2002)

제 3 장마이크로어레이의종류 25 < 그림 3-9> 특정부분만빛이들어가게끔만들어진마스크를통해칩에빛이쬐어지는그림 (Lipshutz et al., 1999). < 그림 3-10> Affymetrix GeneChip 의모식도 (http://www.affymetrix.com)

26 마이크로어레이 < 그림 3-11> 는올리고칩에형광물질로표지된 cdna 와프로브가혼성화하는모습을보여준다. 그다음으로는형광물질의휘도 (intensity) 를측정하여이미지파일을생성하고이미지분석소프트웨어로실제의발현량을수치화하여자료를생성한다. < 그림 3-11> GeneChip이혼성화 (Hybridization) 하는것을보여주는그림 (http://www.affymetrix.com) 각유전자에대해서유전자발현수준은 PM과 MM의차의평균으로정의된다. < 그림 3-12> 는유전자서열중에서그유전자를대표할만한부분을선별하여짧은올리고뉴클레오티드프로브를만든후, PM과 MM에따라유전자발현이다른형광이미지를보여주는그림이다. 이러한과정을통해우리는수치로표현된유전자

제 3 장마이크로어레이의종류 27 발현정보를얻을수있다. Hubbell, et al. (2002) 은모형을이용하여유전자발현값을수치로계산하는방법을제안하였다. < 그림 3-12> Expression probe 와 array design (Lipshutz et al., 1999).

29 제 4 장 마이크로어레이자료분석 1. 분석개요 마이크로어레이자료를분석하기위한통계분석법을간단하게소개한다. 먼저마이크로어레이의실험에서발생하는다양한형태의변이 (variation) 를조정하기위한표준화 (normalization), 여러처리그룹들간에다르게발현되는유전자를찾기위한유전자탐색법과발현패턴이비슷한유전자들의군집을찾기위한군집분석 (cluster analysis) 이있다. 표준화 (normalization): 마이크로어레이자료에보통의실험자료에비해잡음 ( 또는비생물학적변이 ) 이많이포함되어있으며또한자료에일정한패턴을보이는경우가많다. 잡음이추가될수록자료의품질은떨어지기마련이며실험자의숙련도와실험에사용된화학물질등에의해그정도가달라질수있다. 특히일정한패턴을지닌잡음은분석결과에서치명적인효과를발휘할수도있기에, DNA 마이크로어레이자료를분석하는데있어전처리과정을마련하거나분석

30 마이크로어레이 에서이러한잡음을분석모형에고려하는등으로처리하여잡음을제거하는과정을거친다. 이를표준화 (normalization) 라한다. 이표준화방법은통계적인회귀모형 (regression) 을이용하여체계적으로변이를제거하는방법이널리사용되고있다. 유의한유전자탐색 (identifying differentially expressed genes) : 마이크로어레이자료를이용한연구의목적중에하나가여러처리그룹들간에발현패턴이다르게나타나는유전자를찾아내는것이다. 예를들어위암조직과정상조직을사용하여칩실험을한경우에정상조직에비해서위암조직에서강하게발현되는유전자를찾을수있다. 이유전자가위암의유발과관련이있는유전자라는것을밝힐수있다. 마이크로어레이실험이보편화되기전에는한개의칩실험을통해서몇배 ( 예. 2배 ) 이상발현이되는유전자를찾는단순한방법이사용되었으나최근에반복실험이보편화되면서보다다양한탐색방법들이소개되고있다. 군집분석 (clustering analysis) : 군집분석은발현패턴이비슷한유전자들의군집을찾아내는분석방법이다. 이분석을통해서기능일잘알려지지않은유전자의기능을밝혀낼수있다. 예를들어군집분석을통해서 A라는유전자와 B라는유전자가같은군집에분류가되었다고가정해보자. 만약 A라는유전자의기능을알고있

제 4 장마이크로어레이의자료분석 31 지만 B라는유전자의기능을모르고있다면이군집분석을통해서 B라는유전자의기능이 A의기능과비슷하리라는것을추론할수있다. 2. DNA microarray 자료의표준화 DNA microarray 실험을통해얻어진자료는많은영역에서발생한잡음을포함하고있고크게두종류로나눌수있다. 먼저개개자료에랜덤하게되는잡음으로개개자료에랜덤한만큼제거하기가어려우며해당자료의산포를증대시켜통계적검정력을약화시킨다. 그에반해자료전체적수준에서일정한패턴을가지고첨가되는잡음이있는데잘못된통계적검정의결과를유도할수있는위험성을지니고있다. 표준화는크게두번째종류의잡음을잘제거하여이후분석을문제없이시행할수있도록하는것이다. < 그림 4-1> 은반복시행된실험결과이다. 그럼에도불구하고보이는바와같이큰차이를보이고있음을확인할수있다. 이러한차이를극복하기위해표준화가필요하게된다.

32 마이크로어레이 < 그림 4-1> 반복실험된두 cdna microarray 실험결과 자료를표준화하는데있어서우선적으로고려할것은어떠한자료를가지고표준화할것인가라는점이다. 표준화하는자료를선정하는방법에서크게두가지로나눌수가있게되는데, 첫번째는표준화를위해미리정해둔유전자를이용하여표준화하는방법이며, 두번째는실험을실시한후얻어진자료에서적절한유전자를선택하여표준화하는방법이다. 표준화를위해미리정해둔유전자자료를사용하는방법은초창기실험때자체적인실험기준을잡기위해시작된방법으로표준화에적절하다고생각되는유전자로판단되는유전자를일부러마이크로어레이에첨가하는방법이다. 이런유전자에는세포내생명활동을위해항상일정량이발현된다고생각되는 housekeeping gene 또는전혀발현되지않도록제작된 spiked gene등이있다.

제 4 장마이크로어레이의자료분석 33 이방법은추가적인유전자만을실험에첨가하면되기에비교적쉽다는장점을지니고있으나, 표준화에사용된유전자가상황에따라표준화하기에적절하지못한발현을보이는경우가있을수있으며, 무엇보다도 Cy3, Cy5 의 intensity 에따라다르게첨가되는잡음의성질을몇몇개의표준화용유전자자료만으로는포괄할수없는문제점을지니고있다. 다른방법은실험실시후에표준화에사용할유전자자료를정하는방법이다. 여기에는 rank invariant gene만을선별한후표준화하는방법과 (Tseng, 2001) 별다른선별과정없이전체자료자체를표준화하는방법이있다. 전자는제대로실험된자료인경우 Cy3와 Cy5에서 rank의차이가크지않을것이라는가정을후자는수천개의달하는실험자료의대부분이대조하는두세포에서별다르게발현되지않을것이라는가정을바탕으로하고있다. 가. 슬라이드내의표준화 (Within-slide Normalization) 편의상 cdna 마이크로어레이실험에서얻어진자료에서 Cy3의 intensity 를 G, Cy5의 intensity를 R 이라하자. 실험대상의유전자수가 N 이라할때, 이것을 l 로구분하도록한다. 또한슬라이드의수가 p 개일때, 이것을 j 로나타내기로하자.

34 마이크로어레이 자료의변화가지수적인생물학적인자료의특성상두세포의발현의차이를나타내는적절한척도는차이가아니라비율이적절하다하겠다. 이를다시차이로표현하기위해 log 변환을한다. 표준화방법에는크게 intensity 를이용하지않는경우와 intensity 를이용한방법으로나눌수가있고, 이를 global normalization 과 intensity dependent normalization 으로나눈다. (1) Global normalization 가장간단한가정은 G 와 R 이한슬라이드내에서일정한비를이루고있는경우이다. 즉, R = c G 이식은 Cy3, Cy5 형광물질의특성상이러한잡음이첨가되어있다고가정에기초한것이다. 이를다시정리하면다음과같다. log R =logg +logc M Global 은각유전자마다표준화한값으로

제 4 장마이크로어레이의자료분석 35 M Global j = M j - kˆ k 의추정방법으로는보통이상치에영향을받지않기위해 med j =1 N (M j ) 가쓰이지만 (Yang et al.), 평균을사용하거나그밖에일정분포가정하에 MLE 추정량을사용하기도한다 (Chen, 1997). 이방법을여기서는 global median 표준화방법이라고부른다. 이방법은선형적인잡음만을제거할수있고슬라이드들을살펴보았을때잡음이비선형적으로첨가된자료가상당수임을볼때한계점을지닌다할수있다. (2) Intensity dependent normalization Global median 표준화방법이갖고있는문제점중의하나가 G 나 R 값중하나의값을고정한후에표준화한다는점이다. 비율의특성상자료의형태는기본적으로 R = G에대칭적으로분포하게되는데한쪽을고정하여고려하면이러한대칭성이깨어지게된다. Yang et al. (2001) 은 intensity A 를제안하고이것을기준으로표준화할것을제안하였다. 마이크로어레이슬라이드에서잡음이선형적인형태가아닌경우에 Yang et al. (2001) 은표준화모형을 A 에의존한다음과같은비선형적인모형으로확장을제안하였다. 이방법을 intensity dependent LOWESS 표준

36 마이크로어레이 화방법이고부른다. M = k( A) A 에의존하는일반적인함수형태를가정하고이상점 (outlier) 에상대적으로들민감한 LOWESS 함수추정법으로추정하는것이다 (Cleveland, 1979). 표준화된 M LOWESS j 다음과같다. M LOWESS j = M j - kˆ( A j ) LOWESS 표준화방법은슬라이드의 intensity 가낮은부분에서발생하는문제점을잘다룰수있다. 마이크로어레이슬라이드에있는여러 print-tip 에의해서도다양한변동이발생할수있다. 슬라이드상에서전체의 spot들을하나의 print-tip 으로찍어내는것이아니라 8개 16개 32개등의개수의 print-tip 으로한꺼번에찍게된다. 결국슬라이드가가지는특성은하나의패턴을가졌다기보다는 print-tip 마다별도의패턴을지닐가능성이많다.

제 4 장마이크로어레이의자료분석 37 < 그림 4-2> intensity dependent LOWESS 표준화방법을적용한결과 < 그림 4-3> print-tip intensity dependent LOWESS 표준화방법을적용한경우 Print-tip에의한잡음의첨가가두드러질때함수의추정을 print-tip 별도따로따로하여추정할수있다. 즉, 다음과같은 print-tip 별표준화를시행하는것이바람직할것이다. M = k( A, print-tip k )

38 마이크로어레이 M LOWESS jk = M j - kˆ( A jk ) k = 1,,K 나. 슬라이드간표준화 (Between-slide Normalization) 슬라이드내의잡음을찾아내제거하는것이슬라이드내표준화라면슬라이드마다일정한비교를위해슬라이드간표준화가필요하다. 이런표준화를슬라이드간표준화라고한다. 이표준화는마이크로어레이슬라이드의산포 (variance) 를계산하여이값을조정해주는작업이다. 하나의슬라이드에서산포를알아내는수식은다음과같다. s 2 n ˆ 1 i = n i -1 i M 2 ij j=1 한슬라이드에한샘플만이있는 GeneChip 과같은경우에슬라이드내표준화보다도슬라이드간표준화가더중요하게된다. 여기서도앞에서와마찬가지로슬라이드간의산포동일성을만족시켜주는과정을마련하게된다. 이경우에는중앙값이나평균이 0이되지않는다. 이렇기때문에앞에서와동일한형태의변환을할수가없으며, 대안으로는각슬라이드의중앙값을동일화시키고 inter-quartile range(iqr) 를동일하게변환하는과정을생각할수있다.

제 4 장마이크로어레이의자료분석 39 < 그림 4-4> 는 Oligochip 들의상자그림 (Box-plot) 을보여준다. 한개의상자그림은한슬라이드의휘도값의분포를보여준다. 여러개의상자그림을동시에비교하여휘도값을전체적인분포를한눈에볼수있다. T1부터 T27까지는 ALL형 Leukemia 환자의 DNA microarray 에서얻은 intensity 이고, T29부터 T38 까지는 AML형 Leukemia 환자의 DNA microarray 에서얻은 intensity이다. 이그림에서는슬라이드들간의산포차이가나는것을볼수있다. < 그림 4-4> Leukemia(ALL:27 / AML:11) DNA microarray data < 그림 4-5> 는표준화한결과를보여준다. 여기서 T20의경우산포가매우다른것을볼수있는데, 이것은세제곱근변환을하기전에표준화하였기때문이다. 즉, 원자료의표준화한결과에서중앙값과 IQR은동일하다.

40 마이크로어레이 < 그림 4-5> 표준화후의 Leukemia DNA microarray data 3. 유의한유전자탐색 (identifying differentially expressed genes) 마이크로어레이자료의분석중에서여러개의처리그룹을비교하여그룹간에다르게발현된유의한유전자를탐색하는방법은마이크로어레이자료의분석에서중요한역할을한다. 예를들어정상세포와암세포로부터얻어진마이크로어레이를비교분석하여암세포에서강하게발현되는유전자를찾아낼수있다. 이런유전자가궁극적인목표유전자 (target gene) 가된다. 처리그룹이 2개인경우에는이표본 t-검정법을이용한방법을 Dudoit, et al. (2002) 이제안하였다. 이방법은이표본평균을비교하기위한 t-통계량을슬라이드에있는각유전자별로구한후에이통계량값을기초로유의한유전

제 4 장마이크로어레이의자료분석 41 자를찾는방법이다. 이아이디어를사용하여 Golub, et al. (1999) 새로운종류의암을발견한바있다. Kerr, et al. (2001) 은분산분석모형 (ANOVA, analysis of variance) 을사용하고 Wolfinger, et al. (2000) 은혼합모형 (mixed model) 을사용하여유의한유전자를찾는방법을제안하였다. Liu, et al. (2002) 는여러비교그룹에서다르게발현되는유전자를찾기위한순위검정 (rank-based test) 을제시하였다. 또한Park, et al. (2003) 도시간별로반복실험된칩자료에서 ANOVA모형을이용하여유의한유전자를찾는방법을제안하였다. 가. 그룹이 2 개인경우 비교그룹이 2개이고한개의슬라이드에 N개의유전자가있다고가정하고첫번째그룹에서는 n 1 개의슬라이드가두번째그룹에서는 n 2 개의반복실험된슬라이드가있다고가정하자. 처리그룹을 i (=1,2) 로나타내고, 반복된슬라이드를 j (=1,,n i ) 로나타내고, 유전자를 l (=1,,N) 로나타내자. x ijl 을로그변환된적색과녹색발현강도의비를나타낸다고가정하자. 그러면각유전자별로두처리그룹간에평균값은다음과같다.

42 마이크로어레이 x 1.l = 1 n 1 n 1 j=1x 1jl : l 번째유전자의첫번째처리그룹 ( i =1) 에서의평균값 x 2.l = 1 n 2 n 2 j=1x 2jl : l 번째유전자의두번째처리그룹 ( i =2) 에서의평균값 이평균값으로부터다음과같은 t-통계량을유도할수있다. t l = x 1 l - x 1 l s 2 1l + s 2 2l n 1 n 2, l =1,,N t-통계량을각각의유전자마다따로정의된다. 이통계량은두그룹의평균을비교하기위해널리사용되는 t- 통계량과동일한형태를갖는다. 만약첫번째처리그룹과두번째처리그룹의분산도동일하다면두처리그룹의자료를합하여구한공통분산 s 2 l 를사용하여다음과같이좀더간단한식을사용할수도있다. t * l = x 1 l - x 1 l s l 1 n 1 + 1 n 2, l =1,,N t l 이나 t * l 같은 t-통계량값을계산한다음에는 t-분포를이용하여유의확률 (p-값) 을계산할수있다. t-통계

제 4 장마이크로어레이의자료분석 43 량의절대값이클수록유의확률값은작아지며 l 번째유전자가두처리그룹에서아주다른발현값을갖고있다는것을나타낸다. 따라서 t-통계량의절대값을기초로큰값에서부터작은값순서대로의미가있는유전자를찾아낼수있다. 이런 t-통계량을사용하게되면특정유전자가여러슬라이드에서발현되는분포를고려하여분산값을추정하게되므로이분산값에비해실제로관찰된발현값이유의하게차이가나는지를객관적으로평가하게된다. 따라서분포이론에근거한통계적추론방법이그냥단순하게 2배혹은 3배차이에근거한탐색방법에비해훨씬객관적이고정확한결과를제공한다고할수있다. 그다음으로고려할문제는각유전자마다 t-통계량을구한후에이값을기초로결론을구해야하는데전체 N 개의검정을동시에시행해야하므로제1 종오류 (type one error) 를조절할필요가있게된다. 흔히사용되는방법은 Bonferroni 방법이있는데이방법은보통의유의수준 α 대신에 α/n 을사용하는방법이다. t-검정은자료의분포가정규분포를따른다는가정하에서사용하는방법이다. 그러나많은경우에 microarray 에서구한발현값이정규분포를따르지않는다. Dudoit et al. (2002) 은순열검정 (permutation test) 에기

44 마이크로어레이 초한비모수적검정법을소개하였다. 이순열검정법은자료를계속순열변환시켜새로운종류의자료를생성시킨후에이자료를이용하여다시 t-통계량값을계산하는작업을수만번반복하여 t-통계량의분포를경험적 (empirical) 으로구하는방법이다. 이검정법은 t-분포를사용하지않으므로정규분포에대한가정없이검정결과를구할수있는방법이다. 순열검정과정을수행하기위해많은계산이요구되나컴퓨터의계산속도가워낙향상되어서별문제없이쉽게구할수있다. 이순열검정법에서도역시 N 개의검정을동시에시행해야하므로제1 종오류 (type one error) 를조절할필요가있게된다. 이경우에는 Westfall and Young (1993) 의 step-down 방법이널리사용된다. 나. SAM(Significance Analysis of Microarrrays) Tusher et al. (2001) 에서는유의한차이를보이는유전자의선별방법으로 SAM이라는방법을제안하였다. Westfall and Young (1993) 방법이나 Bonferroni 방법등과같은 FWER(Family-Wise Error Rate) 의경우는동시적으로검정해야할수가늘어날수록 Type I Error (false positive errror) 를줄이기위해검정력을잃어버리게된다. FWER 에기초한유전자의유의성검정에서는실제로

제 4 장마이크로어레이의자료분석 45 유의한유전자임에도불구하고검정력의부족으로찾아내지못하는현상이발생하게된다. 실제로는유의한차이가없음에도유의한차이가있다고잘못판정하는위양성 (false positivity) 의오류를일정한수준으로제어하겠다는것인데, 유전자의수가많아지게되면오류의확률도같이커지게된다. 이확률을강하게제어하려다보니검정력을잃어버리게되는것이다. SAM에서는이렇게지나치게엄격한제한이있는 FWER 을사용하지않고대신에 FDR(False Discovery Rate) 이라는기준을사용한다 (Benjamini and Hochberg, 1995). FDR은유의하다고판단한검정결과들중에서잘못판단한결과의비율 (rate) 을제어하는방법이다. 일반적으로 FDR 기준을사용하게되면 FWER 을사용하는것보다더유의한결과를많이얻는것으로알려져있다. SAM은 FWER 기준을사용하지않고 FDR 기준을사용한다. 즉, 일정수준의 FDR을만족하는유전자들을찾아내게되는데, 이유전자들에는일정한정도의유의하지않은유전자들이포함될수는있으나 Bonferroni 방법에비해더많은수의유의한유전자를제공해준다. 비록어느정도의잘못된유전자가포함되어있을지라도유의한유전자들을많이포함한다음, 다른신뢰성

46 마이크로어레이 있는실험을통해가짜를선별하는것이보다좋은방법일수있다. SAM은여기에몇가지를더고려하고있는데, 첫번째는분포가명확하지않은것을고려하여 FDR 추정시순열검정기법을사용하고있다. 거기에사용하는통계량은 t-통계량에기반하고있지만, 휘도 (intensity) 가작은부분에서의불안정성을극복하기위해 fudge factor 를도입하고있다. < 그림 4-6> SAM 을이용한유의한유전자의판정 < 그림 4-6> 은 SAM을사용하여분석한결과를보여주는그림이다. Y=X선에서벗어나있는점들이유의하게발현된유전자들을나타낸다. 여기서 FDR을 0,01로정했는데이것은 100개의유전자를선별하였을때, 1개정도

제 4 장마이크로어레이의자료분석 47 가잘못선택되어질정도의정확성을나타내고있는것이다. < 그림 4-6> 은실제계산된통계량과순열을통해계산된통계량의평균값과비교하여유의하다고판단되는유전자를얻는그래프이다. 만약여기서 FDR 수준을낮춘다면훨씬많은수의유전자수를얻을수있게된다. < 그림 4-7> 은유의하게탐색된유전자들을살펴보기위해 expression profile 을살펴본그림이다. < 그림 4-7> SAM에서얻어진유전자목록을가지고그린 Normalized Gene Expression

48 마이크로어레이 그러나이 Oligochip 에서각유전자마다평균과분산이다르기때문에그값을가지고그대로 profile 을살펴보는것은정확한정보를주지않는다. 이그림은표준변환을한후의구한값들을가지고 profile 을그린것이다. 그림에서알수있듯이 ALL형 Leukemia 들과 AML형 Leukemia들의 intensity와뚜렷이구분됨을확인할수있다.

49 제 5 장 결론및제언 1990년에시작된인간유전체사업 (Human Genome Project, HGP) 의결과로당초예상보다빨리 2001년 2 월인간유전체서열지도의초안이발표되었으며, 2003년 4월인간유전체서열해독이완료되었다. 인간유전체서열정보의해독을통하여, 유전자의기능을규명, 환자와정상인과의유전체정보비교및개인간 인종간의생체기능차이의원인등을연구할수있는토대가마련되었다. 이연구결과는앞으로암과같은질병의유전적원인을찾아내거나, 새로운진단방법과치료약개발및개개인의특성을고려한최적의치료법을찾는등의의 약학분야에많은기여를할수있을것으로기대된다. 그러나인간의복잡한생명현상을규명하기위해서는유전체의서열정보만으로는부족하며, 단백질간의상호작용및유전자발현여부등추가적인생물학적정보들이필요함을알게되었다. 따라서서열분석이완료된후유전체의기능을밝히려는기능유전체학 (functional genomics) 이중요한연구주제가되었다. 기능유전체학의주요도구중하나가 DNA 마이크로어레이 ( 또는 DNA 칩 ) 이다.

50 마이크로어레이 화학과분자생물학을비롯한기계공학, 전자공학등의여러분야가융합되어만들어진마이크로어레이기술은생명현상과관련된유전체수준의연구를가능하게하였다. DNA 마이크로어레이는유전자발현형태확인, 유전자기능예측, 돌연변이또는다형성 (polymorphism) 진단및질병관련유전자발굴등의연구목적에사용되며, 의료진단, 신약개발탐색및의약용유전체발굴등에활용가능하다. 전통적인생물학연구방법은 hypothesis-driven 으로서, 관찰된생명현상을설명하기위해적절한가설 (hypothesis) 을세우고, 그가설을검증하기위한실험을계획하고, 수행하여가설의타당성을알아보고, 그현상에대해결론을내리는것이다. 이러한접근방법은정교한가설을토대로실험을잘계획하더라도관심현상에영향을미치는요인들을연구자가완전하게조절할수없는경우가발생할수있다. 한편, 기존의유전공학방법들의대부분은연구자가동시에많은수의유전자에대해한꺼번에실험할수없는제약이있었기때문에 one-gene in one experiment 에기반을둔연구가수행되었다. 이러한 one-gene in one-experiment에근거한연구로는유전자전체의발현형태를보기에어려운점이많았다 (http://www.gene-chips.com). 마이크로어레이의장점은대량의유전자발현상황을총체적으로탐색할수있다는것이다. 이전의기술로는한두개의유전자기능만을탐색할수있었으나, 마이크로

제 5 장결론및제언 51 어레이기술은수만개의유전자조각들을하나의마이크로어레이에놓을수있기때문에, 전체유전체에대한정보를한번의실험에서얻을수있다. 따라서기존기술과는비교도안될정도로상당히많은정보를얻을수있는특징이있다. 마이크로어레이기술은방대한서열정보를바탕으로하는유전체의구조와기능을밝히려는기능유전체학연구에필수적인도구가되었다. 마이크로어레이기술은 21세기바이오시대의대표적인기술로자리매김을하였으며앞으로도계속하여생물학적, 의약학적연구의핵심기술로널리사용될것이라고기대된다. 현재전세계적으로좋은품질은마이크로어레이자료가대량으로생산되고있다. 마이크로어레이자료에대한표준화된품질규격을만들고이들자료에대한체계적인데이터베이스를통합하여관리하는노력도필요할것으로기대된다. (Eisen, et. al, 2000).

53 참고문헌 [1] Alizadeh, A. A., Eisen, M. B., Davis, R. E., Ma, C., Lossos, I. S., Rosenwald, A., Boldrick, J. C., Sabet, H., Tran, T., Yu, X., Powell, J.I., Yang, L., Marti, G. E., Moore, T., Hudson, J., Lu, L., Lewis, D. B., Tibshirani, R., Sherlock, G., Chan, W. C., Greiner, T. C., Weisenburger, D.D., Armitage, J.O., Warnke, R., Levy, R., Wilson, W., Grever, M.R., Byrd, J.C., Botstein, D., Brown, P.O., and Staudt, L. M. (2000) Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature. 403 (6769):503-11 [2] Benjamini, Y. and Hochberg, (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. JRSS Series B, 57(1), 289-300. [3] Bergeron, B. (2002) Bioinformatics computing, PRENTICE HALL [4] Brazhnik, P., de la Fuente, A., Mendes, P. (2002) Gene networks: how to put the function in genomics. Trends Biotechnol. 20(11):467-72. [5] Brazma, A., Hingamp, P., Quackenbush, J., Sherlock, G., Spellman, P., Stoeckert, C., Aach, J., Ansorge, W., Ball, C. A., Causton, H. C., Gaasterland, T., Glenisson, P., Holstege, F. C., Kim, I.F., Markowitz, V., Matese, J. C., Parkinson, H., Robinson, A., Sarkans, U., Schulze-Kremer, S., Stewart, J., Taylor, R., Vilo, J., and Vingron, M. (2001). Minimum information about a microarray experiment(miame)- toward standards for microarray data. Nat Genet. 29(4): 365-71. [6] Chen, Y., Dougherty, E.R., and Bittner, M.L. (1997). Ratio-Based Decisions and the Quantitative Analysis of cdna

54 마이크로어레이 Microarray Images, Journal of Biomedical Optics, 2(4):364-374 [7] Churchill, G. A. (2002) Fundamentals of experimental design for cdna microarrays. Nat Genet. Suppl. 32:490-5. Review. [8] Cleveland (1979). Robust locally weighted regression and smoothing scatterplots. Journal of the American Statistical Association, 74(368):829-836 [9] Dudoit, S., Yang, Y. H, Callow, M. J., and Speed, T. P. (2002). Statistical methods for identifying differentially expressed genes in replicated cdna microarray experiments. Statistica Sinica, 12, 111-140. [10] Draghici, S. (2003) Data Analysis Tools for DNA Microarrayss. CHAPMAN & HALL/CRC [11] Duggan, D. J., Bittner, M., Chen, Y., Meltzer, P., and Trent, J. M. (1999) Expression profiling using cdna microarrays. Nat Genet. Suppl. 21:10-4. Review. [12] Eisen, M.B., Spellman, P.T., Brown, P.O., Botstein, D. (1998). Cluster Analysis and Display of Genome-Wide Expression Patterns. Proc Natl Acad Sci USA, 95:14863-14868. [13] Eisen, M.B., Brown, P.O. (1999). DNA Arrays for Analysis of Gene Expression. Methods Enzymol, 303:179-205. [14] Eisen, M.B., Sausville, E. A., Pommier, Y., Botstein, D., Brown, P. O., and Weinstein, J. N. (2000) A gene expression database for the molecular pharmacology of cancer. Nat Genet 24(3):236-44 [15] Friedman, N., Linial, M., Nachman, I., and Pe'er, D. (2000) Using Bayesian networks to analyze expression data. Journal of Computational Biology, 7(3-4):601-20. [16] Golub, T.R. Slonim, T.K. Tamayo, P. Huard, C., Gaasenbeek,

참고문헌 55 M. Mesirov, J.P., Coller, H. Loh, M.H. Downing, J.R., Caligiuri, M.A., Bloomeld, C.D., and Lander, E.S.(1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 286:531-537. [17] Hubbell, E., Liu, W.-M., and Mei, R. (2002). Robust estimators for expression analysis, Bioinformatics, 18 (12): 1585-1592. [18] Kerr, M.K., Afshari, C.A., Bennett, L., Bushel, P., Martinez, J., Walker, N., Churchill, G.A. (2001). Statistical Analysis of a Gene Expression Microarray Experiment with Replication. Statistica Sinica [19] Kawanishi, Y., Tachikawa, H., and Suzuki, T. (2000) Pharmacogenomics and schizophrenia. Eur. J. Pharmacol. 410:227-41 [20] Leung, Y. F., and Cavalieri D. (2003) Fundamentals of cdna microarray data analysis. Trends Genet. 19(11):649-59. Review. [21] Li, F. and Stormo, G. D. (2001). Selection of optimal DNA oligos for gene expression arrays", Bioinformatics, 17 (11): 1067-1076. [22] Lipshutz, R. J., Fodor, S. P., Gingeras, T. R., and Lockhart. D, J. (1999) High density synthetic oligonucleotide arrays. Nat Genet. Suppl.21:20-4. [23] Liu, W.-m., Mei, R., Di, X., Ryder, T. B., Hubbell, E., Dee, S., Webster, T. A, Harrington, C A., Ho, M.-h., Baid, J. and Smeekens, S. P. (2002). Analysis of high density expression microarrays with signed-rank call algorithms, Bioinformatics, 18 (12): 1593-1599 [24] Park, T., Yi, S.-G., Lee, S., Lee, S., Yoo, D.-H., Ahn, J.-I.,

56 마이크로어레이 Lee Y.-S. (2003). Statistical tests for identifying differentially expressed genes in time course microarray experiments, Bioinformatics, 19, 6, 694-703. [25] Rashidi, H.H., Buehler, L.K. (2000). Bioinformatics Basic: Applications in Biological Science and Medicine. CRC Press [26] Rouillard, J.-M. 1, Herbert, C. J., and Zuker, M. (2002). OligoArray: genome-scale oligonucleotide design for microarrays", Bioinformatics, 18 (3): 486-487. [27] Schena, M. (1999) DNA Microarrays : A Practical Approach. Oxford University Press. [28] Scherf, U., Ross, D. T., Waltham, M., Smith, L. H., Lee, J. K., Tanabe, L., Kohn, K. W., Reinhold, W. C, Myers, T. G., Andrews, D. T., Scudiero, D. A., [29] Slonim, D. K. (2001) Transcriptional profiling in cancer: the path to clinical pharmacogenomics. Pharmacogenomics. 2:123-36 [30] Snustad, D. P., and Simmons, M. J. (2003) Principles of genetics -3rd Ed, WILEY [31] Spellman, P. T, Sherlock, G., Zhang, M. Q., Iyer, V. R., Anders, K., Eisen, M. B., Brown, P. O., Botstein, D., and Futcher, B. (1998) Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization. Mol Biol Cell. 9(12):3273-97. [32] Srivastava, M., Eidelman, O., and Pollard, H. B.(1999) Pharmacogenomics of the cystic fibrosis transmembrane conductance regulator(cftr) and the cystic fibrosis drug CPX using genome microarray analysis. Mol Med. 5:753-67 [33] Tseng, G.C, Oh, M.K., Rohlin, L., Liao, J.C., and Wong, W.H. (2001). Issues in cdna microarray analysis: quality filtering,

참고문헌 57 channel normalization, models of variations and assessment of gene effects, Nucleic Acids Research, 29(12):2549-2557 [34] Tusher, V.G., Tibshirani, R., and Chu, G. (2001). Significance analysis of microarrays applied to ionizing rediation response. Proc. Natl. Acad. Sci., 98(9), 5116-5121 [35] Weinstein, J. N. (2002) Omic and hypothesis-driven research in the molecular pharmacology of cancer. Curr Opin Pharmacol. 2(4):361-5 [36] Westfall, P. H. and Young, S. S. (1993). Resampling-based multiple testing: examples and methods for p-value adjustment. Wiley series in probability and mathematical statistics. Wiley. [37] Wolfinger, R.D., Gibson, G., Wolfinger, E.D., Bennett, L., Hamadeh, H., Bushel, P., Afshari, C., Paules, R.S. (2001). Assessing gene significance from cdna microarray expression data via mixed models. Journal of Computational Biology, 8(6):625-637 [38] Yang, Y.H, Dudoit, S.D., Luu, P., and Speed, T.P. (2001). Normalization for cdna Microarray Data, In SPIE BioE

저자소개 박태성 이학박사 현, 서울대학교통계학과교수 현, 서울대학교생물정보학협동과정주임교수 저서 : 마이크로어레이자료의통계적분석등 BB110 마이크로어레이 2005 년 12 월 19 일인쇄 2005 년 12 월 23 일발행 발행처 박태성 서울특별시동대문구청량리동 206-9 ꂕ 130-742 전화 : 3299-6114 등록 : 1991 년 2 월 12 일제 5-258 호 발행인조영화 인쇄처영신기획