DBPIA-NURIMEDIA

Similar documents
DBPIA-NURIMEDIA

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

DBPIA-NURIMEDIA

Bchvvhv[vhvvhvvhchvvhvvhvvhvvhvvgvvgvv}vvvgvvhvvhvvvhvvhvvhvvvbbhvvhvvvgvvgvvhvvhvvhv}hv,.. Bchvvhv[vhvvhvvhvvhvvbbhvvhvvhvvvhvvhvvgvvgvv}vvgvvhvvvhvv

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

Microsoft PowerPoint - 26.pptx

시작하기 시작할 준비가 되었으면 다음 설명에 따라 설문조사를 실시한다. 1단계: 허락받기 클럽을 떠나는 회원에게 에 응해 줄 것인지 물어본다. 이 설문 조사는 클럽의 문제점을 보완해 향후 같은 이유로 이탈하는 회원들이 없도록 하기 위한 것이며, 응답 내용은 대외비로 처


DBPIA-NURIMEDIA


hwp

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

<BACFC7D1B3F3BEF7B5BFC7E22D3133B1C733C8A BFEB2E687770>



Microsoft PowerPoint Relations.pptx

°ø±â¾Ð±â±â

경영학석사학위논문 투자발전경로이론의가설검증 - 한국사례의패널데이타분석 년 8 월 서울대학교대학원 경영학과국제경영학전공 김주형

untitled

<30352D30312D3120BFB5B9AEB0E8BEE0C0C720C0CCC7D82E687770>

歯mp3사용설명서

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

C# Programming Guide - Types

PowerPoint Template

JAVA PROGRAMMING 실습 08.다형성

<4D F736F F F696E74202D2035BBF3C6F2C7FC5FBCF8BCF6B9B0C1FA2E BC8A3C8AF20B8F0B5E55D>

歯522박병호.PDF

(001~006)개념RPM3-2(부속)

교육학석사학위논문 윤리적입장에따른학교상담자의 비밀보장예외판단차이분석 년 월 서울대학교대학원 교육학과교육상담전공 구승영

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Lecture12_Bayesian_Decision_Thoery

C++ Programming

PowerPoint Presentation

슬라이드 제목 없음

= ``...(2011), , (.)''

임베디드시스템설계강의자료 6 system call 2/2 (2014 년도 1 학기 ) 김영진 아주대학교전자공학과

PowerPoint Presentation

adfasdfasfdasfasfadf

Sequences with Low Correlation

Microsoft PowerPoint - Java7.pptx

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 이저작물을영리목적으로이용할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

음악의 구성 형식에 따라 추출된 대표 선율을 이용한 내용 기반 음악 검색 시스템

실험 5

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

죄형법정주의2 20문 및 해설.hwp

歯PLSQL10.PDF

OCW_C언어 기초

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

( )박용주97.PDF

32

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

<313920C0CCB1E2BFF82E687770>

(120629)_세포배양_불활화_인플루엔자_백신_평가_가이드라인.hwp

제11장 프로세스와 쓰레드

q 이장에서다룰내용 1 객체지향프로그래밍의이해 2 객체지향언어 : 자바 2

statistics

CERIUM OXIDE Code CeO CeO 2-035A CeO 2-035B CeO REO % CeO 2 /REO % La 2 O 3 /REO %

이용석 박환용 - 베이비부머의 특성에 따른 주택유형 선택 변화 연구.hwp

Microsoft PowerPoint - Ch13

Microsoft PowerPoint Predicates and Quantifiers.ppt

( ) 0 Ⅰ 02 Ⅰ 03 Ⅰ 04 Ⅰ LBR00 05 Ⅰ 06 Ⅰ.0 4 G G G G G G Ⅰ.0 0 G Ⅰ.0 9 J30 LBR ,9 D45 * 과목은 학

Microsoft PowerPoint - 27.pptx

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

슬라이드 1

PowerPoint Presentation

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

28 저전력복합스위칭기반의 0.16mm 2 12b 30MS/s 0.18um CMOS SAR ADC 신희욱외 Ⅰ. 서론 Ⅱ. 제안하는 SAR ADC 구조및회로설계 1. 제안하는 SAR ADC의전체구조

½½¶óÀ̵å Á¦¸ñ ¾øÀ½

법학박사학위논문 실손의료보험연구 2018 년 8 월 서울대학교대학원 법과대학보험법전공 박성민


2002년 2학기 자료구조


Microsoft Word - [2017SMA][T8]OOPT_Stage_2040 ver2.docx

Python과 함께 배우는 신호 해석 제 5 강. 복소수 연산 및 Python을 이용한 복소수 연산 (제 2 장. 복소수 기초)

행정학석사학위논문 공공기관기관장의전문성이 조직의성과에미치는영향 년 월 서울대학교행정대학원 행정학과행정학전공 유진아

2015 개정교육과정에따른정보과평가기준개발연구 연구책임자 공동연구자 연구협력관

목차 제1장 가이드북 개요 발간 목적 활용 방법 11 제2장 저작권이란 무엇인가요 - 저작권 기초 학습 13 Contents 1. 저작물이란 저작자 저작권 저작인접권 기타 저작권법 상의 권리 저작권의 변동

Microsoft Word - Lab.4

전자회로 실험


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

DBPIA-NURIMEDIA

룩업테이블기반비선형렌즈플레어실시간렌더링방법 (Real-Time Nonlinear Lens-Flare Rendering Method Based on Look-Up Table) 조성훈 정유나 이성길 (Sunghun Jo) (Yuna Jeong) (Sungkil Lee) 요

KMC.xlsm

발간등록번호

1. 경영대학

제 3강 역함수의 미분과 로피탈의 정리

DBPIA-NURIMEDIA

소프트웨어공학 Tutorial #2: StarUML Eun Man Choi

Microsoft PowerPoint - C++ 5 .pptx

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<C0B1B8AEC0A7BFF8C8B D322E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 27(7),

Transcription:

37 정보과학회논문지 : 시스템및이론제 35 권제 8 호 008.8 나이브베이스분류기를이용한유전발현데이타기반암분류를위한순위기반다중클래스유전자선택 Rak-base Multlass Gee Seleto for Caer Classfato wth ave Bayes Classfers base o Gee Expresso rofles 홍진혁 조성배 J-Hyuk Ho Su-Bae Cho 요약최근활발히연구가진행중인유전발현데이타를이용한다중클래스암분류는 DA 마이크로어레이로부터획득된대규모의유전자정보를분석하여암의종류를판단한다. 수집된유전발현데이타에는대상암과관련이없는유전자도포함되어있기때문에높은성능의분류결과를얻기위해서유용한유전자를선택하는것이필요하다. 기존의순위기반유전자선택은이진클래스를대상으로고안되었고이상표식유전자 Ieal arker ee 를이용하기때문에다중클래스암분류에직접적용하기에는한계가있다. 본논문에서는이상표식유전자를사용하지않고유전발현수준의분포를직접분석하는순위기반다중클래스유전자선택기법을제안한다. 유전발현수준을이산화하고학습데이타로부터빈도를계산하여클래스간분별력을측정한후 선택된유전자를이용하여나이브베이즈분류기를사용해다중암분류를수행한다. 제안하는방법을다수의다중클래스암분류데이타에적용하여기존유전자선택방법에비해우수함을확인하였다. 키워드 : 유전발현데이타 다중부류암분류 유전자선택 Abstrat Multlass aer lassfato has bee atvely vestate base o ee expresso profles where t eteres the type of aer by aalyz the lare aout of ee expresso ata ollete by the DA roarray teholoy. Se ee expresso ata lue ay ees ot relate to a taret aer t s requre to selet foratve ees orer to obta hhly aurate lassfato. Covetoal rak-base ee seleto ethos ofte use eal arker ees basally evse for bary lassfato so t s ffult to retly apply the to ultlass lassfato. I ths paper we propose a ovel etho for ultlass ee seleto whh oes ot use eal arker ees but retly aalyzes the strbuto of ee expresso. It easures the lass-srablty by sretz ee expresso levels to several reos a aalys the frequey of tra saples for eah reo a the lassfes saples by us the ave Bayes lassfer. We have eostrate the usefuless of the propose etho for varous represetatve behark atasets of ultlass aer lassfato. Key wors :ee expresso profles ultlass aer lassfato ee seleto 본연구는지식경제부및정보통신연구진흥원의대학 IT연구센터지원사업의연구결과로수행되었음 IITA-008-C090-080-0046 학생회원 : 연세대학교컴퓨터과학과 hh@slab.yose.a.kr 종신회원 : 연세대학교컴퓨터과학과교수 sbho@s.yose.a.kr 논문접수 : 007년 월 6일심사완료 : 008년 5월 일 Copyrht@008 한국정보과학회ː개인목적이나교육목적인경우 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제 배포 출판 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회논문지 : 시스템및이론제35권제8호 008.8

나이브베이스분류기를이용한유전발현데이타기반암분류를위한순위기반다중클래스유전자선택 373. 서론마이크로어레이기술로수집되는유전발현데이타는질병과관련된다양한정보를가지고있지만 적은샘플수에비해대규모의유전자로구성된다. 따라서연관이있는유전자를선택하는것은정확한질병분류에필수적이다 []. 유전자선택은크게필터와래퍼방법으로나뉘는데 필터방법은어떤기준에따라유전자의가치를개별적으로측정하는반면 래퍼방법은분류기와연계된우수한유전자집합을찾는다. 래퍼방법은복잡한유전자와분류기사이의관계를활용할수있으나매우많은연산량이필요하고샘플이적은문제에는적합하지않다. 반면에순위기반유전자선택기법이라고도불리는필터방법은보통적은연산량에비해양호한성능을보인다. 기존의순위기반유전자선택기법은이진분류에많이사용되었으며 사전에설계된이상표식유전자와유사한유전자만을선택한다. 특히이상표식유전자가이진클래스로구성되어다중클래스암분류에직접적용하기에는적합하지않다 []. 다중클래스암분류에서는보통다중클래스를다수의이진클래스문제로나눈후해결하는방식을취하기때문에유용한유전자가이진클래스형태의이상표식유전자와유사하지않다는이유로제외될수있다. 본논문에서는다중클래스암분류에적합한유전자선택기법을제안한다. 이상표식유전자를사용하지않고유전자로부터직접다른클래스와의구별력을측정한다. 먼저유전자를세분화하여각영역별샘플의빈도를계산하고클래스구별력과영역밀집도에따라유전자의중요도를측정한다. 중요도가높은유전자를선택하고나이브베이즈 B 분류기를이용하여다중클래스암분류를수행한다.. 배경. 유전발현데이타를이용한다중클래스암분류 다중클래스암분류는보통세개이상의암으로구성된데이타를다루며 개의학습데이타 S {x y... x y } x X: 번째학습샘플 ; y Y{ k}: 대응하는클래스레이블 가주어질때 각샘플에대응하는레이블로매핑하는함수 F: X Y를구해야한다. 표 은다중클래스암분류의대표적연구들을보여주는데 보통결정트리나 k-최근접이웃등의방법을사용하여직접다중클래스를다루거나다수의이진분류문제로변환하여 SVM 등을적용한다.. 순위기반유전자선택기존순위기반유전자선택기법은사전에정의된이상표식유전자와유사한유전자를선택한다. 이상표식유전자는기본적으로이진분류에적합하도록정의되기때문에먼저다중클래스분류문제를 Oe-Versus-Rest OVR 전략등을이용하여복수의이진분류문제로분해해야한다. 클래스레이블 y Y{ }: 클래스수 에대해서 개의학습샘플이주어지면다음과같이길이가 인이상표식유전자집합 K {K + K - K + K - K + K -} 를정의한다 단 는 ~. 양의이상표식유전자 K + : k k k k k f y 0 f y!. 음의이상표식유전자 K - : k k k k k 0 f y f y!. e 를 번째학습샘플의 번째유전자의발현수준이라고할때 학습샘플에대해 번째유전자 는다음과같이정의된다. e e e 그림 과같이설계된이상표식유전자와각유전자의유사도를계산하여유전자의순위를매긴다 [8]. 이상표식유전자와유사한양상을보이는유전자는높은순위를가지며 유사성이떨어지는유전자는낮은순위를 표 다중클래스암분류관련연구 연구자 유전자선택기법 분류기법 평가데이타 Raasway 00 [] - SVM GCM Lee 003 [3] BSS/WSS Multateory SVM Leukea ata SRBCT L 004 [4] Statkov 005 [5] IG TR GI SM MM SV t-statsts BW S oe-way AOVA SVM B k SVM k s Multateory SVM Leukea aer ata GCM SRBCT CI60 GCM bra leukea lu aer ata SRBCT Wa 005 [] Relef-F IG x -statsts k SVM C4.5 B Leukea aer ata Yeu 005 [6] BSS/WSS BMA Lost reresso Leukea ata heretary breast aer ata Ho 006 [7] C SVM B GCM

374 정보과학회논문지 : 시스템및이론제 35 권제 8 호 008.8 표 와 eal 의유사도를측정하기위한방법 C eal eal eal eal eal 6 D D SC eal eal D D eal 은 eal 의순위행렬 eal eal ED eal eal eal CC lo lo _ IG + : 번째클래스 lo MI 0 0 S σ σ µ µ + 그림 제안하는유전자선택방법그림 기존순위기반유전자선택예갖는다. 유사도는표 와같이피어슨상관계수 C 스피어만상관계수 SC 유클리드거리 ED 코사인계수 CC 정보이득 IG 상호정보 MI 신호대잡음비 S 등의다양한방법을사용하여측정한다. 최근유전자선택에서는피어슨상관계수 정보이득 신호대잡음비등이많이사용되지만 유클리드거리나코사인계수등은비교적적은연산으로동작한다는장점이있다. 3. 제안하는방법 3. 다중클래스암분류를위한유전자선택본논문에서제안하는순위기반유전자선택기법은그림 와같이이산화 빈도계산 클래스구별력및영역밀집도계산 유전자가치및순위측정으로구성된다.

나이브베이스분류기를이용한유전발현데이타기반암분류를위한순위기반다중클래스유전자선택 375 기존의순위기반유전자선택기법과달리제안하는방법은이상표식유전자를사용하지않고유전발현수준을직접분석하여유전자의중요도를측정한다. 먼저수식 3 과같이학습데이타를기반으로 t번째유전자의유전발현수준을 5 개의영역으로구분하고 각클래 스에대한영역별학습샘플발생빈도를측정한다. f 는클래스레이블이 이고유전발현수준이 번째영역에속하는학습샘플의수이다. f f t Μ f f Κ f f Κ f 3 Μ Ο Μ f Κ f 각유전자의학습데이타에대한클래스 / 영역빈도가측정되면 분류에유용한특성인클래스구별력 Class srablty; CD 과영역밀집도 Reo testy; RI 를계산한다. 이들값은수식 4 와같이구분된영역과클래스에대해각각구해진다. 는 번째영역의클래스 에대한클래스구별력이고 r 는 번째영역의클래스 에대한영역밀집도이다. Κ Κ CD t Μ Μ Ο Μ Κ r r Κ r r r Κ r 4 RI t Μ Μ Ο Μ r r Κ r f f r k f fk. k k 클래스구별력과영역밀집도를바탕으로유전자가클래스별로얼마나분류에도움이되는지를식 5 와같이계산한다. 특히샘플이고루분포할경우에클래스구별력이떨어지기때문에간단한변환함수 Ex 를정의하여유전자의중요도계산에반영하였다. Ex 는샘플이각클래스에고루분포할경우가장작은값을가지며 한쪽으로치우칠경우높은값을갖는다. 중요도 t 는 t번째유전자가 번째클래스를얼마나잘분류하는지를나타낸다. 유전자는클래스수만큼의중요도를가지며클래스별중요도에따라정렬된다. 분류에선택되는유전자는클래스별중요도순위에따라그림 3과같이선택된다. 각클래스를잘구분해주는유전자를선택하기 그림 3 유전자순위알고리즘위해클래스별로다수의유전자가선택되도록한다. 그림 3의 R은최종적으로선택된유전자리스트를의미하고 o 는 번째클래스의중요도 에따라정렬된유전자순위로 o [] 는 번째클래스를분류하는데 번째로유용한유전자를의미한다. t E r x f x < 5 E x + x f x. 3. B 분류기를이용한다중암분류 B 분류기는샘플로부터관측된값과미리설계된변수들의사전확률분포와 특징과클래스사이의조건부확률분포를바탕으로각클래스의사후확률을계산한다 [9]. 확률분포는 T개의학습데이타로부터계산되는데 변수 A의 번째상태가 A 이고 outa 는변수 A가 번째상태를가지는경우의빈도를나타낼때 사전확률 A 는식 6 과같이계산된다. out A A 6 T 만약변수 A가 B를부모노드로가지면 조건부확률 A B 는식 7 과같이계산된다. out A B A B 7 out B Bayes 이론에따라 개의특징값이증거로주어질때각클래스의사후확률은식 8 과같이계산된다. C F... F C C F... F 8 F... F 식 8 의분모는클래스의사후확률계산에서항상동일하기때문에분자만을고려한다면클래스의사후확

376 정보과학회논문지 : 시스템및이론제 35 권제 8 호 008.8 률은특징들사이의독립성가정에따라다음과같이표현되며 가장높은값을가지는클래스로샘플이분류된다. C F... F C C F C F C F C C... F C 9 4. 실험및결과 4. 실험환경제안하는방법을평가하기위해서표 3에서와같이기존논문에서학습데이타와테스트데이타를구분한대표적다중클래스유전발현데이타인 GCM[] Leukea[0] CI60[] 와 SRBCT[] 데이타와표 4에서와같이 GEMShttp://www.es-syste.or/ 에서의 9가지다중클래스유전발현데이타를사용하였다. 이들은적은수의샘플에비해매우많은수의유전자로구성되어있다. 본논문에서는클래스수의 0배에해당하는개수의유전자를선택하였으며 유전발현수준은모두 0에서 사이로정규화하여실험을수행하였다. 표 3 표 3 평가데이타설명데이타 GCM Leukea CI SRBCT 유전자수 6063 58 544 308 클래스수 4 3 8 4 학습데이타수 44 57 43 63 테스트데이타수 54 5 8 0 선택유전자수 40 30 80 40 의데이타는학습데이타와테스트데이타를초기환경에맞추어실험하였고 표 4의데이타에대해서는 5-집단교차검증 5-fol ross valato 을수행하여결과를획득하였다. 4. 결과분석각데이타에대해모든특징선택방법이아주적은수의특징을사용하여대부분학습데이타를거의완벽하게분류하는 B 분류기를획득하였다. 표 5는테스트데이타에대한분류율을보여주는데 제안하는방법이대체로다른특징선택기법에비해높은분류율을보여주었으며 평균 79.3% 의분류율로기존의방법보다높은분류성능을획득하였다. 전반적으로기존방법에서 Leukea 데이타에대해선택된유전자의발현수준은이상표식유전자와유사한유전자를뽑아비슷한양상을보였다. 표 6은각유전자선택기준별중복된유전자의수를보여준다. C ED CC S 등은비슷한유전자가많이뽑혔으며 SC 와제안하는방법은전반적으로다른특징선택방법과다른양상을보였다. 성능이저조한 IG와 MI의경우는다른방법들이뽑은유전자를거의선택하지않았다. 유전자 #769 는 IG를제외한모든방법에서선택되어 Leukea 암분류에매우유용하였고 유전자 #96 유전자 #8 등은 5가지방법에서선택되었다. 표 6 동일유전자의선택빈도 표 4 GEMS 의 9 가지데이타설명 데이타 유전자수샘플수클래스수 선택유전자수 Leukea 5 7 3 30 Leukea 537 7 3 30 SRBCT 308 83 4 40 Lu 600 03 5 50 Bra 0367 50 4 40 Bra 590 90 5 50 9 tuors 576 60 9 90 tuors 533 74 0 4 tuors 5009 308 6 60 그림 4는 GEMS의 9가지암데이타에대한분류결과로 거의모든경우에서제안하는방법이기존유전자선택기법에비해높은분류성능을얻었으며 평균 4~ 0% 이상의성능향상을확인하였다. 5. 결론다중클래스분류는패턴인식에서매우도전적인과제 표 5 테스트데이타에대한분류율 데이타 % C SC ED CC IG MI S GCM 48 46 33 48 35 44 5 50 Leukea 00 93 00 00 93 80 00 00 CI 50 56 39 7 56 50 6 7 SRBCT 00 00 75 95 65 85 95 95 Av 74.5 73.8 6.8 78.8 6.3 64.9 77 79.3

나이브베이스분류기를이용한유전발현데이타기반암분류를위한순위기반다중클래스유전자선택 377 그림 4 GEMS 데이타에대한분류성능 로기존의순위기반특징선택방법을직접적용하기에는한계가있다. 본논문에서는이상표식유전자를사용하지않고유전자의발현수준을직접분석하는방법을제안하였고 생물정보학의대표적인다중클래스암분류데이타를대상으로다중클래스암분류에적용하여병렬적인 OVR 방식으로기존의특징선택을적용한방법보다높은성능을획득하였다. 향후에는보다다양한다중클래스데이타에적용할것이다. 참고문헌 [] Y. Wa F. Makeo J. For a J. earla "HykGee: A hybr approah for selet arker ees for pheotype lassfato us roarray ee expresso ata" Boforats Vol. o.8 pp. 530-537 005. [] S. Raasway. Taayo R. Rfk S. Mukheree C. Yea M. Aelo C. La M. Reh E. Latulppe J. Mesrov T. oo W. Geral M. Loa E. Laer a T. Golub "Multlass aer aoss us tuor ee expresso satures" ro. atoal Aaey of See Vol.98 o.6 pp. 549-554 00. [3] Y. Lee a C.-K. Lee "Classfato of ultple aer types by ultateory support vetor ahes us ee expresso ata" Boforats Vol.9 o.9 pp. 3-39 003. [4] T. L C. Zha a M. Ohara "A oparatve stuy of feature seleto a ultlass lassfato ethos for tssue lassfato base o ee expresso" Boforats Vol.0 o.5 pp. 49-437 004. [5] A. Statkov C. Alfers L. Tsaaros D. Har a S. Levy "A oprehesve evaluato of ultateory lassfato ethos for roarray ee expresso aer aoss" Boforats Vol. o.5 pp. 63-643 005. [6] K.-Y. Yeu R. Buarer a A. Raftery "Bayesa oel avera: Developet of a prove ult-lass ee seleto a lassfato tool for roarray ata" Boforats Vol. o.0 pp. 394-40 005. [7] J.-H. Ho a S.-B. Cho "Mult-lass aer lassfato wth OVR-support vetor ahes selete by ave Bayes lassfer" Leture otes Coputer Sees Vol.434 pp. 55-64 006. [8] S.-B. Cho a J.-W. Ryu "Classfy ee expresso ata of aer us lassfer eseble wth utually exlusve features" roees of the IEEE Vol.90 o. pp. 744-753 00. [9] J. Lu B. L a T. Dllo "A prove aïve Bayesa lassfer tehque ouple wth a ovel put soluto etho" IEEE Tras. Systes Ma a Cyberets-art C: Applatos a Revews Vol.3 o. pp. 49-56 00. [0] S. Arstro J. Stauto L. Slvera R. eters M. e Boer M. Me S. Salla E. Laer T. Golub a S. Korseyer "MLL trasloatos spefy a stt ee expresso profle that stushes a uque leukea" ature Geets Vol.30 o. pp. 4-47 00. [] D. Ross U. Sherf M. Ese C. erou. Spella V. Iyer S. Jeffrey M. Va e R M. Waltha A. eraeshkov J. Lee D. Lashkar D. Shalo T. Myers J. Weste D. Botste a. Brow "Systeat varato ee expresso patters hua aer ell les" ature Geets Vol.4 o.3 pp. 7-34 000. [] J. Kha J. We M. Rér L. Saal M. Laay F. Westera F. Berthol M. Shwab C. Atoesu C. eterso a. Meltzer "Classfato a aost preto of aers us ee expresso profl a artfal eural etworks" ature Mee Vol.7 o.6 pp. 673-679 00. 홍진혁 00년연세대학교기계전자공학부정보산업전공졸업. 00년~004년연세대학교컴퓨터과학과석사. 004년~현재연세대학교컴퓨터과학과박사과정. 관심분야는지능형에이전트 패턴인식 바이오인포메틱스 조성배 988년연세대학교전산과학과 학사. 990 년한국과학기술원전산학과 석사. 993 년한국과학기술원전산학과 박사. 993 년~995년일본 ATR 인간정보통신연구소객원연구원. 998년호주 Uv. of ew South Wales 초청연구원. 995 년~현재연세대학교컴퓨터과학과정교수. 관심분야는신경망 패턴인식 지능정보처리