자기구성지도 기반 방법을 이용한 이상 탐지(Novelty Detection using SOM SOM-based Methods)



Similar documents
3232 편집본(5.15).hwp

DBPIA-NURIMEDIA

Ⅰ. 머리말 각종 기록에 따르면 백제의 초기 도읍은 위례성( 慰 禮 城 )이다. 위례성에 관한 기록은 삼국사기, 삼국유사, 고려사, 세종실록, 동국여지승람 등 많은 책에 실려 있는데, 대부분 조선시대에 편 찬된 것이다. 가장 오래된 사서인 삼국사기 도 백제가 멸망한지

<BFBEBEC6C0CCB5E9C0C720B3EEC0CC2E20B3EBB7A120C0CCBEDFB1E220C7D0B1B3202D20C0DAB7E1322E687770>

참고 금융분야 개인정보보호 가이드라인 1. 개인정보보호 관계 법령 개인정보 보호법 시행령 신용정보의 이용 및 보호에 관한 법률 시행령 금융실명거래 및 비밀보장에 관한 법률 시행령 전자금융거래법 시행령 은행법 시행령 보험업법 시행령 자동차손해배상 보장법 시행령 자본시장과

<3130BAB9BDC428BCF6C1A4292E687770>

5. 회 의내용 < 제 1호 안 : 2011학년도 법 안 회 제 철 산(안 )> 법인 사무국장의 성왼 보고에 이이 의장이 이사회 개회 용 선언하고 회계판려부장에 게 제 l 호 안인 학년도 입인 회계 결산(안)에 대한 성명융 지시함 회계판리부장이 2011 학년

¹Ì¼ú-°¢·ÐÁß¿ä³»¿ëb74öÁ¤2š

untitled

레이아웃 1

입장

1) 음운 체계상의 특징 음운이란 언어를 구조적으로 분석할 때, 가장 작은 언어 단위이다. 즉 의미분화 를 가져오는 최소의 단위인데, 일반적으로 자음, 모음, 반모음 등의 분절음과 음장 (소리의 길이), 성조(소리의 높낮이) 등의 비분절음들이 있다. 금산방언에서는 중앙

DBPIA-NURIMEDIA

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

우리나라의 전통문화에는 무엇이 있는지 알아봅시다. 우리나라의 전통문화를 체험합시다. 우리나라의 전통문화를 소중히 여기는 마음을 가집시다. 5. 우리 옷 한복의 특징 자료 3 참고 남자와 여자가 입는 한복의 종류 가 달랐다는 것을 알려 준다. 85쪽 문제 8, 9 자료

상품 전단지

::: 해당사항이 없을 경우 무 표시하시기 바랍니다. 검토항목 검 토 여 부 ( 표시) 시 민 : 유 ( ) 무 시 민 참 여 고 려 사 항 이 해 당 사 자 : 유 ( ) 무 전 문 가 : 유 ( ) 무 옴 브 즈 만 : 유 ( ) 무 법 령 규 정 : 교통 환경 재

2

DBPIA-NURIMEDIA

화이련(華以戀) hwp

ÆòÈ�´©¸® 94È£ ³»Áö_ÃÖÁ¾

歯1##01.PDF

<5BC1F8C7E0C1DF2D31B1C75D2DBCF6C1A4BABB2E687770>

120229(00)(1~3).indd

01Report_210-4.hwp

<C3D1BCB15FC0CCC8C45FBFECB8AE5FB1B3C0B0C0C75FB9E6C7E D352D32315FC5E4292E687770>



교육 과 학기 술부 고 시 제 호 초 중등교육법 제23조 제2항에 의거하여 초 중등학교 교육과정을 다음과 같이 고시합니다. 2011년 8월 9일 교육과학기술부장관 1. 초 중등학교 교육과정 총론은 별책 1 과 같습니다. 2. 초등학교 교육과정은 별책

시험지 출제 양식

177

제주어 교육자료(중등)-작업.hwp

¸é¸ñ¼Ò½ÄÁö 63È£_³»Áö ÃÖÁ¾

<C3D6C1BE5FBBF5B1B9BEEEBBFDC8B0B0DCBFEFC8A C3D6C1BEBABB292E687770>

초등국어에서 관용표현 지도 방안 연구

6±Ç¸ñÂ÷

과 위 가 오는 경우에는 앞말 받침을 대표음으로 바꾼 [다가페]와 [흐귀 에]가 올바른 발음이 [안자서], [할튼], [업쓰므로], [절믐] 풀이 자음으로 끝나는 말인 앉- 과 핥-, 없-, 젊- 에 각각 모음으로 시작하는 형식형태소인 -아서, -은, -으므로, -음

민주장정-노동운동(분권).indd

untitled


<C0CEBCE2BABB2D33C2F7BCF6C1A420B1B9BFAAC3D1BCAD203130B1C72E687770>

E1-정답및풀이(1~24)ok

<C1B6BCB1B4EBBCBCBDC3B1E2342DC3D6C1BE2E687770>

< BDC3BAB8C1A4B1D4C6C75BC8A3BFDC D2E687770>

최우석.hwp

교사용지도서_쓰기.hwp

時 習 說 ) 5), 원호설( 元 昊 說 ) 6) 등이 있다. 7) 이 가운데 임제설에 동의하는바, 상세한 논의는 황패강의 논의로 미루나 그의 논의에 논거로서 빠져 있는 부분을 보강하여 임제설에 대한 변증( 辨 證 )을 덧붙이고자 한다. 우선, 다음의 인용문을 보도록

cls46-06(심우영).hwp

0429bodo.hwp

伐)이라고 하였는데, 라자(羅字)는 나자(那字)로 쓰기도 하고 야자(耶字)로 쓰기도 한다. 또 서벌(徐伐)이라고도 한다. 세속에서 경자(京字)를 새겨 서벌(徐伐)이라고 한다. 이 때문에 또 사라(斯羅)라고 하기도 하고, 또 사로(斯盧)라고 하기도 한다. 재위 기간은 6

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

진단, 표시・광고법 시행 1년

<C5F0B0E82D313132C8A328C0DBBEF7BFEB292E687770>

<5BC1F8C7E0C1DF2D32B1C75D2DBCF6C1A4BABB2E687770>

< B3E220C7CFB9DDB1E220BFACB1B8BAB8B0EDBCAD20C1A636B1C72E687770>

<BCBAC1F6BCF8B7CA28C3D6C1BE2933C2F72E687770>

歯 PDF

< FB9AEC3A2B0FA5FC3A5C0DA2E687770>

< B5BFBEC6BDC3BEC6BBE E687770>

DBPIA-NURIMEDIA

삼교-1-4.hwp

11민락초신문4호


ÀÌÁÖÈñ.hwp

제1절 조선시대 이전의 교육

사진 24 _ 종루지 전경(서북에서) 사진 25 _ 종루지 남측기단(동에서) 사진 26 _ 종루지 북측기단(서에서) 사진 27 _ 종루지 1차 건물지 초석 적심석 사진 28 _ 종루지 중심 방형적심 유 사진 29 _ 종루지 동측 계단석 <경루지> 위 치 탑지의 남북중심

새만금세미나-1101-이양재.hwp

??

- 2 - 정보 1 北 조평통, 박근혜 후보 대북정책 공약 비난 "이명박 대결정책과 다를 바 없어" 북한은 8일 새누리당 박근혜 대선 후보가 최근 발표한 대북정책 공약을 `전면대결공약'이라고 비난했다. 북한의 대남기구인 조국평화통일위원회 대변인은 이날 조선중앙통신 기자

652

歯 조선일보.PDF

7,560일간의 드라마 여행

<33B1C7C3D6C1BEBABB28BCF6C1A42D E687770>

<BFB5B3B2C7D03231C8A32DC3D6C1BEC6EDC1FDBABB2836BFF93236C0CF292E687770>

<C1DFB1DE2842C7FC292E687770>

216 동북아역사논총 41호 인과 경계공간은 설 자리를 잃고 배제되고 말았다. 본고에서는 근세 대마도에 대한 한국과 일본의 인식을 주로 영토와 경계인 식을 중심으로 고찰하고자 한다. 이 시기 대마도에 대한 한일 양국의 인식을 살펴볼 때는 근대 국민국가적 관점에서 탈피할

96부산연주문화\(김창욱\)

???? 1

무선데이터_요금제의_가격차별화에_관한_연구v4.hwp

03 ¸ñÂ÷

°í¼®ÁÖ Ãâ·Â

09권오설_ok.hwp

목 차 국회 1 월 중 제 개정 법령 대통령령 7 건 ( 제정 -, 개정 7, 폐지 -) 1. 댐건설 및 주변지역지원 등에 관한 법률 시행령 일부개정 1 2. 지방공무원 수당 등에 관한 규정 일부개정 1 3. 경력단절여성등의 경제활동 촉진법 시행령 일부개정 2 4. 대

종사연구자료-이야기방 hwp

정 답 과 해 설 1 (1) 존중하고 배려하는 언어생활 주요 지문 한 번 더 본문 10~12쪽 [예시 답] 상대에게 상처를 주고 한 사 람의 삶을 파괴할 수도 있으며, 사회 전체의 분위기를 해쳐 여러 가지 사회 문제를 발생시킬 수 있다. 04 5

untitled

<34B1C720C0CEB1C7C4A7C7D828C3D6C1BEC6EDC1FD D28BCF6C1A4292E687770>

<C7C1B7A3C2F7C0CCC1EE20B4BABAF1C1EEB4CFBDBA20B7B1C4AA20BBE7B7CA5FBCADB9CEB1B35F28C3D6C1BE292E687770>

160215

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5BFEBC1D8>

hwp

영남학17합본.hwp

580 인물 강순( 康 純 1390(공양왕 2) 1468(예종 즉위년 ) 조선 초기의 명장.본관은 신천( 信 川 ).자는 태초( 太 初 ).시호는 장민( 莊 愍 ).보령현 지내리( 保 寧 縣 池 內 里,지금의 보령시 주포면 보령리)에서 출생하였다.아버지는 통훈대부 판무

<C7CFB4C3B0F8BFF828C0FCC7CFC1F6B8F8C7D1C6EDC1F6292D31302E3128C3D6C1BE292D31302E31342E687770>

Microsoft Word - EELOFQGFZNYO.doc

<C1DFB0B3BBE7B9FD3128B9FDB7C92C20B0B3C1A4B9DDBFB5292E687770>


011°�³²°¡Á·½Å¹®-ÃÖÁ¾¼öÁ¤

ad hwp

300 구보학보 12집. 1),,.,,, TV,,.,,,,,,..,...,....,... (recall). 2) 1) 양웅, 김충현, 김태원, 광고표현 수사법에 따른 이해와 선호 효과: 브랜드 인지도와 의미고정의 영향을 중심으로, 광고학연구 18권 2호, 2007 여름

Transcription:

5 한국경영과학회/대한산업공학회 춘계공동학술대회 5년 5월 일~일, 충북대학교 자기구성지도 기반 방법을 이용한 이상 탐지 Novelty Detecton usng SOM-based Methods 이형주, 조성준 E-mal: {mpatton, zoon}@snu.ac.r 서울대학교 공과대학 산업공학과 서울시 관악구 신림동 산 5-, 5- Abstract Novelty detecton nvolves dentfyng novel patterns. They are not usually avalable durng tranng. Even f they are, the data quantty mbalance leads to a low classfcaton accuracy when a supervsed learnng scheme s employed. Thus, an unsupervsed learnng scheme s often employed gnorng those few novel patterns. In ths paper, we propose two ways to mae use of the few avalable novel patterns. Frst, a scheme to determne local thresholds for the Self Organzng Map boundary s proposed. Second, a modfcaton of the Learnng Vector Quantzaton learnng rule s proposed so that allows one to eep codeboo vectors as far from novel patterns as possble. Epermental results are qute promsng. Keywords Novelty detecton, Novel data, Closed boundary, Codeboo methods, Self-organzng map, Learnng vector quantzaton 적으로 불가능하다. 따라서, 이와 같은 경우에 이상 탐지 방법론을 적용하여 분류 문제를 해결할 수 있 다[]. 즉, 다수 클래스를 정상 클래스로 두고 정 상 데이터의 특성을 학습한 후, 정상 데이터와 매우 다른 특성을 보이는 이상 패턴을 감지하는 작업을 하는 것이다. 이를 기하학적으로 해석하면, 정상 패 턴 주위로 닫힌 경계(closed boundary)를 생성하는 것으로 볼 수 있다[]. 이상 탐지 작업을 위하여 다양한 기법들이 적용 되어 왔다[-]. 대부분의 기법들은 정상 데이터만 을 사용하여 학습하고, 학습이 끝난 후 threshold를 정하거나 모델의 모수를 결정하는 과정에서 이상 데 이터를 사용하게 된다. 몇몇의 예[,,, ]를 제 외하면, 학습 과정에서 이상 데이터가 존재한다고 가정하지 않기 때문이다. 그러나, 많은 경우에, 비록 소수이지만 이상 패턴들이 학습 데이터셋에 존재한 다. 이상 패턴의 수가 이진 분류기를 학습하기에는 부족한 경우라도, 정상 클래스의 경계를 결정하는데 도움을 줄 수 있다. 예를 들어, 기계의 고장 탐지를 생각해 보자. 처음 얼마 동안은 기계가 고장없이 작. 서론 일반적인 이진 분류 문제에서는 두 가지 클래스 를 모두 학습한 후, 새로운 입력 패턴이 주어지면 두 가지 클래스 중 하나로 구분한다. 그러나 실제 문제에서는 한 쪽 클래스에 속하는 패턴의 수가 극 히 적거나 수집이 어려운 경우가 있다. 예를 들어, 지폐 인증 문제에서 위폐 라는 패턴을 사전에 미리 구하여 이를 이용한 분류기를 구축한다는 것은 현실 동할 것이다. 즉, 정상 클래스의 데이터만 존재한다. 그러나, 시간이 지나면 극소수의 이상 데이터, 즉 고장 패턴 도 수집될 것이다. 이 때, 정상 데이터만 으로 시스템을 구축하는 것은 이상 데이터에 포함되 어 있는 유용한 정보를 버리는 결과를 초래할 수 있 다. 이상 탐지 기법의 학습 과정에서 이상 데이터를 활용하면, 더 좋은 분류 성능을 얻을 수 있다는 사 실이 실험을 통하여 입증된 바 있다[,, ]. 정상 클래스를 정의하는 모델이 해당 클래스의 - 5 -

5 한국경영과학회/대한산업공학회 춘계공동학술대회 5년 5월 일~일, 충북대학교 데이터를 되도록 많이 포함하려고 하는 것을 generalzaton, 다른 클래스의 데이터를 가능한 한 적게 포함하려고 하는 것을 specalzaton이라고 한 다[]. Generalzaton과 specalzaton의 균형이 맞 았을 때 좋은 분류 성능을 얻을 수 있다. 많은 이상 탐지 기법들은 하나의 클래스, 즉 정상 클래스만을 고려하기 때문에, generalzaton은 자연스럽게 가능 하지만 specalzaton은 사용자가 제공한 특정한 bas에 따라서만 가능하다. 따라서, 이상 탐지 문제 의 학습과정에서 이상 데이터를 사용하는 것은, generalzaton 뿐만 아니라 specalzaton도 데이 터를 통해 달성하도록 돕는 과정이라고 생각할 수 있다. 본 논문에서는 자기구성지도 (self-organzng map; SOM)를 기반으로 하여, 학습 데이터에 이상 패턴이 극히 소수 존재하는 경우에 적용될 수 있는 두 가지 방법을 제안한다. 첫 번째 방법은 기존의 SOM과 동일하게 코드북 조정이 이루어지지만, threshold 결정 과정에서 두 클래스를 모두 고려할 수 있도록 개선한 SOM wth local thresholds(som-l)이다. 두 번째 방법은, 이상 데 이터를 코드북 조정 과정에 반영할 수 있는 새로운 이상 탐지 기법인 one-class LVQ(OneLVQ)이다. 이 방법에서는, 정상 패턴을 둘러싸는 경계를 정하 는 과정에서 그 영역이 이상 패턴을 포함하지 않도 록 한다. 학습이 끝나면, SOM-L과 마찬가지로 두 클래스의 데이터를 바탕으로 threshold를 결정하게 된다. 궁극적으로는 정상 데이터만을 사용했을 때보 다 더 정확하고 정밀한 경계를 생성할 수 있을 것으 로 기대된다. 다음 절에서는 제안된 두 가지 방법, SOM-L과 OneLVQ에 대하여 설명한다. 절에서는 위의 방법 들을 인공 데이터와 실제 데이터에 적용하여 다른 이상 탐지 기법과 비교한다. 절에서 결론을 제시하 고 추후 과제에 대하여 토의한다.. 제안 방법. 이상 탐지를 위한 자기구성지도 학습 데이터 X= 가 주어져 있다고 가정 해 보자. 여기에서 y { } N = d 는 입력 패턴이고 { +, } 는 클래스 레이블이다. 정상 클래스와 이상 클래스는 각각 = { y =+} O { y = } = T 와 로 표기한다. 일반적으로, 정상 패턴 의 수가 이상 패턴의 수보다 훨씬 많다. 즉, ( T >> O ). 기존의 SOM[5]에서는 정상 패턴만 학 습에 사용된다. SOM은 K ( << N) 개의 코드북을 생 성하여 정상 데이터를 설명하게 된다. 코드북 조정이 끝나면, 입력 패턴 의 코드북 벡터 m() 와 각 코드북 가 다음과 같이 정의된다. m( ) = w, S w 의 Vorono regon f w < w, l. () l S 테스트 패턴 z 가 주어지면, z 와 m (z) 사이의 유클리드 거리 e(z) 가 어떤 threshold보다 크면 이 상으로 분류하고, 그렇지 않으면 정상으로 분류하게 된다. 기존의 SOM은 하나의 전역적(global) threshold를 사용하기 때문에, 이것을 SOM-G라고 부르기로 한다. z 로부터 어느 코드북이 가장 가까 운지에 관계없이 단 하나의 threshold를 기준으로 정상과 이상을 판정한다. 이상으로 판정될 정상 패 턴의 비율, θ를 미리 정하고, 이에 따라 threshold를 결정한다. 즉, z ) = z m( z), () e( r N 여기에서, I{ e( ) > r } = θ T ndcator 함수이다. 이고, I{ } 는. 지역적(local) thresholds의 결정 입력 패턴들이 밀집된 영역에 위치한 코드북이 - -

5 한국경영과학회/대한산업공학회 춘계공동학술대회 5년 5월 일~일, 충북대학교 있는 반면, 드물게(sparsely) 분포된 입력 패턴들의 영역에 할당되는 코드북도 있다. ()와 같이 모든 코 드북들에 대하여 동일한 threshold를 취하게 되면, 입력 패턴의 분포에 비해 너무 넓은 영역을 책임지 게 되거나 너무 많은 정상 패턴을 경계 바깥에 두는 일이 생길 수 있다. 따라서, 코드북마다 각기 다른 threshold를 설정하는 것이 바람직하다. 여기에서는 support vector data descrpton(svdd) []와 유사한 threshold 결정 방법을 제안한다. 코드북 조정이 끝나면, 각 패턴은 해당 Vorono 영역 역은 코드북 벡터 S 에 포함되고, 각 Vorono 영 w 를 가진다. 여기에서는 최소한 의 반지름을 가지면서, 되도록이면 많은 정상 패턴 을 둘러싸고 가능한 한 이상 패턴은 포함하지 않는, w 를 중심으로 하는 hypersphere를 Vorono 영역 마다 구하게 된다. 그러면 모든 Vorono 영역 S, 에 대하여, 다음의 최적화 문제를 생각할 수 있다. mn s.t. 여기에서 E ( r) = r + C + C r r ε, ξ,. w w ε ξ, () y= y = + ε, ξ, f f T O = T S 이고 O O S T () = 이다. 반지 름이 큰 hypersphere를 그리게 되면, 많은 정상 패 턴을 포함할 수 있지만, 영역이 넓어진만큼 false acceptance의 가능성이 높아진다. 반대로, 반지름이 너무 작으면, 이상 패턴을 받아들이지 않을 수 있지 만 정상 패턴도 너무 많이 기각할 수 있다. 그래서, 양의 상수 C 과 C 를 도입하여 반지름과 두 오류 사이의 trade-off를 고려하게 된다. ()의 해 전수 조사(ehaustve search)를 통해서, * r 는 T 회의 계산만으로 구할 수 있다. 결국, 밀집된 영역에는 작 은 threshold를, 넓게 퍼져 있는 영역에는 큰 threshold를 찾게 된다. * ( r ) e( ) =, where u= arg mne( e( )) (5) u T 각 코드북의 최적 threshold는 독립적으로 구할 수 있다. 테스트 패턴 z 는, ()을 만족하면 정상으로 ( z T ) 판정되고, 그렇지 않으면 이상으로( z O ) 판정된다. * z w q ( r q ) () SOM-L에서는 기존의 SOM을 학습하지만, 새로 운 테스트 패턴을 분류할 때에는 ()과 같은 지역적 thresholds가 사용된다.. 수정된 학습 규칙 여기에서 제안하는 OneLVQ는 기존 LVQ의 학 습 규칙을 수정한 것이다. LVQ는 모든 클래스에 코 드북을 할당하고, 패턴이 주어졌을 때에는 가장 가 까운 코드북이 속한 클래스로 분류한다. 반면, OneLVQ는 단 하나의 클래스, 즉 정상 클래스에만 코드북을 할당한다. 그런 이유로 one-class LVQ라 고 부르게 되었다. 학습 데이터셋에 이상 패턴이 포함되어 있을 때, 수정된 오류 함수는 다음과 같이 쓸 수 있다. E= N = N y m( ) y T p( ) p( y)ddy m ( ) w O w. () 이 오류 함수를 최소화하면 정상 패턴에는 최대한 가깝게, 이상 패턴에는 최대한 멀게 코드북이 위치 할 것이다. 따라서, 기존 LVQ의 학습 규칙과는 다 른 학습 규칙이 나오게 된다. 새로운 입력 패턴 가 주어지면, w w w w S + η ( w ) T. (8) η( w ) O 이 규칙에 따르면, 가 Vorono 영역 않으면, S 에 속하지 w 의 위치는 바뀌지 않는다. 반대로, 주어 진 입력 패턴이 S 에 속할 때에는, 가 정상 클래 스에 속하면 코드북 w 가 쪽으로 이동하고, - -

5 한국경영과학회/대한산업공학회 춘계공동학술대회 5년 5월 일~일, 충북대학교 가 이상 클래스에 속하면 w 가 의 반대쪽으로 이 동한다. 다시 말해서, 정상 패턴들은 코드북 벡터를 당기고, 이상 패턴들은 코드북 벡터를 밀어내게 된다. OneLVQ는 기존의 SOM을 바탕으로 초기화되 고, (8)의 학습 규칙에 따라 학습된다. 분류 과정에 서는 SOM-L과 마찬가지로 ()의 지역적 threshold 를 사용하게 된다.. 실험 결과 모수는 실험적으로 결정되었다. SOM-G는 정상 영 역 바깥에 있는 O, O 영역은 이상으로 구분해 내 었지만, 정상 영역 내부에 있는 O은 구분해내지 못했다. 그 이유는 이상 영역인 O을 학습에서 사 용할 수 없었기 때문이다. SOM-L의 경우에는 O 영역을 정상으로 구분하였지만, 정상 영역의 많은 부분을 이상으로 오분류하는 문제점을 보였다. 한편, OneLVQ는 O, O, and O를 모두 이상으로 분류 하여, 코드북 조정 과정에서 이상 데이터를 활용하 는 것이 그렇지 않은 것보다 더 바람직함을 보였다.. 인공 데이터셋 먼저, SOM-L과 OneLVQ의 이상 탐지 성능을 직관적으로 보여주기 위하여 간단한 차원 인공 데 이터셋에 대하여 실험을 수행하였다. 말굽 형태의 데이터를 개의 이상 탐지 기법, SOM-G, SOM-L, OneLVQ로 학습하였다. 그 분류 경계들이 [그림 ] 에 표시되어 있다. 정상과 이상 영역의 실제 경계는 각각 실선과 점선으로 표시되어 있다. 이상 탐지 문 제에서의 중요한 가정은 학습 데이터에 주어진 이상 패턴의 영역 이외에서도 이상 패턴들이 나타날 수 있다는 것이다. 따라서, O 영역에서의 이상 패턴들 은 학습 데이터에 주어져 있지만, O와 O 영역에 서는 학습 데이터에는 이상 패턴이 주어져 있지 않 고, 테스트 단계에서만 이상 패턴이 발생한다고 가 정했다. 각 모델은 밝게 표시된 부분을 정상으로, 어둡 게 표시된 부분을 이상으로 분류하였다. 모델들의. ätsch tsch의 벤치마크 데이터셋 []에서 쓰인 벤치마크 데이터셋 중에서 Banana, Breast Cancer, Dabetes, German, Heart, Ttanc의 개 데이터셋에 대하여 실험하였다. http://da.frst.fraunhofer.de/~raetsch/에서 위의 데이터셋들을 얻을 수 있다. 각 dataset은 학습과 테스트셋 각각 개씩의 splt으로 이루어져 있고, 이 실험에서는 각 데이터마다 개씩의 splts를 사 용하였다. 위의 개 데이터셋은 모두 이진 분류 문 제를 위한 것이기 때문에, 이상 탐지 방법을 사용하 기 위해 데이터를 변형시켰다. 우선, 다수 클래스를 정상 클래스로, 소수 클래스를 이상 클래스로 정의 하였다. 그리고, 이상 데이터가 드문 경우를 가정하 여, 이상 데이터 중에서 랜덤 샘플링하여 학습 데이 터에서 이상 패턴의 수가 정상 패턴의 %가 되도 록 하였다. (a) SOM-G (b) SOM-L (c) One-class LVQ [그림 ] 말굽 형태의 데이터에 대한 개 이상 탐지 기법의 분류 경계 - -

5 한국경영과학회/대한산업공학회 춘계공동학술대회 5년 5월 일~일, 충북대학교 크게 다르 지 않았 다. 자기 연상 신경 망 (aut 분류 성능 지표로서 area under recever operatng characterstc (AUOC)를 사용하였다. 이 값은 false rejecton rate(f)을 %에서 5% 까지 변화시키면서 true rejecton rate(t)을 그 린 OC 곡선으로부터 계산되었다. [표 ]은 개 splts에 대한 반복 실험 후, AUOC의 평균값을 정 리한 것이다. 개의 데이터셋 중 Banana를 제외한 5개 에서 OneLVQ가 가장 높은 AUOC를 보인다. 그 중에서도, Dabetes, German, and Ttanc에 대 하여는 유의수준 5%에서 통계적으로 유의한 차이로 다른 모델들보다 좋은 AUOC 값을 가졌다. SOM- L은 대부분의 데이터에서 OneLVQ에 이어 두 번째 로 높은 성능을 보였다. OneLVQ와 SOM-L의 차이 점은, OneLVQ는 코드북 조정 과정에서 이상 클래 스를 반영시켰고 SOM-L은 그렇지 않았다는 점이다. o-assocatve neural networ; AANN)은 대체로 낮은 AUOC를 나타내었다.. 타자 패턴 데이터셋 실제 문제로서, 이상 탐지 기법들을 타자 패턴 데이터셋에 적용하였다. 이 문제의 목적은 컴퓨터 사용자의 암호 타자 패턴의 특성을 파악하여 잠재적 인 침입자의 타자 패턴을 감지해 내는 것으로, 궁극 적으로는 컴퓨터 시스템을 침입으로부터 보호하는 것이다. 명의 사용자가 각자 자신의 암호를 타자 해서 정상 클래스의 데이터를 생성하고, 5명의 침 입자 가 명 사용자의 암호를 타자해서 가상의 침 입 상황의 이상 데이터를 생성하였다. 그래서, 명 의 사용자에 대하여 개의 데이터셋이 생성되었다. 각 사용자의 암호에 대하여, ~88개의 정상 학습 패턴과 5개의 정상 테스트 패턴, 그리고 5개의 따라서, 이상 데이터를 학습에 사용한 것이 이상 패턴이 수집되었다. 이 데이터셋에 대한 더 자 OneLVQ와 SOM-L의 성능 차이의 원인이라고 생각 해 볼 수 있다. 한편, SOM-L은 SOM-G보다 대체로 높은 성능을 보이는 것으로 보아 제안된 threshold 결정 방법이 효과가 있는 것으로 해석할 수 있다. 세한 설명은 []에 기술되어 있다. 정상 학습 패턴 중에서 5개, 이상 패턴 중에서 5개를 랜덤 샘플링 하여 학습 데이터셋을 구성하였다. 그리고, 5개의 정상 테스트 패턴과 나머지 개의 이상 패턴으로 그리고, one-class support vector 테스트 데이터셋이 구성되었다. 개의 서로 다른 machne(onesvl)과 SVDD의 AUOC는 정규분포 학습 및 테스트 데이터셋이 랜덤 샘플링을 통하여 추정 방법(Gauss)과 비슷한 것으로 보아, 두 구성되었다. 그리고, 주성분 분석을 통하여 8%의 support vector 기반 방법들의 분류 경계는 varance를 설명하도록 변수의 수를 대략 반 정도로 hypersphere와 거의 동일한 것으로 추측할 수 있다. Parzen 분포 추정 방법은 차원인 Banana에서는 감소시켰다. [표 ]에 개 이상 탐지 기법들의 개 암호 좋은 성능을 보였지만, 다른 데이터셋에서는 Gauss 와 에 대한 false rejecton rates(f)와 false acc [표 ] 개 벤치마크 데이터셋에 대한 AUOC (%) Dataset D OneLV SOM- OneSV Gauss Parzen SOM-L AANN m Q G M SVDD Banana.5.*.85....8. Breastcancer...8..8 5.8.. Dabetes 8 5.. 8.*.. 5.. 5.8 German..5.8*..8. 8..5 Heart.. 5.*.8..8.8. Ttanc 8. 8. 8.5 8.55 8.5 8...8 *) Statstcally sgnfcantly better than all other methods for α=.5 - - epta nce rate s(f A) 의 평균 값이 표시 되어

5 한국경영과학회/대한산업공학회 춘계공동학술대회 5년 5월 일~일, 충북대학교 있다. 각 모델의 모수들은 cross-valdaton을 통해 결정되었다. SOM-G, OneSVM, SVDD와 비교했을 때, OneLVQ는 평균적으로 훨씬 낮은 F과 약간 높은 을 보였다. 한편, SOM-L과 비교했을 때에 는 거의 같은 F과 약간 낮은 을 보였다. Parzen과 AANN은 실제 클래스 레이블에 관계없이 거의 모든 패턴을 이상으로 분류하였다. Parzen의 경우에 데이터가 고차원이면서 패턴의 수가 적을 때 에는 분포 추정이 어렵다는 점이 잘 알려져 있다. AANN은 아주 적은 수의 데이터로 많은 수의 연결 가중치를 추정해야 했기 때문에, overfttng을 피할 수 없었다. OneLVQ는 단 55개의 학습 데이터로 좋 은 성능을 보여, 실제 문제에 대한 적용성을 나타내 었다. 한 가지 강조할 점은 위의 이상 탐지 기법들 중 에서, OneLVQ와 SVDD만이 학습 과정에서 이상 데 이터를 활용한다는 점이다. 그러한 점만 제외하면, OneLVQ는 SOM 기반 기법들과 유사하고, SVDD는 OneSVM과 어느 정도 유사성을 보인다. OneLVQ와 SVDD가 각각 유사한 기법들보다 높은 성능을 보인 다는 점을 고려하면, 학습 과정에서 이상 클래스의 정보를 활용하는 것이 이상 탐지 성능을 향상시킨다 고 할 수 있다. 가 해결할 수 있었다. 또한, 개의 벤치마크 데이터 셋과 타자 패턴 데이터 셋에 적용했을 때, 제안된 두 방법 모두 이상 탐지 기법으로서 경쟁력을 보였 다. 특히, OneLVQ는 대부분의 문제에서 다른 널리 쓰이는 이상 탐지 기법들보다 좋은 성능을 나타내었 다.. 결론 및 토의 이 논문은 이상 탐지 문제에서 이상 데이터가 존재할 때 그것을 활용하는 방법에 초점을 두고 있 다. 코드북 기반 기법의 이상 탐지 성능을 향상시키 기 위하여 SOM-L과 OneLVQ 방법을 제안하였다. 우선, 두 가지 오류(F, )의 trade-off를 고려 하는 threshold 결정 방법을 제안하였다. 그리고, OneLVQ 방법에서는, 기존 LVQ의 오류 함수와 학 습 규칙을 수정하여, 정상 데이터 뿐만 아니라 이상 데이터도 학습에 활용할 수 있도록 하였다. 차원 합성 데이터로 실험한 결과, 정상 패턴만 을 고려할 때 발생할 수 있는 문제점들을 OneLVQ - -

5 한국경영과학회/대한산업공학회 춘계공동학술대회 5년 5월 일~일, 충북대학교 - 5 - [표 ] 개 암호에 대한 F과 의 평균값 (%) Parzen OneLVQ SOM-L SOM-G AANN OneSVM SVDD Password F F F F F F F jdg..5.. 8.. 5.. 8. 8.. 8.5 8.. ahrfus88 8. 8 8...... 8..... anehwsu.. 8.... 5. 8..8 5... 8 8. autumnma n.8... 8.. beaupowe 8..... 5.. 5. 8..... 5 c.s./sy 8. 8... 5. 5.. 8 dhfpql. 85...... 8. 8...... 8.5 drdhfmw.... 5.. 8 8. 5.8 5. 5...5. 8 8. dlfjs wp 8.....8....5....5 dltjdgml...8. 8. 5.....5 drzzle 8. 8.8...... 8.. 8.8..5 dusru 8...... 5. 8. 5. love... 5.......... love wjd.... 8.... 5. 8. 8.5. 8. loves. 8. 5.. 8.5.. 5. 58......8 manse 8.... 5 5.. 5. 8... 5... rhdwo....... 8... 8.... rla sua... 5....5 5.. 8.... tjddmswjd...8.... 5..5.. 5.. tmdwnsl 8..8 5.. 5. 8.. 58.. 5..8. 8. yuhwa..8 5.... 8. Average 8. 8..5 5...8.. 5... 8... 8

5 한국경영과학회/대한산업공학회 춘계공동학술대회 5년 5월 일~일, 충북대학교 몇 가지 한계와 추후 과제를 지적할 수 있다. 첫째, 학습에 중요한 모수들인 K 와 C, ) 의 적당 ( C 한 값을 결정하는 것이 어렵다. 현재로서는 crossvaldaton 등을 통하여 실험적으로 정할 수밖에 없 는데, 한 쪽 클래스의 데이터가 부족한 상황에서 최 선의 방법이라고는 할 수 없다. 둘째, 더 효율적인 초기화 방법이 필요하다. 셋째, OneLVQ가 효과적으 로 작동하기 위해서 얼마나 많은 이상 패턴이 필요 한지에 대한 연구도 수행되어야 한다. 참고문헌 [] Bshop, C., Novelty Detecton and Neural Networ Valdaton, In Proceedngs of IEE Conference on Vson and Image Sgnal Processng (), pp.-. [] Frosn, A., Gor, M., and Pram, P., A Neural Networ-based Model for Paper Currency ecognton and Verfcaton, IEEE Transactons on Neural Networs, Vol., No. (), pp.8-. [] Gor M., Lastrucc, L., and Soda, G., Autoassocator-based Models for Speaer Verfcaton, Pattern ecognton Letters, Vol. (5), pp.-5. [] Japowcz, N., Supervsed versus Unsupervsed Bnary-Learnng by Feedforward Neural Networs, Machne Learnng, Vol., No.- (), pp.-. [5] Kohonen, T., Self Organzng Maps, Sprnger, Berln,. [] Lauer, M., A Mture Approach to Novelty Detecton usng Tranng Data wth Outlers, In L. De aedt, P. Flach (Eds), Proceedngs of the th European Conference on Machne Learnng (), pp.-. [] Marou, M., and Sngh, S., Novelty Detecton: A evew - Part : Statstcal Approaches, Sgnal Processng, Vol. 8 (), pp.8-. [8] Marou, M., and Sngh, S., Novelty Detecton: A evew - Part : Neural Networ based Approaches, Sgnal Processng, Vol.8, (), pp.-5. [] Marsland, S., Novelty Detecton n Learnng Systems, Neural Computng Surveys, Vol. (), pp.5-5. [] ätsch, G.., Onoda, T., and Muller, K.., Soft margns for AdaBoost, Machne Learnng, Vol., No. (), pp.8-. [] Schölopf, B., Platt, J.C., Shawe-Taylor, J., Smola, A.J., and Wllamson,.C., Estmatng the Support of a Hgh- Dmensonal Dstrbuton, Neural Computaton, Vol. (), pp.-. [] Ta, D.M.J., and Dun,.P.W., Support Vector Data Descrpton, Machne Learnng, Vol.5 (), pp.5-. [] Yu, E., and Cho, S., Keystroe Dynamcs Identty Verfcaton - Its Problems and Practcal Solutons, Computer and Securty, Vol., No.5 (), pp.8-. - -