DBPIA-NURIMEDIA

Similar documents
DBPIA-NURIMEDIA

# ¸®´õ½ÊÆ÷Ä¿½º_07-2

V28.

DBPIA-NURIMEDIA

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

105È£4fš

¹é¼Ł sm0229-1

90°íÀº¿µ(½ÉÆ÷)


Inhalt01_Teil1

184최종

07Á¤Ã¥¸®Æ÷Æ®-pdf¿ë

200707Á¤Ã¥¸®Æ÷Æ®_³»Áö

DBPIA-NURIMEDIA

Microsoft PowerPoint - WordNet(수업발표자료) 이인근

KD hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

untitled

하나로카탈록

08년요람001~016

08SW

歯_ _ 2001년도 회원사명단.doc

µðÇÃÇ¥Áö±¤°í´Ü¸é

자궁내막증 진단과 추적에서의 혈액 표지자의 유용성

정보기술응용학회 발표

< 목 차 > 제1 장. 조사 개요 1 1. 조사의 목적 2 2. 조사의 설계 2 3. 조사항목 2 4. 조사 진행 3 5. 조사 응답 현황 4 제2 장. 조사 결과 분석 5 1. 결제수단 비중 6 2. 신용카드 수수료 인하율 7 3. 우대수수료 적용 상한선 8 3-1

177

204

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

<BACFC7D1B3F3BEF7B5BFC7E22D3133B1C733C8A BFEB2E687770>


example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

Ä¡¿ì³»ÁöÃÖÁ¾

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion


?

?

EA0015: 컴파일러

<313220BDC9C1D82DB0CBBBF620C5B0BFF6B5E520C8AEC0E5C0BB20C0CCBFEBC7D120BFC2C5E7B7CEC1F620C0DAB5BF20BBFDBCBA20BDC3BDBAC5DB20B0B3B9DF2E687770>

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

DBPIA-NURIMEDIA

핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

12권2호내지합침

칠레01-28p 6월27일3차

b77¹¼úÁ¤º¸š

Journal of the Korean Society of Mechanical Engineers 기 계 저 널 11 ISSN Vol. 51, No. 11 November 2011 CONTENTS 인터뷰 무한내마모연

PowerPoint Presentation

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

Microsoft Word - USW 英語課清單 Fall 2009

#유한표지F

문헌분류이론 13 주차 ( 김유영 / ) p. 2 {0/1990/NU/S+ +4/ 년 /NN/S}; 10월 {6/10/NU/S+8/ 월 /UM/S}; 팀 {10/ 팀 /NN/S}; 버너스 {12/ 버너스 /NR/S}; 리에 {16/ 리에 /NR/S}; 의

' ' ( ) 2 60 ' ' ( ) 50% 21% 95 ( ) 43% 13% 10 5 ( ) 24% 9% 11 5 ( ) 20%6% ' ' ' ' ' ' 1965

2018 학년도입학전형지원및성적현황 정시 ( 일반전형 ) 의수능성적은이해를돕기위하여 3 과목백분위성적을합산한점수 ( 가산점포함 ) 임 ( 실제반영시에는합산점수 ( 가산점포함 ) 에 2/3 을곱하여 200 점으로반영함 ) 지원학과모집시기전형명모집인원지원인원지원율최고성적최

12¿ù 1~30

¼Ł¿ï¸ðµåÃÖÁ¾

패션 전문가 293명 대상 앙케트+전문기자단 선정 Fashionbiz CEO Managing Director Creative Director Independent Designer

제목을 입력하십시오

<BED6C7C3BCD2BDBA5F4B5350BBFDBBEABCBA31C0E5312D32302E70312E504446>

지속가능경영보고서도큐_전체

DBPIA-NURIMEDIA

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,


THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

핵 심 교 양 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 교양학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (

4) 5) 6) 7)

국어 순화의 역사와 전망

IT현황리포트 내지 완

Microsoft PowerPoint - MetadataandOntology.ppt

, ( ) * 1) *** *** (KCGS) 2003, 2004 (CGI),. (+),.,,,.,. (endogeneity) (reverse causality),.,,,. I ( ) *. ** ***

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

Untitled-1

¿ì¾ç-ÃÖÁ¾

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

04김호걸(39~50)ok

고3-02_비문학_2_사회-해설.hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

Microsoft Word WP_8.Geospatial Ontology_2010_3.doc

ø©º∫∞˙ ∞Êøµ0

= ``...(2011), , (.)''


인문사회과학기술융합학회

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

논단 : 제조업 고부가가치화를 통한 산업 경쟁력 강화방안 입지동향 정책동향 <그림 1> ICT융합 시장 전망 , 년 2015년 2020년 <세계 ICT융합 시장(조 달러)> 2010년 2015년 2020년 <국내 ICT

03-최신데이터

????좔??

07변성우_ok.hwp

Microsoft Word - 황미녕

歯데일리 PDF

< B3E2C1B6BBE7BAD0BCAEBAB8B0EDBCAD2DBFCFBCBABABB28BEF6C0CDC3B5292E687770>

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jan.; 26(1),

0125_ 워크샵 발표자료_완성.key

Windows 8에서 BioStar 1 설치하기

09오충원(613~623)

인권1~2부73p

목원 한국화- 북경전을 준비하며 지난해부터 시작 된 한국의 목원대학교 한국화 전공의 해외미술체험은 제자와 스승의 동행 속에서 미술가로 성장하는 학생들의 지식에 샘을 채워주는 장학사업으로 진행되고 있으며, 한국의 우수한 창작인력 양성을 위해, 배움을 서로 나누는 스승들의

슬라이드 1

A sudy on realizaion of speech and speaker recogniion sysem based on feedback of recogniion value

R을 이용한 텍스트 감정분석

DDS

Transcription:

분야시소러스를이용한코아온톨로지확장 황금하, 신지애 *, 최기선한국과학기술원전산학과 / 시맨틱웹첨단연구센터 * 한국정보통신대학교 hgh@world.kais.ac.kr, * jiae@icu.ac.kr, kschoi@cs.kais.ac.kr Enriching Core Onology wih Domain Thesaurus Jin-Xia Huang, Ji-Ae Shin *, Key-Sun Choi Compuer Science Division/Semanic Web Research Cener, Korea Advanced Insiue of Science and Technology * Informaion and Communicaions Universiy hgh@world.kais.ac.kr, * jiae@icu.ac.kr, kschoi@cs.kais.ac.kr 요 약 본논문에서는분야시소러스의개념과관계를이용하여코아온톨로지를확장하는방법을제안한다. 분야시소러스의개념을코아온톨로지의상위개념으로분류하고, 시소러스에서의광의어 (Broader Term: BT)- 협의어 (Narrower Term: NT) 및광의어 - 관련어 (Relaed Term: RT) 들사이의관계는코아온톨로지에서정의한의미관계로분류한다. 유사도와빈도수기반의방법으로개념분류를수행하였고, 관계분류에서는두가지방법을적용하였는데, (i) 훈련데이터가부족한경우를위하여규칙기반방법으로 BT-NT/RT 관계를 isa 와기타관계 (non-isa 관계 ) 로분류하고, 패턴기반방법으로 non-isa 관계를온톨로지를위한의미관계로분류한다. (ii) 훈련데이터를충분히가지고있을경우, 최대엔트로피모델 (MEM) 을적용한분류방법을사용하되, knn 방법으로훈련데이터를정제하였다. 본논문에서제안한방법으로시스템을구축하였고, 실험결과, 시스템성능이사람에의한판단결과와비교가능한수준이었다. 1. 소개 온톨로지는해당분야개념, 인스턴스, 관계, 추론규칙인공리 (axiom) 등정보를제공한다. 시소러스를포함한기존의지식베이스도개념, 인스턴스, 관계등의미정보를부분적으로포함하고있다. 때문에온톨로지구축에있어서시소러스는자주이용되고있다. 그러나, 시소러스의계층 (hierarchy) 관계에는상위어와하위어간의 isa 관계와부분 - 전체관계가포함되어있을뿐만아니라 BT-NT 간, 또는 BT-RT 간의다양한관계도포함되어있으며, 이런관계가구체적으로어떤의미관계인지는시소러스에서명기하지않고있다. 이런문제는분야시소러스에서더욱심각한데, 예를들면, 분야시소러스 Inspec 의계층관계에는 isa 와기타비 - 상하위 (non-axonomic) 관계가혼재하여있다 ( 그림 1). 엄격한상하위계층구조 (axonomic hierarchy) 와 구별하기위하여, 이런분야시소러스의계층구조를우리는 BT-NT/RT 계층구조 (BT-NT/RT hierarchy) 라고부르기로한다. 그림 1. 분야시소러스 Inspec 에서의 BT-NT/RT 관계로구성된계층구조 분야시소러스를이용하여온톨로지를구축하기위해서는, BT-NT/RT 계층구조는상하위계층구조로변환되어야하고, BT-NT/RT 관계는의미관계로분류되어야 - 31 -

한다. 그림 2 에서, A 부분이나타내고있는분야시소러스에서의 BT-NT/RT 관계는, B 부분이보여주는바와같이, 온톨로지의미관계로분류된다 ( 관계분류 ). 관계분류후의미관계에서의 NT 가상위어없이최상위개념으로남는것을방지하기위하여, B 부분의 BT 와 NT/RT 는 C 와 D 부분에서보여주는바와같이, 코아온톨로지의상위개념 ( 의미카테고리 ) 으로분류된다 ( 개념분류 ). 이런개념및관계분류를통하여시소러스에서의 BT-NT/RT 계층구조는온톨로지를위한상하위계층구조로변환된다. 이를위하여개념분류가필요하고, 그분류목표카테고리로는시소러스의자체상위개념이아닌온톨로지의상위개념을이용한다. 여기에서온톨로지상위개념을이용하는원인은, 기존분야시소러스는일반적으로목표분야온톨로지와완전히일치한분야가아니거나, 규모가아주작은시소러스로서, 이의상위개념이목표온톨로지가표현하고자하는분야를대표하기에역부족인경우가많기때문이다. 이런원인으로인하여, 분야온톨로지의상위개념과의미관계를우선정의하여야하고, 다음시소러스의개념을온톨로지의상위개념으로분류하는작업이필요하게된다. 그림 2. 시소러스에대한관계분류 (A B) 및개념분류 (B C, D) 를통한온톨로지확장 본논문에서사용한 IT 코아온톨로지는 CoreNe에서 [2] IT분야와관련된 200개의상위개념으로구성된개념분류체계와, IT분야를위해제안된 185개의의미관계로구성되어있다. 즉 IT 코아온톨로지는, 상위개념과의미관계가이미정의된작은규모의분야핵심온톨로지이다. 이코아온톨로지를확장하기위하여, 분야시소러스 Inspec을주로사용하였다. 개념분류를위해코아온톨로지의상위개념을의미카테고리로간주하고, Inspec의개념과용어들을개념분류를통하여의미카테고리로분류하였다. 이러한개념분류에서는유사도및통계기반방법을이용하였다. 관계분류에서는 Inspec 시소러스의 BT-NT/RT관계 를코아온톨로지의특정한의미관계로분류하였다. 이를위하여훈련데이터부재시를위한비지도식방법과, 충분한훈련데이터를확보한후의지도식분류방법을제안하였다. 비지도식관계분류에서는우선 BT-NT/RT 관계를개념어휘정보를이용한규칙기반방법으로 isa 와 non-isa 관계로분류한다. 다음, non-isa 관계를패턴기반방법으로의미관계로분류한다. 지도식방법에서는이미분류된의미관계트리플 (riple) 을훈련데이터로사용하였고, 최대엔트로피모델 (MEM) 을이용하여 BT-NT/RT 관계를 isa 관계를포함한의미관계로분류하였다. 훈련데이터에서노이즈를제거하기위하여 knn 기반접근법을사용하였다. 2. 관련연구 지난몇년간기존지식베이스를이용한온톨로지구축방법에대한연구가꾸준히진행되어왔다. 시소러스와같은기존지식베이스는해당분야에서자주사용되는전문용어및개념정보를가지고있을뿐만아니라, BT와 NT/RT간의계층관계정보도제공한다. 이들중일부지식베이스는추론에사용되는제약조건 (consrain) 정보를제공하기도한다 [5]. 그러나기존의지식베이스에서는대개온톨로지구축에필요한정보를부분적으로만제공하고있다. 때문에분야시소러스를온톨로지구축에서활용하기위한연구에대한필요성이제기되어왔다 [12, 13]. 지식베이스로온톨로지를구축하는연구에서, 어떤이들은기존지식베이스를온톨로지포맷으로변환하는데주력하고있다 [6]. 이런연구에서는새로운온톨로지지식의생성이없이, 기존의시소러스포맷을 RDF나 OWL과같은온톨로지표현들로변환한다. 이런연구에서는각각의시소러스표현방식에대하여조사연구후, 패턴기반이나규칙기반방법으로온톨로지로변환한다. 또일부연구에서는기존지식베이스로부터유용한정보를추출하여온톨로지지식으로변환해준다 [5, 7-8, 10]. 이런연구에서는기존의논리프로그램으로부터제약조건을추출하여온톨로지지식으로변환해주고있다. 기타연구에서는관계정보를확장함으로써시소러스를온톨로지로리모델하고있다 [1, 8-9]. 이중일부는 [11, 7] 격관계 (case relaion) 와의미관계를시소러스의상하위계층구조에추가함으로시소러스를온톨로지로확장한다. 격관계는기존기계번역시스템과사전으로부터얻어지며, 의미관계는말뭉치의상관관계정보를이용하여획득한다. 다른연구 [1, 9] 에서는시소러스의 BT-NT/RT관계를사람에의하여정의한규칙이나패턴을이용하여의미관계로분류하기도한다. 관계분류를통하여시소러스로온톨로지를구축하는면에서, [9, 1] 의연구는본논문과비슷하다고볼수있다. 그러나본과제의연구대상인 IT 분야와 Inspec 시소러스는기존연구보다훨씬넓은분야에대한연구 - 32 -

로, 패턴을수동적으로정의하기엔어려움이따른다. 실제로본논문에서는 180 여개의의미관계가정의되어있다. 이런문제를해결하기위하여본논문에서는규칙과패턴기반관계분류외에지도식관계분류방법을제안하였으며, 실험에서좋은성능을볼수있었다. 본과제가기존연구와의또다른차이는, 본논문에서는관계분류뿐만아니라, 개념분류도수행함으로, 분야시소러스의 BT-NT/RT 계층을분야온톨로지를위한상하위계층으로변환시키고있다는점이다. 3. IT 코아온톨로지와분야시소러스 INSPEC 본논문에서는 IT 코아온톨로지를확장대상온톨로지로설정하였다. IT 코아온톨로지는 IT분야상위분류체계 (op-level axonomy) 와 185개의의미관계들로구성되었다. IT분야상위분류체계는 200개의 IT분야최상위개념들과이들개념사이의상하위계층관계를포함하고있으며, 이분류체계는일반분야시소러스인 CoreNe의일부이기도한데, CoreNe에는 2,900여개의개념 ( 카테고리 ) 와 50,000여개의한국어상용어휘를포함하고있다 [2]. IT분야최상위개념은 CoreNe 개념중 IT 분야에서보편적으로자주사용되는개념을선택한것인데, 이들개념이해당분야에서자주사용되는정도를보편성 (populariy) 으로설명한다면, CoreNe개념 통신기기 는 IT분야에서도보편성이높은개념이기에 IT분야상위개념으로선택되었고, 반면에, " 의약품 은 IT분야에서의보편성이낮기에 IT 분야상위분류체계에서배제되었다. 그림 3은일반분야시소러스인 CoreNe의일부로서, CoreNe 개념 인공물 의하위트리구조를나타내고있다. 그림에서회색노드는 CoreNe 개념으로서 IT분야분류체계에도선택된개념이고, 흰색노드는 CoreNe개념이지만 IT분야분류체계에서는선택되지않은개념이다. 의되어있다. 온톨로지확장에사용될분야시소러스로는 Inspec 시소러스 [3] 를선정하였다. Inspec 시소러스는컴퓨팅, 제어공학, 전자전기공학, 정보기술및물리학등약 14개분야를어우르고있다. Inspec은 8,300개이상의용어와 15,901개의 BT-NT/RT 관계들을포함하며, 관계들은그림 1에서볼수있듯이 BT-NT 와 BT-RT 관계들이혼재되어있고, 구체적인관계유형은명기되지않고있다. Relaion Domain Range funcionfor Funcion Analysis funcionin Funcion Logic funcionof Funcion Plan heoryabou Theory Srucure heoryabou Theory Equipmen heoryof Theory Informaion 표 1. IT 분야온톨로지에서정의된의미관계 4. 개념분류 본절에서는그림 2 에서의개념분류 (B C, D) 방법에대하여설명하고자한다. 개념분류에서는 Inspec 용어를 IT 코아온톨로지의 200 개카테고리로분류한다. 그첫단계는빈도수기반의접근방법으로, 각용어들을보편성점수 (populariy score) 에근거하여카테고리로분류하게된다. 로 Inspec 용어를, h 로 의중심어를표시하고, h 가 m 개의의미를가지고있는데이런의미들은 CoreNe 개념 {c 1, c j, c m } 에각각대응된다고가정한다. w j 로 c j 의 IT 분야에서의보편성점수를나타내고, IT 분야에서 의소속개념 c 는공식 (1) 에의하여분류된다 : c = c = arg max{ w h c,1 j m) (1) h j j c 그림 3. IT 코아온톨로지의상위분류체계 ( 회색노드로구성된계층구조 ) IT 코아온톨로지의의미관계는정의역 (domain) 과치역 (range) 을제약으로가지고있다. 표 1 에서, 관계 heoryabou 의정의역은 Theory 이고, 치역은 Srucure 나 Equipmen 두가지모두가능하다. 정의역과치역으로제약된이런관계트리플은관계분류패턴으로사용할수있다. IT 코아온톨로지는여전히개발중이므로, 현재는의미관계들의일부에만정의역과치역이정의되어있는바, 총 185 개의의미관계중 108 개의의미관계에대하여 258 개의관계트리플이정 위의공식에서, 보편성점수 w j 는 IT 코아온톨로지의상위분류체계를구축하는과정에서 ( 그림 3) 이미획득한점수로, 카테고리 c j 가포함하고있는 IT 분야용어의개수와정비례한다. 두번째단계는유사도방법으로 CoreNe 개념 c 와가장가까운 IT 분야분류체계에서의상위개념을찾는다. IT 분야분류체계의개념집합을 C={C 1, C i, C n } 로표현할경우앞에서설명한바와같이 n=200 이고, C 는 CoreNe 개념집합의분류집합이다. IT 분야분류체계에서의 의의미카테고리는식 (2) 에의해분류된다. C( ) = C( h ) = arg max Sim( c, C ) (2) C n i= 1 i - 33 -

CoreNe에서노드 c의깊이를 deph(c) 라고하고, 톱노드의깊이는 1, 그하위는 2면, CoreNe에서노드 c의깊이라고하면, c 와카테고리 C i 사이의유사도는 C 와 i c j 사이의거리의최대역수이다. 본논문의실험에서, c 가카테고리 C 의 i 하위카테고리가아니면유사도는 0으로한다. ( 식 3) 0, if c is no hyponym caegory of C i in CoreNe; Sim ( c, C ) = (3) i 1 /( deph ( c ) deph ( C i ) + 1), else. 우리는 Inspec 용어들에대한분류대신용어중심어에대한분류를실행하였는데용어 의중심어 h 의인식에서는다음과같은패턴을적용하여중심어인식을수행하였다 ( head(erm) 은중심어인식함수이다 ): <headword><prep.><oherword>, - 위에서 <prep.>={by, in, on, of, from, for, wih, abou} - Ex) head(learning by example) = learning <headword>_<domain>, - 위에서 <domain> 은해당개념의분야정보를나타낸다. - Ex) head(nework_circuis) = circuis <oherword>-<headword> - Ex) head(unsolicied_e-mail) = mail <oherword&headword>, - 위에서 & 는해당부호의앞뒤단어사이에공백이없이연결된경우를나타낸다. - Ex) head(radioelephony) = elephony <oherword headword> - 용어가복합명사일경우, 마지막단어가중심어이다. - Ex) head(sae esimaion) = esimaion <headword> - 용어가하나의단어로만구성되었을경우, 이단어자체가중심어이다. - Ex) head(anenna) = anenna 5. 관계분류 본절에서는그림 2 에서의관계분류 (A B) 방법에관하여설명하고자한다. 관계분류에서, 이미분류된관계훈련데이터가부족할경우비지도식방법을사용하였고, 훈련데이터가어느정도축적된후에는지도식방법이도입되었다. 비지도식관계분류에서는우선규칙기반방법으로, BT-NT 관계를 isa 관계와 non-isa 관계로분류하였다. 여기에서우리는 [13] 에서제안된동일중심어규칙, 중심어관계의이행규칙, 중심어의다양성포용규칙및중심어의약자허용규칙을적용하였다. 그다음, 위의과정에서 non-isa 관계로분류된관계들을패턴기반방법으로의미관계로분류한다. 본논문에서는규칙기반 isa 관계분류부분은생략하고, 패턴기반의미관계분류부분에대해서설명하 고자한다. 또한본논문에서는 BT-NT/RT 관계는 bn(nt, BT) 로, isa 관계는 isa(nt, BT) 로, non-isa 관계는 n-isa(nt, BT) 로표기하기로한다. 5.1 패턴기반의미관계분류 규칙기반 isa 관계분류에서 BT-NT/RT 관계들은 isa 나 non-isa 관계로분류된다. 이단계에서는 non-isa 관계를코아온톨로지의의미관계로분류한다. 의미관계는두단계로분류되는데, 우선첫단계는개념분류단계로서 BT 와 NT/RT 를 IT 분야상위개념으로분류한다. 다음두번째단계에서는관계패턴을이용하여관계분류를진행한다. 앞에서설명된바와같이, IT 코아온톨로지의의미관계는정의역과치역이정의되었고, 이런관계는관계패턴으로간주될수있다. 예를들어, 주어진 BT-NT/RT 관계 bn(bubble chambers, paricle rack visualisaion) 의경우, NT/RT "bubble chambers" 는 Equipmen 카테고리로분류되고, BT "paricle rack visualizaion" 은 Processing 카테고리로분류된다. 그림 4 의관계패턴으로부터정의역 Equipmen 와치역 Processing 을가진관계는 equipmenfor 라는것을알수있다. 때문에주어진 BT-NT/RT 관계는 equipmenfor(bubble chambers, paricle rack visualizaion) 로분류된다. 그림 4. 패턴기반분류에서의미관계는관계분류패턴으로사용한다동일정의역과동일치역사이에두가지이상의관계가존재할수도있다. 그림 4 에서주어진정의역과치역이 (Equipmen, Equipmen) 인경우, isa 관계와 par_of_funcion 두가지관계가가능한것을볼수있다. 이런관계애매성이존재하는경우, 패턴기반관계분류에서는주어진 BT-NT/RT 관계에가능한모든관계를부여하였다. 그러나이러한관계애매성은관계수가많을수록더심각해졌는데, 이를해결하기위하여지도식의미관계분류방법을도입하였다 5.2 지도식의미관계분류 실험데이터가축적됨에따라지도식분류를위한 - 34 -

MEM 기반분류방법이도입되었다. 각관계트리플을하나의이벤트로 ( 훈련데이터에서의한예 ) 간주하였고, BT 및 NT/RT 의어휘정보를특징으로사용하였다. 용어의어휘정보만특징으로사용한원인은말뭉치에서 BT 와 NT/RT 모두를포함하는용례를찾기어려웠기때문이다. 특징추출에서이벤트의기본특징정보는다음과같다 : 1) BT 와 NT/RT 의중심어 2) 이벤트가동일중심어규칙을만족하는가 : 예이면값은 1; 아니면 0. 3) 이벤트가이행성규칙을만족하는가 : 예이면값은 1; 아니면 0. 4) 이벤트가다양성포용규칙을만족하는가 : 예이면값은 1; 아니면 0. 5) 이벤트가중심어약자허용규칙을만족시킨다면 : 예이면값은 1; 아니면 0. 이외에비교실험을위하여두가지특징이추가로사용되었다 : 6) 카테고리특징 : BT 와 NT/RT 의개념분류카테고리 7) Isa 특징 : 규칙기반방법으로 isa 로분류되면값은 1, 아니면 0. 위에서, 카테고리특징 ( 특징 6) 은패턴기반분류에서사용한특징을반영한것이고, BT 와 NT/RT 의중심어특징 ( 특징 1) 은패턴기반분류에서의관계애매성문제해결을위하여추가로사용한특징으로볼수있다. 또한특징 2)~5) 는규칙기반방법으로 isa 와 non-isa 관계분류시사용했던특징으로, 주어진관계가 isa 관계인지여부에도움이될것으로기대하였다. 반면에 Isa 특징 ( 특징 7) 은규칙기반방법의판단결과를직접특징으로사용하는것으로비교목적으로사용하였다. 분류대상이벤트에대한훈련데이터구축에서는 knn 방법으로훈련데이터를정제하였는데, 전체훈련데이터에서분류대상이벤트와가장유사한 k 개의이벤트를훈련데이터로선정하였다. 유사이벤트추출을위하여코사인유사도방법을사용하였는데, 유사도계산에서는위에서제안한특징정보를이용하였다. 6. 실험및평가 개념분류평가에서는적용률 (coverage) 과정확도 (accuracy) 를사용하였다. 적용률은얼마나많은용어가코아온톨로지의의미카테고리로분류되는지를평가하기위해사용되며, 정확도는얼마나많은용어가정확하게그것이속해야할카테고리로분류되는지를평가하기위한것으로전문가에의해행하여진다. 용어가속한개념은해당용어의중심어가속한개념과같다는가정하에, 22 만개의용어를가진 IT 분야사 전에서빈도수가가장높은 180 개의중심어를실험데이터로사용하였다. 이실험에서우리는 78% 의적용률과 81% 의정확도를얻을수있었다. 패턴기반의미관계분류에서는개념분류결과가필요적이다. 그러나지도식의미관계분류에서는그렇지않기에개념분류가관계분류에주는영향을 카테고리특징 으로평가하였다 ( 표 2 참조 ). 관계분류에서사용한개념분류결과는전문가의검증을거치지않은자동개념분류결과를직접사용하였다. 다만위에서언급한 180 개의중심어에대해서는이미사람의수정을거친개념분류결과를적용하였다. 6.1 패턴기반의미관계분류에대한평가 Inspec 시소러스의 BT-NT/RT 12,821 개관계들에대하여 isa 관계분류를진행한결과 3,307 개의 non-isa 관계를얻을수있었다. 이 3,307 개의 non-isa 관계에대하여패턴기반방법으로의미관계분류진행한결과, 31.09% 의적용률과약 90% 의정확도를얻을수있었다. 정확도평가는공식 (4) 를, 적용률평가공식은공식 (5) 를따랐다. Accu R1 R 2 = R 2 (4) 공식 (4) 에서, R1은자동적으로분류되는관계, R2는전문가가결정하는관계이다. 공식 (5) 에서, 적용률은 non-isa관계개수를분모로, 이중특정된의미관계로분류된관계개수를분자로한다. Idenified NoISA relaions Coverage = NoISA relaions (5) 6.2 지도식의미관계분류에대한평가 MEM 기반분류실험에서는기존 MEM 툴킷 [4] 를사용하였다. 비지도식방법에의하여분류되고전문가에의하여검수된 14,730 개의의미관계트리플 (isa 관계포함 ) 중 10% 인 1,473 개관계트리플을실험데이터로사용하였고, 나머지 90% 는훈련데이터로사용하였다. 훈련데이터에서사용된관계종류는모두 185 가지로서, 이는분류대상카테고리가 185 개임을뜻한다. 실험결과, 표 2 가보여주는바와같이, BT-NT/RT 의개념분류카테고리정보는관계분류에도움이안된반면, knn 기반의훈련데이터정제방법은관계분류정확도를현저하게향상시키는것을볼수있다. 지도식분류방법은패턴기반방법에서의낮은적용률을극복할수있었지만, 정확도는많이떨어지는것을볼수있었다. 표 2 의두번째행 ( 기본특징 + 카테고리특징 ) 의실험결과를분석한결과, 이중 isa 관계분류의정확도는 89.58% 인반면, 기타의미관계의 - 35 -

정확도는 24.19% 밖에되지않았다. 이정확도는패턴기반방법의 90% 에달하는정확도와비교하면, 패턴기반방법에서는관계분류목표카테고리가지도식방법에서의카테고리수보다거의절반적은점을고려하더라도, 여전히너무나낮다고봐야한다. 접근법 특징 정확도 MEM 기본특징 59.61% MEM 기본특징 + 카테고리특징 58.86% MEM 기본특징 + Isa 특징 62.46% MEM 기본특징 + 카테고리특징 + Isa 특징 61.71% MEM+kNN 기본특징 + Isa 특징 66.12% 표2. 지도식의미관계분류실험결과 이런낮은정확도의원인을찾기위하여전문가에의한의미관계분류결과에대하여일관성평가를진행하였다. 일관성평가는공식 4) 를따르되, 다만 R1 와 R2 를전문가 1 과전문가 2 가분류한관계로적용하였다. 실험데이터로는 isa 관계를제외한 90 개의의미관계를임의로선택하였는데, 이실험데이터에대한전문가들의관계분류일관성은 15.87% 로나온반면자동시스템의정확도는 14.44% 로서, 이는전문가의일관성보다약간낮은수치인정도이다. 이결과로부터, 전문가들도 BT-NT/RT 관계를 185 개나되는의미관계로분류하는데있어서많은어려움을느끼는것을볼수있었다. 관계유형이급격히증가하는것이관계분류의효율성과정확도를현저히저하시키는원인이되고있다. 7. 결론 본논문은분야시소러스의개념과관계에대한분류를통하여코아온톨로지를확장하는방법을제안하였다. 분야시소러스의개념을코아온톨로지의상위개념 (op-level concep), 즉의미카테고리로분류하고, 시소러스에서의 BT-NT 및 BT-RT 사이의관계는코아온톨로지에서정의한의미관계로분류한다. 개념분류에서는유사도와통계기반의방법을제안하였다. 관계분류에서는비지도식방법과지도식방법을적용하였다. 비지도식방법에서는, 훈련데이터가부족한경우를위하여규칙기반방법으로 BT-NT/RT 관계를 isa 와 non-isa 관계로분류하고, 패턴기반방법으로 non-isa 관계를온톨로지에서의의미관계로분류하였다. 지도식방법에서는훈련데이터를충분히가지고있는경우에한하여, 최대엔트로피모델 (MEM) 을적용한분류방법을사용하였다. 특정된관계에대하여정제된훈련데이터를추출하기위하여 knn 방법을사용한결과정확도향상에많은기여를하는것을볼수있었다. 본논문에서제안한방법으로시스템을구축하고실험한결과, 시스템성능이사람에의한판단결과와비교가능한 수준을보여주었다. 그러나 isa 관계이외의기타의미관계의분류정확도는여전히매우낮은데, 이는 IT 코아온톨로지에서사용하기로한의미관계가너무나많기때문인것으로드러났다. 또한관계분류를위하여사용된특징이주로어휘정보에만국한된것도하나의원인으로간주된다. 관계분류를위하여말뭉치에서의문맥정보를어떻게발굴하고활용하는지가다음과제로남아있다. 현재진행중인또하나의중요한과제는코아온톨로지의의미관계계층구조 (relaion hierarchy) 를구축하는작업이다. 의미관계계층구조가구축되면, 관계분류에서목표카테고리를상위관계로국한시킴으로, 관계분류의정확도를향상시킬수있기를기대하고있다. 감사의글본논문은정통부및정보통신연구진흥원의정보통신선도기반기술개발사업의연구결과로수행되었습니다. 참고문헌 [1] Dagober Soergel, Boris Lauser, Ania Liang, Frehiwo Fisseha, Johannes Keizer and Sephen Kaz. Reengineering Thesauri for New Applicaions: he AGROVOC Example. Journal of Digial Informaion, 4(4), March 2004. [2] Key-Sun Choi, Hee-Sook Bae, Procedures and Problems in Korean-Chinese-Japanese Wordne wih Shared Semanic Hierarchy, In Proceedings of he Global WordNe Conference, pp. 320~325, 2004.1, Brno, Czech. [3] Inspec v2.0 Geing Sared Guide. hp://scienific.homson.com/media/scpdf/inspec_ge ingsared_en.pdf [4] Le Zhang. 2004. Maximum Enropy Toolki for Pyhon and C++. Available from hp://homepages.inf.ed.ac.uk/s0450736/sofware/max en/manual.pdf [5] D. Sleeman, S. Poer, D. Roberson, and M. Schorlemmer. Onology Exracion for Disribued Environmens. In Proceedings of Workshop on Knowledge Transformaions for he Semanic Web (affiliaed o ECAI-02), July 2002 [6] Mark van Assem, Véronique Malaisé, Alisair Miles, and Guus Schreiber: A Mehod o Conver Thesauri o SKOS. In Proceedings in he 3rd European Semanic Web Conference, June 2006, pp. 95-109 [7] Harih Alani, Posiion paper: Onology Consrucion from Online Onologies. In Proceedings of he 5h Inernaional Semanic Web Conference, - 36 -

November 2006 [8] Golbeck, Jennifer, Gilbero Fragoso, Frank Harel, Jim Hendler, Jim Oberhaler, Bijan Parsia The Naional Cancer Insiue s Thesaurus and Onology, Journal of Web Semanics, 1(1), December 2003. [9] Asanee Kawrakul, Aurawan Imsombu, Aree Thunkijjanuki, Dagober Soergel, Ania Liang, Margheria Sini, Gudrun Johannsen, and Johannes Keizer, Auomaic Term Relaionship Cleaning and Refinemen for AGROVOC, Workshop on The Sixh Agriculural Onology Service, July 25-28, 2005. Vila Real, Porugal. [10] Wielinga, B., Schreiber, G., Wielemaker, J., & Sandberg, J.A.C. From hesaurus o onology. In Proceedings of Inernaional Conference on Knowledge Capure, Vicoria, Canada, Ocober 2001 [11] Sin-Jae Kang and Jong-Hyeok Lee, Semi-Auomaic Pracical Onology Consrucion by Using a Thesaurus, Compuaional Dicionaries, and Large Corpora, In Proceedings of ACL 2001 Workshop on Human Language Technology and Knowledge Managemen, Toulouse, France, July 6-7, 2001 [12] 고영만, 시소러스기반온톨로지에관한연구, 성균관대학교정보관리연구소, 정보관리제 5 집 (2006), pp.5 ~ 22 [13] 황금하, 이신목, 남윤영, 신지애, 최기선. 시소러스를이용한온톨로지구축에서의 Isa 관계설정. 한국정보과학회제 33 회정기총회및추계학술대회논문집, 서울, 2006.10-37 -