562 정보과학회논문지 : 소프트웨어및응용제 35 권제 9 호 (2008.9) 개념및관계분류를통한분야온톨로지구축 (Building Domain Ontology through Concept and Relation Classification) 황금하 신지애 최기선 (Jin-Xia Huang) (Ji-Ae Shin) (Key-Sun Choi) 요약본논문에서는분야온톨로지구축을위하여분야상위온톨로지를구축한다음, 분야시소러스의개념과관계를이용하여분야상위온톨로지를확장하는방법을제안한다. 이를위하여우선일반분야시소러스와분야사전을이용하여분야상위개념분류체계를구축한다. 다음, 분야시소러스의개념을분야상위온톨로지의상위개념으로분류하고, 광의어 (Broader Term: BT)- 협의어 (Narrower Term: NT) 및광의어 - 관련어 (Related Term: RT) 사이의관계를분야상위온톨로지에서정의한의미관계로분류한다. 개념분류는두단계로진행되는데, 1 단계에서는빈도수기반방법, 2 단계에서는유사도기반방법을적용하여시소러스개념을분야상위온톨로지의개념으로분류한다. 관계분류에서는두가지방법을적용하였는데, (i) 훈련데이타가부족한경우를위하여규칙기반방법으로 BT-NT/RT 관계를 isa 와기타관계 (non-isa 관계 ) 로분류하고, 다시패턴기반방법으로 non-isa 관계를온톨로지를위한의미관계로분류한다. (ii) 훈련데이타를충분히가지고있을경우, 최대엔트로피모델 (MEM) 을적용한특징기반분류기법을사용하되, k-nearest Neighbors(k-NN) 방법으로훈련데이타를정제하였다. 본논문에서제안한방법으로시스템을구축하였고, 실험결과사람에의한판단결과와비교가능한성능을보여주었다. 키워드 : 분야온톨로지, 분야상위온톨로지, 시소러스, 개념, 관계, 분류 Abstract For the purpose of building domain ontology, this paper proposes a methodology for building core ontology first, and then enriching the core ontology with the concepts and relations in the domain thesaurus. First, the top-level concept taxonomy of the core ontology is built using domain dictionary and general domain thesaurus. Then, the concepts of the domain thesaurus are classified into top-level concepts in the core ontology, and relations between broader terms (BT) - narrower terms (NT) and related terms (RT) are classified into semantic relations defined for the core ontology. To classify concepts, a two-step approach is adopted, in which a frequency-based approach is complemented with a similarity-based approach. To classify relations, two techniques are applied: (i) for the case of insufficient training data, a rule-based module is for identifying isa relation out of non-isa ones; a pattern-based approach is for classifying non-taxonomic semantic relations from non-isa. (ii) For the case of sufficient training data, a maximum-entropy model is adopted in the feature-based classification, where k-nn approach is for noisy filtering of training data. A series of experiments show that performances of the proposed systems are quite promising and comparable to judgments by human experts. Key words :domain ontology, core ontology, thesaurus, concept, relation, classification 본연구는지식경제부및정보통신연구진흥원의정보통신선도기반기술개발사업의지원으로수행되었습니다. 학생회원 : 한국과학기술원전자전산학부 hgh@world.kaist.ac.kr 정회원 : 한국정보통신대학교전산학과교수 jiae@icu.ac.kr 종신회원 : 한국과학기술원전자전산학부교수 kschoi@cs.kaist.ac.kr 논문접수 : 2008년 1월 3일심사완료 : 2008년 8월 13일 Copyright@2008 한국정보과학회ː개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회논문지 : 소프트웨어및응용제35권제9호 (2008.9)
개념및관계분류를통한분야온톨로지구축 563 1. 서론 온톨로지는사람과컴퓨터, 또는컴퓨터간의개념및개념표현을공유하기위한개념화의명시적규약을의미한다 [1,2]. 해당분야의개념, 개념의구체적사례인인스턴스 (instance), 개념혹은인스턴스간관계, 추론규칙인공리 (axiom) 등정보를포함한다. 시소러스는특정주제영역에서사용하는용어와용어간의미관계를체계적으로제시하는어휘집으로서, 해당분야의개념, 용어, 개념또는용어간의동의및유의관계, 상하위관계, 부분전체관계등정보를제공한다. 이런정보는온톨로지를구성하는가장기본적인정보이기에, 시소러스를이용하여온톨로지를구축할수있다 [3,4]. 시소러스와온톨로지는모두개념과관계정보를가지고있지만, 시소러스의관계는주로상하위관계와동의 / 유의관계, 부분전체관계로국한되어있고, 기타관계를가지고있더라도세분화하지않고 BT-NT/RT 관계로만표현한다 [3,5-7]. 예를들면, 분야시소러스인 Inspec 1) [5] 의계층체계에는 isa 관계와 non-isa 관계가혼재하여있는데, 예를들면그림 1에서 "SCADA systems" 와 "Data acquisition" 사이는 non-isa 관계임에도불구하고 isa 관계와똑같이표현된다. isa 관계로구성된엄격한상하위계층체계 (taxonomic hierarchy) 와구별하기위하여, 본논문에서는분야시소러스의이러한계층체계를 BT-NT/RT계층체계라고부르기로한다. 시소러스가지식표현자체에그목적을두고있다면, 온톨로지는자동추론을최종목적으로하고있기에, 엄격한상하위관계 (isa 관계 ) 와세분화된관계정보로개념의속성을나타낸다. 예를들면동물온톨로지에서는동물의식성을표현하기위하여 eats라는관계가필요하고, 피자온톨로지에서는피자의토핑과산지속성을나타내기위하여 hastopping과 hascountryoforigin등세분화된관계를사용한다 [8]. 분야시소러스를이용하여온톨로지를구축하기위해서는, 그림 2에서처럼 BT-NT/RT관계를세분화된관계로분류하여야한다. 그림 1 분야시소러스의 BT-NT/RT관계 1) http://scientific.thomson.com/media/scpdf/inspec_gettingstarted_en.pdf 그림 2 시소러스에대한관계분류 : 온톨로지구축을위해서는 A부분이보여주는분야시소러스에서의 BT-NT/RT관계를, B부분이보여주는바와같이, 온톨로지를위한의미관계로분류하여야한다. 그림 3 개념및관계분류를통하여구축된온톨로지관계분류후 BT와 RT가상위어없이최상위개념으로남는것을방지하기위하여, 본논문에서는개념분류를통하여이들용어를분야상위온톨로지의개념 ( 의미카테고리 ) 으로분류한다. 이러한개념및관계분류를통하여시소러스에서의 BT-NT/RT계층체계는온톨로지를위한상하위계층체계로변환된다 ( 그림 3). 개념분류의목표카테고리로시소러스의자체상위개념이아닌온톨로지의상위개념을이용하는데, 그이유는기존분야시소러스의규모가너무작거나그분야가목표온톨로지의분야와조금씩다르기에, 시소러스의상위개념이목표온톨로지의분야를대표하기에부족한경우가많기때문이다. 본논문에서의접근방법은, 그림 2와 3이보여주는바와같이, 우선분야상위온톨로지를구축한다음 (D), 분야시소러스에대하여개념분류 (B C,D) 및관계분류 (A B) 를수행함으로써분야상위온톨로지를확장하는것이다. 용어의개념정보는관계분류에도도움되기에, 우선용어의개념을분류한다음, 용어간관계를분류하기로한다. 분야상위온톨로지는해당분야에서가장기본적이
564 정보과학회논문지 : 소프트웨어및응용제 35 권제 9 호 (2008.9) 고중요한상위개념들을포함하며 [9-11], 해당분야를대표하는확장가능한모델을제공함으로써다양한소스로부터획득한데이타를통합하기위하여구축된다 [12]. 본논문에서의분야상위온톨로지는 IT분야상위개념분류체계와 IT분야의미관계를포함하고있는데, IT분야상위개념분류체계는대용량 IT분야전문용어사전 [13] 을일반분야시소러스에매핑하여구축하였고, IT분야의미관계는온톨로지개발자가정의하였다. 분야상위온톨로지의확장에서는분야시소러스 Inspec을이용하였다. Inspec 시소러스는전산, 제어공학, 전자전기공학, 정보기술, 물리학등약 14개분야를포함하고있으며 8,300개이상의용어와 15,901개의 BT-NT/RT 관계들을가지고있는데 [5], 이관계들은그림 1이보여주듯이 BT-NT와 BT-RT관계가구분없이섞여있다. 이를이용하여분야상위온톨로지를확장하기위하여, 분야상위온톨로지의개념을의미카테고리로간주하고, 빈도수및유사도기반의개념분류방법에의하여 Inspec용어를분야상위온톨로지개념으로분류한다. 또한 Inspec 시소러스의 BT-NT/RT관계를분야상위온톨로지의특정의미관계로분류하기위하여우선훈련데이타가부족한경우를위한규칙및패턴기반방법을제안하였고, 충분한훈련데이타를확보한후에는 MEM및 k-nn기법을이용한특징기반관계분류기법을사용하되, 그특징정보로규칙및패턴기반관계분류에서사용한어휘및개념정보를사용하였다. 본논문은다음과같이구성되었다. 2장에서는기존의언어지식베이스를이용한분야온톨로지구축방법들에대하여조사한다. 3장에서는 IT 분야상위온톨로지의구축방법에대하여기술하고, 4장과 5장에서는개념및관계분류를통한분야상위온톨로지확장방법에대하여설명한다. 6장에서는실험과그결과에대하여설명하고 7장에서는결론을맺는다. 2. 관련연구시소러스와같은기존의지식베이스는해당분야에서자주사용되는전문용어및개념정보를가지고있을뿐만아니라, BT와 NT/RT간의관계정보도제공한다. 이들중일부지식베이스는추론에사용되는제약조건 (constraint) 정보를제공하기도한다 [14]. 그러나일반적으로기존의지식베이스에서는온톨로지구축에필요한정보의일부분만을얻을수있다. 따라서, 분야시소러스를온톨로지구축에서활용하는연구에대한필요성이제기되어왔고 [3,15], 언어지식베이스를이용한온톨로지구축방법에대한연구도꾸준히진행되어왔다. 지식베이스로부터온톨로지를구축하는연구는크게네가지동향으로나누어볼수있다. 첫째는기존지식베이스를온톨로지포맷으로변환하는것인데 [16], 새로운온톨로지지식의생성이없이, 기존의시소러스포맷을 RDF나 OWL과같은온톨로지표현들로변환한다. 이런연구에서는각각의시소러스표현방식에대하여조사연구후, 이를패턴기반이나규칙기반방법으로온톨로지포맷으로변환한다. 둘째는기존지식베이스로부터유용한정보를추출하여온톨로지지식으로변환하는것인데 [14,17-19], 예를들면기존의논리프로그램으로부터제약조건을추출하여온톨로지지식으로변환해주기도한다. 셋째는관계정보를확장함으로써시소러스를온톨로지로리모델링하는연구인데 [6,7,18], 격관계 (case relation) 와의미관계를시소러스의상하위계층체계에추가함으로써시소러스를온톨로지로확장하기도한다 [17,20]. 격관계는기존기계번역시스템과사전으로부터얻어지며, 의미관계는말뭉치의상관관계정보를이용하여획득한다. 넷째는, 시소러스의 BT-NT /RT관계를사람에의하여정의한규칙이나패턴을이용하여의미관계로분류하는것인데 [6,7], 이런연구는특히분야온톨로지의구축에서많이사용된다. 분야온톨로지구축을위하여분야상위온톨로지를먼저구축한다음, 이를기반으로기타언어자원을통합하는방법이많이사용되어왔다 [10-12, 21,22]. 분야상위온톨로지구축에서는전문가가분야상위개념과제약조건을정의하거나 [23,24], 기존의두개분야상위온톨로지를하나로통합함으로써새로운분야상위온톨로지를구축하는방법이사용되었다 [12]. 분야상위온톨로지를우선구축한다음이를이용하여분야온톨로지를자동으로구축하는측면에서본연구는이런연구들과유사하다 [10-12, 21,22]. 다만분야상위온톨로지구축방법으로, 본연구에서는일반분야시소러스와분야사전을이용하여 IT분야상위개념체계를자동으로구축하였다. 한편, 관계분류를통하여분야시소러스로분야온톨로지를구축하는면에서, 본논문은 [6,7] 의연구와유사하다. 그러나본과제의연구대상인 IT 분야와 Inspec 시소러스는기존의연구들보다포괄적인분야를다루기때문에, 패턴을수동적으로정의하기엔어려움이있다. 이문제를해결하기위하여본논문에서는규칙과패턴기반관계분류외에지도식관계분류방법을제안하였다. 본과제가이런기존연구와의또다른차이점은, 본논문에서는관계분류뿐만아니라, 개념분류도수행하여, 분야시소러스의 BT- NT/RT계층을분야온톨로지를위한상하위계층으로변환시키고있다. 분류기법에대해서는많은연구가진행되어왔는데,
개념및관계분류를통한분야온톨로지구축 565 특히문서분류에서는신경망, 결정트리, k-nn, 지지벡터기계, 베이지안통계, MEM등다양한기계학습기반분류기법들이사용되었다. 이러한기법들은문서분류뿐만아니라관계분류에서도사용되는데, 예를들면어휘의의미역할결정 (semantic role labeling)[25] 과명사의의미관계분류 [26] 등문제에서도이런분류기법을사용하는것을볼수있다. 다만관계분류에서는분류기법자체에대한연구보다는관계분류에서의특징사용에초점을맞추고있는것을볼수있다 [26]. 본연구에서는개념분류에서는빈도수와유사도기반방법을사용하였고, 관계분류에서는훈련데이타부족시규칙및패턴기반방법을사용하였으며, 일정한훈련데이타가축적된후에는 MEM을이용한특징기반방법을사용하되, 훈련데이타정제를위하여 k-nn방법과결합사용함으로써정확도를향상시켰다. 3. IT 분야상위온톨로지분야상위온톨로지는일반분야온톨로지와특정분야온톨로지를이어주는역할을한다. 여기에속한개념은해당분야에서의중요한개념으로, 일반인도이해하기쉬워야하며, 해당분야하위개념의이해를도울수있어야한다. 분야상위개념분류체계의구축을분야상위개념선정과개념간분류체계구축으로나눌수있다. 본연구에서 IT분야상위개념을일반성, 보편성, 구체성의세가지기준에근거하여선정한다. 일반성의기준분야상위개념은비전문가도이해하기쉬운개념이어야한다. 일반성기준을따르기위하여, IT분야상위개념을 전기기기 와같이일반분야시소러스에도포함된개념중에서선정하였다. 보편성의기준분야상위개념은해당분야에서자주사용되는개념이어야한다. 이는해당분야의중요개념을선별하기위한기준이다. 예를들면, 개념 전기기기 는 IT분야에서자주사용되는개념으로, IT분야상위개념으로적합하지만, 농약 은 IT분야에서출현빈도가낮은개념으로 IT분야상위개념으로적합하지않다. 본연구에서는개념분류를통하여대용량 IT분야전문용어사전 2) [13] 의한국어용어를일반분야시소러스 CoreNet 3) [27] 의개념으로매핑한후, 각개념으로매핑된 IT분야용어수로 IT분야에서해당개념의보편성점수를계산하였다. CoreNet 은 2,900 여개의개념 ( 카테 고리 ) 과 50,000 여개의한국어상용어휘를가지고있는일반분야시소러스이다. t 로 IT 분야용어를, h t 로 t 의중심어를표시하고, h t 가가지고있는 m개의의미는 CoreNet 개념 {c 1, c j, c m} 에각각대응된다고가정한다. 중심어 h t 가개념 c j 로개념분류 ( 의미태깅 ) 되는확률을 Pr(c j h t) 로표시하면, IT 분야에서용어 t 의상위개념 c t 는식 (1) 에의하여분류된다. c = c = arg max Pr( c h), 1 j m t ht j t c (1) 위공식에서, Pr(c j h t) 는일반분야의미태깅말뭉치인 KAIST 의미태깅말뭉치로부터얻었다 [28]. 식 (1) 로대량의 IT분야용어를 CoreNet 개념으로매핑한후, 각개념으로매핑된용어의개수에의하여해당개념의보편성점수를결정한다. 구체성기준개념의일반화정도나보편화정도가지나치면개별적특징에대한기술이불가능하므로의미정보전달의정확성을저하시킬수있다. 이를방지하기위하여구체성기준을제안하는바, 일정한임계값이상의보편성점수를가지는개념중, 일반분야시소러스에서상대적으로하위노드에위치한개념을선택한다. 구체성기준은일반성기준과보편성기준과서로충돌하기에, 일정한선에서타협점을찾아야한다. 위의세가지기준에근거하여 IT분야상위개념을성정하였는데, 우선 2,900여개의 CoreNet 개념중 800여개의개념을자동으로선택한다음, 이중에서전문가가 200개의개념을최종으로선정하였다. 선정된개념사이의상하위관계는일반분야시소러스에서해당개념들의상하위관계를그대로승계한다. 즉, IT분야상위개념분류체계는일반분야시소러스인 CoreNet의일부로, CoreNet개념중 IT 분야에서보편적으로자주사용되는개념을선택한것이다. 그림 4 는 CoreNet에서개념 인공물 의하위트리구조를부분적으로보여주고있다. 그림에서회색노드는 IT분야상위개념으로선택된 CoreNet개념이고, 흰색노드는선택되지않은 CoreNet개념이다. IT 분야상위온톨로지는 IT분야를위하여제안된의미관계유형도포함한다 ( 그림 3). 이들의미관계는정 2) http://korterm.or.kr 3) http://bola.or.kr/corenet_project 그림 4 IT 분야상위온톨로지의개념분류체계 ( 회색 )
566 정보과학회논문지 : 소프트웨어및응용제 35 권제 9 호 (2008.9) 표 1 IT분야온톨로지에서정의된의미관계 Relation Domain Range functionfor Function Analysis functionin Function Logic functionof Function Plan theoryabout Theory Structure theoryabout Theory Equipment theoryof Theory Information 의역과치역을제약으로가지고있는데, 정의역과치역은 IT분야상위개념으로일반화하였다 ( 표 1). 이런관계트리플 (triple) 은관계분류에서패턴으로사용할수있다. 본논문의작성당시, IT 분야상위온톨로지는총 185개의의미관계유형을가지고있었고, 이중 108개의의미관계유형에대하여 258개의관계트리플이정의되어있었다. 이런의미관계는온톨로지개발자가정의하였다. 4. 개념분류본절에서는분야온톨로지구축을위한개념분류 ( 그림 2와 3: B C, D) 방법에대하여기술한다. Inspec 용어를 200개의 IT 분야상위개념으로분류하였는데이는두단계로나뉜다 : 첫단계에서는용어 t를 Core- Net개념 c t 로분류한다음 (t c t), 두번째단계에서는 CoreNet개념 c t 와가장가까운 IT 개념 C를찾아 (c t C t), 용어 t를 IT분야상위개념 C t 로최종적으로매핑한다. 첫번째단계에서는, 개념의보편성점수에근거하여용어를분류한다. t 로 Inspec 용어를, h t 로 t의중심어를표시하고, h t 가 m개의 CoreNet 개념 {c 1, c j, c m} 에대응된다고가정한다. w j 로 c j 의 IT분야보편성점수를나타내면, IT분야에서 t의개념 c t 는식 (2) 에의하여분류된다 : ct = ch = arg max{ w j ht c j,1 j t c m) (2) 식 (2) 에서, 보편성점수 w j 는 IT분야상위온톨로지구축과정에서이미획득한것으로, 제3장에서설명한대로개념 c j 에분류된 IT분야용어의개수와정비례하기때문에, 이단계에서의개념분류는빈도수기반방법을사용한셈이다. 두번째단계에서는, 유사도기반방법으로 CoreNet 개념 c t 와가장가까운 IT 분야상위개념 C t 을찾아, 용어 t를최종으로 IT분야상위개념으로매핑한다 ( 식 (3)). C = C = arg max Sim( c, C ) t ht C i= 1 t i n (3) CoreNet 에서노드 c 의깊이를 depth(c) 라고하고, 최 상위노드의깊이를 1로하면, c t 와노드 C i 사이의유사도는 C i 와 c t 사이의거리의최대역수이다. 본논문의실험에서, c t 가 C i 의하위노드가아니면이두노드사이의유사도는 0으로한다 ( 식 (4)). 0, if ct is not hyponym category of Ci in CoreNet; Sim( ct, Ci ) = 1/( depth( ct ) depth( Ci ) + 1), else. (4) 본논문에서는, Inspec 용어에대한분류대신용어의중심어에대한분류를수행하였는데, 중심어인식은다음의패턴을적용하여수행하였다. 패턴 1: <headword><prep.><otherword>, <prep.> {by, in, on, of, from, for, with, about} 예 : head(learning by example) = learning 패턴 2: <headword>_<domain>, <domain> 은해당개념의분야정보를나타낸다. 예 : head(network_circuits) = network 패턴 3: <otherword>-<headword> 예 : head(unsolicited_e-mail) = mail 패턴 4: <otherword&headword> ("&" 는해당부호의앞뒤단어사이에공백이없이연결된경우를표시한다.) 예 : head(radiotelephony) = telephony 패턴 5: <otherword headword> 복합명사일경우, 마지막단어가용어의중심어다. 예 : head(state estimation) = estimation 패턴 6: <headword> 하나의단어로만구성되었을경우, 단어자체가중심어로된다. 예 : head(antenna) = antenna 5. 관계분류 본절에서는그림 2에서의관계분류 (A B) 방법에대하여설명하고자한다. 관계분류에서, 훈련데이타가부족할경우규칙및패턴기반방법을사용하였고, 훈련데이타가어느정도축적된후에는지도식방법을도입하였다. 규칙및패턴기반관계분류에서는우선규칙기반방법으로, BT-NT관계를 isa 관계와 non-isa 관계로분류하였다 [15]. 그다음, 위의과정에서 non-isa 관계로분류된관계들을패턴기반방법으로온톨로지를위한의미관계로분류한다. 서술의간략함을위하여본논문에서는 BT-NT/RT관계는 btnt(nt, BT) 로, isa 관계는 isa (NT, BT) 로, non-isa 관계는 n-isa (NT, BT) 로표기하기로한다. 5.1 규칙기반 Isa 관계분류 동일중심어규칙 BT/NT관계에서의두개념이같은중심어를가지면
개념및관계분류를통한분야온톨로지구축 567 isa 관계로설정한다. 다음은개념의영어어휘표현에대하여동일중심어규칙을적용한예이다 : isa(active antenna array, antenna array) isa(elastic waves, waves) 중심어관계의이행규칙 BT/NT관계에서, 두개념의중심어가 isa 관계를이루면, 이두개념도 isa 관계를가진다고판단한다. 이는 isa 관계의이행성을이용한규칙이다. 다음은차세대이동통신분야의주어진 BT/NT관계에서서로 isa 관계를이루는중심어의예이다 : isa(listings, programs) isa(methods, theory) 위의 isa 관계를이용하여주어진 BT/NT관계에대하여중심어관계의이행규칙을적용한예는다음과같다. isa(java listings, complete computer programs) isa(smoothing methods, filtering theory) 중심어의다양성포용규칙포괄적인의미를가지는일부개념의하위개념은다양한어휘표현을가질수있다. 예를들면주어진 BT/ NT관계하에서, NT "receivers", "antennas", "cameras", "tubes", "transmitters" 는 BT "equipments" 와모두 isa관계를이룬다. IT분야에서이런포괄적인의미를가지는개념어휘로 "equipments", "accessories", "applications" 등이있다. 주어진 BT/NT관계에서, BT가이런다양성포용중심어를가지는경우, 이들의관계는 isa관계로될가능성이많다. 다음은이규칙을적용한예이다 : isa(radio receivers, radio equipments) isa(antenna feeds, antenna accessories) isa(radio tracking, radio applications) 이규칙과아래의약자허용규칙은분야데이타에대한관찰에근거하여경험적으로얻어졌다. 중심어의약자허용규칙일부개념은그하위개념의어휘적표현에서약자를많이사용한다. 이런약자허용중심어로는 "languages", "standards", "networks" 등이있다. 약자의판단은대문자사용여부로판단가능하다. 관련된예는다음과같다 : isa(basic, high level languages) isa(bluetooth, telecommunication standards) isa(isdn, telecommunication networks) 5.2 패턴기반의미관계분류본단계에서는규칙기반 isa 관계분류에서 non-isa로분류된관계트리플을온톨로지를위한의미관계로분류하는데, 우선 BT와 NT/RT에대하여개념분류한다음, 관계패턴을적용함으로관계분류를수행한다. 제3장에서설명한바와같이, IT 분야상위온톨로지의의미관계에는정의역과치역이정의되었고, 이런관계트리플은관계패턴으로간주될수있다. 예를들어, 주어진 BT-NT/RT 관계 btnt(bubble chambers, particle track visualisation) 의경우, NT/RT "bubble chambers" 는개념 Equipment로분류되고, BT "particle track visualization" 은개념 Processing으로분류된다. 그림 5의관계패턴으로부터정의역 Equipment와치역 Processing은관계 equipmentfor를가지는것을알수있다. 때문에주어진 BT-NT/RT관계는 equipmentfor(bubble chambers, particle track visualization) 로분류된다. 그림 5 정의역과치역이정의된관계패턴동일정의역과동일치역은두가지이상의관계유형을가질수있다. 그림 5에서주어진정의역과치역이 (Equipment, Equipment) 인경우, isa관계와 functional- PartOf 두가지관계가가능한것을볼수있다. 이런관계애매성이존재하는경우, 주어진 BT-NT/RT관계에가능한모든관계를부여한다. 관계유형이많아질수록관계애매성문제는더심각해지는데, 이를해결하기위하여통계기반의지도식의미관계분류기법을도입한다. 5.3 지도식의미관계분류실험데이타가축적됨에따라지도식분류를위한특징기반분류기법을도입하였는데, 여기에서각관계트리플은하나의이벤트 ( 훈련데이타에서의한예 ) 로간주된다. 분야시소러스가제공하는 BT-NT/RT관계에서의용어쌍이실제같은문장에나타나는용례를찾기어려웠고, 문맥정보를포함한훈련데이타의구축이어려웠기에, 본연구에서는규칙및패턴기반방법에서사용하였던어휘정보를특징으로활용하였다. 본연구에서사용한기본특징정보는다음과같다 : 중심어특징 : BT와 NT/RT의중심어 이벤트가동일중심어규칙을만족하는가? 이행성규칙을만족하는가? 이벤트가다양성포용규칙을만족하는가? 이벤트가중심어약자허용규칙을만족시키는가? 위에서, BT와 NT/RT의중심어특징은패턴기반분
568 정보과학회논문지 : 소프트웨어및응용제 35 권제 9 호 (2008.9) 류에서의관계애매성문제해결을위하여추가로사용한특징이다. 나머지특징들은규칙기반방법으로 isa와 non-isa 관계분류시사용했던특징으로, 주어진관계가 isa 관계여부에대한판단에도움이될것으로기대하였다. 이외에비교실험을위하여두가지특징을추가로사용하였다. 개념특징 : BT 와 NT/RT 의개념분류카테고리 Isa 특징 : 규칙기반방법으로 isa로분류되는가? 개념특징은패턴기반분류에서사용한특징을반영한것이고, 반면 isa 특징은규칙기반방법의판단결과를직접사용하는것이다. 본연구에서는 MEM기반분류기를사용하였고, 각분류대상이벤트를위한훈련데이타를정제하기위하여 k-nn방법을사용하였는데, 전체훈련데이타에서분류대상이벤트와가장유사한 k개의이벤트를훈련데이타로선정하는방법이다. 유사이벤트추출을위하여코사인유사도방법을사용하였는데, 유사도계산에서도위에서제안한특징정보를이용하였다. 6. 실험및평가 6.1 개념분류평가적용률 (coverage) 과정확도 (accuracy) 를평가의척도로사용하였다. 적용률은얼마나많은용어가분야상위개념으로분류되는지를평가하기위하여사용되며 ( 식 (5)), 정확도는얼마나많은용어가정확하게분류되는지를평가하기위한것이다 ( 식 (6)). 실제로분류된용어수 coverage= 분류대상용어수 (5) 정확히분류된용어수 accuracy= (6) 실제로분류된용어수용어가속한개념은중심어가속한개념과같다는가정하에, 22만개의용어를가진 IT 분야전문용어사전 [13] 에서빈도수가가장높은 180개의중심어를평가데이타로사용하였다. 이실험에서 78% 의적용률과 81% 의정확도를얻을수있었다. 6.2 관계분류평가관계분류에서개념분류결과를사용하는데, 위에서언급한 180개의중심어에대해서는사람의수정을거친개념분류결과를적용하였고, 기타중심어는자동개념분류결과를적용하였다. 6.2.1 규칙기반 Isa 관계분류에대한평가본실험에서는우선자동분류의정확도를평가한다음, 이를수동분류의일관성과비교평가하였다. 자동분류의정확도에대한평가실험에서, Inspec 시소러스의 12,821개 BT-NT/RT 관계를 5.1절에서설명 한규칙기반방법으로 isa 관계와 non-isa 관계로분류하였다. 본실험에서는모든분류대상에대하여관계분류를수행하였기에, 관계분류의적용률은 100% 이다. 자동분류의정확도는사람이평가하는데식 (6) 에서 용어수 대신 관계수 를대입하였다. 비교평가를위한 1차베이스라인으로, 모든관계후보에대하여 isa관계부여시의정확도를취하였는데, 이는실험데이타에서 isa관계의비례와동일하다. 5.1절에서제안한규칙을평가하기위하여규칙을순차적으로적용하면서정확도를평가하였다 ( 표 2). 표 2 규칙기반 isa 분류방법에대한평가 결과 접근법 특징 정확도 1 모두 isa 모두 isa 관계로설정 74.21% 2 규칙1 동일중심어규칙 77.30% 3 + 규칙2 + 중심어관계이행규칙 77.93% 4 + 규칙3 + 중심어의다양성포용규칙 81.71% 5 + 규칙4 + 중심어의약자허용규칙 82.02% 표 2에서볼수있는바와같이, 규칙기반 isa 관계분류방법으로베이스라인보다약 7.8% 의정확도향상이가능하였다. 본논문에서제안한규칙중, 중심어의관계이행규칙이많은역할을하지못하였는데 ( 결과 3 과 2를비교 ), 그원인은본실험에서중심어사이의 isa 관계는사람이부분데이타에대한관찰을통하여추가한것으로, 해당중심어수는 92개밖에안되기에, 전체데이타에서의적용률이낮았기때문이다. 자동분류정확도를수동분류일관성과비교하기위하여, 두사람이같은분류대상에대하여동시에분류하되, 결과가같은경우를정답으로간주하여평가하였다. 위의 12,821개 BT-NT/RT관계중임의로선택된 675개의관계에대한분류평가결과, 수동분류의일관성은 82.49% 였다. 이는표 2에서의자동분류정확도 82.02% 보다미약하게높은수준이었다. 다만두실험의데이타가서로다르기때문에직접비교를위하여, 위 675개관계에대한자동분류의정확도를따로평가한결과, 그정확도는 83.41% 로, 사람에의한분류일관성보다오히려조금높은수준을보여주었다. 분류실험에참여한전문가가해당실험을수행할때까지약 2-3개월간관계분류작업을수행하였으며, 각기 4,000~5,000개의관계를분류한경험이있었는데, 분류참여자의경험이아직많지않아분류일관성에영향을주었던것같다. 또다른원인은, 자동분류는같은규칙을적용시늘일관된결과를제공하는반면, 수동분류는많은훈련을거친전문가더라도여전히때와분류대상에따라그일관성이영향받기때문인것으로간주된다.
개념및관계분류를통한분야온톨로지구축 569 6.2.2 패턴기반의미관계분류에대한평가 Inspec 시소러스의 BT-NT/RT관계 12,821개에대하여 isa 관계분류를수행하고사람이 1-3차례검수한결과, 최종적으로 3,307개의 non-isa 관계를얻을수있었다. 이 3,307개의 non-isa 관계에대하여패턴기반방법으로의미관계분류를수행하였는데, 31.09% 의적용률과약 90% 의정확도를얻을수있었다. 제3장에서설명하였듯이, 본실험에서사용한패턴은 108개관계유형에대한 258개의관계트리플인데, 이는패턴기반관계분류의목표카테고리수가 108개임을뜻한다. 여기에서정확도에비하여적용률이많이낮은데, 그원인은, 많은관계유형수에비하여정의역과치역이정의된패턴수가너무적기때문이다. 실제온톨로지구축에서관계종류가많고, 정의역과치역이다양하기에패턴을일일이정의하기에는어려움이있다. 이또한통계기반지도식분류기법을도입해야하는한원인이기도하다. 6.2.3 지도식의미관계분류에대한평가특징기반분류실험에서는기존 MEM 툴킷 4) [29] 을사용하였다. 규칙및패턴기반방법에의하여분류되고전문가에의하여검수된 14,730개의의미관계트리플 (isa 관계포함 ) 중 10% 인 1,473개관계트리플을실험데이타로사용하였고, 나머지 90% 는훈련데이타로사용하였다. 훈련데이타에서사용된관계종류는모두 185가지로서, 이는분류목표카테고리가 185개임을뜻한다. 비교를위한 1차베이스라인으로, 모든관계후보에 isa 관계부여시의정확도를취하였는데, 이는실험데이타중의 isa 관계비례와동일하다. 표 3에서보여부는바와같이, 이 1차베이스라인의정확도는 53.73% 이다. 다음, 5.3절에서설명한기본특징을이용한분류결과를 2차베이스라인으로취하였는데, 이의정확도는 59.61% 이다 ( 결과 2). 표 3이보여주는바와같이, BT-NT/RT의개념분류카테고리정보는관계분류에도움이안된반면 ( 결과 3과 2, 5와 4 비교 ), isa 특징과 k-nn기반의훈련데이타정제기법은관계분류정확도를크게향상시키는것을볼수있다 ( 결과 4와 2, 6과 4 비교 ). 표 3 지도식의미관계분류실험결과 결과 접근법 특징 정확도 1 All isa 모두 isa로설정 53.73% 2 MEM 기본특징 59.61% 3 MEM 기본특징 + 개념특징 58.86% 4 MEM 기본특징 +isa 특징 62.46% 5 MEM 기본특징 + 개념특징 +isa 특징 61.71% 6 MEM+k-NN 기본특징 +isa 특징 66.12% 4)http://homepages.inf.ed.ac.uk/s0450736/software/maxent 지도식분류기법으로패턴기반방법의적용률이낮은문제를해결할수있지만, 정확도는많이떨어지는것을볼수있다. 표 3의결과 3( 기본특징 + 개념특징 ) 에대하여분석한결과, 이중 isa관계분류의정확도는 89.58% 인반면, 기타의미관계의정확도는 24.19% 밖에되지않았다. 이를패턴기반방법의 90% 에달하는정확도와비교할때, 패턴기반방법에서의목표카테고리수가 108개로서지도식방법에서의목표카테고리수 185개보다현저히적은점을고려하더라도, 여전히낮다고할수있다. 이런낮은정확도의원인을찾기위하여수동분류일관성평가를수행하였다. 일관성평가는식 (6) 을따르되, 다만두전문가가같은답을주는경우를정답으로간주한다. 실험데이타로는 isa 관계를제외한 90개의의미관계분류대상을임의로선택하였는데, 이실험데이타에대한전문가들의관계분류일관성은 15.87% 인반면자동분류정확도는 14.44% 로서서로비슷하였다. 이는전문가들도 BT-NT/RT관계를 185개나되는목표의미관계로분류하는데많은어려움이있는것을볼수있었다. 다시말하면, 너무나많은관계유형은분류정확도를저하시키는원인이다. 때문에, 실제온톨로지구축에서지도식의미관계분류기법을활용하기위해서는관계유형수를대폭줄여야한다. 예를들면, 본연구에서사용한 ememberpartof, imemberpartof, functionalpartof 등 7개의 partof 하위관계는그상위인 partof 관계로통합가능하고, istypeof 는 isa 관계로통합할수있다. 이외에실험데이타에대한관찰에서, 185개관계유형중 isa, usedfor, partof, istechnologyof 등출현빈도가 100이상인상위 6% 의관계유형이전체관계트리플수의 87% 이상을차지하는반면, 나머지 94% 의관계유형은 13% 의관계트리플에서만사용되는것을볼수있었다. 출현빈도가낮은관계유형은훈련데이타가부족하기에지도식기반방법의적용에서정확률저하의원인이되기에, 정확도향상을위해서는, BT-NT/ RT관계를 185개관계로분류하는다중분류문제를 (multi-class classification), 이진분류문제로변환하고 ( 예 : isa 및 non-isa, usedfor 및 non-usedfor 등 ), 출현빈도가높은관계유형에만한정하여관계분류를수행함으로써, 적용률의적은희생으로상대적으로높은정확도를기하여야한다. 7. 결론본논문에서는분야상위온톨로지를구축한다음, 분야시소러스의개념과관계에대한분류를통하여분야상위온톨로지를확장함으로, 최종적으로분야온톨로지
570 정보과학회논문지 : 소프트웨어및응용제 35 권제 9 호 (2008.9) 를구축하는방법을제안하였다. 분야상위온톨로지는일반분야시소러스와특정분야용어사전을이용하여구축하였다. 분야시소러스의용어와개념을분야상위온톨로지의개념으로분류하고, 시소러스에서의 BT- NT/RT관계는분야상위온톨로지에서정의한의미관계로분류하였다. 개념분류에서는유사도와통계기반방법을적용하였고, 관계분류에서는훈련데이타가부족한경우를위하여먼저규칙기반방법으로 BT-NT/RT 관계를 isa와 non-isa 관계로분류한다음패턴기반방법으로 non-isa 관계를온톨로지를위한의미관계로분류하였다. 또한훈련데이타를충분히축적한경우를위하여어휘정보를활용한특징기반의미관계분류기법을제안하였는데, k-nn기법으로훈련데이타를정제함으로분류정확도를향상시켰다. 본논문에서제안한방법으로시스템을구축하였는데, 그성능이사람에의한판단결과와견줄만한수준이었다. 다만 isa 관계이외의기타의미관계에대한분류정확도는여전히매우낮은데, 이는 IT 분야상위온톨로지에서채택한의미관계수가너무많기때문인것으로관찰되었다. 이런문제를해결하기위하여분야상위온톨로지의상위의미관계를정의하고, 최종적으로의미관계분류체계를구축하는연구가진행되고있다. 의미관계분류체계가구축되면, 관계분류에서목표카테고리를상위관계로국한시킴으로써, 관계유형의수를줄이고, 관계분류의정확도를향상시킬수있을것이다. 또다른해법으로다중관계분류문제를이진분류문제로변환하여, 출현빈도수가높은관계유형에대해서만관계분류를수행하는것도적은적용률의희생으로높은정확도를얻는방법이될것이다. 참고문헌 [1] 최기선, 류법모, 온톨로지구축과학습 : 상하위관계, 정보과학회지, 24(4), 2006.4. [2] 최호섭, 임지희, 배영준, 최수일, 옥철영, 온톨로지구축방법과사례, 정보과학회지, 24(4), 2006.4. [3] 고영만, 시소러스기반온톨로지에관한연구, 성균관대학교, 정보관리제 5 집, 2006. [ 4 ] Gruber, T.R., "A Translation Approach to Portable Ontology Specifications," Knowledge Acquisition, 5 (2), 1993. [5] "Inspec v2.0 Getting Started Guide," http://scientific.thomson.com/media/scpdf/inspec_gettingstarted _en.pdf [6] Soergel, D., B. Lauser, A. Liang, F. Fisseha, J. Keizer, S. Katz, "Reengineering Thesauri for New Applications: the AGROVOC Example," Journal of Digital Information, 4(4), Mar 2004. [7] Kawtrakul, A., A. Imsombut, A. Thunkijjanukit, D. Soergel, A. Liang, M. Sini, G. Johannsen, J. Keizer, "Automatic Term Relationship Cleaning and Refinement for AGROVOC," Workshop on the 6th Agricultural Ontology Service, Jul 2005. [ 8 ] Drummond, N., M. Horridge, R. Stevens, C. Wroe, S. Sampaio, "Pizza Ontology v1.5," http://www. co-ode.org/ontologies/pizza/, 2007. [9] Navigli, R., P. Velardi, "Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites," Computational Linguistics, 30 (2), 2004. [10] "Summary Report on Taxonomic Databases Working Group(TDWG) Core Ontology Meeting," Edinburgh, UK, May 2006. [11] Oberle, D., S. Lamparter, A. Eberhart, S. Staab, S. Grimm, P. Hitzler, S. Agarwal, R. Studer, "Semantic Management of Web Services using the Core Ontology of Services," W3C Workshop on Frameworks for Semantics in Web Services (Position Paper), 2005. [12] Doerr, M., J. Hunter, C. Lagoze, "Towards a Core Ontology for Information Integration," In Journal of Digital information, 4(1), Apr 2003. [13] KORTERM, http://korterm.or.kr/, IT 분야전문용어사전. [14] D. Sleeman, S. Potter, D. Robertson, and M. Schorlemmer, "Ontology Extraction for Distributed Environments," In Proceedings of Workshop on Knowledge Transformations for the Semantic Web (ECAI-02), Jul 2002. [15] 황금하, 이신목, 남윤영, 신지애, 최기선, 시소러스를이용한온톨로지구축에서의 Isa 관계설정, 한국정보과학회제 33 회정기총회및추계학술대회논문집, 서울, 2006.10. [16] Assem, M.V., V. Malaisé, A. Miles, G. Schreiber, "A Method to Convert Thesauri to SKOS," In Proceedings in the 3rd European Semantic Web Conference, Jun 2006. [17] Alani, H., "Ontology Construction from Online Ontologies," The 5th International Semantic Web Conference (Position paper), Nov. 2006. [18] Golbeck, J., G. Fragoso, F. Hartel, J. Hendler, J. Oberthaler, B. Parsia, "The National Cancer Institute s Thesaurus and Ontology," Journal of Web Semantics, 1 (1), Dec 2003. [19] Wielinga, B., Schreiber, G., Wielemaker, J., & Sandberg, J.A.C., "From thesaurus to ontology," International Conference on Knowledge Capture, Oct 2001. [20] Kang, S.J., J.H. Lee, "Semi-Automatic Practical Ontology Construction by Using a Thesaurus," Computational Dictionaries, and Large Corpora, Workshop on Human Language Technology and Knowledge Management (ACL2001), Jul 2001. [21] Mika, P., D. Oberle, A. Gangemi, M. Sabou, "Foundations for service ontologies: Aligning owl-s to dolce," The 13th International World Wide Web Conference. 2004.
개념및관계분류를통한분야온톨로지구축 571 [22] A. Gangemi, F. Fisseha, J. Keizer, J. Lehmann, A. Liang, I. Pettman, M. Sini, M. Taconet, "A Core Ontology of Fishery and its Use in the Fishery Ontology Service Project," EKAW04 Workshop on Core Ontologies in Ontology Engineering, Oct 2004. [23] Gangemi, A., P. Mika, M. Sabou, D. Oberle. "An Ontology of Services and Service Descriptions," Technical report, Laboratory for Applied Ontology (ISTC-CNR), 2003. [24] Breuker, J., R. Hoekstra. "Epistemology and ontology in core ontologies: FOLaw and LRI-Core,. two core ontologies for law," EKAW04 Workshop on Core Ontologies in Ontology Engineering, Oct 2004. [25] C. Baker, M. Ellsworth, K. Erk, "SemEval 07 Task 19: Frame Semantic Structure Extraction," The 4 th International Workshop on Semantic Evaluations (SemEval-2007), Jun 2007. [26] R. Girju, P. Nakov, V. Nastase, S. Szpakowicz, P. Turney, D. Yuret, "SemEval-2007 Task 04: Classification of Semantic Relations between Nominal," In the Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval- 2007), Jun 2007. [27] Choi, K.S., H.S. Bae, "Procedures and Problems in Korean-Chinese-Japanese Wordnet with Shared Semantic Hierarchy," The Global WordNet Conference, Jan 2004. [28] 황금하, 이주호, 최기선, 소스 - 채널모델을이용한한국어전단어의미태깅시스템, 2004 년도한국인지과학회춘계학술대회. 2004. 06. [29] Zhang, L., "Maximum Entropy Toolkit for Python and C++," 2004. 황금하 1991년중국길림대학물리학과졸업 ( 학사 ). 2000년한국과학기술원전산학과졸업 ( 공학석사 ). 2000년~현재한국과학기술원전산학과박사과정. 1994년~1996 년중국연변과학기술대학전산실 ( 직원 ) 2001년~2003년 Microsoft Research Asia(Assistant Researcher). 관심분야는자연언어처리, 지식추출, 기계번역, 기계학습등 신지애 정보과학회논문지 : 소프트웨어및응용제 35 권제 2 호참조 최기선정보과학회논문지 : 소프트웨어및응용제 35 권제 2 호참조