한국산학기술학회논문지 Vol. 10, No. 6, pp. 1220-1228, 2009 심준 1, 이홍철 1* 1 고려대학교정보경영공학전문대학원정보경영공학과 The Development of Automatic Ontology Generation System Using Extended Search Keywords Joon Shim 1 and Hong-Chul Lee 1* 1 Department of Information Management Engineering, Korea University 요약시맨틱웹의핵심인온톨로지는주로특정도메인에한정되거나휴리스틱에의존해의미와관계를정의하여생성하고있다. 하지만온톨로지의생성은매우어려울뿐만아니라많은시간이소요되는작업이다. 특정분야에서사용되는온톨로지와달리웹에서사용되는온톨로지는지식및정보표현의범위가한정적이지않기때문에기존의온톨로지생성방식으로는정보를표현하기가어렵다. 따라서온톨로지의자동생성은시맨틱웹의구현에있어서매우중요한부분을차지하게된다. 본논문에서는웹온톨로지를자동으로생성하기위해서형태소분석을이용하여검색엔진에서사용자들이입력하는검색키워드로부터색인어를추출하고, 이와관련된키워드를확장시켜온톨로지를생성하고갱신하는방법에대하여제안한다. Abstract Ontologies, which are the core of the Semantic Web, are usually limited by specific domains or created by defining meanings and relationships that depend on the heuristic. However, the creation of an ontology is not only very difficult but also very time-consuming. In contrast with ontologies that are used in specific fields, an ontology for the Web entails an unlimited scope of knowledge and expression of information. Hence, it is hard to express information in the same way that is used to create ontologies in specific fields. Therefore, the automatic generation of an ontology takes very important role in the Semantic Web. In this paper, to make ontologies automatically, we suggest the methods to create and renew ontologies by expanding keywords related to the index-terms which are extracted from the search keywords which users input in the search engines by analyzing the morphemes. Key Words : Semantic Web, Ontology creation, Ontology, Formal Concept Analysis (FCA) 1. 서론 월드와이드웹 (WWW) 은수많은사용자와데이터를만들어냈고, 사람들이정보를얻고처리하는방식에큰변화를일으켰다. 하지만오늘날의웹에존재하는데이터구조는인간위주로구성되어있다. 따라서검색엔진은사용자가입력하는검색키워드의의미를이해하지못하고, 단순히키워드일치여부에따른결과를반환하는문제점을갖고있다. 이는컴퓨터가이해하고처리할수있는 구조가아닌인간만이해할수있는표현위주의언어 (HTML) 로이루어져있기때문이다. 따라서인간뿐만아니라컴퓨터가이해하고처리할수있도록규격화된형식으로데이터를표현할필요성이있다. WWW를제안했던 Tim Berners-Lee는표현위주의 HTML의문제점을해결하기위해서데이터에규격화된의미를부여하여인간뿐만아니라컴퓨터도데이터의의미를해석할수있도록시맨틱웹을제안하였다. 시맨틱웹은컴퓨터가실세계의사물의개념과관계를이해할 이연구에참여한연구자 ( 의일부 ) 는 '2 단계 BK21 사업 ' 의지원비를받았음. * 교신저자 : 이홍철 (hclee@korea.ac.kr) 접수일 09 년 05 월 26 일수정일 09 년 06 월 09 일게재확정일 09 년 06 월 17 일 1220
수있도록데이터에의미를부여하여사용자가원하는결과에가까운검색결과제안과자동화된웹환경을만드는데목표가있다. 이를실현하기위하여사물에대한개념을정의하고관계를부여해주는기술로온톨로지가있다. 온톨로지는 개념화된것을명시적으로형식을갖춰구체화한것 (An ontology is an explicit specification of a conceptualization) [1] 으로정의되며, 시맨틱웹의실현에있어서핵심적역할을한다고할수있다. Tim Berners-Lee는 AAAI 발표에서 시맨틱웹은인공지능이아니고, 인공지능은시맨틱웹이아니며, 인공지능은연구분야고, 시맨틱웹은프로젝트이다. 인공지능은시맨틱웹에많은기여를하였고, 마찬가지로시맨틱웹은인공지능의활동의장이될수있다. [2] 라는발표를하였다. 이것은시맨틱과웹의개념을분리하여생긴오해를바로잡기위한것으로시맨틱웹은기존의웹을발전시킨환경일뿐, 인공지능을기반으로한웹환경이아니라는것을의미한다. 온톨로지역시인공지능, 소프트웨어공학, 의료정보분야등에서연구하는개념과생성방식은웹을위한온톨로지 (OWL, Web Ontology Language) 와많은차이를보인다. 현재의온톨로지생성방법은대부분특정도메인의전문가가휴리스틱에의존하여생성하게되는데, 이는해당분야의다양하고자세한어휘구현이가능하며정형적의미에충실한온톨로지생성이가능하다. 하지만휴리스틱에의존하는온톨로지구축은매우어려운작업일뿐만아니라많은시간을소비하게된다. 따라서온톨로지를자동으로생성하는것은시맨틱웹의실현에있어서매우중요한역할을하게된다. 본논문에서는검색엔진에서사용자들이입력하는검색키워드를확장시켜웹에존재하는데이터로부터웹온톨로지로자동생성시키는방법에대하여제안하고자한다. 본논문의구성은다음과같다. 2장에서는시맨틱웹과온톨로지관련연구분야를기술하고, 3장에서는온톨로지를자동으로생성하기위한기반기술들에대하여기술한다. 4장에서는제안한시스템의설계와구현에대하여기술하고, 마지막으로 5장에서는결론및향후연구방향에대하여제시한다. 2. 관련연구 2.1 시맨틱웹과온톨로지 시맨틱웹은웹에존재하는다양한서비스와데이터들 이상호운용되기위한, 그리고인간과컴퓨터가서로데이터를명확히정의하고교환할수있는공통언어및아키텍처의표준이라할수있다. 시맨틱웹은모든정보를 Triple 구조로표현하게되는데, 이는 <Subject, Predicate, Object> 의형태로개념을표현한다. Triple 구조는 RDF (Resource Description Framework) 언어를기반으로고유의 URI (Uniform Resource Identifier) 를갖으며, 각각의 namespace를가질수있다. 시맨틱웹의모든데이터는이러한 Triple 구조를갖고있으며, 그래프형태로의미정보인온톨로지를표현한다. 온톨로지는지식을개념화하고이를명세화하는것으로정의되는데, 어휘사전의역할이외에도지식을효과적으로표현하기위해서정보에의미를부여하고, 정보간의관계를정의할수있다. 온톨로지는웹분야뿐만아니라자연어처리, 데이터베이스, 인공지능등다양한분야에서활발하게연구가이루어지고있다. W3C (World Wide Web Consortium) 에서는 OWL을표준으로권고하고있으며, 이는 XML, RDF, RDF Schema등의문법을기반으로객체와객체간의관계와계층을형식적인방법으로설명하고의미를표현하기위한문법을가지고있다. 온톨로지에서지식의표현은 Class, Relation, Function, Axiom, Instance 등의요소를이용해형식화하여표현하며, 이러한관계를기준으로새로운정보를추론해낼수있다 [3]. 시맨틱웹에서온톨로지는사물의개념을명확하게정의하고있기때문에개념의모호성을줄일수있으며, 기정의된온톨로지정보를중심으로해당자원과유사한자원또는관련도가있는자원의제안이가능하므로질의에대한확장된결과를얻을수있다. 이는시소러스 (thesaurus) 의개념과유사하지만자원과자원사이의계층관계및제약조건등이부여되었다는점에서차이를보인다. 특정분야에서만사용되는온톨로지와달리웹에서사용되는온톨로지는지식및정보표현의범위가한정적이지않다는문제가발생한다. 따라서웹을위한온톨로지를구축하기위해서는현재의웹에존재하는데이터를기준으로정보에의미를부여하고관계를정의하면서확장시켜나가야한다. 2.2 온톨로지관련연구온톨로지생성방법은크게두가지로나눌수있다. 첫번째는해당도메인의정형화된온톨로지를생성하여적용시키는방법이고, 두번째는간단한정보만을기술한단순한온톨로지로부터메타데이터간의의미관계를조금씩부여해확장시키는방법이다. 기존의온톨로지구축에 1221
한국산학기술학회논문지제 10 권제 6 호, 2009 관한연구의상당부분은해당도메인의전문가들에의하여휴리스틱에의존하는수작업이대부분을차지하고있다. 휴리스틱에의한온톨로지구축은정확하고체계적인온톨로지구축이가능하다는장점이있지만, 모든사물에대한정보를온톨로지로구축하는것은현실적으로불가능에가까울만큼어렵고많은시간을소요하게된다. 휴리스틱에의존하는온톨로지생성방법의단점을보완하기위하여온톨로지를자동으로생성하기위한연구가많이진행되고있다. TextOntoEx는 Semantic Pattern 을기반으로자연어상태의영문을언어학적분석에의하여자동으로온톨로지를생성하는방법을제안하였고 [4], P. Clerkin 등은개념계층 (Concept Hierarchies) 을이용한온톨로지생성방법에대하여제시하였다 [5]. 도메인의문서들로부터기계적학습과통계적방법에의하여 ONTOSTRUCT를통하여온톨로지를자동으로생성하는방법도제안되었다 [6]. 이외에도 Decision Tree, Association Rules, Classification 등의데이터마이닝기법을통한데이터베이스로부터의도메인온톨로지생성방법에대한연구가많이이루어지고있으며, 단어의개념과계층적관계를표현해주는시소러스 (Thesaurus) 및 WordNet을이용하여언어학적분석과분류학적분석에의한온톨로지를구축하는연구도이루어지고있다. 또한지식이나자료를모델링하기위한자료분석의이론인형식적개념분석 (FCA, Formal Concept Analysis) 을이용하여계층구조의온톨로지생성에관한연구도진행되고있다. 하지만위에서언급한연구들은대부분도메인에의존적이기때문에한정되지않은범위의데이터를다루는웹에적용시킬온톨로지생성방법으로는부족한부분이있다. 본논문과유사한연구로 FCA와개념간의관련도계산을이용한분류기법을적용시킨온톨로지생성방법과 [7] 온톨로지를이용하여웹문서로부터자연어처리 (Natural Language Processing) 를통하여지식을추출하는기법 [8] 등이있다. 위의연구들은자연어처리를통하여주요키워드를추출해내고 WordNet, GATE[9] 등의사전기반의의미부여기법을사용하는것에있어서유사점을갖지만, 본논문에서제시하는웹에존재하는자료를기준으로온톨로지를생성하고확장시켜나가는방법에있어서차이를보인다. 최근에는미리정의해둔어휘를사용하여인간뿐만아니라컴퓨터도처리가가능할수있도록하는방향의연구가활발하게진행되고있다. 많이사용되고있는메타데이터와 Semantic annotation 기술로는 Dublin Core[10], FOAF (Friend Of A Friend) [11], Microformats[12], RDFa[13], SIOC (Semantically-Interlinked Online Communities) [14], SKOS (Simple Knowledge Organization System)[15] 등이있으며, 이러한어휘들은대부분 RDF를기반으로정의되어있어서 RDF Application으로표현되기도한다. 이는상당히구체적이고추상적인개념을미리정의해놓았기때문에온톨로지를구축할때필요에의해사용하거나기존의 HTML 문서에추가하여쉽게데이터에의미를부여할수있다. 이러한메타데이터를사용하는이유는독자적으로온톨로지를정의하는것은매우어렵지만, 해당어휘들은이미표준으로합의된사항이므로조금더쉽게온톨로지를구축하거나데이터에의미를부여하고공유할수있기때문이다. 위에서언급한메타데이터의특성은표 1 과같다. 본논문에서는웹온톨로지를생성하기위하여메타검색엔진을구축하고, 검색이이루어질때마다검색키워드와관련이있는키워드를확장시킨다. 그리고확장된키워드에의미를부여하고관계를정의하여서온톨로지를생성하는방법을소개하고자한다. 웹에서사용될온톨로지는범위가한정적이지않고데이터의양이매우많기때문에, 간단한정보만을기술한단순한온톨로지를생성하고메타데이터간의의미관계를조금씩부여해확장시키는방법을이용해접근하였다. Dublin Core FOAF Microformats RDFa SIOC SKOS [ 표 1] 메타데이터의종류와특성 컨텐츠에대한저작정보에대한기술자신과주변사람에대한정보와관계를기술 HTML 문서에정의된태그를사용해특정정보를메타데이터형태로가공 HTML 문서에 RDF를삽입하기위한기술온라인커뮤니티의연결을목표로하는프레임워크이미구축된시스템내의컨셉트를표현, 연결, 조합하기위한어휘 3. 온톨로지자동생성기반기술 이번장에서는웹온톨로지를자동으로생성하기위하여형태소분석과이를통하여추출된색인어의의미부여및 FCA를이용한계층구조생성에대하여기술하도록한다. 3.1 형태소분석 영어의경우단어와단어사이의경계를공백으로구 1222
분할수있지만, 한국어의경우어절단위로띄어쓰기때문에단어분할이필요치는않으나붙여쓴복합명사를단위명사들로구분해야하는문제가발생한다. 검색엔진에서사용자들이입력하는키워드는주로검색하고자하는주요키워드들로이루어지거나자연어상태로입력된다. 따라서검색키워드의분석을통하여주요키워드를추출하고, 이를기준으로온톨로지에 Class 를생성하게된다. 형태소분석을위하여 KLT 2.1.0f [16] 가사용되었으며형태소분석기의구조는그림 1과같다. [ 그림 1] 형태소분석기 KLT 의구조 n 음절어에공백을 i 개삽입하는경우의수는 이므로최대로생성될수있는후보의수는 가지이다. n 음절의입력된검색키워드의분리가능한형태소의개수를계산해보면, 길이가 i 음절인형태소가 (n-i+1) 가지이므로최대 예를들어, 고용보험및산업재해보상보험의보험료징수등에관한법률시행령 이라는띄어쓰기가되어있지않은문장에대하여형태소분석을통하여얻을수있는색인어는그림 2와같다. 물론실제입력되는검색키워드의경우검색하고자하는키워드의집합으로이루어지는경우가대부분이므로위의예제보다훨씬단순한구조를갖게된다. 이렇게추출된색인어를기준으로 3.2절에서다루게되는색인어에의미를부여하는작업을시행하게된다. 3.2 추출된색인어의의미분석 3.1 절의형태소분석을통하여추출된색인어는웹에존재하는데이터를이용하여정보를재가공하고이를기준으로온톨로지를생성하게된다. 추출된색인어가한국어인경우 Naver, Daum, Google에서제공하는국어사전및백과사전 OpenAPI를이용하여단어의품사및의미를추출하고, 추출된색인어가영문인경우 WordNet을이용하여의미와동의어 (synonymous term), 상위어 (broad term), 하위어 (narrow term), 관련어 (related term) 등을정의한다. 추출된색인어에의미를부여하기위하여 OpenAPI 또는 WordNet을이용하는것은사전에이미정의되어있는정보를이용하는것이므로, 수작업으로색인어에단어의의미를부여하는것보다객관적이며정확하다고할수있다. 검색키워드로부터추출된색인어외에동의어, 상위어, 하위어, 관련어등을함께정의하는이유는사용자가잘못된단어를입력하거나그와유사한정보의제안에목적이있다. 관련어는추출된색인어와관련된키워드를 OpenAPI 를이용하여받아오게되며, 이는사용자들의검색패턴에의한유사한키워드들을제시하므로보다넓게색인어의확장을가능하게한다. 개의형태소가분리될수있다. 하지만모든분해후보를생성하는것은비효율적이므로경험적으로습득된규칙을적용하여후보의수를줄여서사용하게된다 [17]. [ 그림 2] 형태소분석결과 [ 그림 3] WordNet 의데이터트리예제 1223
한국산학기술학회논문지제 10 권제 6 호, 2009 3.3 FCA를이용한계층구조생성 FCA는특정도메인의지식이나데이터를모델링하기위한방법론으로자료집합사이의개념적구조를조직화하기위하여수학적사고로접근한자료분석의한이론이다. FCA는배경도 (Formal Context), 개념 (Formal Concept), 개념격자 (Concept Lattice) 세개의기본구성요소로이루어진다 [18]. FCA의가장기본적자료구조인배경도 (Formal Context) 는문장내에서객체와속성을추출해낸결과의집합을이야기한다. Formal Context K는 K=(G, M, I) 로정의되며, 객체 ( 주어 ) 들의집합 G와속성 ( 서술어 ) 들의집합 M, 그리고 G와 M사이의이항관계 I G M 로구성된다. 이항관계 I는 G의원소 g는 M의원소 m을갖는다 는것을나타낸다. 위의정의를이용하여두집합 A', B' 를아래와같이정의하였다. A' := {m M (g, m) I for all g A} B' := {g G (g, m) I for all m B} 이때집합 A는 A G이고, 집합 B는 B M이다. 여기서 A=B' and B=A' 를만족시킬때, A는 extent라고부르고 B는 intent라고부른다. 위와같은정의를바탕으로문장으로부터다양한개념 (g, m) 을추출할수있다. 예를들어, 그림 4에나타난 Formal Context K=(G, M, I) 는객체집합 G={girl, woman, boy, man} 와속성집합 M={female, juvenile, adult, male} 그리고관계집합 I={(girl, female), (girl, juvenile), (woman, female), (woman, adult), (boy, juvenile), (boy, male), (man, adult), (man, male)} 로표현할수있다. 이러한개념들사이에는일종의상-하위관계에따른순서가존재한다. 예를들어, 임의의개념 (X 1,Y 1) 과 (X 2,Y 2) 에대하여 (X 1,Y 1) (X 2,Y 2) X 1 X 2 ( Y 2 Y 1) 일때, 개념 (X 1,Y 1) 은개념 (X 2,Y 2) 의하위개념이라고하며, 반대로개념 (X 2,Y 2) 는개념 (X 1,Y 1) 의상위개념이라고한다. 아래의그림 4는격자구조 (Complete Lattice) 를이용하여개념간의상-하위관계를표현한것이다. 이와같이추출된색인어로부터개념들을구성하여상 -하위개념관계를구성함으로써, 격자구조를구축할수있다. 추출된개념들은자연스럽게객체집합이나속성집합에의한계층적관계가형성이되며, 이를통하여개념격자 (Concept Lattice) 를구축할수있다 [19,20]. [ 그림 4] Formal Concept Analysis 의예제 4. 제안한시스템의설계및구현 4.1 웹온톨로지구축과정 포괄적인온톨로지구축과정은목적확인, 개념화, 기호화, 기존온톨로지통합, 평가, 문서화와같은과정으로이루어져있다. 목적확인은온톨로지구축의목적을분명히하는단계로이용대상과특성을파악하는단계이다. 개념화단계는핵심적인개념의파악과개념간의관계를어떻게설정하게되는지확인하는단계로, 개념과용어를정의하고확인하는작업을하게된다. 관련된단어들을최대한나열하되, 중복개념은배제하고유사개념은통합하거나유사관계를부여하여나열한다. 본논문에서는사용자가입력한검색키워드를최상위의계층으로지정하고, 추출된색인어와관련키워드들은 FCA분석을통하여하위계층으로분류하여온톨로지를생성한다. 추출된색인어에의미를부여하기위하여색인어의개수만큼 OpenAPI와 WordNet을이용하여질의를하게된다. 추출된색인어와관련된키워드정보를받아서확장을위한클래스로정의하고, 색인어가 2.1절에서언급한메타데이터를구성할수있는경우해당어휘를이용하여정보를추가적으로구성하게된다. 기호화단계에서생성할온톨로지는 W3C에서표준으로권고하는 OWL을기준으로한다. 마지막으로관리단계에서는통합및갱신작업이이루어지는데, 이는다른사용자에의하여입력된유사한키워드의검색이나동일한키워드검색시통합또는새 1224
로운개념을추가하는갱신작업을수행하게된다. 생성되는온톨로지의정보를저장하기위하여 MySQL을사용하였으며, Database에는온톨로지를구성하는색인어의정보와관련이있는온톨로지의정보, 저장된온톨로지파일의 URI 정보등을담고있다. 단순화시킨 Database Schema는그림 5와같다. [ 그림 5] 온톨로지정보저장소 DB Schema 4.2 설계및구현 3 장에서기술한온톨로지자동생성시스템의기반기술과 4.1절에서언급한웹온톨로지구축과정을기준으로설계한온톨로지자동생성시스템의아키텍처 (architecture) 는그림 6과같다. 개발한시스템은사용자가입력한검색키워드의형태소분석을통하여색인어를추출한다. 추출된색인어는 OpenAPI와 WordNet을이용하여단어의의미및품사그리고상위어, 하위어, 유사어등의개념을함께정의하게되며, 이정보는추후관리및갱신을위하여 RDBMS에함께저장하도록한다. 또한 OpenAPI의관련키워드정보를이용하여해당검색키워드와관련이있는정보및추출된색인어와관련이있는정보를함께표현하도록한다. 를최상위계층으로정의하고, 추출된색인어는 FCA분석을이용하여최상위계층의하위계층으로정의한다. 추출된색인어의개수가 1개이상인경우, 각각을형제 (sibling) 계층으로정의하며유사어, 상위어, 하위어등은각형제계층의하위계층으로존재하게된다. 색인어가메타데이터어휘로표현이가능한경우해당어휘를사용하여추가적으로온톨로지를구성한다. 예를들어, 가수이름을검색했을경우해당가수의프로필과관련인물정보를 FOAF로구성하고, 발매한음반의정보를 Dublin Core로표현할수있다. 이런단계를기준으로온톨로지를생성하게되며, 생성된온톨로지는온톨로지저장소에저장하여관리하게된다. 생성되었던온톨로지를구성하는주요정보와 URI 를 RDBMS에저장하고있으므로, 다른검색키워드를입력하더라도형태소분석을통하여색인어를추출하고기존에있던 OWL파일에서동일한개념을찾아서연결하여준다. 이는검색키워드단위의온톨로지를생성하고다른검색키워드를구성하는색인어와색인어의관계를연결시키기위함이다. 동일하거나유사한검색키워드를입력하였을경우 RDBMS에서기존의온톨로지를구성하는정보를검색하여새롭게변경되거나추가될부분, 삭제될부분을찾아서갱신하도록한다. 생성되는온톨로지는형태소분석을통하여추출된 n 개의색인어클래스와 OpenAPI를통해해당색인어와연관성을갖는키워드클래스 m개를갖게된다. 온톨로지내부에생성되는클래스의개수 X는 개가생성된다. 여기서 I i 는 i 번째추출된색인어이며, R j 는색인어 I i 에서확장된 j 번째관련키워드이다. I i 는관련된데이터가존재하는경우에만 R j 로확장되며, 입력된검색키워드자체가한개의클래스를구성하게되므로 생성되는클래스의수에 +1 을하였다. 본논문에서는 R j 와관련된 3차확장이후에대해서는다루지않도록하며, 2차확장까지의구조는그림 7과같다. [ 그림 6] 온톨로지생성시스템아키텍처 계층관계를정의하기위하여처음입력된검색키워드 [ 그림 7] 키워드확장을통한온톨로지클래스정의 1225
한국산학기술학회논문지제 10 권제 6 호, 2009 그림 8과표 2는개발한시스템을이용해임의의키워드를입력해서온톨로지를생성하고, 추출된색인어와생성된클래스의개수및생성에소요된시간을표현하였다. 확장을통하여키워드가많이정의될수록생성에많은시간이소요되었으며, 평균적으로약 9.11초가걸렸다. 또한 OpenAPI를이용하여추출된색인어의확장을통해서형태소분석으로얻은색인어의개수보다 4배정도많은클래스를얻을수있었다. 그림 9는개발한시스템을이용하여온톨로지를생성한것으로검색키워드를입력하게되면해당키워드를확장하여웹에존재하는데이터를온톨로지로만들고, 생성된온톨로지를 RDF Triple로변환하여그림 10과같은그래프를생성하도록한다. [ 그림 9] 온톨로지자동생성시스템 [ 그림 8] 온톨로지생성시간및생성된클래스의개수 [ 표 2] 온톨로지생성실험결과 생성된온톨로지의문법적타당성을검사하기위하여 University of Maryland 에서제공하는 Pellet OWL Reasoner를 [21] 이용하여유효성검사를시행하였다. 온톨로지의유용성또는정확성을정확하게판단할기준이마련되어있지않고온톨로지의표현부분은상당히주관적인부분이므로, 본논문에서는문법적타당성과표현상의오류여부만검증하였으며결과는그림 11과같다. 검사를시행한온톨로지의문법적결함이없으면그림과같이 Consistent: Yes 라는결과를보여준다. 시행횟수 색인어의개수 생성된 Class 개수 생성시간 1 3 26 13.0333 2 5 21 9.6832 3 6 18 8.9326 4 4 14 9.9571 5 3 12 6.9571 6 2 5 3.0744 7 5 19 6.4016 8 4 12 10.1176 [ 그림 10] 생성된 OWL 의 Graph 9 5 24 17.9018 10 3 6 5.1319 [ 그림 11] 생성된온톨로지의유효성검사결과 1226
5. 결론및향후연구방향 기존의온톨로지를생성하여적용시키는방법은대부분해당도메인전문가의수작업에의존하기때문에풍부한어휘와의미적으로충실한온톨로지가생성되는장점을갖지만, 많은시간과비용이필요하고구축이어렵다는단점이있다. 본논문에서는시간적소모를줄이면서온톨로지를자동으로생성하기위하여검색키워드의확장을이용하여온톨로지를생성하는방법에대하여제안하였다. 웹기반사전의 OpenAPI와 WordNet을이용하여의미와계층적관계를정의하고, 색인어간의관계및관련있는 OWL의참조를통하여온톨로지확장을하고있다. 또한 RDBMS에클래스를이루는색인어와확장된키워드의정보를저장하여, 동일한검색이일어날때기존온톨로지의정보를갱신할수있다. 기존의정형화된온톨로지를생성하는방법으로는범위가한정되지않고폭발적으로자료가늘어나는웹환경에서모든정보를표현하는온톨로지를생성하는것은불가능하다. 하지만본논문에서제안한키워드확장을이용한온톨로지생성방안은간단한정보를기술한단순한온톨로지를생성하고메타데이터간의의미관계를조금씩부여해확장시키는방법으로해당키워드의최신정보를반영할수있고, 자동으로생성되므로많은시간을절약할수있다. 또한웹상에존재하는데이터를기준으로새로운정보를계속추가하고변경되는정보를갱신하며확장을시켜나갈수있다는장점을갖고있다. 본논문에서는색인어와관련된키워드의정의에있어서범위제한을하였지만, 데이터가존재하지않을때까지관련키워드의범위를넓히게되면더많은양의클래스를정의하고기존의온톨로지와의연결이가능하다. 웹에서사용되는온톨로지는데이터의규격화와데이터를서로연결하는 Linked Data[22] 의역할을한다고할수있다. 이러한데이터의연결고리들로부터원하는정보를찾기위하여 RDF Query 언어인 SPARQL을이용해검색시스템에적용시킬계획이다. 실제검색엔진모델에서검색키워드를입력하게되면온톨로지를자동으로생성하고, 생성된온톨로지를바탕으로검색키워드와일치하는정보를얻고자한다. 이는유사한문서의제안뿐만아니라보다정확한데이터의검색이가능할것으로기대된다. 참고문헌 [1] T. Gruber, A Translation Approach to Portable Ontology Specifications, Knowledge Acquisition, Vol. 5, No. 2, pp. 199-220, 1993. [2] T.B. Lee, Artificial Intelligence and the Semantic Web, AAAI 2006 Keynote, July 2006, http://www.w3.org/2006/talks/0718-aaai-tbl [3] OWL Web Ontology Language Reference, February 2004, http://www.w3.org/tr/owl-ref [4] M.Y. Dahab, H.A. Hassan, A.A. Rafea, TextOntoEx: Automatic ontology construction from natural English text, Expert Systems with Applications, Vol. 34, No. 1, pp. 1474-1480, 2008. [5] P. Clerkin, P. Cunningham, and C. Hayes, Ontology Discovery for the Semantic Web Using Hierarchical Clustering, Semantic Web Mining Workshop, 2001. [6] M. Degeratu, V. Hatzivassiloglou, Building Automatically a Business Registration Ontology, ACM International Conference Proceeding Series, Vol. 129, pp. 1-7, 2002. [7] S.S. Weng, H.J. Tsai, S.C. Liu, C.H. Hsu, Ontology construction for information classification, Expert Systems with Applications, Vol. 31, No. 1, pp. 1-12, 2006. [8] H. Alani, S.H. Kim, D.E. Millard, M.J. Weal, W. Hall, P.H. Lewis, N.R. Shadbolt, "Automatic Ontology-Based Knowledge Extraction from Web Documents", IEEE Intelligent Systems, Vol. 18, No. 1, pp. 14-21, 2003. [9] GATE (General Architecture for Text Engineering), http://gate.ac.uk [10] Dublin Core, http://dublincore.org [11] FOAF (Friend Of A Friend), http://www.foaf-project.org [12] Microformats, http://microformats.org [13] RDFa, http://rdfa.info [14] SIOC (Semantically-Interlinked Online Communities), http://sioc-project.org [15] SKOS (Simple Knowledge Organization System), http://www.w3.org/2004/02/skos [16] 국민대학교한글공학-정보검색연구소, http://nlp.kookmin.ac.kr [17] 강승식, 한국어복합명사분해알고리즘, 정보과학회논문지, Vol. 25, No. 1, pp. 172-182, 1998. [18] 김미혜, FCA 개념망기반개인정보관리, 인터넷정보학회논문지, Vol. 6, No. 6, pp. 163-178, 2005. [19] J. Eijck, J. Zwarts, Formal Concept Analysis and 1227
한국산학기술학회논문지제 10 권제 6 호, 2009 Prototypes, Workshop on the Potential of Cognitive Semantics for Ontologies, September 2004. [20] B. Ganter, R. Wille, Formal Concept Analysis: Mathematical Foundations, Springer-Verlag, 1999. [21] Pellet OWL Reasoner, http://www.mindswap.org/2003/pellet [22] T.B. Lee, Linked Data, http://www.w3.org/designissues/linkeddata.htm 심준 (Joon Shim) [ 정회원 ] 2007 년 9 월 ~ 현재 : 고려대학교정보경영공학과석사과정 < 관심분야 > Semantic Web, Ontology 이홍철 (Hong-Chul Lee) [ 정회원 ] 1983 년 2 월 : 고려대학교산업공학학사 1988 년 2 월 : Univ. of Texas 산업공학석사 1993 년 2 월 : Texas A&M Univ. 산업공학박사 1996 년 3 월 ~ 현재 : 고려대학교정보경영공학과교수 < 관심분야 > SCM, 생산및물류정보시스템, PLM 1228