메타데이터와온톨로지 Metadata and Ontology 고영만성균관대학교문헌정보학과 http://slisnet.skku.ac.kr/~ymko Email: ymko@skku.ac.kr 메타데이터와온톨로지의관계 상황 서로다른데이터베이스가같은개념에대해서로다른식별자 ( 태그 ) 나서로다른단어를사용하는경우가점점많아지고있음. 문제점 전문분야가같은경우데이터베이스간의상호교환에많은문제가야기되며, 장기적으로는전문분야가다른경우에도문제가누적될것임. 해결방안 온톨로지구축에의한방법 공유되는개념화를정형적, 명시적으로명세화하는도구로서해결 메타데이터세트또는메타데이터요소간의호환성을온톨로지로유지시킴 메타데이터레지스트리 (MDR) 구축에의한방법 표준화된방법론에의한메타데이터요소의등록, 승인, 삭제 메타데이터레지스트리구축에서도서로다른형식의메타데이터세트와요소의호환을위해서는온톨로지가필요함. 2 1
온톨로지 (1/3) 용어의유래 철학의일부분으로존재론또는존재학 ( 存在學 ) 이라고도함 라틴어로는 'ontoligia' 라고하며, 이것은그리스어의 'on( 存在子 / 존재하는것 )' 과 'logos( 논 )' 로이루어진합성어로데카르트파의철학자 J. 클라우베르크 (1622 1665) 가처음으로사용 존재와존재자 ( 존재하는것 ) 의본성을연구하는형이상학의일부분, 세상의구성요소에대한명확한이해를연구하는철학의일부분 어떤존재자 ( 존재하는것 ) 에대한우리의모든이해와태도를이끌어가는본질을연구 존재적진리 (Ontisch Wahrheit) 존재하는것에대한이해는존재하는것의존재방식에대한이해에의해유도됨 예 : 곰보도보조개 ( 얼굴의흠에대한이해가그사람의나에대한존재방식에의해조종됨 ) 이규호 (1972) 3 온톨로지 (2/3) 언어학적전이 의미삼각도 = 나무 = 라는존재에대한개념 나무 ( 의미, 개념, 이해 ) 기의 의미의기호화 대상의지시 기표 ( 상징, 표시, 언어 ) 예 : 나무, 목, 木, Tree, Baum 대상에대한표상 대상 ( 지시물, 존재하는것 ) 예 : 특정한 = 나무 = 존재론 (Ontology) 의학문적연구결과물을온톨로지로전이해서사용 존재하는것들에대한개념체계 ( 개념의범주화혹은분류 ) 공유된개념 ( 화 ) 의정형적, 명시적명세 사람의마음속에존재하는내재적생각이나외재적세계의현상에대하여공유하고있는개념을명확하고명시적으로정의하고규정하는것 용어의의미관계와연결정보를보다유동적이고상세하게기술하기위해시소러스의확장개념으로사용 시소러스 : 계층적이고고정된형식으로용어의정의와개념간의관계를설정 4 2
온톨로지 (3/3) 컴퓨터분야에서의차용 공유된개념 ( 화 ) 의정형적, 명시적명세 사람의마음속에존재하는내재적생각이나외재적세계의현상에대하여공유하는개념을컴퓨터가이해할수있는형식으로명확하고명시적으로정의하고규정하는것 연구분야 전문용어학 (Terminology) 분야 : 전문분야온톨로지 데이터베이스분야 : 메타데이터온톨로지 메타데이터요소와셋의공유및표준화 메타데이터레지스트리 시맨틱웹 (Semantic Web) 분야 : 웹온톨로지 ( 메타데이터온톨로지의일종 ) 인공지능 (AI) 분야 : 의미망온톨로지 (Semantic Net Ontology) 시소러스와의미망의결합을통한지식표현 (Knowledge Representation) 과추론기술개발 5 온톨로지개발 (1/3) - 언어학분야 시소러스 (Thesaurus) 의미망구축의기초 문헌정보학의전통적연구영역 의미망 (Semantic Network) 형식적인면에서시소러스와유사하나, 한어휘가가지고있는다른어휘들간의관계를망 (network) 으로나타낸것 단어의의미, 개념간의연상관계등을표현하는네트워크로서노드와링크, 관계표시등의결합으로이루어진도식적인표현 (diagrammatic representation) 으로이루어짐 지식표현의관리알고리즘을이용한다양한추론기술및데이터베이스와같은역할을고려한전산적표현 (computational representation) 으로이루어짐 언어학 ( 자연어처리분야 ) + 전산학 => 인공지능분야연구영역 6 3
온톨로지개발 (1-1/3) 시맨틱네트웍 ( 의미망 ) 의미망에의한문장표현 의미망에의한개념표현 옥철영 (2004) 7 온톨로지개발 (2/3) - 메타데이터분야 메타데이터온톨로지 서로다른데이터베이스가같은개념에대해서로다른식별자 ( 태그 ) 혹은서로다른단어를사용할경우이를해결해주기위해공유되는개념화를정형적, 명시적으로명세화한집합체 postal code와 zip code를사용하는두개의 DB에들어있는정보를비교하거나통합하려는프로그램에서는 postal code와 zip code가같은의미를지칭하는메타데이터요소 / 식별자라는것을알아야함 MARC, 더블린코어와같은메타데이터세트의호환을위한메타데이터레지스트리 (MDR) 구축에중점을두고있음 사전예방에의한문제해결지향 최근확장메타데이터레지스트리 (XMDR) 에대한연구가진행중 8 4
온톨로지개발 (3/3) - 시맨틱웹분야 시맨틱웹 1999 년, Tim Berners-Lee (W3C) 2001 년 2 월공식적으로 Semantic Web Activity 착수 웹상에존재하는자료에의미를부가하고사람이관여하지않아도컴퓨터가자동으로처리할수있는차세대지능적인웹 웹상에존재하는정보들을사람뿐만아니라컴퓨터프로그램같은기계들이해독하고작업하기용이하게표현 정보간의유기성까지체계적으로표현 : 정보공유체제마련 자연어위주의기존웹문서와달리컴퓨터가해석하기쉽도록의미를부여한계층을가짐 웹에의미 (Semantic) 를부여한다는것 사용자인터페이스를위한자연어처리기능을부가하고자하는것이아니라컴퓨터가처리하기용이하게하고자선언적인추가정보를부여하는것을뜻함 웹온톨로지 메타데이터온톨로지의일종으로서시멘틱웹의중심개념중하나 웹문서를생성하는마크업언어에서정의된동일의미의다른명칭식별자 ( 태그 ) 또는같은내용을다른구조로정의하는식별자등에의해발생되는호환상의문제를해결하기위해공유되는개념화를정형적, 명시적으로명세화한집합체 온톨로지언어 (XML 기반의 RDF, DAML+OIL, OWL, Topic Map 등 ) 의개발에중점을두고있음 : 사후처방에의한문제해결지향 9 시맨틱웹에서의온톨로지 (1/7) - 시맨틱웹의계층구조 Rules Trust Selfdesc, doc... Data Data Proof Logic Ontology Vocabulary RDF + RDF Schema Digital Signature 국외에서는많은온톨로지자료를바탕으로많은연구가이루어지고있으나국내에서는연구가거의없거나, 국외의온톨로지를이용하고있는실정 XML + NS + XML Schema 국내외적으로많은연구가진행된상태 Unicode URI 외국한국 - W3C ( 재인용, 옥철영 2004) 10 5
시맨틱웹에서의온톨로지 (2/7) - 시멘틱웹과 XML HTML 에대한 XML 의장점 출력형식만을정의하는 HTML 에비해잘정의된구조화문서작성 의미정보를나타낼수있는태그이름을자유롭게정의하여사용 XML 의표현방법이시멘틱웹구현에어려운점 문서요소들의구조적정의만을제공하며정보리소스사이의의미적관계를정의하지는않는다. 태그의사용에대한규칙은 DTD 혹은 XML 스키마에의해정해질수있으나이들의의미를컴퓨터가이해하지는않는다. 서로다른사람이같은문서를작성할때같은의미를뜻하는다른이름으로태그를정의하여사용할수있음 같은내용에대해다양한구조의 XML 문서를사용할수있음 ( 예 ; 구조를세분화해서사용 ) <date>12/03/59</date> <date> <day>12</day> <month>03</month> <year>59</year> </date> 11 시맨틱웹에서의온톨로지 (3/7) - 시맨틱웹과 RDF XML 에대한 RDF 의잇점 구조측면에서 XML에서와같이서로다른구조를가진여러가지표현방법이존재하지않으므로같은내용에대해서는해석이하나로만귀결됨 RDF가시멘틱웹구현에부족한점 의미측면에서 XML의문제점인태그이름의중첩성과모호성이여전히존재 XML에서와마찬가지로서로다른태그이지만실제로는같은의미일수있음 XML에서와마찬가지로같은태그이지만사용자에따라다른의미로사용될수있음 12 6
시맨틱웹에서의온톨로지 (4/7) - 웹온톨로지언어 주로 XML 기반의온톨로지언어를이용한웹온톨로지연구에집중 RDF 스키마와유사, 그러나보다확장된개념 - 옥철영 (2004) 국내의온톨로지언어 OWL 연구대부분을차지함 XML OIL DAML+OIL XOL SHOE OML RDF(S) XOL(Xml-based Ontology Exchange Language) SHOE(Simple HTML Ontology Extension) OML(Ontology Markup Language) RDF(Resource Description Framework) DAML(DARPA Agent Markup Language) OIL(Ontology Inference Layer) OWL(Ontology Web Language) 13 시맨틱웹에서의온톨로지 (5/7) - 웹온톨로지아키텍처 Logical Layer - Formal Semantics - Reasoning support - Heavyweight ontologies Higher Semantics DAML+OIL, OWL Schema Layer - Definition of Vocabulary - Lightweight ontologies Data Layer - Simple data model and syntax For metadata - RDF : Instances Semantics Structure & Syntax RDF Schema RDF XML Schema - 김홍기 (2002) 14 7
시맨틱웹에서의온톨로지 (6/7) - 온톨로지영역 시맨틱웹의완성에필요한온톨로지영역 데이터베이스메타데이터온톨로지 데이터베이스의메타데이터요소의의미중첩성과상이한메타데이터셋에따른모호성및태그구조의다양성해소 XML과 RDF를기반으로하는데이터베이스의연계성 웹온톨로지 상이한형식의웹문서태깅에수반되는의미의중첩성과구조의다양성해소 ( 용어 ) 온톨로지 시소러스와의미망의연계를통한의미망온톨로지완성 궁극적으로웹온톨로지가 ( 용어 ) 온톨로지에포함되는온톨로지구축 15 시맨틱웹에서의온톨로지 (7/7) - 웹온톨로지표준화 W3C RDF DAML-OIL (DARPA Agent Markup Language-Ontology Interface Layer) OWL ISO/IEC Topic Maps 16 8
온톨로지의종류 (1/3) 시스템측면 언어온톨로지 (Linguistic Ontology) 텍스트, 말뭉치등에서추출된데이터나정보에대한자연어인터페이스를지원하는온톨로지 CYC 온톨로지, EDR, WordNet 공리온톨로지 (Axiomatized Ontology) 정보시스템과관련된영역의부분적이해를표현하는데이용되는규칙, 이론, 제한점등의스키마나어플리케이션을자동으로생성시키는것을지원하는온톨로지 웹온톨로지 언어온톨로지 + 공리온톨로지 인공지능온톨로지 시소러스 + 의미망 (semantic net) => 의미망온톨로지 (?) 17 온톨로지의종류 (1-1/3) 언어온톨로지사례 (CYC) J.F. Sowa (2001) 18 9
온톨로지의종류 (1-2/3) 공리온톨로지사례 FORALL X, Y X : Researcher[cooperate With->>Y]<-> Y : Researcher[cooperate With->>X]. FORALL X,Y X : Person[Publication->>Y]<-> Y : Publication[author->>X]. FORALL X,Y X : Person[editor->>Y]<-> Y : Publication[editor->>X]. FORALL X,Y X : PhDStudent[supervisor->>Y]<-> Y : AcademicStaff[supervises->>]. FORALL X,Y X : JournalArtical[journal->>Y]<-> Y : Journal[containsArticle->>X]. 19 온톨로지의종류 (2/3) 구축범위에따른구분 일반온톨로지 (generic or common-sense ontology) 우리주위를둘러싸고있는세상을구성하는일반적개념들을대상으로구축한온톨로지 공간, 상태, 사건, 시간과같은일반적이고포괄적이지식에대하여의미론적연관관계를구축한개념의집합체 CYC http://www.opencyc.org/ EDR http://www.iijnet.or.jp/edr/, http://www2.nict.go.jp/kk/e416/edr/index.html WordNet http://wordnet.princeton.edu/ 영역온톨로지 (domain ontology) 특정 ( 주제 ) 영역에서유효한지식들을대상으로구축한온톨로지 구체적인사물혹은특정학문영역과같은제한된영역에서의미론적연관관계를구축한개념의집합체 20 10
온톨로지의종류 (3/3) 구축대상에따른구분 메타데이터온톨로지 데이터베이스정보의의미론적연결을위한기술어휘와기준의집합 웹온톨로지 넓은의미에서메타데이터온톨로지의한종류 웹문서작성언어의태깅과정의에필요한기준과기술방식의의미론적연결 표현온톨로지 (representational ontology) 특정영역 (domain) 에해당하지않으면서무엇을표현해야하는지에대한언급없이프레임, 슬롯, 제한을기술함으로서개체 (entity) 를표현하는온톨로지 업무온톨로지 (method/task ontology) 특정한업무에관한정보를제공하는온톨로지 21 온톨로지와웹온톨로지의비교 - 옥철영 (2004) Ontology Web Ontology 정 의 공유된개념화에대한형식적이고명백하게상세화하는것 웹문서에나타난지식을표현하고, 공유하며, 재사용할수있도록하는온톨로지 활용분야 지식또는정보의체계화와응용화등에관련된모든분야 Semantic Web, E-Commerce, Agent, Web Service 등웹관련분야 구축언어 특정한온톨로지구축언어없음 Web Ontology Language (RDF, DAML+OIL, OWL, Topic Maps) 구축대상 단어, 어휘 ( 개념 ), 전문용어 웹의정보를공유할수있는단어, 어휘, 전문용어등 구축사례 WordNet, CYC, UMLS, EDR, Lexical FreeNet, ETRI CoNet 실험적수준 ( 기존온톨로지의변환 ) 22 11
주요참고문헌 김홍기, 2002. 보이지않는공간의혁명 : 시맨틱웹 개념과이해. ZDNet Korea, 2002.4.10. http://www03.zdnet.co.kr/techupdate/trend/0,39024505,10047655-8,00.htm 신효식, 2004. 전문분야온톨로지구성을위한전문용어의개념적특질연구. 독일언어문학제 25 집 (2004.9), 81-96 옥철영, 2004. 한국어정보처리와온톨로지. 한국어정보처리연구회동계튜토리얼, 성신여대, 2004. 2. 13. 이규호, 1972. 앎과삶. 서울 ; 연세대학교출판부. 최중민, 2003. 시맨틱웹의개요와연구동향. 한국어정보처리연구회동계튜토리얼, 성신여대, 2004. 2.13. Capurro, Rafael, 2002. Beiträge zu einer digitalen Ontologie <http://www.capurro.de/digont.htm> Garshol, Lars M. 2002. What are Topic Maps? http://www.ontopia.net Garshol, Lars M. 2004. Metadata? Thesauri? Taxonomies? Topic Maps! <http://www.ontopia.net> Peeper, Steve, 2002. The TAO of Topic Maps. <http://www.ontopia.net> Sowa, John F. 2001. Building, Sharing, and Merging Ontologies. <http://www.jfwowa.com/ontology/ontoshar.htm> W3C, 2004. OWL Web Ontology Language Overview, W3C Recommendation 10 February 2004. <http://www.w3.org/tr/owl-features/> 23 12