DBPIA-NURIMEDIA

Similar documents
Microsoft Word WP_8.Geospatial Ontology_2010_3.doc

PowerPoint Presentation

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

Microsoft PowerPoint - CSharp-10-예외처리

고3-02_비문학_2_사회-해설.hwp

Microsoft PowerPoint - kimswld ppt

adfasdfasfdasfasfadf

PowerPoint Template

Microsoft PowerPoint - 26.pptx

Microsoft Word - src.doc

<B3EDB9AEC0DBBCBAB9FD2E687770>

PowerPoint Presentation

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

A 한국노동연구원 한국보건사회연구원 1998 년 한국사회과학자료원 2008년 2008년

설계란 무엇인가?

Sequences with Low Correlation

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

Microsoft PowerPoint UI-Event.Notification(1.5h).pptx

<313220BDC9C1D82DB0CBBBF620C5B0BFF6B5E520C8AEC0E5C0BB20C0CCBFEBC7D120BFC2C5E7B7CEC1F620C0DAB5BF20BBFDBCBA20BDC3BDBAC5DB20B0B3B9DF2E687770>

SIGIL 완벽입문

쉽게 풀어쓴 C 프로그래밍

국어 순화의 역사와 전망

Microsoft Word - ijungbo1_13_02

C++ Programming

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Microsoft Word - Lab.4

04 Çмú_±â¼ú±â»ç

2015 개정교육과정에따른정보과평가기준개발연구 연구책임자 공동연구자 연구협력관

Microsoft PowerPoint Relations.pptx

88.

. 스레드 (Thread) 란? 스레드를설명하기전에이글에서언급되는용어들에대하여알아보도록하겠습니다. - 응용프로그램 ( Application ) 사용자에게특정서비스를제공할목적으로구현된응용프로그램을말합니다. - 컴포넌트 ( component ) 어플리케이션을구성하는기능별요

PowerPoint Presentation

ISO/IEC 의온톨로지와메타데이터 표준화동향 한국과학기술정보연구원 김장원

q 이장에서다룰내용 1 객체지향프로그래밍의이해 2 객체지향언어 : 자바 2

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

(Microsoft PowerPoint - 07\300\345.ppt [\310\243\310\257 \270\360\265\345])

소프트웨어공학 Tutorial #2: StarUML Eun Man Choi

Microsoft PowerPoint - 11주차_Android_GoogleMap.ppt [호환 모드]

Microsoft Word - PLC제어응용-2차시.doc

쉽게 풀어쓴 C 프로그래밍

MVVM 패턴의 이해

Frama-C/JESSIS 사용법 소개

Microsoft PowerPoint - 27.pptx

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

No Slide Title

gnu-lee-oop-kor-lec06-3-chap7

DBPIA-NURIMEDIA

Windows 8에서 BioStar 1 설치하기

CC hwp

소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

C스토어 사용자 매뉴얼

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

전산학부전공과목이수요건 (2015 학년도이전입학생학사과정용 ) 공통이수요건은반드시따로확인하시기바랍니다. 졸업이수학점 : 총 130 학점이상이수 ( 특이사항 ) 기초선택이수요건 : - 기초선택교과목으로선형대수학개론을반드시포함하여야하며, 복수전공이수자는선형대수학개론을반드시

Microsoft Word - Armjtag_문서1.doc

Chap 6: Graphs


ThisJava ..

멀티미디어 콘텐츠 접속을 위한 사용자인증 시스템_교열(박세환, ).hwp

08( ) CPLV15-61.hwp

Chapter ...

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

PowerPoint Presentation

제11장 프로세스와 쓰레드

PowerPoint Presentation

PowerPoint 프레젠테이션

항목

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

JAVA PROGRAMMING 실습 08.다형성

<464B4949B8AEC6F7C6AE2DC0AFBAF1C4F5C5CDBDBABBEABEF7C8AD28C3D6C1BE5FBCD5BFACB1B8BFF8BCF6C1A4292E687770>

DBPIA-NURIMEDIA

**09콘텐츠산업백서_1 2

Microsoft PowerPoint - ch09 - 연결형리스트, Stack, Queue와 응용 pm0100

View Licenses and Services (customer)

저작권기술 Newsletter 2018 년 15 호 1 저작권신기술동향 (Hot Issues on the R&D) 저작권관련최신특허기술 N- 스크린스트리밍을위한 CAS 기술특허 해외저작권기술소개 불법스트리밍링크에대한차단기술 국내저작권기술소개 스트리밍콘텐츠에대한필터링기술

제 1 절 복습 \usepackage{ g r a p h i c x }... \ i n c l u d e g r a p h i c s [ width =0.9\ textwidth ] { b e a r. j p g } (a) includegraphics 사용의일반적인유형

2 Journal of Disaster Prevention

Chap 6: Graphs

< 목차 > Ⅰ. 개요 3 Ⅱ. 실시간스팸차단리스트 (RBL) ( 간편설정 ) 4 1. 메일서버 (Exchange Server 2007) 설정변경 4 2. 스팸차단테스트 10

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로

......

Chapter 4. LISTS

저작권관련최신특허기술 어도비, VR/AR 디지털저작권관리기술 기술분야 : 저작권침해예방기술 적용시장 : VR/AR 콘텐츠소비시장 기술개발의배경 디지털저작권관리기술은디지털콘텐츠의사용을관리함과동시에제어하기위해사용된다. 예를들면, 디지털콘텐츠의변경, 사용또는배포행위를관리하는

<B1E8BFEBB9FC2E687770>

13-01.hwp

경우 1) 80GB( 원본 ) => 2TB( 복사본 ), 원본 80GB 는 MBR 로디스크초기화하고 NTFS 로포맷한경우 복사본 HDD 도 MBR 로디스크초기화되고 80GB 만큼포맷되고나머지영역 (80GB~ 나머지부분 ) 은할당되지않음 으로나온다. A. Window P

08( ) CPLV15-64.hwp



- 2 -

OCW_C언어 기초

Microsoft Word - logic2005.doc

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작권동향 2019 년제 15 호 미국 YouTube, 기존의저작권침해신고방식을개편할것이라는계획을발표하다 유현우 ( 단국대학교일반대학원 IT 법학협동과정지식재산권법전공박사과정수료 ) 2019년 7월 9일 YouTube는최근이슈가되고있는크리에이터의

는이미 VR을영상콘텐츠에접목하는다양한방법이시도되고있다. 현재 VR 방송영상콘텐츠는쉽게생산할수있는성인콘텐츠가주를이루고있다. 하지만단순한방식으로촬영하고편집한경우가많기때문에완성도와품질은많이떨어지는실정이다. 이에반해새롭게시도되는영상광고분야는다양한장점을가지고있다. 새로운기술을가

PowerPoint Template

Microsoft PowerPoint - 30.ppt [호환 모드]

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

C# Programming Guide - Types

03( ) SAV11-40.hwp

JVM 메모리구조

Transcription:

정보과학회논문지 소프트웨어및응용제 권제 호 의 어노테이션을위한반자동온톨로지모델링 최정화 허길 박영택 본연구는 의지능형검색을가능하게하는 어노테이션을위해효율적인반자동온톨로지모델링기법을제안한다 제안하는방법은워드넷 으로부터특정도메인 또는장르 을대표하는콘텐츠에관련된키워드의상 ž 하위어와동의어에해당하는부분트리를추출하고 워드넷에없는외래어 한자어등은확장하여콘텐츠온톨로지를구축한다 이온톨로지는보편적계층구조와특정계층구조를생성한다 전자는콘텐츠와관련키워드를제약기술 을포함하는클래스로정의한어휘의의미모델이다 후자는생성된모델에함의관계 추론기술을적용하여키워드를관련있는콘텐츠로추론한모델이다 어노테이션은이온톨로지를기반으로 에콘텐츠와장르의메타데이터를의미기반으로생성한다 보편적계층구조는서비스도메인에독립적으로재사용이가능하며 특정계층구조는서비스목적에맞는완전하고함축적인모델을생성한다 제안하는방법은서비스도메인에상관없이적용가능한알고리즘이며 건의테스트데이터로어노테이션결과를평가하여 의정확도를보였다 키워드 온톨로지 워드넷 코렉스 반자동어노테이션 메타데이터 본연구는숭실대학교교내연구비지원으로이루어졌습니다 학생회원 종신회원 숭실대학교컴퓨터학과 숭실대학교컴퓨터학부교수 논문접수 년 월 일 심사완료 년 월 일 C 한국정보과학회 ː 개인목적이나교육목적인경우 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다 이때 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처 를반드시명시해야합니다 이외의목적으로복제 배포 출판 전송등모든 유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야 합니다 정보과학회논문지 소프트웨어및응용제 권제 호

의 어노테이션을위한반자동온톨로지모델링 1. 서론 는기존의 를통해과거또는최신의 방송프로그램 영화 뮤직비디오등의 를신청해보는 주문형 서비스가가능하다 주문형서비스의장점중하나는사용자개개인에따라개인화가용이하다는것이다 개인화를실현하기위해서는시청자들이입력하는다양한요구의어휘를처리하는기술이필요하다 하지만사람이사용하는어휘는너무방대하므로 기계또는소프트웨어에이전트가처리하기위해서는텍스트에서어휘를추출하여의미를부여한어휘의미망을구축하는기술이필요하다 워드넷 은영어어휘의의미관계를계층망형태로설정한어휘사전으로널리활용된다 하지만워드넷은너무방대하고어휘의분류체계 만을제공하여서비스도메인에따른필터링과어휘의의미를고려한관련어휘의추론이필요하다 본연구는 의지능형검색을가능하게하는 어노테이션 을위해콘텐츠 온톨로지 의반자동모델링방법을제안한다 제안하는방법은특정도메인을대표하는콘텐츠에관련된방대한어휘를의미기반으로온톨로지에반자동모델링하는방법과이온톨로지기반의 어노테이션자동화를위한방법이다 온톨로지는메타데이터를표현하기위한해당분야의개념모델이다 어노테이션은문장이나문서에추가적인정보를기입하는것을말하며 이정보를메타데이터라고한다 예를들어 범죄 관련영화 는제목과줄거리등의텍스트를포함하고 소프트웨어에이전트는 범죄 관련용어를알고있을때그 를범죄영화로추천할수있다 본논문에서제안하는방법의원리를살펴보면 영화는여러개의장르 범죄 코미디 액션등 로구분되고 장르를대표하는여러개의콘텐츠 범죄 형사 범죄조직등 코미디 로맨틱 가족등 로세분화할수있다 이를기반으로콘텐츠에관련된키워드 범죄 형사 범인 수사등 범죄 범죄조직 보스 킬러등 의어휘개념이온톨로지에정의되어있을때 에이전트는 에메타데이터를생성하고 메타데이터를기반으로 를추론및추천할수있다 제안하는온톨로지는보편적계층구조 와특정계층구조를생성한다 보편적계층구조는서비스도메인에독립적인어휘모델링방법이다 이방법은콘텐츠에관련된키워드를워드넷에정의된어휘로매핑하고 그어휘의상ž하위어와동의어의부분트리 를추출하고온톨로지설계자가확인하는것을반복하여온톨로지를반자동으로생성한다 반자동모델 링은사용자의검증단계를추가하여자동화로부터발생할수있는오류를방지할수있다 제안하는방법은또한어휘에의미를부여하기위해온톨로지모델링시에콘텐츠는도메인제약을기술 한클래스로정의하고 콘텐츠키워드는존재양화사 제약을가지는클래스로기술한다 하지만워드넷은영어어휘의의미망이므로한국어로된외래어나한자어등은포함하지않는다 따라서워드넷에정의되지않은단어에대해서는대체어휘로앵커링 하여어휘의부분트리를확장한다 다음으로특정계층구조는생성된온톨로지에함의관계 추론방법을적용하여도메인에종속적인어휘모델을자동생성한다 함의관계추론은도메인제약과존재양화사기술의상관관계를이용하여온톨로지에정의된키워드들이관련된특정콘텐츠로추론되도록한다 본연구에서는이렇게구축된온톨로지를기반으로 어노테이션정보를사용해서 를관련콘텐츠로자동분류한후 온톨로지를사용해서 의지능형검색을가능하게한다 본논문은다음과같은순서로구성된다 장에서는온톨로지모델링과어노테이션에대한관련연구를살펴보고 장에서는콘텐츠온톨로지의반자동모델링방법과 어노테이션원리 그리고이를기반으로구축한시스템을설명한다 장에서는어노테이션결과를평가하여본연구의타당성과정확성을검증한다 마지막 장에서는결론을맺고향후연구를제시한다 2. 관련연구온톨로지모델링선행연구들 을살펴보면 어휘온톨로지를응용프로그램의서비스도메인에한정없이워드넷과같은어휘사전에정의된대용량어휘를대상으로분류체계를만드는방법에만중점을두었다 는워드넷에정의된동의어집합에서대표단어를추출하여클래스로정의하고 나머지단어들은그클래스의인스턴스로자동모델링한다 는 코퍼스 를어휘사전으로사용하여어휘분류체계를반자동모델링하며 특정도메인에관련된방대한어휘를모두온톨로지에정의하는방법으로응용프로그램에적용하기에는무겁다 은한데이터베이스에저장된어휘들 예 이워드넷에동일한의미 예 프로그래밍언어 로정의되어있으면 그의미를상위어를갖도록자동모델링한다 이연구는관련있는어휘들이저장된데이터베이스일경우와관련어휘가동일한문장으로의미가정의되어있을때만정확도가높다

정보과학회논문지 소프트웨어및응용제 권제 호 어노테이션연구들 을살펴보면 와 은텍스 트에포함된어휘가온톨로지에인스턴스로정의되어있 으면 그인스턴스의클래스로어노테이션한다 어노테이 션한결과는상 하위클래스또는클래스 인스턴스사 이의포함관계를찾는것에만국한한다 은어노테이 션시에어휘 가온톨로지에정의되지않은경우는어 휘 와인접하여나타난어휘 가온톨로지에클래스로 정의되어있으면 그클래스의인스턴스로어휘 를추 가하여온톨로지를확장한다 이연구는입력데이터인 온톨로지 텍스트 그리고텍스트에서의어휘추출패턴 에따라온톨로지와어노테이션의정확도가좌우된다 본연구는특정도메인의응용서비스에사용되는중 요어휘들을추출하여온톨로지에클래스로정의하고 워드넷에정의된어휘의의미를클래스에기술로써정 의하여분류체계가아닌계층구조를생성한다 그리고 기술을기반으로관련된어휘들의추론된분류체계를 생성한다 또한워드넷에정의된상 하위어와동의어의 집합으로어휘를계층구조에추가하므로어휘의중의성 이해결되고 워드넷에정의되지않은어휘도온톨로지 에추가하여확장한다 반자동모델링은온톨로지설계 자의주관이개입되지않은일관된어휘체계의자동 작성을돕고 자동화로인한오류를사용자의검증을통 해해결한다 이방법은새로운어휘가추가되어도계층 구조에삽입이쉬우며 어노테이션시에새로운알고리 즘을적용할필요가없이온톨로지분류체계를기반으 로자동화된어노테이션을지원한다 3. VOD 어노테이션위한반자동콘텐츠온톨로지모델링 본연구는 의지능형검색을위해서 도메인 또는장르 별콘텐츠에대한온톨로지를반자동구축하는방법을제안한다 그리고생성한온톨로지를기반으로 어노테이션을자동화하는방법을보인다 제안하는방법은콘텐츠어휘온톨로지반자동모델링과 어노테이션으로구성된다 그림 은본연구에서제안하는시스템구조이다 시스템구조를간단히살펴보면 콘텐츠온톨로지는콘텐츠별관련된어휘에매치되는부분트리를워드넷에서추출하여클래스로기술되고 정의되지않은어휘는의미를확장하여콘텐츠클래스를확장한다 어노테이션은새로운 데이터가입력되었을때콘텐츠온톨로지를기반으로콘텐츠를추론한다 과 절에서제안하는방법을설명하고 절에서이방법을이용하여구축한시스템을보인다 3.1 VOD 콘텐츠온톨로지콘텐츠온톨로지구축과정은네단계로이루어진다 각장르의시놉시스 학습데이터 로부터콘텐츠키워드추출 키워드와워드넷의연결 워드넷의부분트리를온톨로지에표현 그리고워드넷에정의되지않은키워드를위한앵커링이다 장르 콘텐츠 콘텐츠키워드의정의본연구에서는 정보를세가지특성으로구분한다 장르 콘텐츠 콘텐츠키워드이다 장르 는 의대분류로써 예를들면영화 는 코미디 전쟁 판타지 미스터리등으로나눌수있다 콘텐츠 는멀티미디어데이터의특징을파악하는데바탕이되는재료로써 장소 시대 등장인물 행동 감정따위가모두콘텐츠가될수있다 콘텐츠키워드 는 그림 시스템구조

의 어노테이션을위한반자동온톨로지모델링 콘텐츠를유추할수있는어휘들의집합이다 영화 의 장르를예로들어보면 콘텐츠는우주 재난 로봇 괴수등이될수있으며 이중콘텐츠 우주 의콘텐츠키워드는지구 외계 우주선 행성등이될수있다 장르는현재영화또는드라마웹서비스에서통상적으로제공되는분류이다 하지만콘텐츠에대한검색을제공하는일반적인서비스는없다 따라서본연구에서제안하는방법은 뿐만아니라콘텐츠기반검색이필요한개인미디어관리시스템에도활용되어사용자자신이사용하는어휘로개인미디어메타데이터를생성하고자신의어휘를사용하여질의하도록지원할수있다 온톨로지를이용한 장르 콘텐츠 콘텐츠키워드의정의본논문에서는온톨로지 의 은클래스 의집합 는속성집합으로표현한다 온톨로지 는 각클래스 의집합으로표현한다 장르 콘텐츠 콘텐츠키워드는의미기반계층구조로정의하기위해클래스로정의한다 장르 는 식 콘텐츠 는장르의하위클래스로정의한다 식 콘텐츠키워드 는 시놉시스 에포함된단어의집합이다 식 각장르의학습데이터로부터키워드추출콘텐츠온톨로지구축을위해서는 별장르를구분하고장르별콘텐츠를추출하는과정이필요하다 이자연언어처리과정은언어전문가가개입하는것이바람직하다 하지만전문가가작성하여활용가능한콘텐츠별분류체계는없고 있다고해도전문가에따라주관이개입되어분류체계가일관적이지못하다 본논문에서는전문가의지식수준을대신하기위해정확도와신뢰도가높은텍스트마이닝기법을사용한다 학습데이터로는장르별 시놉시스를수집한다 그리고시놉시스에포함된단어들간의군집화실험을하여군집에서대표단어들을추출하여키워드집합을만든다 다음으로그집합을특징지을수있는단어를선정하여콘텐츠로정의한다 텍스트마이닝에사용한 클러스터링알고리즘 은군집영역에속하는모든점으로부터군집중심까지의거리의제곱의합으로정의되는성능지표를최소화하는데바탕을둔방법이다 알고리즘에다음과같은성능개선방법을적용하여중심벡터를구한다 초기중심벡터를선정 중심벡터위치에따라결과가크게좌우되지않도록한다 랜덤하게하나의중심벡터를선정한다 바로전단계에서선정된중심벡터에서가장멀리떨어진노드를다음중심벡터로선정한다 개의중심벡터가선정될때까지반복한다 단어필터링 특징벡터생성시변별력있는단어들을추출한다 가높은상위 단어와 가낮은하위 의단어를제거한다 한글자로이루어진단어를제거한다 기타불용어목록에포함된단어를제거한다 노드평준화 하나의노드에의해대표단어가좌우되지않도록한다 클러스터에스케일이큰이상값이포함될경우이상값에의해대표단어가좌우될수있으므로문서의스케일을다음식으로평준화하여해결한다 log 다음으로각클러스터의중심벡터에서가장높은값을갖는상위 개의단어를클러스터의대표단어 즉콘텐츠키워드로추출한다 그리고대표단어들을포괄하는단어를콘텐츠로정의한다 이전처리작업이끝나면선정키워드들의의미를분석하는과정이필요하다 이과정은다음절에서살펴본다 키워드와워드넷어휘의연결본연구는한국 데이터를대상으로연구하기위해워드넷과함께코렉스 를사용한다 절에서추출한콘텐츠와콘텐츠키워드는 절에서언급한방법으로온톨로지에클래스로정의된다 다음으로콘텐츠키워드는워드넷에정의된어휘로매치되어그어휘의상 하위어와동의어의부분트리를가져와서온톨로지에클래스로추가하는과정을반복한다 하지만워드넷은영어어휘사전이고 코렉스는이를번역해놓았기때문에한국어어휘를모두포함하지않으며언어체계역시다르다 따라서본논문에서는이를고려하여콘텐츠키워드가워드넷에정의된경우와워드넷에정의되지않은경우로나누어처리한다 워드넷의부분트리를온톨로지로표현하기위해서는워드넷의의미관계를온톨로지의공리에대입해야한다 키워드클래스를기준으로상위어는상위클래스 하위어는하위클래스 동의어는등가 클래스로정의한다 다음으로 절과 절에서위에서언급한두가지경우에대한온톨로지표현방법을각각설명한다 워드넷의부분트리를온톨로지에표현온톨로지지식베이스는 와 로구분된다 는어플리케이션도메인의어휘를정의하며

정보과학회논문지 소프트웨어및응용제 권제 호 는 어휘의용어로구성된다 본연구의콘텐츠어휘는 에정의하며 기술구축과 추론의두단계로구성된다 그림 기술은클래스에대한클래스명 제약조건 등 컨스트럭터 등 인스턴스집합을포함한다 각단계는서로다른어휘의미망을형성한다 보편적계층구조와특정계층구조이다 그림 의 기술구축은 기술구축알고리즘을이용하여보편적계층구조를생성한다 생성과정을살펴보면 콘텐츠키워드 를온톨로지에클래스로정의하고 절의알고리즘을이용해서추출한키워드에해당하는콘텐츠 를도메인으로하는속성을키워드클래스에존재양화사기술로추가한다 그리고 워드넷에서키워드 에대응하는어휘의부분트리를가져온다 이구조는다른응용도메인에도적용할수있는어휘계층구조이다 다음으로 추론은특정계층구조를생성한다 기술구축을통해정의된클래스사이의암시적인함의관계구조를명시적으로하여어휘계층구조를확장한다 즉 키워드클래스를키워드와연관된콘텐츠로추론하고 역으로콘텐츠클래스는관련된어휘들의계층구조를하위클래스계층으로포함한다 이구조는해당 도메인에만종속된체계이며 추론기능을이용한의미검색을가능하게한다 즉 사용자가검색하고자하는 의질의 콘텐츠 의키워드가 가있을때 이더라도 가의미적으로 의멤버가되면콘텐츠 을반환한다 따라서질의가키워드에정확하게매치되지않아도시맨틱검색을통해의미를확장하여근접한콘텐츠의 를추천해줄수있다 기술구축알고리즘은우선 에서언급한대로장르 콘텐츠 그리고키워드를생성한다 다음으로콘텐츠와콘텐츠키워드에제약사항을추가한다 콘텐츠 는 에속성도메인제약 기술을추가한다 식 즉 각콘텐츠 에자신을도메인으로갖는속성 를정의한다 키워드 는 에자신이대표하는콘텐츠의속성에대한존재양화사기술을추가한다 식 즉 절에서추출한콘텐츠키워드 는자신이대표하는콘텐츠클래스의속성 를하나이상갖도록존재양화사기술을추가한다 그리고워드넷으로부터키워드의상ž하위어 동의어를 절에서언급한방법으로추가하여각콘텐츠를워드넷의부분트리로표현한다 그림 는이과정을도식화한것이다 부분트리추출범위는상위어휘로올라갈수록너무포괄적인개념이어서시놉시스에포함될확률이낮고콘텐츠추론의정확도를떨어뜨리므로상위어는키워드의바로위의어휘만추출한다 하위어도바로밑의어휘만추출하지만 키워드를구체화하므로다중선택을허용한다 여기서추가로고려해야할점은키워드 상위어 하위어또는동의어가이미온톨로지에정의되어있는경우이다 따라서위에서설명한 기술구축알고리즘에표 의키워드부분트리구축알고리즘을추가한다 표 의확장된알고리즘에서하나의경우만살펴보자 키워드가온톨로지에정의된경우 키워드 의부분트리를확장한다 먼저 의상위어 의상위어집합 와하위어 의하위어집합 를추출하여 를만든다 다음으로 의계층구조에함의되는클래스 가온톨로지에이미정의되어있으면 클래스를새로정의하지않고 에 의기술을추가하여수 그림 콘텐츠계층구조구축과정

의 어노테이션을위한반자동온톨로지모델링 표 기술구축알고리즘확장 그림 워드넷에정의되지않은키워드의이음동의어 추출과정 정한다 반면에키워드어휘는같지만표 의조건을만족하지않는다면 다의어로간주하고 를새로운클래스로정의한다 키워드의상위어 하위어 그리고동의어에대해서도동일한처리를한다 표 은동음이의어에대해다른부분트리를생성하므로이알고리즘은어휘의중의성을고려한다 추론은 기술에온톨로지함의관계추론을적용하여추론된 분류체계 를보여준다 함의관계란클래스 가클래스 에포함되는지를검사하는데사용된다 즉 모든 에대해 이다 분류체계는단일클래스들의부분적인함의관계와계층구조를추론한다 이방법은서술논리추론시스템에의해제공된다 기술구축을통해얻은추론된 분류체계는 콘텐츠와콘텐츠키워드에기술을추가한계층구조이며 명시적으로정의한장르에속하는콘텐츠의함의관계를보인다 추론을통해얻은분류체계는암시적인콘텐츠와콘텐츠키워드의함의관계를통해콘텐츠에포함되는콘텐츠키워드를추론한다 이방법은일반적인어휘체계를기반으로서비스도메인에필요한어휘체계를구축할수있게한다 그림 워드넷에정의되지않은키워드를위한앵커링앵커링이란한자원으로부터다른자원에연결하는것을의미한다 워드넷은영어어휘를기반으로하므로한국어고유명사나한자어 그리고외래어등은정의되어있지않다 본논문은 도메인에적합한어휘체계의부분트리를온톨로지로구축하기위해워드넷에정의되지않은중요키워드에대해서는그림 의과정을통해 온톨로지를확장한다 워드넷에정의 되지않은키워드 은워드넷에정의된키워드의이음동의어와연결하여앵커링한다 예를들어 초능력 은코렉스에서검색되지않는다 그림 의과정을수행하면 초능력 의동의어 텔레파시 를추출 텔레파시 어휘검색 기술구축알고리즘을수행한다 또다른예로 야생 은 야생 의동의어를검색못함 검색 맹렬함 검색 기술알고리즘을수행한다 3.2 VOD 의콘텐츠어노테이션본장에서는구축된콘텐츠온톨로지를이용하여 어노테이션이자동으로되는방법을설명한다 어노테이션은콘텐츠온톨로지를기반으로수행되며 입력은 시놉시스이고출력은콘텐츠클래스이다 어노테이션과정은다음과같다 시놉시스 가입력되면 시놉시스로부터온톨로지에정의된키워드의집합 를추출한다 콘텐츠온톨로지에익명의클래스 를생성하고 추출된키워드들을이클래스의기술로생성한다 온톨로지함의관계추론을이용해서클래스 의상위클래스로추론되는콘텐츠클래스의집합 을구한다 추론된콘텐츠클래스는이 의콘텐츠가되고 콘텐츠의장르가이 의장르가된다 이와같은장르와콘텐츠는이 의메타데이터가된다 그림 는어노테이션의예로써영화 의시놉시스가입력되었을때 콘텐츠온톨로지를기반으로콘텐츠가추출되는원리를그래프형태로보여준다 이예는학습데이터로사용되지않은최신개봉영화 국가대표 의콘텐츠로 스포츠 와 우정 을어노테이션예이다 온톨로지추론을이용한시맨틱매칭이되는부분만설명한다 우선 대표 경기 올림픽 코치 등의키워드는 추론에의해 드라마 장르의 스포츠 콘텐츠로추론된다

정보과학회논문지 소프트웨어및응용제 권제 호 그림 의콘텐츠어노테이션의예 점프 는함의관계추론에의해 스포츠 의키워드의 시합 의하위어로매칭된다 엄마 는 어머니 와동의어로추론되며 아버지 는 어머니 의형제클래스로매칭되어 우정 콘텐츠로분류된다 추출된콘텐츠중가중치가가장높은콘텐츠가메타데이터로생성된다 3.3 응용프로그램을활용한 VOD 온톨로지모델링및어노테이션방법 본장에서는제안한방법을검증하기위해구축한응용프로그램을설명한다 반자동 콘텐츠온톨로지모델링결과그림 는제안한방법을통해구축한온톨로지모델링 및어노테이션 도구이다 이도구는두가지기능을제공한다 온톨로지반자동모델링과어노테이션이다 우선 이절에서는온톨로지반자동모델링에대 그림 온톨로지반자동구축및 어노테이션의예

의 어노테이션을위한반자동온톨로지모델링 해살펴본다 온톨로지모델링은두가지계층구조를생성한다 보편적계층구조와특정계층구조이다 보편적계층구조는서비스도메인에독립적인 즉어느서비스에서나활용될수있고 누구나동의할수있는보편적인어휘분류체계를보여준다 그림 의 특정한계층구조는온톨로지추론방법에의해형성된어휘계층구조로서비스도메인에종속적이다 그림 의 보편적계층구조는그림 의 의편집기를통해서키워드의부분트리를추가한다 이때 절에서언급한 기술구축알고리즘이적용된다 예를보면 설계자가자동으로추출된어휘중 조직 의상위어로 집단 하위어로 사회조직 과 부대 동의어로 체계 를선택함에따라 조직 클래스의기술은다음과같이보편적계층구조에추가된다 조직 집단 조직 체계그림 의 은보편적계층구조에온톨로지추론을적용하여특정계층구조를출력한화면이다 특정계층구조는함의관계추론을이용하여콘텐츠키워드를키워드의기술이함의되는콘텐츠클래스의하위개념으로분류한다 위의 조직 클래스의기술을보면 조직 은 체계 와같고 의속성을가진다 의도메인은 형사 이므로그림 의 에서 조직 은 형사 의하위어이고 조직 과등가개념으로추론된것을볼수있다 결론적으로특정계층구조 은콘텐츠에속하는콘텐츠키워드를모두추론하여보여준다 이구조는영화 도메인에종속적이다 어노테이션의구축결과이절에서는 절의온톨로지모델링을기초로어노테이션된결과를살펴본다 그림 의 는그림 에서살펴본예제 가어노테이션된결과를보여준다 국가대표 의콘텐츠로 우정 과 스포츠 가추출된것을볼수있다 4. 실험및평가제안한온톨로지반자동모델링방법은워드넷의부분트리를활용하여응용도메인에사용되는콘텐츠어휘의의미체계를온톨로지로구축하고 구축된온톨로지에추론기법을적용하여의미적으로가장적합한콘텐츠를추출하여 의메타데이터를생성한다 제안한방법의정확도검증을위해학습데이터에포함되지않은최신개봉영화를대상으로이영화의콘텐츠를사용자들에게선택하게하여구축한시스템의메타데이터결과와비교분석하였다 4.1 실험데이터실험도메인으로는대부분의웹사이트에서동일한장르체계를가지고 사람들이선호하는장르가분명한 영화 를선택하였다 콘텐츠의키워드추출을위한 학습데이터로는영화의각장르별 의시놉시스 를수집하였다 절에서언급한콘텐츠키워드추출 방법에적용한학습데이터는총 개의장르 건 공포 건 범죄 건 어드벤처 건 코 미디 건 전쟁 건 멜로 건 스릴러 건 판타지 건 미스터리 건 드라마 건 액션 건 이다 이학습데이터를 절에서언급한 방법을통해반자동온톨로지모델링한결과 클래스 개 속성 개 관계는 개 등가클 래스관계는 개를포함하는서술논리 의표현력 을가지는온톨로지를구축하였다 메타데이터생성에 사용된테스트데이터는학습데이터에포함되지않은 최신영화로각장르별 개의샘플데이터를선택하여 총 편의영화를추출하였다 4.2 성능평가방법 본시스템의성능평가방법은정답평가담당자간의 견해차이에따라정답기준이다다르므로샘플데이 터로추출한 건의영화에대해 명에게영화별콘 텐츠를선택하게하여정답집합을만들었다 그리고실 험결과로생성된메타데이터 콘텐츠 와비교하여시스 템을평가하였다 평가방법은실험대상영화의메타데 이터에대하여정확률 재현율 그리고 를계 산한다 정확률 는시스템이추출한콘텐츠 중 에서몇개가사용자도그영화의콘텐츠라고선택 맞은수 했는지비율을계산하며식 과같다 재현율 은사용자가만든정답 중본시스템이맞춘개 수 를평가하며식 과같다 는정확 률과재현율에동등한중요도를부여하기위해식 과 같이구한다 4.3 실험결과 그림 은본논문에서제안한방법을평가하기위해 어노테이션결과의정확도를나타낸그래프이다 그림 의결과를보면정확률 재현율 의우수한성능을보임을알수있다 정확률은높 지만비교적재현율이낮은이유는 도메인의특 성상사람들이생각하는 콘텐츠를모두추출할 수없기때문이다 즉 본시스템은가장적합하다고생 각하는상위몇개의콘텐츠를추출하고 사람들은더 폭넓은콘텐츠를정답으로원할수있게때문이다

정보과학회논문지 소프트웨어및응용제 권제 호 그림 실험평가결과 콘텐츠의부분집합이되는 는비슷한분포를보여준다 결론적으로어노테이션실험평가결과는 축구 슬래셔 우주 등과같이콘텐츠가분명할수록정확도가높았다 온톨로지모델링과어노테이션은사람들이사용하는어휘를다루는분야이기때문에사람들의지식과주관이개입되어변수가많이발생한다 하지만본논문에서제안한방법은워드넷의어휘분류체계를기반으로어휘의동음이의어와이음동의어를고려하여의미기반의어휘온톨로지를모델링한다 이모델은서비스도메인에따른계층구조를생성하며이를기반으로어노테이션하기때문에사람들에게더신뢰도가높은결과를얻을수가있었다 5. 결론및향후연구 그림 장르별어노테이션실험결과그림 영화별어노테이션실험결과그림 은장르별어노테이션실험평가결과를보여준다 이결과는시놉시스에포함된키워드들이유일할수록정확도가높게나왔다 어드밴처와범죄는콘텐츠가다양하므로정확도가대체적으로낮게나왔으며 멜로는해당콘텐츠가 섹스 댄스 음악 결혼 등으로폭이넓어서코미디의 로맨틱 콘텐츠를유사콘텐츠로처리하였고 따라서높은정확도를보여준다 그림 은영화별로살펴본어노테이션결과이다 그림 에서예제로살펴본 국가대표 의결과를살펴보면 재현율이정확도에비해많은차이로높은것을볼수있다 이이유는제안한시스템은우선순위가동등하게높게나온 스포츠 와 우정 콘텐츠로 국가대표 를분류하지만 대부분의사용자는 스포츠 만정답으로선택하였기때문이다 이와같이정답집합이시스템이추출한 본논문은검증된어휘분류체계인워드넷에서부분 트리를추출하여서비스도메인에적합한온톨로지를 모델링하는방법을제안하였다 제안한방법은지능형 검색을위한데이터어노테이션을목표로설계되었다 본논문에서는 의지능형검색을위해 에어 노테이션하는것을목표로서술되었지만 의미검색서 비스의모든도메인에적용될수있으며구축한온톨로 지를다른도메인에적용할수도있는일반적인접근법 을제안하였다 본연구에서온톨로지구축과메타데이터생성을반 자동으로한이유는모든어휘는의미중의성이존재하 기때문이다 그래서본연구에서는워드넷을이용하여 상 ž 하위어의매칭을통해이문제를고려하였다 향후 연구로는더지능적인의미모호성알고리즘을이용한 온톨로지구축과어노테이션도구를연구하고자한다 또한온톨로지에정의된개념들에확률을적용하여어 노테이션결과의정확성을향상시킬수있는방법의개 선이필요하다 참고문헌

의 어노테이션을위한반자동온톨로지모델링 허길 년 월삼육대학교컴퓨터과학과졸업 학사 년 월 현재숭실대학교대학원컴퓨터학과석사과정 관심분야는시맨틱웹 상황인지 온톨로지추론 유비쿼터스컴퓨팅 개인화에이전트등 박영택 정보과학회논문지 소프트웨어및응용제 권제 호참조 최정화 정보과학회논문지 소프트웨어및응용제 권제 호참조