DBPIA-NURIMEDIA

Similar documents
KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

DBPIA-NURIMEDIA

자연언어처리

< FBEC8B3BBB9AE2E6169>

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

KD hwp

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

Microsoft PowerPoint - 26.pptx

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

Journal of Educational Innovation Research 2016, Vol. 26, No. 1, pp.1-19 DOI: *,..,,,.,.,,,,.,,,,, ( )

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Microsoft PowerPoint Relations.pptx

R을 이용한 텍스트 감정분석

., (, 2000;, 1993;,,, 1994), () 65, 4 51, (,, ). 33, 4 30, 23 3 (, ) () () 25, (),,,, (,,, 2015b). 1 5,

정보기술응용학회 발표

PowerPoint 프레젠테이션

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

PowerPoint 프레젠테이션

45-51 ¹Ú¼ø¸¸

#C-B1202

Coherence Relations in the Book of Jeremiah 30-33

<313220BDC9C1D82DB0CBBBF620C5B0BFF6B5E520C8AEC0E5C0BB20C0CCBFEBC7D120BFC2C5E7B7CEC1F620C0DAB5BF20BBFDBCBA20BDC3BDBAC5DB20B0B3B9DF2E687770>

C# Programming Guide - Types

도약종합 강의목표 -토익 700점이상의점수를목표로합니다. -토익점수 500점정도의학생들이 6주동안의수업으로 점향상시킵니다. 강의대상다음과같은분들에게가장적합합니다. -현재토익점수 500점에서 600점대이신분들에게가장좋습니다. -정기토익을 2-3번본적이있으신분

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Study on the Pe

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

레이아웃 1

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

김기남_ATDC2016_160620_[키노트].key

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

ÀÌÁÖÈñ.hwp

Ch 1 머신러닝 개요.pptx

À±½Â¿í Ãâ·Â


08( ) CPLV15-64.hwp

untitled

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

정보화정책 제14권 제2호 Ⅰ. 서론 급변하는 정보기술 환경 속에서 공공기관과 기업 들은 경쟁력을 확보하기 위해 정보시스템 구축사업 을 활발히 전개하고 있다. 정보시스템 구축사업의 성 패는 기관과 기업, 나아가 고객에게 중대한 영향을 미칠 수 있으므로, 이에 대한 통제

278 경찰학연구제 12 권제 3 호 ( 통권제 31 호 )

1. KT 올레스퀘어 미디어파사드 콘텐츠 개발.hwp

16(1)-3(국문)(p.40-45).fm

ADU

에너지경제연구 Korean Energy Economic Review Volume 9, Number 2, September 2010 : pp. 19~41 석유제품브랜드의자산가치측정 : 휘발유를 중심으로 19

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

PowerPoint Presentation

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

06 지식과 인공지능 (2)

03신경숙내지작업

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

A 617

08년csr3호

44-4대지.07이영희532~

<BFACBDC0B9AEC1A6C7AEC0CC5F F E687770>

Main Title

untitled

고3-02_비문학_2_사회-해설.hwp

<30352DC0CCC7F6C8F B1B3292DBFACB1B8BCD2B1B3C1A42E687770>

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

ISO/IEC 의온톨로지와메타데이터 표준화동향 한국과학기술정보연구원 김장원

ISO17025.PDF

Microsoft PowerPoint - kimswld ppt

슬라이드 제목 없음

DBPIA-NURIMEDIA

대한한의학원전학회지24권6호-전체최종.hwp

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

분석결과 Special Edition 녹색건물의 가치산정 및 탄소배출 평가 이슈 서 민간분야의 적극적인 참여 방안의 마련이 필요하다. 또한 우리나라는 녹색건축의 경제성에 대한 검증에 대 한 연구가 미흡한 실정이다. 반면, 미국, 영국, 호주 등은 민간 주도로 녹색건축물

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

:,,.,. 456, 253 ( 89, 164 ), 203 ( 44, 159 ). Cronbach α= ,.,,..,,,.,. :,, ( )

<BEEEB9AEB7D0C3D13630C8A32836BFF93330C0CFBCF6C1A4292E687770>

서론 34 2

untitled

Rheu-suppl hwp

step 1-1

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

2 大 韓 政 治 學 會 報 ( 第 18 輯 1 號 ) 과의 소통부재 속에 여당과 국회도 무시한 일방적인 밀어붙이기식 국정운영을 보여주고 있다. 민주주의가 무엇인지 다양하게 논의될 수 있지만, 민주주의 운영에 필요한 최소한의 제도적 조건은 권력 행사에서 국가기관 사이의

Microsoft Word WP_8.Geospatial Ontology_2010_3.doc

<B1B9B0A1B1E2B7CFBFF82DC3D6C1BEBAB8B0EDBCAD2DB4D9B5EBB1E22D2D41342D2DC0CEBCE2BFEB2D312E687770>

<B1E8BCF6C1A4BEC6BDC3BEC620BFA9BCBAC0C720B1B9C1A6B0E1C8A5BFA120B4EBC7D120B9CCB5F0BEEE20B4E3B7D02E687770>

03-최신데이터

Microsoft PowerPoint - MetadataandOntology.ppt

슬라이드 제목 없음

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: * The

,,,.,,,, (, 2013).,.,, (,, 2011). (, 2007;, 2008), (, 2005;,, 2007).,, (,, 2010;, 2010), (2012),,,.. (, 2011:,, 2012). (2007) 26%., (,,, 2011;, 2006;

<C0CCBDB4C6E4C0CCC6DB34C8A35F28C3D6C1BE292E687770>

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

보고서_pdf로.hwp

untitled

DBPIA-NURIMEDIA

03±èÀçÈÖ¾ÈÁ¤ÅÂ

DBPIA-NURIMEDIA

#Ȳ¿ë¼®

09한성희.hwp

µµÅ¥¸àÆ®1

DBPIA-NURIMEDIA

Transcription:

온톨로지의구축과학습 : 상하위관계 한국과학기술원최기선 류법모 1. 서론 온톨로지 라는용어에대한해석으로 an ontology is an explicit formal specification of a shared conceptualization 이라는 Gruber [1] 의정의를가장많이인용하고있다. 이정의를바탕으로온톨로지의세부적인정의를살펴보면, shared ( 공유 ) 라함은개념이해당영역구성원뿐만아니라컴퓨터간에합의된지식에바탕을두고있다는것을의미한다. conceptualization ( 개념화 ) 라함은대상세계에서일어나는현상에연관된개념들을특정목적을위하여표현하기위한추상적인모델을일컫는다. 또한 formal ( 형식적 ) 이라는것은기계가독형이어야한다는것을의미하며, explicit ( 명시적 ) 이라함은개념의종류와그들간의관계, 그리고그개념들의사용에있어서주어지는제약사항을명백하게정의한다는것이다 [2]. 기존의온톨로지들은대부분전문가의수작업으로구축되고있지만 [3], 시간및인적제약때문에실용적인온톨로지를구축하기어렵다. 앞으로온톨로지에서표현되는여러가지관계중에서가장핵심인개념간계층관계를자동으로추출하는방법을설명하고자한다. 이방법을통하여전문가의수작업을최소화할수있고, 여러전문가들의작업결과가일관성을가지게된다. 따라서기존의온톨로지를 구축 한다는개념에서온톨로지를 학습 한다는개념으로전환하게된다. 그림 1은온톨로지학습단계를케이크모양으로도식화한것이다. 온톨로지학습에서가장기본단계인 Terms 단계에서는온톨로지구축을위한대상용어를추출하고선정하며, Synonyms 단계에서는선정한용어들사이의동의어를찾아서그룹핑하고, Concepts 단계에서는그룹핑된용어들을개념으로표현하고, Concept Hierarchies 단계에서는개념들사이의상하위관계를설정하고, Relations 단계에서는상하위어관계이외의다양한관계를표현하며, 마지막으로 Rules 단계에서는개념사이의관계를논리형태로표현한다. 전체학습단계에서 Concept Hierarchies 는개념들을조직화하는가장기본적이고필수적인단계이다 [4]. 개념간상하위관계는개념간상속관계를표현하기때문에지능형시스템에서상하위어관계탐색을통한추론기능을제공한다. x, y ( sufferfrom( x, y) ill( x)) cure(dom:doctor,range:disease) is_a(doctor,person) DISEASE:=<I,E,L> {disease,illness} disease, illness, hospital Concept Hierarchies Concepts Synonyms Terms 그림 1 온톨로지학습단계케익 Rules Relations 용어계층구조는용어들사이의계층관계를설정하여조직화시킨것으로, 계층구조에포함된모든용어는한개이상의용어와계층관계를가진다. 계층관계는 IS-A, PART-OF, INSTANCE-OF 등의관계를포함한다. 여기에서는온톨로지의기본프레임워크인상하위어관계 (IS-A) 를포함한여러가지용어간계층관계를자동으로획득하기위한방법을설명한다. 먼저규칙기반학습방법을 2절에서설명하고, 통계기반방법을 3절에서그리고 4절에서용어의전문성과유사도를이용한방법을설명한다. 2. 규칙기반학습방법 2.1 어휘구문패턴기반학습방법 용어계층구조를구축하기위한규칙기반방법중가장널리알려진방법은어휘-구문패턴을이용하는방법이다. 이방법에서는어휘정보와구문정보가정규표현의형태로표현되고, 말뭉치또는웹에서패턴에일치하는부분을추출하여상하위어관계를설정한 24 2006. 4. 정보과학회지제 24 권제 4 호

다. 일반적으로영어를모국어로사용하는사람들이 a L 0 is a (kind of) L 1 패턴을만족하면 L 1 은 L 0 의 상위어 라고하고, L 0 는 L 1 의 하위어 라고한다. 상위어와하위어관계는전이적인성질을가진다. Hearst [5] 와 Caraballo [6] 는식 (1) 과같은어휘-구문패턴을이용하여단어의상하위관계를추출하였다. NP {, NP} {,} and other NP * 1 i 0 for all NP, 1 i n, IS A( NP, NP ) i i 0 (1) 여기에서 IS-A(w 1, w 2) 는 w 1 이 w 2 의하위어임을나타낸다. 예를들어문장 temples, treasuries, and other important civil buildings 에서 IS-A (temple, civil building), IS-A(treasury, civil building) 관계를추출할수있다. Berland [7] 는 Hearst가 IS-A 관계를추출한방법과유사한방법으로 전체 -부분 관계를추출하였다. 이연구에서는그림 2와같은패턴을사용하여전체-부분관계를 NANC (North American News Corpus, 약 100,000,000 단어 ) 에서 6개의명사 (book, building, car, hospital, plant, school) 의 부분 을추출하였다. 추출한결과에서추상적인의미를나타내는명사를간단한규칙을이용하여제거하였고, likelihood 함수를사용하여추출한 부분 들을정렬하였다. 정렬한 부분 중에서상위 50개를선택하여사람이검증하는방법으로평가하였다. 50개의상위순서 부분 중약 55% 정도가실제 부분 을나타내는명사였고, 20개의상위순서 부분 중약 70% 정도가실제 부분 을나타내는명사였다. A. whole/nn[ PL]'s/POS part/nn[-pl]... building's basement... B. part/nn[-pl] of/prep {the a}/det mods/[jj NN]* whole/nn... basement of a building... C. part/nn in/prep { the a}/det mods/[jj NN]* whole/nn... basement in a building... 표현형식: type_of_ word/tag type_of_word/tag... TAG 의종류 : NN=Noun, NN-PL=Plural Noun, DET=Determiner, PREP=Preposition, POS=Possessive, JJ=Adjective 그림 2 전체-부분관계를추출하기위한어휘-구문패턴 2.2 정의문패턴기반학습방법정의문패턴기반방법은용어의정의문에서많이나타나는패턴을이용하여계층관계를추출한다. Hearst [5] 가제안한어휘-구문패턴을이용하는방법 과유사하지만정의문패턴을중심적으로이용하는특징이있다. 정의문패턴을이용하면일반적인어휘-구문패턴을이용하는경우보다정확하게계층관계를추출할수있는장점이있다. 정의문은용어의의미를명확하고, 정확하고, 완벽하게표현하는문장이며, 과학기술문헌에서특정한개념, 동작, 객체등을설명하기위하여자주나타난다. ISO 704 규정에서는상위개념과그개념을다른개념과구분짓는의미특징 (characteristics) 를이용하여식 (2) 와같이용어의 정의문을구성한다 [8]. X = Y + 차별적의미특징 (2) 여기에서 X는정의될용어를말하며, Y는 X에대한 상위개념이다. 차별적의미특징 이란동위어 (cohypho- nyme) 들로부터그용어를구별해주는특징적인의미 속성을말한다. 어휘의미론적으로말하면, X 의내포적 의미자질집합 (set of intensional semantic features) 중에서 Y 의내포적의미자질집합을제거하고 남은의미자질을말한다. 동치관계를나타내는 = 는 연결동사 (connective verb) 라고불리는동사들로표 현된다. 영어의경우 be, mean, consist of 등의동사 가이에해당한다. 아래의영어단어 knife 에대한정의문에서밑줄로표시한부분이상위개념이고, 이탤릭체로표시한부분은의미특징이다 [9]. 즉 knife 의상위개념은 instrument 이고, which 이하절이의미특징을표현하는부분이다. 예 ) A knife is an instrument which is used for cutting. 정의문패턴을이용하여상하위어관계를추출하기위해서는정확한정의문을확보하는일이중요하다. 많은경우, 전문용어사전의정의문을이용할수있지만신조어인경우는기존에출판된전문용어사전에서정의문을찾을수없다. 따라서웹검색을이용하여정의문을먼저추출하고, 정의문패턴을적용하여용어의상위어를찾을수있다. 예를들어기계학습분야에서많이사용하는전문용어인 지지벡터기계 의정의문은영어대역어 support vector machine 를이용하여웹에서검색할수있다. 웹검색엔진에서 a support vector machine is a(n) 라는구 (phrase) 검색기능을이용하여검색한한가지결과는다음예와같다. 예 ) A support vector machine is a supervised learning algorithm developed over the past decade by Vapnik and others. 온톨로지의구축과학습 : 상하위관계 25

검색된정의문에정의문패턴을적용하여 support vector machine 의상위개념 supervised learning algorithm 를추출하여계층관계 IS-A( support vector machine, supervised learning algorithm ) 를만들수있다. 2.3 수직관계기반학습방법도메인의개념이용어로표현되는경우, 기존의용어에수식어를붙여서새로운용어를만드는경우가많다 [8]. 따라서용어구성단어사이의수직관계를이용하여용어간상하위어관계를추출하는방법이많이사용되고있다. Velardi [10] 와 Cimiano [11] 는주어진두용어 t 1 과 t 2 에서 t 2 가 t 1 에매칭되고, t 1 이추가적으로다른용어나형용사에의하여수식되는경우 IS-A(t 1, t 2 ) 관계가성립하는특성을이용하였다. 예를들어 t 1 = read only memory 이고, t 2 = memory 인경우 IS-A( read only memory, memory ) 관계가성립한다. Cimiano 의실험에서이방법은정확률 50 %, 재현율 3.77 % 를보였다. 수직관계에의한방법이올바른 IS-A 관계만을생성하지는않는다. 예를들어두용어 exclusive OR gate 와 OR gate 사이에는수직관계조건을만족하지만두용어는대등한관계이기때문에 IS-A 관계가성립하지않는다. 3. 통계기반학습방법통계기반방법은분포가정 (distributional hypothesis) 을기반으로용어간계층관계를설정한다. 분포가정에서는말뭉치에서유사한문맥을공유하는용어들은유사한의미를가진다고가정한다. Pereira [12] 는주어진명사들을그명사들을직접목적어로가지는동사들의분포를이용해서군집화하였고, 한개의명사가여러개의군집에포함되는것을허용했다. 또한, 생성된군집들을결정어닐링 (deterministic annealing) 방법을사용하여하향식방법으로계층구조를만들었다. 어닐링파라메터가증가함에따라서기존의군집들이불안정한상태가되고, 불안정한상태가임계치를넘어가는군집들은분할하였다. Caraballo [13] 는명사구들이접속사로결합된패턴 ( 예 : executive vice-president and treasurer ) 과동격어명사구패턴 ( 예 : James H.Rosenfield, a former CBS Inc. executive ) 을추출한뒤, 해당명사구에포함된명사들을이용하여각명사들의문맥을벡터로표현하였다. 각명사들의문맥벡터사이의코사인유사도를이용하여상향식계층적클러스터링을수행하였다. 대부분의통계기반학습방법은문맥정보사이의 유사도계산을전제하고있다. 기존의통계적인자연언어처리방법에서많이사용하고있는다양한유사도계산방법이계층관계학습에도널리적용되고있다 [14]. 이중에서코사인유사도계산방법과상대엔트로피유사도계산방법이대표적으로사용된다. 코사인유사도계산방법은두개의벡터사이의상관계수를정규화한것이다. 두개의벡터가각각유사도를비교하고자하는두개의용어의문맥정보를대표한다고할때. 이계산방법에서는두문맥정보의관련성척도를나타낸다. 코사인유사도계산방법은식 (3) 과같이표현된다. Sim( t, t ) = 1 2 n xy i= 1 i i n 2 n 2 x 1 i y i= i= 1 i (3) 여기에서 (x 1, x 2,, x n ) 와 (y 1, y 2,, y n ) 은각각두용어 t 1 과 t 2 의자질에대하여가중치를나타내는벡터이다. 또다른유사도계산방법인상대엔트로피계산방법에서는두용어의문맥정보를확률질량함수으로표현한뒤, 두개의확률질량함수사이의상대엔트로피를계산하는방법으로두용어사이의의미거리를추정한다. 두개의확률질량함수 p(x), q(x) 에대하여상대엔트로피는식 (4) 와같이정의된다. px ( ) D( p q) = p( x)log qx (4) ( ) x X 여기에서 0log(0/q)=0, plog(p/0)= 로정의한 다. 상대엔트로피는 Kullback-Leibler divergence 로알려져있으며, 두개의확률분포의다른정도를측 정한다. 이성질은항상음이아닌실수를가지며, p=q 인경우에항상 D(p q)=0 이된다 [15]. 표 1 유사도관계계산을위한문맥정보의예 호텔 숙소 주소 주말 테니스 호텔 - 14 7 4 6 숙소 14-11 2 5 주소 7 11-10 3 주말 4 2 10-5 테니스 6 5 3 5 - 표 1은크기가 5인작은크기의문맥정보라고가정 하자. 표의숫자는두단어가같은문맥에서나타난횟 수를의미한다. 이예를이용하여유사도계산방법을 설명한다. 호텔 과 숙소 의문맥정보벡터는각각 x=(0, 14, 7, 4, 6), y=(14, 0, 11, 2, 5) 이고코 26 2006. 4. 정보과학회지제 24 권제 4 호

사인유사도계산방법에서두벡터사이의유사도는다음과같다. 0 14+ 14 0+ 7 11+ 4 2+ 6 5 cos( xy, ) = = 0.36 17.2 18.6 상대엔트로피를구하기위해서는확률밀도함수를먼저계산하여야한다. 호텔 에대한확률밀도함수 p는 (0.0, 0.45, 0.22, 0.13, 0.19) 이고, 숙소 에대한확률밀도함수 q는 (0.44, 0.0, 0.34, 0.06, 0.16) 이다. 이값을이용하여 호텔 에대한 숙소 의상대엔트로피를구하면다음과같다. 0.22 0.13 0.19 Dp ( q= ) 0.22 log + 0.13 log + 0.19 log = 0.016 0.34 0.06 0.16 이외에도두벡터 X, Y 사이의유사도계산방법은 coefficient, dice coefficient, Jaccard coefficient, overlap coefficient 등이있다. 4. 용어의전문성과의미유사도를이용한방법 이절에서는용어의전문성과용어간의미유사도를이용하여용어의계층구조를구축하는방법을설명한다. 먼저용어의전문성을이용하여주어진용어의상위어후보를선택한후, 용어간의미유사도를이용하여선택된후보중에서최적의상위어후보를결정한다. 4.1 용어의전문성 용어의전문성 (specificity) 은용어가포함하는전문적인정보의양을정량적으로표현한것이다 [16]. 어떤용어가도메인전문적인정보를많이포함하고있을때전문성이높고, 반대로일상적인용어일수록전문성이낮다고가정한다. 이방법에서는용어의구성정보와문맥정보를이용하여주어진도메인 D 에서사용되는용어 t 의전문성을식 (5) 와같이실수 (R) 로표현한다. Spec( t D) R + (5) 전문분야개념은자신을다른개념들과구분시킬수있는고유한특징집합을가진다. 비슷한특징집합을가지는개념들은유사한의미를표현한다. 어떤개념을표현하는특징집합에새로운특징을추가하여더전문적인개념을만들수있다. 일반적으로기존의개념 X 와 X 에새로운특징을추가하여생긴개념 Y 사이에는상하위관계가성립된다. 즉 X 는 Y 의상위개념이고, X 의특징집합은 Y 의특징집합의부분집합이다 [8]. 전문분야개념이전문용어로표현될때다음과같은두가지특징을관찰할수있다. 첫째, 기존의전문 용어에새로운특징을추가하는수식어를부가하여더전문적인개념을표현하는용어가만들어진다. 예를들어표 2에서 insulin-dependent diabetes mellitus 는 diabetes mellitus 에 insulin-dependent 라는수식어가부가되어만들어진더전문적인용어이다. 이방법으로생성된전문용어는추가된수식어의전문성만큼전체용어의전문성이증가한다. 이경우에는용어의구성단어들이용어의특징을표현하는정보로사용된다. 둘째, 기존전문용어의구성단어와전혀다른단어를이용하여더전문적인개념을표현하는경우가있다. 예를들어표 2에서 Wolfram syndrome 은상위어 insulin-dependent diabetes mellitus 의구성단어와전혀다른단어들로구성되어있다. 이경우에는용어의문맥정보가용어의특징을표현하는정보로사용된다. 표 2 MeSH 1) 트리의일부분. 노드번호는용어사이의계층구조를나타낸다. 노드번호 용어 C18.452.297 diabetes mellitus ( 당뇨병 ) C18.452.297.267 C18.452.297.267.960 insulin-dependent diabetes mellitus ( 인슐린의존형당뇨병 ) Wolfram syndrome ( 볼프람증후군 ) 정보이론에서는정보량을 불확실성 또는 놀라움 의개념으로설명한다. 출현확률이낮은메시지가채널의출력에서나타나기전에는 불확실성 이높다고이야기한다. 불확실성 이높은메시지가실제로나타난경우 놀라움 의정도는커지고, 그메시지를표현하기위한비트수는다른출력에비해길어진다. 따라서그메시지의정보량은높아진다 [17]. 도메인 D 와관련된말뭉치에서나타나는용어들이어떤채널의출력에서관찰되는일련의메시지라고가정하면, 용어 t 가관찰되는사건 x 의정보량 I(x) 를말뭉치의각종통계정보를이용하여계산할수있다. 그리고 I(x) 를식 (6) 과같이용어 t 의전문성 Spec(t D) 으로사용한다. Spec( t D) I() x (6) 이경우, 정보량 I(x) 는식 (7), (8), (9) 와같은성질을가진다. I( x) = 0, p( x) = 1 일때 (7) 1) 미국의학도서관 (NLM, National Library of Medicine) 에서관리하는의학용어리스트이다 (http://www.nlm.nih.gov/mesh/). 온톨로지의구축과학습 : 상하위관계 27

말뭉치에서나타날확률이 1인용어 t 가실제말뭉치에서출현할경우얻을수있는정보량은없다. I( x) 0, 0 p( x) 1 일때 (8) 용어 t 가말뭉치에서나타날경우, 정보의손실을초래하는경우는없다. 즉말뭉치에서나타나는모든용어는정보량을계산할수있으며, 0 이상의값을가진다. I( xi) > I( xj), p( xi) p( xj) 일때 (9) 용어 t i 가 t j 보다말뭉치에서나타날확률이낮을때, 실제말뭉치에서 t i 가나타날경우, 얻을수있는정보량이 t j 가나타날경우얻을수있는정보량보다많다. 즉말뭉치에서출현확률이낮은용어일수록정보량이많아지고전문성이높아진다. 4.2 용어간의미유사도특정분야의개념은지식전달방식에따라서서로다른형태로표현된다. 자연언어를이용하여지식을전달하는경우, 개념은해당분야의전문용어로표현될수있다. 개념은그개념을설명하는특징들의집합으로표현되고, 그특징들은다른특징들과결합하면서새로운개념을생성한다. 용어관리의중요한부분중의하나는표층에서나타나는용어의언어현상을분석하여대응하는개념의특징을파악하는것이다. 특징집합에새로운특징이추가될수록더전문적인개념을나타내고, 그반대의경우는광범위한개념을나타낸다. 용어간의미유사도는용어의특징집합사이의포함관계의정도를정량적으로표현한것이다. 두특징집합이완전히일치하거나, 포함관계에있거나, 부분적으로겹치는관계에있거나, 또는전혀겹치지않는경우를표현한다. 동일한용어도사용되는분야에따라서서로다른특징집합을가진다. 따라서용어간유사도도분야의존적인성질을가진다. 용어간의미유사도를표현하는대표적인표층언어현상은용어의구성단어특징과용어의문맥정보특징이있다. 용어의구성단어특징은언어의조합성 (compositionality) 을이용하여설명할수있다. 조합성은복잡한표현의의미는내부구조와구성성분의의미에결정된다는이론이다. 즉구성성분의의미를알고있고, 구성성분들이결합되는방법을알고있으면전체표현의의미를알수있다. 따라서구성단어들의특징을조합하여용어의의미를파악할수있다. 이와는반대로말뭉치에서공기하는단어들의유사도를이용하여용어간유사도를파악할수있다. 두용어가비슷한문맥에서사용되는 경우의미적으로유사하다. 이이외에도사전적정의문이유사한경우두용어가유사하다고판단할수있다. 의미적으로유사한용어를정의할때, 비슷한단어를이용하여정의하기때문에정의문에나타나는단어들을비교하여유사한정도를판단할수있다. 4.3 용어의전문성과유사도기반방법전문적인용어일수록용어분류체계에서하위계층에위치하는경우가많기때문에용어의전문성은주어진도메인 D의전문용어사이에계층관계를표현하는필요조건으로사용할수있다. 그림 3의도메인용어계층구조 T D 에서용어 t 1 이다른용어 t 2 의상위어인경우 t 1 의전문성은 t 2 의전문성보다작다. 이조건을이용하면용어 t 1 과 t 2 가의미적으로충분히유사하고, t 1 의전문성이 t 2 의전문성보다작은경우 t 1 이 t 2 의상위어가될가능성이매우높다. 또다른예를보면 t 1 의전문성이 t 3 의전문성보다낮지만두용어가의미적으로유사하지않기때문에두용어사이에상하위관계가성립할가능성이낮게된다. low Similarity Depth high t 1 low Specificity t 2 t 3 high 그림 3 도메인용어계층구조 T D 에서용어간상하위어관계와용어의전문성조건, 용어간유사도조건의관계. 이그림에서두용어사이의거리가가까울수록두용어가의미적으로유사하다고판단한다. 계층구조구축과정은현재의계층구조에연속적으로새로운용어를추가하는과정을반복한다. 계층구조는그림 4와같이초기에비어있는상태에서시작하여반복적으로새로운용어를추가하여풍부한구조를가진다. 추가되는용어는용어의전문성값을이용하여정렬한다. 전문성이높은용어는계층구조에서하위레벨에위치하는경향이있고, 전문성이낮은용어는상위레벨에위치하는경향이있다. 따라서일반적인용어부터차례로계층구조에추가하면계층구조는상위레벨부터차례로하위레벨방향으로성장한다. High Specificity Low Low Specificity t new High 그림 4 클래스에포함된용어가그클래스의계층구조에전문성이낮은용어부터차례로순차적으로등록된다. 28 2006. 4. 정보과학회지제 24 권제 4 호

5. 요약온톨로지의기본개념, 응용분야및학습단계에대하여간단하게설명하였고, 온톨로지학습단계에서전문분야의개념간계층관계학습방법에대하여자세하게알아보았다. 전문분야개념을표현하는전문용어사이의계층관계를학습하는방법은크게규칙기반방법, 통계기반방법그리고용어의전문성과유사도를이용하는방법으로나눌수있다. 규칙기반방법은비교적정확한결과를얻을수있는장점이있지만재현율이낮은단점이있다. 기존의통계기반방법에서는재현율이높은장점이있지만정확률이낮은단점이있다. 또한이방법에서는순수하게통계정보만이용하기때문에오류에대한분석이어려운단점이있다. 용어의전문성과용어간유사도를이용한방법에서는용어의전문성을이용하여기존의계층구조에서상위어후보를선택하고, 용어간유사도를이용하여선택한후보를정렬하여최적의후보를찾는다. 이방법은상위어선정과정을두단계로분리하여수행하기때문에오류분석이용이한장점이있다. 향후온톨로지학습과정에서계층관계뿐아니라인과관계및다양한관계의학습과관련된연구가진행되어야한다. 참고문헌 [1] Gruber, T. R., A Translation Approach to Portable Ontology Specifications, Knowledge Acquisition, 5(2), pp. 199-220. 1993. [ 2 ] 이재호, 시맨틱웹의온톨로지언어, 정보과학회지, 제21권, 제3 호, pp. 18-27, 2003. [ 4 ] Lassila, O., McGuinness, D., The Role of Frame-Based Representation on the Semantic Web, Technical Report KSL- 01-02, Knowledge Systems Laboratory, Stanford University, 2001. [ 5 ] Hearst, M. A., Automatic Acquisition of Hyponyms from Large Text Corpora, Proceedings of the Fourteenth International Conference on Computational Linguistics, 1992. [ 6 ] Caraballo, S. A, Automatic construction of a hypernym-labeled noun hierarchy from text, Proceedings of ACL, 1999. [ 7 ] Berland, M., Charniak, E., Finding Parts in Very Large Corpora, Proceedings of ACL, 1999. [ 8 ] ISO, Terminology work-principle and methods, ISO 704 Second Edition, 2000. [9] Pearson, J. Terms in Context, Series of Studies in Corpus Linguistics Vol. 1, John Benjamins Publishing Company, 1998. [10] Velardi, P., Fabriani, P., and Missikoff, M., Using Text Processing Techniques to Automatically enrich a Domain Ontology, Proceedings of the ACM International Conference on Formal Ontology in Information Systems, 2001. [11] Cimiano, P., Pivk, A., Schmidt-Thieme, L., Staab, S., Learning Taxonomic Relations from Heterogeneous Evidence, Proceedings of ECAI2004 Workshop on Ontology Learning and Population, 2004. [12] Pereira, F., Tishby, N., and Lee, L., Distributational clustering of English words, Proceedings of ACL, pp. 183-190, 1993. [13] Caraballo, S. A. and Charniak, E. Determining the Specificity of Nouns from Text, Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, pp. 63-70, 1999. [14] Lee, L., Measures of Distributional Similarity, Proceedings of ACL, pp. 25-32, 1999. [15] Manning, C. D., Schutze, H., Foundations of Statistical Natural Language Processing, The MIT Press, 1999. [16] Lenat, D.B. et. al., Cyc: toward programs with common sense, Communications of the ACM, 33(8), pp.30-49, 1990. [16] Ryu, P., Choi, K., Measuring the Specificity of Terms for Automatic Hierarchy Construction, Proceedings of ECAI2004 Workshop on Ontology Learning and Population, 2004. [17] Cover, T.M. & Tomas, J.A., Elements of Information Theory, New York: John Wiley and Sons Inc., 1991. 온톨로지의구축과학습 : 상하위관계 29

최기선 1978 서울대학교수학과 ( 학사 ) 1980 한국과학기술원전산학과 ( 석사 ) 1986 한국과학기술원전산학과 ( 박사 ) 1987~1988 일본 NEC C&C 정보연구소연구원 1988~ 현재한국과학기술원전산학과교수 1997~1998 미국스탠포드대학 CSLI 객원교수 2002~2003 일본 NHK 방송기술연구소초빙연구원 2006~ 현재한국인지과학회회장 2003~ 현재국가지정언어자원특수소재은행장 http://bola.kaist.ac.kr 2002~ 현재 ISO/TC37/SC4 언어자원관리표준 Secretary 2002~ 현재 TermNet 회장 2000~ 현재 ACM TALIP, IJCPOL 편집위원, IAMT council member 1998~ 현재전문용어언어공학연구센터 http://korterm.or.kr 관심분야 : 온톨로지, 텍스트마이닝, 인공두뇌, 지식획득, 창의계산론, 언어공학, 시맨틱웹 E-mail : kschoi@cs.kaist.ac.kr http://ci.kaist.ac.kr/ 류법모 1995 경북대학교컴퓨터공학과 ( 학사 ) 1997 포항공과대학교컴퓨터공학과 ( 석사 ) 2000~ 현재한국과학기술원전산학과박사과정 1997~1999 한국전자통신연구원 (ETRI) 자연어처리연구실연구원 1999~2004 ( 주 ) 케이포엠기술연구소연구원관심분야 : 자연언어처리, 온톨로지학습 E-mail : pmryu@world.kaist.ac.kr 30 2006. 4. 정보과학회지제 24 권제 4 호