Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 4, August 2013 울러빈도수를표시하고있어, 가장빈도가높은의미를먼저참조하는것만으로도약간의도움을받을수는있다. 그러나이러한빈도는문맥에무관하게채집된정보

Similar documents
KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

정보기술응용학회 발표

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

DBPIA-NURIMEDIA

0125_ 워크샵 발표자료_완성.key

09권오설_ok.hwp

À±½Â¿í Ãâ·Â

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A52DC1A4BFB5C3B62E687770>

°í¼®ÁÖ Ãâ·Â

10(833-) SAA13-24.hwp

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

R을 이용한 텍스트 감정분석

서론 34 2

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

에너지경제연구 Korean Energy Economic Review Volume 9, Number 2, September 2010 : pp. 19~41 석유제품브랜드의자산가치측정 : 휘발유를 중심으로 19

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

45-51 ¹Ú¼ø¸¸

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend

<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A528B1E8C1BEB9E8292E687770>

본문01

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

<33C2F DC5D8BDBAC6AEBEF0BEEEC7D02D3339C1FD2E687770>

<32382DC3BBB0A2C0E5BED6C0DA2E687770>

DBPIA-NURIMEDIA

(5차 편집).hwp

상담학연구,, SPSS 21.0., t,.,,,..,.,.. (Corresponding Author): / / / Tel: /

Microsoft PowerPoint - 26.pptx

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

<32B1B3BDC32E687770>

한국성인에서초기황반변성질환과 연관된위험요인연구

<C7A5C1F620BEE7BDC4>

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

ÀÌÁÖÈñ.hwp


Journal of Educational Innovation Research 2016, Vol. 26, No. 2, pp DOI: * Experiences of Af

04김호걸(39~50)ok

04_이근원_21~27.hwp

03-서연옥.hwp

2 : (JEM) QTBT (Yong-Uk Yoon et al.: A Fast Decision Method of Quadtree plus Binary Tree (QTBT) Depth in JEM) (Special Paper) 22 5, (JBE Vol. 2

<30345F D F FC0CCB5BFC8F15FB5B5B7CEC5CDB3CEC0C720B0BBB1B8BACE20B0E6B0FCBCB3B0E8B0A120C5CDB3CE20B3BBBACEC1B6B8ED2E687770>

07.045~051(D04_신상욱).fm

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con


Microsoft PowerPoint Relations.pptx

DBPIA-NURIMEDIA

ecorp-프로젝트제안서작성실무(양식3)

?? 1990년대 중반부터 일부 지방에서 자체적인 정책 혁신 을 통해 시도된 대학생촌관 정책은 그 효과에 비자발적 확산 + 대한 긍정적 평가에 힘입어 조금씩 다른 지역으로 수평적 확산이 이루어졌다. 이? + 지방 A 지방 B 비자발적 확산 중앙 중앙정부 정부 비자발적

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

김기남_ATDC2016_160620_[키노트].key

06_ÀÌÀçÈÆ¿Ü0926

<372E20B9DAC0B1C8F12DB0E62E687770>

Issue 두 가지 상대적 관점에서 검토되고 있다. 특히, 게임 중독에 대한 논의는 그 동안 이를 개인의 심리적 차원에서 접근해왔던 것에서 벗어나 청소년에 대한 사회문화 및 정보 리터러시(literacy) 교육의 방향이라든 지 나아가 게임중독과 관련한 사회구조적인 또는

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

Microsoft PowerPoint - XP Style


step 1-1

03-최신데이터

,,,.,,,, (, 2013).,.,, (,, 2011). (, 2007;, 2008), (, 2005;,, 2007).,, (,, 2010;, 2010), (2012),,,.. (, 2011:,, 2012). (2007) 26%., (,,, 2011;, 2006;

민속지_이건욱T 최종

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

DBPIA-NURIMEDIA

<30352DC0CCC7F6C8F B1B3292DBFACB1B8BCD2B1B3C1A42E687770>


퇴좈저널36호-4차-T.ps, page Preflight (2)

歯1.PDF

Æ÷Àå82š

6.24-9년 6월

08( ) CPLV15-64.hwp

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Study on the Pe

<302DC5EBC0CFB0FA20C6F2C8AD28BFCF292E687770>

09오충원(613~623)

Journal of Educational Innovation Research 2019, Vol. 29, No. 2, pp DOI: 3 * Effects of 9th

<B1E2C8B9BEC828BFCFBCBAC1F7C0FC29322E687770>

<C1DF3320BCF6BEF7B0E8C8B9BCAD2E687770>

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

2


05( ) CPLV12-04.hwp

IKC43_06.hwp

09È«¼®¿µ 5~152s

KD hwp

Output file

[ 영어영문학 ] 제 55 권 4 호 (2010) ( ) ( ) ( ) 1) Kyuchul Yoon, Ji-Yeon Oh & Sang-Cheol Ahn. Teaching English prosody through English poems with clon


Ch 1 머신러닝 개요.pptx

DBPIA-NURIMEDIA

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: NCS : G * The Analy

삼교-1-4.hwp

#Ȳ¿ë¼®

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

Journal of Educational Innovation Research 2016, Vol. 26, No. 3, pp DOI: Awareness, Supports

212 52,.,. 1),. (2007), (2009), (2010 ), Buzássyová, K.(1999), Bauer, L.(2001:36), Štekauer, P.(2001, 2002), Fernández-Domínguez(2009:88-91) (parole),

Transcription:

Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 4, August 2013, pp. 325-331 http://dx.doi.org/10.5391/jkiis.2013.23.4.325 워드넷기반의단어중의성해소프레임워크 A Framework for WordNet-based Word Sense Disambiguation 임초람 * 조세형 * Chulan Ren, Sehyeong Cho * 명지대학교컴퓨터공학과 Department of Computer Engineering, MyongJi University 요 본연구에서는단어의의미중의성을해소하기위한방법을제안하고그결과를제시한다. 본연구에서는워드넷을두가지차원에서활용하였는데, 하나는사전으로서의활용이며다른하나는단어간의개념계층구조를가진일종의온톨로지로서활용하였다. 이중의성해소방식의장점은첫째매우단순하다는데있다. 둘째로는코퍼스를활용하는지식기반 / 통계기반방식이아니기때문에의미태그부착된코퍼스의부족으로인한문제가발생하지않는다는것이다. 현재는워드넷온톨로지중에서개념계층구조, 즉상위어 - 하위어 (hypernym-hyponym) 의관계만을사용하였으나향후어렵지않게다른관계들, 즉유사어 (synonym), 반의어 (antonym), 부분어 (meronym) 등의관계를활용하여확장함으로써성능의향상을기대할수있다. 키워드 : 단어중의성, 시맨틱웹, 워드넷, 온톨로지, 자연어 약 Abstract This paper a framework and for resolving word sense disambiguation and present the results. In this work, WordNet is used for two different purposes: one as a dictionary and the other as an ontology, containing the hierarchical structure, representing hypernym-hyponym relations. The advantage of this approach is twofold. First, it provides a very simple that is easily implemented. Second, we do not suffer from the lack of large corpus data which would have been necessary in a statistical. In the future this can be extended to incorporate other relations, such as synonyms, meronyms, and antonyms. Key Words : Word Sense Disambiguation, Semantic Web, WordNet, Ontology, Natural Language Processing 1. 서론 자연언어는여러가지형태의중의성을 (ambiguity) 가지고있다 [1]. 그중에서도가장기본적인부분은단어의중의성이다 (lexical ambiguity). 하나의단어가어떤문맥에서사용되느냐에따라서전혀다른뜻으로사용되는것은매우흔한일이며거의모든단어가중의성을가지고있다. 컴퓨터에의하여자연어처리를할때에이단어의중의성문제는보기보다매우어려운문제이다. 왜냐하면완벽한중의성의해소를위해서는문장전제, 나아가서는글전체의문맥과문장의의미를정확히파악해야만개별단어의뜻을알수있기때문이다. 그러나컴퓨터에의한완전한자연언 접수일자 : 2013 년 5 월 13 일심사 ( 수정 ) 일자 : 2013 년 6 월 18 일게재확정일자 : 2013 년 6 월 18 일 Corresponding author This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 어의이해는아직도해결되지않은많은난제들이남아있는상태이며응용에따라서는이러한자연어처리기법들을총동원하기어려운경우가많다. 예를들어온라인외국어사전을생각해보자. 웹서핑을하던중모르는단어가등장하면마우스를올려놓으면자동으로영한사전에서해당단어를찾아주는소프트웨어를흔히만나볼수있다. 이러한소프트웨어는자동번역과는또다른응용으로서이경우영어의태깅, 파싱, 의미분석에이르는모든절차를거치도록하는것은매우무거운일이된다. 이경우사전에정의된몇가지의의미중에서가장가능성이많은해석을먼저보여주는것만으로도충분히의미가있으며이러한경우는신속하게답을주는가벼운프로그램이선호되며또한영어공부를하는학생의입장에서는오히려해석된전문을보는것보다적절한단어의정의와예제를보여주는것이더도움이된다. 본논문에서는워드넷 (WordNet) 을 [2] 활용하여주어진단어의여러가지의미중에서가장가능성이높은것을고를수있는단순한기법을제시한다. 워드넷은 1985 년프린스턴대학에서개발이시작되었으며 15 만단어, 11 만 5 천개의동의어집합 (synset) 과 20 만여단어 - 의미쌍으로구성되어있다. 워드넷은각단어에대하여각의미의설명및예문과아 325

Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 4, August 2013 울러빈도수를표시하고있어, 가장빈도가높은의미를먼저참조하는것만으로도약간의도움을받을수는있다. 그러나이러한빈도는문맥에무관하게채집된정보이기때문에특정한문맥이주어진경우에는이보다더많은정보를활용할수있다. 예를들어다음과같은문장을생각해보자. "A cat was chasing a mouse in my backyard." 사람들은이경우 "mouse" 라는단어가동물인쥐를뜻하는것을쉽게알수있다. 반면에 "People prefer a mouse over trackballs; a mouse is probably the best pointing device ever." 라는문장에서라면동일한단어인 "mouse" 가컴퓨터의주변장치인마우스를뜻한다는것을알수있다. 이것은상식추론에기반한다. 말하자면고양이가쥐를좇아다니는것은매우자연스러운일이지만고양이가컴퓨터장치를좇아다닌다는것은상식적으로생각하기가 ( 불가능하지는않지만 ) 어렵다. 또둘째문장의경우트랙볼보다쥐를더좋아한다는것은상식적으로이해하기어려운말이지만트랙볼보다마우스를좋아한다는말은이해가된다. 그러나이러한판단은문장을완전히이해하지않더라도상당부분추론이가능하다. 위의문장에서 "mouse" 를제외한명사들을각각추출하여보자. A: {cat, backyard} B: {people, trackball, device} A와 B를각각문맥이라고부르기로한다. 문장에대한구조적인분석이나의미분석이따르지않더라도위의문맥만을보더라도비록 100% 확신할수는없지만거의직감적으로문맥 A에서는쥐를, 문맥 B에서는컴퓨터마우스를지칭한다고추정할수있다. 물론인위적으로반대의예를만들어낼수없는것은아니다. 예를들어 : "A cat was playing with my broken mouse in the backyard." 또는 "People were discussing trackball device, when the mouse crawled in." 같은문장들이그예이다. 그러지만대부분의경우에는자연스럽게연관성있는단어들이같은문장에출현할가능성이크다는것은매우직관적인일이다. 우리는이러한직관을휴리스틱한방법론으로바꾸어확률적으로우수한판단을하는단어중의성해소알고리즘을제시할것이다. 이제워드넷을이용하여어떻게중의성을해소할수있는지살펴보기로하자. 아래내용은워드넷에서 "mouse" 를검색한결과이다. (14)S: (n) mouse (any of numerous small rodents typically resembling diminutive rats having pointed snouts and small ears on elongated bodies with slender usually hairless tails) S: (n) shiner, black eye, mouse (a swollen bruise caused by a blow to the eye) S: (n) mouse (person who is quiet or timid) S: (n) mouse, computer mouse (a hand-operated electronic device that controls the coordinates of a cursor on your computer screen as you move it around on a pad; on the bottom of the device is a ball that rolls on the surface of the pad) "a mouse takes much more room than a trackball 이결과는네가지의각기다른단어-의미쌍을보여주고있다. 각쌍에서는이단어에대한설명이있는데이부분은 gloss( 주해 ) 라고하며괄호안에표시되어있는부분이다. 또한많은경우에예문을보여주고있다. 이부분은단어의의미를추측할수있는많은힌트를가지고있다. 다음의결과는각주해에서추출한명사들의집합이다. 1: {rodent, rat, snout, ear, body, tail} 2: {bruise, blow, eye} 3: {person} 4: {computer, hand, device, cursor, screen, pad, bottom, ball surface, pad, room, trackball} 위의 1 4 집합과분석대상인문장에서추출한명사의집합을비교하여보자. A: {cat, backyard} B: {people, trackball, device} 집합 A 와집합 1 은공통의단어는하나도없다. 그러나이들중에는어떤의미에서연관성이큰단어들의쌍을볼수있다. 예를들어 cat-rodent 는둘다동물이라는특성이있고 cat-ear 는전체 - 부분의관계가있다. 반면에 A 와 4 는공통점이거의없다. 한가지있다면 backyard-room 정도인데이들은집의일부라는공통점은있으나사실우연히등장했을뿐이다. 문제는이러한직관적인데이터를어떻게형식화하여프로그램에활용할수있는가하는것이고이것이본논문에서다루게될주제가될것이다. 2 장에서는연관된과거연구결과들을살펴볼것이다. 3 장에서는중의성해소를위한기본적인방법론을제시함과아울러이를위하여필요한단어간의연관성을정량적으로측정할수있는여러가지기준 (metric) 을제시하여비교분석할것이며이를활용한알고리즘의시행결과를제시할것이다. 4 장에서는결과를정리하고앞으로의연구방향을논의하도록한다. 2. 관련연구 단어중의성해소문제 (WSD: word sense disambiguation) AI-complete 문제로서매우어려운문제이다 [3]. 이문제에대한접근법은크게세가지가있는데이는지도학습 (supervised learning), 자율학습 (unsupervised learning), 그리고지식에기반한방법 (knowledge-based approach) 이다 [4]. 지도학습방식은단어들에대한의미태그가붙은말뭉치를사용하여통계적인정보를추출하고이를기반으로판단하는방식이다. 이방식은방대한양의훈련말뭉치를필요로하기때문에현실적인제약이뒤따른다 [5,6,7,8,9,10]. 자율학습은의미태그되어있지않은말뭉치를이용하여학습을하는데이는자료의준비가쉬운반면에정확도에있어서지도학습에비해좋은성능을내기가어렵다 [11][12]. 지식기반방법론은사전이나시소러스에의존하며말뭉치를활용하지않는다. 이러한방법은사전이라는잘정제된양질의정보를사용한다는장점이있는반면에지도학습의경우처럼문맥에서통계적인정보를끄집어내기는어렵다는단점이있다. 이러한이유로성능면에서는지도학습방식에못미치는것으로보고되어있다 [4]. 반면에사전의특성때문에활용범위가넓다는장점을가 326

워드넷기반의단어중의성해소프레임워크 지고있다. 워드넷은가장많이활용되고있는지식자원이다. 지식기반방식은다시세가지유형으로나눌수있다. 첫째는주해의중첩 (gloss overlap) 을이용하는방법이고 [13, 14], 둘째는선택제약방식 (selectional restriction), 셋째는구조적인방식이다. 선택제약이란 [15] 단어의역할에있어서특정단어는특정한대상을취한다는데에착안한방법이다. 예를들어 "dish" 라는단어의용례중에서 "The dish was delicious." 라는문장이있다면 delicious 라는형용사는음식을주어로한다는선택제약이있으므로이 dish 는음식을뜻하는 dish 일것으로추정하는방법이다. 반면에 "the dish was broken" 의경우에는 break 의대상은깨지기쉬운물체이므로그릇을뜻하는것으로추정한다. 2.1 중첩에의한방식 Lesk[13] 알고리즘은단어의미를정의한주해중첩 (gloss overlap) 을이용한다. 예를들어단어 의정의를 이라하고 의정의 가있을때두의미의연관도를나타내는점수 score는다음과같이정의된다....1) 여기서 gloss(s) 는의미정의부분에서 gloss 에해당하는부분에있는단어의집합이다. 특정문맥상의단어 w 에대한가장가능성있는정의를골라내기위해서는문맥에있는단어와사전의의미정의에있는단어의중복을계산한다....2) 이방법은단순하다는장점이있지만정확도가매우떨어진다. (50~70% 정도로보고되고있다.) 그이유는일반적으로 gloss 가매우작기때문에중첩이없을가능성이너무높기때문이다. 그러기때문에단어하나가있느냐없느냐에따라서결과가완전히달라지게된다. Lesk 알고리즘을확장한 Banerjee 와 Pedersen [16] 의알고리즘은워드넷의단어간연관관계를이용하는방식으로확장을하였다. 3) 여기서 기호는두센스가워드넷의관계를가지고있음을의미한다. ( 예 : synonym) 이방법으로많은성능향상을가져왔으나지식기반방법에비하면보잘것없는성능을보이고있다. 구조적인방법은의미론적인거리를계산하는방식이거나 [17] 어휘연쇄 (lexical chain) 개념을이용한다 [18,19]. 2.2 유사도의활용 유사도를활용하는구조적인방법은유사도를점수로대응시키는함수를사용한다. 즉, 4) 여기서 란사전에있는모든단어의미의집합 을말한다. 주어진텍스트 의의미다음과같은식을만족하는 를선택하는것이다. arg max... 5) 계층구조상의위치를이용하는방법으로서가장단순한것은 Rada[20] 의유사도척도로서단순히계층구조상에서의거리, 즉 number of hops 를사용하였다. 6) 이방식은지나치게단순하여실제계층구조에서우리가얻을수있는정보를충분히활용하지못하기때문에성능이좋지않다. Sussna[21] 의방식은계층구조에서깊을수록같은거리에도연관관계가깊다는점에착안하여 ( 즉, car 와 limousine 의관계는 location 과 entity 의관계보다가깝다는것 ) 다음과같은척도를제안하였다.... 7) 여기서 R은 w를중심으로한계층 relation이며 은 의역관계이다. 는전체계층의깊이이며각에지 (edge) 는다음과같이 weight를준다. max min max 8) 여기서 는 에서의분기수이며 max, min 은각각이분기에서 의하위개념들에게할당하고자하는최대및최소값이다. Qun Liu 의방식은 [22] Rada 의방식에서정규화를함으로써유사도값이 0 ~ 1 사이에위치하도록하였으며그식은다음 9 와같다. 9) Leacock 와 Chodoro 는 [23] Rada 의거리기반방식에기초하여점수를부여하는다른방법을고안하였다. 그들은경로길이를전체의깊이 D 로규모조정을하였다. log 10) 계층구조에서거리를기반으로하는방법은다소의정보는제공을하지만그거리의성질에따라서실제유사성은매우다른양상을보인다는문제가있다. 예를들면계층구조의상위층에서의거리와하위층에서의거리는그중요성이다르다고볼수있다. 예를들어 car 와 motor vehicle 은거리가 1 이지만매우구체적인개념들이다. 따라서많은정보를가지고있는개념이며유사성, 즉공통적인정보혹은속성이많다고볼수있다. 그러나상위에있는 entity 와 physical entity 는매우추상적인개념이고속성이별로없는개념이다. 이경우는둘사이에유사성은상대적으로적다고볼수있다. 이러한개념은 Feng Li[24] 의접근법에서찾아볼수있다. Li 의경우는다음과같은점수계산방식을사용하였다. 327

Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 4, August 2013 min min...11) Li 의방식은두개념중에서얕은쪽의깊이에정규화상수를곱하여분모와분자에더해줌으로써깊이가깊은개념들에게더후한점수를부여하는방법을제공한다. Dekang Lin[25] 은유사한개념을전혀다른차원에서분석하였다. Lin 은세가지차원에서유사도를분석할것을제안한다. 첫째는공통점에서기인하는정보량을반영해야한다는것이며 A 와 B 의공통점정보는 I(common(A,B)) 로표기한다. 둘째는두개념의차이점을각개념의정보량의합에서공통정보량을뺀것으로모델링한다. 즉, I(description(A)+description(B)-common(A,B)) 가되며여기서 description(a) 는 A 라는개념을설명하기위한 proposition 의합으로본다. 마지막으로유사도는 common(a,b) 의정보량과 description(a),description(b) 의함수가되어야한다는개념이다. 이 Lin 의개념은여러가지로분화될수있을것으로보이며본논문에서도이러한개념에바탕을두고방법론을개발하였다. 3. 제안된중의성해소방식 개요에서소개한바와같이우리는대상단어를둘러싼문맥을활용하여중의성을해소하고자한다. 기본적으로우리는중의성해소를하기위한단어에대해서그단어를둘러싼문맥과주어진단어에대해워드넷이제공하는각의미의정의, 즉주해 (gloss) 와예문을비교하여가장연관성이많은의미를선택하게될것이다. 워드넷은디지털화된사전으로서단순히사전으로서의기능뿐아니라명사, 동사, 형용사및부사들이유사어의집합이라할수있는신셋 (synset) 으로정리되어있다. 하나의신셋은같은의미를가진단어들의집합으로서그집합자체로서하나의의미를제공한다. 예를들면 car 라는단어는다음과같은신셋으로서나타내진다. { car, auto, automobile, machine, motorcar } 이렇게유사어의집합으로나타내어짐으로써모호하지않고명확한의미를파악할수있다. 또한나아가서이개념은아래의그림과같이상위개념들을가지고있다. { car, auto, automobile, machine, motorcar } =>motor vehicle, automotive vehicle =>self-propelled vehicle =>wheeled vehicle =>vehicle =>conveyance, transport =>instrumentality, instrumentation =>artifact, artifact =>whole, unit =>object, physical object =>physical entity =>entity 워드넷의각단어에대한의미항목은각각의신셋을형성하며이들은단어가아닌단어 - 의미의쌍이기때문에여 기에는중의성이없이하나의의미로정의가된다. 워드넷은또한반의어관계 (antonymy), 부분어관계 (meronymy), 관련어관계 (pertainymy), 포함어관계 (holonymy), 그리고수반관계 (entailment) 등을제공한다 [26]. 그러나본논문에서는 hypernym-hyponym의관계, 즉계층구조만을활용할것이다. 앞서본바와같이단어의중의성해소 task는주어진텍스트 에서의중의성해소대상 w_i에대하여다음과같은식을만족하는의미 를선택하는것으로보았다. arg... 5) max 그러나식 5 에서와같이최대치의합으로단순계산하는것은문제가있다. 왜냐하면우리의경우워드넷에있는주해와예문으로한정하여찾기때문에어떤의미해설은단어가많고어떤것은단어가적다. 이경우단어가많을수록채택될가능성이많다는문제점으로불공평하게된다. 이러한이유로우리는식 5 를변경하여 5' 으로사용하기로하였다. arg max 5') 여기서 size_gx 는해당단어의미의 gloss 와예제에있는명사의개수이다. 유사성의척도앞서언급한바와같이여러가지유형의유사도가여러연구에서사용된바있다. 우리는유사도가단순히근거없는휴리스틱에기반하기보다는어떤원칙에근거한척도가되는것이바람직하다고보았으며 Lin 의정보량개념을도입하였다. 관찰 1. 개념계층도상에있는두개념은공통의조상이많으면많을수록유사도가커질것이다. 관찰 2. 개념계층도상에있는두개념은동일한공통점이있다면두개념이가진정보량의합이클수록유사도는작아질것이다. 관찰 3. 개념계층도에서 hypernym 과그의 hyponym 간에는최소한의정보량의차이가있다. 이러한관찰로부터우리는다음과같은유사도 을정의하였다. 12) 여기서관찰 3 에의해계층하나를내려갈때늘어나는정보량을단위정보량으로단순화하여보면 12 는 13 과같은식이된다. 13) 여기서 OL 은 overlap 을뜻하며두개념의공통조상의개수이다. 328

워드넷기반의단어중의성해소프레임워크 아래의그림을보자. Entity 로부터아래로내려갈수록한단계씩더구체적인개념이된다. 한단계를내려올때마다하나씩정보가더추가된다고볼수가있다. 그렇다면 location 와 object 가가진총정보량은 3 이다. 그런데공통의정보는 entity 가가진정보뿐이므로 1 로볼수있다. (depth(location)=1, depth(object)=1, OL(location, object)=1) 따라서유사도는 1/3 이된다. life 와 organism 의경우공통정보는 3 이며전체정보는 5 가된다. 따라서유사도는 3/5 가된다. 주목할것은이두경우가단순한거리기반에서는동일한거리 2 로계산되었다는것이다. 여기서한가지더추가할정보가있다. 동일한개념의두하위개념즉, 형제에해당하는경우와하나의개념과그의상위개념, 즉할아버지에해당하는개념의경우를비교해보자. 전자의예는 life 와 organism 이고후자의경우는 life 와 object 이다. 형제에해당하는개념은여러모로연관도가크다. 예를들면하나의문맥에서두가지종류가대비되어등장하는예는매우흔하다. 예를들면 "car and truck" 이그러하다. 다른측면에서보자면이러한경우는하나의정보가다른정보로대치되는경우가많은것이다. 그러므로이러한경우의차별성을두기위해 lso 항을추가하였다. Lso 는 lowest super-ordinate 의뜻으로다음과같은식을가진다. 식 13 을 15 로대체한다.... 14) 15) 워드넷의계층구조중에서일부를발췌한아래의다이어그램에서우리는 4가지의유사성척도에의하여 4개의개념에대한유사도를계산하여보았다.4 가지모두거리, 즉최단거리엣지의수는 2로서동일하다. 계산방법에따라유사도는각기다르게나오는것을볼수있다. 직관적인판단으로는우리는표의아래쪽으로갈수록유사도가높게나오기를선호한다. 이표는우리의직관과일단일치하는것을볼수있다. 표 1. 여러가지척도에의한개념간유사도의비교 Table 1. Similarities among concepts by each metric D=2 Our Q u n Liu s Feng Li s Dekang Lin s object & thing 0.33 0.44 0.44 0.33 object & life 0.44 0.44 0.44 0.50 living thing & artifact 0.50 0.44 0.62 0.50 life & cell 0.60 0.44 0.71 0.60 우리는이척도들을이용하여 COCA[27] 말뭉치에서최초 200 개의명사를추출하여실제텍스트의문맥에있는단어와그단어의주해및예문에있는단어들간의연관성을식 5' 에의해계산하여가장유사도가높은의미를선택하는방식으로실험을하였다. 각실험에서신셋간의유사도를정의하는척도를위 4 가지방법으로각각실행하여본결과는아래의표와같았으며제안된유사도에의한방식이가장높은정확도를보이는것을확인하였다. 표 2. 각유사도를이용한단어의미찾기의정확도 Table 2. The accuracy of disambiguation by each similarity metrics Number of Correct guess Accuracy of first candidate Qun Liu s 82 0.3886 Feng Li s Dekang Lin s 144 0.6825 179 0.8483 Proposed 195 0.9242 4. 결론및향후의연구방향 그림 1. 워드넷계층도의일부 Fig. 1. Part of WordNet hierarchy 본연구에서는단어의의미중의성을해소하기위한방법을제안하였다. 연구결과는크게두가지로요약할수있다. 그하나는신셋간의유사도를측정하는방식으로서계층구조를활용하였으며단순거리방식에서탈피하여개념이가지고있는정보량을활용함으로써추상적인개념간의거리보다구체적인개념사이의거리를더가깝게계산 329

Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 4, August 2013 할수있게하였다. 다른한가지의결과는별도의말뭉치를사용하지않고워드넷상에있는주해와예문만을활용하여유사도를측정하게하였다는것이다. 이방식의장점은워드넷에서제공하는데이터를사용하였기때문에별도의가공된말뭉치를사용하지않는다는것이다. 이러한이유로알고리즘이매우단순하고프로그램이가벼워짐으로써다양한응용에사용될수있다. 그중한가지응용은영어를모국어로하지않는사람들이사전을검색할때에가장가능성이많은의미를먼저선택하도록순서를결정지어주게된다. 여기서워드넷을두가지차원에서활용하였는데, 하나는사전으로서의활용이며다른하나는단어간의개념계층구조를가진일종의온톨로지로서활용하였다. 현재는워드넷온톨로지중에서개념계층구조, 즉상위어 - 하위어 (hypernym-hyponym) 의관계만을사용하였으나향후어렵지않게다른관계들, 즉유사어 (synonym), 반의어 (antonym), 부분어 (meronym) 등의관계를활용하여확장함으로써성능의향상을기대할수있을것으로보인다. References [1] Daniel Jurafsky and James H. Martin, Speech and Language Processing, 2nd edition, Pearson 2009 [2] Christiane Fellbaum(ed.), WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press. 1998 [3] MALLERY, J. C. Thinking about foreign policy: Finding an appropriate role for artificial intelligence computers. Ph.D. dissertation. MIT Political Science Department, Cambridge, MA. 1988. [4] Roberto Navigli. "Word Sense Disambiguation: A Survey," ACM Computing Surveys, 41(2), 2009, pp. 1-69. [5] A. Novischi, M. Srikanth, and A. Bennett, "Lcc-wsd: System description for English coarse grained all words task at semeval 2007," in Proc. of the 4th International Workshop on Semantic Evaluations, pp. 223-226, Prague, Czech Republic, 2007. [6] M. Ciaramita and Y. Altun, "Broad-coverage sense disambiguation and information extraction with a supersense sequence tagger," in Proc. of the 2006 Conference on Empirical Methods in Natural Language Processing, Sydney, Australia, pp. 594-602, 2006. [7] L. M'arquez, G. Escudero, D. Martinez, and G. Rigau, "Supervised corpus-based s for WSD," in Word Sense Disambiguation: Algorithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, pp. 167-216, 2007. [8] R Mihalcea and E. Faruque, "Senseleamer: Minimally supervised word sense disambiguation for all words in open text," in Proc. of the 3rd International Workshop on the Evaluation of Systems for the Semantic Analysis of Text (Senseval-3), Barcelona, Spain, pp. 155-158, 2004. [9] S. Tratz, A. Sanfilippo, M. Ggregory, A. Chappell, C. Posse, and P. Whitney, "PNNL: A supervised maximum entropy approach to word sense disambiguation," in Proc. of the 4th International Workshop on Semantic Evaluations (SemEval), Prague, Czech Republic, pp. 264-267, 2007. [10] M`ARQUEZ, L., ESCUDERO, G., MART`INEZ, D., AND RIGAU, G., "Supervised corpus-based s for WSD," in Word Sense Disambiguation: Algorithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, 167-216. 2006. [11] PEDERSEN, T. "Unsupervised corpus-based s for WSD," in Word Sense Disambiguation: Algorithms and Applications, E. Agirre and P. Edmonds, Eds. Springer, New York, NY, 133-166. 2006. [12] R Mihalcea, "Unsupervised large-vocabulary word sense disambiguation with graph-based algorithms for sequence data labeling," in Proc. Of HLT/EMNLP, Vancouver, BC, Canada, pp. 411-418, 2005. [13] LESK, M., "Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone," in Proceedings of the 5th SIGDOC (New York, NY). Pp.24-26. 1986. [14] PEDERSEN, T., PATWARDHAN, S., AND MICHELIZZI, J. "WordNet::Similarity-measuring the relatedness of concepts," in Proceedings of the 19th National Conference on Artificial Intelligence (AAAI, San Jose, CA) pp.144-152. 2004. [15] MCCARTHY, D. AND CARROLL, J. "Disambiguating nouns, verbs and adjectives using automatically acquired selectional preferences," Computational Linguistics 29-4, pp. 639-654. 2003. [16] BANERJEE, S. AND PEDERSEN, T., "Extended gloss overlaps as a measure of semantic relatedness," in Proceedings of the 18th International Joint Conference on Artificial Intelligence. 805-810. 2003. [17] PEDERSEN, T., BANERJEE, S., AND PATWARDHAN, S., "Maximizing semantic relatedness to perform word sense disambiguation," Res. rep. UMSI 2005/25. University of Minnesota Supercomputing Institute, Minneapolis, MN. 2005. [18] NAVIGLI, R, "Consistent validation of manual and automatic sense annotations with the aid of semantic graphs," Computational Linguistics, 32-2, pp.273-281. 2006. [19] NAVIGLI, R. Experiments on the validation of sense annotations assisted by lexical chains, in Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, 129-136. 2006. [20] RADA, R., MILI, H., BICKNELL, E., AND 330

워드넷기반의단어중의성해소프레임워크 BLETTNER, M. "Development and application of a metric on semantic nets," IEEE Trans. Syst. Man Cybernet. 19, 1, 17-30. 1989. [21] SUSSNA, M. "Word sense disambiguation for free-text indexing using a massive semantic network," in Proceedings of the 2nd International Conference on Information and Knowledge Base Management, 67-74., 1993 [22] Qun Liu, Sujian Li, "Word Similarity Computing Based on How-net, Computational Linguistics and Chinese Language Processing, Vol.7, No.2, pp.59-76., August 2002 [23] LEACOCK, C., CHODOROW, M., AND MILLER, G., "Using corpus statistics and WordNet relations for sense identification," Computational. Linguistics, 24, 1, 147-166. 1998. [24] Feng Li, Fang Li, "an new approach measuring semantic similarity in Hownet 2000," Journal of Chinese Information Processing, vol.21, No.3, May 2007. [25] Dekang Lin, "An information-theoretic definition of similarity," in Proceedings of ICML, pages 296-304. 1998. [26] Vaclav Snael, Pavel Moravec, Jaroslav Pokorny. "WordNet Ontology Based Model for Web Retrieval," International Workshop on Challenges in Web Information Retrieval and Integration (WIRI'05), 0-7695-2414-1/05. [27] Brigham Young Universiy, Corpus of Contemporary American English, Available: http://www.americancorpus.org/, 2013 [Accessed August, 19, 2013] 저자소개 임초람 (Chulan Ren) 2005 년 : 중국동북대학교공학사 2008 년 : 명지대학교공학석사 2008~ 현재 : 명지대학교박사과정 관심분야 : Ontology, Natural Language Processing, Semantic Web E-mail : renchulan@gmail.com 조세형 (Sehyeong Cho) 1981 년 : 서울대학교공학사 1983 년 : 서울대학교이학사, 계산통계학 1992 년 : 펜실베니아대학이학박사 1984-2000: 한국전자통신연구원책임연구원 2000 년 ~ 현재 : 명지대학교컴퓨터공학과교수 관심분야 : Ontology, Natural Language Processing, Phone : +82-31-330-6779 E-mail : shcho@mju.ac.kr 331