ISSN 2383-6318(Print) / ISSN 2383-6326(Online) KIISE Transactions on Computing Practices, Vol. 22, No. 2, pp. 107-112, 2016. 2 http://dx.doi.org/10.5626/ktcp.2016.22.2.107 세종전자사전과준지도식학습방법을이용한용언의어의중의성해소 (Word Sense Disambiguation of Predicate using Semi-supervised Learning and Sejong Electronic Dictionary) 강상욱 김민호 권혁철 오주현 (Sangwook Kang) (Minho Kim) (Hyuk-chul Kwon) (Jyhyun Oh) 요약국립국어원의주관으로 10 년에걸쳐구축된 21 세기세종계획의결과물들은한국어를대상으로한대부분의자연언어처리시스템및연구에널리이용되고있다. 21 세기세종계획의결과물중, 세종전자사전은한국어어휘의내재정보에대한체계적인분석정보를담고있어세종전자사전내의상세정보를이용하여어의중의성해소 (Word Sense Disambiguation) 규칙을구축하는데이용할수있다. 하지만한국어의특성상다양한문형과논항이출현할수있으므로문형과논항에대한모든정보를담을수없는단점이존재한다. 본연구에서는세종전자사전의용언하위범주화정보와한국어어휘의미망 (Korean Lexico-semantic Network) 을이용하여구축한어의중의성해소규칙을준지도학습방법을이용하여논항의선택제약정보를확장및일반화한다. 키워드 : 어의중의성해소, 세종전자사전, 한국어어휘의미망, 선택제약명사, 준지도식학습 Abstract The Sejong Electronic(machine-readable) Dictionary, developed by the 21st century Sejong Plan, contains systematically organized information on Korean words. It helps to solve problems encountered in the electronic formatting of the still-commonly-used hard-copy dictionary. The Sejong Electronic Dictionary, however has a limitation relate to sentence structure and selectionrestricted nouns. This paper discuses the limitations of word-sense disambiguation(wsd) that uses subcategorization information suggested by the Sejong Electronic Dictionary and generalized selectionrestricted nouns from the Korean Lexico-semantic network. An alternative method that utilized semi-supervised learning, the chi-square test and some other means to make WSD decisions is presented herein. Keywords: word sense disambiguation, Sejong electronic dictionary, Korean WordNet, Korean lexico-semantic network, semi-supervised learning 본연구는미래창조과학부및정보통신기술연구진흥센터의정보통신 방송연구개발사업의일환으로수행하였음 [R0101-15-0176, Symbolic Approach 기반인간모사형자가학습지능원천기술개발 ] 이논문은 2015 한국컴퓨터종합학술대회에서 세종전자사전과준지도식학습방법을이용한용언의어의중의성해소 의제목으로발표된논문을확장한것임 비회원 : 부산대학교전기전자컴퓨터공학과 muzholiq@pusan.ac.kr karma@pusan.ac.kr 종신회원 : 부산대학교전기컴퓨터공학부교수 (Pusan National Univ.) hckwon@pusan.ac.kr (Corresponding author 임 ) 비회원 : KBS 방송기술연구소 jhoh@kbs.co.kr 논문접수 : 2015년 9월 14일 (Received 14 September 2015) 논문수정 : 2015년 11월 6일 (Revised 6 November 2015) 심사완료 : 2015년 11월 19일 (Accepted 19 November 2015) CopyrightC2016 한국정보과학회ː 개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회컴퓨팅의실제논문지제22권제2호 (2016. 2)
108 정보과학회컴퓨팅의실제논문지제 22 권제 2 호 (2016. 2) 1. 서론시대가발전함에따라인간의편의를위한자연언어처리의중요성과요구는날로커지고있다. 자연언어처리에대한이슈가커질수록, 필수적으로해결해야할문제들에대한많은해결방안들이연구되고있다. 이러한이슈중, 어의중의성해소문제 (Word Sense Disambiguation) 는자연어가가지는의미를구분해야하는문제로서, 기계번역분야뿐만아니라전반적인자연언어처리를위해서는필수적으로해결되어야할중요한이슈중하나이다. 일반적으로, 자연언어처리에대한연구를위해서는대규모언어자원이필수적으로이용된다. 국외의경우, Prinston 대학교에서구축한 WordNet, British National Corpus 등자연언어처리를위한다양한온톨로지와말뭉치가존재한다 [1,2]. 하지만국내의경우, 국립국어원이주관하여 10년에걸쳐구축한 21세기세종계획의결과물들만이이러한역할을대부분수행하고있다 [3]. 자연언어처리에대한원활한연구를위해서는대규모언어자원이많을수록도움이되지만자원구축에는많은시간적, 물질적비용이필요하므로필요성과비교하면실제구축작업이쉽게이루어질수없는단점이있다. 21세기세종계획의결과물중, 세종전자사전은일반적인텍스트사전의문제점인전산적표상문제를해결하며한국어어휘에대한내재정보를상세히담고있다 [4]. 세종전자사전은한국어어휘의특성을고려하여총 12개의하위사전으로구성되어있으며, 특정단어가가질수있는문형정보, 숙어정보, 논항정보등을담고있다. 본논문에서는세종전자사전과한국어어휘의미망 (Korean Lexica-semantic network) 를이용하여구축한어의중의성해소규칙을기반으로, 대표적인기계학습방법의하나인준지도식학습방법을이용한어의중의성해소방법을제안하고그에따른결과를제시한다. 2. 관련연구현재까지의어의중의성해소문제를해결하기위한국내의연구는대부분통계적접근방법을이용하였다. 김민호외 (2011) 는한국어어휘의미망 (Korean Lexico Semantic Network, 이하 KorLex) 를이용한비감독어의중의성해소방법을제안하였다 [5,6]. 이연구에서는 KorLex를이용, 중의성어휘의의미별관계어정보를추출한다. 해당관계어정보를이용하여중의성어휘의주변문맥에나타나는공기어휘와의연관성을대규모말뭉치로부터추출한통계정보를이용하여연관성을측정하여중의성해소에사용하였다. 그결과 10개의중 의성어휘에대하여평균 86.2% 의정확도를나타내었다. 또한, 한국어판위키피디아를이용한검색어의어의중의성해소방법 ( 김성호, 2010), 비감독그래프방법과그래프연결성구조를기반으로한어의중의성해소방법 ( 조정길외, 2014) 을들수있다 [7,8]. 규칙기반의어의중의성해소방법으로는세종전자사전과한국어어휘의미망을이용한방법 ( 강상욱외, 2014) 이있다 [9]. 통계기반의어의중의성해소기법은재현율을향상하는데도움을줄수있지만, 유의미한통계정보를추출하기위한대규모말뭉치구축에드는비용과규칙기반의방법에비해낮은정확도를보인다. 따라서규칙기반의방법과통계기반의방법에대한연구가상호보완적으로이루어져야한다. 3. 세종전자사전의용언하위범주화정보를이용한어의중의성해소 3.1 세종전자사전과한국어어휘의미망을이용한어의중의성해소규칙구축세종전자사전은일반적인사전과는달리영어대역어정보, 문형구성정보, 문형에올수있는선택제약명사정보등을전산적표상이가능하도록그림 1과같은 XML 구조로제공하고있다. 세종전자사전중용언상세사전의문형정보구획내의하위범주화정보들을이용하여초기어의중의성해소규칙을구축하였다. 이는표 1과같이기존의세종전자사전을이용한어의중의성해소연구와같은방법을이용하여구축하였다 [9]. 용언의하위범주화정보는각의미논항들의어떠한표면형태로실현되는지를나타내는부분이다. 하위범주화정보의각논항은 X, Y, Z, W로구분되며조사가부착된형태로나타난다. 조사는종류별로대표형으로표기되고있다. 또한, 문형정보는모든논항이실현된최대구조를보이기때문에문형을부분적으로활용하여규칙을구축할수있다. 선택제약정보는문형정보의선택제약논항이가진의미제약을나타내는부분이다. 세종전자사전에서제시하는세종의미부류체계에따라제시가되어있으며, 때에따라서는괄호를이용하여구체적인명사항목들을제시하는경우도있다. 21세기세종계획의결과물에서는의미부류체계에따른구체명사들을제시하고있지않기때문에세종전자사전의의미부류체계와한국어어휘의미망이연결된구조를이용하여제약명사를추가하였다 [10]. 3.2 KorLex 이용한논항의선택제약명사확장세종전자사전의문형정보및논항의선택제약명사는한국어의특성상발생할수있는다양한형태의문형과선택제약명사를모두나타내지못하고대표적인
세종전자사전과준지도식학습방법을이용한용언의어의중의성해소 109 그림 1 세종전자사전의문형구성구획 ( 따르다 ) Fig. 1 Sentence structure composition section of the Sejong Electronic Dictionary (ttaleuda) 표 1 용언의하위범주화정보를이용한규칙추출 Table 1 Rule extraction using subcategorization information of the predicate Object word of rule extraction : ttaleuda Word in English follow sentence format X i Y eul ttaleuda select-restricted noun X: Human, Y: Human Extracted rule KorLex mapping information [Human]i [Human]eul ttaleuda [Human: 00006026] 형태에관해서만기술하고있다. 따라서 KorLex를이용하여다양한선택제약명사를추가하였다. KorLex는 WordNet을참조모델로하여확장개발된대규모한국어언어자원이다 [11,12]. 기본단위는동의어의묶음인신세 (synonym set; 동의어집합 ) 이며, 그림 2와같은신셋간계층구조 (hierarchical structure) 를이루고있다. 또한, 계층간상의 (hypernym) 와하의 (hyponym) 는 IS-A 관계를보인다. 이러한 KorLex의특징을이용하여선택제약명사로활용될수있는명사신셋의하위어들을선택제약명사에추가하였다. 비용이들지않는대신에단어클러스터를자동으로생성하기때문에수작업으로의미부착말뭉치를구축하여학습데이터로사용하는지도식학습방법보다의미부착성능이다소떨어지는단점이있다. 준지도식학습방법은지도식학습방법과비지도식학습방법의장점을이용한방법으로소량의의미정보를이용하여의미부착이되지않은말뭉치로부터의미부착말뭉치를생성한다. 이러한방법은소량의의미정보구축에이용되는비용을제외한의미부착말뭉치구축에소모되는비용을절감할수있을뿐만아니라, 비지도식학습방법보다높은의미부착성능을나타낸다. 본연구에서는세종전자사전과 KorLex를이용하여구축한규칙들을준지도식학습방법에서의미부착데이터를생성하는초기의미정보로이용하여준지도학습에사용하였다. 학습시노이즈를줄이기위해앞어절의보조용언이나한국어에서만나타나는특수한형태를통하여의미파악이가능한규칙들을일부추가하였다. 예를들어대상단어에관형형전성어미가결합한경우, 왼쪽어절이아닌오른쪽어절의명사를검사하여판단하는규칙, 목적격조사에결합한제약명사에대하여가중치를부여하는규칙등을추가하였다. 학습말뭉치는신문기사 1,000만건을이용하였으며, 해당데이터에세종전자사전과 KorLex를이용하여구축한규칙을적용, 해당하는문장들을옳은문장이라고가정하였다. 학습말뭉치에의미정보를적용하여의미부착말뭉치를생성후 n-gram 모델을구축하였는데, 이는연속된 n개의아이템의집합으로서, 텍스트나음성인식에주로이용된다. 본연구에서는 n-gram의기본단위를어절로구성하 4. 준지도식학습방법을이용한어의중의성해소 4.1 규칙을이용한학습말뭉치구축일반적으로지도식학습방법은의미를부착한데이터를이용하는방법으로써, 나이브베이지안방법이대표적인학습방법이다. 지도식학습방법은수작업을통하여의미부착이완료된양질의말뭉치를학습데이터로사용하기때문에다른학습방법과비교했을때상대적으로높은학습성능을보이지만, 유의미한통계정보를추출하기위해서는대규모의의미부착이완료된말뭉치가필요하다. 의미부착말뭉치는앞서언급한바와같이, 수작업을통하여이루어지기때문에구축에시간적, 물질적비용이많이소모된다. 반면, 비지도식학습방법은지도식학습방법과는달리, 의미정보가부착되지않은데이터를대상으로단어의공기정보를이용하여의미에대한클러스터를자동으로생성한다. 대규모의미부착말뭉치에대한구축 그림 2 KorLex 의계층구조 Fig. 2 The hierarchical structure of KorLex
110 정보과학회컴퓨팅의실제논문지제 22 권제 2 호 (2016. 2) 그림 3 세종전자사전규칙을이용한 n-gram 모델구축 Fig. 3 Construction of the N-gram model using rules extracted from the Sejong Electronic Dictionary 였으며, 의미부착이완료된말뭉치로부터주변문맥과중의성어휘간연관성을판단하기위하여하나의어절만을이용한 uni-gram 모델, 연속된두어절을이용한 bi-gram 모델을학습데이터를이용하여구축하였다. 준지도식학습방법을이용한전체적인흐름은그림 3과같다. 4.2 카이제곱검정을이용한선택제약명사확장카이제곱검정은특정데이터의기댓값과측정값을이용하여어떤가설에대한측정값의적합도를평가하기위한통계적인방법으로써, 카이제곱분포를기반으로하고있다. 본연구에서는규칙에의해판단된중의성어휘와해당어휘의주변문맥을대상으로카이제곱검정을실시, 주변문맥의중의성해소에유의미한정보의포함여부를판단하였다. n-gram 모델을이용한카이제곱검정은식 (1) 의방법을이용하여계산하였으며, 그림 4와같이중의성해소대상어휘와의거리가 3어절이내에있는단어들을대상으로 chi-square 검정을실시하였다. 이때, 식 (1) 의관측값 (O ij) 은표 2와같이계산한다. 해당단어쌍들을통한카이제곱검정의결과값과사전에설정한임계치값을비교, 임계치이상의값이관측되었을때, 해당주변문맥이중의성대상어휘와유의미한관계가있다고판단하고해당주변문맥을 KorLex를이용하여하위신셋에있는단어들을선택제약명사에추가하였다. (1) 표 2 n-gram 모델을이용한 chi-square test Table 2 Chi-square test using the n-gram model Chi-square test target word : ttaleuda(follow) CW1 juseu(juice) CW2 juseu(juice) TW1 ttaleuda(follow) juseu(juice) + ttaleuda(follow) usan(umbrella) + ttaleuda(follow) TW2 따르다 (follow) juseu(juice) + deulda(carry) usan(umbrella) + deulda(carry) 4.3 실험방법실험대상은표 3과같이기존의연구결과에서사용한중의성용언 4개 ( 따르다, 취하다, 맡다, 이르다 ) 와기존의연구결과에서사용하지않은중의성용언 3개 ( 말다, 적다, 벌어지다 ) 로선정하였다 [9]. 기존의연구결과에서사용된단어는기존연구결과의중의성해소규칙을사용하였고, 새로운실험대상단어는세종전자사전과 KorLex의연결정보만을이용하여구축한규칙만을사용하였다. 중의성대상단어와주변문맥간의거리는 3어절이내의단어만을보고판단하였으며, chi-square test의임계값은 3.14로설정하였다. chi-square를이용한선택제약명사의확장은약 90% 의정확도를유지하는때에만성능의변동이있을때까지반복적으로확장하였다. 또한, 데이터의비중에따른성능측정을위해 micro- average를이용하여평균을계산하였다. 그림 4 chi-square 계산에사용된단어쌍 Fig. 4 pairs of word to calculate chi-square test 표 3 실험대상단어와의미, 문장수 ( 단위 : 개 ) Table 3 Information on experimental words Information on experimental words ID Word(in English) Number of sentences (a-1) ttaleuda(follow) 18,751 (a-2) ttaleuda(pour) 302 (b-1) matda(undertake) 3,262 (b-2) matda(smell) 419 (c-1) chwihada(select) 1,908 (c-2) chwihada(marry) 10 (c-3) chwihada(drunken) 1,045 (d-1) ileuda(arrive) 5,601 (d-2) ileuda(talk) 800 (d-3) ileuda(early) 745 (e-1) malda(roll) 213 (e-2) malda(soup) 64 (e-3) malda(give up) 1,844 (f-1) jeokda(write) 1,086 (f-2) jeokda(less) 3,300 (g-1) beoreojida(gap) 323 (g-2) beoreojida(occur) 2,041
세종전자사전과준지도식학습방법을이용한용언의어의중의성해소 111 표 4 chi-square 를이용하여선택제약명사를확장한실험 Table 4 Result of WSD with expanding selection-restricted nouns using the chi-square test P: Precision, R: Recall, Unit: % workload existing result 1st extension 2nd extension ID (number of P R P R P R sentensec) (a-1) 582,536 99.85 96.20 99.84 99.53 (a-2) 702 96.42 89.07 average 99.80 96.09 99.79 99.36 (b-1) 385,276 98.71 84.53 98.17 97.39 98.17 97.51 (b-2) 4,716 96.69 83.53 96.94 83.29 average 98.48 84.42 98.03 95.79 98.03 95.89 (c-1) 252,875 98.28 88.95 95.16 92.67 (c-2) 43 90.00 90.00 (c-3) 26,096 94.23 87.64 average 96.82 88.49 94.81 90.89 (d-1) 304,402 99.65 95.06 99.33 96.39 (d-2) 83,567 94.37 90.95 (d-3) 42,363 96.61 99.20 average 98.74 95.03 98.49 96.07 (e-1) 2,739 97.12 48.82 97.27 50.71 (e-2) 14,670 91.89 50.00 (e-3) 399,548 96.54 48.48 95.53 84.69 95.56 85.23 average 96.46 48.56 95.59 80.23 95.62 80.70 (f-1) 22,985 93.10 14.39 (f-2) 32,105 96.33 6.44 89.18 42.48 90.69 43.93 average 95.53 8.41 90.15 35.52 91.29 36.62 (g-1) 19,924 91.78 20.62 87.50 23.69 88.37 23.38 (g-2) 68,443 99.12 55.03 97.10 82.10 97.01 82.69 average 98.12 50.33 95.79 74.12 95.83 74.59 5. 실험결과 표 4의실험결과에서알수있듯이, Chi-square를이용한선택제약명사확장을반복할수록과도한확장으로인해정확도가다소하락하지만, 재현율이상승하였다. 또한, 준지도학습에의한학습량이많을수록해당의미의어의중의성해소에높은성능향상을보임을확인할수있다. 기존의연구결과에서사용되지않은단어들의어의중의성해소에서도동일한현상을확인할수있었는데, 이는어의중의성해소규칙의일반화나규칙의추가단계를거치지않고도전산적표상이가능한언어자원을이용하여준지도식방법을이용, 학습을진행했을때어의중의성해소의성능향상에도움이될수있음을뜻한다. 하지만학습에사용된규칙이예외사항을많이가지거나, 혹은규칙이다양한문형을포괄하지못하는경우, 학습량이다른단어의미의학습량에비해적었으며, 이는성능향상에좋지않은영향을미쳤다. 6. 결론및향후연구 세종전자사전의정보와 KorLex를이용하여구축한규칙을이용하여높은정확도를유지함과동시에재현율을상승시키기위해서준지도식학습방법을사용하여논항의선택제약명사정보를확장하였다. 학습량이상대적으로많은의미에대해서는성능향상이두드러지게나타났으나, 그렇지않은의미들은성능향상에큰영향을끼치지못하였다. 이러한문제는표준국어대사전의정보나기타언어자원의정보를이용하여준지도학습에사용되는규칙을제어한다면정확도및재현율향상에도움이될것으로판단한다. References [1] Burnard, Lou. Reference guide for the British National Corpus (world edition), 2000. [2] Taylor, Ann, Mitchell Marcus, and Beatrice Santorini, The Penn treebank: an overview, pp. 5-22, Springer, Netherlands, 2003. [3] Ide, Nancy, and Catherine Macleod, "The american national corpus: A standardized resource of american english," Proc. of Corpus Linguistics 2001. Vol. 3, 2001. [4] Y.P. Hong, Result and problem of 21 century Sejong Plan Business, The National Institute of the Korean Language, Saegugeosaenghwal, Vol. 19, No. 1, 2009. (in Korean) [5] J. S. Hong, Development Research Paper of 21 century Sejong Plan Electronic Dictionary, (11-1370252-000063-10), the Ministry of Culture and Tourism, The National Institute of the Korean Language, 2007. (in Korean) [6] M. Kim, H. Kwon, "Word Sense Disambiguation using Semantic Relations in Korean WordNet," Journal of KIISE: Software and Application, Vol. 38, No. 9, pp. 554-564, Oct. 2011. (in Korean) [7] J. Jo, G. Shin, "A Graph-based Word Sense Disambiguation Using Measures of Graph Connectivity," Journal of KIIT, Vol. 12, No. 6, pp. 143-151, Jun. 2014. (in Korean) [8] S. Kim, S. Bae, Y. Ko, "Ambiguity Resolution and Expansion of Query using Wikipedia," Proc. of KIISE, Vol. 37, No. 2A, pp. 46-47, Nov. 2010. (in Korean) [9] S. Kang, M. Kim, H. Kwon, J. Oh, S Jeon, "Word Sense Disambiguation of Predicate using Sejong Electonic Dictionary and KorLex," Journal of KIISE: Transactions and Computer Practices, Vol. 21, No. 7, pp. 500-505. Jul. 2015. (in Korean) [10] S. Bae, G. Lim, A. Yoon, "Mapping Heterogenous Ontologies for the HLP Applications - Sejong Semantic Classes and KorLexNoun 1.5," Korean Journal of Cognitive Science, Vol. 20, No. 1, pp. 95-
112 정보과학회컴퓨팅의실제논문지제 22 권제 2 호 (2016. 2) 126. Mar. 2010. (in Korean) [11] A. Yoon, S. Hwang, E. Lee, H. Kwon, "Construction of Korean Wordnet KorLex 1.5," Journal of KIISE: Software and Application, Vol. 36, No. 1, pp. 92-108, Jan. 2009. (in Korean) [12] Ch. Fellbaum (ed.), WordNet: An Electronic Lexical Database, The MIT Press, Cambridge, 1998. 강상욱 2013 년부산대학교정보컴퓨터공학부학사 2013 년 현재부산대학교전기전자컴퓨터공학과석사과정. 관심분야는자연어처리, 기계번역, 기계학습 김민호 2007 년부산대학교정보컴퓨터공학부학사. 2009 년부산대학교컴퓨터공학과석사 2009 년 현재부산대학교전기전자컴퓨터공학과박사과정. 관심분야는자연언어처리, 정보검색, 인공지능 권혁철 1982년서울대학교컴퓨터공학과학사 1984년서울대학교컴퓨터공학과석사 1987년서울대학교컴퓨터공학과박사 1992년~1993년 ( 미 )Stanford 대학 CSLI 방문교수. 1987년~현재부산대학교정보컴퓨터공학부, 인지과학협동과정교수관심분야는인간언어공학, 정보검색, 인공지능 오주현 1997년부산대학교전자공학과학사. 1999 년부산대학교전자공학과석사. 2012년연세대학교전기전자공학과박사. 1999년 ~현재 KBS 기술연구소. 관심분야는장애인방송, 영상처리