10(833-) SAA13-24.hwp



Similar documents
09권오설_ok.hwp

<30352DC0CCC7F6C8F B1B3292DBFACB1B8BCD2B1B3C1A42E687770>

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

°í¼®ÁÖ Ãâ·Â

À±½Â¿í Ãâ·Â

정보기술응용학회 발표

untitled

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

R을 이용한 텍스트 감정분석

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc


KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti

김기남_ATDC2016_160620_[키노트].key

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

I

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

03-서연옥.hwp

04김호걸(39~50)ok

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

#Ȳ¿ë¼®

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

DBPIA-NURIMEDIA

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

<C7A5C1F620BEE7BDC4>


Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

인문사회과학기술융합학회

Journal of Educational Innovation Research 2016, Vol. 26, No. 3, pp DOI: Awareness, Supports

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

디지털포렌식학회 논문양식

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

레이아웃 1

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: * The

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

6.24-9년 6월

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: NCS : G * The Analy

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

<5B D B3E220C1A634B1C720C1A632C8A320B3EDB9AEC1F628C3D6C1BE292E687770>

(5차 편집).hwp

03-ÀÌÁ¦Çö

04-다시_고속철도61~80p

DBPIA-NURIMEDIA

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

19_9_767.hwp

09È«¼®¿µ 5~152s

05( ) CPLV12-04.hwp

<C5D8BDBAC6AEBEF0BEEEC7D02D3336C1FD2E687770>

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

., (, 2000;, 1993;,,, 1994), () 65, 4 51, (,, ). 33, 4 30, 23 3 (, ) () () 25, (),,,, (,,, 2015b). 1 5,

<31372DB9DABAB4C8A32E687770>


<C3D6C1BE2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D32C8A3292E687770>

09김정식.PDF

서론 34 2

DBPIA-NURIMEDIA

<C1A4BAB8B9FDC7D031362D335F E687770>

Journal of Educational Innovation Research 2016, Vol. 26, No. 2, pp DOI: * The Mediating Eff

,. 3D 2D 3D. 3D. 3D.. 3D 90. Ross. Ross [1]. T. Okino MTD(modified time difference) [2], Y. Matsumoto (motion parallax) [3]. [4], [5,6,7,8] D/3

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

DBPIA-NURIMEDIA

???? 1

???? 1

03-최신데이터

DBPIA-NURIMEDIA

11¹ÚÇý·É

<31325FB1E8B0E6BCBA2E687770>


step 1-1

01( ) SAV12-04.hwp

2 : (JEM) QTBT (Yong-Uk Yoon et al.: A Fast Decision Method of Quadtree plus Binary Tree (QTBT) Depth in JEM) (Special Paper) 22 5, (JBE Vol. 2

<32392D342D313020C0FCB0C7BFED2CC0CCC0B1C8F12E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

ISO17025.PDF

Æ÷Àå½Ã¼³94š

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

07.045~051(D04_신상욱).fm

00내지1번2번

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

14.531~539(08-037).fm

부문별 에너지원 수요의 변동특성 및 공통변동에 미치는 거시적 요인들의 영향력 분석

304.fm

Journal of Educational Innovation Research 2016, Vol. 26, No. 3, pp.1-16 DOI: * A Study on Good School

08원재호( )

<3136C1FD31C8A35FC3D6BCBAC8A3BFDC5F706466BAAFC8AFBFE4C3BB2E687770>

< FC1A4BAB8B9FDC7D D325FC3D6C1BEBABB2E687770>

Transcription:

한국어 어휘의미망 U-WIN을 이용한 한국어 복합명사 의미 분석 833 한국어 어휘의미망 U-WIN을 이용한 한국어 복합명사 의미 분석 [Semantic Analysis of Korean Compound Noun using Lexical Semantic Network(U-WIN)] 배영준 옥 철 영 (Young-Jun Bae) (Cheol-Young Ock) 요 약 현재까지 대부분의 한국어 처리 시스템에서는 복합명사 분석을 위해 많은 명사와 복합명사를 사전에 등재하여 처리하였다. 그러나 복합명사를 모두 사전에 등재하는 것은 한계가 있으므로 명사 간의 관계 또는 동형이의어 명사의 의미 분석 등을 통해서 미등재 복합명사를 분석할 필요가 있다. 본 논문에 서는 어휘의미망(U-WIN)을 이용한 한국어 복합명사 의미 분석 방법을 제안한다. 복합명사 의미 분석을 위해 표준국어대사전에서 추출한 27,761개의 복합명사를 대상으로 실험하였다. 실험을 위해 세종 말뭉치에 서 추출한 방향별 bigram 단위의 학습데이터를 두 집합으로 구축하고, 품사 패턴과 U-WIN을 통해 학습 데이터를 확장하여 자료 부족 문제를 일부 해결한다. 그리고 미등록 복합명사를 처리를 위해 U-WIN을 통한 상위 탐색 방법을 이용해 가중치를 확보한 후 의미 분석에 사용한다. 실험한 결과 복합명사의 의미 분석은 86.20%의 정확률을 보였다. 그리고 위치 정보를 고려하지 않은 기존의 유사도 추출 기법과의 실험 결과를 비교했을 때 본 논문의 방법이 정확률에서 9.6% 더 높은 성능을 보였다. 키워드: 복합명사, 의미 분석, 의미 중의성 해소, 어휘의미망, U-WIN Abstract In order to analyze Korean compound nouns, most of Korean processing systems have stored nouns and compound nouns in dictionary. However, this approach is limited because most of Korean compound nouns are very productive. Therefore, it is necessary to analyze the unregistered Korean compound nouns semantically using a relation of nouns and semantic analysis of homonym. In this paper, we propose a method for semantic analysis of Korean compound noun using lexical semantic network (U-WIN). 27,761 compound nouns of the Standard Korean Language Dictionary were used for experiments. For the experiments we constructed training sets of bigram units. To solve a problem of data sparseness we constructed more training set using U-WIN. The weighting methods of allocation and acquisition are used for semantic analysis of unregistered compound nouns. The result of the experiment showed a accuracy of 86.20%. The approach improved a accuracy of 9.6% than the existing approach without using the position information. Keywords: Compound Noun, Semantic Analysis, Word Sense Disambiguation, Lexical Semantic Network, U-WIN 본 연구는 미래창조과학부 및 한국산업기술평가관리원의 산업융합원천기술개발 논문접수 : 2013년 9월 10일 사업(정보통신)의 일환으로 수행하였음.[10044508, 비기호적 기법 기반 인간 심사완료 : 2013년 10월 10일 모사형 자가학습 지능 원천기술개발] 학생회원 : 울산대학교 컴퓨터정보통신공학 young4862@nate.com 종신회원 : 울산대학교 컴퓨터정보통신공학 교수 okcy@ulsan.ac.kr (Corresponding author임) CopyrightC2013 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작 물의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처 를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회논문지: 소프트웨어 및 응용 제40권 제12호(2013.12)

834 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12) 1. 서 론 대용량의 문서 및 자료에서 사용자에게 필요한 정보 만을 추출하거나 정리해 주는 시스템 또는 서비스에 대 한 연구가 최근 활발히 진행되고 있다. 그러나 이러한 시스템 및 서비스들은 아직 의미적 중의성을 처리하지 못하고 있다. 특정 단어가 가지는 의미의 수가 다양할수 록 제공되는 정보의 신뢰성이 떨어지는 경향이 있다. 이 러한 문제를 해결하기 위해 형태적 처리부터 구문 의미 적 처리까지 다양한 방법이 연구되고 있다. 하지만 형태 적 처리 기술이 95% 이상의 정확률을 보이는 반면, 의 미적 처리 기술은 의미적 중의성을 가지는 특정 소수 단어만을 대상으로 처리하여도 70 90%의 정확률을 보 이는 등 현재까지 많은 한계를 가지고 있다[1-3]. 의미 처리 연구는 단어, 구문, 문장의 의미를 분석하 기 위해 이루어졌으며, 단어 의미 중의성 해소(Word Sense Disambiguation)에 관한 연구가 많이 진행되어 왔다. 이들은 사용하는 데이터의 형태에 따라서 지식베 이스(사전, 의미망, 시소러스, 온톨로지 등)를 이용하는 방법과 말뭉치를 이용하는 방법으로 분류할 수 있고, 방 법론에 따라서는 크게 규칙을 이용한 방법, 확률 통계를 이용한 방법 등으로 분류할 수 있다. 지식베이스를 이용한 방법은 기계 가독형 사전(Machine Readable Dictionary) 과 어휘의미망과 같은 자원들을 사용하는데, 주로 사전 의 뜻풀이나 예문, 개념들의 관계 등을 이용한다[4-8]. 말뭉치를 이용한 방법은 1990년대부터 연구가 활발히 진행되어 왔으며, 베이지안 분류기, 결정트리, 신경망 등 을 이용한 기계학습 기법을 활용한 연구가 주로 이루어 졌다. 말뭉치 의미태그 부착 여부에 따라 비감독 중의성 해소(unsupervised disambiguation)와 감독 중의성 해 소(supervised disambiguation)로 나누어진다. 원시말뭉 치를 이용할 경우 즉, 의미태그가 부착되지 않은 말뭉치 를 사용할 경우 비감독 중의성 해소라고 하며 반대로 의 미태그가 부착된 말뭉치를 사용할 경우 감독 중의성 해 소라고 한다. 대부분의 경우 감독 중의성 해소의 정확률 이 비감독 중의성 해소보다 높게 나타난다. 하지만 감독 중의성 해소를 위해서는 말뭉치에 의미태그 부착 작업이 필요한데, 여기에는 많은 시간, 자원, 노력이 들어간다[9]. 그 밖에 구조적인 방법을 이용한 연구들이 있는데, 구 조적인 방법을 제안한 연구들은 대부분 어휘 사슬 (lexical chain)을 기반으로 한 연구들이다. 어휘 사슬은 문맥이나 문장 내에서 의미적으로 관련된 단어들의 연 속 또는 연결로, 담화의 일관성과 의미의 연속성 등을 분석하는 데 기여한다[10,11]. 의미 분석을 위한 의미 단위는 동형이의어와 다의어 두 단위로 구분할 수 있다. 현재 대부분의 연구에서 의 미 분석 단위는 동형이의어 단위이지만, 일부 연구에서 는 다의어 단위의 연구를 진행하기도 했다[2,12]. 하지만 이러한 연구에서는 의미 분석 대상 중 소수 단어만 다 의어 단위였고, 나머지는 동형이의어 단위였다. 정확한 의미 분석을 위해서는 다의어 단위의 처리가 필요하지 만, 현재 다의어 단위의 자원이 부족하기 때문에 본 논 문에서는 동형이의어 단위의 의미 분석을 진행하였다. 문서에 나타난 단어를 정확히 의미 분석하기 위해서 는 연관된 자료 또는 정보 등의 데이터, 즉 자질 확보가 필요하다. 기존의 연구에서는 자질 확보를 위해 의미 분 석이 필요한 단어가 나타난 주변의 단어, 그 단어가 나 타난 문장 또는 문단, 더 나아가 해당 문서에 나타난 단 어들을 외적 자질 1) 로 확보하고 이를 활용하여 의미 분 석을 진행하였다[1-3,9]. 그러나 복합명사는 자체로도 두 개 이상 단어의 연결로 구성되어 있기 때문에 내적 구성 단어들로부터 자질을 확보할 수 있다. 정보검색에 서 사용자가 질의어를 입력할 경우 하나의 문장보다는 단일어 또는 복합명사 형식으로 입력한다. 이러한 입력 이 주어진다면 복합명사 외에 주변의 단어가 없어 자질 을 확보하지 못해 의미 분석이 불가능해진다. 그렇기 때 문에 의미 분석을 위해서는 의미 분석이 필요한 단어 주변의 단어뿐 아니라, 단어 내부의 구조 분해를 통한 내적 구성 단어로 부터의 자질 확보도 필요하다. 또한 복합명사의 경우 복합명사를 구성하는 구성명사 간의 의미 결합 여부도 중요한 자질이 될 수 있다. 복합명사는 서로 결합하는 단어 간의 의미를 제약해 주기 때문에 명사 간의 속성과 의미를 부분적으로 파악 할 수 있다. 예를 들어 { 부산포-해전_03, 악티움-해전 _03 }과 같이 명사 해전_03( 海 戰 ) 의 경우 자신의 앞 명 사를 바다와 관련된 지명 에 해당하는 명사로 의미 제 약이 가능하다. 다른 예로 황해_01-해전_03 과 같이 두 명사 모두 동형이의어일 때, 해전 의 동형이의어별 제약 중 바다와 관련된 지명 이라는 의미로 앞의 명사 황해 의 동형이의어 중 황해_01( 黃 海 ) 로 제약이 된다면, 해 전 도 제약의 영향을 받아 해전_03( 海 戰 ) 로 의미가 결 정될 수 있다. 이처럼 복합명사는 명사들 간 상호제약이 가능하다. 하지만 해전-황해 와 같이 두 단어의 위치를 바꾸면 의미가 전혀 통하지 않는 복합명사가 되어버린 다. 이렇듯이 복합명사는 한 방향만 고려하는 것이 아니 라 앞뒤 명사의 위치 정보를 모두 고려한 의미 분석 방 법이 필요하다. 그리고 명사 간 제약의 범위를 어떻게 설정할 지에 관한 분석도 필요하다. 그림 1은 어휘의미망을 이용한 의미 분석 방법으로 1) 문장에서 복합명사 주위에 나타나는 명사에 대한 형태 의미적 정보를 외적 자질 이라 하며, 복합명사를 구성하는 구성명사 간의 형태 의미적 정보를 내적 자질 이라 한다.

한국어 어휘의미망 U-WIN을 이용한 한국어 복합명사 의미 분석 835 그림 1 어휘의미망을 이용한 의미 분석 방법 비교 (외적 자질이 없을 경우) Fig. 1 A comparison of semantic analysis using lexical semantic network (no external feature) 기존의 방법은 축구 와 {경기_02, 경기_05, 경기_11}의 개별 구성명사를 기준으로 구성명사 간의 유사도를 측 정하여 의미 분석에 활용하였다[13]. 하지만 이러한 유 사도 측정보다 구성명사와 해당 구성명사의 위치에 나 타날 수 있는 단어들의 유사도를 측정하여 의미 분석에 활용해 볼 필요가 있다. 예를 들면, 복합명사 축구경기 를 대상으로 개념적 거리 를 통한 의미 분석을 실행할 때, 그림 1과 같이 아래위 두 방법 모두 어휘의미망 내 의 개념적 거리 가 가장 짧은 경기_11 로 의미 분석이 가능하다. 하지만 어휘의미망에서 축구 라는 단어와 보 다 짧은 개념적 거리 값을 획득하는 방법은 동위 노드 들(야구, 농구)이 자질로 구축되어 있으며 앞의 구성명 사 위치에 나타날 수 있는 단어들을 이용한 방법이다. 그러므로 이러한 위치 정보를 이용한 의미 분석 방법에 대한 연구가 필요하다. 본 논문에서는 복합명사를 대상으로 구성명사의 동형 이의어를 의미 분석하기 위한 방법을 살펴본다. 2장에서 한국어 복합명사의 의미 분석에 대한 연구와 어휘의미 망을 이용한 기존의 연구 방법론을 살펴보고, 3장에서 구조 분해된 복합명사의 의미 분석 방법론에 대해 자세 히 다루어본다. 4장에서 기존의 연구 방법 등과 실험을 통한 비교 평가를 진행한다. 마지막으로 5장에서 결과와 향후에 연구방향에 대한 언급으로 마무리 한다. 2. 관련 연구 지금까지 복합명사의 구조 분해에 관한 연구는 다양 하게 있었다. 하지만 구조 분해된 복합명사의 의미 분석 에 관한 연구는 거의 없었다. 복합명사는 현재까지 많은 복합명사를 사전에 등재시켜 처리하였으나, 근본적으로 복합명사를 구조 분해 후 의미 분석을 진행하는 복합명 사에 대한 언어처리 방법은 거의 연구되지 않았다. 허정(2006)은 기분석된 복합명사 의미사전을 이용하 여 복합명사가 아닌 단어의 의미 분석에 대한 연구를 소개하였다. 어휘들 간의 연관계수인 상호정보량을 이용 함으로써 자료 부족 문제를 완화시켰다. 또한, 언어적인 특징을 반영하기 위해서 상호정보량을 가지는 어휘 쌍 의 비율 가중치, 의미 별 비율 가중치와 뜻풀이의 길이 가중치를 사용하였다. 그리고 복합명사를 구성하는 단일 명사들은 서로의 의미를 제약한다는 것에 기반하여 고 빈도 복합명사에 대해서 의미를 부착한 의미사전을 구 축하였고, 이를 동음이의어 의미 분석에 활용하였다[1]. 이 논문에서는 복합명사에 대한 의미 분석을 위해 의미 사전을 사용하였다. 사전에 기반하기 때문에 새로운 복 합명사에 대한 처리를 할 수 없으며, 저빈도의 복합명사 는 고려대상이 되지 않는 단점이 있었다. 이용훈(2012)은 통계기반의 복합명사 분해 방법과 어 휘의미망(U-WIN)과 사전 뜻풀이에서 추출한 의미관계 정보를 이용하는 한국어 복합명사 의미 태깅 시스템을 제안하였다. 전체 시스템은 크게 복합명사 분해, 의미제 약, 그리고 의미 태깅의 세 가지 부분으로 나누었으며, 분해과정은 세종말뭉치에서 추출한 위치별 명사 빈도를 사용하여 최적의 구성 명사 분해 후보를 선정하고 의미 제약을 위한 구성 명사 재분해와 외래어 복원의 과정을 수행하였다. 의미범위 제약과정은 유사도 비교의 계산량 을 줄이고 정확도를 높이기 위해 원어 정보와 Naive Bayes Classifier를 이용해 가능한 경우 구성 명사의 의

836 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12) 미를 앞서 제약하였다. 의미 분석 및 태깅 과정에서는 bigram 구성 명사의 각 의미 유사도를 구하고 하나의 체인을 만들어가며 태깅을 수행하였다. 성능 평가를 위 해 표준국어대사전에서 추출한 3음절 이상의 40,717개의 복합명사를 대상으로 99.26%의 분해 정확도를 보였으 며, 95.38%의 의미 분석 정확도를 보였다[13]. 이 논문 에서 복합명사 의미 분석 시 앞뒤 구성명사에 대한 유 사도를 측정한다. 그러나 앞뒤 구성명사의 유사도보다 앞뒤 구성명사 중 한 단어를 기준으로, 학습데이터에서 공기하는 단어들 또는 확장된 단어들과 비교를 통해서 앞뒤 구성명사의 의미 분석이 이루어져야한다. 그래서 본 논문에서는 두 방법론에 대한 비교를 시도하였다. 지식 기반 어휘 의미 분석 방법은 사전, 시소러스, 온 톨로지, 의미망, 연어 등의 정보를 이용하여 문장 또는 문맥 내의 단어의 의미 분석하는 방법이다. 이 방법은 학습된 데이터를 이용한 교사학습 방법보다 성능은 떨 어지지만 다양한 지식 기반 자원을 통해 보다 넓은 범 위의 단어까지 의미 분석이 가능하다는 장점이 있다. 특 히 어휘의미망은 자료부족 문제를 해결하기 위해서 사 용되거나, 어휘의 자질 확장을 위해 주로 사용된다. 본 논문에서 사용할 어휘의미망 활용 방법과의 비교를 위 해 WordNet을 이용한 기존의 방법들을 살펴본다. 어휘의미망인 WordNet이 사용 가능해 지면서, 의미 분석 연구로 사전기반 방법보다 어휘의미망을 이용한 방법이 주목을 받게 되었다. 계층적 구조에서 개념 간 연결 중 가장 짧은 경로(path)를 이용한 개념적 거리 (Conceptual Distance)[14], 두 개념 간의 최소 공통 상 위 노드(LCS: Lowest Common Subsummer)를 찾는 정보량(IC: Information Content)[15-19], 개념의 위치 상 깊을수록 더 큰 값을 반환하는 계층적 깊이(Depth)[18], 단어의 분포의 밀집한 정도에 따른 개념적 밀도(Conceptual Density)[20-23], 그리고 이러한 기법 중 계층 적 깊이와 개념적 밀도를 복합적으로 사용한 연구[24] 등 유사도를 이용한 단어 의미 분석 방법이 연구되었다. 이 중 본 논문의 방법론과 비교할 Rosso은 개념적 밀도 에 대한 다른 모델을 제안했다. Agirre은 해당 중의성을 가진 단어와 문맥에 나타난 단어들의 상 하위 개념들을 모두 포함하여 개념적 밀도를 구하였다. 하지만 Rosso 는 해당 단어들의 하위 개념은 포함하지 않고 해당 단 어들과 부분계층의 최상위까지의 상위 개념들만 대상으 로 개념적 밀도를 구하였다[22]. 지금까지 살펴본 연구 외에도 WordNet을 이용해 단 어 또는 개념 간의 유사도를 측정하는 연구는 다양하게 진행되었으며, 이러한 연구들은 유사도 측정 방법에 따 라 Edge-counting 또는 Path, Feature, Information Content와 같은 부류로 구분되어진다[25]. 3. 복합명사 의미 분석 복합명사를 구성하는 명사 중 분석해야할 동형이의어 에 대해 살펴보고 복합명사에 대한 구조적 분해, 의미적 분석 순서로 진행한다. 구조적 분해 방법은 이용훈(2012) 를 활용하였다. 복합명사 의미 분석에 앞서 분석에 이용될 자원들을 살펴본다. 의미 태그가 부착된 세종말뭉치에서 추출한 복합명사를 기반으로 학습데이터를 생성하고, 형태적 패 턴 및 U-WIN[26]을 활용해 부족한 자질정보를 보충하 여 학습데이터를 확장한다. 의미 분석은 복합명사의 bigram 단위 공기 정보에 기반하고, bigram 단어 중 한 단어를 중심으로 구축된 자질 및 클래스 정보에서 얻은 가중치와 U-WIN의 상위어 확장을 통한 가중치 획득 방법 등을 이용해 의미 분석을 진행한다. 3.1 자원 구축 3.1.1 학습데이터 구축 학습데이터 구축을 위해 품사 및 의미주석이 부착된 세종말뭉치에서 복합명사를 추출한다. 세종말뭉치 내의 품사태그가 NNG(일반명사), NNP(고유명사)로 구성된 복합명사를 추출하고 이를 다시 bigram 단위로 추출한 뒤 빈도가 추가된 위치 기반 학습데이터로 구축한다. NNG, NNP 가 연속적으로 나타나는 패턴의 복합명 사를 모두 추출하였다. 학습데이터는 세종 말뭉치에서 추출된 복합명사들의 bigram 명사 쌍을 기반으로 구축 한다. bigram 명사 쌍 중 중심단어를 앞뒤 단어 중 어 느 단어에 두는 지에 따라 학습데이터 및 실험 결과 값 이 달라진다. 그래서 뒷단어를 중심단어 즉 클래스로 보 고 앞 단어를 자질로 선정하여 학습데이터를 구축하고, 이를 반대로 두고 또 하나의 학습데이터를 구축하였다. 이후부터 전자를 역방향 학습데이터, 후자를 순방향 학 습데이터라 하겠다. 구축된 역방향 학습데이터의 의미 분석이 필요한 클래스 개수는 12,003개이며, 동형이의어 개수는 17,428개이고, 순방향 학습데이터의 클래스 개수 는 12,078개이고, 동형이의어 개수는 17,033개이다. 역방향 학습데이터에 기반한 분류기(classifier)를 만 든다면, 복합명사의 제일 앞에 위치하는 단어는 자신의 앞에 위치하는 자질이 없어 의미 분석에 어려움이 있다. 그러므로 이후 실험에서 역방향 학습데이터와 순방향 학습데이터를 결합시켜 실험을 진행한다. 3.1.2 확장 학습데이터 구축 : 품사 패턴 기존의 논문에서는 일반적으로 NNG, NNP 등의 명 사류의 이웃한 쌍들을 학습데이터로 구축하거나, 거기에 더해 JKG(관형격 조사)의 좌우 명사들을 복합명사로 보 고 학습데이터로 구축해 왔다. 하지만 학습데이터가 부 족할 경우 이러한 쌍들 뿐 아니라 서로 이웃하지 않은

한국어 어휘의미망 U-WIN을 이용한 한국어 복합명사 의미 분석 837 명사 쌍들도 복합명사로 추출하면 학습데이터 부족현상 을 보완할 수 있다. 그래서 본 논문에서는 같이 서로 이 웃하지 않은 명사 쌍에서 복합명사가 될 수 있는 품사 패턴을 구축하고 그 패턴에 해당하는 쌍들을 복합명사로 가정하고 학습데이터를 구축하였다. 표 1은 복합명사 가능 후보군 확장을 위한 5가지 품 사 패턴을 보여준다. 패턴 4 의 경우 세포융합 과 기술 발전 이 세종말뭉치에서 추출되었으며, 이 두 단어 중 세포융합 은 실제 표준국어대사전에 있는 단어이다. 그리 고 기술발전 은 복합명사가 될 가능성이 있는 단어이다. 표 2는 품사 패턴별로 포함여부에 따라 학습데이터로 구축된 클래스 및 동형이의어 개수의 차이를 보여준다. 이웃한 명사 패턴만을 대상으로 구축한 역방향 학습데 이터보다 모든 패턴을 대상으로 구축한 역방향 학습데 이터가 클래스 개수는 2,428개, 동형이의어 개수는 4,391 개 많이 구축되었다. 3.1.3 확장 학습데이터 구축 : U-WIN 노드 복합명사는 단어 간 결합이 비교적 자유롭기 때문에 기존의 단어들과 결합하여 신조어가 만들어지는 비율이 증가하고 있다. 이렇게 복합명사 신조어가 만들어질 때 마다 학습데이터를 추가적으로 구축하기는 쉽지 않다. 그렇기 때문에 복합명사 앞뒤 명사의 동형이의어 범위 를 제약하거나 의미를 하나로 선택해 줄 수 있다면 학 습데이터를 재구축하는 수고를 줄여줄 수 있다. 이러한 방법 중 하나로 어휘의미망인 U-WIN을 이용하여 앞뒤 단어의 의미적 제약을 부여하여 단어의 의미 분석에 활 용이 가능하다. U-WN의 노드를 기반으로 한 학습데이 터 확장 방법을 기존의 연구와 비교하여 제시한다. 이용훈(2012)에서는 자료 부족 문제를 해결하기 위해 표 3과 같은 7가지 종류의 추출 대상을 사용하였다. 그 러나 이 모두를 확장의 대상으로 사용 시 학습데이터 크기가 매우 커지며, 학습 속도 및 시스템 처리 속도가 현저히 떨어질 수 있다. 예를 들면, 벼슬_010001 의 경 우 2,127개의 하위어를 가지고 있다. 여기에 하나의 뜻 풀이 당 평균 5개의 명사를 가지고 있다고 가정하고, 자 질확장 대상 중 2 1차 하위어들의 뜻풀이 을 적용시키 POS pattern 0 NN* NN* 1 NN*+JKG NN* 2 NN*+JKB NN* 3 NN*+JKO VV 4 NN*+JKS VV 5 VV+ETM NN* 표 1 복합명사 가능 후보군 확장을 위한 품사 패턴 Table 1 POS patterns for expansion of feature candidates Examples of candidates of compound noun in Dictionary Examples of candidates of compound noun [단순골절] 단순_02/NNG 골절_01/NNG [제품가격] 제품_02/NNG 가격_03/NNG [약물내성] 약물_03/NNG+의/JKG 내성_06/NNG [감지기불량] 감지기/NNG+의/JKG 불량_01/NNG+으로/JKB [세포배양] 세포_02/NNG에/JKB 배양_01/NNG [물건하자] 물건/NNG+에/JKB 하자_02/NNG+가/JKS [회사합병] 회사_04/NNG+를/JKO 합병하_02/VV+는/ETM [태극기판매] 태극기/NNG+를/JKO 판매하/VV+면/EC [세포융합] 세포_02/NNG+가/JKS 융합되/VV+는/ETM [기술발전] 기술_01/NNG+이/JKS 발전하_01/VV+면서/EC [생산시간] 생산하/VV+ㄴ/ETM 시간_04/NNG [조사결과] 조사하_12/VV+ㄴ/ETM 결과_02/NNG+를/JKO the number of class the number of homograph 표 2 품사 패턴에 따른 학습데이터 개수 Table 2 The number of training data according to POS patterns 1 2 3 4 5 6 7 NN* NN* O O O O O O O NN* + JKG NN* X O O O O O O NN* + JKB NN* X X O X X X O NN* + JKO VV X X X X O O O NN* + JKS VV X X X X X O O VV + ETM NN* X X X O O O O forward dir. 12,078 12,943 13,365 13,436 13,601 13,672 13,990 backward dir. 12,003 13,292 14,067 13.534 13,706 13,765 14,431 forward dir. 17,033 18,699 19,453 19,336 19,838 19,975 21,081 backward dir. 17,428 19,649 21,081 20,199 20,443 20,544 21,819

838 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12) 1 definitions of entries 2 definitions of hyponyms under 1 depth 3 definitions of hypernyms 4 definitions of synonyms 5 definitions of nouns extracted definitions of entries 표 3 이용훈(2012)에서 사용한 7가지 종류의 자질 확장 대상 Table 3 7 targets of feature expansion used in Lee (2012) 7 targets 6 definitions of alternative words when definitions of entries include a phrase "~이르는(던) 말" ex) "~이르는(던) 말", "~아울러 이르는(던) 말", "~속되게 이르는(던) 말", "~달리 이르는(던) 말", "~높여 이르는(던) 말", "~놀림조로 이르는(던) 말", "~낮추어 이르는(던) 말", "~낮잡아 이르는(던) 말", "~정답게 이르는(던) 말", "~줄여 이르는(던) 말", "~겸손하게 이르는(던) 말" 7 definition of alternative word when definition of entry include phrases "~의 방언", "~의 잘못", "~의 옛말", "~을 우리 한자음으로 읽은 이름", "~로 순화", "~의 음역어" 표 4 5가지 종류의 자질 확장 대상 Table 4 5 targets of feature expansion 5 targets 1 entry 2 hyponyms under 1 depth 3 hypernyms 4 synonyms of entry 5 coordinate words 면, 중복데이터를 제외하더라도 대략 10,000개의 자질이 확장 자질로 추가된다. 여기에 3~7 대상으로 자질 을 확장시키면 학습데이터의 크기는 더욱 커지게 되고, 이는 성능과 속도에 악영향을 미치게 된다. 그래서 본 논문에서는 학습데이터 크기를 과하게 증가시키는 확장 대상을 제외하고 표 4와 같이 5가지의 항목만 확장 대 상으로 선정하여 학습데이터를 구축하였다. 뜻풀이를 포함하지 않고 U-WIN의 노드만을 확장 대상으로 설정 한 이유는 같은 상위어를 가진 노드들은 유사한 의미 또는 분류를 갖기 때문에 굳이 뜻풀이로 확장할 필요가 없다. 복합명사는 그림 2처럼 앞뒤 명사를 의미적 제약에 이용할 수 있는 것을 확인할 수 있다. 복합명사 광학기 계 의 광학을 U-WIN 상에 매핑시켜 의미제약을 할 수 있을 뿐 아니라, 상 하 동위 확장을 통해 학습데이터에 나타나지 않은 단어들도 연결시켜 자질 부족 문제를 해 결 가능하게 해준다. 그림 2는 {기계_07, 분석_02, 재료 _01}이라는 단어의 앞에 광학 을 중심으로 한 상위어 물리학 뿐 아니라 광학 의 동위 하위어인 {건축물리, 화 상공학}등 의미적으로 연결이 가능하다는 것을 보여준 다. 이렇듯 뜻풀이로의 확장이 아니라, 어휘망 주변 노 드로의 확장이 선행되어야 한다. 3.1.4 확장 학습데이터 구축 : U-WIN과 가중치 자료 부족 문제를 해소하기 위한 세 번째 방법은 학 그림 2 상위어, 하위어, 동위어를 통한 자질 확장(뜻풀이 를 제외) Fig. 2 Feature expansion using hypernyms, hyponyms, coordinate words 습데이터로 추출한 빈도정보를 바탕으로 U-WIN의 노 드에 점강적 2) 가중치를 부여하여 이를 의미 분석에 사 용하는 방법이다. 학습말뭉치의 출현 빈도를 비율로 가 중치에 적용시켰으며, 가중치 획득 방법을 세 가지로 나 누어 다르게 적용시켰다. 자세한 내용은 다음절에 제시 한다. 3.2 점강적 누적 가중치 적용 자질의 분포를 바탕으로 최소상계노드를 설정한다. 그 러나 상위 노드로 갈수록 의미의 분별력이 없어지고, 하 2) 점강적이란 그 정도를 점점 약하게 하거나, 작게 하는 것을 뜻한다. 학 습데이터에 출현한 U-WIN의 단어에서 해당 단어까지 거리분의 1값을 적용한다. 거리가 멀수록 작은 가중치 값이 적용되기 때문에 점강적 가 중치라 한다.

한국어 어휘의미망 U-WIN을 이용한 한국어 복합명사 의미 분석 839 위 노드로 갈수록 의미가 협소해지기 때문에 적절한 최 소상계노드를 설정하는 작업이 필요하다. 어근과 매칭되 는 U-WIN 노드와 그 상위 노드에 적절한 가중치를 주 어 최소상계노드를 설정한다. U-WIN의 각 노드는 두 가지 가중치를 가진다. 하나 는 학습 말뭉치의 bigram과 일치되는 노드인지 여부에 따른 가중치이며, 이 가중치는 매칭이 될 경우 특정 값 을 가지며 일치되지 않을 경우 0의 값을 가진다. 다른 하나는 해당 노드의 하위어에서 거리만큼 감소된 가중 치이며, 하위어 중 클래스와 매칭이 되는 하위어가 있을 경우 해당 하위어에서 현재 노드까지 거리분의 1만큼의 값과 하위어의 출현 빈도에 해당 클래스의 전체 빈도 나눈 값을 곱하여 이들의 합을 가중치로 가진다. (1) 가중치를 부여하는 수식은 식 (1)과 같다. 는 중의성 을 가진 동형이의어 클래스 중 하나이며, 는 자질이다. 함수 는 자질 에 대한 특정 의미의 클래스 의 가중치를 나타낸다. 은 U-WIN에서 노드 하위 어 중 말뭉치에서 나타난 하위어의 총 개수, 는 해당 노드로부터 하위 노드 사이의 거리이다. 은 학습말뭉 치에 출현한 클래스 s와 공기한 해당 자질의 빈도수이 며, 는 클래스 s와 공기한 자질들 전체 빈도의 합이다. 는 U-WIN에서의 노드 가 말뭉치에 출현여부를 확 인하는 값으로, 말뭉치에 출현했을 경우 특정 값을 가지 고 아니면 0값을 가진다. 그리고 은 노드 의 하위노드 중 말뭉치에 출현한 노드로부터 할당된 가중치의 합이다. 즉, 하위 노드들의 개별 가중치에 거 리를 나눈 후 모두 합한 값이다. 거리 값에 을 곱한 이유는 특정 자질의 학습데이터 출현 빈도를 일정 비율 로 반영하기 위해서이다. 3.3 U-WIN을 이용한 상위 탐색 기법 U-WIN에 해당 클래스별 점강적 가중치를 부여한 뒤, 상위 탐색 기법을 통하여 학습데이터 값을 확보하는 방 법을 이용하여 학습데이터의 크기를 감소시킬 수 있다. 예를 들면 그림 3과 같이 클래스 S_001 과 학습말뭉치 에서 자질 C2 가 서로 이웃하여 나타났을 때 C2 의 상 동 하위어로 자질 확장을 시도하면 총 201개(상위어 2개, 동위어 99개, 하위어 100개)의 자질 값을 저장할 공간이 필요하다. 그러나 상위 탐색을 통한 가중치 확보 방법을 이용하면, 상위어 2개의 저장 공간과 상하위어를 탐색할 수 있는 U-WIN 관계 테이블 의 저장 공간만 있으면 된 다. 대략 197개 정도의 저장 공간 차이가 발생한다. 물론 U-WIN 관계 테이블 은 모든 상하위어 정보를 담고 있 기 때문에 U-WIN에 존재하는 노드만큼의 공간이 필요 하다. 하지만 클래스 개수가 증가할수록 상 동 하위어 확 장 방식의 저장 공간은 배로 늘기 때문에 U-WIN 관계 테이블 의 크기를 훨씬 상회하게 된다. 상위 탐색 방법은 실제 의미 분석 시 가중치를 가진 상위어를 만날 때까지 상위 탐색을 반복적으로 실행한다. 가중치를 가진 상위어의 거리가 멀어지면 탐색시간이 증 가하게 된다. 하지만 U-WIN 관계 를 해쉬 테이블(hash table)에 넣어 사용하면 상수 시간의 빠른 탐색을 수행할 수 있어 전체 수행 속도를 크게 증가시키지 않는다. 기존의 어휘의미망을 통한 자질 확장 방법에서 하위 어로 확장 시 학습데이터 크기를 고려하여 주로 1계층 아래의 하위어까지만 확장을 하였다. 그러나 이러한 확 그림 3 확장 학습데이터 크기 비교 Fig. 3 A comparison of size of training data

840 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12) 장 방법은 2계층 이상의 하위어가 실험데이터로 나타나 면 의미 분석을 하지 못하고 미등록어로 처리해 버린다. 이러한 경우 상위 탐색 기법을 활용하면, 어휘의미망에 존재하는 단어지만 미등록어로 처리되는 단어들을 정상 적으로 처리할 수 있다. 3.4 U-WIN을 이용한 가중치 확보 방법 U-WIN을 통한 가중치 확보 방법은 총 3가지이며, 기 본적으로 상위 탐색을 통해 가중치를 확보한다. U-WIN 은 다의어 기반이기 때문에 동형이의어 단위 처리를 위 해서는 1대N(1:동형이의어, N:다의어) 관계를 처리해야 한다. 1대N 관계를 어떠한 방식으로 처리할 것인가에 따라 실험 결과가 달라진다. 그림 4는 학습말뭉치에 활동 과 관리 가 자금 의 자 질로 나타나 가중치를 가진 상태이며, 실험 말뭉치에 자금 의 자질로 운영 이 나타났을 때, 이 중 운영_03 은 2개의 다의어를 포함하기 때문에 가중치 확보를 위해 2 번의 상위 탐색을 실시해야 한다. 상위 탐색을 실행할 때 너비 우선 탐색(BFS) 또는 깊이우선 탐색(DFS), 모 든 단어 상위확장 또는 최소 깊이 상위확장 등의 방식 에 따라 확보되는 가중치 값이 달라진다. 본 논문에서는 3가지 상위 탐색을 통한 가중치 확보 방법을 실험해 보았다. 그림 5의 CASE(1)은 너비우선 탐색(BFS)을 진행하되 가중치를 가진 노드를 하나라도 만난다면 해당 가중치를 반환한고 루프를 빠져나간다. 너비우선 탐색을 선택한 이유는 해당 다의어 노드에서 가중치가 있는 노드까지의 거리가 멀어질수록 의미의 유사성이 적어지기 때문에 각 다의어 노드에 가장 가까 그림 5 U-WIN을 이용한 가중치 확보 방법 CASE(1): 너비우선, CASE(2): 최소공통상위노드, CASE(3): 너비우선+동일 계층 Fig. 5 A method of weight acquisition using U-WIN CASE(1): breadth-first, CASE(2): LCS, CASE(3): breadth-first+same depth 운 가중치 노드를 찾기 위한 방법으로 너비우선 탐색을 선택했다. 1~4번은 각각이 하나의 다의어이며, 너비우 선 탐색이기 때문에 1번 부터 4번 까지 한 단계씩 차례 대로 진행한다. 1번 은 가중치가 없는 상위어 D 를 만 나 다음 2번 으로 넘어간다. 2번 은 가중치가 있는 상위 어 E 를 만나 가중치를 반환하고 루프를 빠져나가게 된 다. 이 방법은 가중치를 획득하는 가장 빠른 방법이지 만, 가중치가 한 쪽으로 편중될 수 있는 단점이 있다. 그림 5의 CASE(2)는 최소공통상위노드 탐색 방법으 그림 4 운영_03 의 상위 탐색을 통한 가중치 획득 방법 선택 Fig. 4 Method Selection that acquire weight of 운영_03 through hypernym search

한국어 어휘의미망 U-WIN을 이용한 한국어 복합명사 의미 분석 841 로 전체 다의어를 가중치가 있는 상위어 노드까지 확장 시켜 획득 가능한 모든 가중치를 저장하여 반환하게 된 다. 1번 은 가중치를 가진 최소공통상위노드 B 까지 상 위 탐색을 통해 가중치를 획득하며, 나머지 다의어들도 가중치를 가진 가장 가까운 상위노드 E, F, C 로 상 위 탐색을 통해 가중치를 획득한다. 이 방법은 세 가지 방법 중 속도는 가장 느리지만 가중치를 풍부하게 획득 할 수 있는 장점이 있다. 마지막 방법으로 그림 5의 CASE(3)은 너비우선 탐색 이지만 동일 계층의 노드들을 모두 탐색한 후 획득한 가 중치를 반환하게 된다. 계층(level)은 하나의 다의어 묶 음이라고 볼 수 있다. 다의어 노드 중 하나라도 가중치 가 있는 노드를 만난다면 더 이상 상위 탐색 없이 VECTOR 에 남아있는 노드들만 상위 탐색을 진행한 후 루프를 빠져나간다. 만약 다의어가 4개라면, 가중치가 있는 노드가 탐색될 때까지 4의 배수만큼 루프를 돌게 된다. 이 방법은 최소공통상위노드로 모두 상위 탐색하는 방법보다 속도가 빠르며, 첫 번째 방법인 너비우선 방법 에서 나타난 가중치 편향문제를 일부 해결할 수 있다. 3.5 복합명사 의미태깅 구조 분해된 복합명사를 입력으로 받아 의미태깅을 수행한다. 의미태깅은 bigram 단위로 순차적으로 진행 하면서 동형이의어를 대상으로 학습데이터에서 가장 높 은 가중치를 가지는 의미로 태그를 부착해 나간다. bigram 단어 중 어떤 단어를 클래스로 설정하는가에 따 라 학습데이터와 확장학습데이터가 달라지며 실험 결과 가 달라진다. 본 논문에서는 이러한 조건들 중 어떠한 조합이 가장 높은 정확률을 가지는지 실험한다. 그림 6은 의미 분석을 위한 시스템의 알고리즘이다. 구조 분해된 복합명사를 입력으로 받아 순방향 역방향 으로 구축된 학습데이터를 기반으로 bigram 단위로 가 중치 확인 후 획득하지 못했을 시 확장 학습데이터 또 는 U-WIN을 이용한 상위 탐색 방법을 이용하여 가중 치를 획득한다. 실패 시 학습말뭉치에 나타난 최대 빈도 값을 가진 동형이의어로 의미를 결정한다. 4. 실험 및 평가 본 시스템의 성능평가를 위해 표준국어대사전에서 추 그림 6 의미 분석 알고리즘 Fig. 6 Semantic analysis algorithm

842 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12) 출한 3음절 이상의 복합명사 중 북한말, 옛말 을 제외 한 40,717개의 복합명사를 대상으로 구조 분해를 한 후 이 중 동형이의어가 포함되지 않은 복합명사와 구조 분 해 시 오류로 분해된 복합명사를 제외한 27,761개의 복 합명사를 대상으로 의미 분석 성능평가를 진행한다. 4.1 의미 분석 성능 평가 의미 분석 성능 평가를 위한 27,761개의 복합명사 중 의미 분석이 필요한 클래스의 개수는 7,012개이고 중복 개수를 제외한 동형이의어 개수는 8,758개이다. 의미 분석 성능에 영향을 미치는 요소인 bigram 단 위의 학습 방향, 학습데이터 종류(품사 패턴을 이용한 확장된 학습데이터, U-WIN을 이용한 확장된 학습데이 터)를 기반으로 한 실험을 차례대로 진행한다. 실험의 베이스라인(baseline)은 세종말뭉치에 나타난 복합명사의 동형이의어 빈도를 기준으로 설정하였다. 세 종말뭉치에서 개별 동형이의어 중 가장 빈도가 높은 복 합명사를 선정하여 각 동형이의어별 정확률로 설정하였 고, 그 전체 정확률의 평균인 73.85%로 나타났다. 학습데이터 구축을 위해 품사 및 의미주석이 부착된 말뭉치에서 특정 품사 패턴으로 구성된 복합명사들을 추출하고, 이러한 품사 패턴이 복합명사 의미 분석 정확 률에 미치는 영향에 대해 실험하였다. 표 5는 각 품사 패턴이 학습데이터 구축 시 포함된 경우 O, 포함되지 않은 경우 X 로 표기했다. 실험 결과 이웃한 NN* NN* 패턴만 포함하는 것보다 NN* + JKB NN* 패 턴을 제외한 모든 품사 패턴을 포함 했을 때, 정확률이 1.34% 향상되었다. 이러한 결과는 품사 패턴으로 추출 된 복합명사가 부족한 자질을 보충해 주는 역할을 한 것으로 볼 수 있다. 표 6에서 알 수 있듯이 학습데이터를 구축할 때 실제 말뭉치에 나타난 데이터와 U-WIN의 상 하 동위 단어 를 확장한 데이터를 분리하여 시스템에 적용한 정확률 이 두 데이터를 통합하여 측정한 정확률보다 정확률이 81.27%로 2% 높게 측정됐다. 이는 확장된 데이터 값이 통합되었을 때는 이 중 일부가 노이즈로 작용할 수 있 지만, 분리되었을 때는 확장된 데이터 값이 부족한 자질 표 6 확장 학습데이터 및 가중치 획득 방법 별 정확률 (A) 품사 패턴 확장, (B) U-WIN의 상 하 동위 단 어 확장 결합, (C) U-WIN의 상 하 동위 단어 확장 분리 (D)bigram 최대값 (E)bigram 누적 최대값 Table 6 Precision by acquisition methods of training data and weight (A) POS pattern expansion (B) Integration of expansion words using U-WIN (C) Separation of expansion words using U-WIN (D)bigram max value (E) bigram cumulative max value A B C D E precision(%) 1 X X X X X 73.85 2 O O X O X 79.27 3 O X O O X 81.27 4 O X O X O 82.98 을 보충해 주므로 정확률이 향상되었다고 볼 수 있다. 이전의 실험은 bigram의 최댓값을 기준으로 의미를 결정하는 실험이었다. bigram의 값들을 누적시켜 최종 적으로 누적값이 최대인 의미로 결정하는 방법으로 실 험을 진행하였을 때 정확률은 82.98%로 bigram 중 최 댓값을 선택하는 방법 보다 누적하여 최대값을 선택하 는 방법이 1.71%의 성능 향상을 보였다. 순차적으로 최 댓값을 적용해 앞의 동형이의어의 의미를 미리 결정하 는 것보다는 앞뒤 동형이의어 가중치 값들을 모두 고려 하여 의미를 결정하는 것이 보다 나은 성능을 보인다는 것을 알 수 있다. 마지막으로 U-WIN의 상위 탐색 기법을 추가적으로 적용하여 실험을 진행하였다. U-WIN의 상위 탐색 기 법을 적용하였을 때 이전 실험보다 약 3%가량의 정확 률 성능 향상을 보였다. 표 7은 너비우선 탐색, 최소공 통상위노드 탐색, 같은 level 너비우선 탐색 방법을 적 용하였을 때 정확률이다. 이전 실험 보다 기본적으로 약 3% 정확률이 향상되었으며, 이중 같은 level 너비우선 탐색 을 적용하였을 때 다른 탐색 기법을 적용했을 때보 다 높은 86.20%의 정확률을 보였다. 3.2.2절에서 점강적 가중치를 적용할 때, 거리 값에 특정 자질의 학습말뭉치에 나타난 빈도 비율( )을 곱 표 5 품사태그에 따른 정확률 Table 5 Precision of POS patterns 1 2 3 4 5 6 7 NN* NN* O O O O O O O NN*+ JKG NN* X O O O O O O NN* + JKB NN* X X O X X X O NN* + JKO VV X X X X O O O NN* + JKS VV X X X X X O O VV + ETM NN* X X X O O O O precision(%) 77.93 78.11 78.21 79.12 79.25 79.27 79.10

한국어 어휘의미망 U-WIN을 이용한 한국어 복합명사 의미 분석 843 표 7 U-WIN 상위 탐색 기법 별 정확률 Table 7 Precision by methods of U-WIN hypernym search method precision(%) CASE 1 breadth-first 86.01 CASE 2 LCS 86.09 CASE 3 breadth-first, same depth 86.20 한 값과 곱하지 않은 값을 바탕으로 실험한 결과, 곱했 을 때(86.20%)가 곱하지 않았을 때(86.12%)보다 0.08% 더 좋은 성능을 보였다. 이는 학습말뭉치의 특성에 따라 다른 결과를 보일 수도 있다. 하나의 동형이의어만 주로 나타난 학습말뭉치라면 실험 정확률은 더욱 높아질 것 이고, 여러 가지 동형이의어가 골고루 나타난 학습말뭉 치라면 실험 정확률은 해당 비율을 곱했을 때와 차이가 거의 없을 것이다. 학습말뭉치의 특성에 따라 해당 빈도 비율에 대한 추가 여부를 판단하면 될 것이다. 4.2 기존 연구와의 성능 비교 앞서 2절에서 살펴본 WordNet의 계층적 구조에서 개 념적 거리, 정보량, 계층적 깊이, 개념적 밀도 등 기존 연구의 방법론을 U-WIN에 적용하여 실험한 후 정확률 을 측정해 보았다. 실험 1 은 Rosso[22]이 적용한 개념 적 밀도를 이용한 의미 분석 방법이고, 실험 2 는 Rosso[22]에서 사용한 개념적 밀도와 깊이를 고려한 의 미 분석 방법이다. 실험 3 은 같은 복합명사 내에 구성 명사 간의 정보량을 이용한 의미 분석 방법이며, 실험 4 는 구성명사 간이 아니라 앞의 구성명사와 뒤의 구성 명사의 학습데이터 간의 최대 정보량을 통한 의미 분석 방법이다. 실험 5 는 실험 4 의 방법과 동일하지만 마지 막 체인 설정 시 서로 연결될 수 있는 최적 체인의 연 결을 통한 의미 분석 방법이다. 각 실험에서 결과 값을 획득하지 못할 시 본 논문의 방법과 같이 해당 동형이 의어의 최고 빈도값에 해당하는 동형이의어를 넣어준다. 그림 7은 복합명사 A+B+C 가 있을 때 실험 4 와 실험 5 를 통해 얻을 수 있는 결과가 다름을 보여준다. 최댓 값 기반 방법은 내림차순으로 정렬된 정보량을 바탕으 로 차례대로 내려가면서 비어있는 단위 동형이의어 값 을 하나씩 채운다. 순위 1 에서 A 와 B 에 해당하는 동 형이의어를 채우고, 순위 2 에서의 동형이의어 B 가 채 워진 동형이의어 B 값과 연결되지 않는 다른 동형이의 어지만 상관없이 C 의 동형이의어 값을 채우게 된다. 체인 기반 방법은 내림차순으로 정렬된 정보량을 바탕 으로 순위 1 에서 A 와 B 에 해당하는 동형이의어를 채우는 방법은 같지만, 비어 있는 동형이의어 C 를 찾 을 때 채워진 동형이의어 B 값과 연결 가능하면서 최대 의 정보량을 가진 C 값을 찾게 된다. 즉, 동형이의어 B 값이 B1 인 순위 4 에서 C값을 채우게 된다. 그림 7 최댓값과 최적 체인 기반 방법에 따른 의미 분석 결과 Fig. 7 Results of semantic analysis based on max value and optimal chain 표 8 개념적 밀도, 깊이, 정보량을 통한 실험의 정확률 Table 8 Comparison of results (conceptual density, depth, information content) method precision (%) 1 conceptual density(cd) 71.23 2 conceptual density(cd*depth) 71.25 3 information content(ic) A & B 69.51 4 information content(ic) A & B max value 76.26 5 information content(ic) A & B optimal chain 76.60 표 8은 5가지 실험을 통한 정확률로, 앞의 구성명사와 뒤의 구성명사의 학습데이터 간 정보량을 모두 구한 후 최고의 정보량을 가지는 동형이의어부터 의미 부착을 시작해 서로 연결될 수 있는 최적 체인을 구성하는 의 미 분석 방법이 76.60%로 가장 좋은 정확률을 보였다. 본 논문의 방법론과 9.6%의 성능 차이를 보였다. 본 논문의 가중치 획득 방식은 정보량 의 최소공통상 위노드를 찾는 방식과 동일하지만, 하위어 수를 이용하 는 정보량 과 달리 학습데이터에서 선정된 노드부터의 거리별 가중치를 이용한다. 거리별 가중치는 계층적 깊 이 를 계산하는 것과 같이 상위로 갈수록 가중치를 점점 낮게 설정한다. 개념적 밀도 는 군집 내에 관련 단어가 많을수록 높은 값을 가지는 데, 학습데이터에서 많이 나 타난 단어들이 형성하는 군집이 큰 가중치를 가지는 본 논문의 방법과 개념적으로 비슷하다고 볼 수 있다. 따라 서 본 논문의 가중치 할당 및 획득 방법은 기존의 방법 들이 복합적으로 결합되어있으며, 학습데이터를 통해 미 리 가중치를 U-WIN에 할당해 놓았기 때문에 보다 간 단한 알고리즘을 사용하여 가중치를 획득할 수 있는 방 법이라고 볼 수 있다. 한국어 복합명사 의미 분석에 대한 연구 중 실험에 사용한 자원이 본 논문과 유사한 이용훈(2012)의 연구 와 실험 결과를 비교해 보았다. 이용훈(2012)에서는 본 논문과 동일하게 자질확장을 위한 자원으로 U-WIN을

844 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12) 활용하였다. 그리고 세종말뭉치를 학습데이터로 사용하 였고 표준국어대사전의 복합명사를 실험데이터로 사용 하였다. 이용훈(2012)가 사용했던 학습데이터의 일부가 변경되었고, 실험데이터의 개수가 달라 정확한 비교는 어렵다. 이용훈(2012)에서 본 논문과 달리 구조 분해 중 오분석된 결과는 의미 분석 결과 역시 오분석이라 판단 해 의미 분석 정확률에 반영하였고, 동형이의어가 포함 되지 않은 복합명사도 실험데이터에 포함되어 의미 분 석 정확률에 반영되었다. 전자는 의미 분석의 정확률을 낮추며, 후자는 의미 분석의 정확률을 높인다. 정확률을 낮추는 요소뿐만 아니라 높이는 요소도 포함하기 때문 에, 이 둘을 절충하여 정확한 결과 비교는 아니더라도 본 논문의 실험 결과와 비교할 수 있다고 판단하였다. 이용훈(2012)와 본 논문의 의미 분석에 대한 정보를 표 9로 정리하였다. 이용훈(2012)와 다른 점은 분석 대 상 단위를 서로 이웃한 bigram으로 한정하였다는 것과 유사도 측정 시 구성 명사 간의 유사도가 아니라 구성 명사 위치정보를 이용한 측정이었다는 것이다. 그리고 의미 결정 방법에서 최적 체인 연결이 아니라 누적 가 중치 중 최댓값으로 의미를 결정한 것이 다른 점이다. 이용훈(2012)에서 원어정보를 이용한 의미제약 시 원 어정보를 가진 복합명사 중 일부가 실험데이터와 동일 하였기 때문에, 원어정보를 이용한 의미제약이 적용되지 않은 실험 결과와 본 논문의 실험 결과를 비교하였다. 그 결과 본 논문의 실험 결과가 약 12% 가량 높은 정 확률을 보였다. 4.3 복합명사 분석 오류 유형 구조 분해에 대한 오류는 전체 테스트 세트의 1% 내 외로 그 종류는 표 10과 같이 크게 4가지로 나뉜다. 1음절 명사에 대한 미분해가 가장 큰 비중을 차지했 으며, 정답 셋에도 1음절 명사가 붙어 분해된 경우나 그 렇지 않은 경우도 다소 있었다. 미분해 명사 분해규칙을 적용하고 미분해의 문제인 최소 단위를 정의해 정답 셋 을 구축한다면 정확률이 더욱 향상될 수 있다. 외래어 분해의 경우 외래어 복원 부분이 있음에도 불구하고 오 분해되었다. 이는 외래어 판별 및 복원을 구축한 사전을 통해서만 수행하므로 생기는 문제로 외래어만이 가지는 특성들을 반영해 적용한다면 이에 대한 처리가 가능할 것으로 보인다. 또한 오분해의 경우 주로 1음절을 미등 록어로 처리해 최적 후보를 선택하기 때문에 다른 분해 형태가 미등록어를 가지지 않는 경우 이 후보가 선택되 어진다. 의미 분석 오류 유형은 (1)서로 동일한 가중치 값을 가질 경우, (2)어떤 가중치도 얻지 못했을 경우, (3)학습 말뭉치의 오류일 경우와 같이 3가지 유형으로 정리하였다. 첫 번째 의미 분석 오류 유형으로 가중치 값이 동일 하여 선행하는 의미번호로 의미 분석이 된 경우이다. 표 11의 1번은 동형이의어 조각 과 관련된 학습데이터 에서 가중치를 얻지 못하고, U-WIN 상위 탐색 방법을 통해 가중치를 얻은 상태이지만, 가중치가 동일해 정확 하게 의미 분석을 하지 못 하였다. 2번은 동형이의어 정지 가 역방향 학습말뭉치에 출현하지만 출현 빈도가 표 9 이용훈(2012)와 본 논문의 의미 분석에 대한 정보 Table 9 Information of semantic analysis on this paper and Lee (2012) Lee(2012) this paper 1 training data Sejong corpus Sejong corpus 2 test data compound nouns of Phojun dictionary compound nouns of Phojun dictionary 3 unit of analysis target all bigram neighbor bigram 4 analysis method similarity measure between (noun A + expansion data) and (noun B + expansion data) similarity measure between (noun A) and (expansion data that located position of noun A) 5 method of sense selection optimal chain connection max cumulative weight 6 precision 74.37% 86.20% 표 10 구조 분해 오류 유형 Table 10 Error type of decomposition of compound nouns right answer test result decompositionerror (1syl.) 산업 기지 개발 촉진 법 산업 기지 개발 촉진법 생산 성 향상 운동 생산성 향상 운동 decomposition error (2syl.) 국민 사회 주의 독일 노동당 국민 사회주의 독일 노동당 자유 주의 경제 자유주의 경제 loanword 라이 프니츠 볼프 철학 라이프니츠 볼프 철학 over decomposition 내산소성 혐기성 생물 내 산소 성 혐기성 생물

한국어 어휘의미망 U-WIN을 이용한 한국어 복합명사 의미 분석 845 1 2 3 표 11 의미 분석 오류 유형 (1) Table 11 Error type of semantic analysis (1) weight(fb:backward, fb_x:back.&expansion, fb_r:forward, fb_rx:for.&expansion, u:u-win) right answer test result compound noun 건축_01 조각_05 건축_01 조각_01 weight 조각_01 fu=7 sum=7 조각_05 fu=7 sum=7 compound noun 매매_06 거래_02 정지_06 매매_06 거래_02 정지_05 weight 매매 06 fb=1 fb_r=169 sum=170 거래 02 fb=7 fb_r=169 sum=176 정지 05 fb=3 sum=3 정지 06 fb=3 sum=3 compound noun 맹아_02 학교 맹아_01 학교 weight 맹아_01 fb_r=1 sum=1 맹아_02 fb_r=1 sum=1 표 12 의미 분석 오류 유형 (2) Table 12 Error type of semantic analysis (2) right answer test result compound noun 1 보통 백반_01 보통 백반_02 compound noun 2 정전_16 선광법 정전_12 선광법 compound noun 3 탄성_01 파손 탄성_02 파손 표 13 의미 분석 오류 유형 (3) Table 13 Error type of semantic analysis (3) right answer test result compound noun 정압_01 변화 정압_02 변화_01 동일해 의미 분석을 하지 못하였다. 3번은 동형이의어 맹아 가 순방향 학습말뭉치에 출현하지만 역시 출현 빈 도가 동일해 의미 분석을 하지 못 하였다. 두 번째 표 12와 같이 의미 분석 오류 유형은 어떤 가중치도 확보하지 못 했을 때 나타나는 오류 유형이다. 어떠한 가중치도 얻지 못 했기 때문에 학습말뭉치의 최 대 빈도 값으로 의미 분석을 시도했지만 의미 번호가 달라 오류로 처리되었다. 마지막으로 표 13과 같이 학습말뭉치의 오류로 인해 잘못 의미 분석된 경우이다. 변화 는 동형이의어가 아니 지만, 학습말뭉치에는 변화_01 로 태깅되어 있어 잘 못 된 태그를 부착하게 된다. 오류 유형을 분석해 보면 여전히 일부는 자질이 부족 하여 가중치를 확보하지 못하는 현상이 발생하였다. 이 를 해결하기 위해 이미 구축한 빈도 기반의 학습데이터 에서 자질들의 뜻풀이를 검색한 뒤, 이 중 명사만 포함 시켜 학습데이터를 구축해 활용할 수 있을 것이다. 5. 결 론 본 논문에서 복합명사의 의미 분석을 위한 연구를 진 행하였다. 기구축된 어휘의미망(U-WIN)을 사전에 미등 재되어있는 복합명사의 중의성을 해소하기 위한 확장데 이터 및 가중치부여 수단으로 사용하였다. 동형이의어의 의미 분석을 위해 기존의 연구에서처럼 형태적 특성, 전후 문맥(외적 자질) 또는 공기정보를 사 용하는 대신 bigram 단위의 학습 방향을 고려한 복합명 사 내적 자질, 학습데이터 종류(품사 패턴을 이용한 확 장된 학습데이터, U-WIN을 이용한 확장된 학습데이터) 를 기반으로 한 학습데이터를 구축하여 의미 분석에 사 용하였다. 복합명사의 구성명사를 분리하여, 이 중 자질 에 해당하는 구성명사를 U-WIN과 매핑시켜 상위어를 따라가며 거리비율로 각 클래스에 해당하는 구성명사의 가중치를 U-WIN 노드에 할당한 뒤, 이를 동형이의어 의미 분석에 사용하였다. 기존의 어휘 의미 분석 연구에서는 의미 분석 대상을 소수의 어휘 몇 가지만을 대상으로 연구를 진행하였지 만, 본 논문에서는 대규모 말뭉치에 나타난 대부분의 복 합명사를 대상으로 의미 분석을 시도하였다. 복합명사 분해는 대용량 말뭉치에서 추출한 위치별 빈도 사전을 이용하였고, 최적의 후보 선택을 위해 외래 어 복원과 재분해를 적용하였다. 분해 결과 최종 선택된 하나의 후보에 대해 의미 분석 시 학습데이터의 출현 빈도별 가중치와 U-WIN을 이용한 확장데이터를 이용 하여 누적된 가중치를 바탕으로 의미 결정을 하였다. 성 능측정을 위해 표준국어대사전에서 추출한 3음절 이상 의 40,717개의 복합명사를 대상으로 구조 분해를 한 뒤, 실험말뭉치 중 동형이의어가 없는 단어를 제외한 27,761 개의 복합명사를 대상으로 의미 분석 정확률을 측정한 결과 86.20%의 정확률을 보였다. 향후 U-WIN 가중치 부여 방법을 밀도 또는 계층별 로 달리 적용하거나, 사전 뜻풀이 정보 및 문법 정보를 이용하여 U-WIN의 매핑 정보를 확장한 후 복합명사의

846 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12) 의미 분석 실험을 진행할 것이다. 그리고 복합명사 의미 분석 시 최적의 가중치 및 체인을 찾는 문제를 해결하 기 위해 연구를 진행할 것이다. References [1] J. Heo, H. C. Seo and M. G. Jang, "Homonym Disambiguation based on Mutual Information and Sense-Tagged Compound Noun Dictionary," Journal of KIISE, vol.33, no.12. pp.1073-1089, 2006. (in Korean) [2] M. H. Kim and H. C. Kwon, "Word Sense Disambiguation using Semantic Relations," Journal of KIISE, vol.38, no.10, pp.554-564, 2011. (in Korean) [3] S. J. Kang, "Ontology Construction and Its Application to Disambiguate Word Senses," The KIPS transactions: Part B, vol.11, no.4, pp.491-500, 2004. [4] Lesk, M., "Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone," In Proc. of the 5th SIGDOC (New York, NY), pp.24-26, 1986. [ 5 ] Banerjee, S. and Pedersen, T., "Extended gloss overlaps as a measure of semantic relatedness," In Proc. of the 18th International Joint Conference on Artificial Intelligence (IJCAI, Acapulco, Mexico), pp.805-810, 2003. [6] Resnik, P., "Selectional preference and sense disambiguation," In Proceedings of the ACL SIGLEX Workshop on Tagging Text with Lexical Semantics: Why, What, and How? (Washington, D.C.), pp.52-57, 1997 [7] Yarowsky D., "Word-Sense Disambiguation using Statistical Models of Roget's Categories Trained on Large Corpora," In Proc. of Coling-92, 1992. [8] Navigli R. and Velardi, P., "Structural semantic interconnections: A knowledge-based approach to word sense disambiguation," IEEE Trans. Patt. Anal. Mach. Intell., vol.27, no.7, pp.1075-1088, 2005. [9] Navigli R., "Word sense disambiguation: A survey," ACM Computing Surveys, vol.41, Issue 2, no.10, 2009. [10] Galley, M. and Mckeown, K., "Improving word sense disambiguation in lexical chaining," In Proc. of the 18th International Joint Conference on Artificial Intelligence (IJCAI, Acapulco, Mexico), pp.1486-1488, 2003. [11] Mihalcea, R., Tarau, P., and Figa, E., "Pagerank on semantic networks, with application to word sense disambiguation," In Proc. of the 20th International Conference on Computational Linguistics (COLING, Geneva, Switzerland), pp.1126-1132, 2004. [12] H. Lee, D. H. Baek and H. C. Rim, "Word Sense Disambiguation using Classification Information," Journal of KIISE: Part B, vol.24, no.7, pp.779-789, 1997. (in Korean) [13] Y. H. Lee, C. Y. Ock and E. B. Lee, "Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network," The KIPS transactions: Part B, vol.19, no.1, pp. 63-76, 2012. (in Korean) [14] Rada, R., Mili, H., Bicknell, E., and Blettner, M., "Development and application of a metric on semantic nets," Systems, Man and Cybernetics, IEEE Transactions, vol.19, no.1, pp.17-30, 1989. [15] Resnik, P., "Using information content to evaluate semantic similarity in a taxonomy," Proc. of the 14th International Joint Conference on Artificial Inteliigence, Montreal, pp.448-453, 1995. [16] Jiang J. J. and Conrath D. W., "Semantic similarity based on corpus statistics and lexical taxonomy," Proc. of International Conference on Research in Computational Linguistics, pp.11-21, 1997. [17] Sanchez, D., Batet, M. and Isern, D., "Ontologybased information content computation," Knowl.- Based Syst., vol.24, no.2, pp.7718-7728, 2011. [18] Seddiqui, Md. H. and Aono, M., "Metric of intrinsic information content for measuring semantic similarity in an ontology," Proc. of 7th Asia-Pacific Conference on Conceptual Modeling, pp.89-96, 2010. [19] Meng, L., Gu, J. and Zhou, Z., "A New Model of Information Content Based on Concept's Topology for measuring Semantic Similarity in WordNet," International Journal of Grid and Distributed Computing, vol.5, no.3, pp.81-94, 2012. [20] Agirre, E., and Rigau, G., "A proposal for word sense disambiguation using conceptual distance," In Proc. of the International Conference on Recents Advances in Natural Language Processing, 1995. [21] Agirre, E., and Rigau, G., "Word Sense Disambiguation using Conceptual Density," In Proc. of the 16th International Conference on Computational Linguistics (COLING, Copenhagen, Denmark), pp.16-22, 1996. [22] Rosso, P., Masulli, F., Buscaldi, D., and Molina, A., "Automatic Noun Sense Disambiguation," CICLing'03 Proceedings of the 4th international conference on Computational linguistics and intelligent text processing, pp.273-276, 2003. [23] Buscaldi, D., and Rosso, P., "A conceptual densitybased approach for the disambiguation of toponyms," International Journal of Geographical Information Science, vol.22, no.3, pp.301-313, 2008. [24] Wang, T. and Hirst, G., "Refining the Notions of Depth and Density in WordNet-based Semantic Similarity Measures," Proc. of the 2011 Conference on Empirical Methods in Natural Language Processing, pp.1003-1011, 2011. [25] Meng, L., Huang, R. and Gu, J., "A Review of Semantic Similarity Measures in WordNet," International Journal of Hybrid Information Technology, vol.6, no.1, pp.1-12, 2013.

한국어 어휘의미망 U-WIN을 이용한 한국어 복합명사 의미 분석 847 [26] H. S. Choi, "Construction and Application of Largescale Korean User-Word Intelligent Network," PhD thesis. (in Korean) 배 영 준 2004년 울산대학교 컴퓨터 정보통신공학 부(학사). 2006년 울산대학교 정보통신공 학과(석사). 2013년 울산대학교 정보통신 공학과(박사). 2013년~현재 울산대학교 지능형컴퓨터 연구실 연구원. 관심분야는 한국어정보처리, 전문용어 인식, 정보검 색, 지식기반 의미 분석 옥 철 영 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 7 호 참조