< B3EDB9AEB8F1C2F728332D362936BFF92E687770>

Similar documents

자연언어처리

<C5D8BDBAC6AEBEF0BEEEC7D02D3336C1FD2E687770>

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

PowerPoint Presentation

<28C3D6C1BE29C7D1B1B9BEEEB9AEB9FDB7D028317E D E687770>

Analyses the Contents of Points per a Game and the Difference among Weight Categories after the Revision of Greco-Roman Style Wrestling Rules Han-bong

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

08( ) CPLV15-64.hwp

DBPIA-NURIMEDIA

RNN & NLP Application

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

???? 1

인문사회과학기술융합학회

139~144 ¿À°ø¾àħ

어휘의미 체계 기반 입체적 국어사전 확장

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

???? 1

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

강의계획서 과목 : JUN s TOEIC 700+( 도약 ) 2017년 3차강사 : 황준선 교재 : ETS 토익기본서 (RC&LC)+ 수업부교재 (JUN s TOEIC 700+) + 품사별추가문제 +Mini Test 수업목표 : LC & RC 필수기본전략수립및 GRAM

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

10(833-) SAA13-24.hwp

09권오설_ok.hwp

자연언어처리

디지털포렌식학회 논문양식

제5장 형태소분석

<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A52DC1A4BFB5C3B62E687770>

DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 29(2), IS


High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

03-ÀÌÁ¦Çö

DBPIA-NURIMEDIA

패션 전문가 293명 대상 앙케트+전문기자단 선정 Fashionbiz CEO Managing Director Creative Director Independent Designer

<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Microsoft Word - src.docx

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

Microsoft PowerPoint - 26.pptx

04 최진규.hwp

Microsoft PowerPoint - WiseNLU(ETRI, 임수종) 배포본

212 52,.,. 1),. (2007), (2009), (2010 ), Buzássyová, K.(1999), Bauer, L.(2001:36), Štekauer, P.(2001, 2002), Fernández-Domínguez(2009:88-91) (parole),

10(3)-09.fm

<30352DC0CCC7F6C8F B1B3292DBFACB1B8BCD2B1B3C1A42E687770>

국어 순화의 역사와 전망

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

Research subject change trend analysis of Journal of Educational Information and Media Studies : Network text analysis of the last 20 years * The obje

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

09È«¼®¿µ 5~152s

Naver.NLP.Workshop.SRL.Sogang_Alzzam

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

000논문집-목차

09구자용(489~500)

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend

DBPIA-NURIMEDIA

슬라이드 1

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

DBPIA-NURIMEDIA

도약종합 강의목표 -토익 700점이상의점수를목표로합니다. -토익점수 500점정도의학생들이 6주동안의수업으로 점향상시킵니다. 강의대상다음과같은분들에게가장적합합니다. -현재토익점수 500점에서 600점대이신분들에게가장좋습니다. -정기토익을 2-3번본적이있으신분

RVC Robot Vaccum Cleaner

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

Microsoft Word - KSR2012A021.doc

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Big Data Analysis Using RHINO

도비라

Microsoft PowerPoint Relations.pptx

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ


Microsoft PowerPoint - 27.pptx

#Ȳ¿ë¼®

step 1-1

DIY 챗봇 - LangCon

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

03-서연옥.hwp

<3136C1FD31C8A35FC3D6BCBAC8A3BFDC5F706466BAAFC8AFBFE4C3BB2E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: * Strenghening the Cap

07변성우_ok.hwp

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

윙윙_포트폴리오_3

PowerPoint 프레젠테이션

2016 년 1 학기국어학개론 형태론 (Morphology): 형태소와교체, 단어의구성요소 1. 형태론의개념과분야 1) 개념 : 단어의구조를연구하는분야 2) 분야 : (1) 단어형성법 ( 조어법 ) (2) 굴절법 ( 屈折法, inflection): 조사나어미가붙어문법적

DBPIA-NURIMEDIA

10 이지훈KICS hwp

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 95~118 학술 탄소은행제의가정용전력수요절감효과 분석 1) 2) 3) * ** *** 95

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: 3 * The Effect of H

Transcription:

KIPS Tr. Software and Data Eng. Vol.3, No.6 pp.219~230 pissn: 2287-5905 동형이의어분별에의한한국어의존관계분석 219 http://dx.doi.org/10.3745/ktsde.2014.3.6.219 An Analysis of Korean Dependency Relation by Homograph Disambiguation Hong-Soon Kim Cheol-Young Ock 1) ABSTRACT An analysis of dependency relation is a job that determines the governor and the dependent between words in sentence. The dependency relation of predicate is established by patterns and selectional restriction of subcategorization of the predicate. This paper proposes a method of analysis of Korean dependency relation using homograph predicate disambiguated in morphology analysis phase. The disambiguated homograph predicates has each different pattern. Especially reusing a stage transition training dictionary used during tagging POS and homograph, we propose a method of fixing the dependency relation of {noun+postposition, predicate}, and we analyze the accuracy and an effect of homograph for analysis of dependency relation. We used the Sejong Phrase Structured Corpus for experiment. We transformed the phrase structured corpus to dependency relation structure and tagged homograph. From the experiment, the accuracy of dependency relation by disambiguating homograph is 80.38%, the accuracy is increased by 0.42% compared with one of undisambiguated homograph. The Z-values in statistical hypothesis testing with significance level 1% is. So we can conclude that the homograph affects on analysis of dependency relation, and the stage transition training dictionary used in tagging POS and homograph affects 7.14% on the accuracy of dependency relation. Keywords : Dependency Relation, Homograph, Pattern of Predicate, UTagger, Stage Transition Model, Z-values of Statistical Hypothesis Testing 동형이의어분별에의한한국어의존관계분석 김홍순 옥철영 요 약 의존관계분석은문장의어절간에의존소-지배소를결정하는작업이다. 용언은문형및하위범주화정보의선택제약에의해다른어절과의의존관계를형성한다. 본논문은형태소분석단계에서동형이의어분별된용언의문형을이용하여용언의의존관계를분석하는방법을제안한다. 특히, 형태소분석단계에서품사및동형이의어태깅을위해사용하는단계별전이모델의학습사전을재활용하여 { 명사 + 격조사, 용언 } 간의의존관계를확정하는방안을제안하고그의정확률및영향을분석한다. 동형이의어가부착되고의존관계로변경된 21개의세종구문분석말뭉치를이용하여실험한결과, 동형이의어분별된의존관계분석정확률이 80.38% 로, 동형이의어가분별되지않은의존관계분석에비해 0.42% 의정확률향상이있었으며, 유의수준 1% 의검정통계량 Z는 으로동형이의어분별이의존관계분석에영향이있음을보였다. 또한, 단계별전이모델이의존관계분석정확률에약 7.14% 영향을미치는것을알수있었다. 키워드 : 의존관계, 동형이의어, 용언문형, UTagger, 단계별전이모델, 검정통계량 Z 1. 서론 이논문은 2010 년 2012 년정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된연구임 (NRF-2010-32A-H00006, 2012R1A1A2006906). 준회원 : 울산대학교정보통신공학과석사 종신회원 : 울산대학교컴퓨터정보통신공학부교수 Manuscript Received : February 13, 2014 First Revision : March 31, 2014; Second Revision : April 29, 2014 Accepted : May 13, 2014 * Corresponding Author : Cheol-Young Ock(okcy@ulsan.ac.kr) 한국어는 SOV(S: 주어, O: 목적어, V: 용언 ) 어순을나타내는언어로구문론적으로다음의특징이있다. 어떤어형의문법적기능은그어형발단의요소 ( 조사등 ) 에의해결정되는첨가어이다.

220 정보처리학회논문지 / 소프트웨어및데이터공학제 3 권제 6 호 (2014. 6) 어순이비교적자유로운언어이다. 그러나한어절내의형태소적어순은엄격하게존재한다. 한국어는지배소가항상의존소 (dependent) 의뒤에나타나는지배소후위 (governor-final) 언어이다. 한문장에서필수적인요소의생략이자주발생한다. 이러한특성으로인하여한국어를구구조문법 (Phrase Structure Grammar) 으로분석한다면매우많은규칙을필요로하고그처리과정이복잡하다. 반면, 의존문법 (Dependency Grammar) 은문장구성성분사이의의존관계 ( 의존소, 지배소 ) 에중심을두는문법으로어순의제약을거의받지않기때문에어순의도치나주요성분의생략이일어나는한국어문장에대한분석에적합하다. 의존문법에의한기존의의존구문분석에서는구축된말뭉치 ( 세종구문분석말뭉치 ) 들을기준으로학습하거나자질을추출하여사용하는데그구축된말뭉치들은대부분형태소 / 품사만태깅되어있다. 즉형태소가동형이의어일경우동형이의어분별이되어있지않다. 입력문장의형태소분석결과에서특히용언이동형이의어일경우동형이의어가분별되지못함으로써구문구조분석시에많은중의성이발생했다. 동일어근의용언 ( 예, 타다 ) 일경우라도동형이의어에따라문형이달라필수논항이다르다. 예를들어아래두문장의 타다 를비교해보자. (1) 쓰레기를타는것, 타지않는것등으로구분했다. (2) 썰매를타려면꼭장갑을끼어야한다. 위문장 (1) 에서의 불씨나높은열로불이붙어번지거나불꽃이일어나다. 의의미를가진자동사 타다 01 1) 이며, 문장 (2) 에서는 도로, 줄, 산, 나무, 바위따위를밟고오르거나그것을따라지나가다. 뜻의타동사 타다 02 로 을 의문형 2) 을요구한다. 위두문장에서의형태소분석결과, (1 ) 쓰레기 /NNG+ 를 /JKO 타 01/VV+ 는 /ETM 것 01/NNB+, /SP 타 01/VV+ 지 /EC 않 /VX+ 는 /ETM 것 01/NNB 등 05/NNB+ 으로 /JKB 구분하 03/VV+ 었 /EP+ 다 /EF+./SF (2 ) 썰매 /NNG+ 를 /JKO 타 02/VV+ 려면 /EC 꼭 03/MAG 장갑 01/NNG+ 을 /JKO 끼 01/VV+ 어야 /EC 하 01/ VX+ ㄴ다 /EF+./SF 로동형이의어 타다 가분별된다면, 문장 (1) 의의존관계분석시에 쓰레기를 과 타는 은의존관계를맺지않게처리할수있으며, 문장 (2) 에서 썰매를 은 타려면 과의존관계를맺게될것이다. 용언뿐만아니라명사도동형이의어분별된다면구문분석과정의중의성을해소할수있는경우가많다. 예를들어, 1) 동형이의어어깨번호는표준국어대사전을기준으로하였다. 2) 문형도표준국어대사전을기준으로하였다. (3) 아이의아버지는중국을상대로무역을하는사람이다. 의문장 (3) 에서 { 상대, 무역 } 의명사는서술성명사로용언 { 상대하다, 무역하다 } 의성질 ( 문형및필수논항 ) 을내포하고있어, 용언으로간주해야만다음과같이정확히의존관계를분석할수있다. 이러한서술성명사는 { 상대 04, 무역 02} 로모두동형이의어명사이며, 이들명사들이 (3 ) 과같이동형이의어분별된다면의존관계분석과정에서서술성명사의용언성질을활용할수있을것이다. (3 ) 아이 01/NNG+ 의 /JKG 아버지 /NNG+ 는 /JX 외국 02/ NNG+ 을 /JKO 상대 04/NNG+ 로 /JKB 무역 02/NNG+ 을 /JKO 하 01/VV+ 는 /ETM 사람 /NNG+ 이 /VCP+ 다 /EF+./SF 이와같이형태소분석단계에서동형이의어가분별된다면구문분석시많은중의성을해소할수있으며정확한의존관계를분석할수있다. 본논문에서는형태소분석단계에서동형이의어를분별하는 UTagger 3) 의결과를이용하여의존관계를분석하는방법을제안한다. 특히 UTagger에서사용하는단계별전이학습말뭉치를재활용하여 { 명사 + 격조사용언 } 간의의존관계를확정하는방안을제시한다. 이번논문의연구는동형이의어용언에만한정하며, 동형이의어서술성명사에대한의존관계분석연구는추후연구로미룬다. 본논문의구성은다음과같다. 2장에서는기존의한국어구문분석에관한관련연구들을살펴보고, 3장에서는의존관계분석을위한의존규칙및동형이의어분별됨으로써고려할수있는여러의존관계들에대해설명한다. 다음으로 4장에서는전체시스템의구성및의존관계분석과정, 그리고세종구문분석말뭉치를이용한결과를살펴본다. 마지막으로 5장에서결론과향후연구에관해논하였다. 2. 관련연구최근의한국어의존구문분석에대한연구는보다실용적인구문분석기의개발에필요한여러가지의존파싱방법론에대한연구가주요관심사항이다. 의존구문분석에사용되는방법은규칙기반처리방법과기계학습방법으로간략히나누어볼수있다. [1] 에서는트랜지션방법의장점에문장성능향상을위한새로운방법으로문장구조를인식하기위해 키어절 이라는개념을제안하였다. 인식된키어절을구문분석의자질 3) UTagger는연구용으로무료기술이전하고있음 (http://nlplab.ulsan.ac.kr).

동형이의어분별에의한한국어의존관계분석 221 로사용하는방법, 키어절을위한수정모델실험을하였다. 세종구문코퍼스를사용하여실험한결과 3% 의문장성능향상을이룰수있다고하였다. 키어절을사용하는것이문장구조를인식하고오류전파를막는데효과적임을보였다. [2] 에서는한국어구문분석에서발생하는중의성을해결하기위하여구간분할방법과논항정보를사용하여개선한구문분석시스템을소개하였다. 이논문에서제안하는구문분석시스템은어절대신형태소를입력으로사용하고, 또한주어진형태소에대하여가능한모든구문분석구조를생성하는알고리즘을사용하였다. 실험을통하여약 53% 의중의성을제거할수있었음을보였다. [10] 에서는각절들의서술부의의존관계를서술부의논항유무로보고, 이진분류문제로의존관계를분석하였다. 서술부의관련정보는간단한문법규칙을기반으로 CKY 차트파서를통하여추출하였고, 기계학습방법으로는 SVM을사용하였다. 실험결과어휘정보들중에서어미의정보만사용하였을경우는 64.4% 의정확도를보였고문법적인정보인동적자질을사용한경우는 73.5% 의정확도를보였다. 이논문에서는어휘정보및문법적인정보들만사용하여의미적인정보들이추가되어야할것으로보인다. [14] 에서는한국어구성성분은내용어와기능어의결합형태로구성되고임의구성성분기능어와임의구성성분내용어간의의존관계가의미가있다는사실을반영한의존문법학습방법을제안하였다. KAIST의트리부착코퍼스 31,086개문장에서추출한 30,600개문장의 Tagged Corpus 를가지고학습한결과초기문법을 64% 까지줄인 1,101개의의존문법을획득했고, 실험문장 486개문장을 Parsing한결과 73.81% 의 Parsing 정확도를보였다. 이논문에서는실험데이터가너무작고, 의존문법이 1,101개로의존문법의개수를줄여야할것으로보인다. [4] 에서는의존파싱에서최소한의의존관계를생성하기위하여후보의존소가지배가능경로상에서술어지배소와의의존관계검사시에술어의하위범주화정보를이용하는의존파싱방법을제안한다. 이방법으로의존파싱과정에서후보의존관계의과생성으로인한비효율성을미리차단함으로써의존규칙과지배가능경로만에의한의존파싱에비하여보다정확하고향상된파싱결과를얻을수있었다. 술어의하위범주화정보를사용하는점에서본논문과비슷하지만하나의절이가지는의존관계의수가 1개이상으로정확한의존관계를찾기어렵다. [8] 에서는투사성의원칙을이용해결정적한국어의존구문분석을보완하는방법을제안하였다. 투사성의원칙을이용하여의존구문분석의오류를찾아내고의존관계를재탐색한다. 제안한의존구문분석모델이비결정적의존구문분석모델보다뛰어난성능을제공함을실험으로보였다. 여기서말하는투사성의원칙이본논문에서제안하는규칙중하나인투영의원칙을말한다. 이투영의원칙을이용하여높은성능을가져올수있는것을보였다. [9] 에서는술어중심제약만족알고리즘을이용한한국어의존파서를제안하였다. 술어중심의제약전파알고리즘은술어의결합가정보를바탕으로초기구문의존관계그래프에존재하는비문법적인의존관계를제거함으로써정확한파싱결과를얻을수있다고하였다. 이상의기존연구들은통계적인방법을사용하여한국어의존구조를분석하였고, 입력문장의형태소분석된결과만을이용한구문분석으로동형이의어분별된정보를이용하 지못하였다. 본논문에서는의존규칙을기반으로하여, 형태소분석단계에서동형이의어분별을위해사용된 UTagger 의학습사전중에서 AF 전이모델을이용하여의존관계를분석하는방법을제안한다. 의존관계는세단계에걸쳐분석하는데, 첫번째단계에서는 UTagger에서사용하는학습말뭉치를재활용하여격조사를가진어절과용언간의의존관계를확정하고, 두번째단계에서동형이의어분별된용언및서술성명사용언의문형정보를이용하여필수논항을결정한다. 마지막세번째단계에서는지배소와의존소의세부규칙에따라지배소가확정되지않은어절들의의존관계를분석한다. 3. 동형이의어분별에의한한국어의존관계분석 이장에서는한국어의존관계분석을위해적용한의존문법을설명하고, 형태소분석단계에서분별된동형이의어정보를이용하여의존관계를분석하는방법에대해설명한다. 3.1 한국어의존관계및제약규칙의존문법에서는어떤두어절이결합할때에지배소 (governor) 가중심이되고, 의존관계에있는형태소, 즉의존소 (dependent) 와결합한다. < 표 1> 은한국어의존문법을적용한지배소와의존소의관계를나타내고있다. 이러한의존규칙을이용하여간단히의존관계를추출할수있다. 예를들어, (4) 자동차사용인구가늘었습니다. 의문장은 의의존관계를가진다. Table 1. Rules of Korean Dependency Relation 규칙관계지배소의존소 1 수식 명사 관형사, 관형격조사, 관형형어미, 명사, 부사 2 수식 대명사 관형사, 관형격조사, 관형형어미, 부사 격조사 ( 주격, 목적격, 보격, 부사격, 호 3 부가 동사, 형용사 격, 인용격 ), 보조사, 부사, 연결형어 미, 부사형전성어미 4 강조 부사, 관형사 부사

222 정보처리학회논문지 / 소프트웨어및데이터공학제 3 권제 6 호 (2014. 6) 여기서 자동차사용 은규칙 1에의해 사용 은앞의 자동차 라는명사 (NNG) 를의존소로가지는명사 (NNG) 지배소가된다. 특히 사용 은서술성명사로용언의성질을내포 ( 자동차를사용하다 ) 하고있다. 사용인구가 도규칙 1에의해 사용 (NNG) 인구 (NNG) 의연속두명사간의의존소-지배소의관계를가진다. 그리고 인구가늘었습니다 는규칙 3에의해 늘었습니다 는지배소인동사 (VV) 이고, 주격조사 (JKS) 를가진 인구가 가의존소이다. 한국어의존규칙에의한의존관계를추출하는과정에서대체로다음과같은의존제약규칙이적용된다. 1 지배소후위의원칙 : 지배소는의존소보다문장내에서뒤에위치한다. 2 투영의원칙 : 임의의의존관계 A, B에대해서 A에대한아크와 B에대한아크는서로겹치지 (crossing) 않아야한다. 3 지배소유일의원칙 : 하나의의존소는오직한개의지배소만갖는다. 4 격틀 / 의미정보제약 : 의존소 A가격 c1을나타낼때, 지배소 B의 c1격에대한의미제약 (semantic constraint) 을의존소 A가만족해야의존관계가성립한다. 5 필수성분제약 : 필수성분을가져야하는어절이필요한성분을갖지못하고서는다른어절의의존소로사용될수없다. 용언이동형이의어 ( 혹은다의어 ) 이고동형이의어 ( 혹은다의어 ) 별로다른격틀 / 의미정보및필수성분을요구한다면, 격틀 / 의미정보제약및필수성분제약을적용하기위해서는동형이의어 ( 혹은다의어 ) 가분별되어야한다 ( 그림 1 표준국어대사전에서의 차다 참조 ). 본논문은형태소분석시에동형이의어분별이가능한 UTagger의결과를이용하여동형이의어분별된용언의의존관계를분석한다. 3.2 UTagger의단계별전이모델을이용한동형이의어용언의의존관계확정 UTagger는 HMM 기반의한국어품사및동형이의어동시태깅시스템으로, 약 1,100만어절의세종형태의미주석말뭉치에서인접두어절간의형태소 / 품사전이확률을이용한다 [21]. 예를들어, UTagger는다음두문장 (5) 자동차가기름을태워달린다. (6) 자동차가사람을태워달린다. (5) 에서는 불에타다 는의미이고, (6) 에서는 탈것에몸을얹다 는의미로, 태워 의좌우인접어절에따라 태우다 의의미가결정된다. 연구 [21] 에서는 90% 학습말뭉치에대해 10% 의테스트집합의인접두어절이모두출현한비율 (AA 전이모델 ) 은 33.66% 이여서, 인접두어절간의학습자료부족문제를해결하기위해단계별전이모델을제안하였다. 그첫번째로인접두어절 A와 B에서어절 A의형태소분석전체결과와어절 B의첫번째형태소간의전이모델 AF(All morphemes of a word, First morpheme of the next word) 을제안하였다. AF 전이모델은인접두어절에서앞어절의의미와뒤어절의의미는대체로서로관련이있어, 뒤어절의어근 ( 어휘형태소 ) 만으로도두어절의의미관계를파악할수있다는점을반영한전이모델이다. AF 전이모델의예로차 06/NNG+ 를 /JKO 타 02/VV 188 차 09/NNG+ 를 /JKO 타 03/VV 2 를제시하였다. 여기서각동형이의어는 차 06(car), 차 09(tea) 이며, 타 02(ride), 타 03(mix) 의의미를가진다. 실험에서 AF 전이모델의적용비율은 18.42% 이었다. 연구 [21] 에서는위 AF 전이모델외에도어절 A의마지막형태소 ( 문법형태소 ) 와어절 B의첫번째형태소간의전이모델 EF(End morpheme of a word, First morpheme of the next word) 도제안하였으나, 본논문에서는 EF 전이모델은사용하지않아추가설명은생략한다. 연구 [21] 에서는각전이모델마다다른가중치를적용하며, 부분적으로전이빈도가 0인경우를위해최소전이점수를계산하는예외처리루틴을포함하였다. 세종형태의미말뭉치중 90% 를학습하고 10% 를테스트집합으로사용한결과, 품사와동형이의어둘다에대해 96.44% 의태깅정확률을보여, 단계별전이모델이한국어와같은교착어의품사및동형이의어태깅에적합한방법임을보였다. 한국어는격조사가발달하여어순이비교적자유롭다. 예를들어, 예문 (7) 버스를타고빨리학교에갔다. (7-1 ) 버스 02/NNG+ 를 /JKO 타 02/VV+ 고 /EC 빨리 /MAG 학교 /NNG+ 에 /JKB 가 01/VV+ 았 /EP+ 다 /EF+./SF 를 (5 ) 자동차 /NNG+ 가 /JKS 기름 01/NNG+ 을 /JKO 태우 01/VV+ 어 /EC 달리 04/VV+ ㄴ다 /EF+./SF (6 ) 자동차 /NNG+ 가 /JKS 사람 /NNG+ 을 /JKO 태우 02/ VV+ 어 /EC 달리 04/VV+ ㄴ다 /EF+./SF 로태깅한다. 위두문장에서 태우다 는 타다 의사동사로 가 학습되었다면 { 버스 02/NNG+ 를 /JKO 타 02/VV, 타 02/VV+ 고 /EC 빨리 /MAG, 빨리 /MAG 학교 /NNG, 학교 /NNG+ 에 /JKB 가 01/VV} 의 AF 전이모델이학습되어있 다. 그렇다면, 문장 (7-2 ) 에서 (7-2 ) 버스 02/NNG+ 를 /JKO 타 02/VV+ 고 /EC 학교 /NNG+ 에 /JKB 빨리 /MAG 가 01/VV+ 았 /EP+ 다 /EF+./SF

동형이의어분별에의한한국어의존관계분석 223 { 명사 + 격조사용언 } 의의존관계를분석할때, AF 전이모델로학습된정보를이용한다면어순이바뀐경우에도 학교 /NNG+ 에 /JKB 가 01/VV 의 { 명사 + 격조사용언 } 간의의존관계를확정할수있다. 본논문에서는단계별전이모델중 AF 학습사전만을활용하며, 이중에서도 { 명사 + 격조사용언 } 간의의존관계에확정시에만사용한다. AF 학습사전은 1,100만어절의세종형태의미말뭉치에서단순히인접두어절 (bigram) 의빈도만가지고있다. 본논문의의존관계분석시에는 AF 학습사전의빈도정보는활용하지않고단순히학습여부만을활용한다. 그리고모든형태소의 AF 전이를보는것이아니라 AF 전이중에서 { 명사 + 격조사용언 } 의전이만을사용하여의존관계를확정짓는데사용한다. 따라서위 (5-2 ) 의문장에서 학교에갔다 의두어절이인접되지않았다하더라도 AF 학습사전에서발견된다면이두어절간에의존관계를설정할수있다. 3.3 동형이의어분별된용언의문형을이용한의존관계분석 < 표 1> 의의존규칙에의한기존의한국어의존관계분석방법은단순히어절간의형태소및품사만을보고판단하므로여러중의성이발생하고정확한의존관계분석에실패하는경우가많았다. 예를들어동사 차다 의경우도, 동형이의어에따라다른필수논항을요구한다. 다음 [ 그림 1] 은표준국어대사전에등재된 차다 의동형이의어별뜻풀이와문형을제시하고있다. 차다 는크게동사 { 차다01, 차다 02, 차다03} 와형용사 { 차다04, 차다05} 로구분되며, 동사의경우도자동사 { 차다01} 와타동사 { 차다02, 차다03} 으로구 분되며의미별로요구하는문형이다르다. 따라서용언이동형이의어분별되면용언별로요구하는문형에따라정확한필수논항-용언의의존관계를분석할수있다. 본논문에서는동형이의어별용언의문형정보를 < 표 4> 와같이등록하고이를활용한다. < 표 4> 의문형정보는표준국어대사전에서추출 (30,865개 ) 하였다. 동형이의어별용언이다의어이고다의어별로다른문형을요구할수있지만 ( 예, [ 그림 1] 에서 차다01 의 [1] 과 [2]), 현재의 UTagger는다의어를분별할수없기때문에동형이의어단위로모든문형을등록하였다. 또한, 차다03 의 [1] 에 을 문형과 [2] 을 를따로구분하기어려워모두 를에을 을등록하였다. 여기서 을 과 를, 로 와 으로, 과 와 와 는이형태격조사이며편의상이형태들도모두등록하였다. Table 2. Pattern of Predicate 관련하 /VV 과에와먹 01/VV 를을먹 02/VV 를에을무역하 /VV 과를와을상대하 /VV 과를와을일어나 /VV 에서차 01/VV 로에으로차 02/VV 를을차 03/VV 를에을이렇게 < 표 2> 의동형이의어별문형정보를이용하면, 문장구성성분의도치로인한연속된두개이상의본용언의의존관계를정확히분석할수있다. 예를들면, (8) 일어나서사과를먹었다. (9) 사과를일어나서먹었다. 의두문장에서문장 (9) 에서 사과를 은문장 (8) 에서도치된경우로, (9 ) 사과 05/NNG+ 를 /JKO 일어나 /VV+ 아서 /EC 먹 02/ VV+ 었 /EP+ 다 /EF+./SF 로형태소 / 동형이의어분석된다. < 표 2> 의문형정보를이용하면 사과를 은목적격조사 를 을문형으로가지는 먹 02/VV 와의존관계를형성할수있다 ( 일으키다 는목적격조사를필수논항으로가지지않는자동사이다 ). AF 전이모델로학습된경우의 { 명사 + 격조사용언 } 간의의존관계를확정할경우에도용언의문형정보는다시확인되어야한다. 이는앞예문 (1 ) Fig. 1. 차다 in Korean Standard Great Dictionary (1 ) 쓰레기 /NNG+ 를 /JKO 타 01/VV+ 는 /ETM 것 01 /NNB+,/SP 타 01/VV+ 지 /EC 않 /VX+ 는 /ETM 것 01/NNB 등 05/NNB+ 으로 /JKB 구분하 03/VV+ 었 /EP+ 다 /EF+./SF

224 정보처리학회논문지 / 소프트웨어및데이터공학제 3 권제 6 호 (2014. 6) 규칙 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 규칙설명 예문 격조사를가진체언은가장가까운오른쪽용언을지배소로가진다. ( 문형확인 ) 시력에따라 23종이있다. ( 시력 01/NNG+ 에 /JKB -> 따르 01/VV+ 아 /EC) SS 를제외한기호의경우다음어절을지배소로가진다. 렌즈굴절력 - 내구성잘살펴야 (-/SO -> 내구성 /NNG) Table 3. Detail Rules used for Sejong Phrase Structured Corpus 부사 (MAG) 에대해서바로다음어절이부사이면다음부사를지배소로가지고, 그렇지않으면가장가까운오른쪽용언을지배소로가진다. 배부른것을감추기위해너무꼭끼는속옷을입거나 ( 너무-> 꼭, 꼭-> 끼는 ) 부사뒤에명사가왔을때부사가 { 꼬박, 더, 바로, 순, 오래, 오직등 } 이면명사를지배소로가진다. 두지역은오래전부터심각한분열을겪어왔다. ( 오래 02/MAG-> 전 08/NNG+ 부터 /JX) 관형격조사 (JKG), 명사 (NNG), 명사형전성어미 (ETN), 명사파생접미사 (XSN), 숫자 (SN) 의경우가장가까운오른쪽명사를지배소로가진다. ( 예외, 결국, 기호와명사가함께나온경우 ) 하지만그의가게는장벽으로두동강이나버린다. ( 그 01/NP+ 의 /JKG-> 가게 /NNG+ 는 /JX) 관형사 (MM), 관형형어미 (ETM) 는다음체언 ( 명사 / 대명사 / 의존명사 ) 어절을지배소로가진다. 변해가는한아파트에두남녀가산다. ( 변하 /VV+ 어 /EC+ 가 01/VX+ 는 /ETM-> 아파트 /NNG+ 에 /JKB) 관형격조사 (JKG) 는명사들이연속으로나올경우마지막명사를지배소로가진다. 세기말의인간소외를그려낸다. ( 세기말 /NNG+ 의 /JKG-> 소외 /NNG+ 를 /JKO) 명사뒤에기호 (SO, SS, SP) 가올경우기호를지배소로가진다. 렌즈굴절력 - 내구성잘살펴야 ( 굴절력 /NNG -> -/SO) 명사에기호 (,/SP) 가붙어연속으로나오는경우, 마지막명사를지배소로가진다. 목욕가운부터탁자보, 냅킨, 앞치마까지그가디자인한 ( 탁자 01/NNG+ 보 16/NNG+,/SP-> 앞치마 /NNG+ 까지 /JX) 연결어미가연속으로나오는경우다음동사를지배소로가진다. 식사까지할수있는욕실이나와야한다고주장할정도다. ( 나오 /VV+ 아야 /EC-> 하 01/VX+ ㄴ다고 /EC) JC의경우다음에나오는격조사 (JKS, JKO, JKG, JKB, JX) 를지배소로가진다. 팔순의아버지와두딸고등학생인막내아들은 ( 아버지 /NNG+ 와 /JC -> 아들 /NNG+ 은 /JX) JX의경우주용언 ( 제일오른쪽동사 ) 을지배소로가진다. ( 예외, 바로다음이동사인경우, 문장이,/SP 로나누어진경우 ) 이단체는일본군이지배하는 발족시킨항일비밀결사이다. ( 단체 02/NNG+ 는 /JX -> 결사 04/NNG+ 이 /VCP+ 다 /EF+./SF) SW 가여러개있을경우동일한 SW 의앞어절을지배소로가진다. 동창회장단은 일부귀족학교화로국민위화감조성 공립고와많 ( /SW -> 조성 04/NNG) 접두사 (XPN) 다음에숫자 (SN) 가오는경우 SN을지배소로가진다. 수사 (NR) 다음관형사 (MM) 이나부사 (MAG) 가오는경우 MM 혹은 MAG를지배소로가진다. 이들은제 4회부천시의회임시회의가열린 24일오전에도 ( 제 21/XPN -> 4/SN+ 회 08/NNB) 우린둘다더깊은외로움에 ( 둘 01/NR -> 다 03/MAG) 한어절안에형태소가동사와 SP 가같이사용될경우문장의분리로보고주용언 ( 문장내에서마지막에온용언 ) 을지배소로가진다. 군개혁은 사기를떨어뜨렸고, 그런분위기는 풍조로까지번졌다. ( 떨어뜨리 /VV+ 었 /EP+ 고 /EC+,/SP -> 번지 01/VV+ 었 /EP+ 다 /EF+./SF) 문장시작이 MAJ 인경우가장오른쪽용언을지배소로가진다. 그러나미국의경우 지어집단대응하는일은없다. ( 그러나 /MAJ -> 없 01/VA+ 다 /EF+./SF) 위의모든규칙에해당하지않으면가장오른쪽어절을지배소로가진다. ( 용언이없는경우 ) 의상서실내장식품으로 ( 의상 01/NNG+ 서 /JKB -> 장식품 /NNG+ 으로 /JKB+ /SE)

동형이의어분별에의한한국어의존관계분석 225 이 UTagger에서학습되었다면 { 쓰레기 /NNG+ 를 /JKO 타 01/VV, 것 01/NNB+,/SP 타 01/VV, 타 01/VV+ 지 /EC 않 /VX, 등 05/NNB+ 으로 /JKB 구분하 03/VV} 의 AF 전이모델이학습되었을것이고, 쓰레기를타지않는 등의문장의의존관계를분석할때 { 쓰레기 /NNG+ 를 /JKO 타 01/VV} 에의해잘못된의존관계를형성하게된다. 따라서, AF 전이모델을적용할때해당용언의문형에따른필수논항인지를판단하여문형에맞지않는경우는의존관계를설정하지않아야한다. 4. 의존관계분석시스템 (UParser) 4.1 의존관계분석과정및세부규칙입력문장에대해형태소 / 동형이의어분별된 UTagger의결과를대상으로다음 [ 그림 2] 의절차에따라용언과의의존관계를분석한다. 본논문에서는용언이 2개이상사용된경우, 의존관계설정대상어절에대해서그어절의가장가까운오른쪽용언까지를의존관계설정범위로제한한다. 1 용언 (VV, VA, XSV, XSA, VCP, VCN) 을의존관계분석기점으로설정한다. 2 의존관계분석기점용언에대해 right-to-left 방향의어절에대해다음과같이 AF 전이모델과용언의문형을확인하여의존관계를확정한다. 2-1 문장의첫어절부터첫번째분석기점용언사이의어절에대해첫번째분석기점용언과의 AF 전이모델이학습되었다면의존관계를확정한다. (JX, JKS 는예외 ) 2-2 i-1 번째분석기점용언다음어절부터 i 번째분석기점용언사이의어절들에대해 AF 전이모델을이용한의존관계를확정한다. 2-3 2-1 과 2-2 에서의존관계를확정할때, AF 전이모델에서발견된격조사가용언의문형에따른필수논항에해당될때만의존관계를확정한다. 3 아직지배소가결정되지않은어절에대해서 < 표 3> 의세부규칙과의존제약규칙을적용하여의존관계를설정한다. 이때, 용언의문형을이용하여필수논항에대해의존관계를확정한다. Fig. 2. Procedure of Analysis of Dependency Relation with Predicate Fig. 3. Process of Analysis of Dependency Relation 세종구문분석말뭉치의여러유형의문장을분석하기위하여 < 표 1> 의기본의존규칙외에 < 표 3> 의 17가지세부규칙을더추가하였다. 각규칙들은 1번부터 17번까지순서대로의존관계분석에적용된다. 즉 1번규칙이적용된후 2 번규칙도해당되면그어절은 2번규칙에의해의존관계가재설정된다. 앞에설명한과정을바탕으로설계한의존관계분석시스템 (UParser) 은 [ 그림 3] 와같이진행된다. 입력문장에대해 UTagger를이용하여형태소및동형이의어태깅을실시한후, 동형이의어분별된용언에대해용언의문형정보를이용하여의존관계를분석한다. 다음두개의문장이어떤과정과세부규칙이적용되어의존관계가분석되는지살펴보자. (10) 오늘은반드시미국과협상할것을기업인들이주장했다. 의문장은다음 [ 그림 4] 와같이분석과정및세부규칙이적용되며, 최종분석결과는 [ 그림 5] 와같이출력된다. [ 그림 5] 의 3 4 21 미국 03/NNP+ 과 /JKB 에서 3 4 는의존소 ( 미국과 ) 와지배소 ( 협상할 ) 의어절의위치를나타내며, 21 은적용된세부규칙번호이다. 세부규칙번호 21 은 3.2절의 AF 전이모델에의해 [ 그림 4] 의 { 명사 + 격조 Fig. 4 Analysis Process and Applied Rules in Sentence (10)

226 정보처리학회논문지 / 소프트웨어및데이터공학제 3 권제 6 호 (2014. 6) Fig. 5. Output of Analysis of Dependence Relation of Sentence (13) Fig. 6. Analysis Process and Applied Rules in Sentence (1) Fig. 7. Output of Analysis of Dependence Relation of Sentence (1) 사용언 } 으로학습된경우 (AF) 에해당되는규칙번호이다. 마지막어절인 주장하 01/VV+ 었 /EP+ 다 /EF+./SF 는지배소를가지지않는다. [ 그림 6] 은예문 (1) 쓰레기를타는것, 타지않는것등으로구분했다. 의의존관계분석과정에서적용되는규칙이며, [ 그림 7] 와같이분석결과가출력된다. [ 그림 7] 의 1 8 1 쓰레기 /NNG+ 를 /JKO 은 타 01/VV 의문형을고려하지않으면 2번어절 타는 을지배소로가지게되나, 동형이의어분별된 타 01/VV 의문형이적용 되어 타는 을지배소로가지지못한다. 결국 8번어절 구분하 03/VV 을지배소로가지게된다. [ 그림 7] 의실행결과에서세번째어절 것, 은네번째어절 타지 를지배소로가지고있으나, 문장에서, 의사용법이다양하여규칙 9에서아직이를완전히처리하지못하고있다 (< 표 4> 규칙 9의정확률참조 ). 또한이경우세번째어절 것, 의지배소를여섯번째어절 것 으로할것인지, 일곱번째어절 등으로 로할것인지에대한규정이아직명확히정해지지않았다.

동형이의어분별에의한한국어의존관계분석 227 4.2 실험용세종구문분석말뭉치 21세기세종계획에서는총 31개파일, 77,136개문장, 약 80만어절의구구조분석말뭉치를구축하였다. 이러한세종구문분석말뭉치는텍스트선별에서장르별균형성및문장의복잡도까지고려하여구축되었기때문에보편적인구문적특성을포착할수있는대표성을갖춘언어자료이다. [ 그림 8] 은세종구문분석말뭉치의형태이다. [ 그림 8] 과같이세종구문분석말뭉치는구구조문법으로태깅된결과만을제공하기때문에의존구조말뭉치로사용하지못한다. 본논문에서는서강대 SKA[22] 를수정하여구구조트리를의존구조트리인형태로변형하여실험데이터로사용하였다. 이러한수정과정에서 SKA와는다르게보조용언과의의존관계등이일부수정되었다. 의존구조로변형된말뭉치는 [ 그림 9] 와같다. 본논문에서는동형이의어분별에의한의존관계분석의개선효과를비교하기위해서, 31개의세종구문분석말뭉치파일중동형이의어가부착된세종형태의미말뭉치에서도사용된 21개의파일에대해서만실험말뭉치로사용하였다. 동형이의어가부착된의존구조말뭉치는 [ 그림 10] 과같다. [ 그림 10] 에서는동형이의어가부착되었을뿐만아니라서술성명사용언의경우 (11번째어절 군림하고, 15번째어절 묵살되고 ) 본래어근형을모두어간형으로수정하였다 ([ 그림 9] 와비교 ). UTagger의학습말뭉치들은어간형으로학습되어있어 UTagger의실행결과와일치시키기위해서어간형으로수정하였다. 실험에사용된동형이의어부착된의존구조말뭉치는 21개파일, 39,300개문장, 413,184개어절 ( 문장당평균 10.5개어절 ), 373,884개의의존관계를가지고있다. UTagger의동형이의어분별된결과가의존관계분석에 ; 지금서울에서열리고있는 ANOC는 NOC의총회이지만그위에 IOC가군림하고있어 ANOC의제안이묵살된경우도더러있다. (S (S (NP_SBJ (VP_MOD (AP 지금 /MAG) (VP_MOD (NP_AJT 서울 /NNP + 에서 /JKB) (VP_MOD (VP 열리 /VV + 고 /EC) (VP_MOD 있 /VX + 는 /ETM)))) (NP_SBJ ANOC/SL + 는 /JX)) (VNP (NP_MOD NOC/SL + 의 /JKG) (VNP 총회 /NNG + 이 /VCP + 지만 /EC))) (S (S (NP_AJT (DP 그 /MM) (NP_AJT 위 /NNG + 에 /JKB)) (S (NP_SBJ IOC/SL + 가 /JKS) (VP (VP 군림 /NNG + 하 /XSV + 고 /EC) (VP 있 /VX + 어 /EC)))) (S (NP_SBJ (S_MOD (NP_SBJ (NP_MOD ANOC/SL + 의 /JKG) (NP_SBJ 제안 /NNG + 이 /JKS)) (VP_MOD 묵살 /NNG + 되 /XSV + ㄴ /ETM)) (NP_SBJ 경우 /NNG + 도 /JX)) (VP (AP 더러 /MAG) (VP 있 /VV + 다 /EF +./SF))))) Fig. 8. Sejong Phrase Structured Corpus (File BGJO0152) ; 지금서울에서열리고있는 ANOC는 NOC의총회이지만그위에 IOC가군림하고있어 ANOC의제안이묵살된경우도더러있다. 1 3 지금 /MAG AP_NONE 2 3 서울 /NNP + 에서 /JKB NP_AJT 3 4 열리 /VV + 고 /EC VP_NONE 4 5 있 /VX + 는 /ETM VP_MOD 5 7 ANOC/SL + 는 /JX NP_SBJ 6 7 NOC/SL + 의 /JKG NP_MOD 7 18 총회 /NNG + 이 /VCP + 지만 /EC VNP_NONE 8 9 그 /MM DP 9 11 위 /NNG + 에 /JKB NP_AJT 10 11 IOC/SL + 가 /JKS NP_SBJ 11 12 군림 /NNG + 하 /XSV + 고 /EC VP_NONE 12 18 있 /VX + 어 /EC VP_NONE 13 14 ANOC/SL + 의 /JKG NP_MOD 14 15 제안 /NNG + 이 /JKS NP_SBJ 15 16 묵살 /NNG + 되 /XSV + ㄴ /ETM VP_MOD 16 18 경우 /NNG + 도 /JX NP_SBJ 17 18 더러 /MAG AP_NONE 18 0 있 /VV + 다 /EF +./SFVP_NONE Fig. 9. Sejong Phrase Structured Corpus transformed to Dependency Structure

228 정보처리학회논문지 / 소프트웨어및데이터공학제 3 권제 6 호 (2014. 6) ; 지금서울에서열리고있는 ANOC는 NOC의총회이지만그위에 IOC가군림하고있어 ANOC의제안이묵살된경우도더러있다. 1 3 지금 03/MAG 2 3 서울 01/NNP + 에서 /JKB 3 4 열리 02/VV + 고 /EC 4 5 있 01/VX + 는 /ETM 5 7 ANOC/SL + 는 /JX 6 7 NOC/SL + 의 /JKG 7 18 총회 02/NNG + 이 /VCP + 지만 /EC 8 9 그 01/NP 9 11 위 01/NNG + 에 /JKB 10 11 IOC/SL + 가 /JKS 11 12 군림하 /VV + 고 /EC 12 18 있 01/VX + 어 /EC 13 14 ANOC/SL + 의 /JKG 14 15 제안 02/NNG + 이 /JKS 15 16 묵살되 /VV + ㄴ /ETM 16 18 경우 03/NNG + 도 /JX 17 18 더러 01/MAG 18 0 있 01/VA + 다 /EF +./SF Fig. 10. Sejong Dependency Structured Corpus tagged Homograph 미치는영향을명확히파악하기위하여, 실험으로사용하는 21개의세종구문분석말뭉치는제외하고 UTagger용의학습말뭉치를새로이구축하여실험하였다. UTagger의학습말뭉치는 318개파일, 10,570,836개어절로구성되어있으며, 논문 [21] 의단계별전이모델학습말뭉치도새로이구축하였다. 4.3 전체성능실험및결과동형이의어부착되고의존관계로바뀐 [ 그림 10] 의세종구문분석말뭉치를정답으로보고의존관계분석시스템의의존관계분석결과의정확률을비교하였다. 정확률 = 정확하게분석된의존관계수전체의존관계수 실험말뭉치에대해서 UTagger 결과 14,968 어절이형태소및동형이의어분석오류가발생하여 96.38% 의정확률을보였으며, 이오류로인한다음단계의의존관계오류도의존관계분석정확률계산에포함하였다. 동형이의어분별여부가의존관계분석에어느정도의영향을미치는지를분석하기위하여다음과같이실험을진행하였다. 첫째로 UTagger의결과가분별된동형이의어를제거하고 < 표 3> 의규칙만적용하여의존관계를분석하였다. 둘째로동형이의어분별된결과를이용하여 [ 그림 3] 과같이의존관계를분석하였다. 이두개의결과를비교하여동형이의어분별된결과가의존관계분석에미치는정도를파악하였다. < 표 4> 는규칙만적용한경우와동형이의어분별경우에대해각규칙별정답및오답빈도이다. < 표 4> 에서규칙 22는 [ 그림 3] 의의존관계분석과정의마지막단계인의존제약규칙의투영의원칙에위배되는경우이다. 현재이경우는다른규칙에비해정확률은상당히낮다. 향후규칙 22의오류원인을면밀히분석하여개별규칙이적용되는범위및순서조정등의보완이필요하다. Table 4. Correct and Error Frequency from Rule and Homograph 규칙 규칙만적용 동형이의어분별 (AF) 번호 정답 오답 정답률 정답 오답 정확률 1 159,824 31,092 83.71 132,499 28,655 82.22 2 176 137 56.23 177 137 56.37 3 5,922 5,007 54.19 6,036 4,974 54.82 4 15 3 83.33 165 77 68.18 5 31,664 7,335 81.19 31,940 7,134 81.74 6 48,266 7,956 85.85 48,276 7,979 85.82 7 16,252 2,368 87.28 16,265 2,372 87.27 8 449 116 79.47 449 112 80.04 9 1,296 1,979 39.57 1,297 1,979 39.59 10 9,333 7,596 55.13 10,100 7,537 57.27 11 3,880 1,806 68.24 3,956 1,733 69.54 12 13,805 6,552 67.81 14,128 6,794 67.53 13 123 31 79.87 126 29 81.29 14 46 30 60.53 46 30 60.53 15 1,850 1,033 64.17 1,870 1,036 64.35 16 2,365 705 77.04 2,462 605 80.27 17 3,163 106 96.76 3,163 105 96.79 AF 0 0 26,713 664 97.57 22 511 1,092 31.88 870 1,393 38.44 합계 298,940 74,944 79.96 300,538 73,345 80.38 < 표 4> 에서용언이동형이의어분별된경우 (AF) 전체정확률은 80.38% 로동형이의어가분별되지않았을때보다 0.42% 의의존관계분석정확률이향상하였다. 동형이의어분별전후의의존관계분석에대해유의수준 1% 에서검정 통계량 으로검정하면,

동형이의어분별에의한한국어의존관계분석 229 기각역 이므로동형이의어분별이의존관계분석에유의미한영향을미치는것을알수있다. 여기서,,,, 이다. < 표 4> 에서 AF 전이모델이적용된어절 ( 총 27,377개어절, 정답 26,713, 오답 664개 ) 에대해서규칙만적용하였을때의의존관계분석결과와비교하면다음 < 표 5> 와같다. Table 5. Effect of Accuracy of Dependency Relation by Disambiguation Homograph AF 적용규칙만적용 AF 적용시정답 AF 적용시오답 규칙적용합계 규칙적용시정답 26,351 21 26,372 규칙적용시오답 362 643 1,005 AF 적용결과합계 26,713 664 27,377 < 표 5> 를보면 AF 적용시정답의결과가나온총 26,713개어절중 26,351개어절은규칙만적용했을때도정답으로분석되었다. 즉 98.64% 의대부분의어절은굳이동형이의어를분별하지않고기존의의존규칙만으로도의존관계를정확하게분석한다. 이는본논문에서사용하고있는근거리의존관계를적용 ( 어절의오른쪽의가장가까운용언과의존관계설정 ) 하더라도대부분정확한의존관계를설정할수있음을알수있다. 반면, 규칙만적용했을때의오답 1,005개어절중 362개의어절은동형이의어가분별됨으로써정답으로분석되었다. 즉오답에대해 36.02%(362/1005) 의개선효과가있다. 이는다른문형을가지는동형이의어용언에대해서는동형이의어를분별할필요가있음을나타낸다. 또한, 규칙적용시에는정답이었던것이동형이의어분별됨으로써오히려오류로분석된 21가지가경우가발생하였으나, 이중 14개는정답자체가오류이었다. AF 전이모델에서학습된 { 명사 + 격조사용언 } 간의의존관계를확정할때 3.4절과같이용언의문형을고려했을경우와그렇지않았을경우의정확률을비교하였으며그결과는 < 표 6> 과같다. Table 6. Effect of Pattern of Predicate in AF Transition Model AF 적용 문형고려하지않음 문형고려함 AF 적용된관계수 34,601 27,377 의존관계적용비율 9.25% 7.32% 정답의존관계수 33,319 26,713 AF전이적용정확률 96.29% 97.57% < 표 6> 에서전체의존관계중에서단순히 UTagger의 AF 학습사전에서발견되어의존관계를확정할수있는경 우가총 373,884개어절중 34,601개로약 9.25% 를차지하였으며, 이중에서도문형까지확인하여의존관계를확정할수있는경우는 23,777개로약 7.32% 를차지하였다. 또한 AF 전이모델에의한의존관계확정시문형을고려한경우의정확률은 97.57% 로문형을고려하지않았을때비해 1.28% 의정확률향상이있다. 결국 AF 전이모델의학습사전이의존관계분석정확률에약 7.14%(0.0732 x 0.9757) 의영향을미침을보이고있다. 5. 결론및향후연구본논문은형태소분석단계에서분별된동형이의어정보를이용하여, 동형이의어용언별로다른문형의의존관계분석방안을제안하였다. 또한형태소분석단계에서동형이의어를분별하는 UTagger에서사용하는 AF 전이학습사전을재활용하여 { 명사 + 격조사용언 } 간의의존관계를확정하는방안을제안하였다. 제안한방법의성능평가를위해 31개파일의세종구문분석말뭉치중에서세종형태의미말뭉치에서도사용된 21개파일을대상으로실험하였다. 실험말뭉치는동형이의어를부착하였고의존관계구조로변환하였으며, 전체 39,300 문장, 413,185 어절, 373,884개의의존관계로구성되어있다. 실험결과동형이의어분별된경우전체정확률은 80.38% 로, 동형이의어가분별되지않았을때보다 0.42% 의의존관계분석정확률이향상하였다. 이러한결과는유의수준 1% 에서검정통계량 Z로검정하면, 기각역 로동형이의어분별이의존관계분석에유의미한영향을미치는것을알수있었다. 또한, 실험결과전체의존관계중에서 UTagger의 AF 전이모델이적용되어의존관계를확정할수있는경우가 34,601개로약 9.25% 를차지하였으며, 이중에서문형을고려하여정확히의존관계를확정할수있는경우는 27,377개로약 7.32% 를차지하였다. 또한 AF 전이모델에의한의존관계확정시문형을고려한경우의정확률은 97.57% 로문형을고려하지않았을때비해 1.28% 의정확률향상이있다. 결국 AF 전이모델로학습된학습사전이의존관계분석정확률에약 7.14% 의영향이있음을보이고있다. 앞으로보다정확한의존관계분석을위해서는각규칙별오류유형을면밀히분석하여개선방안을제시하여야할것이며, 격조사가생략된경우와보조사에대한의존규칙을보강할필요가있다. 또한, 서술성명사와의의존관계설정에대해면밀한분석이필요하다. Reference [1] J. Y. Oh and J. W. Cha, Korean Dependency Parsing using Key Eojoel, Journal of KIISE : Software and Applications, Vol.40, No.10, pp.600-608, 2013.

230 정보처리학회논문지 / 소프트웨어및데이터공학제 3 권제 6 호 (2014. 6) [2] Y. U. Park and H. C. Kwon, A Study of Parsing System Implementation Using Segmentation and Argument Information, Journal of Korea Multimedia Society, Vol.16, No.3, pp.366-374, 2013. [3] E. K. Park and D. Y. Ra, Processing Dependent Nouns Based on Chunking for Korean Syntactic Analysis, The Korean Society for Cognitive Science, Vol.17, No.2, pp.119-138, 2006. [4] M. G. Jang, H. A. Lee, J. D. Park, and D. I. Park, Korean Dependency Parser Using Subcategorization Information of Predicates, Journal of KIISE, pp.452-463, 1996. [5] S. J. Lim, Y. T. Kim, and D. Y. Ra, Korean Dependency Parsing Based on Machine Learning of Feature Weights, Journal of KIISE : Software and Applications, Vol.38, No.4, pp.214-223. [6] Y. H. Lee and J. H. Lee, Korean Dependency Parsing Using Online Learning, Journal of KIISE, pp.299-304, 2010. [7] S. W. Jung, E. K. Park, D. Y. Ra, and J. T Yoon, A Study on Korean Dependency Parser Using Case Relation and Mutual Information, Journal of KIISE, pp.450-455, 2001. [8] Y. M. Park and J. Y. Seo, Correction Method for Korean Dependency Parsing using Projectivity and Re-searching, Korean Journal of Cognitive Science, Vol.22, No.4, pp.429-447, 2011. [9] P. M. Ryu, T. S. Lee, J. H. Lee, and G. B. Lee, Two-Phase Dependency Parser of Korean Using Predicate-Driven Constraint Propagation, Journal of KIISE, pp.923-926, 1996. [10] S. S. Kim, S. B. Park, and S. J. Lee, Analyzing Dependency of Korean Subordinate Clauses Using Support Vector Machine, Journal of KIISE, pp.148-155, 2006. [11] G. E. Im, Y. G. Jung, and H. C. Kwon, Implementation of Dependency Parser using Argument Information based on Korean WordNet, Journal of KIISE, pp.158-164, 2007. [12] M. Y. Kim, S. J. Kang, and J. H. Lee, Dependency Parsing by Chunks, Journal of KIISE, pp.327-329, 2000. [13] S. W. Lee, Cascaded Parsing Korean Sentences Using Grammatical Relations, pp.69-72. 2008. [14] S. H. Choi and H. R. Park, Probabilistic Dependency Grammar Induction, The KIPS transactions, pp.513-515, 2003. [15] S. S. Kim, S. B. Park, S. J. Lee, and S. Y. Park, Analyzing dependency of Korean subordinate clauses using a composit kernel, Korean Journal of Cognitive Science, Vol.19, No.1, pp.1-15, 2008. [16] P. M. Ryu, J. H. Lee, and G. B. Lee, Using Local Dependency for Dependecy Parser of Korean, The KIPS transactions, pp.464-468, 1996. [17] J. H. Eun, M. W. Jeong, and G. B. Lee, Korean Dependency Structure Analyzer based on Probabilistic Chart Parsing, Journal of KIISE, pp.105-111, 2005. [18] S. B. Park and B. T. Zhang, A Hybrid of Rule based Method and Memory based Learning for Korean Text Chunking, Journal of KIISE : Software and Applications, Vol.31, No.3, pp.369-378, 2004. [19] L. K. Joo and J. H. Kim, Implementing Korean Partial Parser based on Rules, pp.389-396, 2003. [20] Y. M. Woo, Y. I. Song, S. Y. Park, and H. C. Rim, Modification Distance Model using Headible Path Contexts for Korean Dependency Parsing, Journal of KIISE : Software and Applications, Vol.34, No.2, pp.140-149, 2007. [21] J. C. Shin and C. Y. Ock, A Stage Transition Model for Korean Part-of-Speech and Homograph Tagging, Journal of KIISE : Software and Applications, Vol.39, No.11, pp.889-901, 2012. [22] Y. M. Park and J. Y. Seo, SKA(Sogang Korean dependency Analyzer), Competition of Korean Information Processing System, 2011. 김홍순 e-mail : rlaghdtns2@ulsan.ac.kr 2011년울산대학교컴퓨터 정보통신학부 ( 학사 ) 2013년울산대학교정보통신공학과석사현재미디어젠연구원관심분야 : 한국어정보처리, 구문분석, 자연어처리 옥철영 e-mail : okcy@ulsan.ac.kr 1982년서울대학교컴퓨터공학과 ( 학사 ) 1984년서울대학교컴퓨터공학과 ( 석사 ) 1993년서울대학교컴퓨터공학과 ( 박사 ) 1994년러시아 TOMSK 공과대학교환교수 1996년영국 GLASGOW 대학교객원교수 2007년 2008년한국정보과학회언어공학연구회위원장 2007년몽골국립대학교 IT대학명예박사학위 2008년국립국어원객원연구원 1984년 현재울산대학교컴퓨터정보통신공학부교수관심분야 : 한국어정보처리, 온톨로지, 지식베이스, 기계학습, 문서분류