ISSN 2005-3053 2015년도제27회한글및한국어정보처리학술대회 The 27 th Annual Conference on Human & Cognitive Language Technology 한글및 한국어정보처리 일시: 2015년 10월 16 일( 금) ~ 17 일( 토) 장소: 전주대학교예술관 jj 아트홀, 스타센터다목적홀 주최: 한국정보과학회, 한국인지과학회 주관: 한국정보과학회언어공학연구회 후원: 전주대학교컴퓨터공학과, 전주대학교공학연구소, LG 전자, KISTI, NC 소프트, 네이버, 한국전자통신연구원, 다음소프트, SK 플래닛, ITCEN, 솔트룩스, 다이퀘스트, 와이즈넛, 카카오, 나라인포테크
ExoBrain 을위한한국어의미역가이드라인및말뭉치구축 임수종 O 1 1, 권민정, 김준수, 김현기한국전자통신연구원자동통역인공지능연구센터, 솔샘넷 {isj, hkk}@etri.re.kr, {huristic1030, jskim}@solsam.net Korean Proposition Bank Guidelines for ExoBrain Soojong Lim O, Minjung Kwon 1, Junsu Kim 1, Hyunki Kim Automatic Speech Translation and AI research Center ETRI, SolsamNet 1 요약본논문은한국어의미역을정의하고, 기계학습에기반하여한국어의미역인식기술을개발할때필요한학습말뭉치를구축할때지켜야할가이드라인을제시하고자한다. 한국어의미역정의는전세계적으로널리쓰이고있는 Proposition Bank 를따르면서, 한국어의특성을반영하였다. 또한정의된의미역및태깅가이드라인에따라반자동태깅툴을이용하여말뭉치를구축하였다. 주제어: 한국어의미역정의, PropBank, 의미역태깅가이드라인 1 1. 서론 동사나형용사는한문장을완성하기위해필수적으로요구하는성분들이있다. 이를필수보어라한다. 필수보어는서술어와통사적관계를맺을뿐만아니라특정한의미적관계를맺게되는데이것을보어의의미역이라부른다 [1]. 통사적관계의경우언어적인특성을제외하면공통분모가존재할수도있지만, 의미역의경우한국어의경우세종전자사전에서제시한 15개의미역을포함해서많은연구에서서로다른의미역을정의한다[2, 3, 4]. 영어권또한예외는아니지만, 기계학습이가능한수준의학습데이터를구축하여이를기반으로 CoNLL shared task 를 4번이나개최하는데기여한 Proposition Bank (PropBank) [5] 에서정의한방식이널리쓰이고있다. 본논문에서는언어학적인관점이아닌기계학습을전제로한학습데이터를구축한다는관점에서의미역을결정하고이를기반으로하여반자동태깅툴을구축하여질의응답시스템에서정답을찾는데사용하고자한다. 본논문의구성은다음과같다. 2장에서는한국어의미역가이드라인을제시하고, 3장에서는의미역별로자세한태깅가이드라인을설명하며, 4장에서는정의한의미역을이용하여의미역태깅말뭉치를구축하는과정에대해서설명한다. 마지막으로 5 장에서결론을기술한다. 2. 한국어의미역가이드라인 본논문에서는의미역정의는 PropBank[5] 의정의를따르지만이와유사하게한국어를대상으로구축된 Korean Proposition Bank(KPB)[6] 의경우한국어의실정을제대로반영하지못하는측면이있어서 ExoBrain 과제를위한학습및평가셋을구축하는과정에서수립한원칙및특징을소개한다. 2.1 기본원칙 KPB for ExoBrain 같다. 가이드라인의기본원칙은다음과 자연언어처리를위한일관성유지와효율성제고에 초점을두되, 일반언어학적관점에서크게벗어나 지않도록한다. 영어권에서 전산학적 언어처리를 위해 수립한 PropBank의의미역지와원칙을바탕으로분석하 며한국어특성을반영한다. 의존의미역분석의단위로어절을사용한다. 서술어에연결된의미역에대해서만태깅하며, 세종 구문태그중기능태그에해당하는주어(SBJ), 목적 어(OBJ), 부사어(AJT) 에대해서는필수적으로태깅한 다. 한문장내에대상의의미역이중복될때, 구문분 석결과가직접연관된것에태깅한다. 한국어특징중하나인빈번한생략현상에의해주 어, 목적어, 부사어성분이생략된경우에는구문적 으로관계가없더라도작업자가판단하여필수적으 로태깅한다. 동사와동사의관계에대하여태깅할때필수격인 ARG-N은태깅하지않고부가격인 ARG-M만을태깅 한다.
구문태깅결과, 세종구문태그 VP_MOD로설정된동사의경우다른태깅요소가없어도동사를삭제하지않는다. KPB의 Frame Set 에서사동/ 피동에따라태깅에혼동이있을경우동사를사동으로변환하여의미적으로판단한다. 2.2 의미역구분 본논문에서는 PropBank 의미역을사용하는데 PropBank의의미역태그셋은필수격인 ARG-N, 부가격인 ARG-M 의두가지로분류한다. ARG-N 형태의지는필수격으로불리우며, 해당서술어에대해필수적이며, Frame Set 에기술대상이된다. 한국어의경우에는생략이빈번하게일어나기때문에, 필수격이라고하더라도실제문장에서는기술되어있지않는경우도많다. 필수격은논항뒤에숫자가붙어있으며, 구문태그는주로주격, 목적격에해당하지만, 부사어도용언에따라필수적인경우해당할수있다. 필수격에해당하는의미역은1 과같다. 의미역 ARG0 ARG1 ARG2 ARG3 1 KPB for ExoBrain 필수격 위정의는절대적인기준이아니면, KPB Frame Set의기준에따라태깅하며, Frame Set이없는경우다음에설명할 ARG-N 태그셋별태깅가이드라인의내용을참조하여위정의를따른다. 의미역 ARGM-LOC ARGM-DIR ARGM-CND ARGM-MNR ARGM-TMP ARGM-EXT ARGM-PRD ARGM-PRP ARGM-CAU ARGM-DIS ARGM-NEG ARGM-INS 정의 서술어의동작주, 행위자 서술어의피동작주, 대상 시작점, 수익자등 착점 2 KPB for ExoBrain 정의 부가격 장소 (locatives) 방향 (directional) 조건 (condition) 방법 (manner) 시간 (temporal) 범위 (extent) 보조서술 (secondary predication) 목적 (purpose clauses) 발생이유 (cause clauses) 담화연결 (discourse) 부정 (negation) 도구 (instrument) 부가격에해당하는 ARG-M은모든서술어에필수적이지는않지만부가적인의미관계에대한것이다. 주로수식어, 한정어, 서술어별필수적이지는않은시간, 장소, 조건, 방법등에해당한다. 부가격에해당하는의미역은2 와같다. 3. 의미역별태깅가이드라인 3.1 필수격:ARG-N PropBank의필수격은 ARGA와 ARG 0~5, 그리고 R, C 와조합형태로다양하지만, 한국어 ARG-N 태그셋은 ARG0부터 ARG3까지 4 가지의의미역지만해당한다. 각각의의미역은서술어별로다른정의를갖고있고, 특정번호를규정하는일반적인원칙은1 과같지만, 절대적인대원칙은존재하지않고 Frame Set에서정의하는기준을바탕으로태깅하고, 존재하지않을경우아래의원칙을기준으로태깅한다. ARG0( 동작주, 행위자) (1) 문장에서사건의동작주, 행위자에해당하는논항을 ARG0으로분석함예 ) 쑨원은 (ARG0) 삼민주의를내세웠다. 진흥왕은 (ARG0) 화랑도를개편했다. ARG1( 피동작주, 대상) (1) 문장에서사건의피동작주, 대상에해당하는논항을 ARG1 으로분석함. (2) 구문태그는주로목적격에해당하나절대적이지는않음 (3) 이동사건에의해처소변화를겪거나산출사건이나소멸사건의결과로생기는논항혹은소멸되는논항역시 ARG1으로분석함 예) 범인은(ARG1) 사거리에서발견되었다. 밤거리에는인적이 (ARG1) 드물다. ARG2( 시작점, 수혜자) (1) 행위의시발점을가리키는기점논항을 ARG2으로분석함. (2) 행위에의해수혜를받는대상을 ARG2로분석함 (3) Frame Set에서장소를필수격인 ARG2로정의한경우, 명확한장소라고하더라도필수격인 ARG2 로분석함 예) 비행기가인천공항에서(ARG2) 출발했다. 영희가철수에게서 (ARG2) 그선물을받았다. ARG3( 착점) (1) 문장에서행위의도착점을가리키는착점논항을 ARG3 로분석함 예) 근이가학교에(ARG3) 갔다. 연이가동창회에 (ARG3) 참석했다. 3.2 부가격: ARG-M 부가격은서술어에따라달라지는필수격숫자와는다르게
절대적으로정의할수는있지만, 방법과도구처럼명확하게기준을정의하지않으면작업자에따라태깅결과가달라지는의미역이있기때문에그기준으로아래와같이수립하였다. ARGM-LOC( 장소) (1) 사건이발생하는상황적공간을가리키는처소논항. (2) 동사의의미에이동성이없고, ~ 에서/~ 에 조사와함께쓰이는경우분석함. (3) Frame Set에서 ARG-N 으로정의되어있지않고, 명확한지명이나장소를뜻하는경우 예) 친구들이서울에 (ARGM-LOC) 많이산다. ARGM-DIR( 방향) (1) 동사의의미가이동성을가질때, 방향격조사 ~ 로, ~ 으로 와함께나타나는논항. (2) 오른쪽, 왼쪽, 위쪽, 아래쪽, 앞으로, 뒤로, 동서 남북 에해당되는논항. 예) 달이서쪽으로 (ARGM-DIR) 기울었다. ARGM-CND( 조건) (1) 인물이나사물의자격이나서술어발생조건을가리키는논항. (2) ~ 중에, ~ 가운데에( 범위), ~ 보다( 비교조건), ~ 에대해서는( 명확한수치가나타나지않는범위로한정될경우 ) 예) 과세대상금액이많을수록(ARGM-CND) 높은세율을적용한다. ARGM-MNR( 방법) (1) 서술어를수행하는방법에대한논항. (2) 서술어가 언어에의해 ( 한자로, 영어로, 티베르어로등) 인경우 예) 그는큰소리로 (ARGM-MNR) 떠들었다. ARGM-TMP( 시간) (1) 서술어의발생시간과같이서술어와관계된시간에대한논항. (2) 명확한날짜, 시기, 시대를나타내는경우. (3) 단, ~ 부터... 까지 와같이기간을나타내는경우, Frame set 과상관없이, 시점과착점으로구분, 각각 ARG2( 시점), ARG3( 착점) 으로분석함. 예) 진달래는이른봄에 (ARGM-TMP) 핀다. ARGM-EXT( 범위) (1) 크기또는높이등의수치와정도를의미하는논항. (2) 가장, 최고, 더욱, 매우 등의정도를나타내는논항 예) 그악기는 4 개의(ARGM-EXT) 현을가진다. ARGM-PRD( 보조서술) (1) 대상과같은의미이거나대상의상태를나타내면서서술어를수식하는논항 (2) 주로 ~ 로서 의조사를가지는논항 (3) ' 말자로',' 최초로' 등대상이서술어에대해행해진순서를나타내는논항 예) 석회암지대에서깔때기모양으로 (ARGM-PRD) 파인웅덩이가생겼다. ARGM-PRP( 목적) (1) 서술어의주체가목를가리키는논항. (2) 행위의의도가분명히드러나는논항. (3) ~ 를위해 의논항. 예) 주나라의 백이 와 숙제 는절개를지키고자 (ARGM-PRP) 수양산에거처했다. ARGM-CAU( 발생이유) (1) 서술어가발생한이유로원인논항이방향격지 와함께나타남. (2) ~ 때문에 넣었을때, 문장의의미가통하는경우. (3) ~ 하여 술어를 다른 서술어에 연결하여 태깅할 때 PRP( 목적) 와불분명하다면, 무조건 CAU로태깅 함. 예) 지난밤 강풍으로 (ARGM-CAU) 가로수가넘어졌 다. ARGM-DIS( 담화연결) (1) 그러나, 그리고, 즉 등의문장접속부사. (2) PropBank 지침에따르면, 담화연결 은앞의문맥과뒤의문맥을연결할경우에해당하지만, 여기서는명확한문장접속부사만을대상으로함 예 ) 하지만 (ARGM-DIS) 여기서동, 서는중국과유럽을뜻한다. ARGM-ADV( 부사적어구) (1) 마치, 물론, 역시, 와같이부사적어구에해당하는어휘를선정하여, M-ADV로분석 예) 산의능선이마치 (ARGM-ADV) 닭벼슬을쓴용의형상을닮았다. ARGM-NEG( 부정) (1) 서술어에대해부정의의미를가지는논항. 예) 산은불에타지않았다 (ARGM-NEG). ARGM-INS( 도구) (1) 서술어를행할때사용하는도구에대한논항 (2) 서술어를수행하는방법인 ARGM-MNR보다구체적인 사물 이있는논항, 물리적도구 를나타내는
논항. (3) 물리적도구 가아니더라도 이용하다 를대입하여, 문장이어색하지않을경우. 예) 하얀천으로 (ARGM-CAU) 상자를덮었다. 3.3 한국어특화기준 한국어에서서술적인성격을갖거나공동격등기준이 영어와다른경우에대해서다음과같이기준을정하였 다. 서술격조사 - 이다 : 일괄적으로서술어로인정하지않을뿐더러, 논항으 로도인정하지않음 공동격조사 와/ 과, ~ 나, 또는, 이나 등으로연결 된어절 : 동반격에해당하는조사로연결된어절은실제구 문분석결과가연결(NP_CNJ 등) 된것만태깅함 :, 등으로연결된경우는의미역을설정하지않음 따옴나괄호안에서문장을이룰때 : 따옴안의술어에대해따옴를벗어나지않는범위에서태깅한다 : 따옴안의문장이바깥문장에의미역으로잡힐때따옴안문장의마지막어절에의미역을태깅 하다 동사의구분 : 이름지어부르다 라는의미의 ' 하다' 는하.02 (say) 로태깅 예) 저 꽃은 (ARG1) 금강초롱이라고 (ARG2) 한다. 4. : 특정한대상을어떤특성이나자격을가지는것으로만들거나삼다 는하.3(regard) 로태깅예) 먼친척아이를(ARG1) 양자로(ARG2) 하다. 의미역말뭉치구축 구문분석, 의미역인식에대한언어분석정답을제공한다 [8]. 포맷은 JSON 포맷으로제공되고, 이중에서의미역에해당하는부분은4 와같다.... "SRL" : [{ }],... 4. ExoBrain 언어분석결과중의미역예 "verb": " 태어나", "sense": 1, "word_id": 3,... "argument": [ ] {"type": "ARG2","word_id": 2,"text": " 사이에서",...}, {"type": "ARG1","word_id": 4, "text": " 새끼",...} ExoBrain 언어분석말뭉치는언어분석기술개발을위한학습용으로는그양이많지는않으나, 동일문장에대해서형태소분석부터개체명인식, 구문분석, 의미역인식까지의언어분석정답을포함하고있기때문에, 세부언어분석기술뿐아니라전체언어분석파이프라인을평가하기위한용도로활용이가능할것이다. 이러한말뭉치를사용하여의미역을태깅하기위하여반자동태깅툴을개발하였다. ETRI에서개발한의미역인식기[9] 를이용하여태깅대상문장( 문서) 에자동으로의미역을인식한결과를그림 1과같은편집화면에서수작업으로편집을하며, 각각의기능은아래와같다. 1 FrameSet 조회/ 선택/ 추가 2, 3 Link 를추가/ 삭제기능 4 구문분석편집기능 5 서술어의편집기능.FrameSet 과연동 6 술어와의 Role 을추가/ 편집기능 7, 8 기존/ 신규저장기능 의미역을태깅한말뭉치는질의응답 (Question Answering) 시스템개발을위하여구축된말뭉치로, 퀴즈질문문서및그정답단락문서의쌍으로구성되어있다. ( 각질문및정답단락은복수의문장으로구성될수있으며, 각질문및정답단락별로별도의문서로구성된다.) ExoBrain 언어분석말뭉치의세부적인통계정보는3 과같다. 3. ExoBrain 언어분석말뭉치통계 질문 정답단락 총계 문서수 117 322 439 문장수 182 542 724 어절수 2,004 6,527 8,531 ExoBrain 언어분석말뭉치는형태소분석, 개체명인식, 그림 1 의미역반자동툴: 편집화면
이외에도자동으로분석한결과와수작업태깅된결과를그림2 와같이한화면에배치하여, 오류분석및태깅말뭉치에대한검증을보다효율적으로할수있는기능을갖췄다. IEICE Transaction Information and System, Vol.E86-D,No.8, 2003 [4] 김윤정, 옥철영, 한국어서술어와논항들사이의의미역, 제26회한글및한국어정보처리학술대회논문집, pp.143-148, 2014. [5] M. Palmer, D.Gildea and P. Kingsbury, The proposition bank: An annotated corpus of semantic roles, Computational Linguistics 31(1), 2005. [6] M.Palmer et al., Korean Propbank, Linguistic Data Consortium, Philadelphia, 2006. [7] http://exobrain.re.kr/onedintro [8] 최미란, " 형태소태깅말뭉치작성용품사태그세트," TTAK.KO-11.0010/R, 2015 [9] 임수종, 김현기, 의미정보를이용한한국어의미역인식연구,, 제27회한글및한국어정보처리학술대회논문집, 2015. 그림 2 의미역반자동툴: 자동/ 수동결과비교화면 5. 결론 본논문에서는한국어의미역에대한서로다른정의가존재하였으나, 세계적으로널리쓰이고있는 PropBank 의미역을기반으로하여한국어에특성을고려하여의미역을수정하고, 태깅가이드라인을제시하였다. 이를준수하여 ExoBrain 과제에서질의응답시스템인 WiseQA를개발및평가를하기위해구축한질문및정답후보문장으로구성된평가셋에반자동태깅툴을이용하여한국어의미역이태깅된학습데이터를구축하였다. 구축하는과정에서태깅가이드라인불분명하거나추가적으로필요한의미역에대해서는반영이필요하다. 감사의글 이논문은 2015 년도정부( 미래창조과학부) 의재원으로정보통신기술진흥센터의지원을받아수행된연구임 (No.R0101-15-0062, 휴먼지식증강서비스를위한지능진화형 WiseQA 플랫폼기술개발) 참고문헌 [1] 이성범, 언어와의미, 태학사, 1999년 [2] Myung-Chul Shin, Integration of Case-Frame Dictionary into Machine Learning Techniques for Semantic Role Assignment of Korean Adverbial Cases,, MS Thesis, Pohang University of Science and Technology, 2006 [3] S.B. Park, Decision Tree Based Disambiguiation of Semantic Roles for Korean Adverbial Postposition,