한국어용언위계구조자동구축 * 1) 송상헌 최재웅 * (Univ. of Washington 고려대학교 ) Sanghoun Song Jae-Woong Choe, 2012. Automatic Construction of Verbal Type Hierarchy for Korean. Language and Linguistics 54, 201-238. This paper discusses an automatic way to derive a type hierarchy for verbal items in Korean based on their subcategorization. There are three steps: First, all the dependent categories of the each verb are extracted from the Sejong Treebank. Second, based on the frequency of the dependent categories of each verb, the most stable subcategorization frames are selected, and two statistical measures are tested with some variations in their cutoff values. The resulting subcategorization frames are then compared with those from the Sejong Electronic dictionary for evaluation. The final step is to form a type hierarchy for Korean verbal items, based on the chosen subcategorization information. Keywords : subcategorization, Korean, Sejong Treebank, dependency relations, statistical test, Jaccard coefficient, HPSG, clustering, type hierarchy, automatic construction 주제어 : 하위범주화, 세종구문분석말뭉치, 의존관계, 통계적검증, Jaccard 계수, 군집화, 유형위계구조 * 본연구는 Automatic Construction of Korean Verbal Type Hierarchy using Treebank 이라는제목으로 The 15th International Conference on Head-Driven Phrase Structure Grammar(HPSG08, 2008 년 7 월, Keihanna, Japan) 에서발표된것을발전시킨것으로, 전과정을재분석하였다. 특히통계식의적용및임계치의설정과관련된부분은새롭게구성되었다. 연구초기부터관심을가지고조언을아끼지않은김종복선생님과 2008 년당시발표장에서귀중한지적을해준 Hans Uszkoreit, Dan Flickinger, Laurie Poulson, Bart Cramer 등여러선생님들, 그리고심사의과정에서좋은지적을해준심사위원들께깊은감사를드린다. 이논문은 2010 년정부 ( 교육인적자원부 ) 의재원으로한국연구재단의지원을받아수행된연구임 (NRF-2010-327-A00212). ** 교신저자
202 언어와언어학제 54 집 1. 서론 전산언어학의주요쟁점중의하나는개별언어별로방대한양의어휘정보를어떻게획득하느냐하는문제다. 기존사전의정보를적절하게가공하여사용하던단계를지나현재는대규모말뭉치로부터통사-의미정보를직접자동으로추출하려는시도가많이이루어지고있다 (Brent, 1993; Utsuro et al., 1998; Sarkar and Zeman, 2000; Korhonen et al., 2000; Gamallo, 2001; Chesley and Salmon-Alt, 2006). 이와같은어휘정보의자동추출은해당언어의모국어화자가어휘를습득하는방식과개념적으로다르지않을것이라는전제에서출발한다. 문장의구성을이해하는데는해당문장의술어가지니는하위범주화정보가가장중요하다는점에는이견이없다. 언어이론상으로도그러하고, 또한언어처리의관점에서도마찬가지다. 예컨대아래에서보이는바와같이영어에서 want 와 hope 는서로비슷한의미적속성을지님에도불구하고, 그들이취할수있는문형은각기다르다 (Brent, 1993:243). (1) a. John wants Mary to be happy. b. John hopes that Mary is happy. c. *John wants that Mary is happy. d. *John hopes Mary to be happy. 따라서이러한하위범주화정보를어떻게획득하느냐하는것은전산언어학내에서도어휘정보습득과관련한핵심주제중하나가된다. 이러한맥락에서본연구가관심을가지는바는한국어용언의논항관계및위계구조를어떻게하면 (i) 효율적이면서도 (ii) 포괄적으로그리고동시에 (iii) 객관적인방법으로구축하여, 그 (iv) 활용가능성을극대화할수있을것인가이다. 전체연구는세가지하위단계로구성이된다. 첫번째단계는말뭉치에서하위범주화의후보군을모두뽑아내는 (i) 의존소추출이다 (3절). 두번째단계는추출된의존소가운데실제주어진용언의논항으로판단되는집합만을통계적으로걸러내는 (ii) 하위범주화선별에 1) 해당한다 (4절). 끝으로세
한국어용언위계구조자동구축 203 번째단계는 (iii) 위계구조군집화이며, 이는각각의용언에대하여확립된논항구조를군집화하여얻어진전체용언의위계구조를말한다 (5절). 이어지는 2절에서는본연구의배경에대한개괄적인소개와함께하위범주와추출및위계구조구성의대상이되는어휘군의선정절차가논의될것이다. 3절은수형도기반접근법을제시하며, 관련된주요이슈들에대해서살펴본다. 여기에서는현재가용한가장큰규모의통사분석말뭉치인세종구문분석말뭉치를논항추출의주대상으로활용한다. 4절은통계적기법을통해논항구조를확정하는과정에대해살펴볼것이다. 구체적으로는 Jaccard 계수와이항가설검증에기초한통계식을활용하여도출된결과를세종전자사전과교차비교를통해평가할것이다. 5절에서는구성된논항관계에입각하여 Head-driven Phrase Structure Grammar(=HPSG; Sag et al., 2003) 기반의용언위계구조를구축하는과정이제시될것이다. 끝으로 6절은본연구가지니는의의를짚어보고, 추후과제를떠올려본다. 2. 연구의토대 서론에서언급하였듯이본연구는기존사전에대한의존도를최소한으로줄인전산모형을큰방향으로설정하고있다. 2) 그러한방향속에서한국어용언위계구조를도출하는것이본연구의목표다. 단계별로그러한목표가어떻게달성될수있는지세밀하게보이기전에우선본절에서는연구의방법, 구성, 연구의자원및대상등본연구의토대와관련한보다구체적인사항들을논하기로한다. 1) 본고에서는 하위범주화틀 이라는용어와 논항구조 라는용어가사실상같은것을지칭하는것으로사용되었다. 언어이론적인측면에서양자사이의보다세밀한구분이가능하겠으나, 실제시스템을구현하여전산적으로표상을하는것을목적으로한본연구에서는양자의엄정한구분이요구되지않는다. 2) 자연어처리의모형을크게대별하자면, 하나의축은기계 - 가독형사전과같은언어지식에크게의존하는모형 (knowledge-rich) 일것이고다른하나는언어지식에대한의존도를줄인모형 (knowledge-poor) 이다 (Gamallo et al., 2001). 본연구는구문분석말뭉치를활용한다는점에서는전자처럼보이나, 사전처럼정제된자원을사용하지않는다는점에서후자에가깝다.
204 언어와언어학제 54 집 2.1. 연구의방법 한국어의각용언이어떠한논항구조를지니고있는가를포괄적인차원에서검토를하고이들사이의관계를파악하는일은이론언어학자체에서도중요한부분이다. 동사성어휘의논항구조및그변이현상을바탕으로하여그위계를설정한연구로는 Levin(1993) 을들수있다. 그연구는영어의주요동사를대상으로한것으로각어휘에서투사되는통사구조를하나씩분류하고이를유형화한것이다. 마찬가지로한국어에서이에해당하는자원으로서는 1998년부터 2007년까지 10년간의연구결과를통해구축된세종전자사전을들수있다. 이러한기존의연구가논항구조에입각한동사성어휘의위계를설정하는데중요한성과를거둔것은사실이나, 이를실제자연어처리시스템에곧바로적용하기에는몇가지문제가따른다. 아래와같은네가지면에서의한계를지적할수있다. 활용가능성 : 최근의자연어처리는빈도등의정보에입각한통계적수치에크고작은의존을하고있는관계로, 실제의각어휘가가지는논항구조의분포에대한계량적연구가요구된다. 시스템구축의차원에서는통사및의미단계의정리와함께, 빈도등과같은분포적특질에대한통계정보가필요하기때문이다. 예컨대, 통계기반구문분석 또는 통사정보에기반한통계적기계번역 등의최근자연어처리모형은이와같은통사구조에계량적연구에입각하고있다. 이는실제의대규모언어자원을활용하지않고서는성취하기가어려운목표다. 포괄성 : 실제시스템은각매개언어의다양한현상을반영하여처리결과를내어야한다는점에서, 제한된수의어휘를대상으로진행한연구결과는필연적인한계를보인다. 즉, 매개언어의동사성어휘전반을대상으로하여포괄적인연구결과가밑받침되어야실제자연어처리시스템의성능향상을도모할수있다. 뿐만아니라자연어의어휘는폭넓은변이현상을보이는바, 각어휘사이의관계성을포착하기가쉽지않다는점도한계로지적될수있다. 한국어에사용
한국어용언위계구조자동구축 205 되는모든용언의통사및의미관계를유형화하고이를위계구조로정리한연구는그성과가아직뚜렷하지않은측면이존재한다. 객관성 : 기존사전의경우, 연구자의직관의차이에따른기술상의불일치가얼마든존재할수있다. 예컨대, 연세한국어사전에서는이른바 tough 동사군에해당하는 어렵다 의논항구조를아래 (2) 와같이 <NP(nom)>, <NP(nom), NP(nom)>, 그리고 <S(nom)> 의세가지로설정하고있다. (2) a. 언어학이어렵다. b. 내가공부가어렵다. c. 언어학을공부하기가어렵다. 반면, 세종전자사전에서는동일한어휘 어렵다 에대해총여섯개의논항구조를설정하고있다. 이양자의입장가운데어느한쪽이더타당성을지니는가를밝히는것은이론언어학차원에서중요하게논의될만한것이나, 보다객관화된방법론의도입역시매우중요한연구방향이라할수있다. 효율성 : 기존의연구방식은그구축에따르는시간과비용그리고노력이지나치게많이요구된다는점에서효율성에문제가많다. 최소한수년이상, 적지않은인력의집중적인투자가있기전에는그소기의성과를기대하기어렵다. 실제로앞서언급한 Levin(1993) 및세종전자사전의경우만보아도용언위계가상당한고비용자원임을알수있다. 본연구는앞서언급된한계점을극복하기위한방향으로의연구로, 기존연구와의차별성을보이기위하여다음과같은방법론에입각하고자한다. 첫째, 구축에소요되는시간과비용을최소화하는차원에서전체연구과정을최대한 (i) 자동화하는것을기본골자로한다. 이는한편으로 annotate automatically, correct manually 라는입증된방법론과맥락을함께한다 (Marcus et al., 1993). 둘째로실제 (ii) 언어자원을활용하는것을중요한
206 언어와언어학제 54 집 목표로상정한다. 따라서본연구의결과가되는위계구조에는그통사적및의미적분포특질에대한계량적정보가함께부착될것이다. 셋째로단순히용언구조를도출하는것에끝나지않고이를 (iii) 군집화하여전체용언의위계구조를밝힐것이다. 위계구조는 HPSG의이론적틀에따라구축한다. 2.2. 연구의구성 말뭉치에서유의미한언어정보를자동습득해내는연구는일반적으로 Gamallo et al.(2001) 에서제시된아래의구성을따른다. (3) a. 분석 (parsing): 해당언어자원을처리하여연구의목적에맞도록태그 ( 품사표지, 구문표지, 의미표지등 ) 를부착하는과정 b. 추출 (extracting): 분석된언어자원에서관심의대상이되는언어정보를일관된방식으로뽑아내는과정 c. 선별 (filtering): 추출된자료를대상으로하여이가운데통계적으로유의미한것만을선택하여자료를정제하는과정 d. 군집화 (clustering): 도출된자료를추상화또는유형화하여, 이를세부단위로나누는과정 본연구의경우이미분석된자료에서연구를시작할계획이므로, 위의네단계가운데첫번째인분석은논외가될것이다. 따라서본고의전체연구는세개의하위단계로구성된다. 1단계는추출에해당하는것으로실제언어자원에서논항으로파악될수있는모든후보군을도출한다. 2단계는선별에해당하며, 이도출된후보를대상으로하여통계적모형을활용하여유의미한집합을걸러낸다. 끝으로 3단계는확립된논항구조를바탕으로이를군집화하여그관계를위계화하는것이다.
한국어용언위계구조자동구축 207 2.3. 연구의자원 본연구에활용되는자원은 3) 두가지차원에서나누어살필수있다. 첫번째는활용되는목적에따라구분되는것으로, (i-a) 구축을목적으로한자원인가아니면 (i-b) 평가를위해쓰이는자원인가하는점이다. 두번째는자원의성격에따른것으로, (ii-a) 자료적성격을띠는것인가아니면 (ii-b) 도구에해당하는가의구분이다. 이에따라본연구에활용되는자원을정리하면아래표와같다. 구축 (i-a) 평가 (i-b) 자료 (ii-a) 세종구문분석말뭉치 세종전자사전 도구 (ii-b) Xavier ver. 2.0 < 표 1> 연구의자원 먼저본연구의모든결과는세종구문분석말뭉치에서추출된언어적정보를기반으로한다. 어휘습득연구에서사용되는정보추출의대상이되는 개발용말뭉치 (development corpus) 가필수적인데, 당연히정밀하게주석처리가된말뭉치를활용하는것이보다나은결과를산출할것이다. 4) 현재이용가능한한국어구문분석말뭉치에는두가지종류가있다. 하나는펜실베니아대학에서구축한 Penn Korean Treebank( 약 30만어절규모 ) 이며, 다른하나는 21세기세종계획의일환으로구축된세종구문분석말뭉치 ( 약 80만어절규 3) 세종구문분석말뭉치와세종전자사전에대한정보및자료의입수는아래홈페이지참조. http://www.sejong.or.kr 4) 물론주석처리가되지않은원시말뭉치 (raw text) 를사용하여도원하는결과를일정정도얻을수있다 (Manning, 1993). 그러나이경우에도대체로주어진원시말뭉치를바로활용하기보다는 1 차분석된결과를바탕으로연구를수행하는것이일반적이다. 예컨대, Gamallo et al. (2001) 은품사태깅과부분구문분석을거쳐파악된의존관계에서정보수렴을시작하며, Erk(2007) 는 BNC 를대상으로하여, 구문분석기를통해처리된결과를바탕으로어휘정보를추출하였다. 즉, 정보추출을위해서는원시말뭉치를어떠한형식으로든선처리하는과정이요구된다. 그러나품사부착기나구문분석기의성능이완벽한것이아니며, 세종구문분석말뭉치와같이충분한양의심층분석자료가존재하는경우굳이원시말뭉치를분석하는과정을거칠필요가없다.
208 언어와언어학제 54 집 모 ) 이다. 양자는크게세가지점에서차이는보이는데, 우선세종구문분석말뭉치는균형말뭉치로서의성격을보여다양한장르의텍스트를대상으로하였다. 반면, Penn Korean Treebank 는군사교본과뉴스기사로그대상이한정되어있다. 두번째로 Penn Korean Treebank 는공범주를그기술의과정에포함시킨반면, 세종구문분석말뭉치에서는공범주표지가존재하지않는다. 세번째로사격 (oblique) 명사구 5) 를논항으로인정할것인가에있어서뚜렷한차이가있다. 세종구문분석말뭉치는논항의인정범위에대해비교적엄격한반면, Penn Korean Treebank 는다양한사격논항을포함하고있다. 본연구에서세종구문분석말뭉치를기본자원으로선택한이유는우선규모에서세종구문분석말뭉치가더크다는점이다. 한국어용언의논항구조를종합적차원에서논의하고자하는본연구의특성상, 양의차이는무시할수없는요소이기때문이다. 또한선택적인장르특성역시결과의왜곡을초래할수있는바, 포괄적성격의연구에는세종구문분석말뭉치가보다적합하다. 실제로 Roland and Jurafsky(1998) 는어떠한특성의자료를일반화말뭉치로선택하느냐가검출된하위범주화의출현빈도에적지않은영향을준다는사실을입증하였는데, 한국어를보다더대표할수있도록균형말뭉치를활용하는것이바람직하다하겠다. 6) 다음으로이세종구문분석말뭉치에접근하여원하는정보를취합하기위한도구로는 Xavier 모듈이사용된다 (Song and Jeon, 2008). Xavier 모듈은세종구문분석말뭉치에서사용자가원하는정보를빠르고단순하게추출할수있도록구성된프로그램패키지로서용례검색, 빈도추출, 문맥자유문법추론, 의존소추출, 하위범주화구성등의기능을지니고있다. 끝으로평가를위한비교의대상이필요하다. 4절에서는하위범주화가얼마나설명력있게구성되었는지를판단하기위한내부평가의용도로세종전자사전이사용될것이다. 세종전자사전의각정보는세종구문분석말뭉치와는별도로구축된것이다. 즉, 세종구문분석말뭉치가실제텍스트에서기초자료를 5) 본고애서사격명사구는주격표지 (NP_SBJ) 또는목적격표지 (NP_OBJ) 를달지않은모든명사구를말한다. 세종구문분석말뭉치에서사격명사구는통상 NP_AJT 로표지되어있다. 6) 그러나이러한판단이특정말뭉치가더우월하다는주장과는무관하다. 어떠한말뭉치도나름의장점과단점을가지기마련이고, 일반화말뭉치의선택은철저히연구의목적에따라결정되는것이기때문이다.
한국어용언위계구조자동구축 209 취한반면, 세종전자사전에망라된정보는말뭉치를참조하되기본적으로연구자의직관에따라구축된것이다. 특히세종전자사전은각용언의격틀정보를연구자의수작업을통해망라하고있는데, 이정보를통계적인처리과정을통해얻어진결과와교차비교를하면전산적으로자동추출된결과와연구자의직관에근거확립된결과가상호어느정도의합치점을보이는가를살필수있다. 하향식 (top-down) 으로구성된세종전자사전의격틀정보와상향식 (bottom-up) 방법에따른본고의결과는흥미로운비교거리가될것이다. 2.4. 연구의대상 어휘군선정과관련하여, 본연구에서는세종구문분석말뭉치에서 1회이상출현하는용언 5,370 개를분석의대상으로하며, 그것은동사, 형용사는물론서술성명사까지포함하는것이다. 우선일반적인동사와형용사는각기형태표지 VV 와 VA 를달고있는어휘가그대상이될것이다. 반면에서술성명사의경우에는목록선정이비교적단순하지가않은데, 7) 본연구에서는아래의두가지원칙에의거하여그에해당되는어휘군만을대상집합에포함시켰다. 첫째로서술성명사에부착되는경동사는 하다 만을인정하였다. 즉, 되다, 받다, 당하다 류의피동형경동사와 스럽다 등의경동사가제외된것인데, 이들경동사는논항교체와관련되기때문이다. 교체된논항관계를주어진구문분석말뭉치에서거꾸로복원하는일은현재의시스템에서상당히어렵거나혹은불가능하기때문에 하다 이외경동사는논의에포함시키지않았다. 두번째로 [ 명사군 + 을 / 를하다 ] 의형태는제외하고, 일반명사 (NNG) 또는어근명사 (XR) 가한단어안에서경동사 하다 (XSV) 와결합하는경우만서술성명사로인정하였다. 이러한판단의근거는실제자료의분포를보면 [ 명사군 + 을 / 를하다 ] 의구조가 [ 명사군 + 하다 ] 와완전히동일하다고보기어려운반례들이상당수존재하기때문이다. 8) 실제말뭉치에서취한아래예시들을살펴보자. 7) 기본적으로이론적차원에서서술성명사의경계를인정하는기준에아직충분한합의가이루어지지않았다고보기때문이다. 8) 채희락 (1996) 에서는이론적차원에서이와유사한입장을제시하고있다. 즉, 서술성명사가 하다 와한단어로구현된것과 [ 명사군 + 을 / 를하다 ] 가통사적으로결합된것의언어적구조가완전히동일하지는않다는것이다.
210 언어와언어학제 54 집 (4) a. 모든토끼는이월토와사랑의작업을하고 b. 적진지에대한공격을빨리하도록 위 (4a) 에서 하다 는명사 작업 과결합을하고있으나, 작업 은동시에 사랑 과결합하여하나의명사구를이루고있다. 이때 월토 가 사랑 과관련되는항목이라면, -와사랑하다 의측면에서논항으로간주될수있지만, 작업 과관련되는항목이라면그것은부가어로간주하는것이더타당하다. 즉, 여기에서 [[ 사랑의작업 ] 을하고 ] 또는 [ 사랑의 [ 작업을하고 ]] 와같은괄호묶기문제가발생하는것이다. 더군다나, 이때 작업을하고 가 작업하다 와동일한구조를지닌다고가정하면, 사랑의작업하고 의형태도가능해야할것이나우리의직관이비추어타당치않다. 한편, (4b) 와같이 [ 명사군 + 을 / 를 ] 과 하다 사이에부사어등의다른단어가삽입된예시도종종관찰되는데이역시 공격하다 등의구조와동등하다고볼수없는부분이다. 결론적으로 [ 명사군 + 하다 ] 의형태만을경동사가결합된서술성명사구로인정하며, [ 명사군 + 을 / 를하다 ] 에서 하다 는중동사의일종으로간주한다. 이하에서서술성명사는 작업하 /VV, 공격하 /VV 와같은 [ 명사 + 하다 ] 의단어형태로 VV 또는 VA 에포함되는것으로가정한다. 3. 의존소추출 본절에서는우선세종구문분석말뭉치로부터의존소를추출하는절차를핵심알고리즘중심으로소개하고, 이어서그러는과정에서제기되는문제점및한계를논한뒤에, 마지막으로 어렵 /VA- 과 놓 /VV- 을예시로하여실제추출된자료의한단면을소개하기로한다.
한국어용언위계구조자동구축 211 3.1. 구현 9) 최초의단계는구문분석말뭉치를처리하기위한파스트리 (Parse-Tree) 알고리즘을구축하는것이다. 10)11) 파스트리자료구조는부모절점 (Mother Node) 과좌측및우측딸절점 (Left Daughter Node / Right Daughter Node) 으로구성된다. 아래그림은전형적인파스트리구조를보여주고있다. < 그림 1> 파스트리의예시 최상위절점 S 는좌측딸절점 AP 와우측딸절점 S 를지니며, 다시두번째 S 절점은좌측딸절점 NP_SBJ 와우측딸절점 VP 를지닌다. 다시말해, 모든절점이최상위절점에계층적으로연결되는이분지구조가파스트리자료구조이며, 그알고리즘은아래 (5) 와같다. 12) 1: parse_tree(n): 2: n left = n right = n parent = NIL 3: if n is not a terminal node: 4: n right = pop() 9) 본절에서논하는알고리즘및관련문제점에대한상세한논의는 Song and Choe(2008) 참고. 10) 세종구문분석말뭉치가 X-bar 이론에근거, 완전한이분지구조로이루어져있음을반영하였다. 11) 본고에서는자료구조상의용어선택과관련하여가급적한국어대역어를사용하였다. 예컨대, 노드 (Node) 는절점으로, 이진트리 (Binary Tree) 는이분지구조로, 루트노드 (Root Node) 는최상위절점으로기술하였다. 이는전산적배경지식이많지않는독자들도고려한차원에서선택한것이다. 따라서한심사위원의지적대로전산학분야에서일반적으로사용하는용어와는약간의차이가있음을밝힌다. 12) 전체알고리즘과처리모형은 Song and Jeon(2008) 및 Song and Choe(2008) 참조.
212 언어와언어학제 54 집 5: n left = pop() 6: if n left is NIL: 7: n left = n right 8: n right = NIL 9: n left parent = n right parent = n 10: push(n) 어떠한새로운절점 n이출현한경우 (1행), 우선그절점의좌측, 우측, 및부모절점은 null 값을할당받는다 (2행). 다음으로그절점이단말절점 ( 어휘항 ) 이아니면 (3행), 우측및좌측절점은스택에저장된값을차례로할당받게된다 (4,5행 ). 최종단절점의경우좌측딸절점만을가지기때문에이경우 (6 행 ), 우측딸절점에다시 null 값이할당된다 (7,8행). 현재의절점은좌측딸절점과우측딸절점의부모절점으로명시되고 (9행), 이제까지처리된절점은다른절점과의추가적인결합을위해스택에저장된다 (10행). 위알고리즘을토대로하여본연구의 1단계에서는대상이되는 5,370 개용언이세종구문분석말뭉치에서가지는의존소를모두추출하였으며, 추출된의존관계의수는총 104,442 개다. 이것은곧총토큰의수이다. 반면전체의존관계유형의가짓수, 다시말해타입의수는 103개다. 결과적으로토큰 / 타입비율은약 1,014 가된다. 3.2. 문제점 본연구에서는표층에서의실현을최대한존중하여각동사성어휘와의존관계를지닌모든범주를추출하는것을기본적인출발점으로삼는다. 그러나이러한말뭉치기반구축방법론역시문제점이없는것은아니다. 대표적으로세종구문분석말뭉치역시 (i) 논항의인정범위가제한적이고 (ii) 공범주가없다는점에서그자체로논항관계를완전히보여주고있다고는할수없다. 13) 13) 이이외에도언어자료의특성상전산적인일괄처리를완전히보장할수없는현상들이존재한다. 대표적인것으로장거리의존문제와동음이의어의구별을들수있다. 이러한예외항목들에대한고려는추후연구로미루고자한다.
한국어용언위계구조자동구축 213 먼저논항의인정범위문제를생각해보자. 한국어에서논항과부가어를판별하는여러검증도구가제시되어있기는하지만 (Chae, 2000; 김영희, 2004), 양자의경계가항상명확한것은아니다. 본연구에서는통계적검증모형을도입하여논항과부가어의모호한경계면을해결하기위한방안으로사용한다. 본고는논항과부가어의구분이범주적일수없다는 Choi(2010) 과기본적인입장을함께한다. 즉, 양자를이분법적으로명확히구분하는것은자연언어의특성상불가능하며, 다만이들의관계를정도의문제로파악하는것이더타당할수있다는관점을취한다. 이러한견지에서, 논항의선택은가부의문제가아니라통계적으로유의미성을추론할수있는대상으로규정된다. 다른한편으로공범주의문제가있다. 예컨대관계절과피동구문은하위범주화를말뭉치에서추출하는절차에다소난제로작용한다. 관계절의경우논항가운데하나가그절의밖에서실현될수있으며, 피동구문의경우논항이교체되어실현될뿐만아니라논항의개수가하나줄어드는경우가빈번하다. 세종구문분석말뭉치에서는이들의원형정보에대한주석처리가별도로존재하지않는다. 결국현재로서는처리의중간과정에서이들을복원할수있는기제가불분명한까닭에전처리를통해이들구문을제외하였다. 관계절의경우그최대절점이 VP_MOD 또는 S_MOD로태깅되어있기때문에해당절점이하의구조를무시하는방법을택하였다. 피동구문의경우, 어떠한용언이피동보조용언 지다 와결합하거나서술성명사가피동형경동사 되다, 받다, 당하다 와결합을하는경우이들의의존소를추출하지않도록하였다. 단, 세종말뭉치는 이, 히, 리, 기 와같은피동접사를파생접사로간주하기때문에, 접미피동사는애초에 먹히 /VV, 뚫리 /VV, 잘리 /VV 와같은형태로주석처리되어있다. 따라서이들은일반적인자동사와마찬가지로처리하였다. 3.3. 예시 : 어렵 (VA)-, 놓 (VV)- 추출된의존소목록을살펴보면형용사 어렵다 의경우 19개의논항관계유형이검출되며, 그전체토큰수는 195개에달한다. 동사 놓다 는마찬가지로 14개의논항관계유형을보이며, 전체출현빈도는 170회이다. 각각의대표적인실례를살펴보면아래와같다. (6-7) 에서각논항구조우측의숫자는해당
214 언어와언어학제 54 집 빈도및비율을말한다. (6) 어렵 /VA a. <VP(nom)> 86 (44.10%) b. <NP(nom)> 51 (26.15%) c. <S(nom)> 11 (5.64%) d. <VP(nom), NP(dat)> 10 (5.13%) e. <VP(nom), NP(dir)> 7 (3.59%) f. <NP(nom), NP(dat)> 5 (2.56%) (7) 놓 /VV a. <NP(nom), NP(acc)> 94 (55.29%) b. <NP(nom), NP(acc), NP(dat)> 38 (22.35%) c. <NP(nom), NP(acc), NP(loc)> 9 (5.29%) d. <NP(nom), NP(loc)> 8 (4.70%) e. <NP(nom), NP(acc), NP(dir)> 7 (4.11%) f. <NP(nom)> 3 (1.76%) 먼저 (6) 의 어렵다 의경우 (6a-d) 의구조는차례로아래와같은예문을상정해볼수있다. (8) a. 언어학을공부하기가어렵다. b. 언어학이어렵다. c. 내가언어학을공부하기가어렵다. d. 언어학이나에게어렵다. 직관에비추어이들각각은논항이라고판별을하여도크게무리가없을듯하지만, 다른한편으로 (6e) 에해당하는구문, 다시말해 NP(dir) 를필수요소
한국어용언위계구조자동구축 215 로취하는구문은쉽게찾을수없다는문제점이발생한다. 이때의 NP(dir) 는언어자원에서부가어로사용된것으로볼수있다. 14) (7) 의 놓다 예에서는예상하는바와같이 NP(loc) 가동시에출현하는구문이어느정도검색되었다. 한편으로유의하여볼것은 놓다 가타동사임에도불구하고 (7d) 와 (7f) 에 NP(acc) 에해당하는논항이결여되어있다는점이다. 이러한점은앞서설명한공범주의문제에해당한다. 4. 하위범주화선별 하위범주화정보가구문분석의성능향상에크게도움이된다는점은실제그동안여러실험을통해서도입증되어왔다 (Briscoe and Carroll, 1997; Carroll et al., 1998). 또한실제의말뭉치에서추출한정보로편성된하위범주화정보를활용하는것이단순히기계-가독형사전에의존하는구문분석보다좋은성능을보인다는점역시실험을통해입증된사실이다 (Manning 1993). 한편으로하위범주화정보는구문분석기의종류에구애받지않고거의모든시스템에긍정적인기여를한다는것역시실험으로확인되었다. 예컨대, 통계기반구문분석기는물론, HPSG 기반구문분석기와같이특정언어이론에입각한규칙기반구문분석에서도그실효성은이미증명된바있다 (Carroll and Fang, 2005). 다른한편으로언어의유형을막론하고하위범주화는실제구문분석시스템에상당한기여를한다는점이증명되었는데, 대표적으로영어 (Brent, 1993; Manning, 1993; Korhonen et al., 2000), 프랑스어 (Chesley and Salmon-Alt, 2006), 체코어 (Sarkar and Zeman, 2000), 일본어 (Utsuro et al., 1998) 등이있다. 정리하자면하위범주화정보를말뭉치에서자동습득하여활용하는것은단기간내에구문분석기의성능향상을도모할수있는가장안정적인방법론이라할수있다. 하위범주화자동구성에관련하여, 위에서열거된모든선행연구는크게두가지측면에주안점을두고있다. 하나는통계적선별 (statistical filtering) 을위하여어떠한통계식을사용할것인가의문제이다. 다른하나는각통계식을 14) 실제세종자료에등장하는예로는 그것은현실적으로어려웠다 등이있다.
216 언어와언어학제 54 집 이용할때확정범위를결정하는임계치 (cutoff-value) 또는유의수준 (confidence level) 을어떻게설정할것이냐의문제이다. 기존연구에서사용된통계식은크게 Log Likelihood Ratio, T-score, 이항가설검증, 상대빈도, Jaccard 계수등이다. 이가운데거의공통적으로좋은성적을보인다고평가받는것은이항가설검증 (Binominal Hypothesis Testing) 인데, 연구에따라크고작은차이는있으나대략 80% 내외의정확도 (precision) 을보이는것으로보고되고있다. 15) 그러나다른언어에서이이항가설검증을적용하여좋은성능을보였다고해서한국어에서도마찬가지로최적의성능을보인다는보장은할수없다. 앞서설명한바와같이한국어는여타언어와구별되는그나름의형태-통사적특성을지니기때문이다. 실제로이항가설검증을적용하여성공적인결과를거둔사례연구는대개인구어에속한다. 반면 Tsunakawa and Kaji(2010) 은일본어를대상으로 Jaccard 계수가여타의통계식보다좋은결과를낸다는점을실험으로입증하였으며이때의정확도는약 40% 의선으로나왔다. Tsunakawa and Kaji(2010) 은하위범주화자체를대상으로한다기보다는기계번역의대역어를찾는차원의연구에가깝기는하지만, 그기본적용모형이유사하다는점에서시사하는바가있다. 특히한국어와형태-통사적특성이유사한일본어에적용된결과라는점에서적극고려해볼가치가있다. 한편임계치에대한결정은절대적인정답이존재하지않으며통상대개의경우실제실험및평가를통하여어떠한임계치를사용하는것이가장결과를잘내는가를비교한뒤그에따라선정을하는것이일반적인방법이다. 즉, 다양한처리를통해경험적으로최적의수치가설정된다. 이러한점을반영하여본고에서는통계식으로이항가설검증과 Jaccard 계수를사용하여그결과를비교할것이다. 임계치설정은각통계식에대하여선행연구에서주로사용한값을차용하여역시그결과를비교할것이다. 비교평가는다시두가지차원에서진행되는데, 하나는 얼마나정확한가 (precision) 의문제이며다른하나는 얼마나빠짐없이도출되는가 (recall) 의문제이다. 15) 기존연구의성능비교는 Sarkar and Zeman(2000), Chesley and Salmon-Alt(2006) 등을참조.
한국어용언위계구조자동구축 217 4.1. 통계적검증모형 먼저이항가설검증은아래와같은통계식에의거하여계산된다 (Sarkar and Zeman, 2000). 위식에서, 는어떠한하위범주화틀이그동사에사용되긴하였지만그것이해당동사의하위범주화로보기어려운경우의확률값을말한다. n은어떤동사가말뭉치에출현한총횟수이며, m은그동사가해당논항관계로실현된횟수를의미한다. 이렇게하면어떤동사가어떤하위범주화틀 f에대하여취하는값을구할수있는데, 이값이임계치보다작으면그하위범주화틀 f는해당동사와유의미한상관관계를가지는것으로파악한다. 다음으로 Jaccard 계수는보다단순하여다음수식으로연산된다 (Smadja et al., 1996). n v, n f 는각각용언 v와틀 f의해당출현빈도를나타내며, m은용언 v가틀 f가공기하는회수를의미한다. 이때계산된값이임계치보다크면, 틀 f는해당용언 v의유의미한하위범주화로간주된다. 위에서주목해야할점은임계치 (cutoff-value) 를대하는두통계식의관점이서로반대라는것이다. 이러한점은위두식에서부등호의방향이서로반대라는점에서드러난다. 즉, 이항가설검증은임계치보다값이작아야하고, Jaccard 계수는거꾸로값이커야한다. 따라서이항가설검증에서는작은임계치를사용하는것이보다엄격한검증이되는반면, 역으로 Jaccard 계수에서는큰임계치를사용하는것이보다엄격한검증이된다. 본연구에서는 5,370 개의용언을대상으로추출한 104,442 개의전체논항
218 언어와언어학제 54 집 관계및 103개의논항유형에위두수식을적용하여전체결과치를도출하였다. 이때의임계치는이항가설검증의경우선행연구에서흔히사용된 [0.05, 0.025, 0.01, 0.005, 0.001] 의다섯개의값을사용하였다. 반면, Jaccard 계수는 Tsunakawa and Kaji(2010) 을참고하여 [0.01, 0.001, 0.0001] 을사용하였다. 결과를검증하는기준은이항가설검증의경우임계치 0.05가가장느슨하며임계치 0.001 이가장엄격하다. 반대로 Jaccard 계수에서는임계치 0.01이가장엄격하고임계치 0.0001 이가장느슨하다. 4.2. 평가 앞소절에서계산된각값에임계치를적용하여 104,442 개의전체논항관계에서상대적으로중요성이떨어지는항목을걸러내고나면, 다음단계는이들의평가이다. 총 2개의통계모형에대하여각 5개, 3개씩의임계치가설정되어있기때문에총비교의대상이되는집합은 8개다. 이들 8개의집합은세종전자사전의격틀정보와교차비교의대상이되는데, 세종전자사전의격틀정보구성은아래와같은형식으로되어있다. (9) 어렵다 a. X=N0- 이 A b. Y=N1-에게는 이 X=N0-이 A (10) 놓다 a. X=N0-이 W=N3-에게 Z=N2-을 Y=N1-을 V b. X=N0-이 Y=N1- 을 V (6-7) 의형태로되어있는도출의존관계를 (9-10) 의형태로되어있는격틀정보에대응시켜보면, 두개의자료가얼마나일치를하고있는가를판단할수있다. 16) 두자료의비교를통한평가는 precision, recall, 및 F-measure 16) 실제의이작업은세종격틀정보를 (6-7) 과같은형태로변형하는프로그램을개발하여
한국어용언위계구조자동구축 219 의계산을통해이루어진다. 아래에서 tp는어떠한논항관계 f가 4.1절에서도출된결과와세종전자사전모두에서하위범주화로인정되는경우의수를말한다. fp는상단에서도출된결과에포함된논항관계가세종전자사전에는나타나지않는경우의수이며, fn은거꾸로세종전자사전에포함된논항관계가위결과에서인정되지않는경우를말한다. 끝으로 F-measure 는 precision 과 recall 을조합한값으로양자의일치정도를종합적으로살피게끔한다. 이러한방식에의거 8개의후보집합의각평가값을계산하면아래표와같다. 각항목에서가장높은점수를취한셀은굵은글씨로표시하였다. 통계모형 임계치 precision recall F-measure 0.05 34.05% 63.97% 44.45% 이항가설검증 0.025 34.17% 57.86% 42.97% 0.01 34.32% 49.61% 40.57% 0.005 34.43% 39.22% 36.67% 0.001 34.38% 23.41% 27.85% Jaccard 계수 0.01 31.24% 87.02% 45.98% 0.001 31.44% 86.95% 46.18% 0.0001 32.36% 86.34% 47.07% < 표 2> 통계검증모형의비교 우선 precision 의경우에는이항가설검증의값이 Jaccard 계수의값보다약간높은편이나최대차이가약 3% 로서 ( 이항가설검증의임계치 0.005 와 이루어졌으며, 하단의평가결과역시컴퓨터프로그램을통해자동으로연산하였다.
220 언어와언어학제 54 집 Jaccard 계수의임계치 0.01), 별다른차이가없다. 반면 recall 의경우에는차이가크게나는데대체로 Jaccard 계수의값은 86% 이상의양호한일치도를보이나, 이항가설검증의경우에는그렇지못하다. 결과적으로, F-measure 에서는 Jaccard 계수의값이이항가설검증의값을항상상회하는것을확인할수있다. 한편으로 Jaccard 계수안에서는 F-measure 의최대편차가 1% 정도에지나지않아큰유의미성을지닌다고는볼수없다. 결론적으로 2단계하위범주화구성에서는 Jaccard 계수를통해도출된결과치를활용하고자한다. 한편으로위의평가는세가지측면에서보완되어야한다. 첫째는, 세종전자사전역시절대적인기준 (golden standard) 가아니기때문에위에서높은수치를보였다고하여반드시최선의결과라고장담할수는없다. 다만, 위표는이항가설검증을통한결과보다 Jaccard 계수를통한결과가연구자의직관에기초하여구축된자원과더합치하는경향성이있다는것을나타낼뿐이다. 두번째로 Jaccard 계수안에서우월성이결정되지않았기때문에각임계치에따른결과는다른방식으로재평가가뒤따라야할것이다. 이러한점을보완하기위해 5절에서는각임계치에준거하여구축된최종결과를놓고그분포적양상에대한질적평가를시도할것이다. 4.3. 예시 : 어렵 (VA)-, 놓 (VV)- 3.3절에서언급된바와같이, 최초세종구문분석말뭉치에서추출된의존관계는 어렵다 의경우 28개, 놓다 의경우에는 23개의유형을지닌다. 이들이 Jaccard 계수의의거어떻게걸러지는가를보면아래표3과같다. 임계치어휘 0 0.0001 0.001 0.01 어렵다 19 18 16 4 놓다 14 14 8 1 < 표 3> 임계치에따른하위범주화틀개수
한국어용언위계구조자동구축 221 주목할점은가장엄격한임계치를사용하는 0.01의경우논항인정범위가대폭축소된다는것이다. 구체적으로이들각각은아래와같은논항구조로정리된다. 각논항구조우측의수치는해당 Jaccard 계수이다. (11d) 의경우가약간의아스러운부분이있으나그값이임계치에서크게벗어나지않음을감안하면아래의결과는비교적타당하다고판단된다. 특히, 놓다 의논항으로 NP(loc) 가명시된 (12a) 가선택된점은흥미로운결과라하겠다. (11) 어렵 /VA a. <VP(nom)> 0.146258503401 b. <VP(nom), NP(dat)> 0.0381679389313 c. <S(nom)> 0.0345911949686 d. <VP(nom), NP(src)> 0.0181818181818 (12) 놓 /VV a. <NP(nom), NP(acc), NP(loc)> 0.0286624203822 그러나한편으로위의예시는 Jaccard 계수의단점역시드러내고있다. 대다수의통계식은대상이지나치게자주출현하거나혹은지나치게드물게출현하는경우를어떻게처리하느냐에따른장단점을지니게마련인데, Jaccard 계수는이관점에서약간취약하다. 17) 그이유는 Jaccard 계수가해당검증대상의가장특징적인분포를대변해주는기능을수행하기때문이다. 예를들어, 놓다 의경우실제자료에서는 <NP(nom), NP(acc)> 구조가고빈도로출현하였으나위 (12) 에서는제외된것을볼수있는데그이유는 <NP(nom), NP(acc)> 의하위범주화틀이모든동사에걸쳐가장고빈도형태이기때문이다. 즉, 고빈도로출현하는하위범주화틀에는지나친불이익을주는경향성을 Jaccard 계수는내포하고있다. 이러한점을실증적으로보완하기위하여, 다 17) 모든통계적검증은나름의취약점을일정정도내포하기마련이다. 예컨대, 하위범주화틀의자동추출연구에종종사용되어온 T-score 의경우 Jaccard 계수와대립되는특성을보이는데, 저빈도분포를지나치게무시하는경향성을나타낸다. 또한이항가설검증의경우표 2 에서드러난바와같이대개 recall 이 precision 에비해상대적으로떨어지는경향이있다.
222 언어와언어학제 54 집 음 5절은도출된하위범주화틀에후처리를한결과를사용하여위계구조를도출하였다. 어떠한용언의하위범주화틀가운데가장고빈도로출현한것은 Jaccard 계수에의해임의로걸러지지않게끔하여전체결과가편중되지않도록추가적인조정을하였다. 18) 5. 위계구조 지금까지의과정에서우리는구문분석말뭉치에서의존소를일관된기준에의거추출하고, 이를다시통계적모형에의거정제하여유의미한논항구조까지자동구성하였다. 다음으로 5절에서는앞서구성된 5,370 개용언의논항구조를토대로이들사이의관계를체계화하고계층화하여용언위계구조를설정한다. 여기에서이론적배경이되는문법적틀은 HPSG 이며, 구체적으로는김종복 (2004) 의방식을기준점으로한다. 다만, 기존연구가연구자의직관을통해수작업으로위계구조를만들고, 개별어휘를하나하나분석하여이들에대입하는방식이었다면, 본연구의방식은대량의자료에서추출된언어정보를바탕으로이들을군집화하는방식에속한다. 5.1. 위계구조확립 HPSG에서는이론적틀안에서는유형자질구조 (Type Feature Structure) 가중요한기제로상정되고있다. 이유형자질구조는다시언어적각유형의종적및횡적잉여성을경감하고언어구조가상호작동하는방식의일반화를포착하기위해계층화되어표상되는데, 이를유형위계 (Type Hierarchy) 라칭한다. 이유형위계가성립되는중요한원리가운데하나가바로다항상속인데, 이것은위계상의하나의절점, 다시말해하나의유형은복수 18) 이러한추가조정은다소실용적인목적에서선택된방법이다. 먼저몇가지통계적검증모형을통해얻어진결과에서실제시스템에탑재되었을때가장우수한성능을낼것으로기대되는것을선택한다. 다음으로그단점을어떻게보완할수있는가를판단하여결과를후보정한다. 즉, 시스템의성능향상을위해가장실질적인도움이되는방식을적극적으로사용하는것이다.
한국어용언위계구조자동구축 223 의상위유형의속성값을상호모순이존재하지않는한모두할당받을수있다는의미다. 본연구의용언위계구조는이러한점에착안하여, 기본적으로두가지층위의상위유형의다중상속으로이루어진다. 하나의층위는 (i) 범주적계층정보이며, 다른하나는 (ii) 어휘적자질정보이다. 범주적계층정보는하나의유형이문법범주적으로판단하였을때어느유형의상위유형이되고또어느유형의하위유형이되는가를말한다. 이범주적계층정보는 5단계로구성이된다. 우선동사 (VV) 와형용사 (VA) 의경우를살펴보면다음과같다. (i) 용언위계의제일상단에는 heavy-v 가놓이며전체위계안에서는경동사 (light-v) 와자매관계를이루어주동사 (main-verb-lex) 의딸절점에놓인다. (ii) 다음단계는동사 / 형용사를구분하기위한것으로각기 non-stative-v 및 stative-v 으로명명되어 heavy-v 의딸절점이된다. (iii) 이들각각은다시타동성의여부에따라구분이되어, 각자 {v-intr, v-tr, v-ditr} 및 {a-intr, a-tr} 을자신의딸절점으로취한다. (iv) 다음단계는논항의범주에따른구분이다. 즉, 논항이명사구인가, 동사구인가, 문장인가에따른것으로, 예컨대 v-np-tr, v-vp-tr, v-s-tr 등과같은세부유형이여기에속한다. (v) 마지막단계로논항의범주가명사구일경우, 그격정보를취하여세분화된다. 예컨대, 논항이 밥을먹다 와같이목적격으로구성될경우에는 v-np-tr 의하위유형인 v-acc-tr 으로판별되고, 연필을책상에다놓다 와같이논항이 2개면서각기목적격과처소격을지니는경우에는 v-np-np-ditr 의하위유형인 v-acc-loc-ditr 으로처리된다. 아래의그림은전체계층을단순화하여제시한것으로타동사 먹다 의계층상의위치를예시하고있다.
224 언어와언어학제 54 집 < 그림 2> 범주적계층정보 다음으로어휘자질정보는위의각절점이가지는어휘적속성을말하며, 각절점의특성을규정해야하기때문에마찬가지로 5개의단위로구성되어있다. (i) 첫번째는 lex-heavy 로서이것은중동사의속성값을기술한다. (ii) 두번째는상태성을명시하기위한 lex-stative / lex-non-stative이며, (iii) 세번째항목은타동성을명시한 lex-intransitive, lex-intransitive 및 lex-ditransitive 등이다. (iv) 네번째항목은논항의범주정보를명시한 lex-argst-np-tr, lex-argst-np-s-ditr 등이며, (v) 마지막항목은각 lex-argst-acc-tr 와같이논항의격정보를구분해준다. 각각의예시는아래와같다. 즉, (13) 은타동사 먹다 의어휘적속성을순차적으로반영한다. 19) (13)a. lex-heavy [ SYNSEM.LOCAL.CAT.HC-LIGHT ] b. lex-non-stative [ SYNSEM.LOCAL.CAT.STATIVE ] c. lex-transitive [ SYNSEM.LOCAL.CAT.VAL.COMPS <1>, ARG-ST < [], 1> ] d. lex-argst-np-tr [ ARG-ST < [], [ LOCAL.CAT.HEAD.NOMINAL + ] > ] e. lex-argst-acc-tr [ ARG-ST < [], [ LOCAL.CAT.HEAD.CASE.SCASE no_scase ] > ] 19) 각자질구조는김종복 (2004) 에서제시된바에일부기초하였다.
한국어용언위계구조자동구축 225 다시말해, 범주적계층정보는전체위계구조의틀을구성하고위계내의각유형의실질적인속성값은어휘자질정보에서부여받는다. 예컨대, v-acc-tr 은범주계층정보인 v-np-tr 과어휘계층정보인 lex-argst-acc-tr 으로부터다중상속된유형이다. 5.2. 평가 지금까지도출된전체결과를평가를하여가장우수한결과를보인다고판단되는대상을선택하여보기로하자. 우선 5,370 개의어휘소에서표면형어휘는총 5,223 개로조사되었다. 어휘소의개수와표면형의개수가 147개가차이가나는것인데, 이러한차이에는두가지이유가있다. 하나는동음이의어의처리가이루어지지않았기때문이다. 예를들어, 형용사로서의 쓰다 (bitter) 와동사로서의 쓰다 (write) 가실제사전부에는모두 쓰- 로등재되기때문이다. 두번째이유는세종구문분석말뭉치에일반명사를지칭하는 NNG와어근명사를지칭하는 XR이하나의표면형에혼재되어사용되는경우가있기때문이다. 예를들어 가능하다 의 가능 이경우에따라일반명사로주석되는경우가있는반면때로는어근명사로처리되는경우도존재한다. 이러한문제점은실제말뭉치에표기된표면형을존중하는차원에서별다른전처리를하지않았다. 이러한결과어휘항개수에있어서 101개의차이가발생하였다. 두번째로도출된하위범주화틀의계량적분포는 Jaccard 계수식에서사용한임계치에따라아래표와같이조사되었다. 임계치 0.01 0.001 0.0001 전체하위범주화개수 5,833 9,467 14,804 한어휘당평균하위범주화개수 1.12 1.82 2.83 표준편차 0.46 2.33 3.54 < 표 4> 하위범주화틀의계량적분포
226 언어와언어학제 54 집 위에서나타난바와같이가장엄격한임계치 0.01을사용하였을때에는하나의표면형어휘가평균적으로하나씩의하위범주화틀을가지는것으로보이는반면, 느슨한임계치를사용한경우에는그평균개수및편차값이상당히커진다는점을알수있다. 특히, 임계치 0.0001 의경우, 표준편차값 3.54는다소의아스럽다. 큰표준편차는대부분의용언의하위범주화가예측가능하지않다는것을의미할수있기때문이다. 다음으로각임계치에따라선별된용언별하위범주화틀의개수를살펴보자. 편의상여기에서는개수순으로상위 10 개의용언을비교하기로한다. 임계치 : 0.01 임계치 : 0.001 임계치 : 0.0001 어휘 개수 어휘 개수 어휘 개수 되다 7 느끼다 30 하다 58 하다 7 보이다 29 되다 54 말다 6 생각하다 28 있다 44 보다 6 알다 28 말다 39 보이다 6 있다 26 보이다 38 없다 6 되다 25 없다 36 있다 6 시작하다 25 가다 33 적다 6 말다 24 알다 32 중요하다 6 하다 24 보다 31 낮다 5 나오다 23 느끼다 30 < 표 5> 용언별하위범주화틀의개수 위 < 표 5> 를통해우리는임계치 0.001 과 0.0001 을사용하여도출된결과는하위범주화의개수가지나치게편중되어있음을짐작할수있다. 대표적으로형용사 느끼다 가 30개나되는하위범주화틀을가진다는점은납득하기어려운부분이다. 실제추출된 느끼다 의하위범주화틀가운데전체누적비율의 75% 이상을차지하는주요항목은아래와같다. 각괄호안의수치는차례로출현빈도, 비율, Jaccard 계수를나타낸다.
한국어용언위계구조자동구축 227 (14) 느끼 /VV a. <NP(nom), NP(acc)> (114, 30.32%, 0.003196859) b. <NP(nom)> (58, 15.43%, 0.002733915) c. <NP(nom), NP(acc), NP(dat)>(35, 9.31%, 0.006542056) d. <NP(nom), NP(equ)> (24, 6.38%, 0.023369036) e. <NP(nom), VP(acc)> (16, 4.26%, 0.009484292) f. <NP(nom), NP(dat)> (15, 3.99%, 0.001062248) h. <NP(nom), NP(acc), NP(loc)> (15, 3.99%, 0.005820722) i. <NP(nom), S(acc)> (14, 3.72%, 0.013220019)... 이가운데, 임계치를 0.01로설정하였을경우도출되는하위범주화틀은굵은글씨로표시된 3개뿐이다. (14) 를세종전자사전에추출한아래의각유형및예문과비교해보자. (15) a. X=N0-이 Y=N1-을 V (=14a) 우리마누라는자유를느끼고싶단다. b. X=N0-이 Y=S1-고 V (=14i) 철호는민서가정상이아니라고느꼈다. c. X=N0-이 Y=N2-에 에서 에게 에게서 에대해 Npr1-을 V (=14c) 그는친구에게심한모욕감을느꼈다. d. X=N0-이 Y=N2-에 Npr1-을 V (=14h) 나는갑자기옆구리에통증을느꼈다. e. X=N0-이 Y=N1-을 ADV V ( 14i) 철수는애인을가깝게느끼면서도... 첫번째와두번째격틀 (15a-b) 는임계치 0.01을사용하여추출된하위범주화틀과완전한일치를보이고있다. 이러한일치는평가에서 precision 값에긍정적인영향을주는요소이다. 그러나 (15c-d) 의격틀은임계치 0,001 및
228 언어와언어학제 54 집 0.0001 을사용한결과에는포함되나임계치 0.01을사용한결과에서는배제되었다. 즉, 평가의 recall 값에부정적인영향을주게되는것이다. 끝으로 (15e) 는완벽히일치하는것은아니나, (14i) 의하위범주화와부분일치를보이는항목이다. (15e) 같은예는 precision 및 recall 각각의하락을가져오는요소이지만, 완전히잘못된도출이라고판단할수는없는것이다. 여기서 precision 과 recall 가운데우선시되어야할항목이무엇이냐의문제가제기되는데, Sarkar and Zeman(2000), Chesley and Salmon-Alt(2006), Tsunakawa and Kaji(2010) 등의선행연구는공통적으로 precision 에더비중을두고있다. 이는경험적인이유에근거하는데, 실제결과가자연어처리에활용될때발생할수있는문제점을최소화하도록하는장치이다. 이러한측면에서표5 및 (14) 의수치를다시고려하면, 임계치 0.01을사용하는것이과잉일반화의오류를피할수있는선택이다. 다음으로각각의임계치에따른결과를바탕으로자동구성된위계구조의분포를살펴보자. 임계치 0.01 0.001 0.0001 전체용언유형개수 84 96 98 한유형당평균어휘수 69.44 98.61 151.06 표준편차 256.12 250.22 336.58 < 표 6> 위계구조의분포 더느슨한임계치를사용할수록용언의유형의개수가늘어남을알수있는데그이유는그만큼다양한종류의하위범주화틀을포괄하고있기때문이다. 끝으로각임계치에따른결과의주요유형을살펴보도록한다.
한국어용언위계구조자동구축 229 0.01 0.001 0.0001 유형 비율 누적 유형 비율 누적 유형 비율 누적 v-acc-tr 34.06% 34.06% v-acc-tr 21.17% 21.17% v-acc-tr 14.21% 14.21% v-intr 17.32% 51.38% v-intr 11.23% 32.40% v-intr 9.56% 23.76% a-intr 11.14% 62.52% a-intr 6.90% 39.29% v-dir-tr 7.56% 31.32% v-dat-tr 9.41% 71.94% v-dat-tr 6.41% 45.71% v-acc-dir-ditr 7.06% 38.38% v-dir-tr 4.87% 76.80% v-dir-tr 4.25% 49.95% v-dat-tr 6.61% 44.99% v-acc-dat-ditr 2.31% 79.12% v-v-tr 3.75% 53.70% v-acc-dat-ditr 6.56% 51.55% v-acc-dir-ditr 2.19% 81.31% v-acc-dir-ditr 2.98% 56.68% v-src-tr 4.71% 56.26% v-src-tr 1.92% 83.23% v-s-tr 2.90% 59.59% v-acc-src-ditr 4.54% 60.80% a-dat-tr 1.03% 84.26% v-equ-tr 2.86% 62.45% a-intr 4.49% 65.29% v-com-tr 1.01% 85.27% v-acc-dir-ditr 2.84% 65.29% v-v-tr 4.19% 69.48% < 표 7> 임계치별주요유형비교 위표에서상위 2개의비율을점하는유형은모두 v-acc-tr 및 v-intr 로서동일하다. 다만그비율의크기가서로상이한데, 가장엄격한임계치를사용하는좌측 0.01 항목에서는그누적비율이 50% 를상회하는반면, 가장느슨한임계치를사용하는우측 0.0001 에서는 25% 에도채미치지못한다. 기본형인자동사혹은목적격을취하는기본형타동사가전체용언의절반가까이를차지한다는것이화자의직관에도부합된다고본다. 또한일반적인형용사인 a-intr 을포함시킬경우임계치 0.01은전체용언의 60% 이상을포괄하고있어자연스러워보인다. 반면, 임계치 0.001 은상위 3개의누적비율이 40% 에미치지못하며, 임계치 0.0001 에서는 a-intr 이전체의 5% 에도미치지못하는점을관찰할수있다. 따라서, 위에서결국임계치 0.01을사용하는결과가가장좋은결과를보인다고판단해볼수있다. 이러한여러측면을종합적으로고려하여본연구에서는 0.01을잠정적인임계치로설정하였다. 결과적으로도출된전체위계구조는부록 1과같다. 부록 1에서각유형우측의숫자는해당유형에속한어휘의수를말한다.
230 언어와언어학제 54 집 5.3. 예시 : 어렵 (VA)-, 놓 (VV)- 임계치 0.01을적용한용언위계구조를결과로택하였으므로, 두가지예시 어렵다 와 놓다 가각기어떻게최종구현되어있는지살펴보도록하자. 먼저 어렵다 의경우 (11) 에서논의된논항구조와동일한세부유형을지닌다. 이때, (16b) 와 (16d) 의경우주어의범주정보 vp가명시되지않았으나, 주어의경우에는해당용언이타동성을지니는경우범주제약을미명세상태로남겨두므로문제가되지않는다. (16) 어렵 /VA a. 어렵-1a-vp-intr <VP(nom)> b. 어렵-2a-dat-tr <VP(nom), NP(dat)> c. 어렵-3a-s-intr <S(nom)> d. 어렵-4a-src-tr <VP(nom), NP(src)> 다음으로 놓다 의경우에는 (12) 에서살핀하위범주화틀이외에가장잦은빈도로출현한하위범주화가처리에포함되어아래와같은유형을취한다. (17) 놓 /VV a. 놓-1 v-acc-tr <NP(nom), NP(acc)> b. 놓-2 v-acc-loc-ditr <NP(nom),NP(acc), NP(loc)> 6. 결론 지금까지세종구문분석말뭉치를기반으로하여한국어용언의하위범주화틀과그위계구조를자동구축하는과정을제시하였다. 첫번째단계는의존소추출로서말뭉치에서의존소를추출하는구체적인알고리즘을제시하고, 관련된몇가지이슈에대해검토하였다. 하위범주화틀을기술하는데논항 / 부가어의구분과공범주출현가능성을반영하기위해두번째단계에서는통계적인
한국어용언위계구조자동구축 231 검증모형을도입하였다. 이항가설검증과 Jaccard 계수가활용되었으며, 그결과 Jaccard 계수를통한결과값이주어진자료에더잘맞는다는사실을확인하였다. 그러나각임계치에따른하부결과가운데어느것이더우월한지는판단하지못하였으며, 그점은마지막단계에서재검토되었다. 최종단계에서는 HPSG의이론적틀에준거하여주어진하위범주화의군집화를통해위계구조를도출하였고그구체적결과를평가하였다. 각각의분포적성향가운데타당성이높다고판단되는것은가장엄밀한임계치인 0.01을사용한결과였다. 6.1. 연구의의의 이상의연구의가장큰의의는무엇보다한국어의언어자원을구축하는방법론을설정하는데있어서기존의연구와차별성을보인다는점이다. 구체적으로는아래표와같다. 기존연구 본연구 기술방식 수동 자동 배경 언어이론 자료기반 판단의근거 언어직관 언어자료 ( 구문분석말뭉치 ) 처리의모형 심리언어적기술 전산적 / 통계적처리 도출방식 분류 (classification) 군집화 (clustering) 하향식 (top-down) 상향식 (bottom-up) < 표 8> 구축방법론비교 물론본연구의방식이기존연구의방식에비해절대적으로우수하다는입장은아니다. 다만, 기존연구의방식을보완할수있는다른각도의접근법을제시하였다는점에서의의가있을것이다. 두번째로는현재까지구축되어온한국어언어자원을적극활용하였다는점을본연구의의의로들수있다. 특히, 10여년간정부주도로구축되어일반에
232 언어와언어학제 54 집 게공개된세종말뭉치와전자사전을연구의중심적인자료로활용하였다는점에서기존대부분연구와차별화된다. 세번째로말뭉치를활용한위계구조설정은최근의연구추세에발맞춘방법론이다. 어휘의자동습득에관한최근의연구경향은단순히언어자원에서특정언어정보를뽑아내는것에그치지않고이를재가공하여보다넓은범위의활용가능성을지니는자원을생성하는것이다 (Dorr and Jones, 1996; Gamallo et al., 2001; Korhonen et al., 2003). 아울러 HPSG기반의시스템구현연구의측면에서도언어자원의활용은단기간에우수한성과를낼수있는방법론으로여러차례검토된바있으며, 따라서위둘째이유와마찬가지로최근의추세에맞물린연구흐름이라할수있다. 대표적으로 Cramer and Zhang(2010) 에서는독일어구문분석말뭉치인 Tiger Treebank 에서문법을자동도출하여 HPSG/MRS 기반독일어문법인 Cheetah 를제시하였다. Miyao and Tsujii(2008) 은 Penn English Treebank에서 HPSG 문법을반자동도출한확률기반 HPSG 분석기 Enju 를제시하였으며, 마찬가지의방법론으로 Yu et al.(2010) 에서는중국어 HPSG 문법을구성하였다. 즉, HPSG기반의시스템을구현하는데있어서실증적인언어자원을활용하는것은이미검증된방법론에속한다. 네번째로는언어학적연구를수행하는데, 통계를활용한계량적모형을적극적으로도입하였다는데의의가있다. 본연구에서사용된통계적검증모형들은비단하위범주화틀을도출하는데에만국한된것이아니기때문에다른언어현상의분포적특성을살피는데있어서도충분히활용될여지가있다. 계량적검토를통해언어의분포적특질을밝히는일은이론언어학적접근에실증적증거를제시하는일이될것이다. 끝으로실제시스템의성능을향상시킬수있는구체적인방안에대한조사와모형개발이수반되었다는점을들수있다. 즉, 단순히이론적차원의결과제시에그치지않고, 이결과가실제시스템에어떻게탑재될수있는가를연구의핵심방향으로설정하였다. 이러한연구는한국어자원문법을비롯한실제시스템의개발에중요한토대가될것이다.
한국어용언위계구조자동구축 233 6.2. 향후과제 향후과제는크게세가지차원에서고려될수있다. 먼저본연구에서는용언의통사적특성만을살피었으나향후연구에서는그에더하여어휘의미적특성까지함께파악되어야할것이다. 이러한판단은비슷한통사적속성을지니는범주는비슷한의미적성향을보인다는관점에따른것이다 ( 송상헌외, 2008; 송상헌 최재웅, 2010). 용언자체의어휘의미적속성이통사적환경에어떠한영향을주고받는지에대한연구와함께 (Dorr and Jones, 1996; Korhonen et al., 2003), 하위범주화의각논항들이해당용언과가지는의미적선택관계가어떠한양상으로존재하는가에대해서도살필수있을것이다 (Gamallo et al., 2001). 두번째로는한국어단일언어자원을뛰어넘어서, 병렬구문분석말뭉치를대상으로한연구역시흥미로운연구가될것이다. 즉, 한국어용언의하위범주화틀이영어또는일본어와같은언어에서는어떠한구조로구현되는가에대한계량적연구는기계번역을비롯한실제시스템개발에중요하게쓰일수있다 (Haugereid and Bond, 2011). 끝으로, 현재까지제시된각결과를실제한국어자원문법을비롯한 HPSG 전산문법에적용하여그성능향상의정도를실험하여야한다 (Song et al. 2010). 또한언어이론에독립적으로통계기반구문분석기의성능에도긍정적인기여를할수있는지의여부역시추후검토의대상이될것이다.
234 언어와언어학제 54 집 부록 1: 용언위계구조및빈도 heavy-v 5833 stative-v 976 a-intr 650 a-tr 254 a-np-tr 223 a-abl-tr 1 a-acc-tr 30 a-as-tr 5 a-comp-tr 28 a-com-tr 16 a-con-tr 1 a-dat-tr 60 a-dir-tr 29 a-equ-tr 25 a-loc-tr 1 a-nom-tr 17 a-src-tr 10 a-s-tr 12 a-v-tr 19 a-ditr 72 a-np-np-ditr 36 a-acc-dat-ditr 1 a-acc-dir-ditr 1 a-acc-src-ditr 2 a-nom-as-ditr 2 a-nom-com-ditr 6 a-nom-comp-ditr 15 a-nom-dat-ditr 1 a-nom-dir-ditr 2 a-nom-equ-ditr 6 a-s-np-ditr 13 a-s-abl-ditr 1 a-s-as-ditr 1 a-s-com-ditr 2 a-s-comp-ditr 1 a-s-dat-ditr 5 a-s-equ-ditr 2 a-s-src-ditr 1 a-v-np-ditr 23 a-v-as-ditr 1 a-v-com-ditr 2 a-v-comp-ditr 2 a-v-dat-ditr 9 a-v-dir-ditr 6 a-v-src-ditr 3 non-stative-v 4857 v-intr 1010 v-tr 3231 v-np-tr 3124 v-abl-tr 13 v-acc-tr 1987 v-as-tr 12 v-comp-tr 12 v-com-tr 59 v-con-tr 2 v-dat-tr 549 v-dir-tr 284 v-equ-tr 31 v-inst-tr 8 v-loc-tr 22 v-nom-tr 33 v-src-tr 112 v-s-tr 59 v-v-tr 48 v-ditr 616 v-np-np-ditr 405 v-acc-abl-ditr 7 v-acc-as-ditr 8 v-acc-com-ditr 7 v-acc-comp-ditr 7 v-acc-dat-ditr 135 v-acc-dir-ditr 128 v-acc-equ-ditr 8 v-acc-inst-ditr 10 v-acc-loc-ditr 16 v-acc-src-ditr 48 v-nom-abl-ditr 4 v-nom-com-ditr 6 v-nom-comp-ditr 4 v-nom-dat-ditr 6 v-nom-dir-ditr 4 v-nom-equ-ditr 7 v-s-np-ditr 91 v-s-as-ditr 3 v-s-com-ditr 2 v-s-comp-ditr 1 v-s-dat-ditr 26 v-s-dir-ditr 26 v-s-equ-ditr 2 v-s-src-ditr 31 v-v-np-ditr 120 v-v-abl-ditr 1 v-v-com-ditr 4 v-v-comp-ditr 3 v-v-dat-ditr 39 v-v-dir-ditr 33 v-v-equ-ditr 10 v-v-loc-ditr 1 v-v-src-ditr 29
한국어용언위계구조자동구축 235 참고문헌 김영희 (2004) 논항의판별기준. 한글 266: 139-167. 김종복 (2004) 한국어구구조문법 한국문화사. 송상헌 전지은 최재웅 (2008) 영어형용사 + 전치사구구문의의미적제약 - ICE-GB와 WordNet을활용한통계적검증 -. 언어와언어학 41: 75-103. 송상헌 최재웅 (2010) 영어동사의의미적유사도와논항선택사이의연관성 : ICE-GB와 WordNet을이용한통계적검증. 언어와정보 14(1): 113-144. 채희락 (1996) 하- 의특성과경술어구문. 어학연구 32: 409-476. Brent, M. R. (1993) "From Grammar to Lexicon: Unsupervised Learning of Lexical Syntax". Computational Linguistics 19: 243-262. Briscoe, T. & J. Carroll (1997) "Automatic Extraction of Subcategorization from Corpora". Proceedings of the 5th Conference on Applied Natural Language. Washington, DC. Carroll, J., M. Guido, & T. Briscoe (1998) "Can Subcategorisation Probabilities Help a Statistical Parser?" Proceedings of the 6th ACL/SIGDAT Workshop on Very Large Corpora. Montreal, Canada. Carroll, J. & A. C. Fang (2005) "The Automatic Acquisition of Verb Subcategorisations and Their Impact on the Performance of an HPSG Parser". Lecture Notes in Computer Science 3248: 646-654. Chae, H. (2000) "Complements vs. Adjuncts (in Korean)". Studies in Modern Grammar 19: 69-85. Chesley, P. & S. Salmon-Alt (2006) "Automatic Extraction of Subcategorization Frames for French". Proceedings of the Language Resources and Evaluation Conference (LREC).
236 언어와언어학제 54 집 Genua, Italy. Choi, H. (2010) "The Distinction of Argument and Adjunct as a Gradient Notion". Language and Information 14: 25-48. Cramer, B. & Z. Yi (2010) "Constraining Robust Constructions for Broad-Coverage Parsing with Precision Grammars". Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, China. Dorr, B. J. & J. Doug (1996) "Role of Word Sense Disambiguation in Lexical Acquisition: Predicting Semantics from Syntactic Cues". Proceedings of the 16th conference on Computational Linguistics. Copenhagen, Denmark. Erk, K. (2007) "A Simple, Similarity-based Model for Selectional Preferences". Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic. Gamallo, P., A. Agustini, & G. P. Lopes (2001) "Selection Restrictions Acquisition from Corpora". Lecture Notes in Computer Science 2258: 67-75. Haugereid, P. & F. Bond (2011) "Extracting Transfer Rules for Multiword Expressions from Parallel Corpora". Proceedings of the Workshop on Multiword Expressions: from Parsing and Generation to the Real World (MWE 2011). Portland, Oregon. Korhonen, A., G. Gorrell & D. McCarthy (2000) "Statistical Filtering and Subcategorization Frame Acquisition". Proceedings of the 2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora. Hong Kong. Korhonen, A., Y. Krymolowski & Z. Marx (2003) "Clustering Polysemic Subcategorization Frame Distributions
한국어용언위계구조자동구축 237 Semantically" Proceedings of the 41st Annual Meeting on Association for Computational Linguistics. Sapporo, Japan. Levin, B. (1993) English Verb Classes and Alternations: a Preliminary Investigation. University Of Chicago Press. Manning, C. D. (1993) "Automatic Acquisition of a Large Subcategorization Dictionary from Corpora". Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics. Columbus, Ohio. Marcus, M. P., M. A. Marcinkiewicz, & B. Santorini (1993) "Building a Large Annotated Corpus of English: the Penn Treebank". Journal of Computational Linguistics 19: 313-330. Miyao, Y. & J. Tsujii (2008) "Feature Forest Models for Probabilistic HPSG Parsing". Computational Linguistics 34(1): 35-80. Roland, D. & D. Jurafsky (1998) "How Verb Subcategorization Frequencies are Affected by Corpus Choice". Proceedings of the 17th International Conference on Computational Linguistics. Morristown, NJ, USA. Sag, I. A., T. Wasow, & E. M. Bender (2003) Syntactic Theory: A Formal Introduction. CSLI Publications. Sarkar, A. & D. Zeman (2000) "Automatic Extraction of Subcategorization Frames for Czech" Proceedings of the 18th Conference on Computational Linguistics. Saarbrücken, Germany. Song, S. & J. Choe (2008) "Automatic Construction of Korean Verbal Type Hierarchy using Treebank" Proceedings of the 15th International Conference on Head-Driven Phrase Structure Grammar. Keihanna, Japan. Song, S. & J. Jeon (2008). "The Xavier Module - Information
238 언어와언어학제 54 집 Processing of Treebanks" Proceedings of the International Conference of Cognitive Science 2008. Seoul, Korea. Song, S., J. Kim, F. Bond, and J. Yang (2010) "Development of the Korean Resource Grammar: Towards Grammar Customization" Proceedings of the 8th Workshop on Asian Language Resources. Beijing, China. Smadja, F., K. R. McKeown, & V. Hatzivassiloglou (1996) "Translating Collocations for Bilingual Lexicons: a Statistical Approach". Computational Linguistics 22: 3-38. Tsunakawa, T. & H. Kaji (2010) "Augmenting a Bilingual Lexicon with Information for Word Translation Disambiguation". Proceedings of the 8th Workshop on Asian Language Resources. Beijing, China. Utsuro, T., T. Miyata, & Y. Matsumoto (1998) "General-to-Specific Model Selection for Subcategorization Preference". Proceedings of the 17th International Conference on Computational Linguistics. Morristown, NJ, USA. Yu, K., Y. Miyao, X. Wang, T. Matsuzaki, & J. Tsujii (2010) "Semi-Automatically Developing Chinese HPSG Grammar from the Penn Chinese Treebank for Deep Parsing". Proceedings of the 23rd International Conference on Computational Linguistics, Beijing, China. [136-701] 서울특별시성북구안암동고려대학교문과대학언어학과 E-mail: sanghoun@gmail.com / jchoe@korea.ac.kr 논문접수 : 2011년 12월 30일수정완료 : 2012년 2월 16일게재확정 : 2012년 2월 17일