LKB 를이용한한국어자유어순의구현 고성연 ( 언어학과박사과정 ) 1. 머리말 2. 한국어의자유어순과 HPSG의논항가자질구조 3. LKB에기반한한국어의자유어순분석 3.1. 단층구조분석 (Flat Structure Analysis) 3.2. 양분단선구조분석 (Binary Linear Structure Analysis) 3.3. 양분병렬구조분석 (Binary Parallel Structure Analysis) 3.3.1. 양분병렬구조분석의논항가자질구조와규칙 3.3.2. LKB에기반한양분병렬구조분석의구현 4. 양분병렬구조분석과 HPSG 5. 맺음말 1. 머리말 한국어의문장구성의중요한특징중의하나는문장성분들간의순서가 비교적자유롭다는점이다. 1) (1) a. 철수 - 가영희 - 를사랑한다. b. 영희 - 를철수 - 가사랑한다. (2) a. 철수 - 가영희 - 에게꽃 - 을준다. b. 철수 - 가꽃 - 을영희 - 에게준다. c. 꽃 - 을철수 - 가영희 - 에게준다. d. 꽃 - 을영희 - 에게철수 - 가준다. e. 영희 - 에게철수 - 가꽃 - 을준다. f. 영희 - 에게꽃 - 을철수 - 가준다. 1) " 문의어순은서술용언이문말에오고기타문성분의위치는비교적자유롭다. 자연스러운무표의어순은주어가먼저오고기타보충어가뒤따르는경우이다." ( 장석진 1993:51) 1
(1) 과 (2) 는각각 2항동사 ( 두자리서술어 ) 구문과 3항동사 ( 세자리서술어 ) 구문의자유어순을보여주는예이다. (1a) 은 [ 주어-목적어-타동사 ] 로이루어진전형적인타동사구문인데, (1b) 와같이 [ 목적어-주어-타동사 ] 의순서로이루어진구문과의미상동치이다 ( 화용론적인차이는편의상논의에서배제한다.) [ 주어-목적어-목적어2-수여동사 ] 로이루어진 (2a) 도 (2b-f) 와의미상구별되지않는다. 이러한한국어의자유어순을통사론적으로분석하기위해서, 핵어중심구구조문법 (Head-Driven Phrase Structure Grammar, 이하 HPSG) 의논항가자질 (Valence Feature) 을한국어의통사적특징에맞도록수정하고, 수정된논항가자질을 LKB(Linguistic Knowledge Building) 에반영하여구현 (Implementation) 이라는관점에서그타당성을검증하고자한다. 논문의구성은다음과같다. 2절에서는 Sag et al.(2003) 의논항가자질이한국어의분석에타당하지않음을보이고, 한국어자유어순에대한몇가지접근법을소개한다. 3절에서는한국어의분석에적합한새로운논항가자질구조 (Valence Feature Structure) 와규칙을제안하고이를바탕으로한 LKB 문법구현을보인다. 4절에서는 3절에서제안한문법이기존 HPSG(Sag et al. 2003) 이론에대해갖는함의를살펴본다. 2. 한국어의자유어순과 HPSG 의논항가자질 구조 (Valence Feature Structure) 먼저, 논의의편의를위해 Sag et al.(2003:279) 의핵어 - 명시어규칙 (Head-Specifier Rule, 이하 HSR) 과핵어 - 보충어규칙 (Head-Complement Rule, 이하 HCR) 을옮겨놓는다. (3) Head-Specifier Rule phrase SPR < > H SPR < > COMPS < > A phrase can consist of a (lexical or phrasal) head preceded by its specifier. 2
(4) Head-Complement Rule phrase COMPS < > H word COMPS <,..., >... A phrase can consist of a lexical head followed by all its complements. 위의두규칙에따르면, 영어는반드시보충어 (complement) 들이동사구와먼저결합하고나서야비로소명시어 (specifier) 가결합할수있다 ( 규칙순 : (4) (3)) 2). 영어와달리한국어는동사구의핵어 (head) 가보충어 (complement) 에뒤따르는 head-final language이므로, 규칙 (4) 를다음과같이수정할수있다. (4') Head-Complement Rule (revised for Korean) phrase COMPS < >... H word COMPS <,..., > A phrase can consist of a lexical head followed by all its complements. 위 (3) 과 (4') 의규칙에의해 (1a) 철수 - 가영희 - 를사랑한다의구조를분석 하면다음과같다. (5) (1a) 철수 - 가영희 - 를사랑한다의수형도 S[SPR<>, COMPS<>] NP VP[SPR< >, COMPS<>] NP V[SPR< >, COMPS< >] 철수 - 가영희 - 를사랑한다 2) 이러한표현은설명의편의를위한것일뿐이며, Serialism 에입각한규칙의순차적적용을의미하는것은아니라는점을밝혀둔다. 3
그러나 (3) 과 (4') 에따르면 (1b) 영희 - 를철수 - 가사랑한다와같은한국어 문장은다음과같은이유로인해인허 (license) 되지않는다. (i) 어휘핵어 (lexical head) 인 V( 사랑한다 ) 는 COMPS value가 non-empty이므로규칙 (3) 의구조기술을만족하지않는다. (HSR 적용불가 ) (ii) (i) 에서 VP( 철수-가사랑한다 ) 가인허된다고하더라도이때의 VP 는 word가아닌 phrase이므로규칙 (4') 의구조기술을만족하지않으므로, 영희-를 과결합할수없다. (HCR 적용불가 ) 이러한문제를해결하기위해서다음과같은접근법이가능할것이다. (6) a. GAP Analysis b. Flat Structure Analysis c. Word-order Domain approach (6a) 는 Sag et al(2003) 에서원거리의존관계 (Long Distance Dependency) 를다루기위해제안한 GAP 자질을도입하는분석방법이다. 즉, (1b) 영희-를철수-가사랑한다를 Mary, John loves와같은주제화된문장 (topicalized sentence) 으로간주하여처리하는것이다. (6b) 는영어의계층적구조와달리한국어의문장구조는단층구조 (flat structure) 로이루어져있다고보고, 논항가자질의하위구분 (SPR과 COMPS의구분 ) 을하지않는분석방법이다. 주어도보충어의하나로보고, 모든보충어를동사와직접평면적으로결합하는규칙을가정한다. 3) (6c) 는어순을관장하는문법영역 (domain) 을별도로설정하여, (1a) 와 (1b) 의수형도자체는동일하다고봄으로써자유어순문제를통사론의논 3) 예를들면, 장석진 (1993:138) 은 SPR 과 COMPS 를구분하는대신 SUBCAT 이라는통합된자질로한국어동사류의논항정보를표현하고있다. (i) SUBCAT <[ ]> (ii) SUBCAT <[ ], [ ]> (iii) SUBCAT <[ ], [ ], [ ]> 자동사 : 놀다, 자다형용사 : 길다, 정직하다타동사 : 보다, 먹다지정사 : 이다, 아니다사동사 : 시키다, 먹이다수여동사 : 주다, 보내다 4
의의대상에서배제하는접근법이다. 이논문에서는이들접근법중에서 (6b) 의내용을중심으로살펴보면서, 한국어의자유어순에알맞은새로운논항가자질구조 (Valence Feature Structure, 이하 VFS) 를제안할것이다. 3. LKB 에기반한한국어의자유어순분석 LKB는미국스탠포드대학의 CSLI 연구소에서개발한문법및어휘부개발환경 (a grammar and lexicon development environment) 으로서, HPSG 와유형화된자질구조 (Typed Feature Structure) 를바탕으로하고있다. 4) 이 LKB를기초로한국어구문분석을시도하는것은극히최근의일이며, 한국어어순과관련된내용을일부포함한것으로는양재형 (2002), 신효필 고성연 (2003a,b) 등한정된연구만이있다. 먼저이들연구를검토한후, 한국어의분석에적합한새로운 VFS와규칙을제안하고이를바탕으로한 LKB 문법구현의실제를보여주려고한다. 3.1. 신효필 고성연 (2003a,b) 의단층구조분석 (Flat Structure Analysis) 5) 신효필 고성연 (2003a,b) 은한국어의문장구조를계층적인동사구를구성하 지않고, 장석진 (1993) 에기초하여단층구조 (flat structure) 로분석하여이 를 LKB 로구현하였다. 먼저, 한국어에서명시어 (specifier) 와보충어 (complement) 의구분이모 호하므로 6) COMPS 만으로 VFS 를단순화하여정의하였다. 이를 Sag et al. 4) LKB 에대해서는 http://www-csli.stanford.edu/~aac/lkb.html 참조. 5) 윤지원의조언을따른다면, 양분구조분석과의대조를명확히하기위해서는, 단층구조분석 (Flat Structure Analysis) 이라고하는것보다 다분구조분석 (N-ary Structure Analysis) 이라고하는편이더적절할것이다. 또한 단층구조 라는용어는자칫 2 개이상의층위를허용하지않는듯한오해를불러일으킬수있다. 그러나여기서는이러한용어상의문제점만언급하면서, 앞으로의논의에서는편의상기존의용어를그대로사용하기로한다. 5
(2003) 과비교하면다음과같다. (7) Sag et al. (2003) 신효필 고성연 (2003a,b) val-cat SPR list(expression) COMPS list(expression) val-cat COMPS list(expression) 7) 기본적인동사의유형은다음의세가지로구분하여정의한다. 8) 이는명 시어자질 (SPR) 이빠졌다는점을빼면, Sag et al.(2003) 과차이가없다. (8) a. intrans-vlxm := verb-lxm & [ COMPS < NP[nom] > ]. b. trans-vlxm := verb-lxm & [ COMPS < NP[nom], NP[acc] > ]. c. ditrans-vlxm := verb-lxm & [ COMPS < NP[nom], NP[acc], NP[dat] > ]. (8c) 의수여동사를핵어로하는문장에서단층구조분석이실제로구현되 는예를제시하면다음과같다. [ 보충어 - 첨가어 - 보충어 - 보충어 - 첨가어 - 핵 어 ] 의구성으로서 6 분지구조를보여주고있다. 6) 이에대한논의는이논문에서다루는구현중심의논의에대한이론적기반으로서매우중요한문제이면서, 또한쉽게단정지을수없는성격의문제이다. 이논문에서는이에대한직접적인언급은하지않는대신, 구현상더나은결과를보이는접근법을제시함으로써역으로새로운이론적접근의가능성을암시하고자한다. 7) 장석진 (1993) 을따른다면, COMPS 라는자질보다는 SUBCAT(subcategorization) 이라는자질을사용하는것이더적절할것이다. 실제로양재형 (2002) 에서는, 아래에제시한것처럼, COMPS 에해당하는자질로서 SCAT 을사용하였다. 3.2. 참조. val-cat SCAT list(expression) 8) (8) 은 LKB 의 types.tdl 파일에정의되어있는유형화된자질구조로서 Copestake(2002) 의기술언어 (Description Language) 를따른것이므로, Sag et al. (2003) 의표기방식과다소차이가있다. LKB 에서구현한실제의유형 (type) 과규칙 (rule) 들의표기는앞으로도 LKB 의표기방식을그대로따른다. 6
(9) 이러한다분지 (N-ary) 구조를보여주는가장단순한문형을통해실제구현이어떻게이루어지는지살펴보기로하자. 아래 (10) 은전형적인타동사구문의예로서 a는 [ 주어-목적어-동사 ] 의순서, b는 [ 목적어-주어-동사 ] 의순서로이루어진문장이다. 수형도에 COMPS가실현되는양상도함께확인할수있도록연동지표 (coindex) 를상자번호로표시하였다. (10) a. S[COMPS<>] NP NP V[COMPS<, >] 철수 - 가영희 - 를사랑한다 b. S[COMPS<>] NP NP V[COMPS<, >] 영희 - 를철수 - 가사랑한다 보충어들의순서가자유롭다면, 보충어의결합순서에따라별개의규칙이 필요하다. 위 (10) 의 a, b 를위해서다음의두규칙을가정한다. (11) a. b. phrase COMPS < > phrase COMPS < > H word COMPS <, > H word COMPS <, > 7
(11) 의두규칙은타동사와같은 2항동사 ( 두자리서술어 ) 문형의핵어와보충어들의결합을정의하는규칙들이다. 2항동사이외의동사로이루어진문장들에대해서도핵어와보충어의결합규칙을정의해주어야한다. 이들 1항동사와 3항동사의보충어결합을위한규칙도보충어의결합위치에따라여러개의규칙정의가필요하다. 이때산술적으로필요한규칙의개수는, 첨가어 (adjunct) 의결합을배제한순수보충어 (complement) 만고려하면, 보충어의개수를 n이라할때 n! 개로계산한다. 9) (12) 동사유형 보충어의개수 (n) 첨가어 0 개일때 첨가어 1 개일때 첨가어 2 개일때 1 항동사 1 1!=1 2 3 2 항동사 2 2!=2 1=2 6 12 3 항동사 3 3!=3 2 1=6 24 60 소계 9 32 75 총계 116 아래 (13)~(15) 는신효필 고성연 (2003b) 에서 LKB의 rules.tdl 파일에는문장규칙으로정의한 116개의규칙들중의일부로서, 1항동사부터 3항동사까지보충어만을고려하여정의한것들의예이다. (12) 에서확인한바와같이규칙의개수는총 9개이다. (13) 자동사문규칙 : 1 개 intrans_s_rule := binary-rule & [ ARGS < #1, phrase & [ HEAD verb, COMPS < #1 > ] > ]. (14) 타동사문규칙 : 2개 a. trans_s_rule_1 := ternary-rule & [ ARGS < #1, #2, phrase & [ HEAD verb, COMPS < #1, #2 > ] > ]. b. trans_s_rule_2 := ternary-rule & 9) 첨가어가결합하는경우의수의계산은이보다약간더복잡하며, 결합이가능한첨가어의개수와첨가어와보충어의위치까지고려하게되면규칙의개수가기하급수적으로늘어나게된다. 신효필 고성연 (2003b) 에서는모두 116 개의문장규칙을정의하였는데, 이는보충어와첨가어의결합을각각최대 3 개와 2 개로한정하여계산한결과이다. 8
[ ARGS < #2, #1, phrase & [ HEAD verb, COMPS < #1, #2 > ] > ]. (15) 수여동사문규칙 : 6개 a. ditrans_s_rule_1 := 4nary-rule & [ ARGS < #1, #2, #3, phrase & [ HEAD verb, COMPS < #1, #2, #3 > ] > ]. b. ditrans_s_rule_2 := 4nary-rule & [ ARGS < #1, #3, #2, phrase & [ HEAD verb, COMPS < #1, #2, #3 > ] > ]. c. ditrans_s_rule_3 := 4nary-rule & [ ARGS < #2, #1, #3, phrase & [ HEAD verb, COMPS < #1, #2, #3 > ] > ]. d. ditrans_s_rule_4 := 4nary-rule & [ ARGS < #2, #3, #1, phrase & [ HEAD verb, COMPS < #1, #2, #3 > ] > ]. e. ditrans_s_rule_5 := 4nary-rule & [ ARGS < #3, #1, #2, phrase & [ HEAD verb, COMPS < #1, #2, #3 > ] > ]. f. ditrans_s_rule_6 := 4nary-rule & [ ARGS < #3, #2, #1, phrase & [ HEAD verb, COMPS < #1, #2, #3 > ] > ]. 동일한핵어와보충어의결합을위해여러개의규칙을설정해야한다는것은문법에불필요한부담을가중시키는것이아닐수없다. 10) 예를들어, 철수-가영희-에게꽃-을준다라는문장과동일한문장성분들 ( 철수- 10) 신효필 고성연 (2003b) 은이러한문제점을스스로지적하고있다. l 한국어의문법에서동사, 논항, 첨가어를포함한다중분지관계의가능성은사실그수가열려있다고할수있다. 따라서이를 LKB에서규칙화하기에는비효율적이며불가능하다. l LKB의구조적인제약때문에단층구조에의한분석은논항과첨가어들의순서에민감하다. ( 중략 ) 논항과첨가어들간의순서변화에따라세분된규칙을기술할수밖에없는데이점은 LKB에서단층구조분석을시도하는방법의한계이다. 그러나, 이러한한계는단층구조분석자체의한계라기보다는 LKB에서의분석의한계로보아야할듯하다. 즉, 단층구조분석은그자체가양분구조분석을전제로하는 LKB 시스템과맞지않는다는것이다. 따라서단층구조분석을뒷받침할만한다른시스템, 예컨대 MEAT(The Multilingual Environment for Advanced Translations) 와같은자질연산시스템에서는적은수의문법규칙으로효과적인단층구조기술이가능할것이다. http://crl.nmsu.edu/~ahmed/meat/intro.html 참조. 9
가, 영희-에게, 꽃-을, 주다 ) 로이루어진 6개의문장에대해 6개의규칙이필요하다고보는것은, 규칙에부과하는문법의부담을줄이고어휘에보다많은정보를의존하려는 HPSG의기본경향에어긋나는것이다. 더구나 (1a) 철수-가영희-를사랑한다와 (1b) 영희-를철수-가사랑한다와같은두문장이완전히동일한핵어와보충어로이루어졌음에도불구하고서로다른규칙에의해설명되어야한다면, 그규칙에서어떠한일반성도발견하기어려울것이다. 3.2. 양재형 (2002) 의양분단선구조분석 (Binary Linear Structure Analysis) 규칙의수를다소줄일수있는분석방법이없지는않다. 양재형 (2002) 은다음과같은 4 개의규칙들로 3 항동사문형까지설명하고있으므로단 층구조분석에비해경제적인분석이라고할수있다. 11) (16) a. head-complement-rule-1 := binary-rule & [ SCAT #2, ARGS < #1, phrase & [ SCAT [ FIRST #1, REST #2 ] ] > ]. b. head-complement-rule-2 := binary-rule & [ SCAT < #1 >, ARGS < #2, phrase & [ SCAT < #1, #2 > ] > ]. c. head-complement-rule-3 := binary-rule & [ SCAT < #1, #3 >, ARGS < #2, phrase & [ SCAT < #1, #2, #3 > ] > ]. d. head-complement-rule-4 := binary-rule & [ SCAT < #1, #2 >, ARGS < #3, phrase & [ SCAT < #1, #2, #3 > ] > ]. (16a) 는핵어의 SCAT 중첫번째요소와핵어의결합을위한규칙 (HCR- 1 12) ) 으로서, 철수 - 가영희 - 를사랑한다와같은문장에서목적어 NP( 영희 - 11) 여기제시된양재형 (2002) 의핵어 - 보충어결합규칙은 ARGS 에두개의요소의결합만을허용하는양분구조의규칙들이며, SCAT value 에보충어들을단선적으로배열하고있으므로, 양분단선구조분석 (Binary Linear Structure Analysis) 이라이름붙일수있을것이다. 10
를 ) 와 V( 사랑한다 ) 의결합과주어 NP( 철수-가 ) 와 VP( 영희-를사랑한다 ) 의결합에공통적으로적용된다. 다만이경우에, 사랑하다 의어휘항목 (lexical entry) 의 SCAT을 < 목적어, 주어 > 의리스트순서로정의해야한다. 13) 이를다음과같이수형도로나타낼수있다. (17) S[SCAT<>] NP[nom] VP[SCAT< >] NP[acc] V[SCAT<, >] 철수 - 가영희 - 를사랑한다 아래의그림은 LKB에서해당문장을입력하여얻은구문분석트리 (Parse Tree) 와구문분석차트 (Parse Chart) 이다. 이중에서, 특히오른쪽의구문분석차트는 HCR-1 과같은적용된규칙명뿐만아니라그적용순서까지도확인할수가있다. (18) 철수 - 가영희 - 를사랑한다의 Parse Tree 와 Parse Chart 한편, (16) b~d 는핵어의 SCAT 중첫번째요소를제외한나머지중한 12) HCR-1 이라는규칙명은원래 head-complement-rule-1 으로되어있던것인데, 구문분석차트의길이가너무늘어나지않도록하기위해필자가축약형으로고쳤다. 규칙명을제외한나머지부분은양재형 (2002) 에서와완전히동일하다. 13) 양재형 (2002) 의동사유형은다음과같다. SCAT의리스트의순서에주목하라. (i) intrans-vlxm := verb-lxm & [ SCAT < NP[nom] > ]. (ii) trans-vlxm := verb-lxm & [ SCAT < NP[acc], NP[nom] > ]. (iii) ditrans-vlxm := verb-lxm & [ SCAT < NP[acc], NP[dat], NP[nom] > ]. 11
요소와핵어의결합을위한규칙들이다 (HCR-2, HCR-3, HCR-4). 먼저규칙 b(hcr-2) 는어휘항목 사랑하다 의 SCAT을 < 목적어, 주어 > 로하였을때, 철수-가 와같은주어가동사와먼저결합하여 철수-가사랑한다 와같은 VP가만들어지도록한다. 이 VP가규칙 a에의해다시 영희-를 과결합함으로써, 영희-를철수-가사랑한다와같은 [ 목적어-주어-동사 ] 순의문장이적형문으로인가되게된다. 아래 (19) 의구문분석차트에서 철수 -가사랑한다 가 HCR-2에의한결합임을확인할수있다. (19) 영희 - 를철수 - 가사랑한다의 Parse Tree 와 Parse Chart 이외에규칙 c(hcr-3) 와규칙 d(hcr-4) 는 3 항동사의둘째혹은셋째 논항의우선결합을인가하고, 충족되지않은두개의논항에대해서는이 후 b-a, 또는 a-a 규칙적용을통해적형문을만들어내도록한다. (20) 꽃 - 을철수 - 가영희 - 에게준다의 Parse Chart 확실히, 이러한분석은 3.1에서살펴본단층구조분석에비해탁월한경제성을보여준다고할수있다. 그러나이러한비교우위는양분분석과 LKB 시스템의태생적궁합에다분히의존하는것으로보인다. 오히려양분단선구조분석의핵어-보충어결합규칙에서우리는몇가지문제점을발견할수가있다. 먼저, 다음의세문장에대한구문분석차트를보자. 12
(21) a. 철수 - 가영희 - 에게꽃 - 을준다의구문분석차트 b. 꽃 - 을철수 - 가영희 - 에게준다의구문분석차트 c. 영희 - 에게꽃 - 을철수 - 가준다의구문분석차트 세문장의구문분석차트를잘살펴보면, 철수가 의결합에관여하는규칙이 (21a) 에서는 HCR-1, (21b) 에서는 HCR-2, (21c) 에서는 HCR-4로문장마다다른반면에, 꽃을 의결합에관여하는규칙은한결같이 HCR-1임을알수있다. 주어는문장안에서의위치에따라다른규칙을적용하고, 목적어는위치와상관없이동일한규칙 HCR-1만을적용하는것이다. 이러한자의적인규칙적용은우리의언어적직관에부합하지못한다. 또한, (21b) 의 HCR-3은수여동사문장에서동사바로앞에나타나는경우의 NP[dat] 와동사핵어의결합에만관여하는규칙이며, 다른위치의 NP[dat] 이나다른격의 NP와동사의결합에대해서는아무런역할도하지않는다. 이와마찬가지로, (21c) 의 HCR-4는동사바로앞에나타나는경우의 NP[nom] 결합만을위해존재하는규칙이다. 반면에, HCR-1은 NP 13
의격에상관없이매우광범위한적용범위를갖는규칙이다. 어떠한문법에서규칙의개수가충분히적다는점은바람직한것이라하겠으나, 얼마되지않는규칙들간의기능부담량이이처럼불균형적인것은좋지않다. 다시말하면, HCR-3과 HCR-4와같은규칙은너무 비싼 규칙이다. 자연언어에서논항을네개이상요구하는경우가있다면 더비싼 규칙들이추가적으로정의되어야한다. (22) SCAT에네개의요소가올수있다고가정할경우필요한규칙들 a. head-complement-rule-5 := binary-rule & [ SCAT < #1, #3, #4 >, ARGS < #2, phrase & [ SCAT < #1, #2, #3, #4 > ] > ]. b. head-complement-rule-6 := binary-rule & [ SCAT < #1, #2, #4 >, ARGS < #3, phrase & [ SCAT < #1, #2, #3, #4 > ] > ]. c. head-complement-rule-7 := binary-rule & [ SCAT < #1, #2, #3 >, ARGS < #4, phrase & [ SCAT < #1, #2, #3, #4 > ] > ]. 또한가지언급할문제점으로 Sag et al. (2003) 의 Head-Complement Rule 과 (16a) 의 HCR-1 과의구조적인차이를들수있다. 아래 (23) 과 (24) 를비교해보자. (23) phrase COMPS < > H word COMPS <, > (24) head-complement-rule-1 := binary-rule & [ SCAT #2, ARGS < #1, phrase & [ SCAT [ FIRST #1, REST #2 ] ] > ]. (23) 은 (16a) 를최대한 Sag et al. (2003) 의규칙형식에가깝게표현한것 이고, 14) (24) 는 (16a) 를다시편의상옮겨적은것이다. 문제는이둘이서 14) COMPS 와 SCAT 은같은자질의다른표현으로간주한다. 14
로다른규칙이라는점이다. 더정확히말하면, Sag et al. (2003) 은아무리해도 (24) 의규칙이표현하는바를표현할수가없다. 앞서규칙들의기능부담량이라는표현을쓰면서관련내용을언급한바가있지만, (24) 의규칙은 SCAT 리스트에논항이하나인경우 ( 자동사 ) 와둘인경우 ( 타동사 ), 그리고셋인경우 ( 수여동사 ) 모두에있어서첫번째논항이동사앞에나올때에이둘을결합시키도록하는규칙이다. LKB에서는이러한규칙의정의가가능하겠지만, 불행하게도 Sag et al. (2003) 의 HPSG에서는그렇지않은것같다. (16) 을 Sag et al. (2003) 과호환되는규칙으로재정의하면다음과같이규칙의개수가 5개로증가한다. (25) a. head-complement-rule-1 := binary-rule & [ SCAT < #2 >, ARGS < #1, phrase & [ SCAT < #1, #2 > ] > ]. b. head-complement-rule-2 := binary-rule & [ SCAT < #1 >, ARGS < #2, phrase & [ SCAT < #1, #2 > ] > ]. c. head-complement-rule-3 := binary-rule & [ SCAT < #2, #3 >, ARGS < #1, phrase & [ SCAT < #1, #2, #3 > ] > ]. d. head-complement-rule-4 := binary-rule & [ SCAT < #1, #3 >, ARGS < #2, phrase & [ SCAT < #1, #2, #3 > ] > ]. e. head-complement-rule-5 := binary-rule & [ SCAT < #1, #2 >, ARGS < #3, phrase & [ SCAT < #1, #2, #3 > ] > ]. 여기서지적하고싶은것은, 결국규칙 1개가더증가한다는점 이아니다. 단층구조분석에비해규칙의수가대폭줄어든것은사실이지만, 위규칙들의 ARGS 구조를들여다보면논항들의위치와결합순서의경우의수만큼규칙이필요하다는근본적인특징은단층구조분석과별반다르지않다는점이다. 이것은단층구조분석 ( 신효필 고성연 2003a,b) 과양분단선구조분석 ( 양재형 2002) 이공통적으로가정하고있는단선구조 (Linear Structure) 의보충어리스트가한국어의자유어순을설명하는데에는적합하지않음을보여준다. 게다가 (23) 의 COMPS에서보듯이실현되지않은리스트값을상위노 15
드의 COMPS 리스트값으로승계하도록하는것이과연 Sag et al. (2003) 의 HPSG의 Head-Complement Rule의변종으로서가능한것인지의문이다. 이것은 Sag et al. (2003) 에서 GAP 15) 을도입한것과방법상유사한듯한데, 철수-가영희-를사랑한다와같은가장무표적인어순의문장에서도실현되지않은논항 철수-가 를중간노드의 VP( 영희-를사랑한다 ) 가자신의 COMPS 리스트값으로갖게되는것을볼때 16), 내용상으로는 GAP의특수성 (topicalized sentence, wh-question, relative clauses 등 ) 과는무관해보인다. 17) 3.3. 양분병렬구조분석 (Binary Parallel Structure Analysis) Sag et al. (2003), 양재형 (2002), 신효필 고성연 (2003a,b) 등이모두 COMPS value의 list(expression) 에논항들을단선적순서 (linear order) 에따라배열하는단선구조분석 (Linear Structure Analysis) 의입장을취한것 18) 과달리, 이논문에서는각논항을 Valence Feature의하위자질 (sub-feature) 로서병렬적으로배치하는병렬구조분석 (Parallel Structure Analysis) 의입장을취한다. 다시말하면, nominative, accusative, dative 등의격을갖는논항들을하나의 COMPS list에직렬로늘어놓지않고, VAL의하위자질 SUBJ, OBJ, S-OBJ를병렬구조로두고, 각각의 value로 list(expression) 을가정한다는것이다. 그리고, 신효필 고성연 (2003a,b) 의단층구조분석 (Flat Structure Analysis) 과달리, 양재형 (2002) 과같은양분구조분석 (Binary Structure Analysis) 을채택 19) 하여과도한규칙의수를줄 15) Sag et al. (2003) 에서 COMPS의리스트값중실현되지않은일부를새로운자질 GAP 의리스트값으로할당하고 GAP Principle을도입하여비국부적의존관계 (nonlocal dependency) 를해소할수가있었다. 16) 영희 - 를철수 - 가사랑한다의 영희 - 를 이주제화되었다고인정한다손치더라도철수 - 가영희 - 를사랑한다의 철수 - 가 가주제화되었다고말하기엔무리일것이다. 17) 오히려신효필, 고성연 (2003) 에서는실현되지않은 COMPS 값을이와같이상위노드의 COMPS 값에남겨두는방식으로관계절을포함한구문분석을시도하여일정한성과를얻었다. 18) 엄밀히말하면, Sag et al. (2003) 의 VFS 는양분구조분석 (binary structure analysis) 와단층구조분석 (flat structure analysis) 간의절충이라고할수있을것이다. 즉, SPR 와 Head 의결합은양분구조로, Head 와 COMPS 의결합은단층구조로분석하는것이다. 16
이고자한다. 이러한접근법을양분병렬구조분석 (Binary Parallel Structure Analysis) 이라고이름붙일수있을것이다. 20) 3.3.1. 양분병렬구조분석의논항가자질구조와규칙 먼저양분병렬구조분석의 Valence 의자질구조를다음과같이제안한다. (26) val-cat SUBJ list(expression) OBJ list(expression) S-OBJ 21) list(expression) 이때 list value 는 없거나, 있으면하나의 NP 만을허용하는것으로보며, 이러한제약은아래의 (27) 에동사어휘소 (verb lexeme) 의자질구조에명 시된다. (27) verb-lxm HEAD verb VAL val-cat SUBJ < NP[nom] > OBJ < ( NP[acc] ) > S-OBJ < ( NP[dat] ) > 19) 이논문이양분구조분석의입장에서는것은리스트구조에바탕을둔머리 - 꼬리 (head-tail) 의양분구조만을허용하는 LKB 의 Typed Feature Structure 의구조적인제약때문이기도하다. Copestake(2002) 참조. 20) 단선 (linear) 과 병렬 (parallel) 을이와같이구분한다면, 신효필 고성연 (2003a,b) 의분석은단층구조분석이라기보다는단층단선구조분석 (Flat Linear Structure Analysis) 라고불릴만하다. 양재형 (2002) 의분석을양분단선, 신효필 고성연 (2003a,b) 의분석을단층단선, 이논문에서제안하는분석을양분병렬이라고할때, 우리는또하나의분석방법의논리적가능성, 즉단층병렬구조분석 (Flat Parallel Structure Analysis) 를떠올릴수있을것이다. 그러나, 병렬 (parallel) 구조자체는하나의 list value 로하나의요소만을가정하기때문에 단층병렬구조 는성립하지않는다. 21) 처음에는 SUBJ, OBJ, DAT 와같은자질로표시하였는데, DAT 는문법관계 (grammatical relation) 를나타내는명칭으로부적합하므로 S-OBJ(secondary object) 로수정하였다. 이부분에대한유은정선생님의지적과조언에감사드린다. 17
위 (27) 을바탕으로하여, 동사의유형은동사가요구하는논항의개수와 제약에따라다음의세종류로구분된다. (28) a. 자동사 : 가다, 자다 intrans-vlxm := verb-lxm & [ HEAD verb, VAL val-cat & [ SUBJ < NP[nom] >, OBJ < >, S-OBJ < > ] ]. b. 타동사 : 사랑하다, 때리다 trans-vlxm := verb-lxm & [ HEAD verb, VAL val-cat & [ SUBJ < NP[nom] >, OBJ < NP[acc] >, S-OBJ < > ] ]. c. 수여동사 : 주다, 보내다 ditrans-vlxm := verb-lxm & [ HEAD verb, VAL val-cat & [ SUBJ < NP[nom] >, OBJ < NP[acc] >, S-OBJ < NP[dat] > ]. 이러한접근법에서가정하는문장의기본구조를 (5), (10), (17) 과비교가 가능하도록 (1) 의두문장에대한예로써제시하면다음과같다. (29) a. S[SUBJ<>, OBJ<>] NP VP[SUBJ< >, OBJ<>] NP V[SUBJ< >, OBJ< >] 철수 - 가영희 - 를사랑한다 b. S[SUBJ<>, OBJ<>] NP VP[SUBJ<>, OBJ< >] NP V[SUBJ< >, OBJ< >] 영희 - 를철수 - 가사랑한다 18
(28) 의동사유형에따른논항들의실현을위해서는주어-핵어결합규칙 (Subject Valence Rule), 목적어-핵어결합규칙 (Object Valence Rule), 이차목적어-핵어결합규칙 (S-Object Valence Rule) 이각각다음과같이정의되어야한다. (30) a. subj-valence-rule := binary-phrase & [ HEAD verb, VAL.SUBJ < >, VAL.OBJ #2, VAL.S-OBJ #3, ARGS < #1, phrase & [ HEAD verb, VAL.SUBJ < #1 >, VAL.OBJ #2, VAL.S-OBJ #3 ] > ]. b. obj-valence-rule := binary-phrase & [ HEAD verb, VAL.SUBJ #1, VAL.OBJ < >, VAL.S-OBJ #3, ARGS < #2, phrase & [ HEAD verb, VAL.SUBJ #1, VAL.OBJ < #2 >, VAL.S-OBJ #3 ] > ]. c. dat-valence-rule := binary-phrase & [ HEAD verb, VAL.SUBJ #1, VAL.OBJ #2, VAL.S-OBJ < >, ARGS < #3, phrase & [ HEAD verb, VAL.SUBJ #1, VAL.OBJ #2, VAL.S-OBJ < #3 > ] > ]. 19
ARGS에서실현되는논항을제외하면, head daughter의나머지 VAL 자질은 mother의 VAL 자질과동일해야함을알수가있다. 이것은이논문에서제안하는바와같이 VAL의자질구조와규칙을바꾸어도, Sag et al. (2003) 의 Valence Principle( 각주 22 참조 ) 은여전히만족된다는것을보여준다. 3.3.2. LKB 에기반한양분병렬구조분석의구현 이제 (30) 의 3개규칙만으로 (13)~(15) 의 9개규칙이담당했던핵어와보충어간의결합기능을온전히수행할수가있다. 이와관련하여 LKB에서다음 9개문장을어떻게구문분석하는지그실제를살펴보도록하자. (31) 는자동사문형을새로제시한것이고, (32), (33) 은 (1), (2) 를편의상다시쓴것이다. (31) 철수 - 가잔다. (32) a. 철수 - 가영희 - 를사랑한다. b. 영희 - 를철수 - 가사랑한다. 20
(33) a. 철수-가영희-에게꽃-을준다. b. 철수-가꽃-을영희-에게준다. c. 꽃-을철수-가영희-에게준다. d. 꽃-을영희-에게철수-가준다. e. 영희-에게철수-가꽃-을준다. f. 영희-에게꽃-을철수-가준다. <Parse Trees> <Parse Charts> 21
(31)~(33) 의 9개문장에대해신효필, 고성연 (2003b) 의단층단선구조분석에서는 9개의규칙으로설명하였고, 양재형 (2002) 의양분단선구조분석에서는문장성분별로일관성이없는 4개 ( 또는 5개 ) 의규칙으로설명하였지만, 이논문에서제안한양분병렬구조분석은 (30) a~c의 3개의규칙만을이용하여이들규칙의다양한조합을만들어냄으로써다양한문형과자유어순에대해일반적이고경제적인분석을하는데에성공하고있다. 여기에첨가어의결합까지를고려하면, 양분병렬구조분석의일반성과경제성이더욱잘드러날수있다. (12) 에서설명한것처럼, LKB를이용한단층구조분석이 3항동사, 2개첨가어까지고려할때 116개의규칙이필요한것과달리, 양분병렬구조분석은 (30) 의규칙들과유사한첨가어-핵어결합규칙 (Adjunct Rule) 1개만을더필요로할뿐이다. (34) a. 첨가어결합규칙 adjunct-rule := binary-phrase & [ HEAD verb, VAL.SUBJ #1, VAL.OBJ #2, VAL.S-OBJ #3, ARGS < NP[adjunct], phrase & [ HEAD verb, VAL.SUBJ #1, VAL.OBJ #2, 22
VAL.S-OBJ #3 ] > ]. b. 첨가어 (adjunct) 의결합예시 : 철수 - 가까페 - 에서영희 - 에게꽃 - 을선물 - 로준다. 4. 양분병렬구조분석과 HPSG 이절에서는 3.3에서제안한문법이기존 HPSG(Sag et al. 2003) 이론에대해갖는함의를살펴보고, 보편문법의관점에서 3.3의제안에대한일반화를시도하려한다. 3.3에서제안한 Subject Valence Rule, Object Valence Rule, S-Object Valence Rule의세가지규칙들은한국어에서동사핵어와그논항들의결합을설명하는데에적합한경제적인방안임에틀림없다. 22) 그러나이들세규칙이대체한 HPSG의 Head-Specifier Rule과 Head-Complement Rule은동사핵어에만국한되는규칙이아니라, NP, VP, AP, ADVP 등의모든구 (phrase), 이른바 XP에두루통용되는일반규칙이었다. (3), (4) 의 22) 또한이규칙들은다음과같은기본원리를모두충족시키는규칙들이다. Sag et al. (2003) 참조. l Head Feature Principle (HFP) In any headed phrase, the HEAD value of the mother and the HEAD value of the head daughter must be identical. l Valence Principle Unless the rule says otherwise, the mother's values for the VAL features are identical to those of the head daughter. 23
HSR 과 HCR 을앞으로의논의전개를위해여기에다시옮겨제시한다. (35) Head-Specifier Rule phrase SPR < > H SPR < > COMPS < > A phrase can consist of a (lexical or phrasal) head preceded by its specifier. (36) Head-Complement Rule phrase COMPS < > H word COMPS <,..., >... A phrase can consist of a lexical head followed by all its complements. SUBJ, OBJ, S-OBJ와같은자질을병렬적으로구분하여얻을수있었던규칙기술의경제성과 SPR, COMPS와같은자질로써얻을수있었던모든구구조에대한설명의일반성을동시에얻을수는없을까? 다음과같이자질의이름을바꾸면두접근법의장점을함께살릴수있을것이다. (37) val-cat SPR COMP 1 COMP 2 list(expression) list(expression) list(expression) Sag et al. (2003) 과 3.3 (26) 의 VFS 로부터이둘을절충한새로운자질 구조를보이면다음과같다. 24
(38) Sag et al. (2003) 3.3 양분병렬구조분석의제안 val-cat SPR list(expression) COMPS list(expression) val-cat SUBJ OBJ S-OBJ list(expression) list(expression) list(expression) 3.3 제안의수정 val-cat SPR COMP 1 COMP 2 list(expression) list(expression) list(expression) 23) OBJ와 S-OBJ를각각 COMP1, COMP2와같은일반적자질로바꿈으로써, 기본타동사문과기본수여동사문이외의다양한모든구문 ( 지정사문, 존재사문, 사동사문등 ) 을표현하는것이가능해진다. (38) 에서제안된자질구조를바탕으로, Sag et al. (2003) 의 HSR과 HCR을다음 (39) 와 (40) 과같이수정할수있다. (39) Head-Specifier Rule (revised) 23) 보다일반적으로는다음과같이보충어의개수를제한하지않을수도있을것이다. val-cat SPR COMP 1 COMP 2 COMP n list(expression) list(expression) list(expression) list(expression) 25
phrase SPR < > H SPR < > (40) Head-Complement Rule (revised) phrase COMP n < > H COMP n < > 위 (39) 의수정된 HSR을보면, COMPS( 수정제안된구조에서는 COMP 1 과 COMP 2 에해당함 ) 의 value에대한언급이없다는점이기존 Sag et al. (2003) 의 HSR인 (35) 와다르다. 한국어에서는명시어 ( 주어 ) 가보충어보다먼저핵어와결합할수도있기때문이다. (40) 은 Sag et al. (2003) 의 HCR과비교하여, 핵어가 word여야한다는제약이없다. 또한 COMPS 대신 COMP n 으로표시하여, COMP 1 결합규칙, COMP 2 결합규칙, COMP 3 결합규칙등을하나의규칙형식으로나타내었다. 일종의표기규약을이용한것이다. 규칙 (39) 를언어보편적 HSR로가정하여, 한국어에서는이규칙을그대로적용하고, 영어의 HSR은이규칙에서우변의핵의 COMP value가모두 empty여야한다는제약을추가하여적용하면될것이다. (41) English Head-Specifier Rule SPR < > phrase SPR < > H COMP 1 < > COMP 2 < > COMP n < > 규칙 (40) 도언어보편적 HCR 로가정하여, 한국어에서는이규칙을그대 로적용하고 24), 영어의 HCR 은이규칙에우변의핵의 SPR value 가반드 시 non-empty 여야한다는제약을더한다. 영어의적형문에서는핵어가명 24) (39) 와 (40) 에서 SPR 과 COMP 가그이름만다를뿐실제행동은동일하다는점에서, 과연한국어에서주어를보충어가아닌명시어로구분할필요가있는지의문이다. 26
시어와결합하기이전에먼저모든보충어들과결합해야하기때문이다. (42) English Head-Complement Rule 25) phrase COMP n < > H SPR < X > COMP n < > 이러한판단의기저에는, 어순이자유로운언어는그만큼어순을결정짓는규칙에제약이적을것이라는가정이놓여있다. 그러나이러한분석이보편적타당성을얻기위해서는문장의어순과 Valence 구조의상관관계에대한유형론적인연구가뒷받침되어야할것이다. 5. 맺음말 지금까지한국어의자유어순을효율적으로처리하기위하여, 양분병렬구조분석의입장에서새로운 VFS를도입하고이를 LKB에서구현하여그타당성을검증하여보았다. 양분병렬구조분석은단층구조분석이나양분단선구조분석에비해규칙의개수가적어경제적이고 Sag et al. (2003) 에서제시한기본구조및원리를크게벗어나지않는다는점에서도더나은것같다. 이논문에서제안한자질과구조에대한이론적연구와유형론적인비교연구는앞으로의숙제라하겠다. Selected Reference 김종복 양재형. 2004. 조동사복합술어구문분석및전산학적구현. 어학 연구 40-1. 서울대학교언어교육원. 25) (42) 의영어 HCR 은보충어들간의고정된순서를표현하지못하므로불완전하다. 이를구현하기위해서는, 최대 2 개까지의보충어를가정할때, 이들보충어각각에대해하나씩의 HCR 규칙이필요하다. 이러한영어의규칙수의증가가단점으로보일수도있으나, 양분병렬구조분석을이용하면 GAP 과관련된규칙의수를줄일수가있게되어결국은전체규칙수를감소시킨다. 그러나, 이내용에대한자세한논의는지면의한계상생략한다. 27
신효필 고성연. 2003a. LKB로구현한한국어단층구조 (Flat Structure) 분석. 한국언어정보학회 2003년학술대회발표논문집. 신효필 고성연. 2003b. LKB(Linguistic Knowledge Building) 에기초한한국어단층구조구현. 미발표원고. 양재형. 2002. LKB - Applications for Korean. 한국언어정보학회구구조문법연구회 2002-2학기연구발표회발표자료. 장석진. 1993. 정보기반한국어문법. 언어와정보. Copestake, Ann. 2002. Implementing Typed Feature Structure Grammars. CSLI Publications. Sag, Ivan A., Thomas Wasow, and Emily M. Bender. 2003. Syntactic Theory: A Formal Introduction, second edition. CSLI Publications. 28
영문제목 : An LKB Implementation of Free Word Order Variations in Korean 29