92 정보과학회논문지 : 소프트웨어및응용제 36 권제 1 호 (2009.1) 한국어어휘의미망 KorLex 1.5 의구축 (Construction of Korean Wordnet KorLex 1.5 ) 윤애선 황순희 이은령 권혁철 (Aesun Yoon) (Soonhee Hwang) (Eunryoung Lee) (Hyuk-Chul Kwon) 요약 1980년대중반부터지난 20여년간구축해온영어워드넷 (PWN) 은인간의심상어휘집을재현하려는목적으로개발되기시작하였으나, 그활용가능성에주목한것은자연언어처리와지식공학분야다. 컴퓨터매개의사소통 (CMC), 인간-컴퓨터상호작용 (HCI) 에서인간언어를자연스럽게사용하여필요한정보를획득하기위해서는의미와지식의처리가필수적인데, 그해결의실마리를어휘라는실체를가진언어단위에서찾을수있기때문이다. 이후전세계적으로약 50개언어의어휘의미망이 PWN을참조모델로구축되어다국어처리의기반을제공할뿐아니라, 시맨틱웹이후더욱주목받고다양한방식으로활용되고있다. 이논문은 PWN을참조모델로 2004년부터 2007년까지구축한한국어어휘의미망 KorLex 1.5를소개하는데있다. 현재 KorLex는명사, 동사, 형용사, 부사및분류사로구성되며, 약 13 만개의신셋과약 15만개의어의를포함하고있다. 키워드 : 워드넷, 어휘의미망, 코렉스, 한국어정보처리, 다국어처리, 지식공학, 온톨로지 Abstract The Princeton WordNet(PWN), which was developed during last 20 years since the mid 80, aimed at representing a mental lexicon inside the human mind. Its potentiality, applicability and portability were more appreciated in the fields of NLP and KE than in cognitive psychology. The semantic and knowledge processing is indispensable in order to obtain useful information using human languages, in the CMC and HCI environment. The PWN is able to provide such NLP-based systems with 'concrete' semantic units and their network. Referenced to the PWN, about 50 wordnets of different languages were developed during last 10 years and they enable a variety of multilingual processing applications. This paper aims at describing PWN-referenced Korean Wordnet, KorLex 1.5, which was developed from 2004 to 2007, and which contains currently about 130,000 synsets and 150,000 word senses for nouns, verbs, adjectives, adverbs, and classifiers. Key words :WordNet, Lexical Semantic Network, Korean Language Processing, Multilingual Processing, Knowledge Engineering, Ontology 이논문의작성은 2007년정부 ( 교육과학기술부 ) 의지원 ( 과학재단 R01-2007-000-20517-0) 의지원을받음 비회원 : 부산대학교불어불문학과 / 인지과학협동과정교수 asyoon@pusan.ac.kr 비회원 : 부산대학교인문학연구소연구교수 soonheehwang@pusan.ac.kr 비회원 : 부산대학교인문학연구소 HK연구교수 eunryounglee@pusan.ac.kr 종신회원 : 부산대학교정보컴퓨터공학부교수 hckwon@pusan.ac.kr 논문접수 : 2008년 8월 18일심사완료 : 2008년 11월 7일 CopyrightC2009 한국정보과학회ː개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회논문지 : 소프트웨어및응용제36권제1호 (2009.1) 1. 서론인간은주변환경을어떻게인지하고, 그것을지식화하며, 그지식을다른사람과공유하는가? 이미획득된지식을바탕으로새로운지식을어떻게추론하고, 새로운상황에그지식을적용하는가? 언어는그지식을어떤방식으로추상화하는데이바지하는가? 인간이라는종의개체생존에직결되는근원적인문제다. 고대철학에서부터현대인지과학 (cognitive science) 에이르기까지이에대해단편적이지만다양한답을제시하고있다. 그시도중하나가심리학분야에서인지과학의초석을제공한밀러 (G. Miller) 의워드넷 (WordNet, 이하 PWN) 이다 [1,2]. 지식을구성하는기본단위가개념 (concept) 이며, 단어또는어휘를통해그개념을언어화할수있고, 어휘가심리학적실재를가진기억의최소단
한국어어휘의미망 KorLex 1.5 의구축 93 위 라는자신의이론을바탕으로, 지식의기본단위간다양한의미관계를계층적망 (hierarchical network) 형태로설정한것이다. 1985년부터영어를대상으로본격적으로시작된연구와구축은 20여년이지난지금까지도계속되고있으며, 자연언어처리 (Natural Language Processing) 의의미연구에초석을마련하였다. 2008년현재전세계적으로약 50개언어의어휘의미망 (lexical semantic network) 이 PWN을모델로삼아구축되어다국어처리 (multilingual processing) 의기반을제공하고있다 [3]. 또한, 개별언어의특성을넘어선보편적개념망과의사상 (mapping) 이매우활발하게이루어져왔고, 구글의의미검색시스템에적용되기도하며, 시맨틱웹 (Semantic Web) 이등장하면서더욱주목받기시작했다. 폭발적으로늘어나고다양화되는컴퓨터매개의사소통 (CMC), 인간-컴퓨터상호작용 (HCI) 에서인간언어를자연스럽게사용하여필요한정보를획득하려면의미와지식의처리가필수적인데, 그해결의실마리를 어휘 (word) 라는실체를가진언어단위에서찾으려고한다. 한국어를대상으로어휘의미망을구축하기시작한것은 90년대중반부터다 [4]. 이중 PWN을참조한것은 한국어시소러스 와 KorLex(Korean Lexico-semantic Network) 다 ([ 표 1] 참조 ). 1997년-2000년에개발된전자는 PWN 중일부명사를대역 (translation) 한시제품적특성을띠었다 [5]. 2004년부터개발되기시작한후자는 2004년 10월 PWN의명사를대역한 KorLexNoun 1.0을공개한데이어 [6], PWN의구축범위를포괄하는동시에한국어에특히발달한내용어 (content words) 범주인분류사 (classifier) 를추가하고, 구축방법론에서도대역단계를넘어한국어의의미특성을잘반영할수있는어휘의미망을구축하고자하며, 앞으로이노력은지속적으로확장될예정이다. 이논문의목적은 2007년 11월에발표된 KorLex 1.5 를소개하는데있다. 2장에서는 KorLex의모델이된 PWN의개발배경, 정보구조, 활용현황을소개하고, 3 장에서는 KorLex 1.5의구축방법론및정보구조를설명하며, 4장에서는향후연구및개발방향을제시한다. 2. PWN 의개발배경과현황어휘가표상하는의미간의관계를표상하려는 PWN 의구축대상은영어내용어였고그중에서도명사와동사에주된초점을맞추었다. 첫결실인 1.0은 1991년도에발표되었으며, 1995년의 1.5은 EWN의참조모델이되면서다국어처리가능성을열어놓게된다. 거의같은시기에발표되는어휘의미망, 시소러스, 개념망등과의사상 (mapping) 이활발하게일어나고, 2003년에 2.0이발표된다. 이후소규모의수정과보완작업이반영된 2.1(2005년 ), 2.1의 Unix용인 3.0(2006년 ) 이발표되면서, 다양한분야에서그활용가치를인정받고있다. PWN 의버전중다른어휘망이나개념망에영향을많이끼친것은 1.5과 2.0이다. 2004년도에구축하기시작한 KorLex는기본적으로 PWN 2.0을모델로삼고, PWN 에서발표한 2.0 2.1 3.0의신셋간사상표을함께제공한다. 이논문에서는 KorLex 1.0와 1.5의참조모델인 PWN 2.0 및 2.1의특성을중심으로기술하겠다. 2.1 신셋 : 개념의표상단위 PWN에서개념을표상하는최소단위를 동일한어휘의미 (word meaning, 이하어의 ) 를가지는동의어집합 (synonym set, 이하신셋 ) 으로규정하면서, 개념 = 어휘의세분화된의미 라는등식이성립하게된다. 예를들어, 표 2와같이다의어 report 의여러어의가각각 paper, story, study 등 의특정한어의와동의관계를이룬다면, 동일한어의를 {report6, paper2} 등으로묶어표현함으로써중의성이없이하나의개념을표상한다 [1]. 이때다의어의어의구분은어휘형태 ( 이하, 어형 ) 뒤에아라비아숫자로표시한다. PWN은 어형 : 어의 의多 : 多관계를최대한세분화하여표시할수있으며, 개념을명명하는데자연언어와구분되는메타언어를따로설정해야하는부담이없다는장점이있다 [1]. PWN 에서어의는 1 신셋이표현하는개념과 2 신셋집합을구성하는원소를모두의미할수있다. 이하글에서는용어의혼동을피하기위해전자는 신셋 으로, 후자는 어의 로구분하여사용하겠다. 따라서어의는특정어형과밀접한관련을맺는다. 예를들면, {report1, 표 1 대표적인국내어휘의미망 ( 발췌 ) 명칭 중심구축기관중심구축자전공구축기간 구축방식 / 참조모델의미 / 개념 (n) vs 어의 (w) 수구축품사 한국어명사워드넷 [4] 호남대학교 전산학 1994-1995 직접 20,000w 명 세종전자사전 [7,8] 서울대학교 언어학 1998-2007 직접 581n vs. 540,000w 모든품사 U-Win[9,10] 울산대학교 전산학 2002-2007 직접 46,339n vs. 약250,000w 모든품사 한국어시소러스 [5] 포항공과대학전산학 1997-2000 참조 /PWN 18,362n vs. 21,390w 명 KorLex 1.5[11,12] 부산대학교 전산학 / 언어학 2004-현재 참조 /PWN 130,639n vs. 147,906w 명, 동, 형, 부, 분류사 다국어어휘데이타베이스 [13] 고려대학교 언어학 2000-2006 참조 /EWN 5,500w 명 CoreNet[14] KAIST 전산학 / 언어학 1995-2004 참조 /NTT어휘대계 2,938n vs. 62,632w 명, 동, 형
94 정보과학회논문지 : 소프트웨어및응용제 36 권제 1 호 (2009.1) 표 2 어의와어형의대응관계어형 report paper story study... 신셋 { 어의 } {report6, paper2} {report2, story5} {report1, study3} {report,...} study3} 은 a written document describing the findings of some individual or group 이라는개념을나타내는신셋이고, report1 과 study3 는이개념을각각 report, study 라는어형으로실현하는어의이다. PWN 1.5까지품사별신셋, 어형, 어의의구체적인통계자료는남아있지않다. 다만워드넷의검색시스템을개발한텐지 (R.I. Tengi) 에의하면 1992년에발표된 PWN 1.2판에는약 52,000개신셋과 102,000개어의가개발되고, 1995년의 PWN 1.5판에는약 91,600개신셋과 168,000개어의를포함한다고한다 [1]. 표 3은통계자료가남아있는 PWN 2.0판, 2.1판, 3.0판의자료크기를보여준다 [2]. 2.2 의미표상구조 PWN의큰장점중의하나로신셋간, 어의간의의미관계를표 4처럼매우다양하고풍요롭게표현한점을들수있다. ( 표 4에서편의상다의어구분번호는표시하지않는다.) 동의 (synonymy) 는 PWN의가장기본적인관계로한신셋을구성하는 2개이상의어의를맺는전제조건이며, 모든품사에적용된다. 명사와동사의경우, 각신셋은하의 (hyponymy) 는상의 (hypernymy) 와함께쌍을이루어 IS-A 방식의계층관계로나타낸다. 상위어는총체적이고보편적의미자질을하위어에물려주고, 하위어는이를승계 (inherit) 하고직접상위어를구별해줄자질을적어도하나이상추가하여가지는방식이다. PWN 2.0 에서는 11개의최상위개념 (unique beginners) 에서출발하여실제최대 17개층위, 동사는최대 12개층위로구성된다. (PWN을소개하는문서에서는명사와동사의최대층위를각각 12개, 4개라고하나실제자료와는다르다.) PWN 2.1 명사는, 최상위개념을 {entity} 라는 1 개로묶는시도를하였다. 또한, 명사와동사의신셋은각각 25개와 15개의미 분류 (semantic domain) 로구분한다. 명사가 1개의최상위개념에서시작하는대신, 동사는다수의상층개념에서시작하여넓고얕게분포되어있다. 또한 1개의의미분류가여러개의최상위개념을갖는것이일반적이다. 예를들어, possession 에분류되는동사의어의는 {transfer5}, {get1, acquire1}, {have1, hold6} 처럼 3개의최상위신셋과연결된다. PWN에서는이런의미분류를 사전편찬자파일 (lexicographers' file) 이라고부른다. 이러한명칭과처리방식은 PWN이개발되던시기인 80년대후반-90년대초반의낮은컴퓨터저장및처리능력과도관계가있다. 반의 (antonymy) 는명사와동사에도표현되기도하나, 형용사와부사에서는방사형핵구조를형성한다. 즉반의관계를갖는 2개또는 3개어의가핵 (head) 을이루고각각의핵은유의 (similar) 관계신셋과방사형구조를갖는다. 이는심리학의단어연상실험에서형용사가제시되었을때많은사람들이반의어를떠올리는것을관찰한심리학연구결과를반영한것이다. PWN에서반의는신셋이아닌어의간관계로정의한다. 전의 (holonymy) 와분의 (meronymy) 는짝을이루어명사의전체-부분관계를표현한다. 분의는구체적으로부분 (component), 집합의구성소 (member), 물질 (substance) 등 3개의종류로구분한다. 전체-부분관계를명사에서전의 / 분의로표현한다면동사에서는함의 (entailment) 로나타낸다 [1]. 함의는내포 (proper inclusion), 전제 (presupposition), 양식 (troponymy), 인과 (cause) 등을단방향적관계로표현한다. 즉, 한행위 (V1=snore, amble, divorce, kill) 가다른행위 (V2=sleep, walk, marry, die) 를내포, 실현, 전제하고결과로삼지만 (V1->V2), 역은참이아니며 (V2/->V1), 동시에 V2가성립하지않으면 V1도성립하지않는다 ( V2 -> V1). 내포와양식관계에서 V1과 V2는동시성을갖고, 전제관계에서는 V2가 V1에선행하고, 인과관계에서는 V1이 V2 에선행한다 [1]. 이러한의미관계는계층구조나핵구조와는별도로기술된다. 속성 (attribute) 은 length - long, short 처럼명사-형용사간속성자질과그자질값 (value) 과의관계를연결한다. 영역 (domain) 은모든품사에서해당신셋의전문분야 (topic), 지역 (region), 어법 (usage) 정보를표현한 표 3 PWN 버전별구축크기 버전발표 명동형부계연도어형신셋어의어형신셋어의어형신셋어의어형신셋어의어형신셋어의 2.0 2003 114,648 79,689 141,690 11,306 13,508 24,632 21,436 18,563 31,015 4,669 3,664 5,808 152,059 115,424 203,145 2.1 2005 117,097 81,426 145,104 11,488 13,650 24,890 22,141 18,877 31,302 4,601 3,644 5,720 155,327 117,597 207,016 3.0 2006 117,798 82,115 146,312 11,529 13,767 25,047 21,479 18,156 30,002 4,481 3,621 5,580 155,287 117,659 206,941
한국어어휘의미망 KorLex 1.5 의구축 95 의미관계관련품사예 동의 명, 동, 형, 부 {board, plank} {rise, ascend} {sad, unhappy} {rapidly, speedily} 표 4 신셋및어의간의미관계 하의 / 상의명, 동 plant -> tree -> maple -> sugar maple 반의 명, 동, 형, 부 wet <-> dry rapidly <-> slowly 유의형 wet - watery, damp, moist, humid, soggy 전의 / 분의 함의 명 동 부분구성소물질 내포양식전제인과 hat > brim fleet > ship milk > protein snore - sleep amble - walk divorce - marry kill - die 속성명 - 형 length - long, short 영역 참조 동일어근 부속 파생 관련 형, 명, 부, 동 전문분야 지역정보 어법 chaotic-physics pas-ballet largo-music scroll-computer science blae-scotland karate-japan jolly-britain scrimshank-britain commodious-archaicism bloomers-plural bang-colloquialism dandle-blend 형 true - correct, faithful, honest, sincere 표시단위신셋어의 동 pay - pay off 명 - 형 형 - 부 동 - 명 icon - iconic (hearing - auditive) usual - usually unusual - unusually press-pressure point-point break-breaking 분사동-형 break-broken 동사군동 {come to, resuscitate, revive}-{resuscitate, revive} 다. 참조 (also see) 는형용사에서는핵을이루는신셋간의의미관계를표현하나, 동사에서는동사어의간관계를나타내며동사의특정한의미와이와관련을맺고있는 동사 + 전치사 / 부사 로구성된연어를연결한다. 의미가승계되는품사간연계는명-> 형, 형-> 부, 동 -> 명, 동-> 형네경우에표시되고, 이를각각부속 (pertain), 파생 (derive), 관련 (relate), 분사 (participle) 로칭한다. 전자는명사에서파생된형용사나 (icon -> iconic), 어근이다르나동일한참조물을지칭하는명사와형용사의관계를나타내나 (hearing - auditive), 후자 3개의경우는어근이동일한파생관계만을나타낸다. 분사는동사와이것의현재분사나과거분사에서파생된형용사와의관계를표현한다. 이밖에도동사군 (verb group) 은통계적으로유사한의미를나타내는동사신셋을연결한다 [2]. 2.3 개별언어의존적정보 PWN에는개념관계이외에도영어에만적용되는범주 파생 통사정보를포함하는데, 다른언어에서는유효성을갖지못한다. 첫째, PWN의기본골격을형성하는개념을명 동 형 부사 4개의문법범주로구분한다. 이러한범주화는언어에따라달리구현될수있는데, 예를들어한국어에서는동사와형용사일부를용언
96 정보과학회논문지 : 소프트웨어및응용제 36 권제 1 호 (2009.1) 으로통합할수도있을것이다. 둘째, 앞절에서살펴본부속, 파생, 관련, 분사관계및동사참조관계의대부분예는어의단위로동일한어근의파생관계에기초한다 ( 예 : determine-determination, number-numeral, usualusually, break-breaking, give-give off). 셋째, 동사신셋의각어휘의미에 35개의매우간략한문장격틀 (sentence frame) 정보를제공한다 ( 예 : Somebody ----s something to somebody; It ----s that CLAUSE). 넷째, 형용사의사전편찬자파일은명사나동사와는달리의미분류가아닌파생관계로구분되어있다. 형용사의사전편찬자파일은 2개 (adj.all, adj.pert) 로나누는데, 후자는명사에서파생된형용사를모은것이고전자는그밖의형용사집합이다. 이를보완수정하기위해, PWN에기반한독일어어휘의미망에서는형용사의의미분류를 15개로구분한다 [15]. 다섯째, 예의 수가매우제한적이기는하지만, 형용사와피수식어간어순에관한정보 ( 예 : 술어위치, 명사앞, 명사뒤 ) 를제공한다. 2.4 신셋의정보구조신셋의정보는표 5처럼표현되며, 이를구성하는표지는표 6과같이, ID번호, 의미분류, 품사, 해당신셋을구성하는어의의수, 의미식별자가달린어의, 해당신셋이맺고있는의미관계의수, 각의미관계를구체적내용, 문형정보의수및각문형정보내용과함께수의적인요소로정의문과예문을나타낸다. 2.5 장점과한계위와같은 PWN의특성은동시에장점과한계로작용한다. 첫째, 개념 = 어휘의미 이라고정의함으로써 PWN이언어보편성을갖기에는개념의크기가지나치게작고, 어 표 5 PWN 신셋정보표지 00935309 32 v 02 report_5 cover_2 008 @ 00831651 v 0000 + 06683784 n 0201 + 07217924 n 0101 + 06681551 n 0101 + 10521662 n 0101 + 06683784 n 0103 + 06683784 n 0102 $ 00967455 v 0000 03 + 08 00 + 09 00 + 22 01 be responsible for reporting the details of, as in journalism; "Snow reported on China in the 1950's"; "The cub reporter covered New York City" 표 6 PWN 신셋정보표지의내용 구분 표지 내용 신셋 ID 00935309 의미분류 32 verb.communication 신셋의품사 v 동사 신셋구성어의수 02 2개 report 어형신셋구성어의 report_5 cover_2 5 해당품사에서다의어를구분하는식별자의미관계수 008 8개의의미관계가짐 의미관계 @ 00831651 v 0000 + 06683784 n 0201 @ 해당신셋의상위관계임 00831651 상위신셋ID v 상위신셋의품사 0000 이의미관계는신셋간관계임 + 해당신셋과파생관계임. 06683784 파생관계신셋 ID n 파생관계신셋의품사 0201 파생관계는해당신셋 2번째어의 (cover_2) 와파생신셋 1번째어의 (coverage_0) 간의관계임. 문형정보수 03 이신셋에속하는어의는총 3개의문형정보를가짐 구분자 + 문형정보시작 08 적용문형 (Somebody ----s something) 08 00 00 해당신셋의첫번째어의 (00) 에적용됨문형정보 22 적용문형 (Somebody ----s PP) 22 01 01 해당신셋의두번째어의 (01) 에적용됨구분자 정의문시작 정의문 be responsible for reporting the details of, as in journalism 구분자 ; 예문시작 예문 "Snow reported on China in the 1950's"
한국어어휘의미망 KorLex 1.5 의구축 97 휘와개념간의구분이명확하게이루어지지않는다는비판을받는다 [16]. 하지만개념을메타언어로새롭게명명해야하는부담을덜수있을뿐아니라, 영어로기술된텍스트에서좀더직접적인방식으로의미와지식을추출할수있다. 둘째, PWN의표제어수가약 15만개이고한표제어당다의어수가약 1.4개정도되는중형사전에해당한다. 중형사전은해당언어를모국어로사용하는보통화자가일반적인텍스트를이해하는데필요한언어정보를담고있다 [17]. 아무리정교한언어 / 지식정보라고하더라도충분한양이구축되지않으면, 자연언어처리나지식처리에실제로사용하기어렵다는점을감안할때, PWN의크기는지식처리에필요한배경지식이나상식을구성하거나자연언어처리분야의실용적인시스템을개발하는데유용하다. 이러한범용성때문에 PWN 자체에는전문분야가적게포함되어있으나, 특정전문분야온톨로지나어휘의미망을만들때 PWN은초기상위구조를제공할수있다. 셋째, PWN 명사와동사의계층적구조는상위노드의의미자질을하위노드가계승하게함으로써, 언어 / 지식처리의효율성을기할수있다. 하지만계층적구조는잘알려진 테니스문제 (tennis problem) 를안고있다 [1]. 테니스를칠때일어나는사건 (event) 에는테니스채, 공, 선수, 심판, 관객, 코트, 의복등다양한구성요소가개입하게되는데, PWN의계층성으로이들이서로관련있다는점을표현할수없다. 이단점을보완하기위해서, PWN 정의문을의미태깅하여서로연결함으로써동일어휘 / 개념장내부의관련정보를나타낼수있는자질을망구조로표시하는방식이제안되었고 [18], 지속적으로다른어휘망 / 개념망 / 온톨로지의정보를 PWN 에연동하는시도가있었다 [2]. 방사형핵구조로개발된 PWN 형용사의경우, 반의어를연상하는심리적실재를반영하지만그결과를바로언어 / 지식처리에활용하기가쉽지않다. 따라서활용의편의성을위해 PWN 을참조한독일어어휘의미망 (GermaNet) 의경우, 형용사의구조를계층적으로재구성하였다 [15]. 넷째, 표 4에정리된신셋 / 어의간의미관계가다양하고풍요롭지만, 일부의미관계는불투명하고부분적이다. 우선, 반의를어형과밀접한관계를맺고있는어의단위로설정한것은 PWN이직간접적으로참고한사전의전통과의미세분화의결과에서비롯된임시방편적인정의다. 예를들어 move downward and lower, but not necessarily all the way 로정의되는신셋 {fall2, descend1} 의반의어로각각 rise1( move upward ) 과 ascend1( travel up ) 을연결해놓았다. 하지만반의가의미나개념의차원에서정의될수있는것이라면, 1 이두어의는다른신셋에속하므로다른개념을표현하며, 2 역으로각각의어의와동일한신셋을이루는어의와의연계성은고려의대상이되고있지않다는점에서논리적모순을야기할수있다. 따라서 PWN의반의관계에대한보완연구와정제가필요하다. 또한형용사의참조 (see also) 와동사군 (verb group) 은좀더명확한정의를필요로한다. 동사군의관계설정이제한된범위에만적용된다는언급만있을뿐, PWN의문서나논문에동사간유사한의미를측정하는통계적인방법이나형용사의참조관계를검증하는방식에대한명시적인기술이없다. 그리고동사와형용사의기본의미관계인계층구조와방사형핵구조에연결되지않은단독신셋 (orphan node) 의정체성과그수의적정성도추후논의할대상이다. PWN에는아직도 {travese3, deny6} ( deny formally (an allegation of fact by the opposing party) in a legal suit ) 과 {wet2} ( supporting or permitting the legal production and sale of alcoholic beverages ) 등과같이동사와형용사의단독신셋이각각 223개와 4,828개있다. 다섯째, PWN은언어와문화는불가분의관계에있다는일반적인언어의속성을반영하듯이, 영미중심의서유럽문화에편향적이고, 구축주체의주관성과시공간적한계가드러난다. 독자적인문화와밀접한의 식 주생활관련어휘뿐아니라, 비교적보편성을갖는국가 정부 종교 축제의하위분류등에서이러한특성을쉽게찾아볼수있다. 여섯째, PWN은영어의존적이지만, 언어처리에다각적으로사용될만큼상세한언어정보를제공하지는못한다. 예를들어, 동사문형정보는그자체가불완전할뿐아니라, 격틀구조, 논항의종류나논항의의미자질세분화와같은언어정보는정교하지도풍요롭지도않다. 일곱째, PWN은 1.5판이공개된이래, 50개정도의참조방식어휘의미망이구축되었으므로, 다국어처리로의응용이매우용이하다 [3]. 언어마다정교한어휘의미망이개발되었다하더라도서로다른원칙과기준이적용되었다면, 각구성단위와구조간의연계성을확보하기어렵다. 그예로일본어와중국어를대상으로한 NTT 어휘대계 [19] 나 HowNet[20] 의경우자료의크기는 PWN과견줄만하여, 상호사상을시도하였으나, 다국어처리에직접이용할만한결과를도출하지는못했다. 여덟째, PWN은추후개발된다른어휘의미망 / 개념망과의사상이가장많이시도되어활용도가높으며, 구글의애드센스 (AdSense) 는 PWN을이용하여정보검색분야에서수익모델을제시하였다 [21]. 또한 2002년부터격년으로국제학술대회 (Global WordNet Conference) 를열어 2008년제4회대회를개최하였으며, 어휘의미망 / 개
98 정보과학회논문지 : 소프트웨어및응용제 36 권제 1 호 (2009.1) 념망을언어 / 지식처리에활용하는논의를지속적으로활발하게벌이고있다. 3. KorLex 구축방식및특성 이상과같은특성을가진 PWN을참조모델로하여 2004년부터 2007년까지한국어어휘의미망 KorLex가구축되었으며, 현재도소규모로진행중이다. 현재 Kor- Lex는명사, 동사, 형용사, 부사, 분류사로구성되며, 약 13만개의신셋과약 15만개의어의를포함하고있어, 자연언어처리와지식공학시스템에적용할수있는단계이다. PWN을참조하였다고하더라도 KorLex를구축하는것은단순한작업이아니며, 어휘의미론과전산언어학에서나타나는유사한문제에봉착하게된다. 3.1 절에서 3가지어휘의미망구축방식의특성을알아보고, 3.2절에서는대역형참조구축, 확장형참조구축, 직접구축방식을적용한 KorLex 구축의구체적인원칙과지침을살펴본다. 3.3절에서는그결과로구축된 KorLex 의의미정보구조를소개하고, 3.4절에서는이를구축하기위한개발자워크벤치및사용자인터페이스를간략하게소개한다. 이논문에서는 KorLex 구축방법론과구축결과의개괄적인소개를하며, 각품사별로나타나는어휘의미론적인문제는앞선논문에서좀더상세히다루었고 [20-23], 앞으로도더발표할예정이다. 3.1 어휘의미망구축방식어휘의미망 / 개념망을구축하는방식으로는크게직접구축과참조구축으로구분할수있다. 새롭고독립적인의미체계를갖추려는직접구축방식은하향식 (top-down) 또는상향식 (bottom up) 으로이루어질수있다. 하향식은최상위개념 / 의미에서출발하여하위단계로분화하는과정을거치는데, 고도의배경지식을가진전문가가특정분야온톨로지나소규모의개념망을수동으로개발할때사용된다. 상향식은하위어에서출발하여더포괄적인의미 / 개념을가진상위어를찾아가는방식이다. 주로대규모어휘의미망을구축할때, 그림 1처럼인간지식이집적된사전의정의문을분석하여상위어를반자동으로추출하는방법을사용하기도한다. 이러한방법은사전의정의문이통제된경우효율성을기할수있지만, 기존사전의정의문은어휘가통제되거나정형적표현구조를갖추지못한실정이다. 직접구축방식은활용목적에맞는독자적인어휘의미망 / 개념망을만들수있다는장점이있으나, 개발자의주관이나기존사전에치우치기쉽고, PWN이나 NTT 어휘대계와같이일반목적에쓸수있는범용성을갖추려면, 구축범위가크고개발시간과노력이매우많이소요된다. 참조방식은직접방식등으로이미만들어진어휘의미망을근간으로이를다른언어로번역하는방법을사용함으로써 그림 1 사전정의문기반상향식직접구축개발기간을단축한다. PWN과 NTT 어휘대계를참조모델로한파생어휘의미망인 EWN[25,26], BWN[27,28], CoreNet 등이그예인데, 파생어휘의미망은피참조어휘망에경도되어있다는단점에도불구하고, 피참조어휘망과파생어휘망간에개념의표상단위가동일하여, 다국어연계성을확보하는데유리하다 [12]. 물론프랑스어워드넷 (FWN) 등과같이피참조어휘망을대역하는단순한경우도있으나, 본질적으로이질적인자연언어가동일한의미체계로표상될수없을뿐만아니라, 참조어휘망과파생어휘망사이의언어계보및언어문화적역사성에서공유점이적으면적을수록대역형참조구축의문제점은더욱커진다. 이를보완하기위해, 일반적으로자국어의미구조와사용목적에맞도록변환하는확장형참조구축방식을택한다. 실제어휘망구축과정에서는이상과같이분류한방식중어느하나를배타적으로적용하기보다는상호의단점을보완하는통합적 (hybrid) 방식을사용한다. 3.2 KorLex 구축방법론 KorLex 1.0 단계에서는 PWN 2.0을대역한후, KorLex 1.5부터는기존신셋의삭제 / 변경과새로운신셋의생성에상 / 하향직접구축방식을통합하여적용한다. PWN의신셋에적합한한국어어휘의미를사상하는 1단계와, 이를바탕으로확장과변환을모색하는 2단계에서모두고려해야할사항은일관성을유지하는것이다. 이를위해 KorLex는한국어에적용될의미세분화의기준을 표준국어대사전 ([29] 이하 표준 ) 에두었다. 표준 은어느사전에나나타나는거시적 미시적구조의부분적결함을갖고있다. 하지만, 특정한언어학이론에치우치지않았으며, 실제말뭉치를이용하여예문을제공하고, 비교적의미세분화의기준을명시적으로공표하였다. 또한주관구축기관인국립국어원이개선과확장을추진하고있으므로, 앞으로 KorLex와지속적인상호보완가능성이가장높다. 이에, KorLex를구
한국어어휘의미망 KorLex 1.5 의구축 99 축하면서의미세분화와관련된 표준 의문제점을검토하고, 부분적으로그해결방식을제안하고있다 [30]. 3.2.1 KorLex1.0의대역형참조구축대역형참조구축의장점은구축시간과비용을대폭단축하는것이므로, 이중어사전과단일어사전등을이용한 ( 반 ) 자동구축이야말로이러한장점을극대화할수있는방법이다 [31]. EWN의 FWN 등의구축에서실제로적용되었다. 하지만, 영어의어휘중 70% 는프랑스어어원을가지나, 형태를기준으로한단순한어휘대치가많아 FWN의결과는그리탐탁하지않다. 그결과 EWN에서도함께구축된이탈리아어, 네델란드어, 스페인어어휘망과는달리 FWN의활용가능성이낮다고평가된다. 한국어는영어와언어계통이다르며공유하는문화가적다. 더욱이한자어를어원으로하는동형이의어가많으므로, 참조구축방식에서영-한사전을이용한대역어의 ( 반 ) 자동선택은그정확도가매우떨어지며, 피대역어와대역어관계가 1:1이라는매우제한된경우에만적용될수있을뿐이다. 따라서 KorLex 1.0의대역형참조구축은반자동으로이루어졌다. KorLex 워크벤치 ( 그림 7) 에서영-한사전을이용하여전처리된대역어후보를제공하면, 첫단계로 10명의어휘전문가또는해당전문분야전공자에의해대역어선정이이루어지고, 다음단계에서 2명의의미론전공박사가검증하였다. KorLex 1.0을구축하면서적용한원칙과지침은다음과같다. 단, 계층구조를갖지않는 KorLexAdj 1.0 과 KorLexAdv 1.0에는 1-6이적용된다. 1 PWN 2.0의신셋, 신셋간계층구조및방사형핵상구조는변경하지않는다. 2 PWN의대역의방향은말단노드에서상위노드로향하는상향식 (bottom-up) 구축을원칙으로하되, 대역순서는다음과같이그룹화하여진행한다. a 어형이단의어로쓰이며, 신셋이 1개의어의로구성된경우 ( 표 7의 A) b 어형이단의어로쓰이며, 신셋이 2개이상의어의로구성된경우 ( 표 7의 C-A) c 신셋이 1개의어의로구성되며, 해당어의의어형이다의어로쓰이는경우 ( 표 7의 B-A) d 신셋이 2개이상의어의로구성되며, 해당어의의어형이다의어로쓰이는경우 ( 표 7의다의어 (~B)) 3 대역어선정은각신셋을대상으로한다. a KorLex 신셋의구성은어의이외의단위인영 (zero) 형태, 접사, 어휘, 관용표현, 구, 절등으로나타낼수있다. (KorLex의신셋이영형태가되는어휘공백 (lexical blank) 의경우에는, PWN의신셋을그대로유지한다.) b PWN과 KorLex의동일신셋을구성하는어의수는일치하지않을수있다. 4 대역어후보의검색은 PWN의어형을기준으로한다. a PWN 신셋의의미관계중전문분야및어법정보는대역어선정에서우선적으로고려한다. b PWN 신셋이단일어의로구성된경우, 해당어형의대역어후보중다수사전에출현한빈도에따라대역어 ( 들 ) 을선택한다. c PWN 신셋이 2개이상의어의로구성된경우, 모든어의에대응하는어형의대역어후보중빈도에따라대역어 ( 들 ) 을선택한다. d 동형이의어및다의어를구분하기위해각대역어어의별로 표준 의세분화된의미와사상한다. 표준 에수록되지않은어의는출처, 정의문, 예문과함께 KorLex 사전에새로등재한다. ( 이때정의문과예문은필수적구성요소가아니다.) 5 대역어선정은 PWN의품사별, 의미분류별로진행하며, 해당부류에따라대역어후보를검색할영-한사전의참조순위를결정한다. a 하위노드의신셋은 PWN의의미분류 ( 동물, 식물등 ) 및전문분야 ( 컴퓨터, 무기, 화학, 선박, 음악, 해부학, 미술등 ) 정보에따라해당영-한 / 한-영전문용어사전을우선순위로참조하며, 상위노드로갈수록범용영-한 / 한-영사전을참조한다. b 상위노드의신셋및일반어형은범용영-한 / 한- 영사전을우선순위로참조한다. c 사전에서등재되지않은어형은공신력을가진웹사이트를참조한다. 6 KorLex의한신셋을구성하는대역어후보들의동의관계는다음중한조건을만족해야한다. 동의관 표 7 PWN 2.0 에서단일어의로구성된신셋과단의어및다의어크기 품사 A=B C 단일어의로구성된다의어단의어 (C) 신셋 (B) 어형 (D) 어의 (E) (C+E)/D E/D 명사 12,822 40,755 99,524 15,124 42,325 1.23 2.79 동사 1,418 7,855 6,256 5,050 18,522 2.17 3.66 형용사 5,795 11,366 16,103 5,333 14,979 1.44 2.80 부사 1,570 2,323 3,901 768 1,913 1.24 2.49 계 21,605 62.299 125,784 26,275 77,739 1.24 2.49
100 정보과학회논문지 : 소프트웨어및응용제 36 권제 1 호 (2009.1) 계의설정은 EWN에서제시한조건 ( Word1 in contextc entails and is entailed by Word2 in contextc. ) 을사용하였다 [25]. a PWN 신셋의예문을한국어로옮겼을때, 그예문내에서대역어후보들은의미를크게변화하지않고교체가능해야한다. b 영-한사전또는 표준 에대역어후보의어의에적합한한국어예문이있다면, 그예문내에서대역어후보들은의미를크게변화하지않고교체가능해야한다. c 하지만, 동일한시니피에가 2개이상의시니피앙으로표현되지않는다. 는언어의경제성원리에따라엄밀한의미에서동의관계를교체로만판단할수는없다. 특히동사의경우, 문형및논항의제약조건의차이로교체로서동의관계를검증하기어렵다는점을감안해야한다 [1]. 7 상하위관계는다음과같은내포조건을만족해야한다 [25]. (KorLex 신셋n에속하는 ) 어의n는문맥n-1에서 (KorLex 신셋n-1에속하는 ) 어의n-1를내포해야하며, 역은성립하지않는다. 이때 n은 KorLex의계층을나타낸다.( Wordn (which belongs to Kor- Lex-Synsetn) in contextc-1 entails Wordn-1 (which belongs to KorLex-Synsetn-1), and the reverse is not allowed (where n stands for a level of the KorLex hierarchical structure), where n represents for the KorLex hierarchy. ) 8 동일한어형의서로다른어의가 KorLex에서상하위또는자매관계가성립하는경우, 다음조건을만족해야한다. a 동일사전에서상위신셋어의는하위신셋어의보다더하위단계에서선택할수없음을원칙으로한다. b 자매관계에놓인대역어어의는같은세분화단계에제시된어의를선택함을원칙으로한다. 이상의원칙과지침에따라 2004년 1월 - 2007년 4 월동안대역형참조구축방식으로이루어진 KorLex 1.0의결과는표 9와같다. 결과의효용성에따라명 -> 동 -> 형, 부순으로수행하였다. 위원칙 1에따 그림 2 KorLex의확장형참조구축방식라신셋 A는 KorLex 1.0에그대로유지되는 PWN 2.0 의신셋수이며, 신셋 B와어형, 어의의수는한국어로대역된경우만을나타낸다. 표 3의 PWN 2.0과크기를비교해볼때, 대역이되지않은명사의비율이현저하게높다. 이는명사에영어 ( 권문화 ) 와한국어 ( 권문화 ) 간의차이에서생긴개념공백이나어휘공백이있고, 대역어를선정하는초기작업의미숙함에도기인하나, 한국어대역어를찾기어려운동식물명 병명등과같은전문용어와인명 지명 개체명등고유명사의수가많았기때문이다. KorLexNoun 1.0에서는전문용어나고유명사등은대역하지않았으나, KorLexNoun 1.5에서는이중한국어음차표기가있는경우대역하였다. KorLexNoun 1.0의크기는 PWN을참조모델로대역한다른언어어휘의미망의크기와유사하다 [8,10,14,26]. 3.2.2 KorLex1.5의확장형참조구축방식 KorLex 1.5의구축은어휘의미추가확장과계층구조변환이라는두가지측면에서수행되었으며, 현재까지명사와동사에만적용되었다. 우선어휘의미추가확장은 KorLex 1.0에결여된어휘형태를보완하는것에서시작한다. 대역을통해구축한 KorLex 1.0은자주쓰이는 밥, 그저께, 파탄, 하수인, 하극상, 넘다, 삼다, 인하다, 비롯하다, 쓰이다 와같은어휘를포함하지못했다. 이를보완하기위해, KorLex1.5의 1단계확장은국립국어원의현대국어사용빈도를조사한자료 [32,33] 에서명사는 5 표 8 KorLex 1.0 ( 대역형참조구축 ) 결과 품사 어형 신셋 A (PWN 2.0) B ( 유대역 ) A-B ( 무대역 ) 어의 구축시기 KorLexNoun 1.0 53,167 79,789 58,565 21,224 59,405 2004년 9월 KorLexVerb 1.0 14,261 13,508 13,429 79 14,700 2006년 2월 KorLexAdj 1.0 19,698 18,563 18,558 5 20,905 2007년 4월 KorLexAdv 1.0 3,032 3,664 3,651 13 3,123 2007년 4월 계 87,126 115,524 90,552 24,972 95,010
한국어어휘의미망 KorLex 1.5 의구축 101 추가대상어형 (1) 돈정의문 (2) 집 (3) 소리 (4) 소리 정의문 표 9 KorLexNoun 1.5 에추가된어의정보및추가방식 추가대상어의의 표준 사전적어의정보상위어하위어동의어, 유의어반의어 무게의단위. 귀금속이나한약재따위의무게를잴때쓴다. ( 무게의 ) 단위 칼, 벼루, 총따위를끼거나담아둘수 있게만든것 칼집 예문칼을잘닦은후집에넣어보관해라. 정의문사람의목소리. 예문소리가너무크니조용히말해라. 정의문여론이나소문. 예문 주민들사이에이상한소리가돌고있다. 침묵하는다수의소리에귀를기울여보라. 목소리 여론, 소문 한영대역 KorLex 추가및확장방법 ( 무게의 ) 단위 의하위어로새로운신셋생성 칼집 의상위어로새로운신셋생성 목소리 와동일신셋의구성요소로추가 여론, 소문 과동일신셋의구성요소로추가 (5) 눈 동의어 시력01( 視力 ). 예문 눈이나빠안경을쓴다. 시력 01 시력 과동일신셋의구성요소로추가 (6) 온기 정의문 따뜻한기운. 유의어 난기03( 暖氣 ) 반의어 냉기03( 冷氣 ) 난기 03 냉기 03 냉기 의자매노드에 온기, 난기 라는새로운신셋생성 (7) 날 정의문 하루중환한동안 예문 날이새면서주위가밝아온다. daylight, daytime 낮, 대낮, 백주, 하루해, 하루 와동일신셋의구성요소로추가 회이상, 동사는 3회이상출현한표제어 ( 어형 ) 를그대상으로삼았다. 이자료는동형이의어나다의어를구분하지않고품사와어형을기준으로빈도를제시하였으므로, 이중 KorLex 1.0에포함되지않은어형을선정하고, 표준 의의미세분화에기대어이표제어의어의를되도록충실히추가하되, 고어, 지방어, 특수전문용어및사용빈도가현저하게낮은어의는확장대상에서제외하였다. 이자료에서 4회이하출현하는어휘는대부분 어름치 처럼동식물명과같은전문용어, 십정 ( 十停 ) 과같은특정시대의기관 / 관직명이었다. 범용적지식을구성하려는 KorLex의개발원칙에따라, 이상의특수분야어휘는 1.5버전에포함하지않았다. 또한빈도가 5가넘더라도, 사정 ( 司正, 조선시대에, 오위 ( 五衛 ) 에속한정칠품벼슬 ) 처럼특정한시대에만사용한용어또는어의나, 애시당초 처럼오류어도포함하지않았다. 추가되는어의는신셋의구성요소로추가될수도있고, 또는새로운신셋을만들수도있다. 첫번째경우는이논문 3.2.1 절의 6번조건을만족해야하며, 좀더신중함이필요한두번째경우는 7번과 8번조건을충족해야한다. KorLexNoun 1.5 경우를예로들어보자. 예 (1) 은그정의문에서 ( 무게의 ) 단위 라는중심어를추출하고, 그하위노드에새로운신셋을생성한다. 예 (2) 처럼정의문 보다예문이나복합어등에서 칼집 과같은하위어정보를추출하고이것이이미어휘망에존재하고있다면그상위어로 집 이라는새로운신셋을생성한다. 예 (3)-(5) 처럼명시적인동의어 (=), 유의어 ( ) 나, 정의문에등가표현이제시되는경우그어의에해당되는기존신셋의구성요소로추가한다. 예 (6) 의반의어인 냉기 가기구축되어있다면그자매노드에추가대상어의와유의어 온기, 난기 를새로운신셋으로생성한다. 예 (7) 과같이정의문과예문으로부터단서를찾을수없고다른의미정보도주어지지않는다면, 영-한사전을이용하여 날 에해당하는 PWN의신셋을찾아그구성요소로추가한다. 확장형참조구축은 4명의어휘전문가가 1차추가확장을하고, 그결과전체를상호교차검토한후, 2명의의미론전공박사가검증하였다. 그결과 KorLexNoun/ Verb 1.5는표 10과같다. KorLexNoun/Verb 1.5에는한국어로대역되지않은 7,316개 ( 명사 ) 와 102개 ( 동사 ) 의신셋이존재한다. 명사는데이타베이스를등록한 2007년 7월이후에도소규모로확장을계속하고있다. 계층별신셋수를참조모델이된 PWN 2.0과비교한결과는표 11과같다. 명사는 4단계-8단계가주로확장된것을볼수있는데, 이는매우추상적이고광범위한개념이주로명사의 1-3단계에주로분포하는반면, 의미의크
102 정보과학회논문지 : 소프트웨어및응용제 36 권제 1 호 (2009.1) 표 10 KorLexNoun 1.5와 KorLexVerb 1.5 ( 확장형참조구축 ) 결과 품사 어형 신셋 A (PWN 2.0) B 어의 개발시기 KorLexNoun 1.5 89,125 79,689 90,134 102,358 2007년 7월 KorLexVerb 1.5 17,956 13,508 16,923 20,133 2007년 4월 계 107,081 93,197 107,057 122,491 표 11 PWN 2.0 과 KorLex 1.5 계층별신셋수비교 계층 PWN 명사 2.0 KorLexNoun 1.5 PWN 동사 2.0 KorLexVerb 1.5 1 9 9 554 600 2 158 157 3,210 3,864 3 1,307 1,653 3,819 4,896 4 4,489 6,033 2,962 3,759 5 10,297 13,129 1,598 2,040 6 17,536 19,236 737 985 7 15,336 18,079 363 462 8 12,225 13,802 146 180 9 7,605 8,053 41 50 10 4,793 4,714 41 44 11 2,501 2,305 25 30 12 1,444 1,256 11 11 13 852 733 1 2 14 477 429 15 415 346 16 206 164 17 39 36 계 79,689 90,134 13,508 16,923 기가작고구체적인어의가분포하는층위이기때문이다. 이에비해 PWN에서부터얕고넓은분포를가진동사는 2-5단계가확장된것도언어의실제모습과일치한다 [10,14]. 3.2.3 KorLexClas 1.0의직접구축방식영어, 프랑스어등의인구어 (Indo-European languages) 와달리대부분의아시아어, 아프리카어등처럼한국어도정교한분류사체계를지닌것으로알려져있다. 분류사의기능은사물이나사건을범주화하고, 수량화하는것으로어휘의미망의 분류 와 개념화 라는본질적인특성이있다. 이때사물이나사건은분류사의공기관계 (co-occurrence) 로표상되므로, 분류사와명사간비교적강력한공기제약을갖는다. KorLexClas 1.0은한국어언어자원을이용한직접구축방식으로개발하였다 [24]. 1단계로, 고빈도분류사의완전한목록을구성하고공기명사정보가함께태깅된자료를확보하기위해, 선행언어학연구, 표준 의정의문, 대용량말뭉치의문맥정보를이용하여분류사및공기명사목록을수집한다. 2단계로, 분류사의의미적특성을고려하여 a 도량성 (mensural), b 개체성 (sortal), c 중립성 (neutral), 그림 3 KorLexClas 1.0의분류사의미자질계층성표 12 KorLexClas 1.0 ( 직접구축 ) 결과품사어형신셋, 어의개발시기도량성 856 개체성 424 KorLexClas 1.0 1,181 중립성 4 2007년 4월사건성 93 계 1,377 d 사건성 (eventuality) 으로하위범주화하여각각분류사를정의하고, 그림 3처럼분류사의의미자질간계층관계를설정한다. 3단계로, 분류사-공기명사간선택제약관계를설정하기위해 KorLexNoun과연동한다. 표 12에서볼수있듯분류사의모든신셋은단일어의로구성된다. KorLexClas는앞서기술한다른품사어휘망과는달리분류사자체가아니라분류사를구성하는의미자질을계층화하였다. 이상과같이구축된 KorLexNoun/Verb 1.5 및 KorLexAdj/Adv/Clas 1.0의크기는표 13, 14와같다. 표 7에제시한 PWN 2.0과비교해보았을때동사에서가장큰차이를보이는데, 영어에서는중립동사등으로나타나는단일어형의다의어가한국어에서는선어말어미의유무로어형을구분할수있는단의어로대역되었기때문이다 [22]. 한자어어근을많이사용하는한국어의동형이의어및다의어비율이높다는특성과는달리 KorLex의다의어비율이 PWN과유사하게나타나
한국어어휘의미망 KorLex 1.5 의구축 103 표 13 KorLex 1.5 구축현황 ( 총괄표 ) 품사 어형 신셋 A (PWN 2.0) B 어의 개발시기 KorLexNoun 1.5 89,125 79,689 90,134 102,358 2007년 7월 KorLexVerb 1.5 17,956 13,508 16,923 20,133 2007년 4월 KorLexAdj 1.0 19,698 18,563 18,558 20,905 2007년 4월 KorLexAdv 1.0 3,032 3,664 3,651 3,123 2007년 4월 KorLexClas 1.0 1,181-1,377 1,377 2007년 4월 계 130,992 115,424 130,643 147,896 표 14 KorLex 1.5의단의어 / 다의어크기 품사 단의어 (C) 다의어 (C+E)/D E/D 어형 (D) 어의 (E) KorLexNoun 1.5 80,953 8,172 21,405 1.15 2.62 KorLexVerb 1.5 16,437 1,519 3,696 1.12 2.43 KorLexAdj 1.0 18,695 99 2,202 1.06 2.20 KorLexAdv 1.0 2,958 74 165 1.03 2.23 KorLexClas 1.0 1,083 98 294 1.17 3 계 120,126 9,962 27,762 1.13 2.56 는이유는, 확장형참조구축시 KorLex 1.0에없는어 형을우선추가대상으로삼았기때문이다. 따라서 KorLex 구축이더진행될때한국어에서다의어비율 이높은어형을추가대상으로고려해봐야한다. 표 15 는 KorLex 어의별정의문출처를보여준다. 표준 의 정의문을이용하여구축한 U-Win과사상을추후에시 도할때고려해야할부분이다. 3.3 KorLex 1.5의의미정보 기본적으로 KorLex의신셋은사상되는 PWN의신셋 이가진의미정보 ( 표 4의신셋간의미관계 ) 를승계한 다. 하지만 PWN의영어의존적정보인문법범주, 파 생관계, 문장격틀은다른언어에서유효하지않으므 로, KorLex 1.5에새롭게구축되었고, 향후지속적으로 구축되어야할대상이다. 첫째, 내용어를명사, 동사, 형용사, 부사로나누고첫 2개범주는계층적구조로, 형용사는방사형구조, 부사 는목록으로제시한 PWN의구분에 KorLex 1.5와 KorLex 1.0은아직수정을가하지않았다. 하지만한국어의경우동사와형용사로구분하기보다용언으로통합하는것과통합했을때개념간관계를어떤구조로표상할지에대한논의가필요하다. 둘째, 파생정보로는 KorLexNoun/Verb 1.5 중 표준 에수록된 확장-확장하다, 명령-명령하다 등과같이 어근명사 + 기능동사 (-하다, -되다) 의관계가표시된다. 셋째, 용언의격틀정보와논항의의미자질 / 분류를명사어휘망과연결한다면자연언어처리제분야에서매우유용하게사용될수있을것이다. 하지만기존의어떤언어자원에서도 KorLex에직접사용할수있는이러한정보를찾기힘들다. KorLex가어의구분의기준으로삼은 표준 은표 16에서볼수있듯격틀정보가기술되지않거나 ( 타다1-1 ~ 타다1-5) 일부의격틀정보만이매우거친상태로제시되며 ( 타다4-1 ~ 타다 4-2), 논항의의미정보는명시적으로기술되지않아정의문이나예문을통해추정해야한다. 세종전자사전 ( 이하 세종 [7,8]) 의경우도용언의격틀정보와논항의의미부류를명세화하고있지만, 어의구분및논항의의미분류구분기준이 표준 이나 PWN 및 KorLex와는완전히다르므로, 세종 에담긴정보를손쉽게사상할수없다. 따라서 KorLex는 세종, 표준 등을참조하되, 신셋을구성하는어의단위로격틀정보를추가기술 표 15 KorLex 어의의한국어정의출처 사전 KorLexNoun 1.5 KorLexVerb 1.5 KorLexAdj 1.0 KorLexAdv 1.0 KorLexClas 1.0 표준국어대사전 65,879 9,617 17,647 2,913 924 연세한국어사전 134 217 156 41 0 브리태니커백과사전 34 0 58 2 0 프라임영한사전 0 0 461 0 0 네이트백과사전 15 0 32 0 0 네이버백과사전 19 0 22 0 0 파스칼백과사전 17 0 7 0 0 동의어사전 1 0 0 0 0 기타 36,161 10,247 2,065 5 446 없음 98 52 457 162 7 계 102,358 20,133 20,905 3,123 1,377
104 정보과학회논문지 : 소프트웨어및응용제 36 권제 1 호 (2009.1) 표준 의의미세분화 타다 1-1 타다 1-2 정의문 불씨나높은열로불이붙어번지거나불꽃이일어나다. 피부가햇볕을오래쬐어검은색으로변하다. 표 16 표준 과 세종 의격틀및논항의미부류정보 예문 담배가타다 ; 벽난로에서장작이활활타고있었다. 땡볕에얼굴이새까맣게탔다. - 타다1-3 뜨거운열을받아검은색으로변할정도로지나치게익다. 타다1-4 마음이몹시달다. 입술이마르고심장이탄다. - 타다 1-5 물기가없어바싹마르다. 타다 4-1 타다 4-2 몫으로주는돈이나물건따위를받다. 복이나재주, 운명따위를선천적으로지니다. - 표준 의격틀정보 세종 의격틀와논항의선택제약 [ 구체물 ]N0- 이 [ 구체자연물 ( 불 )]N1- 에타다 [ 신체부위 ]N0- 이 [ 기상관련물 ( 볕 햇볕 봄볕 )]N1- 에타다 고기가타다 - [ 음식물 자연음식물 ]N0- 이타다 긴장이되어입술이바짝바짝탄다 ; 오랜가뭄으로농작물이다타버렸다. 회사에서월급을탄다 ; 형에게서용돈을탄다 ; 경연대회에서상을탄다 ; [ 신체부위 ( 입 입술 목 )]N0- 이타다 - [ 식물 ( 농작물 벼 )]N0- 이타다 [ 에서 / 에게서 / 에게 / 으로부터 을 ] 병원에서정기적으로약을타먹다. - 좋은팔자를타고태어나다 ; 그녀는아버지의음악적소질을타고태어났다. [ 을 ] [ 인간 ]N0- 이 [ 단체 인간 ]N2- 에게서 [ 돈 ( 상 )]N3- 를타다. [ 인간 ]N0- 이 [ 추상적대상 ( 정기 사주 팔자 운명 재주 )]N1- 를타다. 그림 4 KorLexNoun과 KorLexVerb 간논항의선택제약연동1 그림 5 KorLexNoun과 KorLexVerb 간논항의선택제약연동2 하고, 논항의선택제약 (selectional restriction) 은 Kor- LexNoun과연동한다. 넷째, KorLex는영어에는잘쓰이지않으나한국어에는매우발달한분류사어휘의미망을새롭게구축하였다 [24]. 표준 과 세종 등사전과분류사에관한선행연구를통하여 1,377개의분류사신셋을구성하고, 이들간계층구조를설정하고, 각분류사와공기하는명사정보로 KorLexNoun를연동한다. 논항의선택제약과분류사의공기명사를연동하는방식은그림 4처럼 KorLexNoun에서최하위공통상위노드 (Least Upper Bound Node, 이하 LUB) 를찾는것이다. 예를들어 [N0]-이 [N1]-을깁다 의경우, [N1] 에 옷, 양말, 신 등의선택제약이가해진다면, 이들의공통상위노드중최소공배수격인 { 피복류 } 노드를 지정하고, 그하위노드전체에제약규칙이적용되는것이다. LUB는복수로지정이가능한데, 그림 5처럼 [N0]-이 [N1]-에지다 에서는 [N1] 의 LUB는 { 운동경기 }, { 전쟁, 전투 }, { 토론, 논쟁 } 이된다. 마찬가지로 LUB가지정되었을때하위노드중선택제약의적용이나공기되지못하는경우는 Neg-LUB(Negative LUB) 으로지정할수있다. 예를들어, 분류사 마리 가공기명사로 { 동물 } 이라는상위계층의노드를지정하되, 그하위계층에속하는 { 인간, 사람 } 을제외해야한다면후자를 Neg-LUB으로지정하는식이다. 이상과같은 KorLex의모든의미및관계정보는 XML로정의되며, 그림 6처럼다음과같은 4개테이블의관계형 DB로설계하였다. 1 신셋정보테이블 (PWN과 KorLex의신셋정보 ), 2 어의정보테이블
한국어어휘의미망 KorLex 1.5 의구축 105 그림 6 KorLex 의미정보구조 ( 어의별정보 ), 3 신셋-어의연관정보테이블 ( 각신셋과그구성요소인어의간관계규정 ), 4 신셋및어의간의미관계정보테이블 ( 신셋간또는어의간표 4와같은의미정보규정 ). 표 17은신셋정보테이블의신셋정의필드에수록된신셋 { 지다1, 패배하다1, 패하다1}( 동사 01064957) 의예를보여준다. 3.4 KorLex 구축및검색서비스도구 KorLex 1.0 및 1.5 모두자동적으로수행될수있는부분보다어휘전문가의정밀한판단을요구하는경우가많으며, 이때 PWN, 이중어 / 단일어전자사전, 말뭉치등다양한온라인 / 오프라인언어자원을참조하고, 참조한언어자원의출처를자동으로수록해야한다. 동시에 3그룹의어휘전문가가 대역-> 대역검토 -> 확장및변환 -> 확장및변환검토 등적어도 4단계이상의작업을공동으로진행해야하므로, 모든작업내역을기록해야한다. 또한불필요한정보나지나치게많은언어정보는오히려구축의효율성을크게떨어뜨린다. 따라서효율적인방식으로필요한정보를어휘전문가에게제공해야한다. 이에, 본연구진은그림 7처럼개발자용워 크벤치인 LRMS(Language Resource Management System) 를자체개발하여사용하며일반사용자를위해그림 8와같은 KorLex/PWN 검색 Browser를제공하고있다 [34]. LRMS에서는기구축된어휘망의각종정보를검색할수있으며, 효율적인확장 / 변환작업이용이하다. 이워크벤치에서 PWN이나 KorLex의특정신셋을선택하면, 해당신셋의 PWN 정의, 계층구조와관련의미정보, 이와연동된다른참조어휘망의정보, 사상된 표준 의어의, 작업자및작업내역기록을검색할수있다. 변경 / 확장의경우는다음과같은절차로수행된다. 1 고빈도어휘목록과 KorLex1.0을비교하여결여된어휘형태를검색하여, 2 우선순위대로사전을검색하고적합한어의를등록한후, 3 정의문의중심어등에기반하여상위어를찾는다. 4 해당어의가 a 기존신셋에추가하는경우와 b 새로운신셋을만드는경우에따라입력창을띄우고, 이와관련된의미정보를추가 / 삭제한다. 4. 활용및향후개발방향이논문에서는 1980년대중반부터 20여년간구축한영어어휘의미망 PWN과이를참조하여구축한한국어어휘의미망 KorLex를소개하였다. 심상어휘집 (mental lexicon) 임을표방하며, 지식이인간의뇌에어떤방식으로저장되며처리되는지를살펴보기위한시발점으로만들기시작한 PWN은인지심리학보다자연언어처리와지식공학에훨씬더큰반향을불러일으켰다. 인지심리학자인밀러는이점을매우아쉬워하나 [1], 동일한자료를대하는두분야의시각차이를극명하게드러낸다. 전자는근본적으로 PWN의의미표상방식이인간이의미를처리하는실제와같은지의심을품었다. 후자는자료자체의크기, 표상방식의체계성, 절차적수행의수월성에주목하였다 [35,36]. 표 17 동사 01064957 { 지다1, 패배하다1, 패하다1} 의신셋정보 신셋정보 설명 <SYN pos="v" lexfn="verb.competition" soff="01064957" descendent="0 > PWN 품사, 의미분류, 신셋번호, 하위노드유무 <POINTER symbol="topic-domain-of-synset" tsoff="00407449" tpos="n" /> PWN의신셋의의미관계 : 영역 ( 전문분야 ) <POINTER symbol="parent" toff="01064559" tpos="v" /> PWN의신셋의의미관계 : 상위노드 <GLOSS>lose (a game); "The Giants dropped 11 of their first 13"</GLOSS> PWN의정의문 <DOMAIN>verb.competition</DOMAIN> KorLex 의미분류 <WORD senseid="1" seq="0"> 지다 </WORD> KorLex 신셋을구성하는어의 1: 지다1 <WORD senseid="1" seq="1"> 패배하다 </WORD> KorLex 신셋을구성하는어의 2: 패배하다1 <WORD senseid="1" seq="2"> 패하다 </WORD> KorLex 신셋을구성하는어의 3: 패하다1 <POINTER symbol="parent" tsoff="01064559" tpos="v" /> KorLex 신셋의의미관계 : 상위노드 <POINTER symbol="child" tsoff="02691569" tpos="v" /> KorLex 신셋의의미관계 : 하위노드 <POINTER symbol="child" tsoff="02692052" tpos="v" /> KorLex 신셋의의미관계 : 하위노드 </SYN>
106 정보과학회논문지 : 소프트웨어및응용제 36 권제 1 호 (2009.1) 그림 7 개발자용 KorLex 구축워크벤치 그림 8 일반사용자용 KorLex 검색브라우저 세상에존재하는또는존재한다고믿는사물, 생명체, 추상체를명명하고, 분류하고, 범주화하는것은절대성을띠거나보편화할수있는것은아니며, 자료의양과질에서완결성을기대하기는더욱더어렵다. 그것이사전, 시소러스, 어휘의미망, 온톨로지등어떤이름으로어떤형식으로나타나든시간, 공간, 분야, 문화, 목적, 개발자등수많은주관성과제약을태생적으로갖고있다 [37,38]. KorLex도이와같은본질적인한계에서자유롭지못하다. 다만 PWN을참조모델로삼고있다는점, 가장큰사용목적이다국어처리와의연계성을가진한국어분석과생성이라는점에서살펴봤을때, 적어도앞으로시급히보완해야할부분은다음과같다. 첫째, 한국어에서용언으로문장을구성하는데중요한기능을하는형용사를 KorLexAdj 1.5로확장해야한다. 부사의경우도마찬가지다. 기특하다, 새삼스럽다, 퉁명스럽다. 나지막이, 살금살금, 기막히게 등과같은형용사와부사는감정이나화행을표현하므로자연언어처리기반감정분석, 화행분석에서없어서는안될요소이다. 둘째, KorLex 1.5 구축단계에서어의확장의 1차후보는빈도가높은명사와동사중 KorLex 1.0에나타나지않는어형이었다. 따라서다의어중에서 1개의어의라도 KorLex 1.0에등재되어있다면, 다른사용빈도가높은어의가누락되었더라도 KorLex 1.5에확장되지않을수있다. 이는 표준 에서다의어비율이높은어형을대상으로 KorLex 1.5에서어의분포를비교해봄으로써, 확장대상어의를선정할수있다. 또한명사의경우, KorLex와마찬가지로 표준 의정의문등을이용하여어휘의미망을구축하여어의의크기 (grain size) 가유사한 U-Win과교차비교하여상호보완할예정이다. 셋째, 한국어의문장분석과생성에는용언및서술성명사의논항구조와각논항의선택제약정보가필수적 이다. KorLexVerb 1.5에는매우제한된범위만수록되어있으나, 동사를보완할뿐아니라형용사와서술성명사에도이러한정보가포함되어야한다. 논항구조와논항의선택제약정보는 세종 에상세히표현되어있으나, 표 15에서도밝혔다시피용언의어의구분등에서 세종 과 표준 은어의세분화기준과어의크기에서큰차이가있어조정이필요하며, 명사에서 LUB를지정하기위해서는 세종 의의미부류 (object class) 와 KorLex의계층구조간사상을해야한다. 후자는 KorLexClas에서공기명사의 LUB를설정한방식을이용할예정이다. 이밖에도기존의언어자원에수록된 경어, 큰말 / 작은말, 지역방언, 등 한국어에존재하는신셋간, 어의간의미관계를추가할필요가있다. 본연구진은 KorLex를이용하여어휘중의성해결 (word sense disambiguation) 과문장분석의성능을실험하여, 띄어읽기시스템과상용한글맞춤법검사 / 교정기인 바른한글 에적용한바있으며, 위에서언급한바와같이정보의보완과함께지속적으로적용될예정이다. 이밖에도소규모이기는하지만다국어검색기능을강화하기위해검색엔진에적용된예, 호텔예약전화음성인식을위한개체분류의상위온톨로지구성, 전문분야의상위온톨로지구현등에적용되고있으며, 영-한 / 한-영기계번역의성능개선에도활용될예정이다. 국외에서는 EWN 및 PWN 공식딜러인 Memodata 에서는 KorLex를 EWN과사상하여자사홈페이지에서다국어검색기능을제공하고있다 [39]. KorLex는다듬어지고보완되어야할부분이많지만, 현재상태로도언어와직접적인관련이있는자연언어처리, 지식공학, 음성공학, 언어학뿐아니라심리학, 감성공학, 뇌공학등사용할수있는학문분야도광범위하고, 실용시스템에활용가능성도매우크다. 2004년 10월 KorLex 1.0의공개에이어 2007년 11월 KorLex
한국어어휘의미망 KorLex 1.5 의구축 107 1.5를공개하였으며, 사용자들의따갑지만애정어린피드백이 KorLex를개선하는데단비가되리라고기대한다. KorLex는특정한연구비의지원을지속적으로받지않은채구축되어왔으나, 이상과같은보완과확장에는좀더안정적인연구지원환경이요구된다 [40]. 참고문헌 [1] Ch. Fellbaum (ed.), WordNet: An Electronic Lexical Database, The MIT Press, Cambridge, 1998. [2] PWN: http://wordnet.princeton.edu. [3] 세계워드넷연합 : http://www.globalwordnet.org/gwa/ wordnet_table.htm. [4] 문유진, 의미론적어휘개념에기반한한국어명사워드넷의설계와초록, 서울대학교컴퓨터공학과박사학위청구논문, 1996. [5] 이창기 이근배, 의미애매성해소를이용한 WordNet 자동매핑, 제 12 회한글및한국어정보처리학술대회발표논문집, 2000, pp. 262-268. [6] 임성신, 이은령, 권혁철, 한국어워드넷구축, 제 16 회한글, 언어, 인지학술대회발표자료집, 2004, pp. 106-111. [7] 이성헌, 사전편찬에있어서의어휘의미망의역할과기능, 한국어어휘의미망구축과사전편찬학술회의자료집, 국립국어원, 2007, pp. 77-90. [8] 홍재성, 21 세기세종계획전자사전개발연구보고서 (11-1370252-000063-10), 문화관광부, 국립국어원, 2007. [9] 최호섭외, 대규모우리말어휘지능망구축방법, 한글, 273, 2006, pp. 125-141. [10] 옥철영, 어휘의미망과국어사전의체계적구성, 한국어어휘의미망구축과사전편찬학술회의자료집, 국립국어원, 2007, pp. 35-53. [11] 윤애선, 한국어어휘의미망구축의현황과과제, 한국어어휘의미망구축과사전편찬학술회의자료집, 국립국어원, 2007, pp. 3-31. [12] 윤애선, 국내 외어휘의미망의구축과활용, 새국어생활, 17-3, 2007, pp. 5-25. [13] 최경봉, 도원영, 한국어동사의미망구축을위한상위온톨로지구성에관한연구, 한국어학, 28, 2005, pp. 217-244. [14] 최기선외, 다국어어휘의미망 (CoreNet), 3 vols, 한국과학기술원전문용어언어공학연구센터, KAIST Press, 2005. [15] GermaNet: http://www.sfs.uni-tuebingen.de/lsd/. [16] J. Sowa, Knowledge Representation: Logical, Philisophical, and Computational Foundations, Brooks and Cole, 1999. [17] 김양진, 국어중사전의전문어표제어선정에대하여, 한국사전학, 7, 2006, pp. 191-215. [18] M.W. Evens (ed.), Relational Models of the Lexicon, Cambridge University Press, Cambridge, 1988. [19] S. Ikehara et al. The Semantic System, vol. 1 of Goi-Taikei, A Japanese Lexcion, Iwanami Shoten, 1997. [20] Z. Dong, Q. Dong, HowNet and the Computation of Meaning, World Scientific, 2006. [21] Google AdSense: http://www.google.com/adsense. [22] E.R. Lee, A.S. Yoon, H.C. Kwon., "Exploiting Morpho-syntactic Features for Verb Sense Distinction in KorLex," ICCS 2007, Lecture Notes in Computer Science, 4488, 2007, pp. 1170-1177. [23] 황순희, 윤애선, 의미자질을고려한명사어휘의미망의구축 (1), 한국어학, 29, 2005, pp. 309-338. [24] S.H. Hwang, A.S. Yoon, H.C. Kwon., "Semantic representation of Korean numeral classifier and its ontology building for HLT applications," Language Resources and Evaluation, 42-2, 2008, pp, 151-172. [25] P. Vossen, EuroWordNet: A Multilinugal Database with Lexical Semantic Network, The Kluwer Academic Publishers, 1998. [26] EuroWordNet: http://www.illc.uva.nl/eurowordnet/. [27] K. Pala, R. Sedláček, "Enriching WordNet with Derivational Subnets," Proceedings of the 6th International Conference on Computational Linguistics and Intelligent Text Processing, 2005, pp. 305-311. [28] BalkaNet: http://www.ceid.uptras.gr/balkanet/. [29] 국립국어원, 표준국어대사전 1.0, 두산동아, 2001. [30] 이은령, 윤애선, 표준국어대사전의동사정보개선을위한연구, 한민족어문학, 51, 2007, pp. 157-194. [31] S. Yablonsky, A. Sukhonogov, "Semi-Automated English-Russian WordNet Construction," Proc. of the 3rd Int'l WordNet Conference, 2006, pp. 345-347. [32] 국립국어연구원현대국어사용빈도조사 : 한국어학습용어휘선정을위한기초조사, 2002. [33] 국립국어연구원현대국어사용빈도조사 2, 2005. [34] KorLex: http://corpus.fr.pusan.ac.kr/korlex/start.htm. [35] F. Dau, M.L. Mugnier, G. Steumme (eds.), Conceptual Structures: Common Semantics for Sharing Knowledge, Springer, 2005. [36] A. Schalley, D. Zaefferer (eds.), Ontolinguistics: How Ontological Status Shapes the Linguistic Coding of Concepts, Mouton de Gruyter, 2007. [37] E. Hovy, "Methodologies for the Reliable Construction of Ontological Knowledge," LNAI, Vol.3596, 2005, pp. 91-106. [38] S. Nirenburg, V. Raskin, Ontological Semantics, The MIT Press, 2004. [39] Memodata: http://www.memodata.com. [40] KorLex: http://korlex.cs.pusan.ac.kr 윤애선 1982년이화여자대학교불어불문학과학사. 1984년이화여자대학교불어불문학과석사. 1989년 ( 프 ) Paris-Sorbonne 대학교언어학과박사. 1992년~1993년 ( 미 ) Stanford 대학교 CSLI 방문교수. 1987년~현재부산대학교불어불문학과, 인지과학협동과정교수. 관심분야는자연언어처리, 지식처리, 언어자원표준화
108 정보과학회논문지 : 소프트웨어및응용제 36 권제 1 호 (2009.1) 황순희 1986 년이화여자대학교불어불문학과학사. 1988 년 ( 프 ) Rouen 대학교언어학과석사. 1993 년 ( 프 ) Paris 8 대학교언어학과박사. 2006 년 ~2008 년부산대학교 U-Port IT 산학공동사업단, 전임연구원 2008 년 ~ 현재부산대학교인문학연구소, 연구교수. 관심분야는전산어휘의미론, 온톨로지 이은령 1991 년부산대학교불어불문학과학사 1992 년프랑스 Paris 7 대학언어학석사 2004 년프랑스국립고등사회과학원언어학박사. 2004 년 ~2007 년부산대학교언어정보연구실선임연구원. 2008 년 ~ 현재부산대학교인문학연구소 HK 연구교수관심분야는지식처리, 언어자원구축 권혁철 1982년서울대학교컴퓨터공학과학사 1984년서울대학교컴퓨터공학과석사 1987년서울대학교공학과박사. 1992 년~1993년 ( 미 ) Stanford 대학교 CSLI 방문교수. 1987년~현재부산대학교정보컴퓨터공학부, 인지과학협동과정교수관심분야는인간언어공학, 정보검색, 인공지능