국립국어원 2008-01-24 발간등록번호 11-1371028-000010-01 한국어어휘의미체계기반입체적기본어휘사전구축연구
국립국어원 2008-01-24 발간등록번호 11-1371028-000010-01 한국어어휘의미체계기반입체적기본어휘사전구축연구 연구책임자 : 옥철영 ( 울산대학교 ) 울산대학교
제출문 국립국어원장귀하 한국어어휘의미체계기반입체적기본어휘사전구축연구 에관하 여귀원와체결한연구용역계약에의하여연구최종보고서를작성하여제출 합니다. 2008 년 12 월 20 일 울산대학교산학협력단 연구책임자 : 옥철영 ( 울산대학교 ) 공동연구원 : 남길임 ( 경북대학교 ) 신중진 ( 울산대학교 ) 최호섭 (KISTI) 보 조 원 : 배영준 ( 울산대학교 ) 김동명 ( 울산대학교 ) 심강섭 ( 울산대학교 ) 정성린 ( 울산대학교 ) 최효식 ( 울산대학교 ) 정수진 ( 경북대학교 ) 최 준 ( 경북대학교 )
요약문 1. 사업명 한국어어휘의미체계기반입체적기본어휘사전구축연구 2. 연구의목적 다의의수준 ( 단일어, 단의어포함 ) 에서고빈도기본어휘 ( 최소 50,000 어휘 ) 선정기준마련및선정 선정된기본어휘에대한어휘망구축 -명사의경우어휘망 ( 상의어, 하의어, 반의어, 동의어 ) 구축 -용언의논항 ( 하위범주화 ) 정보를명사어휘망체계를바탕으로제시 -부사의경우부사와호응하는용언관계설정 한국어어휘의미체계기반기본어휘입체사전설계와브라우저구현 선정된기본어휘에대해품사및다의어수준의의미태깅된표준국어대사전의뜻풀이말 ( 최소 50,000) 구축 3. 연구의필요성 국어정보화산업의활성화를위하여표준국어대사전의기계가독성을확보할필요가있음 표준국어대사전의고도화및한국어교육과국어정보화산업활성화를위하여범용적한국어의미체계기반입체적기본어휘사전이필요가있음 4. 연구내용및범위 형태의미분석말뭉치 (21 세기세종계획결과물약 1,100 만어절 ), 현대국 어사용빈도조사결과, 연세한국어사전, 등급별국어교육용어휘 ( 김광해 ) - i -
를이용하여고빈도의단의어, 동형이의어를우선추출하였고, 다의어수준의의미태깅된표준국어대사전뜻풀이에서다의어빈도등을추출하여품사별어휘빈도등을종합적으로고려하여기본어휘 ( 다의어 )50,328 개를선정하였음. 최종선정된기본어휘는어휘의미체계의구성성과어휘출현빈도간의적절한조율을통해명사 68.3%(34,387), 동사 20%(9,986), 형용사 7%(3,315), 부사 5%(2,640) 의비율로선정되었음. 다음과같이다의어수준표제어간의어휘의미관계를설정하였음. -명사표제어간의미관계 ( 상의어 / 하의어, 동의어 / 반의어 ) 제시 -동사와형용사의논항정보를어휘의미체계를바탕으로제시 -부사와호응하는용언제시 용언의하위범주화정보를추출하기위하여세종전자사전의의미부류체계를어휘망으로매핑하였으며, 선정된용언과부사의다의어의미를세종용언사전의의미와매핑하였음. 선정된기본어휘에대해새로이개정된 WEB 용표준국어대사전의뜻풀이를형태 의미주석부착하였음. 한국어어휘의미체계에기반한기본어휘입체사전 ( 명사-용언 -부사 ) 을웹상에서검색할수있는브라우저와관리도구를구현하였음. 5. 연구결과의활용 차후어휘망확장을위한어휘망구축기준을마련하였으며, 어휘망브라우저를이용하여체계적인사전편찬 ( 상위개념등 ) 에활용할수있음. 품사및다의어수준의의미주석된표준국어대사전의뜻풀이말 ( 최소 50,000) 을확보함으로써, 표준국어대사전에서다양한어휘정보추출을추출할수있음. 품사및다의어수준의의미주석작업과정에서발견한기존표준국어대사전뜻풀이말내의오류 ( 미등재어, 철자오류, 띄어쓰기오류등 ) 를새로이개정된 WEB 용표준국어대사전에서수정하였음. 한국어의미체계에기반한입체적기본어휘사전은차후다국어사전으로확장될때한국어에대해명사, 용언, 부사간의관계를쉽게파악할수있음. - ii -
차 례 I. 기본어휘선정 1 1. 기본어휘의개념및선정방법 1 1.1. 기본어휘의개념 1 1.2. 다의어수준기본어휘선정의필요성 2 1.3. 기본어휘의선정방법 4 2. 어휘선정의대원칙 5 2.1.5 만기본어휘선정의기초자료 5 2.2. 품사별어휘비율 6 2.3. 어휘선정의기본지침 8 3. 어휘선정과정 9 3.1. 어휘선정절차 9 3.2. 형태의미주석말뭉치의빈도검증을위한기존어휘목록비교 10 3.3. 다의어수준목록선정 14 4. 기본어휘선정보완작업 25 4.1. 개념어휘들에대한재검토 25 4.2. 일괄삭제가가능한비표준어류및의존명사류삭제 26 4.3. 고빈도어휘로보기어려운어휘류의개별적삭제 : 어의 (word sense) 수준의고난이도어휘삭제 27 5. 최종선정기본어휘 27 I. 표준국어대사전비교및뜻풀이태깅 29 1. 표준국어대사전비교 29 2. 뜻풀이태깅 30 2.1. 품사태깅원칙 30 2.2. 의미태깅원칙 32 2.3. 동형이의어 / 다의어의미태깅도구 34 2.4. 태깅오류직접수정도구 37 2.5. 의미태깅결과추출도구 38 3.WEB 용표준국어대사전뜻풀이매핑 39 I. 명사어휘망구축 43 - iii -
1.U-WIN( 울산대어휘지능망 43 2.U-WIN 의기본의미관계 45 2.1.U-WIN 에서의최상위어설정 45 2.2. 의미관계 47 3. 선정기초어휘의 U-WIN 매핑 61 IV. 세종전자사전이용용언 / 부사관련정보구축 65 1. 세종의미부류체계 65 2. 세종의미부류체계의 U-WIN 매핑 67 2.1. 매핑원칙 67 2.2. 매핑도구 70 3. 세종사전추출정보와표준국어대사전정보매핑 72 3.1. 세종사전추출정보 72 3.2. 세종사전과표준사전의매핑 75 3.3 세종사전과표준사전의매핑미처리어휘 77 3.4. 매핑결과 79 V. 어휘망통합브라우저 81 1. 어휘망편집브라우저 81 1.1. 어휘망편집브라우저구성요소 81 1.2. 어휘관계설정 83 1.3. 어휘추가 / 수정 / 삭제 84 2.WEB 용어휘망브라우저 87 2.1.WEB 용어휘망브라우저구성요소 87 2.2.WEB 용어휘망브라우저기능 88 3. 브라우저의데이터베이스설계서 97 3.1. 테이블종류및구조 97 3.2 필드간의관계 101 참고문헌 103 부록 A. 선정된기본어휘목록 105 부록 B. 구축된데이터베이스 251 - iv -
< 표차례 > < 표 1> BasicEnglish 각단어의의미의수 3 < 표 2> 각종어휘표의의미량의비교 3 < 표 3> 세종품사 / 의미태깅말뭉치의품사별빈도 5 < 표 4> 사전별품사비율비교 7 < 표 5> 품사별어휘사용비율 7 < 표 6> 고빈도어휘의품사별추출량 8 < 표 7> 동형어빈도목록검증자료 9 < 표 8> 비교대상명사목록 10 < 표 9> 명사 12 < 표 10> 동사 12 < 표 11> 형용사 12 < 표 12> 부사 12 < 표 13> 동형어선정어휘목록중다의어수준에서어휘선정시제외기준 16 < 표 14> 다의어수준의 1단계작업수선정어휘수 17 < 표 15> 다의어빈도를고려한어휘삭제및추가기준 17 < 표 16> 다의어수준의기본어휘선정수 24 < 표 17> 최종선정품사별기본어휘수 27 < 표 18>CD 용및 WEB 용표준국어대사전뜻풀이차원에서의비교 29 < 표 19> 동형이의어 / 다의어 떄 의품사및의미태깅된뜻풀이 32 < 표 20>CD 용및 WEB 용동형이의어 / 다의어뜻풀이매핑표 40 < 표 21> WEB 사전비교후선정된기본어휘수및 WEB 뜻풀이일치수 42 < 표 22> 최상위어설정기준 45 < 표 23>U-WIN 에서의 23 개최상위어 46 < 표 24>U-WIN 의기본의미관계 48 < 표 25>U-WIN 에서의상하관계설정원칙 50 < 표 26> 한자어의상하관계설정사례 51 < 표 27> 복합명사의상하관계설정사례 52 < 표 28> 뜻풀이를이용한상위관계설정사례 53 < 표 29> 같은종류의어휘의뜻풀이가다른경우의상위관계설정사례 53 < 표 30> 다의어의상위관계설정사례 54 < 표 31> 유개념어가두가지이상표현되는경우의상하관계설정사례 54 < 표 32>U-WIN 상에서의기초어휘의계층구조 61 < 표 33> 최종선정된기본어휘의세종전자사전매핑수 79 - v -
< 그림차례 > < 그림 1> 다의어수준목록의어휘선정 14 < 그림 2> 다의어수준목록의어휘선정 _Q 열정보추가 23 < 그림 3> 선정어휘중삭제대상어휘 > 27 < 그림 4> 의미태깅대상고빈도동형이의어 / 다의어명사뜻풀이태깅도구 35 < 그림 5> 의미태깅대상명사를가진모든뜻풀이태깅도구 36 < 그림 6> 품사및의미태깅오류직접수정도구 37 < 그림 7> 의미태깅된결과추출도구로그인화면 38 < 그림 8> 의미태깅된결과추출도구 39 < 그림 9> U-WIN 구축사례 44 < 그림 10>U-WIN 분포도 45 < 그림 11> 가면 의계층구조 (U-WIN 관리도구 ) 63 < 그림 12> 세종명사의미부류 값 69 < 그림 13>U-WIN 에서의 값 의계층구조 69 < 그림 14> 세종의미부류체계와 U-WIN 의개념어휘매핑도구 71 < 그림 15> 어휘망통합브라우저의구성요소 81 < 그림 16> 싸하다 의검색결과 82 < 그림 17> 공통으로적용되는어휘관계설정 83 < 그림 18> 혀 와 싸하다 의주어관계설정 84 < 그림 19> 어휘를어휘망에추가하기위한과정 85 < 그림 20> 어휘망내에 가계 위치확인 85 < 그림 21> 선정된어휘목록추가 86 < 그림 22> 선정된어휘목록수정 86 < 그림 23> 선정된어휘목록삭제 87 < 그림 24> 웹용어휘망브라우징도구의구성요소 88 < 그림 25> 설정정보변경 89 < 그림 26> 기본어휘검색 90 < 그림 27> 검색어목록에추가된검색어 90 < 그림 28> 기본어휘목록 91 < 그림 29> 선택된어휘 ( 예, 독가스 ) 에대한어미관계정보 92 < 그림 30> 트리에서어휘 독가스 에마우스를올려뜻풀이보기 93 < 그림 31> 상위어따라가기 1 94 < 그림 32> 상위어따라가기 2 95 < 그림 33>30 개이상인하위어보기 96 < 그림 34> 기체 와 주다 의양방향추적브라우징 96 < 그림 35> 테이블과필드간의관계 101 - vi -
I. 기본어휘선정 1. 기본어휘의개념및선정방법 1.1. 기본어휘의개념 본연구는 한국어어휘의미체계기반입체적기본어휘사전구축 을위한한국어기본어휘 5만여개를선정하되,2008 년개정된 Web 상의 < 표준국어대사전 > 에서다의어수준 5만항목을중심으로선정하는것을주요목적으로한다. 기본어휘, 기초어휘는연구분야및연구자에따라다소상이한방식으로정의되어왔다. 1) 한국가의언어를사용하는데필수적인어휘목록, 고빈도의어휘목록, 빈도뿐만아니라분포가넓으며, 파생이나합성등이차조어의근간이되는최소한의필수어등 기본 과 기초 의초점을어디에두느냐에따라기본어휘와기초어휘의정의는각기달리규정될수있다 ( 임지룡 1991:89). 또한용어에대한문제로서기본어휘, 기초어휘, 기간어휘등에대한변별성도다소달리정의될수있는데, 기초어휘와기본어휘를구분하는관점에서는기초어휘는어휘교육적관점 한언어의언어생활을영위하는데필수적인어휘목록 으로한정하며, 기본어휘는어떤특정분야에기본이되는어휘로개념으로구분하기도한다. 본연구의궁극적인목표는 한국어어휘의미체계기반입체적기본어휘사전구축 에있으며, 연구의기반은범용적언어사전인 < 표준국어대사전 > 에실린어휘 ( 다의어수준 ) 가된다. 따라서본연구의기본어휘는한국어를활용한언어생활에필수적인어휘로서의기초어휘와향후입체사전으로거듭날 < 표준국어대사전 >( 이하 < 표준 >) 의범용성을반영한개념적기본어휘를대상으로할필요가있다. 즉, 본연구의기본어휘선정대상은 < 표준 > 에기 1) 기본어휘 ( 基本語彙, fundamental vocabulary) 와유사한개념을가진술어로 기초어휘 ( 基礎語彙, basic vocabulary), 기간어휘 ( 基幹語彙, basic core vocabulary) 등이있다. 이중에서기초어휘는 특정언어에서그중추적부분으로서구조적으로존재하는단어의부분집단 으로, 기본어휘는 어떤목적에따라인위적으로선정되며공리성을가진단어의집단 으로, 기간어휘는 어떤특정한집단을대상으로한어휘조사에서직접적으로얻어지는그단어집단의골격적인부분집단 으로설명되기도한다 ( 임지룡 1991: 88 에서재인용 ). 본연구에서는특정언어의일상적이고기초적인생활어휘를비롯하여전문분야의가장기초적인어휘까지포괄하는수준의어휘목록을기본어휘로정의하고자한다. - 1 -
술된다의어단위 5 만개에한정하되, 일상적인언어생활에필수적인교육용 기초어휘와한국어어휘의미체계에필수적인개념적기본어휘를포괄한다. 본연구에서의기본어휘 (generalvocabulary) (1) 교육용기초어휘 : 한국가의언어를표현하고이해하는데필수적인어휘목록. (2) 개념적기본어휘 : 한언어의어휘의미체계를구성하는데필수적인어휘목록. 1.2. 다의어수준기본어휘선정의필요성 기본어휘선정을위한연구는국내외에서활발히진행되어왔다. 국내연구로는서정국 (1968), 임지룡 (1991), 이충우 (1992), 서상규 (2000) 등이있으며, 영미권의연구들로는 ESL 학습자를위한 Ogden(1930),West(1953) 등과 LDOCE 등과같은각종영미권사전에서의선행연구들을들수있다. 이중, 영어가제2 언어로서학습될경우에도움을주기위한목적으로, 1920 년대 C.K.Ogden 등이선정한 기초영어 (The System of Basic English)850 단어 는이후의기초어휘에대한논의에많은영향을준것으로유명하다. 김광해 (2003:7) 에서는 Ogden(1930) 에서선정된영어기초어휘의내용별분류를 < 표 1> 과 < 표2> 로제시한바있는데,< 표1> 은당시선정된 850 개의의미유형및다의어수에대한것이고,< 표2> 는그단어들이다의적으로사용되는경우사용된의미의수를각기다른연구자들이조사한통계에대한것이다. - 2 -
< 표 1> BasicEnglish 각단어의의미의수 의미의수유형 각단어의의미의수 각단어의의미의평균 작용어 100 어 2,604 26 사물어 일반어 400 어그림그릴수있는말 200 어 4,866 2,970 12 14.8 성질어 일반성질어 100 어반대성질어 50 어 1,272 713 12.7 14.0 합계 850 어 12,425 14.6 ( 출처 : 窪田富男,1989:154, 玉村文郞編, 日本語と日本語敎育 ( 上 ), 明治書院.) < 표 2> 각종어휘표의의미량의비교 Basic Thorndike Palmer West 사용된어휘수 ( 어휘표의총어휘수 ) 850 어에관하여추정된 OED 의의미의수 850 (850) 850 (1,000) 850 (1,000) 850 (1,000) 12,425 21,120 19,426 18,171 의미의평균수 14.6 24.8 22.8 21.3 ( 출처 : 窪田富男,1989:154, 玉村文郞編, 日本語と日本語敎育 ( 上 ), 明治書院.) < 표1>,< 표2> 의조사결과로부터알수있는사실은첫째, 기본어휘는그수가비록 850 어로제한되어있지만이단어들이다의적으로적용될수있는폭이매우넓어서약 2만개의단어를사용하고있는것과비슷한효과를올린다는것이고, 둘째학자들에따라기본어휘의다의어수준의의미수는큰편차를보이며각기달리나타난다는것이다. 이러한조사결과는기본어휘의선정에있어서형태중심의접근방법이가질수있는문제점을드러내는것으로다의어항목중심의기본어휘선정의필요성을나타내주고있는것이다. 기본어휘에는소수의한정된단어만을가지고도다양한상황에서두루활용할수있어야한다는효율성을가져야하는데, 기본어휘의모든다의어항목들이그러한효율성을균등하게가 - 3 -
질수있으리라는보장은없다. 따라서기본어휘를선정할때에는다의어항 목을고려한다의어수준의목록선정방법이도입되어야할필요가있다. 1.3. 기본어휘의선정방법 기본어휘를선정하는방법은여러가지가있을수있다. 연구자의경험에의하여주관적으로선정할수도있고빈도조사결과를이용하여일정순위이상의단어를선정할수도있다. 또한이둘을혼합하여빈도조사결과를가지고연구자가주관적으로선정할수도있다. 어떤방식으로선정을하든지빈도조사결과로나타난일정순위이상의단어를기본어휘로선정하고자할때가장중요하게고려되어야할점은빈도조사의대상이되는자료의분량과범위이다. 자료의분량이적으면실제빈도가적어도제한된조사자료에서만집중적으로나타나는단어가높은빈도를보일수있고범위가제한되면한분야에서만집중적으로사용되는단어가높은빈도를보일수있기때문이다. 김광해 (1993:55) 에서는기본어휘라는개념을다음과같이두가지로나누어살피고있다. ⑴ 계량대상언어집단을각성격에따라몇개의무리로나눌때각무리에공통으로출현하는어휘의집합 ( 예 ) 잡지 : 내용별, 작품별로형성된여러층에걸쳐서공통적으로출현하는어휘의집합 ⑵ 특정영역의전개를위하여가장기본이되는어휘의집합 ( 예 ) 언어사용의국면이다양한여러영역으로분리될수있다는것을전제로하여 생활기본어휘, 학습기본어휘, 국민학교교육을위한기본어휘, 중학교수학교육을위한기본어휘 등특정한목적, 특정한분야를위한 기본어휘 라는식의표현이가능한어휘의집합 이러한논의를종합해볼때, 기본어휘는어휘들의빈도와함께다방면에 서사용되는보편적어휘, 즉개념적기본어휘와교육용기초어휘를모두 고려하여선정하고, 그어휘들의체계를분석한후목록으로제시하여야한 - 4 -
다. 이를위하여본연구에서는 1,100 만여어절형태 - 의미분석말뭉치와 < 표 준 > 의다의어수준의미분석말뭉치를주요자료로활용하고자한다. 2. 어휘선정의대원칙 2.1.5 만기본어휘선정의기초자료 본연구에서 5 만기본어휘를선정할때다음의기초자료를활용하여어 휘빈도목록을 1 차적으로추출한다. <1 차대상자료 > -< 표준국어대사전 >50 만표제어의뜻풀이항다의어분석말뭉치 -1,100 만어절세종형태-의미분석말뭉치 < 표 3> 은세종말뭉치의품사별빈도정보이다. < 표 3> 세종품사 / 의미태깅말뭉치의품사별빈도문어문어문어문어 ( 형태소분석 / ( 형태의미 ( 형태의미분 ( 형태소분석 ) 미공개포함 / 석 / 오류수분석 ) 오류수정후 ) 정후 ) 문어 ( 형태의미분석 / 통합후 ) 처리파일갯수 301 447 339 339 339 어절수 10,665,549 15,126,172 11,119,815 11,119,815 11,119,815 어절별 _TAG 수 1,598,010 2,098,643 1,705,911 1,705,155 1,703,561 NNG 85,189 103,458 97,319 101,705 101,563 NNP 63,009 80,833 69,508 69,522 69,524 NNB 381 414 535 535 535 NP 213 246 226 226 228 NR 422 508 440 440 440 VV 5,751 6,831 6,876 6,878 15,800 VA 1,229 1,522 1,384 1,392 4,395 VX 73 87 82 82 82 VCP 5 4 3 3 3 VCN 4 6 4 4 4-5 -
MAG 5,391 6,764 6,057 6,057 5,843 MAJ 62 84 71 71 71 MM 172 199 190 190 189 XPN 36 35 35 34 34 XSN 72 73 71 69 69 XR 1,771 2,107 1,865 1,862 901 IC 887 1,166 965 964 964 NA ( 분석불능범주 ) 834 1,349 1,060 1,057 1,057 통합후는 < 표준 > 에등재된어휘가 XPN+NNG,NNG+XSN,NNG/MAG+XSA/XSV 로 분석된경우, 정확한품사 ( 특히용언류 ) 빈도를측정하기위해이를해당품사로통합한 것임. < 표준 > 뜻풀이말뭉치의경우, 어휘통제하에기본어휘가구성된장점이있으나구어및다양한텍스트장르에서추출된어휘가아니므로어휘의다양성확보에문제가있을수있다. 따라서 1차빈도목록을 2차대상자료를통해검증및보완해야한다.1 차결과물의검증및보완을위한 2차대상은다음과같다. <2 차대상자료 > -국립국어원한국어교육용기초어휘빈도목록 : 조남호 (2002) -사전: 연세한국어사전 -기타어휘빈도목록 : 김광해 (2003) -어휘의미부류별목록 : 한국어교육용사전및교재등의분석을통한의미부류별어휘목록 2.2. 품사별어휘비율 명사, 용언, 부사등기본어휘의품사별어휘비율은기본어휘선정의기 초자료에서추출된어휘내에서다음사항을고려하여종합적으로결정한 다. - 6 -
⑴ < 표준 > 및 < 연세한국어사전 > 의등재비율 < 표 4> 사전별품사비율비교 명사 동사 형용사 부사 < 표준 >(50 만어휘 ) 65% 13% 6% 4% < 연세 >(5 만어휘 ) 62% 19% 4% 5% 표준 > 연세 표준 < 연세 표준 < 연세 표준 < 연세 본연구의품사별비율은 < 연세한국어사전 > 표제어의품사별비율을따르기로한다. 그이유는 < 연세한국어사전 > 이전체 5만어휘로구성되었고,5 만어휘는 4,300 만어절의균형말뭉치의빈도에따른것이기때문이다. 또한표제어목록의수가증가함에따라 < 표준 > 에는명사의비율이그만큼늘어났고그에따라동사와형용사의비율이줄어들었음을알수있다. 즉 < 표준 > 의 50 만어휘와비교했을경우 5만어휘단위의품사별비중을더욱실증적으로반영하였다고판단된다. 그러므로실증적목록을중시하는입장에서, 고빈도 5만어휘를대상으로하는입장에서 < 연세한국어사전 > 의기준을따르기로한다. ⑵ 현대한국어어휘사용빈도에나타난품사별사용비율 ( 서상규 1998) < 표 5> 품사별어휘사용비율 명사동사형용사부사 품사별어휘유형수분포 59.9% 15.9% 5% 4.7% 품사별빈도수의분포 22.8% 12% 3.4% 4.12% ⑶ 고빈도어포함비율은각품사에따라달리한정본연구가향후전체 < 표준 > 대상어휘망구축을위한실험적인연구라고전제할때, 각품사별어휘량확보가필요할수있으므로고빈도어포함비율을각품사에따라달리한정하는방법을생각해볼수있다. - 7 -
2.3. 어휘선정의기본지침 다의어수준에서의사용빈도정보를추출할수있는말뭉치는현재까지공식적으로제공되지않으므로, 기본적으로형태의미말뭉치에서동형이의어수준의고빈도기본어휘를먼저선정한후, 형태 의미주석이부착된 < 표준 > 의뜻풀이말에서다의어수준에서의사용빈도를추출하여최종적인 5만어휘를선정한다. 기본어휘선정의기본지침은다음과같다. ⑴ < 표준 > 의주표제어와단어범주의부표제어를대상으로한다. ⑵ 5만어휘중 비표준어, 방언, 북한어, 옛말 등의표제어는포함하지않는다. 목록검토후, 비표준어 / 북한어 / 옛말 / 방언등은일괄적으로검토하기로한다. 동형어목록선정후,< 표준 > 등재만추출한다. 형태-의미분석말뭉치 (1,100 만어절 ) 의형태-의미분석말뭉치의고빈도어휘의양은다음과같다. < 표 6> 고빈도어휘의품사별추출량 명사 동사 형용사 부사 계 66.7% 21% 6.7% 5.6% 100% 33,350 10,500 3,350 2,800 50,000 ⑶ 말뭉치의빈도목록을우선으로하되, 교육용기본어휘와개념적기본 어휘가포함되도록기존의빈도목록을적극적으로대조 검토한다. - 8 -
< 표 7> 동형어빈도목록검증자료 기존목록 어휘수 조남호 (2002), 현대국어사용빈도조사, 총 58,000 여개 ( 동형어수준 ) 한국어학습용어휘선정을위한기초조사. 김광해 (2003), 등급별국어교육용어휘, 총 7등급중 4등급까지 35,000 어절가량박이정. ( 동형어수준 ) < 연세한국어사전 >( 이하 < 연세 >) 표제어 5 만중해당네개품사 45,000 여개 3. 어휘선정과정 3.1. 어휘선정절차 어휘선정은다음의절차에따라진행한다. 1 단계 2 단계 형태의미주석말뭉치 1,100 만어절의어휘빈도목록추출 - 말뭉치정제및전처리 : XSA,XSV,XSN' 등이결합한파생어등을포함한복합어단위로결합함 형태의미주석말뭉치의빈도검증을위한기존어휘목록비교 품사별어휘수조정 동형어수준어휘목록확정 3 단계 2 단계결과물을 < 표준 > 의표제어및 < 표준 > 다의어말뭉치와비교함으로써다의어수준의 5 만어휘목록확정 < 표준 > 표제어와비교분석 : 구단위표제어제외, 비표준어 / 방언 / 북한어 / 옛말제외 < 표준 > 뜻풀이다의어분석말뭉치 4 단계어휘망구축단계에서기본어휘및기초어휘목록보완 - 9 -
3.2. 형태의미주석말뭉치의빈도검증을위한기존어휘목록비교 3.2.1. 기존어휘목록비교를통한어휘선정 명사 를중심으로검증목록을비교 검토하는방법및그과정을살펴보 면다음과같다. ⑴ 세종형태분석말뭉치대상 101,557 개의명사어휘를검토한다. ⑵ 비교대상명사목록 ( 조 (2002), 김 (2003),< 연세 >) 을참조하여 4개의목록을다음과같이작성한다. 아래목록1- 목록4는검증목록의신뢰도에따라네가지그룹으로구분한것으로, 목록1은선정대상이며, 중요도는 목록1, 목록2 를우선적으로선정하고, 목록3은부분적으로선정하며, 목록4는제외한다.( 구체적인선정비율은 3.2.2 참조.) < 표 8> 비교대상명사목록 조남호 (2002) 김광해 (2003) < 연세한국어사전 > 목록 1 목록 2 O O O X O O O O X O X O O X X 목록 3 X O X X X O 목록 4 X X X ⑶ 정렬기준은세종형태분석말뭉치의어휘빈도순으로 1차정렬하여검토한다. ⑷ 세종형태분석말뭉치에서추출된고빈도순위의명사어휘들이비교대상목록에도모두수록되어있으면 ( 목록1), 본어휘의미망대상명사 - 10 -
어휘로선정한다. ⑸ 특별히 5만대상어휘로볼수없다고판단되는어휘라면삭제한다. ⑹ 세종형태분석말뭉치에서추출된빈도순위의명사어휘들이김광해 (2003),< 연세한국어사전 > 중에서한곳이라도부재하면 ( 목록2)5 만대상어휘로볼수있느냐없느냐에따라서선별하여선정한다. ⑴ : 모두싣는다. ㄱ. 춤, 눈사람, 알밤ㄴ. 휙휙, 소곤소곤, 싱글싱글, 기웃, 쨍 ⑵ : 사전에따른표제어및품사범주의차이를보이는아래의단어는모두 < 표준 > 에등재되어있으므로이를중심으로싣기로한다. ㄱ. 국제ㄴ. 우리나라, 그때, 젖병, 제삿밥ㄷ. 뜻밖에, 뜻밖에, 앞서, 꼼짝 ⑺ 세종형태분석말뭉치에서추출된빈도순위의명사어휘들이비교대상목록에서두곳에서부재하면 ( 목록3) 대부분삭제하고,3,000 등위에드는경우의명사어휘까지만선정한다. ⑻ 세종형태분석말뭉치에서추출된빈도순위의명사어휘들이비교대상목록에서모두부재하면 ( 목록4) 어휘의미망선별명사어휘에포함시키지않는다. : 대부분삭제한다. 삭제의예는다음과같다. ⑴ 구어및비표준어 : 헌데 (< 표준 > 표제어없음 ), 거꾸루 ⑵ 옛말 : 수북히 ( 수북이 의옛말 ) 비표준어와옛말의뜻풀이정제필요함 ⑶ 어쩌구저쩌구 : 어쩌고저쩌고 의북한어 ⑷ 기타오류 ( 철자오류및태깅오류 ) - 예컨데 - 간간히 5( 표준사전에 간간히 5 는없음 ) - 곰곰히 ( 곰곰, 곰곰이 는있으나 곰곰히 는없음. 수북이 와의일관성 ) ⑼ 다만선별된 35,000 여개의명사어휘를전체적으로검토하면서체계적으 로고려되어야할명사어휘가부재하면찾아서선정한다 ( 상하위관계어 휘, 등위관계어휘, 반의 / 유의관계어휘등고려 ). - 11 -
3.2.2. 목록검토의결과 형태의미주석말뭉치의빈도목록과비교대상명사목록을비교 검토하 여품사별로선정한기본어휘의양은다음에제시한표와같다. < 표 9> 명사 1 번목록 2 번목록 3 번목록 4 번목록합계 어휘수 22,232 10,536 16,554 52,235 101,557 선정어휘수 22,232 10,536 3,010 0 35,778 < 표 10> 동사 1 번목록 2 번목록 3 번목록 4 번목록합계 어휘수 5,066 2,777 2,717 5,240 15,800 선정어휘수 5,066 2,777 2,496 106 10,455 < 표 11> 형용사 1번목록 2번목록 3번목록 4번목록 합계 어휘수 1,676 695 691 1,333 4,395 선정어휘수 1,676 695 691 288 3,350 < 표 12> 부사 1 번목록 2 번목록 3 번목록 4 번목록합계 어휘수 1,238 771 960 2,938 5,907 선정어휘수 1,238 755 704 44 2,741-12 -
3.2.3. 기본어휘선정세부지침 품사별로조정된어휘수에맞춰동형어수준의어휘목록확정할때에는 다음의세부지침에따른다. ⑴ 품사통용어 의처리문제 :< 표준 > 에준하여처리한다. 명사 / 부사의품사통용 명사 / 부사모두에포함. 예 ) 현재, 오늘, 어제, 스스로 명사 / 관형사 명사에포함. 예 ) 적극적, 역사적 ⑵ 표제어단위의문제 :< 표준 > 을따른다. 합성어의기준은 < 표준 > 을따르되, 구단위표제어 ( 예 : 국회의장 ) 은논의를거쳐결정한다. 명사 + 조사통합의형태로만쓰이는어휘의선정문제 : 만약 ( 에 ), 평소 ( 에 ), 비밀리 ( 에 ) 의경우는 < 표준 > 의처리에따라 만약, 평소, 비밀리 와같은형태로만처리함. 즉,< 표준 > 의표제어 만약, 평소, 비밀리 의형태로선정함. ⑶ 어근성명사의선정문제 : 표준의품사를따른다. 국제, 국제적, 대, 여 ⑷ 명사의경우의존명사는제외한다. 단의존적쓰임을보이는일반명사류는 < 표준 > 에준하여명사의다의범주에포함시킨다. 예 ) 병 ( 명사 ). 중략. 2 ( 수량을나타내는말뒤에쓰여 ) 액체나가루따위를 1 에담아그분량을세는단위. 물한병 / 콜라네병 / 주량이소주세병이다. ⑸ 고유명사는제외한다. ⑹ 간호원, 국민학교등이전말이나비속어등도 비표준어, 방언, 북한어, 옛말 가아닌한포함한다. ⑺ 다의어빈도목록과의비교를위하여다음을고려한다. 빈도를기준으로할경우빈도1,2 정도의단어는누락될가능성이매우크다. 빈도를고려한선정 : 저빈도어휘를선정한경우, 기초어휘및기본어휘에한해서선정하도록한다 ( 목록2,3 에있는것중에서빈도1,2 가특히많음 ). - 13 -
. 향후비교검토를위하여어휘형태옆에목록별로고유번호를붙이는 방안을고려해본다 3.3. 다의어수준목록선정 이단계에서는확정된동형어수준의어휘목록을 < 표준 > 의표제어및 < 표준 > 다의어말뭉치와비교함으로써다의어수준의 5만어휘목록확정한다. 이때문제는다의어말뭉치의구성이 < 표준 > 의뜻풀이로구성되므로, 여기서추출된빈도목록이언어현실을균형있게대표한다고하기는어렵다는점이다. 특히 < 표준 > 의뜻풀이가사전학적어휘통제를거친것이아니고, 뜻풀이의대상이되는표제어가상당부분전문어 ( 전체표제어의 42.%) 를포함하고있다는점은다의어말뭉치목록을활용할때적극적으로고려되어야하는부분이다. 본작업과정에서는, 작업과정에서다의어빈도목록을반영하되, 기존의세종형태주석말뭉치를대상으로한동형어수준빈도목록을고려하고기타기존목록을비교함으로써, 다의어빈도목록의대표성문제를보완할수있도록하였다. 이러한작업과정에서는특히작업자의직관이중요한변수로작용하는데, 작업자에따른변수를최대한줄이기위하여개별품사의지침을마련하여그지침을준수하도록하였다. 작업의편의를위하여활용한검토대상자료의형태는다음과같다. < 그림 1> 다의어수준목록의어휘선정 각필드는아래와같은정보로구성되어있으며, 다의어수준최종선정 여부는 A 열에기록하도록하였다. - 14 -
* 각필드설명 ** A : 다의어수준목록에서의최종선정여부 B: 일련번호 ( 동형어수준의미빈도목록에서의일련번호 ) C : 표제어 D : 동형이의어번호 ( 비어있는경우는동형이의어아님 ) E: 다의어번호 F: 다의어빈도 G :< 표준 > 의뜻풀이 H :< 표준 > 의기타참조정보 ( 한자등 ) I: 사전뜻풀이에서출현한동형이의어수준의빈도 J: 동형이의어빈도 (< 세종 > 형태의미주석말뭉치 ) K : 조남호 (2002) 빈도목록의출현여부및빈도 L: 김광해 (2003) 목록의출현여부및어휘등급 M :< 연세한국어사전 > 의출현여부 N : 동형어수준에서의선정여부 O :CD 사전과세종형태의미주석말뭉치목록의비교자료 (NO-HOMO, NOM,NO_PUM 등 ) P :WEB 버전과세종형태의미주석말뭉치목록의비교자료 (NOM, NO_PUM 등 ) NO_HOMO,NON,NO_PUM 의의미 -NO_HOMO:< 표준 > 에표제어는등재되어있으나, 어깨번호가없는경우. -NON:< 표준 > 의표제어로등재되지않은경우. -NO_PUM:< 표준 > 에서품사정보가없는경우. 구단위이상의전문용어이거나어근인경우가대다수임. 위와같은각필드의정보를분석함으로써다의어수준목록선정작업이진행되었는데, 구체적인작업의과정은두가지작업으로이루어진다. 하나는동형어수준목록에서선정된어휘중,< 표준 > 사전에없거나품사정보가다른어휘를제외하는작업이고, 다른하나는동형어수준목록과다의어수준목록을비교함으로써, 기존동형어목록에서제외되는어휘와새로추 - 15 -
가되는다의어수준어휘들을가려내는작업이다. 전자는후자의작업을위 한기초작업으로자료정제의성격을띤다. 3.3.1. 동형어수준목록에서의삭제작업 ( 다의어 1 단계작업 ) 동형어수준목록에서선정된어휘는 21 세기세종계획형태의미주석말뭉치에서추출된빈도목록을기본자료로삼고있으므로, 이목록은실제 < 표준 > 의표제어로등재되지않은어휘와 < 표준 > 의품사와일치하지않는어휘를포함하고있다. 본사업은 < 표준 > 에등재된어휘를대상으로하므로, 이러한 < 표준 > 과의불일치를보이는어휘를제외하도록하였다. 다의어빈도순으로정렬된어휘목록을동형어선정목록과비교함으로써, 다음의경우에는해당어휘를선정목록에서우선적으로제외하도록한다. < 표 13> 동형어선정어휘목록중다의어수준에서어휘선정시제외기준 NO_HOMO -C 열동형어번호가 X( 예 :X09,X15) 로시작하는목록,88 인경우는모두제외. 2) -C 열동형어번호가있는경우 : 대부분이어근또는접사에해당하므로모두제외. -C 열동형어번호가없는경우 : 표제어하나만있을경우는살리고표제어두개이상일때제외. NON NO_PUM -CD 와웹사전모두에표제어가없는경우만제외.O 열과 P 열모두에 NON 인경우만제외. - 동형어선정단계에서제외대상이면제외. - 동형어선정단계에서선정대상인것중어근, 잘못은제외. 준말은선별적으로선정. 위삭제작업을수행한결과전체 67,777 개였던다의어수준어휘수는 64,555 개로줄었다. 다음 다의어 2 단계작업 에서는 64,555 개의어휘중에서 당초목표하였던기본어휘 50,000 개를선정하는작업을진행한다. 2) C 열의동형어번호가 X 로시작하는경우는 < 표준 > 과세종말뭉치의품사가다른경우, 88 인경우는 < 표준 > 미등재어를나타냄. 이에대한상세한사항은 <21 세기세종계획국어기초자료구축결과보고서 >(2005:181-190) 참조. - 16 -
< 표 14> 다의어수준의 1단계작업수선정어휘수 1단계 _ 동형어 다의어빈도 1단계작업완료후 명사 35,778 43,059 41,305 동사 10,455 16,282 14,992 형용사 3,350 4,402 4,348 부사 2,741 4,034 3,910 전체 52,324 67,777 64,555 3.3.2. 다의어빈도목록과동형어빈도목록비교를통한표제어삭제및 추가 ( 다의어 2 단계작업 ) 동형어목록과다의어빈도목록을고려하여다음단계에따라해당어휘 를삭제하고추가하는작업을진행한다. < 표 15> 다의어빈도를고려한어휘삭제및추가기준동형어선정단계에서삭제대상인것 (M 열 :X) 중에서뜻풀이말뭉추가작업치의다의어빈도가높은것들을중심으로개별적으로검토하여선 정한다. 삭제작업 1 동형어단계에서선정대상이었으나다의어빈도에서저빈도 (0 회,1 회 ) 를나타내는다의어부류를개별적으로삭제한다. 삭제작업 2 방언, 옛말, 북한말 및고유명사등의삭제작업. 3.3.2.1 추가작업 동형어선정단계에서삭제대상인것 (N 열 :X) 중에서뜻풀이말뭉치의다 의어빈도가높은것들을중심으로개별적으로검토하여선정한다. [ 명사 ] 동형어에서선정대상은아니나, 다의어빈도 30 이상인것 :717 개 (1) 다음의어휘류들을중점적으로살펴본다. - 17 -
1 개체명, 부류명 : 한해살이풀, 여러해살이풀, 바닷물고기, 국화과, 송이버섯등 2 주요부분명칭 : 등지느러미, 씨방, 꽃자루등 3 주요직업및생활용어 : 변리사, 자기앞수표, 공공사업, 도가니탕등 4 기타고빈도전문용어 : 끓는점, 평균값, 요오드등 ⑵ 717 개단어를빈도순으로선정하되, 선별적으로삭제한다. 1 버금, 써레, 언청이, 고약, 송이버섯, 오디, 완두, 딱따구리, 우렁쉥이등은충분히선정되어야하는어휘 2 대명사, 수사삭제 : 그, 둘, 셋째 3 고유명사삭제 : 아시아, 니켈, 라틴, 남해 ( 한반도남 ~), 예수, 마리아, 갑오개혁, 을사조약 4 인지도가지나치게낮은어휘삭제 : 식미, 자옥, 청직, 음황 5 미등재어삭제 : 그럴싸 6 잘못어휘삭제 : 영산회상 ⑶ 논의대상 1 비교적, 정언적 2 62 빈도의 동래 ( 동쪽에서옴 ) 는한문구성으로이해된다. 3 멀리 가왜여기에목록화되었는가?( 명사항목에 멀리 가있는것이이상함. 선정대상에서제외.) [ 동사 ] 추가선정 18/4,166 ⑴ 다의어빈도 21 이상인아래어휘목록을검토한결과몇몇목록은다의어수준빈도목록자체의태깅오류가짐작된다. 예 ) 가득하다다의어빈도 68, 견고하다다의어빈도 68, 분명하다다의어빈도 68 등 ⑵ 선정된아래목록가운데 약용하다, 식용하다 등은뜻풀이말뭉치의특 수한성격에의해고빈도 ( 각각 458/1,045) 로추출된동사목록으로추후 검토가필요하다. - 18 -
o 6911 약정하다 1 21 약정02⑴. 35 9 X X X x o 7735 뜨개질하다 1 23 뜨개질01. 23 6 X X X x o 10931 실그러지다 23 한쪽으로비뚤어지거나기울어지다. 23 2 X X X x o 8935 야생하다 23 야생01. 23 4 X X X x o 13377 볼가지다 1 25 물체의거죽으로동글게톡비어져나오다. 25 1 X X X x o 7144 살균하다 25 살균. 25 8 X X X x o 11518 폐위되다 26 폐위02. 26 2 X X X x o 11835 건류하다 27 건류. 27 1 X X X x o 11751 감염하다 2 31 감염⑵. 31 1 X X X x o 14050 압착하다 2 2 33 압착02⑵. 壓搾 - 33 1 1 X X x o 10413 농축하다 1 36 농축02⑴. 36 2 X X X x o 9064 증보하다 39 증보. 39 4 X X X x o 14066 액화하다 41 액화02. 41 1 X X X x o 10081 항행하다 1 42 항행⑴. 42 3 X X X x o 7712 도금하다 2 1 45 도금02⑴. 45 6 X X X x o 13112 물크러지다 56 너무무르거나풀려서본모양이없어지도? 56 1 X X X x o 14081 약용하다 458 약용. 458 1 X X X x o 13932 식용하다 1045 식용. 1045 1 X X X x [ 형용사 ] 다의어빈도 20 이상인것 :16 개다음의어휘를추가선정한다. o 4027 없다 1 1 1848 어떤사실이나현상이현실로존재하지않? 2827 1 8969 X OK x o 4027 없다 1 5 321 어떤일이가능하지않다. 2827 1 8969 X OK x o 4027 없다 1 11 222 사람, 동물, 물체따위가실제로존재하지 2827 1 8969 X OK x o 4027 없다 1 6 164 사람이나사물또는어떤사실이나현상따 2827 1 8969 X OK x o 4027 없다 1 2 119 어떤일이나현상이나증상따위가생겨나 2827 1 8969 X OK x o 4027 없다 1 10 101 어떤물체를소유하고있지않거나자격이? 2827 1 8969 X OK x o 3719 멋없다 75 격에어울리지않아싱겁다. 75 1 1 3 X x o 3263 여물다 1 32 과실이나곡식따위가알이들어딴딴하게 33 2 1 X X x o 3300 위중하다 P_1 1 20 병세가위험할정도로중하다. 20 2 X X OK x o 3596 넓죽하다 19 길쭉하고넓다. 19 1 X X X x o 4027 없다 1 3 17 어떤것이많지않은상태이다. 2827 1 8969 X OK x o 4027 없다 1 12 17 일정한관계를가진사람이존재하지않다. 2827 1 8969 X OK x o 3673 되직하다 12 죽이나풀따위가묽지않고조금되다. 12 1 2 X X x o 4027 없다 1 14 10 성립되지않다. 2827 1 8969 X OK x o 4027 없다 1 13 4 어떤사람에게아무일도생기지않다. 2827 1 8969 X OK x o 4027 없다 1 15 2 상하, 좌우, 위계따위가구별되지않다. 2827 1 8969 X OK x o 4027 없다 1 4 1 재물이넉넉하지못하여가난하다. 2827 1 8969 X OK x o 4027 없다 1 9 1 일정한범위에포함되지않다. 2827 1 8969 X OK x - 19 -
없다 는아래와같이선정목록 (N 열 :o) 에존재하나뜻풀이, 다의정보가 존재하지않아삭제목록 (N 열 :x) 의 없다 를모두선정하였다 :13 항목 o 1 없다 P_ 8234 8234 74848 OK X OK o [ 부사 ] 추가작업을하지않는다. 동형어선정단계에서삭제대상인것 (N 열 :X) 중에서뜻풀이말뭉치의다의어빈도가높은것들을중심으로개별적으로검토하여선정하고자하였으나, 부사의경우는다의어빈도 20 이상인것이한개에불과하고, 대다수항목이음상에따른의성어와의태어인까닭에선정목록 (M 열 :o) 으로만어휘를선정하였다. 3.3.2.2 삭제작업 1 동형어수준에서선정된목록을중심으로동형어로선정되었으나, 다의어빈도가극히낮은목록들을중심으로삭제한다. 본작업은동형어수준에서선정되었으나, 뜻풀이다의어말뭉치에서나타나지않는어휘나저빈도로나타나는어휘들을가려내는작업으로, 다의어뜻풀이말뭉치의균형성 대표성의문제를고려할때, 어휘개별적인검토가필요하며, 작업자의주관성의개입역시불가피한작업이다. 동형어선정목록을중심으로다의어빈도에서저빈도 (0 회,1 회 ) 를나타내는다의어부류를개별적으로삭제하되, 삭제대상의목록을개별적으로확인하도록한다. [ 명사 ] 1단계작업완료후선정된명사는다의어수준 41,305 개로당초목표하였던 34,000 여개보다약 7,000 여개가많다.41,305 개다의어수준어휘중 7,000 여개를선정대상에서제외해야한다. 동형어수준목록에서제외되었지만, 다의어빈도를고려하여선정된양 (717 개 ) 을고려할때, 제외대상은대략 7,700 여개이상이된다. ⑴ 다의어빈도 0 회, 동형어빈도 0,1,2 회까지는모두버리는것을원칙으로 - 20 -
한다. 단, 다의어목록에서나타나지않았고, 동형어목록에서도저빈도로출현하지만실제언어생활에서자주쓰이는어휘들을선별하여살린다. 다의어빈도 0회중, 이러한어휘의예는다음과같다. 괄호안의숫자는동형어빈도를나타낸다. 예 ) 유학생 (1 회 ), 공항버스 (2 회 ), 단발 (2 회 ) ⑵ 전체 5만기본어휘내에명사 3만여개를선정하기위해, 동형어목록과다의어목록을교차비교한다. 동형어수준에서선정된어휘중, 다의어빈도 0회인어휘가 4,521 개,1 회인어휘가 6,726 개로이들을중심으로 7000 여개가량을삭제하면되겠지만, 위 (1) 의예와같이다의어빈도와동형어빈도가 0회또는저빈도인경우에도일상생활에서자주쓰이는어휘인경우, 다의어빈도는낮으나동형어빈도는높아선정대상이되는경우등은기본어휘선정대상에포함시켜야한다. 따라서본작업에서는다의빈도 0회 ~3 회 ( 총 15,807 개 ) 를보이는어휘중, 동형어빈도 0~10 회전후인어휘를집중적인검토대상으로삼아삭제대상어휘를선정하였다. 1 다의어빈도 0~3 회이고동형어빈도동형어빈도 0~10 회전후어휘중선정대상인어휘의예예 ) 보온밥통 ( 다의빈도0, 동형빈도3), 생활난 ( 다의빈도0, 동형빈도3), 모기약 ( 다의빈도0, 동형빈도3), 돼지꿈 ( 다의빈도0, 동형빈도5), 독립심 ( 다의빈도0, 동형빈도12) 2 다의어빈도 0~3 회이고동형어빈도동형어빈도 0~10 회전후어휘중삭제대상인어휘의예예 ) 기업31( 다의빈도0, 동형빈도0), 기도81( 다의빈도0, 동형빈도0), 답사3 3( 다의빈도1, 동형빈도4), 채12( 다의빈도3, 동형빈도1) 다의어수준선정어휘수 총 34,300 NNG_O 41,305 33,583 NNG_X 6,872 717-21 -
[ 동사 ] 다음순으로살펴본다. 1 다의어빈도 0-4: -동형어빈도 0-30 까지삭제한다. -동형어빈도 31 이상검토후삭제한다. 2 다의어빈도 5이상선정한다. 다의어수준선정어휘수 총 19,158 10,049 VV_O 14,992 10,031 VV_X 4,166 18 [ 형용사 ] -다음순으로살펴본다. 1 다의어빈도 0-3:816 -동형어빈도 0-14 까지삭제한다. -동형어빈도 15 이상검토후삭제한다. 다의어빈도 0 다의어빈도 1 다의어빈도 2 다의어빈도 3 40/283 368/773 250/488 158/266 2 다의어빈도 4 이상선정한다 :2,529 ( 선정목록수 / 총수 ) 다의어수준선정어휘수 총 5,534 3,363 선정목록 (M 열 :o) 4,348 3,345(816+2,529) 삭제목록 (M 열 :x) 1,186 18 [ 부사 ] - 다음순으로살펴본다. 1 다의어빈도 0-3 - 22 -
- 동형어빈도 0-9 까지삭제하되부분적으로살린다. - 동형어빈도 10 이상개별어휘별로선정한다. 2 다의어빈도 4 이상선정한다. 다의어수준선정어휘수 총 5,807 2,741 선정목록 (M 열 :o) 3,910 2,741 삭제목록 (M 열 :x) 1,897 0 3.3.2.3 삭제작업 2 (1) 방언, 옛말, 북한말 이나고유명사를제외하기위한작업으로 < 표준 > 뜻풀이및전문어표지정보를자동으로추출한 Q열의정보를활용한다. (2)Q 열의 x1,x2,x3 표지는다음을나타낸다. -X1: 사전의품사필드에 " 방언 옛말 북한말 " 로표기된것 -X2: 사전의전문용어필드에 " 고유명사 지명 인명 책명 " 인것 -X3: 사전의뜻풀이의끝부분에 " 의잘못 로순화 의북한어 의방언 " 을가진것 -X1X3 등으로표기된것은위설명 "x1& x3" 의의미 < 그림 2> 다의어수준목록의어휘선정 _Q 열정보추가 3.3.3. 결과 동형어선정대상목록과다의어수준의어휘목록을비교하여 1 단계작 - 23 -
업과 2 단계작업 ( 추가및삭제 ) 을거친결과, 선정된다의어수준의어휘수 는다음과같다. < 표 16> 다의어수준의기본어휘선정수 1단계 _ 동형어 다의어빈도 1단계작업 2단계작업 명사 35,778 43,059 41,305 34,300 동사 10,455 16,282 14,992 10,049 형용사 3,350 4,402 4,348 3,363 부사 2,741 4,034 3,910 2,741 전체 52,324 67,777 64,555 50,453 3.3.4. 논의점 위의절차대로다의어수준의기본어휘목록을선정하였으나, 여전히다음 과같은문제점이존재한다. ⑴ 자동삭제의문제점 1 삭제대상 : 다의어수준에서의비표준어, 북한어등 -순화대상어, 잘못예1) 비즈니스 ' 사업 ' 으로순화예2) 에미 어미 의잘못 -방언, 북한어, 옛말예1) 침상 ' 반짇고리 ' 의북한어예2) 퇴2' 뜰01' 의방언 ( 경기 ) -지명( 지2), 인명 ( 인 ), 책명 ( 책 ) 등 2 문제점 -< 표준 > 자체의과도한순화대상어범위의문제로보인다. 즉 쇼핑, 웨딩드레스, 가로등, 야근 등의어휘가순화대상어로선정되어목록에서삭제된다. 장보기 와달리구구성인 물건사기 등이표제어로올라있지않을경우개념체계에서제외된다는문제가있음. ' 쇼핑 의순화어 장보기 를넣기로함. - 24 -
쇼핑하다 는순화대상어에포함되어있지않으므로용언체계에서선정된다는문제가있음. ⑵ 자모, 육십갑자등균형적으로필요한부류에대해서는추후수작업필요하다. ⑶ 명사의부사적용법, 조사와유사한항목등이저빈도일때넣지않았다. ⑷ 뜻풀이말뭉치의 대표성문제가제기될수있다. 예 ) 동사는 이르다 가, 부사는 또는 이, 명사는 말 이빈도 1위임 4. 기본어휘선정보완작업 이장에서는이상에서기술된기본어휘선정결과물을보완하는작업에대해설명한다. 지금까지본연구에서진행해온기본어휘선정은주로대용량말뭉치와어휘빈도목록을활용한계량적인방법을위주로한것이다. 하지만주로문어를위주로한형태의미주석말뭉치의한계, 다의어수준의미분석말뭉치로활용한 < 표준 > 뜻풀이말뭉치의한계점, 전문용어를 40% 이상포함하고있는 < 표준 > 의기본적인표제어구성의문제등계량적인어휘목록추출방법이가지는한계를본연구역시가지고있다. 따라서이러한문제점과한계를극복하고지금까지의연구를보완하기위해향후정제및보완작업이필요하다. 중간보고서제출이후수행한정제및보완작업의진행과정은다음과같다. 4.1. 개념어휘들에대한재검토 위 3장에서의결과선정된어휘를 UWIN 개념체계에매핑하였을때, 기존 UWIN 개념체계중간노드에해당하는어휘가선정되지않은문제가발생하였으므로이에대해개념적기본어휘를보완할필요성이발생하였다. 연구팀은어휘망의계층구조의완성도를높이기위해중간노드에필요한어휘를추가로선정하였다. 명사어휘목록중, 기존 UWIN 중간노드어휘가미등재되어있는것은총 2,214 개로, 중간노드어휘라할지라도기존의어휘선정기준에의거하여삭제대상으로판단되는어휘는삭제하기로하였다. 삭제대상어휘는다음과같다. - 25 -
1 웹미등재어삭제 : 극피동물, 원색동물 2 고유명사삭제 : 미국, 대한민국, 석가모니, 완리창청 ( 중국의북쪽에있 는성 ), 한국, 히말라야산맥, 중국. 3 순화대상어휘삭제 : 센스 / 분별력, 목리 / 나뭇결, 에코 / 반향, 감방 / 수용실, 강탈 / 억지로빼앗음, 개간 / 일굼, 게시판 / 알림판, 견본 / 본보기, 관목 / 떨기나무, 등용 / 뽑아씀, 색소 / 물씨, 수긍 / 옳게여김, 순찰 / 돌아봄, 연혁 / 발자취, 융통 / 변통, 이자 / 길미, 변리, 재배 / 기름, 증서 / 증거문서, 지불 / 지급, 치름, 질타 / 꾸지람, 참작 / 헤아림, 체재 / 형식, 향신료 / 양념, 가해 / 해를끼침, 간식 / 군음식, 감언이설 / 달콤한말, 개그 / 재담, 거점 / 근거지, 내막 / 속사정. 4 완전한구구성 : 힘의장, 기본적인권, 노아의방주, 화학적변화, 객 관적실재. 5 의존명사 : 무렵. 6 부사 : 참으로, 항상, 끊임없이, 매우, 저절로, 함께. 7 복한어 : 문법적형태, 문법적수법. 8 어미 : 은디라. 4.2. 일괄삭제가가능한비표준어류및의존명사류삭제 (1) 비표준어류뜻풀이에서 ~ 의방언, ~ 의북한어, ~( 으 ) 로순화, ~ 의옛말 의패턴을가지는어휘는어휘선정지침에서제외하기로한비표준어부류로일괄적으로제외하였다. (2) 의존명사류 - 26 -
중간보고서에기술된바와같이, 일반명사중의존적쓰임을보이는명사류외에본질적인의존명사를제외하기로하였으나, 부분적으로남아있는목록이있었다. 의존명사는추후좀더기준을마련할필요가있어이번작업에서는 세는단위 의의존명사는모두제외하였다. 4.3. 고빈도어휘로보기어려운어휘류의개별적삭제 : 어의 (word sense) 수준의고난이도어휘삭제 동형어빈도목록, 다의어빈도목록, 기타참조목록의계량적인수치를통해선정된목록이므로기본어휘목록으로보기어려운어휘가있을수있다. 이에대해서는객관적인검토결과에크게반하지않는경우, 수정 보완이필요한부분에대해서는목록을일일이확인하는작업을통하여수정하였다. 세부적인수정사항은다음그림과같다.(A 열에 "^" 표시가붙은어휘가삭제대상어휘임.) < 그림 3> 선정어휘중삭제대상어휘 > 5. 최종선정기본어휘 다음표는이상의과정을통해최종선정된품사별기본어휘수이다. < 표 17> 최종선정품사별기본어휘수 명사동사형용사부사합계 개수 34,387 9,986 3,315 2,640 50,328-27 -
빈페이지임 - 28 -
I. 표준국어대사전비교및뜻풀이태깅 1. 표준국어대사전비교 새로이개정한 <WEB 용표준국어대사전 > 은 2008 년 10 월에공개되는관계로, 본연구용역은 2002 년에발표한 <CD 용표준국어대사전 > 을대상으로우선품사및다의어태깅을하고, 다의어태깅한결과의빈도를이용하여기본어휘를선정하였다. 그러나, 본연구용역의결과물은새로이개정한 <WEB 용표준국어대사전 > 에등재된어휘를대상으로최종기본어휘를선정하고, 선정된기본어휘의뜻풀이를품사및다의어태깅하여제출하여야한다. 따라서, 새로이개정한 <WEB 용표준국어대사전 (2008 년 4월기준 )> 과우선작업대상으로삼은 <CD 용표준국어대사전 > 을뜻풀이차원에서비교검토하였으며, 선정된기본어휘중에서다른것을대상으로뜻풀이품사 / 의미태깅한다. 아래표는두사전을뜻풀이차원에서비교한결과이다. < 표 19>CD 용및 WEB 용표준국어대사전뜻풀이차원에서의비교 CD 용 WEB 용 동형어개수 423,027 424,027 동형이의어개수 507,096 513,479 다의어개수 587,833 590,195 뜻풀이완전일치 425,324 유의어 ( ) 제거후일치 44,271 부호변환 (⑴ 1 ) 후일치 47,029 띄어쓰기제거후일치 3,470 일치되는뜻풀이합계 520,094 뜻풀이불일치갯수 67,729 70,101 각사전에서만등재된표제어 8,078 9,561-29 -
2. 뜻풀이태깅 2.1. 품사태깅원칙 뜻풀이말품사태깅은 21 세종계획결과물인지능형형태소분석기 ( 고려대 ) 를이용하여자동태깅한후, 태깅오류를수작업으로수정하였다. 품사태깅은다음의원칙에의해수행하였다. (1) 어절의띄어쓰기는뜻풀이말의띄어쓰기를우선어절의띄어쓰기는뜻풀이말의띄어쓰기된것을우선으로한다. 그러나, 복합명사 ( AB ) 의경우의미태깅과정에서어절 A의의미가표제어로등재되어있지않고 AB 가등재된경우는붙여쓰기하여품사및의미태깅하였다. 예를들어, 현재표준국어대사전에서 현가 는現價, 絃歌, 懸枷, 顯加의 4개의표제어로, 현가장치 는懸架裝置로등재되어있다. 그러나뜻풀이말에서는 현가장치 로띄어쓰기되어있고의미적으로 懸架裝置 가맞을경우 현가장치 /NNG 로붙여쓰기하여품사및의미태깅하였다. (2) 품사는등재된표제어우선 : 어근 (XR) 의품사태깅어근 A 와 A 하다 가용언으로등재되어있으며, A 의뜻풀이가 A 하다 의어근 된경우는 A 하다 로품사및의미태깅하였다. 예를들어, 명사 가공 3 ( 可恐 ) 의뜻풀이말은 가공하다03 의어근 으로, 형용사 가공하다 3 의뜻풀이말은 두려워하거나놀랄만하다 로각각등재되어있다. 이때, 가공할무기 에서 가공할 은 가공하다 003000/VA+ ㄹ /ETM 으로품사및의미태깅하였다. 그러나, 간략화한형식 에서 간략 2 ( 簡略 ) 은 간략하다 의어근 으로 간략화한 은 간략 002000/NNG+ 화 /XSN+ 하 /XSV+ ㄴ /ETM 로어근 간략 의품사태거를 XR 이아닌 NNG 로태깅하였다. 그렇지만, 어근데이타만을추출해야할경우의미태거를이용하여별도로추출할수있다. 등재된표제어의품사를우선하는원칙으로, 부사 가공스레 의뜻풀이는 가공스럽다 로등재되어있어 가공스레 /MAG" 와같이부사로태깅하였다. (3) 합성명사의경우도원칙 (2) 에따라서, 표제어로등재된합성명사인경우는등재된표제어의품사로태깅하였으며, 접사가붙은합성명사의경우는분리하여품사및의미태깅하였다. 예를들어, 상대적 은 [ 명사 ][ 관형사 ] 로등 - 30 -
재되어있어 상대적 /NNG" 로태깅하였으며, 대대적인환영을 에서 대대적인 은 대대 888888/NNG+ 적 /XSN+ 이 /VCP+ ㄴ /ETM" 으로태깅하였다. (4) 고유명사 (NNP) 의태깅등재된어휘의품사가 [ 명사 ] 인경우라도전문용어필드가 { 고유명사 },{ 지명 },{ 인명 },{ 책명 } 인것은모두고유명사 (NNP) 로태깅하였다. 예를들어, 홍성 1 ( 洪城 ) 은전문용어필드에 { 지명 } 으로등재되어 홍성 001000/NNP" 로태깅하였다. 반면, 전문용어필드에 { 인명 } 으로등재되어있지않지만명확히사람이름인경우도고유명사로태깅하였다. 예를들어 예수 6 은 기독교의창시자 로전문용어필드에는 { 기독교 } 만으로되어있지만 예수 006000/NNP" 로태깅하였다. (5) 의존명사 (NNB) 의태깅등재된어휘의품사가 [ 명사 ][ 의존 ] 의경우수사나관형사다음에사용되어 단위 를나타내는경우는의존명사 (NNB) 로태깅하였다. 예를들어, 삼일동안계속 에서 일 은 일 007002/NNB" 로태깅하였다. 그렇지만, 단위 를나타내는경우라도품사가 [ 의존 ] 이아닌경우는모두 NNG 로태깅하였다. 예를들어, 그릇 의경우금성출판사국어사전에는 그릇에담긴것의분량을세는단위 로의존명사로등재되어있으나, 표준국어대사전에는 [ 명사 ] 로만등재되어있어모두 NNG 로태깅하였다. (6) 수사 (NR) 와관형사 (MM) 의태깅등재된어휘의품사가 [ 수사 ][ 관형사 ] 로등재되어있는경우사용형태에따라서태깅하였다. 예를들어 서른 의경우 [ 수사 ][ 관형사 ] 로등재되어있으며, 서른이다 는 서른 /NR+ 이 /VCP+ 다 /EF" 로, 서른살 은 서른 /MM 살 /NNB" 로태깅하였다. 그러나, 다의어로 [ 수사 ] 와 [ 관형사 ] 로별도로각각등재되어있는경우, 예를들어, 사 11 ( 四 ) 은 사 11 1 은 [ 수사 ] 로 삼에일을더한수, 사 11 2 은 [ 관형사 ] 로 그수량이넷임을나타내는말, 사 11 3 은 [ 관형사 ] 로 그순서가네번째임을나타내는말 로 사십오 는태깅작업자관점에따라수사혹은관형사로다르게태깅되어있을수있다. - 31 -
2.2. 의미태깅원칙 품사태깅된뜻풀이말의다의어수준의의미태깅은다음의원칙에의해수행하였다. (1) 다의어 / 동형이의어의의미태깅뜻풀이말에사용된모든명사및용언에대해의미태깅하였다. 현재의미태깅된단어가접사인경우도일부의미태깅되어있다. (2) 의미태깅번호표준국어대사전의동형이의어 / 다의어는다음과같은의미태깅번호를부착하였다. -동형이의어번호 : 표준국어대사전의동형이의어어깨번호와동일한번호를세자리로부여하였다. -다의어번호 : 표준국어대사전의뜻풀이말에기술된번호순서대로세자리로부여하였다. 예를들어,< 표 19> 는 때 의동형이의어및다의어번호를나타내고있으며, 각뜻풀이말이품사및의미태깅한결과를보이고있다. 때 1 은 8가지의다의어적의미를가지며, 때 3 은하나의의미만가져다의어번호는 000 이다. 만일단어가동형이의어가아니면서다의어인경우는 000001, 000002 와같이동형이의어번호는 000 이고다의적의미개수만큼다의어번호를가진다. < 표 20> 동형이의어 / 다의어 떄 의품사및의미태깅된뜻풀이 품사 동형이의어번호 다의어번호 명사 001 001 002 003 004 뜻풀이 품사태깅및의미태깅한뜻풀이 일정한시기동안. 일정 001000/NNG+ 하 /XSA+ ㄴ /ETM 시기 004000/NNG 동안 001001/NNG+./SF 계절 01. 계절 001000/NNG+01/SN+./SF 끼니를세는단위. 끼니 000001/NNG+ 를 /JKO 세다 /VV+ 는 /ETM 단위 002001/NNG+./SF 시간의어떤순간이나부분. 시간 004001/NNG+ 의 /JKG 어떻다 /VA+ ㄴ /ETM - 32 -
순간 003001/NNG+ 이나 /JX 부분 001000/NNG+./SF 끼니또는식사시간. 005 006 007 008 끼니 000001/NNG 또는 /MAJ 식사 003000/NNG 시간 004002/NNG+./SF 좋은기회나알맞은시기. 좋다 /VA+ 은 /ETM 기회 003001/NNG+ 나 /JX 알맞다 /VA+ 은 /ETM 시기 004000/NNG+./SF 일정한일이나현상이일어나는시간. 일정 001000/NNG+ 하 /XSA+ ㄴ /ETM 일 001002/NNG+ 이나 /JX 현상 004001/NNG+ 이 /JKS 일어나다 /VV+ 는 /ETM 시간 004002/NNG+./SF 어떤경우. 어떻다 /VA+ ㄴ /ETM 경우 003002/NNG+./SF 옷이나몸따위에묻은더러운먼지따위의물질. 또는피부의분비물과먼지따위가섞이어생긴것. 명사 002 001 002 003 004 명사 003 000 명사방언 명사의존방언 004 000 005 000 옷 001000/NNG+ 이나 /JX 몸 001001/NNG 따위 /NNB+ 에 /JKB 묻다 /VV+ 은 /ETM 더럽다 /VA+ 은 /ETM 먼지 001000/NNG 따위 /NNB+ 의 /JKG 물질 002002/NNG+./SF 또는 /MAJ 피부 002000/NNG+ 의 /JKG 분비물 /NNG+ 과 /JKB 먼지 001000/NNG 따위 /NNB+ 가 /JKS 섞이다 /VV+ 어 /EC 생기다 /VV+ ㄴ /ETM 것 001001/NNB+./SF 불순하고속된것. 불순 001002/NNG+ 하 /XSA+ 고 /EC 속되다 /VA+ ㄴ /ETM 것 001001/NNB+./SF 까닭없이뒤집어쓴더러운이름. 까닭 /NNG 없다 /VA+ 이 /EC 뒤집어쓰다 /VV+ ㄴ /ETM 더럽다 /VA+ 은 /ETM 이름 000007/NNG+./SF 어린티나시골티. 어리다 /VA+ ㄴ /ETM 티 002001/NNG+ 나 /JX 시골티 /NNG+./SF ' 교도소 ' 를속되게이르는말. '/SS+ 교도소 /NNG+'/SS+ 를 /JKO 속되다 /VA+ 게 /EC 이르다 /VV+ 는 /ETM 말 001004/NNG+./SF ' 도 01' 의방언 ( 경남 ). '/SS+ 도 001001/NNG+01/SN+'/SS+ 의 /JKG 방언 001001/NNG+(/SS+ 경남 /NNP+)/SS+./SF ' 쾌 01' 의방언 ( 충남 ). '/SS+ 쾌 001001/NNG+01/SN+'/SS+ 의 /JKG 방언 00100/NNG+(/SS+ 충남 /NNP+)/SS+./SF (3) 태깅대상명사의의미가뜻풀이에없는경우 : 복합명사 2.1. 의품사태깅원칙 (1) 에서와같이복합명사 ( AB ) 의경우의미태깅과정 - 33 -
에서어절 A의의미가표제어로등재되어있지않고 AB 가등재된경우는붙여쓰기하여품사및의미태깅하였다. 예를들어, 현재표준국어대사전에서 현가 는現價, 絃歌, 懸枷, 顯加의 4개의표제어로, 현가장치 는懸架裝置로등재되어있다. 그러나뜻풀이말에서는 현가장치 로띄어쓰기되어있고의미적으로 懸架裝置 가맞을경우 현가장치 /NNG 로붙여쓰기하여품사및의미태깅하였다. (4) 태깅대상명사의의미가뜻풀이에없는경우 : 대등어의준말사전뜻풀이에서어딴어휘를설명하면서연속된대등어인경우줄여쓰는경우가있다. 예를들어, 동물, 식물 을 동ㆍ식물 로, 육군, 해군및공군 을 육ㆍ해ㆍ공군 으로쓴다. 여기서특수문자 ㆍ 는품사태깅과정에서, 로변환되어 동 /NNG+,/SS 식물 /NNG 혹은 육 /NNG+,/SS 해 /NNG+,/SS 공군 /NNG 으로품사태깅되어있으며, 이를의미태깅하는과정에 동, 육, 해 의적합한의미가발견되지않는다. 이럴경우 동물 /NNG", 육군 /NNG, 해군 /NNG 로변환하여의미태깅하였다. (5) 태깅대상명사의의미가뜻풀이에없는경우 : 누락의미태깅대상명사가동형이의어 / 다의어이면서문맥에맞는해당의미가없는경우, 고유명사의경우는 999999 로일반명사의경우는 888888 로의미태깅하였다. 고유명사의경우는주로사람이름에대한뜻풀이에서 자, 호 의경우가대부분이며, 일반명사의경우는사전편찬과정에누락된의미이거나표제어일경우가대부분이다. 특히 1음절한자에대한설명이누락된경우이다. 2.3. 동형이의어 / 다의어의미태깅도구 2.3.1. 개별표제어의뜻풀이말의의미태깅도구 < 그림 4> 는의미태깅대상동형이의어 / 다의어명사를태깅하기위한도구의 화면이다. - 34 -
3 2 1 5 < 그림 4> 의미태깅대상고빈도동형이의어 / 다의어명사뜻풀이태깅도구 4 < 그림 4> 에서 box1 은의미태깅대상명사를 15 개씩리스트하고있으며, 태깅대상명사를선택하면품사태깅된뜻풀이가 box2 에나타난다. Box2 에커서를놓으면,box1에서선택된단어의뜻풀이, 품사, 원어, 전문용어를보여주는 box3 이 popup 창으로나타나며, 커서를다른곳으로이동하면사라진다.Box2 의품사태깅된뜻풀이의개별어휘가동형이의 / 다의어이면붉은색으로표시되며옆에선택버턴이있다. 해당선택버턴을체크하면 box4 에선택된동형이의어 / 다의어의모든의미를빈도순혹은의미순으로출력하여문맥에맞는의미를선택할수있도록한다. 문맥에맞는의미를선택하면, 해당의미의뜻풀이와용례가 box5에나타나정확한의미를선택할수있도록도움을준다. 문맥에맞는의미를선택하여적용버턴을누르거나 doubleclick 하면해당의미번호로선택된단어의의미 ( 예, 남 001001 ) 로 box2 에서선택버턴으로선택한단어가의미태깅되면서파란색으로바뀌다. 이렇게의미태깅이완료된후저장버턴을누르면의미태깅된뜻풀이말이데이터베이스에저장된다. 2.3.2. 대상동형이의 / 다의어를포함하는뜻풀이말의의미태깅도구 < 그림 5> 는대상동형이의어 / 다의어개별명사가뜻풀이에나타나는모든뜻 풀이말을추출하여이를태깅하는도구의화면이다. - 35 -
3 1 5 2 4 < 그림 5> 의미태깅대상명사를가진모든뜻풀이태깅도구 < 그림 5> 의 box1 은의미태깅대상동형이의어 / 다의어 ( 용언포함 ) 를 15 개씩리스트하고있으며, 태깅대상동형이의어 / 다의어를선택하면선택된동형이의어 / 다의어를포함하는모든뜻풀이를 10 개단위의페이지로출력하는 box2 가나타난다. Box2 의상단에는의미태깅대상동형이의어 / 다의어를포함하는뜻풀이말을 10 개단위의페이지개수를보여준다. 뜻풀이말하나에커서를놓으면, 해당뜻풀이전체, 뜻풀이, 품사, 원어, 전문용어, 품사태깅된결과및의미태깅된결과를보여주는 box3 이 popup 창으로나타난다. Box1 의대상동형이의어 / 다의어를선택하면 ( 예, 다음 ),box4 에대상동형이의어 / 다의어의모든의미를빈도순혹은의미순으로출력하여문맥에맞는의미를선택할수있도록하며, 해당의미의뜻풀이와용례가 box5 에나타난다. Box2 에서태깅할뜻풀이말옆의체크박스를체크하여선택하고 box4 에서해당의미를선택하여적용버턴을누르거나 doubleclick 하면해당의미번호 ( 예, 다음 001004 ) 로의미태깅되면서파란색으로바뀌다. 이렇게의미태깅이완료된후저장버턴을누르면의미태깅된뜻풀이말이데이터베이스에저장된다. - 36 -
2.4. 태깅오류직접수정도구 < 그림 6> 은 < 그림 4> 혹은 < 그림 5> 의의미태깅작업도중발견된품사및 의미태깅오류를직접수정할수있는도구의화면으로,< 그림 4> 과 < 그림 5> 의오른쪽상단의수정창버턴을누르면실행된다. 1 2 3 4 5 < 그림 6> 품사및의미태깅오류직접수정도구 6 < 그림 6> 의 box1 에서수정할표제어를입력하면, 입력한표제어의뜻풀이전체가 box6 에나타난다.Box6 에서수정할뜻풀이말을선택하면 box2 ~ 5에현재태깅된상태가나타난다.Box1 에서 KeyID 는데이터베이스에서각표제어를관리하는번호이며, 직접 KeyID 를입력하여수정할뜻풀이말을선택할수도있다. Box2 는원본뜻풀이말이며,box3 은품사태깅된뜻풀이말,box4 는의미태깅할단어를표시하기위해 html 태거가붙은품사태깅된뜻풀이말,box 5는의미태깅된결과를보여준다. 품사혹은의미태깅된결과를수정할경우각 box 를직접수정한후, 수정버턴을누루면수정된다. - 37 -
2.5. 의미태깅결과추출도구 < 그림 8> 은의미태깅대상동형이의어 / 다의어의뜻풀이말에서의미태깅된결과를추출하는도구이다. 먼저 < 그림 8> 의도구를실행하기위해서는,webbrower 의 URL 주소창에 htp://nlplab.ulsan.ac.kr:5900/tagview/" 를입력하면 < 그림 7> 의로그린입력화면이나타난다. 여기서사용자명의 ID 와비밀번호를입력하고로그인하면, < 그림 8> 의의미태깅된결과추출도구가실행된다. 뜻풀이말의품사및의미태깅된결과물은 ACCESS 데이터베이스로제출하였으나, 전체태깅결과는울산대학교한국어처리연구실의서버에서 MYSQL 데이터베이스로관리되고있으며, 선정된기본어휘의태깅된뜻풀이말은결과물로제출한다. < 그림 7> 의미태깅된결과추출도구로그인화면 - 38 -
1 2 5 4 3 < 그림 8> 의미태깅된결과추출도구 < 그림 8> 은크게세개의주화면으로구성되어있다.Box1은추출할동형이의어 / 다의어를선택하는화면으로, 입력난에추출하고자하는동형이의어 / 다의어를입력하면입력한단어를중심으로 15 개의동형이의어 / 다의어를출력한다. 여기서임의의단어를선택하면 box2 에해당입력 / 선택한단어의뜻풀이말을동형이의어 / 다의어순으로출력한다. Box2 에서임의의다의어를선택하면,box3에해당뜻풀이말전체와용례가나타난다. 또한,box 4는 < 표 2> 의의미태깅대상단어의뜻풀이말약 72,700 개에서 box2 에서선택된의미로의미태깅된단어를가진뜻풀이말전체를 10 개단위의페이지로출력한다.< 그림 8> 의예에서 일 001001 의의미태깅된단어를가진뜻풀이말이약 4,400 개있음을알수있다. Box4에서임의의뜻풀이말에커서를움직이면,popup 창 box5 가나타난다. 이 box 5에는해당뜻풀이말의표제어, 품사, 원어 ( 한자 / 영어 ), 전문용어, 뜻풀이말전체, 품사태깅된뜻풀이말, 의미태깅된뜻풀이말이나타난다. 3.WEB 용표준국어대사전뜻풀이매핑 28 쪽의 < 표 18> 에서 CD 용및 WEB 용표준국어대사전을뜻풀이차원에서비 - 39 -
교하면서동형이의어및다의어에대해서어깨번호및다의어번호매핑작업을 수행하였으며, 기본어휘로선정된명사에대해다음 < 표 20> 과같은매핑표를 구하였다. < 표 21> CD 용및 WEB 용동형이의어 / 다의어뜻풀이매핑표 일치 유형 세종의미부류표제어 다의 빈도 어깨 번호 다의 번호 뜻풀이 (CD 용 ) 뜻풀이 (WEB 용 ) 원어 A 가급적 1 0 1 할수있는것. 또는형편이닿는것. 可及的 0 0 할수있는것. 또는형편이닿는것. A 38;39 가까이 238 0 4 가까운곳. 0 0 가까운곳. B 69 가랑잎 64 1 0 활엽수의마른잎. 1 0 활엽수의마른잎. 갈 06 2. C 110 가면 34 2 1 탈01⑴. 2 1 탈01 1. E 가는귀 2 0 1 작은소리를듣지못하는귀. 0 0 E 1171; 1172 거세 2 5 2 작은소리까지듣는귀. 또는그런귀의능력. 저항이나반대하지못하도록세력을빼앗음. 5 2 어떤세력이나대상따위를없앰. 假面 去勢 W 3260 광고주 8 廣告主 0 0 광고를내는사람. < 표 20> 에서일치유형의의미는다음과같다. -A : 뜻풀이완전일치 -B:WEB 용에서유의어 ( 이후 ) 제거후일치 -C : 기호 (⑴ 1 ) 변환후일치 -D : 띄어쓰기차이 ( 예,' 가정 ) CD : 가까운혈연관계에있는사람들의생활공동체. WEB : 가까운혈연관계에있는사람들의생활공동체. -E: 의미는같으나, 기술방법이달라진것 ( 예, 가는귀 ) CD : 작은소리를듣지못하는귀. WEB : 작은소리까지듣는귀. 또는그런귀의능력. -W :WEB 용에서새로이추가된어휘 - 40 -
위 < 표 20> 에서 " 가급적, 가까이, 가는귀 " 의경우뜻풀이는일치하지만어깨번호혹은다의번호가다름을확인할수있다. 이렇게매핑된결과일치유형이 "B,C,E,W" 의경우는앞으로추가적으로품사및의미태깅작업을수행해야한다.< 표 18> 에서다의빈도는 CD 용을품사 / 다의어태깅한결과다의어수준에서태깅된빈도이며, 세종의미부류는해당표제어의의미에대해세종전자사전에서분류한의미부류 ID 이다. 세종의미부류를매핑한것은용언의하위범주정보를추출하기위해필요하다 (IV 장참조 ). < 표 18> 의 2단계기본어휘선정작업에서선정된어휘에대해, 품사별로 CD 사전과 WEB 사전의뜻풀이를대응시키고, 품사, 비표준어등을제거한후최종선정된기본어휘에대해 CD 사전과 WEB 사전의뜻풀이일치정도는다음 < 표 21> 와같다. < 표 20> 에서보는바와같이 WEB 사전의뜻풀이의동형이의어 / 다의어번호가달라짐으로써, 결과물로제출한다의어태깅된뜻풀이는다음과같은체계로수정된다. 기존 CD 용표준국어대사전의다의어태깅은예를들어명사 가급적 의경우 가급적 000001 로태깅되어있다여기서처음 3자리는동형이의어번호이면다음세자리는다의번호이다.WEB 표준사전에서 가급적 은다음과같이기술되어있다. 가급-적 ( 可及的 )[ 가ː-쩍 ] [Ⅰ] 명사 ( 주로 가급적이면, 가급적으로 꼴로쓰여 ) 할수있는것. 또는형편이닿는것. [Ⅱ] 부사 할수있는대로. 또는형편이닿는대로. 또한동일한용언의경우도문형이다를경우뜻풀이에문형번호, 다의번호로기술되어다른문형에동일한다의번호가존재하기때문에이를구분할필요가있다. 따라서가급적의경우 가급적 000101 로의미태깅한다. 여기서처음두자리는동형이의어번호이며다음두자리는문형번호마지막두자리는다의번호이다.(P.74 의엑셀 sheet 참조 ) - 41 -
< 표 21>WEB 사전비교후선정된기본어휘수및 WEB 뜻풀이일치수최종선정된 WEB 뜻풀이 2단계작업품사비교기본어휘일치정도 A 21,996 B 8,137 C 762 명사 34,300 34,129 34,387 D 170 E 3,189 W 133 A 6,360 B 377 C 2,816 동사 10,049 10,029 9,986 D 17 E 415 W 1 A 2,546 B 255 C 286 형용사 3,363 3,340 3,315 D 6 E 222 W 0 A 1,888 B 277 C 356 부사 2,741 2,672 2,640 D 13 E 101 W 5 A 32,790 B 9,046 C 4,220 전체 50,453 50,170 50,328 D 206 E 3,927 W 139-42 -
I. 명사어휘망구축 1.U-WIN( 울산대어휘지능망 ) 3) 자연언어의어휘적의미, 구문적의미, 담화적의미를바탕으로행위나현상, 상태등에담긴의미론적 / 개념론적특성을포함하고있는의미적언어자원구축에대한연구는다양하게이루어지고있다. 국외에서는 WordNet, EuroWordNet,Cyc,HowNet,LexicalFreeNet,EDR 등이대표적이며, 국내에서는카이스트의 CoreNet,ETRI 의어휘개념망, 부산대의 KorLex 등이대표적이라할수있다. KAIST CoreNet( 코어넷 ) 은다국어어휘의미망으로서,3,000 여개의개념이한국어-중국어-일본어로대응되어동일한개념체계를공유한다.ETRI 명사개념망은한국어명사어휘들을의미관계로연결시켜놓은어휘데이터베이스로서, 깊이 12 레벨로구성되어있으며, 약 25 여만고유명사들이 Instance_Of 관계로연결되어있다. U-WIN(User-Word Inteligence Network) 은한국어의공통적이고개별적인속성을바탕으로한국인의보편적인인지체계와개념관계를파악하여이를어휘의의미적 / 개념적네트워크를형성한온톨로지적의미망이라할수있다. U-WIN 은현재 (2007 년 4월기준 )30 만여어휘가구축된상태이다 ( 용언및부사일부포함 ).U-WIN 의구축대상은한국어어휘전체 ( 모든품사및언어단위 ) 로서, 핵심적대상은명사, 동사, 형용사이며, 부수적대상은부사, 관형사, 대명사, 감탄사, 조사, 수사, 의존명사등이며, 북한어, 방언, 옛말, 전문용어, 고유명사, 어근, 어미등한국어어휘전체를대상으로연구개발중이다.< 그림 9> 는구축사례의일부모습이다. 3) U-WIN 의자세한구조및구축원리는최호섭 (2007) 을참조 - 43 -
< 그림 9> U-WIN 구축사례 U-WIN 은한국어정보처리를비롯하여정보검색, 기계번역, 시맨틱웹등다양한분야에이용될수있는대규모어휘지식베이스를목표로하고있다. 현재온톨로지기반의미적주석 (ontology-based semanticannotation) 과유사한단어중의성해소 (word sensedisambiguation) 와의미태깅 (semantic tagging) 기술에활용되고있으며, 이외에도복합명사자동생성, 전문분야별개념체계자동생성, 정보검색에서의질의확장, 어휘학습시스템등다양한기술에서활용되고있다. < 그림 10> 은 U-WIN 의상하위어관계를중심으로한분포도이다. - 44 -
< 그림 10> U-WIN 분포도 2.U-WIN 의기본의미관계 4) 2.1.U-WIN 에서의최상위어설정 U-WIN 에서는기초작업및분석을통하여다음과같은기준에따라최상 위어를설정하였다. < 표 22> 최상위어설정기준 최상위어설정기준 사전으로기반으로하는만큼최상위어는사전에등재되어있는어휘를사용 의미적으로명확하게인지되는어휘를사용 형태적으로사람들이자주사용하고인식하는어휘사용 다른최상위어와의개념적중복성이적은어휘사용 하위어의구성을고려하여선택 기존지식베이스에서의최상위어중어휘군집화를통하여공통된어휘사용 < 표 22> 와같은최상위어설정기준을바탕으로 U-WIN 에서는 < 표 23> 과 같이최상위어 23 개를설정하여 U-WIN 의상하관계기반계층구조의틀을 4) 본절은최호섭 (2007) 에서본연구와관련된부분만발췌하여편집하였음. - 45 -
마련하였다. < 표 23> U-WIN 에서의 23 개최상위어 Top-LevelWord Definition Hyponymy(2Depth) { 공간 _0502} 물리적으로나심리적으로널리퍼져있는범위. 어떤물질이나물체가존재할수있거나어떤일이일어날수있는자리가된다. { 과정 _0300} 일이되어가는경로. { 관계 _0501; 계관 _0101} { 기호 _0100; 심벌 _0002} { 단위 _0201; 하나치 _0000} { 대상 _1101} 둘이상의사람, 사물, 현상따위가서로관련을맺거나관련이있음. 또는그런관련. 어떠한뜻을나타내기위하여쓰이는부호, 문자, 표지따위를통틀어이른말. 길이, 무게, 수효, 시간따위의수량을수치로나타낼때기초가되는일정한기준. 근, 되, 자, 그램, 리터, 미터, 초따위가있다. 어떤일의상대또는목표나목적이되는것. { 모양 _0201} 겉으로나타나는생김새나모습. { 물건 _0001} 일정한형체를갖춘모든물질적대상. { 방법 _0001} 어떤일을해나가거나목적을이루기위하여취하는수단이나방식. { 범위 _0001} 테두리가정하여진구역. { 생물 _0101; 유생물 _0000} { 성질 _0002; 성분 _0300} 생명을가지고스스로생활현상을유지하여나가는물체, 영양 운동 생장 증식을하며, 동물 식물 미생물로나뉜다. 사물이나현상이가지고있는고유의특성. { 시간 _0401} 어떤시각에서어떤시각까지의사이. 곳 _0101,{ 길 _0101; 도도 _0700}, 자리 _0101, 장소 _0500, 지역 _0302, 칸 _0101. 경과 _0403, 단계 _0300, 변화 _0000, 순환 _0101, { 역사 _0401; 사 _0801; 춘추 _0202}. 관련 _0000, 비 _0502, { 순서 _0001; 애차 _0200; 윤서 _0200}, 연관 _0601, 유대 _0200. 논리기호 _0000, 도형 _0302, 부호 _0301, 언어 _0100, { 음성기호 _0000; 어음기호 _0000; 음성자모 _0000; 표음기호 _0000}. 국제단위 _0000, 단위계 _0000, 박자 _0002, 언어단위 _0000, 화폐단위 _0000. { 객체 _0201; 물격 _0000}, { 목표0001; 표목 _0201}, 상대 _0402, 존재 _0002. { 겉모양 _0000; 외양 _0300}, 모양새 _0001, 상태 _0101, { 양상 _0801; 양 _2202}. 고물 _0602,{ 구조물 _0000; 구조 _0802}, 기기 _1300, 대상물 _0001, 문선 _0001. 가공법 _0100, 공법 _0100, 관리법 _0001, { 농사법 _0000; 농법 _0200}, { 방식 _0100; 법식0002}, 수단 _0101. 범주 _0501, 부문 _0600, 부분 _0100, 분야 _0001, 영역 _0302. 동물 _0001, 미생물 _0000, 식물 _0200, { 유기체 _0002; 생물체 _0000}. 가능성 _0000, 물리적성질 _0000, 병성 _0000, 본질 _0201, 성질 _0001, 재질 _0202. { 세월 _0201; 나달 _0200; 세화 _0200; 연광 _0103; 연화 _0200; 오토 _0202}, 시점 _0200, 대기시간 _0000, 동안 _0101. - 46 -
{ 요소 _0401} { 인지 _0803; 인식 _0002} 사물의성립이나효력발생따위에꼭필요한성분. 또는근본조건. 자극을받아들이고, 저장하고, 인출하는일련의정신과정. 지각, 기억, 상상, 개념, 판단, 추리를포함하여무엇을안다는것을나타내는포괄적인용어로쓴다. 생산요소 _0000, 성분 _0104, 요소 _0402, 인자 _0701, 조건 _0201, 토대 _0003. 마음 _0102, { 생각 _0101; 의려 _0200; 지려 _0100}, 앎 _0000, 지식 _0201. 감각 _0201, 기능 _0301, 영향 _0400, { 작용 _0101} 어떠한현상을일으키거나영향을미침. 작용 _0102,{ 힘 _0101; 파워 _0002}. 감 _0205, 금속재료 _0000, 기재 _0800, { 재료 _0101} 물건을만드는데들어가는감 목재 _0000, { 약재료 _0200; 약료 _0001; 약재 _0200; 약종 _0101}. { 정도 _1101; 정한 _0300} 간격 _0203, 강도 _0501, 굳기 _0000, 사물의성질이나가치를양부, 우열기준 _0300,{ 길이 _0101; 장 _1300}, 따위로본분량이나수준. { 높이 _0101; 고 _1400}. { 존재 _0001} 현실에실재로있음. 또는그런대상. { 공존 _0001; 공재 _0200; 구재 _0600}, 실재 _0201, 존립 _0002. { 종류 _0201; 종 _0902; 종속 _04 갈래 _0001, 인종 _0102, 종목 _0101, 사물의부분을나누는갈래. 00} 직종 _0000, 품종 _0001. { 집단 _0000} 여럿이모여이룬모임. 가구 _0303, 모임 _0100, 무리 _0100, 사회 _0701, 조직 _0002. { 행위 _0001} 사람이의지를가지고하는짓. 개발 _0001, 결정 _0101, 경제행위 _0000, 노력 _0100, 부정행위 _0100, 생활 _0002. { 힘 _0103} 어떤일을할수있는능력이나역량. 경제력 _0000, 권위 _0001, { 능력 _0201; 역능 _0000}, 인력 _0101, 힘 _0104. 2.2. 의미관계 의미관계란한언어의어휘체계속에있는어휘소상호간에가지고있는의미적관계를말한다. 다시말하면, 한어휘소와다른어휘가의미상가지고있는관계이다. 그러므로의미관계는둘이상의어휘소사이에서성립하는상대적개념이다. U-WIN 에서의의미관계는상하관계, 동의관계, 유의관계, 반의관계, 전체-부분관계, 연관관계등총 6가지기본의미관계를설정하였다. 이러한 U-WIN 의의미관계를설정하기위하여, 표준국어대사전과기타사전을바탕으로하는 U-WIN 어휘사전데이터베이스 (MRD) 에서추출될수있는뜻풀이및용례등각종어휘정보를활용하여수작업및반자동구축 - 47 -
작업을병행하였으며, 기초자원들을활용하여문장의표면구조 (surface structure) 를중심으로어휘의계열적 (paradigmatic) 관계와통합적 (syntagmatic) 관계를분석하여이러한어휘의의미관계설정에활용하였다. U-WIN 에서사용하는의미관계를정리하면 < 표 24> 와같다. < 표 24>U-WIN 의기본의미관계 SemanticRelation SemanticRelation(detail) direction 상하관계 상의관계단방향하의관계단뱡향 일반동의관계 양방향 오용어관계 단방향 동의관계 방언관계단방향북한어관계단방향 옛말관계 단방향 준말본말관계 양방향 일반유의관계 양방향 순화어관계 양방향 거센말관계 단방향 유의관계 높임말관계단방향낮춤말관계단방향 은어관계 단방향 전문유의관계 단방향 전칭관계 단방향 부분- 전체관계 부분관계단방향전체관계단방향 상보적반의관계 양방향 반의관계 정도적반의관계 양방향 상대적반의관계 양방향 연관관계 관련어관계 양방향 - 48 -
2.2.1. 상하관계 2.2.1.1. 상하관계처리원칙 어휘의대응 (lexicalcorespondence) 이라는술어는본래하나의개별언어와다른하나의언어에관한대조연구에서사용되던술어이다. 어떤단어와다른어떤단어의어휘체계를대조하면한언어의단어하나가점유하고있는의미영역 (semanticrange) 이다른한언어에서도한개의단어에의하여동일하게점유되어있는 1:1 대응 (one-to-onecorrespondence) 이나타나는가하면, 한언어에서는한개의단어에의해서점유되어있는의미영역이다른언어에서는두개이상의단어에의하여점유되는 1:n 대응 (one-to-many corespondence) 이나타나는경우도있고, 그반대로 n:1 대응 (many-to-onecorespondence) 이나타나는경우가있음을알수있다. U-WIN 에서는어휘간의상하관계에서어휘간의대응을 1:1 대응만을인정하고있다. 어휘간의상하관계를언어학적으로정의하는것은그리어렵지않은일이지만, 이론적설명만으로상하관계를처리한다는것은무리가따른다고볼수있다. 이는몇개의어휘를대상으로하는상하관계구축작업은쉬울수도있으나, 한국어전체어휘를대상으로상하관계를연결하고자했을때는문제가양산되리라고본다. 그러나 U-WIN 에서는한국어전체어휘가상하관계로모두연결될수있을것이라는가능성을전제로상하관계를설정하였다. U-WIN 에서사용한상하관계에의한계층구조형성의기본원칙은 < 표 25> 와같다. - 49 -
< 표 25>U-WIN 에서의상하관계설정원칙 1 IS_A,KIND_OF 관계만을상하관계로설정한다. 2 Top-Down/Botom-Up 방식모두를이용한다. 3 상하관계는어휘의본질적의미를통해연결된다. 4 상하관계검증방법 5) 을적절히이용한다. 5 하위어의정보를상위어가가지도록한다. 6 하위어는상위어의속성을상속받는다.( 제약조건포함 ) 8 먼저어휘의형태적측면 ( 한자, 형태소분석정보 ) 을통해상위어를검토하고, 다음으로각종사전의뜻풀이를통해검토하고, 마지막으로말뭉치와각종문서를통해용례를검토한다. 이들은모두단계적으로분석되어야할대상이다. 9 전문용어의경우, 전문용어의특수성을고려하여분야별전문용어분류체계를최대한반영하되, 단여러분류체계가있을경우에는일반적인상하관계체계를따른다. 10 동의관계와유의관계중양방향어휘관계를제외한나머지관계는상하관계에포함시킨다. 11 계층성을가지는용언어휘망과부사어휘망은별도의원칙을설정한다. 2.2.1.2.U-WIN 에서의상하관계설정 U-WIN 에서의상하관계는앞에서기술한상하관계기본원칙을바탕으로언어학적인분석을통해이루어졌다. 이러한상하관계설정을형태적인측면에서의상하관계와의미적인측면에서의상하관계로나누어기술하면다음과같다. 물론실질적으로어휘의상하관계를설정할때에는형태적인측면과의미적인측면, 나아가용례까지모두고려하여상하관계를설정한다. 5) 상하관계검증방법은 Cruse(1986) 의검증방법과 IS_A 관계를이용하였다. {X 는 Y의한종류이다 / 일종이다 }- 계층적구조 {X 는 Y이다 }- 계층적구조 {X 는 Y( 으 ) 로사용된다 }- 의미분류적정보 - 50 -
1 형태적인측면에서의상하관계 한자어한자어로구성된단일명사의경우, 한자가갖는핵심의미에따라상하관계를연결하였다. 예를들어, 공립 ( 公立 ), 사립 ( 私立 ), 공설 ( 公設 ), 관설 ( 官設 ), 시립 ( 市立 ), 창립 ( 創立 ), 설비 ( 設備 ) 등의한자어들은한자어 立 과 設 의의미를분석함과동시에, 각어휘의뜻풀이에서한자어의미를반영하는요소를분석하여 설립 ( 設立 ) - 설치 ( 設置 ) 라는상위어로연결하였다. 이와같은방법으로비슷한유형의한자어를군집화하여상하관계를설정하였다. < 표 26> 한자어의상하관계설정사례 공립 _0100: 지방자치단체가세워서운영하는일. 또는그시설. 사립 _0400: 개인이자신의자금으로공익의사업기관을설립하여유지함. 공설 _0100: 국가나공공단체에서일반사람들을위하여만들어세움. 또는그런시설. 관설 _0000: 국가기관에서설립하거나설치함. 또는그렇게세운시설. 시립 _0100: 시의경비로세워관리하고유지하는것. 창립 _0200: 기관이나단체따위를새로만들어세움. 설비 _0200: 필요한것을베풀어서갖춤. 또는그런시설. 한자접미사한자접미사가붙은명사는한자어와마찬가지로한자접미사의의미와어휘뜻풀이에서한자접미사의미를반영하는요소를분석하여상하관계를연결하였다. 예를들어 목공소, 발전소, 사무소, 거래처, 발행처, 공사장, 작업장 등과같이 ~ 소 ( 所 ),~ 처 ( 處 ),~ 장 ( 場 ) 등의접미사가붙은명사는 곳 이나 장소 또는더큰개념인 공간 의상위어와연결되도록하였다. 이러한한자접미사의상하관계설정은대규모어휘의상하관계설정에서간과할수있는최상위어구조까지의개념화 (conceptualization) 과정의일관성을가질수있다는점에서의미를가진다고할수있다. 다른예로한자접미사 가 ( 家 ) 의경우는다의어와동형이의어인접미사로서, 한자접미사를면밀하게분석함으로써상하관계의일관적구축과세밀한상하관계설정이가능하다. - 가 ( 家 )_13[ 접사 ] 1 그것을전문으로하는사람 또는 그것을직업으로하는사람 의뜻 을더하는접미사. - 51 -
예 ) 건축가, 교육가, 문학가, 비평가, 작곡가, 평론가등 사람 이라는공통된상위어를추출할수있으며, 뜻풀이를통해 전문가 와 직업인 이라는중간상위어를설정할수있음. 2 그것에능한사람 의뜻을나타내는접미사. 예 ) 병략가, 외교가, 이론가, 전략가, 전술가등 사람 이라는공통된상위어를추출할수있으며, 뜻풀이를통해 전문가 또는 재주꾼 등의중간상위어를설정할수있음. 3 그것을많이가진사람 의뜻을나타내는접미사. 예 ) 자본가, 장서가등 사람 이라는공통된상위어를추출할수있음. 4 그특성을지닌사람 의뜻을나타내는접미사. 예 ) 대식가, 명망가, 애연가등 사람 이라는공통된상위어를추출할수있음. -가 ( 家 )_14[ 접사 ] 고유명사를포함한일부명사뒤에붙어 가문 의뜻을더하는접미사. 명문가, 세도가, 재상가등 가문 ( 家門 ) 또는 집안 이라는공통된상위어를추출할수있음. 복합명사의경우복합명사는주로오른쪽성분이핵심적인의미정보즉유개념어를가지는경우가많다. 따라서형태적으로오른쪽에위치한명사를중심으로상하관계를설정하였다. 예를들어, 무역협정, 어업협정, 조세협정, 지급협정 등은 협정 ( 協定 ) 을상위어로갖는어휘들이다. < 표 27> 복합명사의상하관계설정사례 무역협정 _0000: 나라와나라사이에수출입품목의범위따위의무역에관한여러조건을규정하기위하여체결한협정.( 전문용어분류참조 ) 지급협정 _0000: 두나라사이의수출입결제에있어서경화사용을절약하기위하여맺는협정.( 전문용어분류참조 ) 어업협정 _0000: 두나라또는여러나라사이의협의에의하여국별, 어종별의어획량을따위를결정 (?) 하는협정. - 52 -
2 의미적인측면에서의상하관계사전을기반으로하고있는 U-WIN 은의미가그중요한위치를차지한다. 사전의뜻풀이를이용하여상하관계를설정하는것은형태적인면을고려하는것과함께중요한위치를차지하고있다. 뜻풀이가상위어정보를가진경우어휘의뜻풀이가상위어정보를갖는경우, 즉유개념어 ( 類槪念語 ) 를가지는경우는이를상위어로설정하였다. 예를들어 면세점 ( 免稅點 ): 외화획득이나외국인여행자의편의를도모하기위해공항대합실이나시중에설치된비과세의상점 의경우 상점 ( 商店 ) 을상위어로설정하였다. < 표 28> 뜻풀이를이용한상위관계설정사례 자리 _0101: 사람이나물체가차지하고있는공간. 길 _0101: 사람이나동물또는자동차따위가지나갈수있게땅위에낸일정한너비의공간. 사회 _0701: 같은무리끼리모여이루는집단. 조직 _0002: 특정한목적을달성하기위하여여러개체나요소를모아서체계있는집단을이룸. 또는그집단. 같은종류의어휘의뜻풀이가다른경우유개념어를통해상하관계를확인한후, 동일한상하관계로연결하였다. 이와같은종류의어휘들은뜻풀이가조금씩다른경우에각각의유개념어, 공통개념, 의미정보, 형태적정보등을분석하여동일한상위어로설정하였다. < 표 29> 같은종류의어휘의뜻풀이가다른경우의상위관계설정사례 초등학교 _0000: 아동들에게기본적인교육을실시하기위한학교. 중학교 _0001: 초등학교와고등학교사이에중등보통교육을실시하기위한학교. 고등학교 _0000: 중학교를졸업한사람에게고등보통교육과실업교육을베푸는학교. 대학 _0101: 고등교육을베푸는교육기관. 대학교 _0000: 예전에, 종합대학을단과대학과구별하여이르는말. 전문대학 _0000: 중견직업인을양성하기위하여전문적인이론과기술을교수 연구하는고등교육기관. 상위어가다의어일경우 - 53 -
상위어가다의어일경우에는어휘의의미를분명히분석하여상하관계를 연결하였다. < 표 30> 다의어의상위관계설정사례 기관 _1101: 화력 수력 전력따위의에너지를기계적에너지로바꾸는기계장치. 기관 _1102: 사회생활의영역에서일정한역할과목적으로위하여설치한기구나조직. { 기관 _1103; 정보기관 _0000}: 정보의수집, 처리, 선전, 통제따위에관한일을전문적으로맡아하는기관. 교통기관 _0001: 사람이나물건따위를옮기는데쓰는자동차 선박 기차 항공기따위의동력운수기관과도로 교량따위의시설을통틀어이르는말. 교통기관 _0002: 운수기관과통신기관 6) 을통틀어이르는말. 뜻풀이에유개념어가두가지이상표현되어있을경우국어사전에는뜻풀이에유개념어가두가지이상표현되는경우가다수있다. 이러한경우에는유개념어가각각다른상하관계로설정될수있다면, 다의어설정원칙인어휘와의미의 1:1 로의할당에의거하여새롭게다의어를생성시켜상하관계를설정하였다 7). < 표 31> 유개념어가두가지이상표현되는경우의상하관계설정사례기록 _0201: 주로후일에남길목적으로어떤사실을적음. 또는그런글. 기록 _0201: 주로후일에남길목적으로어떤사실을적은글. 기록 _0203: 주로후일에남길목적으로어떤사실을적음. 뜻풀이의유개념어가명확하지못한경우뜻풀이의유개념어가있을위치에 것, 일, 곳, 말 등의불명확한어휘가사용된경우와 나아감, 살핌,~ 함 등용언의명사형으로끝나는경우들이있다. 이와같은어휘들은뜻풀이에서의의미정보, 말뭉치와용례분석등다양한정보분석을하여상하관계를연결한다. 6) 참고로 [ 표준국어대사전 ] 에는통신기관이등재되어있지않다. 7) 여기서중요한점은어휘의사전뜻풀이에유개념어가두가지이상나타나지않았는데구축자가임의 적으로새로운뜻풀이를추가할수는없다는것이다. - 54 -
전문용어의경우전문용어들은각분야별로용어뜻풀이를정리하고있어, 전문용어의상하관계를처리할때에는그분야의전문적인분류방식을이용함과동시에, 기본적인상하관계의설정원칙을고려해야한다. 의미의변화가없을경우에는기본적인상하관계설정원칙에따라연결하였다. 2.2.2. 동의관계 동의관계 (absolutesynonymy) 는둘이상의어휘소가같은의미를가지고 있는의미관계를말한다 8).U-WIN 에서는동의관계를 6 가지로나누어구축 하였다. 1 일반동의관계일반동의관계는표준국어대사전및각종사전에서제공하는동의어를연결한관계이다. 이러한일반동의관계는대부분은자동으로추출하여연결하였다. { 편지 _02; 간독 _04; 간찰 _0002; 서간 _04; 서독 _03; 서소 _01; 서신 _02; 서장 _0301; 서찰 _02; 서척 _01; 서한 _02; 서함 _0001; 성문 _1001; 신 _0802; 신서 _03; 이소 _07; 찰한 ; 척간 _01; 척한 ; 편저 _01} { 중 _01; 걸사 _0101; 범납 _; 부도 _0703; 불승 _03; 상문 _0602; 석씨 _0003; 승 _13; 화합승 } { 변소 ; 정방 _08; 청측 ; 측간 _01; 측실 _02; 측청 _01; 혼측 ; 회치장 }. 2 오용어관계 오용어란언어사용자의표기상의오류나잘못사용하고있는어휘와표준 어를연결시켜놓은관계로서, 의미적으로동의관계라할수있다. 가늠쇠 - 말근쇠, 맑은쇠 8)Baldinger(1970) 에서의지적처럼전문어를제외하고는완전한동의관계를인정하지않는것이언어학자들의일반적인견해이다. 그러나본연구에서는동의관계와유의관계를분리하였다. 이는 [ 표준국어대사전 ] 에서제공하는정보가동의어와유의어구분하여제공할뿐만아니라 PWN,EWN 의동의어집합 (synset) 에대한의미관계설정이아닌어휘소간의미관계연결임감안하여이를분리하였다. - 55 -
가댁질 -가디약질, 갈갬 _0001, 갈갬질 _0001, 갈랙질, 개닥질내리막길 -내림길쉬이여기다 -수이여기다기다랗다 -길다랗다_0001 데이터베이스 -데이타베이스 3 방언관계 방언관계는방언과표준어사이의관계를말하는것으로, 어휘의미가동일 하기때문에동의관계로설정하였다. 개구리 -가개비, 갈개비, 개구락지, 까구리, 깨고래기, 깨구락지, 깨구랭이, 깨구락데기, 머구리, 머우리, 먹장구, 멀구락지, 메구락지, 메구래기, 메구리, 멕자기, 멕장구, 멕재기, 멱자구, 멱장귀, 멱장기벼 _01-나락, 나록, 나룩, 노락두름 _01-끄름지, 다랑구, 두럼, 두렁, 두레미, 두루미, 두리미, 드름, 못 4 북한어관계 북한어관계는북한어와표준어사이의관계를말하는것으로, 어휘의미가 동일하기때문에동의관계로설정하였다. 벼 _01- 나락, 라록, 화곡 가부장 - 부가장 가시밭길 _01- 가시길 _01, 가시덤불길 _01 5 옛말관계 옛말관계는옛말과현재어휘사이의관계를말하는것으로, 동의관계로 설정하였다. 가닥 _0001- 가닭 살담배 - 지삼이, 틴담 살림살이 - 사롬사리 - 56 -
6 준말본말관계 9) 준말은단어의일부분이줄어든말이며, 본말은줄여지지않은본디소리마디의말로서, 의미에는어떠한영향을주지않는다. 그리하여준말과본말을동의관계로설정하였다. 항공모함 -공모_03 대한제국 -한국_0501 복숭아 -복사_01 야간학교 -야학_0202 2.2.3. 유의관계 유의관계 (partialsynonymy) 는둘이상의어휘소가비슷한의미를가지고 있는의미관계를말한다.U-WIN 에서는유의관계를 8 가지로나누어구축 하였다. 1 일반유의관계일반유의관계는표준국어대사전및각종사전에서제공하는유의어를연결함과동시에, 각종시소러스및유의어사전에서수집한유의어집합을이용하여연결한관계이다 10). [ 학교 ; 학원 _0201] [ 상소 _02; 배소 _03; 주서 _05; 주장 _10] [ 서동 _01; 학동 _0001] [ 선인 _0102; 도사 _1001; 도가자류 ] 2 순화어관계 9) 한정한 도원영 (2005) 에서도 본말과준말은음운, 형태적차이에도불구하고의미적차이가없으므로동의어로처리한다 라는원칙을두고있다. 10) 유의관계와상하관계의상관성에대한논의도필요할것으로보인다. 예를들어김광해 (2000) 에서는 학교 의유의어로 배움터, 학당, 학원, 학사, 문숙, 학창, 가숙 등을설정하였는데, 여기에서 배움터 는 학교 의집단적의미와는달리공간적의미를가지는어휘이다. 이러한측면에서상하관계와유의관계의상관성을살피는것도연구적의미가있으리라본다. - 57 -
순화어란불순한요소를없애고깨끗하고바르게다듬은말로서지나치게어려운말이나비규범적인말, 외래어따위를알기쉽고규범적인상태로또는고유어로순화한말을이른다. 순화어관계는표준국어대사전에기술되고있는순화어를유의관계로설정한것이다. 이러한순화어는특정한말을순화시키면서그의미가변화되는경우가있으므로유의관계로설정하였다. 이미지 _02- 심상 _0402, 영상 _0102, 인상 _06 캐스터 - 진행자 커미션 -{ 구문 _02; 구전 _03; 두전 _02}, 수수료, 중개료 3 거센말관계거센말은어감을거세게하기위하여거센소리를쓰는말로서, 어감의차이로인해어휘의미를미세한차이를가지고있으므로의미관계로설정하였다. 다사하다 _01- 따사하다 방긋거리다 - 방끗거리다, 빵긋거리다, 빵끗거리다 가탈 _0101- 까탈 4 높임말관계 높임말은사람이나사물을높여서이르는말로서, 의미의차이는없으나쓰 이는상황이다르므로유의관계로설정하였다. { 죽다0101; 운하다 _02}- 돌아가다 _0007 { 사망 _0401; 사몰 }- 연세 _03 { 왕비 ; 군부 _0302; 궁비 _01; 왕후 _01}-{ 중궁전 ; 곤궁 _02; 곤전 ; 중궁 _02; 중전 0202} 5 낮춤말관계여기서의낮춤말이란사물이나사물을낮추어이르는말로서, 높임말과마찬가지로의미의차이는없으나쓰이는상황이다르므로유의관계로설정하였다. - 58 -
{ 죽다 0101; 운하다 _02}- 고꾸라지다 _0002, 뒈지다 { 게으름쟁이 ; 완낭 }-{ 게으름뱅이 _01; 한산꾼 _02} { 어머니 _0101; 아미 _02}- 어미 _0101 6 은어관계은어란어떤계층이나부류의사람들이다른사람들이알아듣지못하도록자기네구성원들끼리만빈번하게사용하는말로서, 상인 학생 군인 노름꾼 부랑배따위의각종집단에따라다른데, 의태어 의성어 전도어 생략어 수식어따위로그발생을나눌수있다. 이러한은어는특정어휘를의미는비슷하지는쓰이는환경이다르므로유의관계로설정하였다. 거짓말하다 _0001- 뻥까다, 뻥놓다 고함 _01- 곰 _02 널빤지 - 판때기 7 전문유의관계 특정한분야에서의미는비슷하지만형태적으로다르게사용하는어휘와의 관계를전문유의관계로설정하였다. 사망 _0401- 진 _01( 무속 ) 수젓집 - 숟가락집 ( 불교 ) 황금 _0102- 조금 _04( 한의학 ) 8 전칭관계전칭관계는현재의기관명, 벼슬명, 부서명등을중심으로이전의명칭과연결시킨것이다. 의미는비슷하나, 역할이나범위가달라졌을뿐만아니라형태적으로다르기때문에유의관계로설정하였다. 낭중 _0201- 제감 _0101( 벼슬 ) 병마절제사 - 병마단련사 ( 벼슬 ) 한국해양연구원 - 한국해양연구소 ( 기관명 ) 2.2.4. 반의관계 - 59 -
반의관계는두어휘소가서로반대이거나맞서는의미를가지고있는의 미관계를말한다 ( 윤평현 1995).U-WIN 에서는어휘의미론에서의일반적인 반의관계를사용하여 3 가지반의관계로나누고있다. 1 상보적반의관계 (complementaryantonymy) 상보적반의관계는두어휘소가양분적대립의관계에있는것으로서, 한쪽어휘소의의미를부정하면다른쪽의어휘소와동의관계를유지하게된다. 남자 _0201 여자 _0201 추상 _01 구상 _0501 기혼 _02 미혼 _01 2 정도적반의관계 (gradableantonymy) 는두어휘소에정도성 (gradablity) 의차이가있는관계가있는것으로서, 한쪽을부정하는것이바로다른쪽 을의미하지않으며, 두어휘소사이에는중간상태가있을수있다. 크다 _01 작다 _01 뜨겁다 _0001 차갑다 _0001 3 상대적반의관계 (relativeantonymy) 상대적반의관계는두어휘소가대칭관계를이루는경우를말한다. 주다 _0101 받다 _0101 사다 _0001 팔다 _0001 부모 _01 자식 _0101-60 -
3. 선정기본어휘의 U-WIN 매핑 본연구에서구축할명사어휘망은기본적으로선정된기본어휘를반영하는어휘망을구축한다. 그러나, 선정된기본어휘만으로어휘망을구축할경우비균형적인어휘망이구축될가능성이높고, 차후어휘망의확장을고려할경우전체어휘망의틀이매번바뀌어야하는문제가있다. 따라서, 이번연구에서구축할명사어휘망은울산대에서구축한 30 만어휘의 U-WIN 을기반으로하여구축한다. 그렇지만이경우도, 선정된기본어휘 ( 특히 WEB 용표준국어대사전에새로이추가된어휘 ) 가 U-WIN 에포함되지않을경우이는적절히반영하여구축한다. 구축한어휘망웹브라우저에서는선정된기본어휘들간에반의어및동의어관계가있을경우만나타나고, 선정되지않은어휘들에대해서는별도로나타낸다. 즉 'A' 의동의어 B' 가기본어휘로선정된경우 B' 를통해서도상위어 / 하위어, 동의어를검색할수있으나, B' 가기본어휘로선정되지않은경우는별도로 A' 의동의어정보를나타낸다. 다음 < 표 32> 는선정된기본어휘를 U-WIN 에매핑한결과이다. < 표 32>U-WIN 상에서의기본어휘의계층구조 기본어휘원어어깨다의번호번호 가급적可及的 0 1 가까이 0 4 4 1 공간 _2 곳 _3 부근 레 벨 가랑잎 1 0 9 U-WIN 계층구조 1 물건 _2 물체 _3 물질 _4 조직 _5 기관 _6 영양기관 (X)_7 잎 _8 나뭇잎 가면假面 2 1 5 1 모양 _2 모양새 _3 생김새 _4 모습 _5 얼굴 가면假面 2 2 2 1 물건 가는귀 0 1 9 거세去勢 5 1 3 1 행위 _2 제거 1 물건 _2 물체 _3 물질 _4 조직 _5 기관 _6 감각기관 (X)_7 청각기 (X)_8 귀 거세去勢 5 2 1 행위 _2 수탈 _3 갈취 _4 강탈 (X) 광고주 廣告主 사령부司令部 4 1 집단 _2 조직 _3 본부 입안立案 2 2 7 1 종류 _2 종목 _3 항목 _4 사항 _5 안건 _6 입안 신神 9 3 8 1 존재 _2 실재 _3 존재 _4 존재 _5 신 _6 유일신 _7 하느님 소출所出 2 5 1 정도 _2 수량 _3 양 _4 수확량 - 61 -
1작용 _2 영향 _3 해 _4 손해 _5 손해 _6 손실 _7 피해 _8 재해 _9 기상수재水災 2 10 재해 (X) 1인지 _2 마음 _3 감정 _4 기분 _5 느낌 _6 흥감 (X)_7 감동 _8 감응 _9 감명感銘 11 감심 (X)_10 감격 경칩驚蟄 7 1 시간 _2 시점 _3 때 _4 시기 (X)_5 계절 _6 절기 살모사殺母蛇 9 1 생물 _2 동물 _3 후생동물 (X)_4 척추동물 _5 파충류 _6 뱀 _7 독사 _8 살무사 주위周圍 2 1 7 1 범위 _2 부분 _3 끝 _4 가장자리 _5 테두리 _6 둘레 엑스레이 X-ray 1 6 1 모양 _2 현상 _3 파동 _4 전자기파 _5 광선 단어單語 4 1 기호 _2 언어 _3 말 최상급最上級 1 6 1 과정 _2 단계 _3 등급 _4 급 _5 상급 < 표 32> 에서 가급적 는 CD 용표준국어대사전에등재되었으나 U-WIN 에연결되지않은어휘이며, 광고주 는 WEB 용표준국어대사전에새로이등재된어휘이다. 또한 가는귀 의 U-WIN 계층구조 ( 1 물건 _2 물체 _3 물질 _4 조직 _5 기관 _6 감각기관 (X)_7 청각기 (X)_8 귀 ) 에서 감각기관, 청각기 는 U-WIN 에는연결된어휘이나기본어휘로선정기준 ( 전문용어, 복합어등 ) 에따라선정되지않은어휘 (2,214 개 ) 이다. 이렇게 U-WIN 에연결된어휘가선정되지않은경우는기본어휘로추가하였다. < 표 32> 에서 가면 ( 假面 ) 은기본어휘선정과정에서두개의의미가선정되었으며, 각의미별로의계층구조는다음 < 그림 11> 과같이 U-WIN 관리도구에서확인할수있다. - 62 -
< 그림 11> 가면 의계층구조 (U-WIN 관리도구 ) 2단계선정작업에서선정된명사 34,300 개중표제어수준 ( 반의어 / 동의어제외 ) 에서 U-WIN 으로매핑되는어휘는 22,236 개로약 64.8% 이다. 매핑되지않는어휘 (18,056 개 ) 는 2.2.1 의상하관계에따라 U-WIN 에연결하였으며, 기존의원칙에맞지않은부분 (4,180 개 ) 은차후상하설정기준을마련하여설정되어야한다. 또한, 어휘망의중간노드로존재하지만,2단계선정작업에서선정되지않은명사 2,214 개에대해서도기본어휘선정과정에서제외된명사 (NNG_X, 3.3.2.1 절참조 ) 가 698 개로추가하였으며,I.4.1. 에따라기본어휘에포함하였다. - 63 -
빈페이지임 - 64 -
IV. 세종전자사전이용용언 / 부사관련정보구축 1. 세종의미부류체계 11) 세종명사의미부류체계는최상위정점노드로묶어진최상위부류들에대해단계적으로의미영역을분화하여구축된의미부류들의위계적체계이다. 최상위부류로는 < 구체물 >,< 집단 >,< 장소 >,< 추상적대상 >,< 사태 > 등 5 개의부류가설정되었는데이중처음 4개는논항명사의의미부류이고, 나머지 < 사태 > 부류는술어명사의의미부류이다. 5개의최상위부류구성 술어명사의의미부류와논항명사의의미부류를구분한것은이두유형의명사들이문장내에서기능상의차이를보이고따라서그결합관계도다르기때문이다.< 사태 > 부류는술어가표상할수있는의미영역들을세분하는 < 정적사태 >,< 행위 >,< 사건 >,< 현상 >,< 상태변화 > 등의의미부류들과, 이들로부터분할된보다세밀한의미영역을지닌다양한층위의하위부류들을포함한다. 최상위부류의하위분할을통한중층적인위계구조 세종의미부류는또한최상위노드를기점으로최소 2 층위에서최대 7 층 위까지의깊이를갖는위계적구조를갖는다. 11) 세종의미부류체계에대한내용은세종전자사전 사업개요및사전설명서.hwp 파일에서일부발췌편집하였음. - 65 -
2 층위하위부류의예 :< 범주 > 부류 7 층위하위부류의예 :< 부정적신체속성인간 > 이렇게구성된세종명사의미부류체계의노드별의미부류수는다음과 같다. - 66 -
최상위부류명 최상위부류별하위부류의수 최상위부류를포함한총의미부류수 구체물 197 198 집단 28 29 장소 53 54 추상적대상 150 151 사태 212 213 합계 640 645 2. 세종의미부류체계의 U-WIN 매핑 2.1. 매핑원칙 세종명사의미부류체계는세종전자사전의의미기술에사용될의미부 류체계를구축하는목적과의미부류체계를활용한표제항어휘및구절의 의미표상과논항선택제약기술의정확성및일관성을제고하기위한목적 으로구축되었다. 세종의미부류정보를이용하여용언및서술형명사의논항선택제약 ( 하 위범주 ) 정보는다음과같이기술되었다. form=[ 팔다 ] 1) 격틀 :X=N0- 이 Z=N2- 에 에게 Y=N1- 을 W=N3- 에 V 선택제약 :X(AGT): 인간 인간집단 ( 가게 상점 기업 ) Y(THM): 구체물 ( 도자기 책 가구 새 개 ) 장소 Z(GOL): 인간 인간집단 W(CRT): 값 ( 일억원 십만원 ) 2) 격틀 :X=N0- 이 Y=N1- 을 V 선택제약 :X(AGT): 인간 Y(THM): 자연음식물 ( 곡식 보리 쌀 양식 ) 여기서격틀은문형정보이며, 선택제약은문형의각항목에대한의미역과 - 67 -
선택제약 ( 하위범주 ) 정보로명사의미부류체계 ( 예,X(AGT): 인간 인간집단 ) 가기술되어있다. 또한선택제약이의미부류체계내의특정명사로한정할경우는 Y(THM): 구체물 ( 도자기 책 가구 새 개 ) 와같이괄호속에표현하고있다. 따라서, 본연구에서제시해야할용언문형의각항목에대한하위범주정보로이를활용할수있다. 이러한세종사전의선택제약정보를활용하기위해서는우선명사의미부류체계를 U-WIN 의각노드 ( 단말노드혹은비단말노드 ) 로매핑하면, 비단말노드와그의하위어어휘를선택제약정보로정의할수있다. 그러나세종의미부류는한국어명사어휘들이표상하는의미영역을엄격하고정밀하게분할하고, 각각의의미영역에대해이를공유하는명사어휘들과해당의미영역의정의에근거가되는어휘- 적정술어 들을함께묶은위계적어휘ㆍ의미분류체계이다 ( 이성헌2007). 반면,U-WIN 은어떤어휘의뜻풀이를이용하여중심어 (head) 를상위개념어로보고이들을계층적으로연결한어휘망으로세종의미부류체계와는구별된다. 이러한상위개념어는표준국어대사전에등재된어휘로, 하나의세종의미부류를표현하는메타언어 ( 예, 신체속성인간 ) 와는구별된다. 그렇지만특정용언과만결합하는특정명사를제외하고는, 하나의세종의미부류에속하는명사들은 1:N 으로대응되는 U-WIN 의개념어하위의어휘들과대응된다. 따라서, 세종명사의미부류체계를 U-WIN 의개념어들과매핑하면, 개념어하위어휘들을용언의하위범주로활용할수있다고판단된다. 예를들어세종명사의미부류 값 은 < 그림 12> 와같다. 반면, U-WIN 에서의 값 은 < 그림 13> 과같은다의별로계층구조를가진다. - 68 -
< 그림 12> 세종명사의미부류 값 < 그림 13>U-WIN 에서의 값 의계층구조 여기서,U-WIN 의 - 정도 - 수량 - 수 - 액수 - 금액 - 값 정의 : 물건을사고팔때주고받는돈 - 69 -
용례 :~ 을치르다 / 물다 - 물건-물품 -재물 -돈 -값 정의 : 사고파는물건에일정하게매겨진액수 용례 :~ 이비싸다 / 싸다 / 오르다 / 내리다 ;~ 을매기다 / 깎다세종명사의미부류 - 추상적대상-속성 -수량 -값 정의 : 돈과관련된수량 용례 :~ 을매기다 / 책정하다 / 깎다 / 에누리하다 / 할인하다 / 인상하다 / 인하하다 / 지불하다 / 지급하다 ;~ 이싸다 / 비싸다 / 저렴하다는정의와용례측면에서대응된다. 또한명사상세사전 ( 다의어 35.854 개항목 ) 에서세종명사의미부류로 값 을가지는항목은 가격 ; 값 ; 견적 ; 곡가 ; 공급가격 ; 공매보증금 ; 공시지가 ; 공정땅값 ; 공제금 ; 과징금 ; 구매가격 ; 금액 ; 노동력 ; 누계 ; 단가 ; 도매가격 ; 돈 ; 땅값 ; 매매가격 ; 물가 ; 물건값 ; 물건비 ; 반액 ; 벌점 ; 분양가 ; 비용 ; 삯 ; 산매시세 ; 생산가 ; 선가 ; 선비 ; 설계가 ; 세 ; 소비자물가 ; 수가 ; 수매가 ; 시가 ; 시세 ; 실세 ; 액면 ; 액수 ; 에누리 ; 옷값 ; 운송료 ; 원가 ; 원액 ; 유가 ; 이자 ; 잉여가치 ; 재평가차액 ; 정가 ; 정상가격 ; 지가 ; 지대 ; 차액 ; 총액 ; 최저생활비 ; 최종낙찰가 ; 치 ; 침대요금 ; 판매가 ; 판매액 ; 평가 ; 평균치 ; 표준생활비 ; 품삯 ; 화대 의 67 개항목을정의하고있다. 반면,U-WIN 에서 정도-수량 -수 -액수 -금액 -값 는하위어 가매 ; 견가 ; 금 ; 금새 ; 놀금 ; 덧두리 ; 돈 ; 땅값 ; 물가 ; 반액 ; 배액 ; 비가 ; 싼값 ; 정가 ; 통금 ; 평가 ; 헐가 를가지며, 물건-물품 -재물 -돈 -값 는 가전 ; 땅값 ; 맞돈 ; 식가 ; 식대 ; 식비 ; 즉금 ; 직전 ; 차료 ; 차임 ; 현금 ; 현찰 등의하위어를가진다. 위와같이약간의어법, 용례에서차이가있으나 U-WIN 의두개의 값 과명사의미부류 값 은대응될수있다. 2.2. 매핑도구 선정된명사기본어휘 34,055 개와세종명사상세사전 35,854 개중에서동일한어원 ( 한자 ) 를가지면서의미적으로대응되는항목은 25,172 개 (73%) 이다. (< 표 33> 참조 ) 다음 < 그림 14> 는세종의미부류체계와 U-WIN 의개념어들을연결시키는도구이다. - 70 -
< 그림 14> 세종의미부류체계와 U-WIN 의개념어휘매핑도구 < 그림 14> 에서 1 창은 U-WIN 에서개념어휘정보를계층관계로보이며선택된개념어휘의구체적인정보 ( 원어, 뜻풀이, 상위어 / 하위어등 ) 를 3 창에서나타낸다.2 창은세종명사하위부류체계를나타내며 4 창에서세종하위부류체계의구체적인내용 ( 정의, 적정술어, 용례, 해당의미부류를가지는어휘등 ) 을나타낸다. 이렇게 U-WIN 의개념어휘와대응되는의미부류를선택하고 5 창의 설정 버턴을누르면 U-WIN 의개념어휘와의미부류의대응관계가설정되며, 이렇게설정된대응관계는 6 창에서각각의관리 ID 가표시된다. 이러한 U-WIN 개념어휘와의미부류의대응관계는 N:1 로설정된다. - 71 -
3. 세종사전추출정보와표준국어대사전정보매핑 세종사전추출정보 ( 이하세종사전 ) 와표준국어대사전추출정보 ( 이하표준사 전 ) 를엑셀문서로작성하여서로비교를실시하였다. 3.1. 세종사전추출정보 3.1.1.NNG -A 열 : 표제어 ID -B 열 : 동형이의어 ID -C 열 : 다의어 ID -D 열 : 표제어 -E 열 : 동형이의어번호 -F 열 : 다의어번호 -G 열 : 원어정보 ( 한자, 영어등 ) -H 열 : 상위어 -I 열 : 하위어 -J 열 : 동의어 -K 열 : 반의어 -L 열 : 관련어 -M 열 : 동위어 -N 열 : 의미부류이름 -O 열 : 의미부류 ID -P 열 : 세종전자사전에서의용례 ( 문장단위로 로구분 ) - 72 -
3.1.2.VV/VA -A 열 : 표제어 ID -B 열 : 동형이의어 ID -C 열 : 다의어 ID -D 열 :frame 별 _ 하위의미 ID -E 열 : 표제어 -F 열 : 동형이의어번호 -G 열 : 다의어번호 -H 열 : 원어정보 ( 한자, 영어등 ) -I 열 : 용언의미정보 -J 열 : 세종전자사전에서구문패턴 ( 문형 )( 문형별로 # 로구분 ) -K 열 : 세종전자사전에서구문패턴별하위범주화정보 ( 하위범주화별로 # 로구분 ) -L 열 : 해당용언과함께쓰이는어휘정보 ( 세종전자사전에서추출 ) -M 열 : 용례 - 73 -
3.1.3.MAG -A 열 : 동형이의어 ID -B 열 : 다의어 ID -C 열 : 표제어 -D 열 : 동형이의어번호 -E 열 : 다의어번호 -F 열 : 원어정보 ( 한자, 영어등 ) -G 열 : 부사의미정보 -H 열 : 부사와호응하는품사 -I 열 : 부사와호응하는용언 / 부사 / 명사예 -J 열 : 용례 이상과같이세종전자사전에서각품사별로관련정보를추출한후이를 - 74 -
기반으로표준사전과비교하는작업을실시하였다. 이는명사의의미역정 보, 용언의하위범주화정보, 부사의서술어와의호응관계를살펴보기위해 필요한작업이다. 3.2. 세종사전과표준사전의매핑 세종사전과표준사전의매핑은자동적으로처리가불가능하여사람에의 해의미별로매핑을실시하였다. 세종사전과표준사전을비교매핑한결과는 역시엑셀문서로작성하였다. 이엑셀문서의각 sheet 열은다음과같다. 3.2.1.NNG -A 열 : 세종전자사전에등재여부 (X : 미등재,Y : 등재 ) -B 열 :CD 표준사전과 WEB 표준사전의뜻풀이일치여부 (P.41 참조 ) -C 열 : 세종전자사전에서의다의어수준의 keyid (P.72 그림의 C열 ) -D 열 : 세종전자사전에서의의미부류정보 (P.72 그림의 N열 ) -E 열 : 표제어 -F 열 :CD 사전에서의동형이의어번호 -G 열 :CD 사전에서의다의어번호 -H 열 :WEB 사전에서의동형이의어번호 -I 열 :WEB 사전에서의다의어번호 -J 열 : 문형번호 ( 명사, 부사로용법이다른경우 ) -K 열 :WEB 사전에서의뜻풀이 -L 열 : 뜻풀이를품사 / 다의어태깅한것 -M 열 : 원어정보 ( 한자, 영어등 ) -N 열 :WEB 사전에서의용례 -O 열 : 세종전자사전에서의용례 - 75 -
3.2.2.VV/VA -A 열 ~M열 :NNG 와동일 -N 열 : 표준사전에서의동형이의어수준의문형정보 -O 열 : 표준사전에서의다의어수준의문형정보 -P 열 : 세종전자사전에서의격틀 ( 문형정보 ) -Q 열 : 세종전자사전에서의선택제약 ( 하위범주정보 ) -R 열 :WEB 사전에서의용례 -S 열 : 세종전자사전에서의용례 3.2.3.MAG -A 열 ~M 열 :NNG 와동일 -N 열 : 세종전자사전에서추출한부사와호응하는용언 -O 열 :WEB 사전에서의용례 - 76 -
-P 열 : 세종전자사전에서의용례 3.3 세종사전과표준사전의매핑미처리어휘 두사전과의매핑과정에서선정된대상어휘가세종사전과표준사전에둘다등재된경우는의미와용례, 원어정보를이용하여관계설정을하기에문제가없었으나, 세종사전에등재되지않은대상어휘의경우관계설정하는과정에다소문제가있었다. -의미적매핑비율 ( 표제어차원의형태적인매핑이아닌의미적매핑 ) ㅇ명사 :22,949 개 mapping(64.3%) ㅇ동사 : 7,311 개 mapping(73.2%) ㅇ형용사 : 2,773 개 mapping(83.5%) ㅇ부사 : 1,623 개 mapping(61.5%) 각 sheet 의 A열이 Y인것과 Z인것들중매핑을하지못한어휘에대해서는표준사전에서의의미와용례만을기반으로하여결합가능한체언또는용언을선별하는작업을실시하였다. 명사의경우는매핑하지못한어휘에대하여 IV.2. 세종명사의미부류체계와 U-WIN 매핑 에서사용된방법에서각어휘를하나씩맞추어나가는방법을사용하였다. 여기에서는동사, 형용사, 부사에대하여만예를보이도록한다. (1)VV_SEM - 77 -
동사의경우문형정보에주어진문형과용례를기반으로주어 (1), 목적어 (2), 보어 (3), 부사어 (4), 수식받는명사 (5) 의다섯가지로나누어그자리에오 는체언을하위범주정보로하였다. < 예 > 대상어휘 : 가하다문형정보 : 에 / 에게 을결합정보 :2= 박차 ; 손질 ; 열 ; 타격 ; 충격 ; 고문 4= 시험공부 ; 내용 ; 쇠 ; 적군 ; 그용례 : 집걱정말고시험공부에박차를 { 가해라 }./ 내용에손질을좀 { 가하면 } 좋은글이되겠는데./ 쇠에열을 { 가해서 } 녹였다./ 아군은적군에게결정적인타격을 { 가했다 }./ 아버지의사고는그에게충격을 { 가하는 } 사건이었다./ 피의자에게고문을 { 가하는 } 행위가금지되었다. (2)VA_SEM 형용사의경우는용례를기반으로수식을받는체언또는주어자리에오 는체언을하위범주정보로하였다. < 예 > 대상어휘 : 희뿌옇다결합정보 : 연기 ; 달빛 ; 빛 ; 안개용례 :{ 희부연 } 연기 / 달빛이비쳐방안이 { 희부옇게 } 밝다./ 아직잔영 ( 殘影 ) 이남아있어 { 희부연 } 빛이계곡위를어루만지고있었다. 최인호, 지구인 / 장방형의검푸른못자리주위에는바지를무릎까지걷어올린농부들의모습이 { 희부연 } 아침안개속에검은실루엣으로간간이눈에띈다. 홍성원, 무사와악사 (3)MAG_SEM 부사의경우는용례를기반으로수식을받는서술어를부사와호은하는 용언정보하였다. < 예 > 대상어휘 : 가까스로 - 78 -
결합정보 : 참다 ; 구하다 ; 삼키다용례 :{ 가까스로 } 웃음을참았다./ 보채던아이가 { 가까스로 } 잠이들었다./ 그에게 { 가까스로 } 일자리를구해주었다./ 주만은어머니의상심하시는것이민망스럽고죄송스러워서 { 가까스로 } 꿀꺽꿀꺽울음을삼키고제처소로돌아왔다. 현진건, 무영탑 이상의방법으로미처리어휘에대해서수작업으로매핑을시켰으며, 표준사전에서용례를확인할수없는것에대해서는빈란으로두었다. 이는앞으로코퍼스등을통해관련용례를추출하고뜻풀이를근거로하여결합정보를추출해야할것이다. 또한부사와호응하는용언의경우다의적인분별까지는하지못하였다. 3.4. 매핑결과 < 표 33> 은표준국어대사전의뜻풀이및용례와세종전자사전의용례를비 교하여대응하는표제어수준의비율과최종구축된 DB 내필요정보항목 비율을보이고있다. < 표 33> 기본어휘의세종전자사전매핑비율및 DB 내의정보항목비율최종선정세종전자사전일치 DB 정보항목 어휘 ( 표제어수준 ) ( 수작업포함 ) 명사 34,387 X( 불일치 ) 9,215(27%) 33,207(97%) Y( 일치 ) 25,172(73%) 동사 9,986 X( 불일치 ) 228(2%) 9,392(94%) Y( 일치 ) 9,758(98%) 형용사 3,315 X( 불일치 ) 165(5%) 3,213(97%) Y( 일치 ) 3,150(95%) 부사 2,640 X( 불일치 ) 630(24%) 2,385(90%) Y( 일치 ) 2,010(76%) 전체 50,328 X( 불일치 ) 10,238(20%) 48,197(96%) Y( 일치 ) 40,090(80%) DB 정보항목중명사는상위어를가진개수이다. 용언및부사의경우표준국어대사전에용례가없을경우정보항목을갖지않음. - 79 -
빈페이지임 - 80 -
V. 어휘망통합브라우저 1. 어휘망편집브라우저 1.1. 어휘망편집브라우저구성요소 < 그림 15> 는현재구현된어휘망편집브라우저의구성요소이다. 구축한어 휘망편집브라우저는어휘망의정보를수정 / 편집할수있는관리용으로 standalone 형태로 desktop 에서실행된다. < 그림 15> 어휘망통합브라우저의구성요소 어휘망통합브라우저는 3개의검색창 ( 명사검색, 트리검색, 부사ㆍ용언검색 ), 2개의리스트 ( 명사, 부사ㆍ용언 ),3 개의트리뷰 (U-WIN, 용언, 관계 ) 와 1개의용어정보보기창으로구성된다. 명사리스트는선정된기본어휘중명사를보여주며,U-WIN 에포함된어휘 - 81 -
면파란색으로나타나고, 포함되지않은어휘면검은색으로나타난다. 부사ㆍ용언리스트는선정된기본어휘중부사와용언을나타내며,U-WIN 용언어휘망에포함된어휘면빨간색으로포함되지않은단어면검은색으로나타난다. U-WIN 트리뷰는구축된명사어휘망을상하위계층구조를보여준다. 용언트리뷰는구축된용언 ( 형용사, 동사 ) 의구조를나타낸다. 관계트리뷰는특정명사, 용언또는부사와의술주 ( 용언-주격 ), 술목 ( 용언-목적격 ), 술부 ( 용언-부사격 / 부사 ) 등의관계를보여준다. 마지막으로용어정보보기창은특정어휘가선택되었을때어휘의 ID, 원어, 뜻풀이, 의미태그, 상위어 / 하위어, 반의어 / 동의어, 용례등의정보를제공한다. 싸하다 의검색결과는다음 < 그림 16> 과같다. < 그림 16> 싸하다 의검색결과 - 82 -
1.2. 어휘관계설정어휘망통합브라우저에서모든어휘에적용되는, 설정된어휘관계를보거나새로운어휘관계를추가하기위해서는다음과같은과정이필요하다.(< 그림 17> 참조 ) 1 우선하나의어휘를선택한다. 2 명사를중심으로한어휘의관계 ( 명사를주어, 목적어, 부사격으로가지는용언 ) 를보고싶은경우 U-WIN 트리에서어휘를선정한후오른쪽마우스를누르고, 용언을중심으로한어휘의관계 ( 용언의하위범주정보 ) 를보고싶은경우용언트리에서어휘를선정한후오른쪽마우스를누른다. 3 그러면보고싶은관계이름을선택할수있는윈도우창이나타나고, 관계이름선택후 확인 버튼을누르면선택된관계이름들이 관계트리 에나타난다. < 그림 17> 공통으로적용되는어휘관계설정 - 83 -
또한특정명사와용언, 용언과부사의어휘관계를설정하기위해서 < 그림 18> 과같은과정이필요하다. 1 우선특정명사, 용언, 설정될관계를선택한다. 예를들어용언 싸하다 와명사 혀 를 술주관계 로설정하려면, 용언 싸하다 와명사 혀 와관계이름 술주관계 를선택한다. 2 3가지의요소가선택된후 >> 버튼을누르면관계트리의술주관계노드에 혀 가단말노드로들어가게된다. < 그림 18> 혀 와 싸하다 의주어관계설정 1.3. 어휘추가 / 수정 / 삭제 < 그림 19> 은어휘망에용어를추가하기위한과정을순서대로보여준다. 망에등록되지않은 가마 라는용어를추가하기위해뜻풀이를확인한후상위어가될수있는용어를선택한다. 솥 이라는상위어를선택한후 >> 버튼을누르면 가마 가 솥 의하위어로추가된다. 선정된어휘가어휘망내에어느위치에있는지확인하려면, 하나의어휘를아래 < 그림 20> 과같이더블클릭하면된다. - 84 -
3. 망에넣기 >> 버튼클릭 4. 결과확인 2. 상위어를선택 1. 망에추가안된명사 가마 선택 < 그림 19> 어휘를어휘망에추가하기위한과정 1. 왼쪽마우스더블클릭 2. 망내의위치확인 < 그림 20> 어휘망내에 가계 위치확인 선정된어휘목록추가, 수정, 삭제는다음 < 그림 21>,< 그림 22>,< 그림 23> 과같다. - 85 -
2. 표제어및표제어와관련된뜻풀이, 동의, 유의, 반의등의관계를추가할수있는창활성화 1. 추가버튼클릭 < 그림 21> 선정된어휘목록추가 2. 이미존재하는표제어에대한수정창활성화 1. 수정버튼클릭 < 그림 22> 선정된어휘목록수정 - 86 -
2. 삭제여부를묻는메시지창활성화 1. 삭제버튼클릭 < 그림 23> 선정된어휘목록삭제 2.WEB 용어휘망브라우저 2.1.WEB 용어휘망브라우저구성요소 < 그림 24> 는 WEB 용어휘망브라우저로, 검색창, 선정어휘및검색어리스트, 용어정보보기, 설정된관계확인을위한동적뷰로구성된다. -검색창은명사, 용언, 부사등의선정기본어휘의검색이가능하며, 히스토리기능이있어이전에찾았던어휘를기억해두어차후에손쉽게찾게해준다. -선정어휘및검색어리스트에서는선정어휘와검색된어휘를리스트형식으로볼수있으며, 더블클릭을통해설정된관계를볼수있다. -설정된관계확인을위한동적뷰는검색된용어의설정된관계를동적인트리형식으로보여준다. 마우스스크롤을통해전체크기를조절할수있 - 87 -
고, 드래그앤드랍 ( 끌어놓기 ) 을통해보고싶은부분을원하는위치에가도록할수있다. 특정용어를더블클릭하면해당용어의설정된관계가동적뷰에나타나게된다. -용어정보보기창은특정어휘가선택되었을때어휘의 ID, 원어, 뜻풀이, 의미태그, 용례등의상세정보를제공한다. < 그림 24> 웹용어휘망브라우징도구의구성요소 2.2.WEB 용어휘망브라우저기능 2.2.1. 환경설정 WEB 용어휘망브라우저의왼쪽중앙에위치한탭중 설정정보 를선택하여, 동적뷰창에서나타낼관계의개수및색깔, 최대노드개수, 이전검색목록의개수를설정할수있다. 노드개수 란하나의어휘가 100 개의하위어를가지고있다고하면, 브라우저의가독성이떨어진다. 그래서 노드개수 의개수를설정하여그개수이상의관련어휘를가지고있으면 ㄱ ',' ㄴ, ' ㄷ '. 순으로분류하여관련어휘를보여준다. 이전검색목록 이란말그 - 88 -
대로이전에검색한목록을몇개까지보여줄것인지설정하는부분이다. 아래의그림은상위어, 하위어, 동의어, 반의어의관계를선택한후완료단추를눌러설정하는방법을보여준다. 기본적으로최대노드의개수는 30 개, 이전검색목록의개수는 10 개로설정되어있다. < 그림 25> 설정정보변경 2.2.2. 검색어입력및검색어보기 사용자가검색하고싶은어휘를검색창에입력한뒤 <Enter> 키를누르면 입력된어휘에대한상세정보가출력된다. 검색창에는 기본어휘검색 문구 가있다. 아래의 < 그림 26> 은어휘 독가스 를검색창에입력한것이다. - 89 -
< 그림 26> 기본어휘검색 아래의 < 그림 27> 은 독가스 를검색한후검색어가 검색어목록 에추가 된모습을보여준다. 해당어휘의정보를보고싶을경우단말노드의어휘 를두번클릭하면된다. < 그림 27> 검색어목록에추가된검색어 검색어목록 탭오른쪽에 기본어휘목록 탭이있다. 기본어휘목록탭은선정된기본어휘전체를오름차순으로정렬하여보여준다. 검색 창에어휘를입력하면아래의리스트에서그어휘위치로이동하게된다. 그리고검색어목록트리와마찬가지로어휘의정보를보고싶을경우어휘를두번클릭하면된다. - 90 -
< 그림 28> 기본어휘목록 2.2.3 검색어휘정보보기 왼쪽상단트리에나타난 독가스 : 독 - 가스 를두번클릭하면 < 그림 29> 과같이오른쪽창에 독 - 가스 가가진의미관계들즉, 상위어, 동의어, 하위 어등이나타난다. 동적뷰창에나타난어휘들을클릭하면왼쪽중앙에있는 어휘정보 에서선택된어휘의정보를볼수있다. 표제어, 한자, 원어, 상위어, 하위어, 동의어, 반의어, 호응용언 부사,~ 이관계,~ 을관계,~ 에관계,~ 로관계,~ 에게관계, 뜻풀이, 형태소분석과의미분석된뜻풀이, 의미태그, 문형정보, 동의어목록, 분야정보를볼수있다. 특정항목의내용이길어다볼수가없을경우, 마우스를그항목에올려놓으면모든내용을볼수가있다. - 91 -
< 그림 29> 선택된어휘 ( 예, 독가스 ) 에대한어미관계정보 < 그림 30> 은왼쪽상단에있는트리상의어휘에마우스를올려놓았을때그어휘의뜻풀이정보를보여주는모습이다. 왼쪽의트리뿐아니라오른쪽창에서나타난어휘에마우스를올려놓아도마찬가지로뜻풀이정보를보여준다. - 92 -
< 그림 30> 트리에서어휘 독가스 에마우스를올려뜻풀이보기 2.2.4 상위어하위어따라가기 어휘망은상위어, 하위어를기반으로만들어졌다.WEB 용어휘망은상위어, 하위어를 1단계씩따라갈수있도록만들어졌으며, 특정어휘의상위어를계속두번클릭하면루트에도달하게된다. 아래 < 그림 31> 은 독가스 의상위어 가스 를따라간후의모습을보여준다. 처음에는 독가스 가중심에있지만상위어를두번클릭한후에는 가스 가동적뷰의중심에자리한다. - 93 -
< 그림 31> 상위어따라가기 1-94 -
< 그림 32> 는 가스 의상위어 기체 를두번클릭하여따라간모습이다. < 그림 32> 상위어따라가기 2-95 -
하위어의개수가 30 개이상인경우, 가독성을높이기위해 < 그림 33> 과 같이 ㄱ, ㄴ, ㄷ, ㄹ, ㅁ, ㅂ,., ㅎ 으로분류된다. 하위어중 ㄷ 노 드를두번클릭하면자음ㄷ으로시작하는하위어가나타난다. < 그림 33> 30 개이상인하위어보기 2.2.5 양방향추적관계설정브라우징을편리하게하기위해양방향 ( 용언 <-> 명사, 용언 <-> 부사 ) 추적이가능하도록하였다. 아래 < 그림 34> 는명사 기체 와용언 분출하다 의양방향추적이가능한상황을보여주고있다. < 그림 34> 기체 와 주다 의양방향추적브라우징 - 96 -
3. 브라우저의데이터베이스설계서 3.1. 테이블종류및구조 WEB 브라우징을위한 DB 내의각종테이블은목록은 < 표 22> 와같다. < 표 23>DB 내각종테이블목록 테이블이름 필드개수 UWIN 12 EUWIN 12 Relation 9 ERelation 9 RName 3 rel-xxx 9 테이블설명 선정된기본어휘의표제어, 뜻풀이, 뜻풀이의형태소 / 의미태깅결과, 어깨번호, 다의어번호, 문형번호, 용례, 원어정보, 문형정보, 동의어목록을보여주기위한테이블. 명사, 용언, 부사를포함하고있다. 어휘관계웹용뷰어와편집도구의왼쪽트리를보여주기위한정보들을담고있음. 선정된기본어휘의표제어, 뜻풀이, 뜻풀이의형태소 / 의미태깅결과, 어깨번호, 다의어번호, 문형번호, 용례, 원어정보, 문형정보, 동의어목록을보여주기위한테이블. 용언, 부사를포함하고있다. 어휘관계편집도구의중앙트리를보여주기위한정보들을담고있음. 선정된기본어휘의상하위관계, 동의관계를설정하기위한테이블. 관계를설정한사람의이름, 날짜,( 설정한이유 ) 를기록함. 선정된기본어휘의상하위관계, 동의관계를설정하기위한테이블. 관계를설정한사람의이름, 날짜,( 설정한이유 ) 를기록함. 어휘간의특정관계이름을관리하기위한테이블. 어휘간의관계가한방향또는양방향으로적용되는지여부를포함. 선정된기본어휘의특정관계를설정하기위한테이블. 테이블이름의 XXX 부분에특정관계이름이들어감. 예를들어술목관계를나타내는 ~ 을 에대한관계테이블이름은 rel- 을 이됨. RName 의레코드수만큼 rel-xxx 테이블이생성됨. 특정관계를설정한사람의이름, 날짜,( 설정한이유 ) 를기록함. 각테이블에대한상세구조는 < 표 23>~ < 표 28> 와같다. - 97 -
< 표 24>Relation 테이블구조 RelationshipType ConID1 ConID2 Weight TypeOfInstance IsTerminal WorkingDate NameOfWork Bigo - 98 -
< 표 25> ERelation 테이블구조 RelationshipType ConID1 ConID2 Weight TypeOfInstance IsTerminal WorkingDate NameOfWork Bigo - 99 -
< 표 26>rel-XXX 테이블구조 RelationshipType ConID1 ConID2 Weight TypeOfInstance IsTerminal WorkingDate NameOfWork Bigo - 100 -
< 표 27>RName 테이블구조 ID Relation Dual 3.2 필드간의관계 < 그림 34> 테이블과필드간의관계 - 101 -