17. 전자사전구축 2002 년 7 월 국민대학교컴퓨터학부 강승식
목차 1. 전자사전의필요성 2. 전자사전종류 : 분석 / 변환 / 생성등 3. NLP에필수적인사전정보 4. 사전구조와탐색방법 5. 맺음말 2009-03-03 2
전자사전을구축하는이유? 형태소분석의예 < 입력어절, 분석결과 > 기분석사전 < 단어, 품사정보 > + 규칙 + 기분석사전 기계번역의예 < 원시문장, 대역문장 > 기번역사전? < 원시언어단문, 목적언어단문 > + 규칙 < 단어, 대역어 > + 규칙 2009-03-03 3
사전의용도 전자사전과기존사전 (I) 일반용, 학생용, 컴퓨터용, NLP 용 사전정보내용 뜻풀이위주 ( 백과사전식 ), NLP 용 사전정보표현방식 인간위주, 컴퓨터프로그램위주 2009-03-03 4
전자사전과기존사전 (II) NLP 목적의사전 복합조사 / 어미, 시소러스등 NLP 사전의특징 사람 : 통계적 / 경험적지식을갖추고있다컴퓨터 : 통계적 / 경험적지식을사전에수록 < 예 > 가는, 가시는 의형태소분석 예외처리사전 or 예외규칙의필요성 2009-03-03 5
사전 vs. 규칙 사전의모든내용을규칙으로표현가능 모든규칙은사전으로구축할수있다. 사전 or 규칙으로표현 적용범위의넓고좁음에따라결정 처리의효율성과편의성을고려 기억공간의효율성고려 2009-03-03 6
전자사전종류 : 분석 / 생성 형태소분석 문법형태소, 어휘형태소, 복합어사전 (?), 사용자사전, 기분석사전등 구문 - 의미분석 문장패턴사전, 의미사전, 중의성해결사전 (?) 등 생성 : 생성사전, paraphrase 사전 (?) 2009-03-03 7
전자사전 : 응용 S/W 정보검색, 자동색인시소러스, 불용어 맞춤법검사 / 교정분야별전문용어사전, 인명 / 지명사전, 속어 / 은어사전, 철자교정사전등 기계번역대역어사전, 변환사전, 중의성해결등 자연언어이해 : 개념어사전? 2009-03-03 8
형태소분석사전예 가 N:VI RG:VX 가가 N 가가례 N 가가호호 ADV:N... 가감 DEIV:DOTV:N... 가격 N 가격표 N 가결 DEIV:DOIV:DOTV:N 가결의 DEIV:DOTV:N 가경 DODJ:N 2009-03-03 9
형태소생성사전예 알다 V REG <NEG 모르다 > 사랑하다 V YEO <PAS 에게 사랑받다 > 그러나 ADV SENTMOD 너무 ADV VERBMOD 일찍이 ADV VPMOD 를가로질러 POST MWPOST 에관하여 POST MWPOST 때문에 POST PWORD 2009-03-03 10
한영변환사전예 가늘다 (SBJ slender ( 글씨 writing) ( 목 neck) ( 팔 arm)... fine ( 모래 sand) ( 베 linen) ( 비 rain)... delicate ( 뼈 bones) IDM sharp ( 끝 : 이 =: ㄴ ) slender in the middle ( 가운데 : 가 =: ㄴ ) tapering ( 차츰 :b =: 어지는 ) a fine pointed fountain pen ( 촉 : 이 =: ㄴ만년필 :p) sharpen A:OBJ thin ( 끝 : 을 =: 게하 : 다 ) make A:OBJ thin (A: 을 =: 게하 : 다 ) sharpen a pencil ( 끝 : 을 =: 게깎 : 다 ) with *POS eyes halfclosed ( 눈 : 을 =: 게뜨고 ) live on a slim income (=: 게먹 : 고살 : 다 ) DFT thin) 2009-03-03 11
영한변환사전예 give (vt < 주다 > OBJ OBJ: 을전하다 (information 정보 ) (knowledge 지식 ) OBJ: 을베풀다 (favor 은혜 ) (kindness 친절 )... OBJ: 을열다 (party 잔치 )... vi < 주다 > IDM A: 을발하다 (give forth A) A: 을야기시키다 (give rise to A) A: 을낳다 (give birth to A) A: 을포기하다 (give up A) [if A = (smoking 담배 ) or (drinking 술 ) then V = 끊다 ] [if A = (habit 버릇 ) then V = 그만두다 ] ) 2009-03-03 12
영어 WordNet 동의어집합 synset 품사 : 명사, 동사, 형용사, 부사 어휘수 : 83,000 여개 명사 57K, 동사 11K, 형용사 13K, 부사 1.7K synset 개수 : 59,000 여개 명사 41K, 동사 7K, 형용사 10K, 부사 0.9K 2009-03-03 13
영어 WordNet 예 sugar Sense 2 : <sugar, refined sugar> => <sweetening> => <foodstuff> => <food, nutrient> => <substance, matter> => <object, inanimate object> => <entity> 2009-03-03 14
한국어 WordNet 예 기계 Sense 1 : < 기계, 단순기계 > => < 기계적장치 > => < 장치 > => < 수단 > => < 인공물 > => < 물건, 무생물, 실제물 > => < 실체 > 2009-03-03 15
영어 WordNet : synset 항목 Antonym : 반대어 synset 포인터 Hypernym : 상위개념 synset 포인터 Hyponym : 하위개념 synset 포인터 Meronym : 부분개념 synset 포인터 Holonym : 소속개념 synset 포인터 Entailment : 연어 synset 포인터 Troponym : 동사의구문형식 Pertainym: 수식어구 2009-03-03 16
사전의부작용? 사전어휘수 반드시많다고좋은것은아니다! 사전정보세분화 세분화할수록좋은것은아니다! 사전정보과잉성 많은정보가수록된다고좋은것은아니다! 2009-03-03 17
사전의부작용예 어휘수 : 형태소분석시 하고 명사 법의 명사 망의 명사 복합명사분해정확도가낮아진다! 품사세분화 : 형태소분석시 체언 : 명사 / 대명사 / 수사 / 의존명사구분? 불필요한정보 시스템이복잡해지고사전의크기만커진다! 2009-03-03 18
어휘수와사전정보 어휘수가많을수록좋다! 빈도수등사전정보가충분히수록된다면... ( 필요에따라소규모사전으로변환이가능하므로 ) 사전정보를세분화할수록좋다! 계층적분류등에의해특정목적에적합하게상위범주정보들로변환이가능하다면... 다양한목적으로사용되는범용사전구축 2009-03-03 19
NLP 에서꼭필요한정보 모든경우에대한 data list 예 : 복합조사, 어절유형, 아 / 어 의이형태 일반규칙과예외처리 부사의수식대상은부사, 형용사? 매우빨리, 매우빠르다부사, 형용사사과또는 / 및배??? 농사를짓는한편, 농사를지었다??? 유형별, 특성별로 grouping : 태그셋 2009-03-03 20
형태소태그 : 형태소분석용 체언, 동사, 형용사, 부사, 독립언 체언 ( 명사, 대명사, 수사, 의존명사 ) 세분화? 독립언 ( 관형사, 감탄사 ) 구분필요성? -하다, -되다, -시키다, -답다, -스럽다? 형태소분석용도에따라다르다. 체언, 독립언 : 분석결과출력할때만... 기계번역시, 명사만추출시, 파싱시 2009-03-03 21
대분류중분류소분류 체언 용언 수식언 독립언 접사 조사 어미 명 사 대명사 수 사 의존명사 동 사 형용사 보조용언 부 사 관형사 감탄사 접두사체언접미사용언화접미사조사 어말어미 선어말어미 단일명사복합명사외래어미등록명사 인칭대명사지시대명사 수사아라비아숫자 일반의존명사단위의존명사자동사타동사일반형용사존재형용사보조동사보조형용사일반부사접속부사지시관형사수관형사성상관형사감탄사 접두사체언접미사용언화접미사격조사보조사접속조사종결어미연결어미전성어미선어말어미 2009-03-03 22
형태소태그 : 어절유형용 N1. PTN_N 체언 /* N/PN/NM/XN/CN/UN/AS/HJ/ET */ N2. PTN_NJ 체언 + 조사 N3. PTN_NSM 체언 + 용언화접미사 + 어미 N4. PTN_NSMJ 체언 + 용언화접미사 + ㅁ / 기 + 조사 N5. PTN_NSMXM 체언 + 용언화접미사 + 아 / 어 + 보조용언 + 어미 N6. PTN_NJCM 체언 + 에서 / 부터 / 에서부터 + 이 + 어미 V1. PTN_VM 용언 + 어미 V2. PTN_VMJ 용언 + ㅁ / 기 + 조사 V3. PTN_VMCM 용언 + ㅁ / 기 + 이 + 어미 V4. PTN_VMXM 용언 + 아 / 어 + 보조용언 + 어미 V5. PTN_VMXMJ 용언 + 아 / 어 + 보조용언 + ㅁ / 기 + 조사 A1. PTN_AID 단일어 /* 부사, 관형사, 감탄사 */ A2. PTN_ADVJ 부사 + 조사 /* 빨리도 */ X1. PTN_NVM 체언 + 동사 + 어미 /* 밥먹다 */ 2009-03-03 23
형태소태그 : 결과생성용 조사의이형태정보 이가 / 을를 / 와과 / 은는, 이 / 으 / 에탈락여부, 에게 / 게 / 께 / 한테 어말어미의이형태정보 아 / 어 : 아 / 어 / 여 / ㅏ / ㅓ / ㅕ / ㅐ / 돼 / 러, 아 / 어탈락 ㄴ / ㄹ / ㅁ / ㅂ : 으 탈락정보 ㄹ / ㅁ 시작어미 : 으 탈락정보 선어말어미 : 았 / 었, ( 으 ) 시 2009-03-03 24
형태소태그 : 아 / 어 이형태 EOMI_VAR_Wb -- 아 EOMI_VAR_Wf -- 어 EOMI_VAR_Wj -- 여 : 여 / 거 / 너 / 러 / 라 EOMI_VAR_Wb_tal -- 아 탈락 EOMI_VAR_Wf_tal -- 어 탈락 EOMI_VAR_b -- ㅏ EOMI_VAR_f -- ㅓ EOMI_VAR_j -- ㅕ EOMI_VAR_c -- ㅐ : 해서, 하얘서 ( ㅎ불 ) EOMI_VAR_lc -- ㅙ : 되다 만적용 EOMI_VAR_Ib,If -- 라 / 러 : 러 불규칙 2009-03-03 25
형태소분석 : 빈도정보 어휘형태소빈도정보 문법형태소빈도정보 어절유형빈도정보? 어절유형쌍의공기정보 형태론적중의성해결에활용! 2009-03-03 26
가시는 형태소분석중의성예 가동사 + 시선어말어미 + 는어말어미가시명사 + 는조사가시동사 + 는어말어미갈동사 + 시선어말어미 + 는어말어미 접두사 / 접미사분리중의성 대 + 동강, 흥부 + 가, 철수 + 가 2009-03-03 27
NLP 에서불필요한정보? 모든경우를포괄하지못하는정보 < 예 > 하다 / 되다 / 스럽다 등 형태로결정되는정보 < 예 > 은 / 는, 이 / 가 의구분정보 적용범위가매우좁은규칙 < 예 > 푸 불규칙 거의발견되지않는어휘나규칙 < 예 > 하고, 법의, 망의 2009-03-03 28
부족할때문제 사전정보의양면성 분석 / 생성정확도가낮아진다. 과다할때문제 분석 / 생성정확도가낮아질수있다. 적절한수준은... 시행착오과정에서발견? 2009-03-03 29
사전구축접근방식 Top-down 방식 Bottom-up 방식 기계번역을위한의미중의성해결 1. 기계번역시스템에서중의성어휘수집 2. 각경우에대한해결방안모색 3. 여러경우를고려하여의미표지설정 2009-03-03 30
사전탐색기법 선형탐색 (linear search) : non-sorted dic 이진탐색 (binary search) : sorted dic 해싱기법 (hashing) : 스펠러사전 트라이 (trie) 구조 : 동일한탐색속도 오토마타구조 : 자소 / 음절단위 계층적구조 : WordNet 2009-03-03 31
사전의구조 (I) 평균탐색속도가가장빠른구조 기억공간의크기도고려 빈도수에따른사전 / 규칙 1. 초고빈도어사전 (Ultra-high Freq. Dic) 2. 고빈도어사전 (High Freq. Dic) 3. 저빈도어사전 (Low Freq. Dic) 4. 초저빈도어사전 (Ultra-low Freq. Dic) 2009-03-03 32
사전의구조 (II) 사전탐색편의성에따라 품사별사전 길이별사전 품사별, 길이별사전 역순사전 2009-03-03 33
사전의구조 (III) 선형적구조 : < 어휘, 태그 > 쌍 프레임구조 : < 어휘, 프레임 > 쌍 DDL(Dic. Description Language) 규칙과사전의중간형태기계번역변환사전의미중의성해결사전? 2009-03-03 34
전자사전을구축할때 전자사전의목적을명확히한다. 범용 ( 모든정보 ), 특정용도 전자사전이어떤역할을하는지 형태소분석, 파싱, 의미분석, 중의성해결등 어떤정보들을기술할것인지 실제로어떻게활용될것인지 2009-03-03 35
전자사전의구축방향 범용사전구축 : 바람직한방향 다양한응용목적충족목적 / 기능에따라재가공루틴제공 통계 - 경험정보의중요성 규칙의범용성, 빈도정보, 예외처리등 모든정보는개별적으로추출가능 : MRD 2009-03-03 36
향후과제 구문표지와의미표지설정 생성규칙의빈도정보 : 통계적파싱 구조중의성, 의미중의성해결정보 연어정보의설정및기술방법 2009-03-03 37
맺음말 사전정보설정의중요성 다양한활용목적에적합하게설정유형별 / 특성별로 grouping : 부사유형계층적 ( 대 / 중 / 소분류 ) 으로융통성있게 각응용분야에대해구체적으로정의 각유형들에대한모든 data list 일반규칙과예외규칙의구분 2009-03-03 38
맺음말 시행착오에의한 feedback 예 : 형태소태그형태소분석 : 불필요하게많음파싱고려 (?): 충분한지 vi/vt 구분 2009-03-03 39