자연어 QA workshop 한국어의미처리시스템 2015.08.21 옥철영 울산대학교 컴퓨터정보통신공학부 / 국어국문학과
목차 2 한국어의미자원 어휘지도 (UWordMap) 의미역 & UPropBank 한국어의미처리시스템 동형이의어 WSD (UTagger-HM) 의존관계분석 (UTagger-DP) 다의어 WSD (UTagger-PS) 의미역태깅시스템 (UTagger-SR) 개체명인식기 ( UTagger-NE) 시연 ( 한국어어휘지도, UTagger 시스템 )
한국어분석단계및현처리수준 3 형태소분석 (98%) 구문분석 (90%) 의미분석 (?) 담화분석 (?) 대화분석 (?)
의미론 (Semantics) 4 Lexical Semantics WSD, NER Sentence Semantics Parser, SRL 하나의형태소가문맥에따라여러개의의미로해석될때, 하나의의미를결정 Homograph WSD Polysemy WSD Named Entity Recognition Lexical Semantic Network 문장내의술어 - 논항 (predicateargument) 관계에적합한의미관계 (Semantic Role) 를결정 Subcategorization Semantic Restriction Semantic Role Labeling Ontology & Inference
5 한국어의미자원 한국어어휘지도 의미역 & UPropBank 용언의미군집화 & 계층화
어휘의미망필요성 6 어휘의미론 (Lexical Semantics) 관점 의미관계 ( 상의어, 하의어, 반의어, 유의어, 부분 / 전체 ) 정립 의미자질을통한개념화 문장의미론 (Sentence Semantics) 관점 통사구조와의미구조분석 논항의의미제약 의미역 (thematic roles) 결정 Exo Brain 의기반지식 QA에서의질의유형, 정답유형판단 어휘의미의개념화 / 범주화 논항의의미제약 의미역기반 triple 구조의 knowledge 표현 다의어 WSD
한국어어휘의미망 7 부산대윤애선교수발표자료 (2008) 명칭 구축방식 ( 기반 ) 구축연도 구축기관 의미 / 개념 vs 어휘수 구축품사 KorLex 참조 (PWN) 2004- 현재부산대학교 126,653s/143,479w 명, 동, 형, 부, 분류사 한국어시소러스참조 (PWN) 1997-2000 포항공대 18,362s/ 21,390w 명 다국어 DB 참조 (EWN) 2000-2006 고려대민족문화연구소 5,500w 명 CoreNet 참조 (NTT) 1995-2004 KAIST 2,938n/ 62,632w 명, 동, 형 U-WIN 직접 ( 표준 ) 2002- 현재울산대학교 57,792s/ 430,000w 모든품사 세종전자사전직접 1998-2007 서울대학교 581n/540,000w 모든품사
KorLex 8 KorLex 규모 (2015. 5. 7 기준, () 는 2012. 3) 단위어형신셋어의 Korean WordNet 명사 동사 형용사 부사 계 106,294 17,962 41,107 7,806 174,350 (90,909) (17,957) (19,694) (3,032) (132,877) 101,869 17,075 18,582 3,668 142,571 (92,184) (16,937) (18,560) (3,651) (132,943) 121,216 20,346 51,896 9,047 203,882 (104,417) (20,151) (20,897) (3,123) (150,199) KorLex & 표준국어대사전 mapping 정의문연동 표준국어대사전 Korean WordNet 정의문연동정보 명사동사형용사부사계 74,446 12,225 19,274 3474 109,419 (67,938) (9,635) (17,639) (2,913) (99,291) 기타사전 363 226 2,540 73 3,202
U-WIN(User Word Intelligent Network) 9 U-WIN 의용언어휘망 U-WIN 의명사어휘망 물질 물건 먹이다 먹히다 사동관계 피동관계 먹다 상하관계 먹이 모이 액체 물 약 보약 먹을거리 음식물 오용어먹거리동의관계음식 마시다 높임말관계 방언관계 가루모이 날밥 음료수 식선 동의관계 가루붙이 음식 밥 찬선 반식 간식하다얻어먹다 맛보다 들다 잡수다자시다 묵다 옛말관계 동의관계방언관계 빌어먹다 맛 음석 차반 U-WIN 의부사어휘망 정도부사 아주 매우 몹시 U-WIN ver.1.0(2002 ~ 2007): 160,000 어휘 ( 수작업 ) 표준국어대사전뜻풀이 / 용례다의어태깅 (2008 ~2010) U-WIN ver.1.9 : 420,000 어휘 ( 다의어태깅사전, 2010)
상하관계를중심으로한분포 10 U-WIN 분포도 ( 전체 /Non-terminal node 수 ) 노드수 40,000 35,000 30,000 30,201 (9,793) 39,404 (12,082) 38,614 (11,256) 29,271 (9,080) 25,000 2,0000 18,147 (4,891) 15,000 10,000 5,000 0 25 1 2,355 (1,529) 11.271 (5009) 2 3 4 5 6 7 8 9 9,430 (2,450) 5,622 (1,193) 1,240 (334) 459 (112) 186 (26) 49 (8) 10 11 12 13 14 Depth
U-WIN 에서의의미관계 11 어휘의미관계 ( 다의어수준 ) 품사 동의어 (=, ) 반대말 비슷한말 준말본말낮춤말높임말 참고어휘 합계 명사 114,715 4,513 13,583 496 20 382 378 28,474 162,561 동사 12,702 1,474 10,942 0 141 6 21 3,165 28,451 형용사 1,463 443 1,317 170 46 3 1 2,451 5,894 부사 2,284 68 393 842 117 1 0 11,722 15,427 합계 131,164 6,498 26,235 1,508 324 392 400 45,812 212,333
뜻풀이및용례의미태깅 (1) 표준국어대사전뜻풀이태깅 다의어수준뜻풀이 : 587,833 다의어 / 동형이의어태깅대상어휘 : 107,306 뜻풀이태깅어휘수 : 3,610,106 표준국어대사전용례태깅 다의어 / 동형이의어태깅대상어휘 : 78,083 용례태깅어휘수 : 1,121,759 작업기간 : 2008 ~ 2010 사전 ( 어휘지식 ) 해독하는컴퓨터 동형이의어 / 다의어 WSD 의미역 triple 추출 개념화 => 어휘지도 38 가격 _010000 5 1 39 가격 _020000 1 40 가격 _030000 679 154 41 가결 _010000 6 2 42 가결 _030001 2 43 가결 _030002 1 45 가결의 _000001 2 46 가결의 _000002 2 48 가경 _040002 1 1 49 가경 _080000 1 50 가계 _010001 1 51 가계 _010002 1 52 가계 _030000 2 1 53 가계 _040000 1 54 가계 _050000 1 55 가계 _060000 23 3 56 가계 _080001 21 13 57 가계 _080002 1 1 58 가계 _100000 1 59 가곡 _010001 101 1 60 가곡 _010002 65 8 61 가공 _010001 493 15 62 가공 _010002 2 2 63 가공 _020000 1 64 가공 _040001 12 65 가공 _040002 2 2 70 가공하다 _010001 404 13 71 가공하다 _030000 1 7 72 가과 _010000 1 12
뜻풀이및용례의미태깅 (2) 13
뜻풀이및용례의미태깅 (3) 14
용언어휘망 : 하위범주화정보구축 15 (4) (1) (6) (5) (7) (2) (3)
부사어휘망 : 부사, 용언, 명사결합정보 16 뜻풀이 / 용례에서추출한부사 - 부사, 부사 - 용언
한국어어휘지도 (UWordMap) (1) 17 U-WIN 의용언어휘망 술목관계확장가능영역 + 구체성 + 형상성 U-WIN 의명사어휘망 + 행위성 + 대상성 + 생물성 물질 물건 마시다 먹이다 먹히다 사동관계 피동관계 간식하다얻어먹다맛보다 좋다 옛말관계 방언관계 둏다 빌어먹다 둏다 귀엽다 깜찍하다 어근관계 먹다 상하관계 술목관계 높임말관계 가루모이 먹이 모이 들다잡수다자시다 Constraint : 통사관계제약서술성명사관계 U-WIN 의부사어휘망 술부관계 맹랑하다 어근관계 정도부사 아주 매우 몹시 간식 부사 날밥 어근 방언관계 품사 묵다 액체 물 음료수 접두사 단위 언어단위 접사 약 보약 식선 동의관계 가루붙이 접미사 사례관계 먹을거리 음식물 맛 차반 음식 밥 옛말관계 겨레붙이 살붙이 피붙이 사례관계 동의관계 음석 음식 찬선 반식 방언관계 먹거리 동의관계 금붙이 쇠붙이 고기붙이 사례관계 깜찍 맹랑 붙이 _021 붙이 _022
한국어어휘지도 (UWordMap) (2) 18 품사 표준국어대사전 U-WIN ( 계층관계 ) 1 차년도 (14.03.24) UWordMap (Exo Brain Project) 2 차년도 (15.01.20) 3 차년도 (15.06.19) 명사 377,281 365,774 LCS 72,020 97,410 98,264 동사 90,237 73,694 29,345 46,410 51,336 형용사 21,618 16,853 4,653 7,709 12,438 부사 25,178 17,697 6,186 6,187 6,187 합계 514,314 474,018 123,823 157,718 168,225
한국어어휘지도 Browser (1) 19
한국어어휘지도 Browser (2) 20
한국어어휘지도 API 21 함수명 GetPS GetHyperWord GetHyperAllWord GetHypoWord GetNRelV GetVRelN GetRelSubCt GetSynSet GetAntSet GetDistance 설명 ( 단어 or 동형 ) 의다의어받아오기단어의 1레벨위의상위어받아오기다의어의모든상위어받아오기다의어의 1레벨아래의하위어받아오기해당용언과논항 ( 격조사 ) 으로관련된명사받아오기해당명사을논항 ( 격조사 ) 으로가지는용언받아오기용언과명사가연결된논항 ( 격조사 ) 받아오기다의어의동의어받아오기다의어의반의어받아오기다의어1과다의어2의거리받아오기 부사기준 API 추가예정 (2015) 어휘간유사도측정 ( 다양한 option 제공 )
Mapping UWordMap to WordNet(1) 22 표준국어대사전다의어의미를 WordNet Synset 으로의 mapping 전문용어, 방언제외한 239,000 다의어대상 KorLex-표준국어대사전 mapping 정보활용 ( 약 100,000 entry) 다의어별의미에맞는대역어 (NAVER 사전 ) WordNet synset Mapping 도구
Mapping UWordMap to WordNet(2) 23 다의어별의미에맞는대역어 (NAVER 사전 ) WordNet synset
Mapping UWordMap to WordNet(3) 24 Mapping 도구기능 Mapping 방법 : WordNet, 직접입력, WordNet+ 직접입력 작업자별통계 보류 검색 (2015.08.18 기준 )
의미역 (Semantic Role) (1) 25 세종의미역 15개 PropBank ArgN 최대 6개 ArgM 13개 ExoBrain 22 개 (2013 결정 ) 격조사의미분석 남승호기준 (16개) + 추가 (6개) 시간격 MANNER 목적 내용 정도 재료 세종전자사전 PropBank Exo-Brain 행위주 Agent 행동주 경험주 경험주 심리경험주 경험주 동반주 동반주 대상격 Theme 대상 처소격 LOC 처소 방향격 DIR 방향 도착격 착점 결과상태 착점 출발격 기점 도구격 INS 도구 영향주 Patient 피동주 기준치 비교기준 목적 목적 내용 내용 자격 TMP MNR 시간 방법 15 개 22 개
의미역 (Semantic Role) (2) 26 의미역 행동주 AGT 대상 THM 경험주 EXP 피동주 PAT 자극 STM 처소 LOC 기점 SRC 착점 GOL 원인 CAU 수혜자 BEN 경로 ROU 방향 DIR 목적 PUR 정도 DGR 재료 MAT 도구 INS 시간 TMP 비교기준 CRT 동반주 COM 내용 CNT 자격 ROL 방법 MNR 이, 가, 는, 은 께서, ( 이 ) 라서, 서 을, 를, ㄹ 더러, 보고 에 에게, 한테 에게로, 에게를, 한테로 에서 에게서, 에서부터, ( 으 ) 로부터, 한테서 에다가 에를, 에의, 에야 o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o o ( 으 ) 로 o o o o o o o o o ( 으 ) 로서 ( 으 ) 로써 보다, 처럼, 마따나 o o o o o o o o o o o o o o o 같이 와, 과, 하고, ( 이 ) 랑 고, ( 이 ) 라고 o o
의미역 (Semantic Role) (3) 27 UPropBank : 90,090 개 ( 다의어, 동사, 형용사 ) 의필수논항에의미역부여 문형이있는용언 : 41,518 (2013 년 ) 문형이없는용언 ( 자동사, 형용사 ) : 48,572 (2014 년 ) 표제어문형뜻풀이용례의미역부착격틀 감금되다 에 감금. 감금하다 을 에 감금. 감옥에감금되다. 독방에감금되다. 저녁이되자두죄인은좁고어두운방에감금되었다. 자식놈을곳간에감금해놓고아비꼴이어떤가. 사장은 운전수를이상한창고같은방속에감금해버리고는혼자그집안으로사라져버린다. X: 행동주 Z: 처소 - 에 X: 행동주 Y: 대상 - 을 Z: 처소 - 에 감급되다 으로 감급. X: 대상 Z: 정도 - 으로, 착점 감급하다 을 으로 감급. 직원들봉급을 100 만원에서 90 만원으로감급했다. X: 행동주 Y: 대상 - 을 Z: 착점 - 으로 감기다 020101 에 ' 감다 03[1]⑴' 의피동사. 감기다 020102 에 옷따위가몸을친친감듯달라붙다. 감기다 020103 감기다 020104 에 에 음식따위가감칠맛이있게착착달라붙다. 사람이나동물이달라붙어서떠나지아니하다. 감기다 020105 에 음식을너무먹어몸을가누지못하다. 왕거미의거미줄에풍뎅이가감기듯이그가그검은노끈에감기고있었다. 아이들은뛰어가면서발목에감기는개울물의감촉을미리부터즐긴다. 젖은치맛자락이맨살에감기는듯하다. 이불속에감겨있던몸이훌쩍문밖으로나서니추위는살을에는듯하였다. 며칠같이유하면서송도특유의맛깔스러운음식과집에서담근혀에감기는약주술로송별을겸해회포를풀기회를갖고싶어서청해본거였다. 큰아들이혀에착착감기는조청이라면작은아들은목구멍에걸린가시였다. 강아지가내옆에감겨서꼼짝도않는다. 손자가할머니다리에감겨떨어질줄을모른다. 유복이가여러날변변히먹지못하고굶주린끝에배불리먹고음식에감기어서길갈기운이없어졌다. X: 피동주 Z: 도구-에 X: 대상 Z: 착점-에 X: 대상 Z: 착점-에 X: 대상 Z: 착점-에 X: 피동주 Z: 원인-에 감기다 030000 을 ' 감다 01⑴' 의사동사. 눈을감기다. X: 행동주 Y: 대상 - 을 감기다 040000 을 ' 감다 02' 의사동사. 머리를감기다. 어머니는할머니의손톱과발톱도깎아드리고머리도감겨드렸다. 어머니는창포물에언니의머리를감기면서, 여자란머릿결이고와야용모가아름다운것이라고말씀하였다. X: 행동주 Y: 대상 - 을 감기다 050000 에게 을 ' 감다 03[1]' 의사동사. 어머니는아들에게헝클어진실을감겼다. X: 행동주 Z: 피동주 - 에게 Y: 대상 - 을
28 한국어의미처리시스템 (UTagger) 동형이의어 WSD(UTagger-HG) 의존관계분석 (UTagger-DP) 다의어 WSD(UTagger-PS) 의미역태깅시스템 (UTagger-SR) 개체명인식기 ( UTagger-NE)
의미처리 ( 어휘 WSD) 필요성 29 형태소분석오류 : 문맥반영못함 과도한음주로인해간이좋지않다 / 간이식당에서요기를했다 논이걸어서벼가잘자란다 / 옷을걸어서보관하다 / 걸어서하늘까지 그는칠주야를걸어서울에왔다 / 헤엄을칠줄아는 구문 / 의존관계분석시 Case frame ( 용언 ) 제공 주한미군철수땐일재무장초래 중국과깊이관계 너기저귀차고놀때나는공차고놀았다 전문용어 / 개체명, 합성어, 파생어의의미분석 한국전자통신연구원, 한국전자통신연구원 전기기록 : 前期 + 기록, 電氣 + 기록, 轉機 + 기록 내각제 ( 制 ), 추모제 ( 祭 ), 미국제 ( 製 ), 위염제 ( 劑 ) 표준국어대사전표제어 507,100 개중 125,152 개동형이의어 (25%)
UTagger 특징 (1) 30 학습말뭉치기반 세종형태의미부착말뭉치 : 11,116,320 어절 (339 파일 ) 세종원시말뭉치태깅 : 52,338,450 어절 (1,770 파일 ) 학습사전 자체개발파일DB 사용 CKMA : 형태소분석용, 인접형태소 / 품사전이확률 품사 / 동형이의어태깅용, 인접두어절간의전이 : biaf, bief, biff CKMA (Corpus-based Korean Morphology Analysis) 형태소분석 : 기분석어절의형태소간전이확률이용 ( 재현율 99.9%) 불규칙용언에대한분석 / 변형 / 복원규칙없음 체언류 / 용언류형태소분석루틴불필요 띄어쓰기오류어절분석 ( 주민들사이에, 그리기시작했으며, 박전대표위원 )
UTagger 특징 (2) 31 품사 / 동형이의어태깅 형태의미주석말뭉치에서 bigram 간의전이확률학습 ( 단계별적용 ) HMM 모델 (2012) SCP( 부분어절조건부확률 ) 모델 (2013) 복합명사 / 접미사동형이의어태깅 미등록어 / 신조어추정 CKMA 기반 사용자사전지원 사용자말뭉치문맥학습 (incremental learning) 기존기본말뭉치 학습기 기본학습사전 사용자말뭉치 사용자말뭉치 형태소분석기 분석결과 분석대상 ( 텍스트 )
단계별전이모델 & Viterbi 32 물을 가지러 간 사이 묻 _03/VV+ 을 /ETM 가지 /VV+ 러 /EC 가 /VV+ ㄴ /ETM 사이 _01/NNG 물 _01/NNG+ 을 /JKO 가 /VX+ ㄴ /ETM 사이 _02/NNG 물 _02/NNG+ 을 /JKO 갈 _01/VV+ ㄴ /ETM 사이 _03/NNG 갈 _02/VV+ ㄴ /ETM 간 _01/NNG POS/ 동형이의어동시 Tagging 형태소 /POS 간 _02/NNG biaa : 앞어절전체형태소, 뒷어절전체형태소 biad : 앞어절전체형태소, 뒷어절첫형태소 bild : 앞어절마지막형태소, 뒷어절첫형태소 논문참조 : 정보과학회논문지 39/5, 39/11 (2012)
UTagger option ( 대화형사용자용 ) 33
UTagger option ( 분석 option) 34 MEMORY 2000 // 학습사전을 load할 memory 양 (KByte), 많을수록빠름 HLX_DIR..\ 학습사전 \ // 학습사전폴더 cache 100000 // 캐쉬사용량조절. 윈도우는 100000 권장. 리눅스유닉스는 0 권장 hanja_to_hangul 0 // 입력한자처리한자그대로 (0), 한글로변환 (1) depen // 의존관계분석시용언의의미제약 (UWordMap) 사용 tag_poly_uwm 1 // 다의어태깅 Noun_Attribute 0 // 복합명사분해시속성정보사용여부미사용 (0), 사용 (1) analyzemore 0 // 고유명사분해할최소음절 (3), 고유명사추가분해안함 (0) analyzemorenng 1 // 고유명사분해시, 일반명사도적용 ( 분해할최소음절적용 ) analyzemoreminifreq 5 // 복명명사분해할경우, 분해된구성명사의최소출현빈도 separate_compound 0 // 사전등재복합명사 (A^B, A-B 유형 ) 추가분해여부 Light 2 // CKMA 분석방법 ( 정확률-속도 ): 가장느림 (0), 약간느림 (1), 빠름 (2) tagging 2 // 형태소분석 (CKMA) 만 (0), HMM태깅 (1), SCP태깅 (2) usead 0 // HMM태깅 : 앞어절전체형태소, 뒤어절의첫형태소 useld 0 // HMM태깅 : 앞어절마지막형태소, 뒤어절의첫형태소 useaf 1 // SCP태깅 : 앞어절전체, 뒤어절의첫 2개음절 useef 1 // SCP태깅 : 앞어절의마지막 2개음절, 뒤어절의첫 2개음절 recursive 1 // 띄어쓰기오류재귀분석 probability_equation 0 // 전이확률계산시확률식으로계산 ( 정확률조금낮아짐 )
UTagger option ( 출력 option) 35 TAG_STYLE 0 // 울산대 / 세종태그 (0), ETRI 태그 (1) hadaverb 0 // 서술형명사용언어간형 (0), 어근형 (1) print_sense_num 1 // 태깅결과출력시어깨번호출력안함 (0), 동형이의어 (1) hangul_to_hanja 0 // 한자변환안함 (0), 변환 (1), 병기 (2) hanjalevel 0 1 2 3 4 5 6 7 8 // 한자변환 / 병기시출력할한자능력검정급수 one_length_hanja_word_no_trans 1 // 1음절한자어변환여부변환 (0), 미변환 (1) ucs2le 1 // 한자출력시유니코드출력안함 (0), 출력 (1) hanja_ucs2 1 // ucs2le=1 일때나라별한자한국ANSI(0), 한국 (1), 대만 (2), 중국 (3), 일본 (4) CATE 1 // 의미매핑정보출력 ( 대화식 ) 없음 (0), 한자-뜻풀이 (1), 의미범주 / 상위어 (2) print_end_empty_line 1 // 줄단위로모든출력이끝나면마지막에빈줄을출력한다. print_original_sentence 0 // 입력문장을출력여부. 안함 (0), 출력 (1) print_one_line_sentence 1 // 태깅결과를한줄로출력. 안함 (0), 출력 (1) print_ex 3 // 태깅결과출력안함 (0), 한줄에한어절 (3) print_depen 1 // 의존관계출력여부안함 (0), 출력 (1), 규칙포함 (2) print_guess_line 0 // 미학습어절별도출력여부안함 (0), 출력 (1) preserve_spliter 1 // 입력문장에서어절사이에띄어쓰기모양유지여부안함 (0), 유지 (1) preserve_newline 1 // 입력빈줄출력여부안함 (0), 유지 (1) debug_msg 1 // 콘솔로실행시각종디버깅용메세지를출력. 0안함. 1사용
UTagger 성능평가 (1) 36 형태소분석 tagging 2010 년 2012 년 2013 년 규칙기반 (icma) HMM 학습기반 (CKMA) HMM (AD,LD) 정확률 88.93% 96.49% 학습사전 : 세종형태의미말뭉치 1 천만어절대상, 약 1G 학습기반 (CKMA) SCP (AF,EF,FF) 96.37% (2013) 96.53%(2015) 속도 (full option) 180sec 42.6sec 25.7sec 공유메모리지원안함지원지원 띄어쓰기오류처리 복합명사의미분석 처리못함 기분석어절포함된경우분석 기분석어절포함된경우분석 못함분석 ( 접사포함 ) 분석 ( 접사포함 ) Code ( 한자 ) KS5601 KS5601 Unicode
UTagger-HM 성능평가 (2) 단어눈손말거리바람 동형이의어 /POS 학습사전출현빈도 10% 정답 UTagger 태깅 정답률 눈 01/NNG 12,455 1,236 1,244 100.56% 눈 04/NNG 1,379 141 133 94.33% 소계 13,834 1,377 1,377 100.0% 손 01/NNG 9,209 925 928 100.32% 손 05/NNB 3 1 0 0.00% 손 08/NNP 188 18 18 100.0% 손 09/NNG 27 1 2 20.0% 소계 9,427 945 948 100.32% 말 01/NNG 34,136 3,337 3,337 100.0% 말 03/NNB 118 7 6 85.71% 말 05/NNG 584 57 58 101.75% 말 07/NNG 2 1 1 100.0% 말 11/NNB 2,723 219 262 119.63% 소계 37,563 3,621 3664 101.19% 거리 01/NNG 2,056 220 210 99.55% 거리 02/NNB 339 31 31 100.0% 거리 04/NNB 14 1 1 100.0% 거리 08/NNG 1,491 152 153 100.66% 소계 3,900 404 395 97.77% 바람 01/NNB 1,222 128 125 97.66% 바람 01/NNG 3,468 357 363 101.68% 바람 02/NNG 120 10 7 70.0% 소계 4,810 495 495 100.0% 자리의사점밤목 자리 01/NNG 7,589 717 723 100.84% 자리 02/NNG 94 12 6 50.0% 소계 7,683 729 729 100.0% 의사 02/NNG 1,018 108 107 99.07% 의사 03/NNG 66 6 6 100.0% 의사 04/NNG 1 1 1 100.0% 의사 09/NNG 3 1 1 100.0% 의사 11/NNG 6 2 2 100.0% 의사 12/NNG 1,754 183 184 100.55% 의사 14/NNG 24 1 1 100.0% 소계 2,872 302 302 100.0% 점 02/NNG 7 1 1 100.0% 점 03/NNG 86 9 9 100.0% 점 10/NNB 1,557 237 154 64.98% 점 10/NNG 9,861 942 1,025 108.81% 소계 11,491 1,189 1,189 100.0% 밤 01/NNG 5,388 494 494 100.0% 밤 02/NNG 124 17 17 100.0% 소계 5,512 511 511 100.0% 목 01/NNG 1,968 188 189 100.53% 목 09/NNG 3 1 1 100.0% 목 10/NNG 65 7 7 100.0% 목 12/NNG 3 1 1 100.0% 목 13/NNG 9 1 1 100.0% 목 14/NNG 13 2 0 0.0% 37 소계 2,061 200 199 99.5%
UTagger-DP( 의존관계분석 ) (1) 38 문장구성성분의의존관계분석 UTagger-HM 의분석결과이용 : 동형이의어분별 동형이의어용언의문형정보활용 차 01/VV : 에 으로 독에물이차다 차 02/VV : 을 공을차다 / 혀를차다 차 03/VV : 에 을 허리에칼을차다 차 04/VA : 성격이차고매섭다 / 바람이차다 서술성명사 중국과깊이관계한협상은 중국 01/NNP+ 과 /JKB 깊이 02/MAG 관계하 /VV+ ㄴ /ETM 협상 01/NNG+ 은 /JX 중국과깊이관계 중국 01/NNP+ 과 /JKB 깊이 02/MAG 관계 05/NNG?? 규칙기반정확률 : 85.53% ( 의존관계로변환된세종구문분석말뭉치대상 ) 기계학습기반의존관계분석 (2015) : 정확률??.??% > 87%
UTagger-DP( 의존관계분석 ) (2) UTagger-DP (ver. 0.9)
UTagger-DP( 의존관계분석 ) (3) 40 규칙기반정확률 : 85.53% ( 의존관계로변환된세종구문분석말뭉치 ) 규칙번호 정답 오답 규칙적용 전체비율 정확률 rule_1 3,801 1 3,802 1.02 99.97 rule_2 46,134 380 46,514 12.49 99.18 rule_3 2,816 516 3,332 0.89 84.51 rule_4 55,565 10,330 65,895 17.70 84.32 rule_5 7,685 2,360 10,045 2.70 76.51 rule_6 8,832 192 9,024 2.42 97.87 rule_7 392 4 396 0.11 98.99 rule_8 454 21 475 0.13 95.58 rule_9 34,008 5,106 39,114 10.51 86.95 rule_10 518 0 518 0.14 100.00 rule_11 2,124 131 2,255 0.61 94.19 rule_12 494 497 991 0.27 49.85 rule_13 47,941 579 48,520 13.03 98.81 rule_14 16,089 2,876 18,965 5.09 84.84 rule_15 29,330 2,392 31,722 8.52 92.46 rule_16 6,435 892 7,327 1.97 87.83 rule_17 211 2 213 0.06 99.06 rule_18 2,597 472 3,069 0.82 84.62 rule_19 0 0 rule_20 402 200 602 0.16 66.78 rule_21 2,455 691 3,146 0.84 78.04 규칙번호 정답 오답 규칙적용 전체비율 정확률 rule_22 3,203 1,575 4,778 1.28 67.04 rule_23 695 107 802 0.22 86.66 rule_24 783 742 1,525 0.41 51.34 rule_25 468 152 620 0.17 75.48 rule_26 1,236 496 1,732 0.47 71.36 rule_27 10,145 3,919 14,064 3.78 72.13 rule_28 11 2 13 0.00 84.62 rule_29 8,334 7,380 15,714 4.22 53.04 rule_30 2,470 577 3,047 0.82 81.06 rule_31 510 108 618 0.17 82.52 rule_32 1,599 1,021 2,620 0.70 61.03 rule_33 2,048 569 2,617 0.70 78.26 rule_34 508 348 856 0.23 59.35 rule_35 691 167 858 0.23 80.54 rule_36 3,001 1,301 4,302 1.16 69.76 rule_37 0 0 rule_38 82 47 129 0.03 63.57 rule_39 491 101 592 0.16 82.94 rule_40 13,904 7,602 21,506 5.78 64.65 total 318,462 53,856 372,318 100.00 85.53 UTagger 오류 3,605
UTagger-PS( 다의어 WSD) (1) 41 의미분석과정 다의어의미분석시작 밥 의상위탐색 형태소분석 동형이의어분석 입력 : 밥을먹다. 밥을먹다 용언앞의논항추출 1 밥 (?) 이없음 2 확장탐색 UWordMap 과비교를통한다의어별가중치측정 논항별어휘망내의위치 먹다 의 [ 을 ] 의논항 _020101 다의어결정 다의어의미분석완료 41
UTagger-PS( 다의어 WSD) (2) UTagger-PS (ver. 0.5) 동형이의어분별후어휘지도상에서 용언-명사 발견 의존관계사용하지않음 용언의왼쪽, 오른쪽어절에대해다른가중치적용
UTagger-PS( 다의어 WSD) (3) 43 전체다의어대상실험 (2015.03.05) 표준국어대사전에서용언을포함하는용례대상 : 210,426 문장 현재의어휘지도구축현황 (18 쪽참고 ) 명사부사동사형용사합계 정답 572,182 74,292 337,613 88,567 1,072,654 Base line 430,660 48,170 175,440 40,307 694,577 ( 첫번째다의어 ) (75.27%) (64.84%) (51.96%) (45.51%) (64.75%) 어휘지도를이용한 418,873 47,586 191,799 43,640 710,898 다의어 WSD (73.21%) (64.05%) (56.81%) (49.27%) (65.44%)
UTagger-SR (UPropBank 기반의미역부착도구 ) (1) 44 의미역부착말뭉치구축 (31 개파일, 2014) 세종구구조부착말뭉치를의존구조로변경 수작업으로의미역부착 개별의미역통계 용언별로격조사-의미역통계 전체서술어개수 240,747 의미역부착서술어개수 181,404 UPropBank 다의어수준, 90,090 용언 동형이의어수준으로의미역통합 행동주 (AGT) 48,150 경험주 (EXP) 3,085 피동주 (PAT) 5,095 동반자 (COM) 3,073 대상 (THM) 129,919 기점 (SRC) 8,200 착점 (GOL) 20,718 처소 (LOC) 12,197 자극 (STM) 412 원인 (CAU) 3,519 비교기준 (CRT) 6,404 시간 (TMP) 6,946 정도 (DGR) 3,583 방법 (MNR) 7,652 자격 (ROL) 1,741 재료 (MAT) 341 도구 (INS) 2,975 경로 (ROU) 250 방향 (DIR) 2,291 수혜자 (BEN) 1,289 내용 (CNT) 7,910 목적 (PUR) 548
UTagger-SR (UPropBank 기반의미역부착도구 ) (2) 45
UTagger-SR (UPropBank 기반의미역부착도구 ) (3) 46 실험결과 65,529개문장 59,257개문장격조사-용언별의미역통계 6,272개문장실험 방법태깅정답수의미역수정확률 (%) UPropBank & 후보 1 개 5,548 7,106 78.08 후보 2 개이상이거나없을때, 격조사별의미역빈도 후보 2 개이상이거나없을때, 격조사 - 용언별의미역빈도 후보 2 개이상이거나없을때, 뒤서술어에대해서격조사 - 용언별의미역빈도 7,390 10,668 69.27 7,891 11,191 70.51 7,882 10,901 72.31
UTagger-NE ( 개체명인식기 ) (1) 47 의미범주 : ETRI 대분류 + UWordMap 의상위노드참조 (13 개범주 ) 범주명 의미 범주명 의미 [PER] 사람 [ACC] 정도 [KNW] 지식 [ACT] 활동 [MAT] 물질 [ANM] 동물 [CHR] 성질 [PNT] 식물 [ORG] 조직 [REL] 관계 [SPC] 공간 [ETC] 기타 [TME] 시간
UTagger-NE ( 개체명인식기 ) (2) 48 UTagger-NE (ver. 1.0) 사용자의미범주정의기능 신경회로망기반학습 자동태깅및수정
UTagger-NE ( 개체명인식기 ) (3) 49 실험 (PLO) 결과 문서 PER ORG LOC 소계 정확률 (%) 신문1 172/195 135/194 125/150 432/539 80.15 신문2 42/52 134/142 349/372 525/566 92.76 신문3 109/133 146/165 522/591 777/889 87.40 백과사전1 111/122 206/236 221/261 538/619 86.91 백과사전2 134/138 412/417 126/133 672/688 97.67 소설1 225/237 4/5 59/81 288/323 89.16 소설2 33/34 2/2 81/89 116/125 92.80 소설3 65/67 7/8 21/35 93/110 84.55 합계 891/978 1,046/1,169 1,504/1,712 3,441/3,859 정확률 (%) 91.10 89.48 87.85 89.17
추가연구 (2015) 50 향상된의존관계파서를적용 용언과논항의관계를보다정확히파악 어휘지도활용 미학습동형이의어태깅 의존관계분석시의미제약 의미역태깅 의미범주 다의어분석대상확대 ( 동사, 형용사 ) + 명사 수의논항에의한 WSD 방법 50
한국어처리시스템 U Series 51 UTagger-HM (96.6%) ~ 2013 동형이의어 WSD UTagger-DP (90%) ~ 2015 UCorpus - 품사주석 (1억어절 ) - 동형이의어주석 (6천) - 의존관계주석 (1천) - 개체명 / 범주주석 - 의미역주석 (1천) 다의어 WSD/SRL UTagger-SR (85%) ~ 2016 NER UKnowl (100M) ~2018 UWordMap
현재의정확률을 2% 개선시키기위해서는... 52 Lexical Semantics WSD, NER Sentence Semantics Parser, SRL 하나의형태소가문맥에따라여러개의의미로해석될때, 하나의의미를결정 Homograph WSD Polysemy WSD Named Entity Recognition Lexical Semantic Network 문장내의술어 - 논항 (predicateargument) 관계에적합한의미관계 (Semantic Role) 를결정 Subcategorization Semantic Restriction Semantic Role Labeling Ontology & Inference
시연 53 연구실홈페이지 : http://nlplab.ulsan.ac.kr DEMO WordsMap Browser http://klplab.ulsan.ac.kr:8080/uwin_nrel.jnlp : UWIN전체대상 http://youtu.be/be3gtug6gn8 형태소 / 동형이의어태깅시스템 (UTagger-HM) http://nlplab.ulsan.ac.kr:8080/kmaclient/kmaclient.jsp (WEB용) 한자자동변환시스템 http://hanjaro.juntong.or.kr/ 다의어 WSD http://youtu.be/glv2dnq_xt8 아래한글에 UTagger-HM addon http://youtu.be/ibhy7okbo98 UTagger-SR ( 격틀사전기반의미역부착도구 ) https://youtu.be/8agqnre71n4 UTagger-NE ( 개체명인식기 ) https://www.youtube.com/watch?v=bgxoxn_a4n8&feature=youtu.be
맺음말 54 Q & A okcy@ulsan.ac.kr 052-259-2222 (010-2561-5830) 울산대학교한국어처리연구실 / 지능형컴퓨터연구실 http://nlplab.ulsan.ac.kr