: Natra Langage Processing Lab 한국어 ELMo 모델을이용한의미역결정 박찬민, 박영준 Sogang_Azzam Naver NLP Chaenge 서강대학교자연어처리연구실
목차 서론 제안모델 실험 결론 2
서론 의미역결정이란? 문장의술어를찾고, 그술어와연관된논항들사이의의미관계를결정하는문제 논항 : 의미역이부여된각명사구의미역 : 술어에대한명사구의의미역할 누가, 무엇을, 어떻게, 왜 등의의미관계를찾아내는작업 ARG0 ARG1 네이버가리멤버를인수한다고발표했다. ARG0 ARG1 3
서론 의미역결정문제를순차레이블링문제로간주 Step1) 서술어인식 / 분류 O O P1 P1 네이버가리멤버를인수한다고발표했다. Step2) 논항인식 / 분류 인수한다고 의논항 발표했다 의논항 ARG0 ARG1 P1 O ARG0 O ARG1 P1 네이버가리멤버를인수한다고발표했다. 네이버가리멤버를인수한다고발표했다. 4
서론 입력문장전체에대한논항인식 / 분류모델사용 5
제안모델 제안모델 Bi-LSTM-CRFs ELMo 패러디극화는뛰어나도그원작을본사람들은수긍이어렵다는게장점이다. 6
제안모델 Bi-LSTM-CRFs 순차레이블링문제에서우수한성능을보이는딥러닝모델 문장의양방향어순을모두사용 문장의언어적특성을고려한모델 출력태그간의존성을고려하기위해 otpt ayer 에 CRF 적용 7
제안모델 Bi-LSTM-CRFs ( 의미역결정 ) 입력어절에대한임베딩 형태소임베딩품사태그임베딩음절포지션인코딩음절임베딩 ELMo 임베딩 ( 학습시, fine-tning 되지않음 ) - 첫번째형태소의 ELMo 임베딩 - 마지막형태소의 ELMo 임베딩 8
제안모델 어절임베딩 -> 형태소임베딩의조합으로어절표현 -> 4 개의형태소를결합 (concatenate) 하여사용 1) 한개의형태소로구성된어절 2) 두개의형태소로구성된어절 3) 세개의형태소로구성된어절 9
제안모델 어절임베딩 -> 품사태그임베딩의조합으로어절표현 -> 4 개의품사태그를결합 (concatenate) 하여사용 1) 한개의형태소로구성된어절 2) 두개의형태소로구성된어절 3) 세개의형태소로구성된어절 10
제안모델 ELMo(Embedding From Langage Mode) 문맥정보를포함하고있는임베딩 Bi-LSTM Langage Mode Highway LSTM 사용 LM의 Hidden state 를 weighted sm하여사용 한국어 ELMo 형태소단위입출력구조 입력형태소는음절단위로분리되어 CNN 을거쳐입력으로사용됨 다음단어로품사태그가포함된형태소예측 11
제안모델 한국어 ELMo 약 16GB 뉴스데이터를형태소분석하여사용 (Komoran 형태소분석기 ) -> perpexity : 약 8.xx 의미역결정학습 / 검증데이터를사용하여 fine-tning -> SRL perpexity : 약 1.xx -> NER perpexity : 약 2.xx 다음과같은 symbo 을사용한데이터전처리작업 <bos> : begin of sentence. <eos> : end of sentence. <bow> : begin of word. <eow> : end of word. 1024 차원의 ELMo embedding 사용 12
제안모델 Bi-LSTM-CRFs ( 의미역결정 ) 입력어절에대한임베딩 형태소조합임베딩품사태그조합임베딩음절포지션인코딩음절임베딩 ELMo 임베딩 ( 학습시, fine-tning 되지않음 ) - 첫번째형태소의 ELMo 임베딩 - 마지막형태소의 ELMo 임베딩 13
제안모델 Bi-LSTM-CRFs ( 개체명인식 ) 입력어절에대한임베딩 형태소임베딩품사태그임베딩음절포지션인코딩음절임베딩 ELMo 임베딩 ( 학습시, fine-tning 되지않음 ) - 첫번째형태소의 ELMo 임베딩 - 마지막형태소의 ELMo 임베딩개체명사전자질 ( 챌린지배포사전 ) 14
실험 실험데이터 Komoran 형태소분석기사용 의미역결정 학습데이터 : 31,856 문장검증데이터 : 3,000 문장 개체명인식 학습데이터 : 81,000 문장검증데이터 : 9,000 문장 15
실험 하이퍼파라미터 단어임베딩 음절임베딩품사임베딩 100 차원 (Xavier init) 50 차원 (Xavier init) ELMo 사이즈 1024차원 LSTM 사이즈 200차원 LSTM 레이어 1 드랍아웃 0.7 배치사이즈 32 최적화알고리즘 Adam Learning rate 0.001 16
실험 성능비교 의미역결정 Dev F1 Test F1 Bi-LSTM-CRFs 77.3 75.9 BI-LSTM-CRFs + ELMo. 78.1 77.6 17
실험 의미역결정 (SRL) 18
실험 개체명인식 (NER) 19
실험 그외추가실험 Sef-attention Mti-head attention 을 RNN 의 otpt ayer 에적용한모델 Tan, Zhixing, et a. "Deep semantic roe abeing with sef-attention." AAAI-2018. 20
실험 그외추가실험 Highway-LSTM Resida connection의일종 Vanishing gradient를해결하기위해제안된 LSTM ce 비선형변환을거친결과 (otpt) 와거치지않은결과 (raw inpt) 를 gate 연산을통해계산 He, Lheng, et a. "Deep semantic roe abeing: What works and what s next." Proceedings of the 55th Anna Meeting of the Association for Comptationa Lingistics (Vome 1: Long Papers). Vo. 1. 2017. 21
실험 그외추가실험 Affix featres 학습데이터에서빈도수가높은접두사 / 접미어를추출하여 vocabary 생성입력형태소 / 어절에대한접두사 / 접미어를추출하여임베딩학습 Yadav, Vikas, Rebecca Sharp, and Steven Bethard. "Deep Affix Featres Improve Nera Named Entity Recognizers." Proceedings of the Seventh Joint Conference on Lexica and Comptationa Semantics. 2018. 22
결론 결론 한국어특성에적합한 ELMo 모델학습 사전학습된 ELMo 를의미역결정, 개체명인식에적용하여성능향상 향후계획으로한국어 ELMo 학습시, 품사태그정보를활용한모델을실험예정 23
QnA 새해복많이받으세요. 감사합니다. 24