딥러닝 기반의 자연어처리 기술 강원대학교 IT대학 이창기
차례 자연어처리소개 딥러닝소개 딥러닝기반의자연어처리 Classification Problem Sequence Labeling Problem Sequence-to-Sequence Learning Pointer Network Machine Reading Comprehension
자연어처리 자연언어 인공언어에대응되는개념 인공언어 : 특정목적을위해인위적으로만든언어 (ex. 프로그래밍언어 ) 자연언어에비해엄격한구문을가짐 특정집단에서사용되는모국어의집합 한국어, 영어, 불어, 독일어, 스페인어, 일본어, 중국어등 자연언어처리 (Natural Language Processing) 컴퓨터를통하여인간의언어를이해하고처리하는학문분야 기계번역, 자동통역, 정보검색, 질의응답, 문서요약, 철자오류수정등 Google, Naver, IBM Watson, Apple Siri,
자연언어분석단계 자연언어문장 형태소분석 (Morphological Analysis) 구문분석 (Syntax Analysis) 의미분석 (Semantic Analysis) 형태소분석 : 감기는 의결과 감기 ( 명사 :cold) + 는 ( 조사 ) 감 ( 동사어간 ) + 기 ( 명사화어미 ) + 는 ( 조사 ) 감 ( 동사어간 ) + 기는 ( 어미 ) 구문분석 : Structural Ambiguities Time flies like light 2가지이상 tree A man see a woman with a telescope 2가지이상 tree NP S VP N N V 나는 사과를 먹었다 sub obj 나는사과를먹었다 화용분석 (Pragmatic Analysis) 분석결과 의미분석 : 말이많다 말 : horse or speech? 화용분석 : A 씨는 B 씨는 그는 그 : A or B? 4
자연어처리특징 Natural languages are ambiguous Rule Classification (Maximum Entropy, SVM) Deep Learning NLP datasets are high dimensional One-hot representation Continuous representation (Word Embedding) Many NLP problems can be viewed as sequence labeling tasks Hidden Markov Model(HMM) Conditional Random Fields (CRF) Deep Learning (RNN) Many NLP problems can be posed as sequence-to-sequence tasks Rule Statistical Machine Translation Neural MT 감기는 감기 ( 명사 ) or 감다 ( 동사 ) + 기 말이많다 말 = horse or speech? A 씨는 B 씨는 그는 그 : A or B? Ex. [0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0] Dimensionality 50K (PTB) 500K (big vocab) 3M
차례 자연어처리소개 딥러닝소개 딥러닝기반의자연어처리 Classification Problem Sequence Labeling Problem Sequence-to-Sequence Learning Pointer Network Machine Reading Comprehension
Why Deep Neural Networks?: Integrated Learning 기존기계학습방법론 Handcrafting features time-consuming Deep Neural Network: Feature Extractor + Classifier < 겨울학교 14 Deep Learning 자료참고 > 7
Why Deep Neural Networks?: Unsupervised Feature Learning 기계학습에많은학습데이터필요 소량의학습데이터 학습데이터구축비용 / 시간 대량의원시코퍼스 (unlabeled data) Semi-supervised, Unsupervised Deep Neural Network Pre-training 방법을통해대량의원시코퍼스에서자질학습 Restricted Boltzmann Machines (RBM) Stacked Autoencoder, Stacked Denosing Autoencoder Word Embedding (for NLP) 8
텍스트의표현방식 NLP datasets are high dimensional One-hot representation (or symbolic) Ex. [0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0] Dimensionality 50K (PTB) 500K (big vocab) 3M (Google 1T) Problem Motel [0 0 0 0 0 0 0 0 1 0 0] AND Hotel [0 0 0 0 0 0 1 0 0 0 0] = 0 Continuous representation Latent Semantic Analysis, Random projection Latent Dirichlet Allocation, HMM clustering Neural Word Embedding Dense vector By adding supervision from other tasks improve the representation
Neural Network Language Model (Bengio0 0,03) Idea A word and its context is a positive training sample A random word in that same context negative training sample Score(positive) > Score(neg.) Training complexity is high Hidden layer output Softmax in the output layer Hierarchical softmax Negative sampling Ranking(hinge loss) LT: V *d, Input(one hot): V *1 LT T I Shared weights = Word embedding Input Dim: 1 Dim: 2 Dim: 3 Dim: 4 Dim: 5 1 (boy) 0.01 0.2-0.04 0.05-0.3 2 (girl) 0.02 0.22-0.05 0.04-0.4
Word2Vec: CBOW, Skip-Gram Remove the hidden layer Speedup 1000x Negative sampling Frequent word sampling Multi-thread (no lock) Continuous Bag-of-words (CBOW) Predicts the current word given the context Skip-gram Predicts the surrounding words given the current word CBOW + DropOut/DropConnect Shared weights
한국어 Word Embedding: NNLM Data 세종코퍼스원문 + Korean Wiki abstract + News data 2 억 8000 만형태소 Vocab. size: 60,000 모든형태소대상 ( 기호, 숫자, 한자, 조사포함 ) 숫자정규화 + 형태소 /POS: 정부 /NNG, 00/SN NNLM model Dimension: 50 Matlab 구현 학습시간 : 16 일
한국어 Word Embedding: Word2Vec(CBOW) Data 2012-2013 News + Korean Wiki abstract: 9GB raw text 29억형태소 Vocab. size: 100,000 모든형태소대상 ( 기호, 숫자, 한자, 조사포함 ) 숫자정규화 + 영어소문자 + 형태소 /POS Word2Vec 모델 : CBOW > SKIP-Gram 학습시간 : 24분
Recurrent Neural Network Many NLP problems can be viewed as sequence labeling or sequence-to-sequence tasks Recurrent property dynamical system over time
Bidirectional RNN Exploit future context as well as past
Long Short-Term Memory RNN Vanishing Gradient Problem for RNN LSTM can preserve gradient information
Gated Recurrent Unit (GRU) r t = σ W xr x t + W hr h t 1 + b r z t = σ W xx x t + W hz h t 1 + b z h t = φ W xh x t + W hh r t h t 1 + b h h t = z t h t + 1 z t y t = g(w hy h t + b y ) h t
차례 자연어처리소개 딥러닝소개 딥러닝기반의자연어처리 Classification Problem Sequence Labeling Problem Sequence-to-Sequence Learning Pointer Network Machine Reading Comprehension
전이기반의한국어의존구문분석 Transition-based(Arc-Eager): O(N) 의존구문분석 분류문제 SBJ MOD OBJ 예 : CJ 그룹이 1 대한통운 2 인수계약을 3 체결했다 4 [root], [CJ 그룹이 1 대한통운 2 ], {} 1: Shift [root CJ그룹이 1 ], [ 대한통운 2 인수계약을 3 ], {} 2: Shift [root CJ그룹이 1 대한통운 2 ], [ 인수계약을 3 체결했다 4 ], {} 3: Left-arc(NP_MOD) [root CJ그룹이 1 ], [2 인수계약을 3 체결했다 4 ], {( 인수계약을 3 대한통운 2 )} 4: Shift [root CJ그룹이 1 2 인수계약을 3 ], [ 체결했다 4 ], {( 인수계약을 3 대한통운 2 )} 5: Left-arc(NP_OBJ) [root CJ그룹이 1 ], [3 체결했다 4 ], {( 체결했다 4 인수계약을 3 ), } 6: Left-arc(NP_SUB) [root], [(1,3) 체결했다 4 ], {( 체결했다 4 CJ그룹이 1 ), } 7: Right-arc(VP) [root 4 (1,3) 체결했다 4 ], [], {(root 체결했다 4 ), }
딥러닝기반한국어의존구문분석 ( 한글및한국어 14) Transition-based + Backward O(N) 세종코퍼스 의존구문변환 보조용언 / 의사보조용언후처리 Deep Learning 기반 ReLU(> Sigmoid) + Dropout Korean Word Embedding NNLM, Ranking(hinge, logit) Word2Vec Feature Embedding POS (stack + buffer) 자동분석 ( 오류포함 ) Dependency Label (stack) Distance information Valency information Mutual Information 대용량코퍼스 자동구문분석 Input Word S[w t-2 w t-1 ] B[w t ] Word Lookup Table LT 1 LT N Linear M 1 x M 2 x ReLU Linear Input Feature f 1 f 2 f 3 f 4 Feature Lookup Table LT 1 LT D concat h #output
한국어의존구문분석실험결과 기존연구 : UAS 85~88% Structural SVM 기반성능 : UAS=89.99% LAS=87.74% Pre-training > no Pre. Dropout > no Dropout ReLU > Sigmoid MI feat. > no MI feat. Word Embedding 성능순위 1. NNLM 2. Ranking(logit loss) 3. Word2vec 4. Ranking(hinge loss)
한국어상호참조해결 상호참조 (Coreference) 문서내에서이미언급된객체에대하여표현이다른단어로다시언급하는것 Mention: 상호참조해결의대상이되는모든명사구 ( 즉, 명사, 복합명사, 수식절을포함한명사구등 ) 를의미 Entity: 상호참조가해결된 Mention 들의집합 Mention Detection 예제 [[ 고양 ] 에서발생한용오름 ] 은 [ 토네이도 ] 와같은것으로 [[[ 지상 ] 의뜨거운공기 ] 가 [[ 상층 ] 의찬공기 ] 와갑자기섞일때 ] 발생합니다. [ 뜨거운공기 ] 가빠르게상승하고 [ 찬공기 ] 는하강하면서 [[ 길다란기둥 ] 모양의구름 ] 이생겨나고 [[ 그 ] 안 ] 에서격렬한 [ 회오리바람 ] 이부는겁니다. Entity 예제 [ 지상의뜨거운공기 ], [ 뜨거운공기 ] [ 상층의찬공기 ], [ 찬공기 ] [ 길다란기둥모양의구름 ], [ 그 ]
딥러닝기반한국어상호참조해결 (KCC 15, ETRI Journal 16) 딥러닝기반 Mention-Pair model 상호참조해결 분류문제 Korean word embedding + feature embedding (SVM 과동일 ) Dropout + ReLU Data set 성능 Test: 뉴스 1~20 문서 Training: 뉴스 21~100 문서, 장학퀴즈 QA 153 개 Deep Learning (MUC F1): 69.62% No pre-training: F1 65.8% SVM (MUC F1): 60.46% Input Word Mention Pair: w i, w j LT 1 LT K Word Lookup Table M 1 x Linear ReLU concat Input Feature f 1 f 2 f 3 LT 1 f 4 Feature Lookup Table LT D h Linear M 2 x #output
차례 자연어처리소개 딥러닝소개 딥러닝기반의자연어처리 Classification Problem Sequence Labeling Problem Sequence-to-Sequence Learning Pointer Network Machine Reading Comprehension
Sequence Labeling Tasks: CRF, FFNN(or CNN), CNN+CRF (SENNA) y(t-1) y(t ) y(t+1) Features x(t-1) x(t ) x(t+1) y(t-1) y(t ) y(t+1) y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1) Word embedding x(t-1) x(t ) x(t+1) Word embedding
RNN + CRF Recurrent CRF y(t-1) y(t ) y(t+1) y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1) x(t-1) x(t ) x(t+1) y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1)
LSTM RNN + CRF LSTM-CRF (KCC 15) y(t-1) y(t ) y(t+1) y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1) x(t-1) x(t ) x(t+1) y(t-1) y(t ) y(t+1) f (t ) h(t-1) h(t ) h(t+1) i (t ) o(t ) x(t-1) x(t ) x(t+1) x(t ) C(t) h(t )
LSTM-CRF y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) i t = σ W xi x t + W hi h t 1 + W ci c t 1 + b i f t = σ W xf x t + W hf h t 1 + W cf c t 1 + b f x(t-1) x(t ) x(t+1) c t = f t c t 1 + i t tanh W xc x t + W hc h t 1 + b c o t = σ W xo x t + W ho h t 1 + W co c t + b o h t = o t tanh(c t ) y t = g(w hy h t + b y ) 단어단위로학습 y t = W hy h t + b y s x, y = T t=1 A y t 1, y t + y t log P y x = s x, y log y exp(s(x, y )) 문장단위로학습
GRU-CRF y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) r t = σ W xr x t + W hr h t 1 + b r x(t-1) x(t ) x(t+1) z t = σ W xz x t + W hz h t 1 + b z h t = φ W xh x t + W hh r t h t 1 + b h h t = z t h t 1 + 1 z t h t y t = g(w hy h t + b y ) 단어단위로학습 y t = W hy h t + b y s x, y = T t=1 A y t 1, y t + y t log P y x = s x, y log y exp(s(x, y )) 문장단위로학습
BI-LSTM CRF Bidirectional LSTM+CRF Bidirectional GRU+CRF Stacked Bi-LSTM+CRF y(t-1) y(t ) y(t+1) bh(t-1) bh(t ) bh(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1)
Stacked LSTM CRF y(t-1) y(t ) y(t+1) y(t-1) y(t ) y(t+1) bh(t-1) bh(t ) bh(t+1) h2(t-1) h2(t ) h2(t+1) h(t-1) h(t ) h(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1) x(t-1) x(t ) x(t+1)
영어개체명인식 (KCC 15, IEICE Journal 17) 영어개체명인식 (CoNLL03 data set) F1(dev) F1(test) SENNA (Collobert) - 89.59 Structural SVM (baseline + Word embedding feature) - 85.58 FFNN (Sigm + Dropout + Word embedding) 91.58 87.35 RNN (Sigm + Dropout + Word embedding) 91.83 88.09 LSTM RNN (Sigm + Dropout + Word embedding) 91.77 87.73 GRU RNN (Sigm + Dropout + Word embedding) 92.01 87.96 CNN+CRF (Sigm + Dropout + Word embedding) 93.09 88.69 RNN+CRF (Sigm + Dropout + Word embedding) 93.23 88.76 LSTM+CRF (Sigm + Dropout + Word embedding) 93.82 90.12 GRU+CRF (Sigm + Dropout + Word embedding) 93.67 89.98
한국어개체명인식 (IEICE Journal 17) 한국어개체명인식 (TV domain) Structural SVM (baseline) (basic + NE dic. + word cluster feature + morpheme feature) F1(test) 89.03 FFNN (ReLU + Dropout + Word embedding) 87.70 RNN (Tanh + Dropout + Word embedding) 88.93 LSTM RNN (Tanh + Dropout + Word embedding) 89.38 (+0.35) Bi-LSTM RNN (Tanh + Dropout + Word embedding) 89.21 (+0.18) CNN+CRF (ReLU + Dropout + Word embedding) 90.06 (+1.03) RNN+CRF (Sigm + Dropout + Word embedding) 90.52 (+1.49) LSTM+CRF (Sigm + Dropout + Word embedding) 91.04 (+2.01) GRU+CRF (Sigm + Dropout + Word embedding) 91.02 (+1.99)
Neural Architectures for NER (CMU Arxiv 16) LSTM-CRF model + Char-based Word Representation Char: Bi-LSTM RNN
End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF (CMU ACL16) LSTM-CRF model + Char-level Representation Char: CNN
의미역결정 (Semantic Role Labeling)
한국어의미역결정 (SRL) 서술어인식 (PIC) 그는르노가 3 월말까지인수제의시한을 [ 갖고 ] 갖.1 있다고 [ 덧붙였다 ] 덧붙.1 논항인식 (AIC) 그는 [ 르노가 ] ARG0 [3 월말까지 ] ARGM-TMP 인수제의 [ 시한을 ] ARG1 [ 갖고 ] 갖.1 [ 있다고 ] AUX 덧붙였다 [ 그는 ] ARG0 르노가 3 월말까지인수제의시한을갖고 [ 있다고 ] ARG1 [ 덧붙였다 ] 덧붙.1 의존구문분석 의미역결정
딥러닝기반한국어의미역결정 ( 한글및한국어정보처리 15, 동계학술대회 15) Bidirectional LSTM+CRF Korean Word embedding Predicate word, argument word NNLM Feature embedding POS, distance, direction Dependency path, LCA Bi-LSTM+CRF 성능 (AIC) F1: 78.2% (+1.2) Backward LSTM+CRF: F1 77.6% S-SVM 성능 (KCC14) 기본자질 : F1 74.3% 기본자질 +word cluster: 77.0% 정보과학회논문지 2015.02 h(t-1) y(t-1) y(t ) y(t+1) bh(t-1) bh(t ) bh(t+1) h(t ) h(t+1) x(t-1) x(t ) x(t+1)
Stacked BI-LSTM CRF 기반한국어의미역결정 ( 정보과학회지 17) Syntactic information w/ w/o Structural SVM FFNN Backward LSTM CRFs Bidirectional LSTM CRFs Stacked Bidirectional LSTM CRFs (2 layers) Stacked Bidirectional LSTM CRFs (3 layers) 76.96 76.01 76.79 78.16 78.12 78.14 74.15 73.22 76.37 78.17 78.57 78.36
차례 자연어처리소개 딥러닝소개 딥러닝기반의자연어처리 Classification Problem Sequence Labeling Problem Sequence-to-Sequence Learning Pointer Network Machine Reading Comprehension
Recurrent NN Encoder Decoder for SMT (Montreal U. EMNLP 14) GRU RNN Encoding GRU RNN Decoding Vocab: 15,000 (src, tgt)
Sequence to Sequence Learning with Neural Networks (Google NIPS 14) Source Voc.: 160,000 Target Voc.: 80,000 Deep LSTMs with 4 layers Train: 7.5 epochs (12M sentences, 10 days with 8- GPU machine)
Neural MT by Jointly Learning to Align and Translate (Jacobs U., Montreal U. ICLR 15) GRU RNN + Attention Encoding GRU RNN Decoding Vocab: 30,000 (src, tgt) Train: 5 days
문자단위의 NMT (WAT 15, 한글및한국어 15) 기존의 NMT: 단어단위의인코딩 - 디코딩 미등록어후처리 or NMT 모델의수정등이필요 문자단위의 NMT 입력언어는단어단위로인코딩 출력언어는문자단위로디코딩 단어단위 : その /UN 結果 /NCA を /PS 詳細 /NCD 문자단위 : そ /B の /I 結 /B 果 /I を /B 詳 /B 細 /I 문자단위 NMT 의장점 모든문자를사전에등록 미등록어문제해결 기존 NMT 모델의수정이필요없음 미등록어후처리작업이필요없음 c y t-1 y t S S
ASPEC E-to-J 실험 (WAT 15) ASPEC E-to-J data 성능 (Juman 이용 BLEU) PB SMT: 27.48 HPB SMT: 30.19 Tree-to-string SMT: 32.63 NMT (Word-level decoding): 29.78 NMT (Character-level decoding): 33.14 (4 위 ) RIBES 0.8073 (2 위 ) Tree-to-String + NMT(Character-level) reranking BLEU 34.60 (2 위 ) Human 53.25 (2 위 ) This/DT:0 paper/nn:1 explaines/nns:2 experimenta l/jj:3 result/nn:4 according/vbg:5 to/to:6 the/dt:7 model/nn:8./.:9 </s>:10 こ /B:0 の /I:1 モ /B:2 デ /I:3 ル /I:4 に /B:5 よ /B:6 る /I:7 実 /B:8 験 /I:9 結 /B:10 果 /I:11 を /B:12 説 /B:13 明 /I:14 し /B:15 た /B:16 /B:17 </s>:18
Input-feeding Approach (Stanford EMNLP 15) The attentional decisions are made independently, which is suboptimal. In standard MT, a coverage set is often maintained during the translation process to keep track of which source words have been translated. Effect: - We hope to make the model fully aware of previous alignment choices - We create a very deep network spanning both horizontally and vertically
Copying Mechanism or CopyNet (Hong Kong U. ACL16)
Abstractive Text Summarization ( 한글및한국어 16) RNN_search+input_feeding+CopyNet 로드킬로숨진친구의곁을지키는길고양이의모습이포착되었다.
End-to-End 한국어형태소분석 ( 동계학술대회 16) Attention + Input-feeding + Copying mechanism
Sequence-to-sequence 기반한국어구구조구문분석 ( 한글및한국어 16) NP 43/SN NP NP + 국 /NNG 참가 /NNG y t-1 (NP (NP 43/SN + 국 /NNG) (NP 참가 /NNG)) h2 t-1 y t h2 t 입력 정답 선생 <NNG> 님 <XSN> 의 <JKG> <sp> 이야기 <NNG> <sp> 끝나 <VV> 자 <EC> <sp> 마치 <VV> 는 <ETM> <sp> 종 <NNG> 이 <JKS> <sp> 울리 <VV> 었 <EP> 다 <EF>. <SF> (S (S (NP_SBJ (NP_MOD XX ) (NP_SBJ XX ) ) (VP XX ) ) (S (NP_SBJ (VP_MOD XX ) (NP_SBJ XX ) ) (VP XX ) ) ) h1 t-1 c t h1 t RNN-search[7] (S (VP (NP_OBJ (NP_MOD XX ) (NP_OBJ XX ) ) (VP XX ) ) (S (NP_SBJ (VP_MOD XX ) (NP_SBJ XX ) ) (VP XX ) ) ) GRU GRU GRU RNN-search + Input-feeding + Dropout (S (S (NP_SBJ (NP_MOD XX ) (NP_SBJ XX ) ) (VP XX ) ) (S (NP_SBJ (VP_MOD XX ) (NP_SBJ XX ) ) (VP XX ) ) ) GRU x 1 GRU x 2 GRU 형태소의음절 + 품사태그 + <sp> 모델 F1 스탠포드구문분석기 [13] 74.65 버클리구문분석기 [13] 78.74 RNN-search[7] (Beam size 10) 88.00 RNN-search + Input-feeding 88.68 RNN-search + Input-feeding + Dropout 89.03 x T Attention + Input-feeding
Neural Responding Machine for Short-Text Conversation (Huawei ACL 15)
Short-Text Conversation ( 동계학술대회 16) - Data: 클리앙 아무거나질문게시판 - 77,346 질문 - 응답쌍 - 학습 : 개발 : 평가 = 8:1:1
CNN 기반한국어감성분석 (KCC 16) 한국어감성분석 : 문장 긍정 or 부정 ( 분류문제 ) EMNLP14 CNN 모델확장 한국어특징반영 < 한국어영화평감성분석데이터구축 >
LSTM RNN 기반한국어감성분석 LSTM RNN-based encoding Sentence embedding 입력 Fully connected NN 출력 GRU encoding 도유사함 h(1) h(2 ) h(t) y x(1) x(2 ) x(t) Data set Model Accuracy Mobile Train: 4543 Test: 500 SVM (word feature) 85.58 CNN(EMNLP14 : relu,kernel3,hid50) 91.20 GRU encoding + Fully connected NN 91.12 LSTM RNN encoding + Fully connected NN 90.93
이미지캡션생성 이미지내용이해 이미지내용을설명하는캡션자동생성 이미지인식 ( 이해 ) 기술 + 자연어처리 ( 생성 ) 기술 활용분야 이미지검색 맹인들을위한사진설명, 네비게이션 유아교육,
RNN 을이용한이미지캡션생성 ( 동계학술대회 15) Flickr 8K B-1 B-2 B-3 B-4 m-rnn (Baidu)[2] 56.5 38.6 25.6 17.0 DeepVS (Stanford)[5] 57.9 38.3 24.5 16.0 NIC (Google)[4] 63.0 41.0 27.0 - Ours-GRU-DO1 63.12 44.27 29.82 19.34 Ours-GRU-DO2 61.89 43.86 29.99 19.85 Ours-GRU-DO3 62.63 44.16 30.03 19.83 Ours-GRU-DO4 63.14 45.14 31.09 20.94 Flickr 30K B-1 B-2 B-3 B-4 m-rnn (Baidu)[2] 60.0 41.2 27.8 18.7 DeepVS (Stanford)[5] 57.3 36.9 24.0 15.7 NIC (Google)[4] 66.3 42.3 27.7 18.3 Ours-GRU-DO1 63.01 43.60 29.74 20.14 Ours-GRU-DO2 63.24 44.25 30.45 20.58 Ours-GRU-DO3 62.19 43.23 29.50 19.91 Ours-GRU-DO4 63.03 43.94 30.13 20.21 VGGNet
Residual Net + 한국어이미지캡션생성 ( 동계학술대회 16) Residual Net:
차례 자연어처리소개 딥러닝소개 딥러닝기반의자연어처리 Classification Problem Sequence Labeling Problem Sequence-to-Sequence Learning Pointer Network Machine Reading Comprehension
Pointer Network (Google NIPS 15) Travelling Salesman Problem: NP-hard Pointer Network can learn approximate solutions: O(n^2)
포인터네트워크기반상호참조해결 (KCC 16, Pattern Recognition Letters 17) 상호참조해결 : A 씨는 B 씨는 그는 그 : A or B? 입력 : 단어 ( 형태소 ) 열, 출발점 ( 대명사, 한정사구 ( 이별자리등 )) X = {A:0, B:1, C:2, D:3, <EOS>:4}, Start_Point=A:0 출력 : 입력단어열의위치 (Pointer) 열 Entity Y = {A:0, C:2, D:3, <EOS>:4} 특징 : End-to-end 방식의대명사상호참조해결 (mention detection 과정 X) Attention Layer Hidden Layer Projection Layer A B C D <EOS> A C D <EOS> Encoding Decoding
결과예제 입력 입력문장 : 우리 :0 나라 :1 국회 :2 에서 :3 의결 :4 되 :5 ㄴ :6 법률 :7 안 :8 은 :9 정부 :10 로 :11 이송 :12 후 :13 이 :14 기한 :15 내 :16 에 :17 대통령 :18 이 :19 공포 :20 하 :21 ㅁ :22 으로써 :23 확정 :24 되 :25 ㄴ다 :26.:27 헌법 :28 에 :29 명시 :30 되 :31 ㄴ :32 이 :33 기한 :34 은 :35 며칠 :36 이 :37 ㄹ까 :38?:39 <EOS>:40 출력열출발점 : 이 _ 기한 :15 출력정답 (Coref0 순서 ) 이 _ 기한 :15 ( 출발점 ) 이 _ 기한 :34 며칠 :36 <EOS>:40 Attention score (100 점 ) 이 _ 기한 :15 이 _ 기한 :34 이 _ 기한 _ 내 :16 (3), 헌법 :28 (1), 이 _ 기한 :34 (80), 며칠 :36 (10), <EOS>:40 (2) 이 _ 기한 :34 며칠 :36 며칠 :36 (89), <EOS>:40 (9) 며칠 :36 <EOS>:40 <EOS>:40 (99) 참고 : 규칙기반결과 { 이 _ 기한 :15, 이 _ 기한 :34} 며칠 :36 생략됨 { 법률 _ 안 :8, 며칠 :36} (X)
포인터네트워크를이용한한국어의존구문분석 ( 동계학술대회 16) SBJ MOD OBJ CJ 그룹이대한통운인수계약을체결했다
차례 자연어처리소개 딥러닝소개 딥러닝기반의자연어처리 Classification Problem Sequence Labeling Problem Sequence-to-Sequence Learning Pointer Network Machine Reading Comprehension
SQuAD Stanford Question Answering Dataset (SQuAD) Reading comprehension dataset 100,000+ questions 536 Wikipedia articles 23,215 passages 107,785 questions
SQuAD Leaderboard
Match LSTM with Answer Pointer (Singapore Management U. Arxiv16)
Match LSTM with Answer Pointer cont d
Bi-directional Attention Flow Model (Allen Institute Arxiv16)
R-Net: SQuAD 1 st (Microsoft Research Asia)
개발현황 Match LSTM, BIDAF, R-Net 모델자체구현완료 Theano를이용하여자체구현 baseline model 다양한변형모델개발중 한국어데이터실험중 기업체에서한국어데이터구축중 다양한모델을한국어데이터에적용중
한국어실험 1/2 한국어데이터셋 학습 : 16,421 질문셋 평가 : 1,825 질문셋 성능 Match-LSTM: F1=48.30%, EM=31.62% R-Net: F1=45.41%, EM=29.42% BIDAF: F1=? %, EM=? %
한국어결과데이터예제 1/3 뉴스기사 질문 이희솔 /nnp[0] 은 /jx[1] 1/sn[2] 차 /nnb[3] 시기 /nng[4] 에서 /jkb[5] 155/sn[6] kg /nnb[7] 을 /jko[8] 가뿐 /xr[9] 하 /xsa[10] 게 /ec[11] 들 /vv[12] 어 /ec[13] 올리 /vv[14] 었 /ep[15] 다 /ef[16]./sf[17] 리우 /nnp[53] 올림픽 /nng[54] 역도 /nng[55] 여자 /nng[56] 75/sn[57] kg /nnb[58] 이상 /nng[59] 급 /nng[60] 그룹 /nng[61] A/sl[62] 경기 /nng[63] 에서 /jkb[64] 이 /mm[106] 경기 /nng[107] 에서 /jkb[108] 는 /jx[109] 중국 /nnp[110] 의 /jkg[111] 멍수핑 /nng[112] 이 /jks[113] 금메달 /nng[114] 을 /jko[115] 차지 /nng[116] 하 /xsv[117] 았 /ep[118] 다 /ef[119]./sf[120] 멍수핑 /nng[121] 은 /jx[122] 인상 /nng[123] 130/sn[124] kg /nnb[125],/sp[126] 용상 /nng[127] 177/sn[128] kg /nnb[129],/sp[130] 합계 /nng[131] 307/sn[132] kg /nnb[133] 을 /jko[134] 기록 /nng[135] 하 /xsv[136] 았 /ep[137] 다 /ef[138]./sf[139] 은메달 /nng [140] 을 /jko[141] 4/sn[228] 번 /nnb[229] 째 /xsn[230] 메달 /nng[231] 을 /jko[232] 수확 /nng[233] 하 /xsv[234] 았 /ep[235] 다 /ef[236]./sf[237] </s>[238] 리우올림픽여자역도 75kg 우승자는누구야? Key: 멍수핑 /nng Sys: 멍수핑 /nng
한국어결과데이터예제 2/3 잘된것 누구 Q: 리우올림픽여자역도 75kg 우승자는누구야? Key: 멍수핑 /nng Sys: 멍수핑 /nng 무엇 Q: 뉴로피드백은무슨시스템이야? Key: 뇌파를조절하여인간의능력을극대화하는시스템 Sys: 뇌파를조절하여인간의능력을극대화하는시스템 얼마? Q: 화도진스케이트장이용료는얼마야? Key: 1 천원 Sys: 1 천원 이유 Q; 리우올림픽에서박태환의성적이부진했던이유가뭐야? Key: 그동안많은경기를뛰지못했다. Sys: 많은경기를뛰지못했다. 방법 Q: 리우올림픽측은초록색수영장물을어떻게처리했어? Key: 하수관으로배출돼조정, 카누, 트라이애슬론경기장의물로활용 Sys: 하수관으로배출돼조정, 카누, 트라이애슬론경기장의물로활용
한국어결과데이터예제 3/3 잘안된것 왜 무엇 언제 무엇 Q: 롯데는이번시즌에왜성적이부진했어? Key: 주축선수들의줄부상 Sys: 좌측정강이뼈분쇄골절진단 Q: 두산베어스의팀특징은뭐야? Key: 공격적이고적극적인타격 Sys: 강한팀으로거듭나는이유중하나는견고한수비 Q: 류현진메이저리그데뷔전이언제였어? Key: 2013 년 4 월 3 일 Sys: 2013 년 Q: 전국기능대회입상자는어떤혜택이있어? Key: 금메달 1200 만원, 은메달 800 만원, 동메달 400 만원의상금과함께해당직종산업기사실기시험면제, 세계대회출전기회및기능경기대회후원업체취업기회등 Sys: 기술전문가로자리잡을수있도록