RNN & NLP Application

Similar documents
딥러닝NLP응용_이창기

Structural SVMs 및 Pegasos 알고리즘을 이용한 한국어 개체명 인식

Structural SVMs 및 Pegasos 알고리즘을 이용한 한국어 개체명 인식

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

(JBE Vol. 24, No. 1, January 2019) (Special Paper) 24 1, (JBE Vol. 24, No. 1, January 2019) ISSN 2287-

Naver.NLP.Workshop.SRL.Sogang_Alzzam

Ch 1 머신러닝 개요.pptx

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

PowerPoint 프레젠테이션

2014 한국어문학회 전국학술대회 통일 시대를 위한 한국 어문학의 성찰과 모색 겨나면서 민족어 란 용어가 등장하였다. 오늘의 학술대회 발표 제목에도 민 족어 란 용어가 보인다. 민족어의 수호와 발전 (고영근, 제이앤씨, 2008)의 민족어 는 국어, 한국어, 조선어,

DIY 챗봇 - LangCon

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

<C5D8BDBAC6AEBEF0BEEEC7D02D3336C1FD2E687770>

R을 이용한 텍스트 감정분석

Data Industry White Paper

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 29(7),

김기남_ATDC2016_160620_[키노트].key

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

(p47~53)SR


PowerPoint 프레젠테이션

1217 WebTrafMon II

<4D F736F F F696E74202D F ABFACB1B8C8B85FBEF0BEEEC3B3B8AEBFCDB1E2B0E8B9F8BFAAC7F6C8B228C1F6C3A2C1F829>

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

4 : (Hyo-Jin Cho et al.: Audio High-Band Coding based on Autoencoder with Side Information) (Special Paper) 24 3, (JBE Vol. 24, No. 3, May 2019

_KrlGF발표자료_AI

90°íÀº¿µ(½ÉÆ÷)

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

歯15-ROMPLD.PDF

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN

2 : (Seungsoo Lee et al.: Generating a Reflectance Image from a Low-Light Image Using Convolutional Neural Network) (Regular Paper) 24 4, (JBE

PowerPoint 프레젠테이션

종합설계 I (Xcode and Source Control )

(......).hwp

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

歯경영혁신 단계별 프로그램 사례.ppt

기술 Roadmap

DW 개요.PDF

정보기술응용학회 발표

PowerPoint Presentation

텀블러514

01 AI Definition 02 Deep Learning Theory - Linear Regression - Cost Function - Gradient Descendent - Logistic Regression - Activation Function - Conce


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Vol.259 C O N T E N T S M O N T H L Y P U B L I C F I N A N C E F O R U M

Oracle Apps Day_SEM

SRC PLUS 제어기 MANUAL

Manufacturing6

. "" "",.... :...,,....,.. :..,,,..,,...,.... 2

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

목 차 Ⅰ. 정보기술의 환경 변화 Ⅱ. 차량-IT Convergence Ⅲ. 차량 센서 연계 서비스 Ⅳ. 차량-IT 융합 발전방향

Visual recognition in the real world SKT services

2 : (EunJu Lee et al.: Speed-limit Sign Recognition Using Convolutional Neural Network Based on Random Forest). (Advanced Driver Assistant System, ADA

歯49손욱.PDF

PowerPoint Presentation

Pattern Recognition

아버지의 이름으로 고 정성철 소방령 자녀 예술경영전공 정비담 씨 소방공무원 국가직 촉구 1인 시위 지난 9월 27일 한 청년이 돌아가신 아버지의 정복을 입고 서울 광화문광 장에서 1인 시위를 벌였다. 이 청년은 지난 7월 광주에서 헬기 추락 사고로 순직한 고 정성철 소

歯RCM

Network seminar.key

YSU_App_2.0-2

SOSCON-MXNET_1014

April 2014 BROWN Education Webzine vol.2 생명을 꿈꾸다 목차 From Editor 아침에는 다리가 4개,점심에는 2개, 저녁에는 3개인 것은? Guidance 익숙해지는 일상 속에서 우리아이 자립심 키우기 환경을 지키는 아이들의 좋은 습

방송공학회논문지 제18권 제2호

#SPS/C-5050.B.

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

Vertical Probe Card Technology Pin Technology 1) Probe Pin Testable Pitch:03 (Matrix) Minimum Pin Length:2.67 High Speed Test Application:Test Socket

Page 2 of 6 Here are the rules for conjugating Whether (or not) and If when using a Descriptive Verb. The only difference here from Action Verbs is wh

SchoolNet튜토리얼.PDF


PowerPoint 프레젠테이션

(JBE Vol. 22, No. 2, March 2017) (Special Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

6주차.key


[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 하는 Tabulator와 Sindice에 기반한 데이터 매쉬업 및 브라우징 서비스인 sig.ma는 꼭 한번 경험해 봐야 할 대상이 다. 또한, SemaPlorer나 DBpedia Mobile 경우는 LOD

슬라이드 1


Preliminary spec(K93,K62_Chip_081118).xls

02본문

(3) () () LOSS LOSS LOSS LOSS (4) = 100 = 100 = 100 = 100 = 100 = 100 = 100 = 100 = 100 = 100 = 100 = 100

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

untitled

PowerPoint Presentation

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft PowerPoint - WiseNLU(ETRI, 임수종) 배포본

1. 연구 개요 q 2013년 연구목표 제2-1과제명 건축물의 건강친화형 관리 및 구법 기술 연구목표 건강건축 수명예측 Lifecycle Health Assessment (LHA) 모델 개발 건축물의 비용 기반 분석기술(Cost-based Lifecycle Health

ÀÎÅͳÝ-°ø°£µµÇüÇØ

첨 부 1. 설문분석 결과 2. 교육과정 프로파일 169

04서종철fig.6(121~131)ok

15_3oracle

슬라이드 제목 없음

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DB0FBB3EBC1D8>

마음_2012._2월_진하게LLkk 복사본.hwp

<C1DF3320BCF6BEF7B0E8C8B9BCAD2E687770>

À±½Â¿í Ãâ·Â

4 : CNN (Sangwon Suh et al.: Dual CNN Structured Sound Event Detection Algorithm Based on Real Life Acoustic Dataset) (Regular Paper) 23 6, (J

e hwp

2 : CNN (Jaeyoung Kim et al.: Experimental Comparison of CNN-based Steganalysis Methods with Structural Differences) (Regular Paper) 24 2, (JBE

Transcription:

RNN & NLP Application 강원대학교 IT 대학 이창기

차례 RNN NLP application

Recurrent Neural Network Recurrent property dynamical system over time

Bidirectional RNN Exploit future context as well as past

Long Short-Term Memory RNN Vanishing Gradient Problem for RNN LSTM can preserve gradient information

LSTM Block Architecture

Gated Recurrent Unit (GRU) r t = σ W xr x t + W hr h t 1 + b r z t = σ W xx x t + W hz h t 1 + b z h t = φ W xh x t + W hh r t h t 1 + b h h t = z t h t + 1 z t h t y t = g(w hy h t + b y )

차례 RNN NLP application

Sequence Labeling RNN, LSTM Word embedding Feature embedding

FFNN(or CNN), CNN+CRF (SENNA) y(t-1) y(t ) y(t+1) y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1) x(t-1) x(t ) x(t+1)

RNN, CRF Recurrent CRF y(t-1) y(t ) y(t+1) y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1) x(t-1) x(t ) x(t+1) y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1)

LSTM RNN + CRF LSTM-CRF (KCC 15) y(t-1) y(t ) y(t+1) y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1) x(t-1) x(t ) x(t+1) y(t-1) y(t ) y(t+1) f (t ) h(t-1) h(t ) h(t+1) i (t ) o(t ) x(t-1) x(t ) x(t+1) x(t ) C(t) h(t )

LSTM-CRF i t = σ W xi x t + W hi h t 1 + W ci c t 1 + b i f t = σ W xf x t + W hf h t 1 + W cf c t 1 + b f c t = f t c t 1 + i t tanh W xc x t + W hc h t 1 + b c o t = σ W xo x t + W ho h t 1 + W co c t + b o h t = o t tanh(c t ) y t = g(w hy h t + b y ) y t = W hy h t + b y s x, y = t=1 T A y t 1, y t + y t log P y x = s x, y log y exp(s(x, y ))

GRU+CRF y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) r t = σ W xr x t + W hr h t 1 + b r x(t-1) x(t ) x(t+1) z t = σ W xz x t + W hz h t 1 + b z h t = φ W xh x t + W hh r t h t 1 + b h h t = z t h t 1 + 1 z t h t y t = g(w hy h t + b y ) y t = W hy h t + b y T s x, y = t=1 A y t 1, y t + y t log P y x = s x, y log y exp(s(x, y ))

Bi-LSTM CRF Bidirectional LSTM+CRF Bidirectional GRU+CRF Stacked Bi-LSTM+CRF y(t-1) y(t ) y(t+1) bh(t-1) bh(t ) bh(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1)

Stacked LSTM CRF y(t-1) y(t ) y(t+1) y(t-1) y(t ) y(t+1) bh(t-1) bh(t ) bh(t+1) h2(t-1) h2(t ) h2(t+1) h(t-1) h(t ) h(t+1) h(t-1) h(t ) h(t+1) x(t-1) x(t ) x(t+1) x(t-1) x(t ) x(t+1)

LSTM CRF with Context words = CNN + LSTM CRF Bi-LSTM CRF =~ LSTM CRF with Context > LSTM CRF y(t-1) y(t ) y(t+1) h(t-1) h(t ) h(t+1) x(t-2) x(t-1) x(t ) x(t+1) x(t+2)

Neural Architectures for NER (Arxiv16) LSTM-CRF model + Char-based Word Representation Char: Bi-LSTM RNN

End-to-end Sequence Labeling via Bidirectional LSTM-CNNs-CRF (ACL16) LSTM-CRF model + Char-level Representation Char: CNN

NER with Bidirectional LSTM-CNNs (Arxiv16)

LSTM RNN 기반한국어감성분석 LSTM RNN-based encoding Sentence embedding 입력 Fully connected NN 출력 GRU encoding 도유사함 h(1) h(2 ) h(t) y x(1) x(2 ) x(t) Data set Model Accuracy Mobile Train: 4543 Test: 500 SVM (word feature) 85.58 CNN(relu,kernel3,hid50)+Word embedding (word feature) 91.20 GRU encoding + Fully connected NN 91.12 LSTM RNN encoding + Fully connected NN 90.93

Neural Machine Translation T S 777 항공편은 3 시간 동안 지상 에 있 겠 습니다. </s> flight 0.5 0.4 0 0 0 0 0 0 0 0 0 0 0 777 0.3 0.6 0 0 0 0 0 0 0 0 0 0 0 is 0 0.1 0 0 0.1 0.2 0 0.4 0 0.1 0 0 0 on 0 0 0 0 0 0 0 0.7 0.2 0.1 0 0 0 the 0 0 0 0.2 0.3 0.3 0.1 0 0 0 0 0 ground 0 0 0 0.1 0.2 0.5 0.3 0 0 0 0 0 0 for 0 0 0 0.1 0.2 0.5 0.1 0.1 0 0 0 0 0 three 0 0 0 0.2 0.2 0.6 0 0 0 0 0 0 0 hours 0 0 0 0.1 0.3 0.5 0 0 0 0 0 0 0. 0 0 0 0.4 0 0.1 0.2 0.1 0.1 0.1 0 0 0 </s> 0 0 0 0 0 0 0 0.1 0 0.1 0.1 0.3 0.3

Recurrent NN Encoder Decoder for Statistical Machine Translation (EMNLP14) GRU RNN Encoding GRU RNN Decoding Vocab: 15,000 (src, tgt)

Sequence to Sequence Learning with Neural Networks (NIPS14 Google) Source Voc.: 160,000 Target Voc.: 80,000 Deep LSTMs with 4 layers Train: 7.5 epochs (12M sentences, 10 days with 8- GPU machine)

Neural MT by Jointly Learning to Align and Translate (ICLR15) GRU RNN + Alignment Encoding GRU RNN Decoding Vocab: 30,000 (src, tgt) Train: 5 days

Abstractive Text Summarization ( 한글및한국어 16) RNN_search+input_feeding+CopyNet 로드킬로숨진친구의곁을지키는길고양이의모습이포착되었다.

End-to-End 한국어형태소분석 ( 동계학술대회 16) Attention + Input-feeding + Copying mechanism

Sequence-to-sequence 기반한국어구구조구문분석 ( 한글및한국어 16) NP y t-1 y t NP NP 43/SN + 국 /NNG 참가 /NNG h2 t-1 h2 t h1 t-1 h1 t (NP (NP 43/SN + 국 /NNG) (NP 참가 /NNG)) 입력예시 1 43/SN 국 /NNG <sp> 참가 /NNG c t 입력예시 2 입력 정답 RNN-search[7] (Beam size 10) RNN-search + Input-feeding + Dropout (Beam size 10) 4 3 <SN> 국 <NNG> <sp> 참가 <NNG> 선생 <NNG> 님 <XSN> 의 <JKG> <sp> 이야기 <NNG> <sp> 끝나 <VV> 자 <EC> <sp> 마치 <VV> 는 <ETM> <sp> 종 <NNG> 이 <JKS> <sp> 울리 <VV> 었 <EP> 다 <EF>. <SF> (S (S (NP_SBJ (NP_MOD XX ) (NP_SBJ XX ) ) (VP XX ) ) (S (NP_SBJ (VP_MOD XX ) (NP_SBJ XX ) ) (VP XX ) ) ) (S (VP (NP_OBJ (NP_MOD XX ) (NP_OBJ XX ) ) (VP XX ) ) (S (NP_SBJ (VP_MOD XX ) (NP_SBJ XX ) ) (VP XX ) ) ) (S (S (NP_SBJ (NP_MOD XX ) (NP_SBJ XX ) ) (VP XX ) ) (S (NP_SBJ (VP_MOD XX ) (NP_SBJ XX ) ) (VP XX ) ) ) GRU GRU GRU GRU GRU GRU x 1 x 2 x T Attention + Input-feeding

Sequence-to-sequence 기반한국어구구조구문분석 ( 한글및한국어 16) 모델 F1 스탠포드구문분석기 [13] 74.65 버클리구문분석기 [13] 78.74 형태소 + <sp> RNN-search[7] (Beam size 10) RNN-search[7] (Beam size 10) 87.34(baseline) 87.65*(+0.31) 87.69(+0.35) 88.00*(+0.66) 형태소의음절 + 품사태그 + <sp> RNN-search + Input-feeding (Beam size 10) RNN-search + Input-feeding + Dropout (Beam size 10) 88.23(+0.89) 88.68*(+1.34) 88.78(+1.44) 89.03*(+1.69)

Neural Responding Machine for Short-Text Conversation (ACL 15)

Neural Responding Machine cont d

실험결과 (ACL 15)

Short-Text Conversation ( 동계학술대회 16) - Data: 클리앙 아무거나질문게시판 - 77,346 질문 - 응답쌍 - 학습 : 개발 : 평가 = 8:1:1

이미지캡션생성소개 이미지내용이해 이미지내용을설명하는캡션자동생성 이미지인식 ( 이해 ) 기술 + 자연어처리 ( 생성 ) 기술 활용분야 이미지검색 맹인들을위한사진설명, 네비게이션 유아교육,

기존연구 Multimodal RNN (M-RNN) [2] Baidu CNN + vanilla RNN CNN: VGGNet Neural Image Caption generator (NIC) [4] Google CNN + LSTM RNN CNN: GoogLeNet Deep Visual-Semantic alignments (DeepVS) [5] Stanford University RCNN + Bi-RNN alignment (training) CNN + vanilla RNN CNN: AlexNet

AlexNet, VGGNet

RNN 을이용한이미지캡션생성 CNN + RNN ( 동계학술대회 15) CNN: VGGNet 15 번째 layer (4096 차원 ) RNN: GRU (LSTM RNN 의변형 ) Hidden layer unit: 500, 1000 (Best) Multimodal layer unit: 500, 1000 (Best) Word embedding SENNA: 50 차원 (Best) Word2Vec: 300 차원 Data set Flickr 8K : 8000 이미지 * 이미지캡션 5 문장 6000 학습, 1000 검증, 1000 평가 Flickr 30K : 31783 이미지 * 이미지캡션 5 문장 29000 학습, 1014 검증, 1000 평가 4 가지모델실험 GRU-DO1, GRU-DO2, GRU-DO3, GRU-DO4

W t+1 Softmax Multimodal CNN GRU Image Embedding GRU-DO1 GRU-DO2 W t W t+1 W t+1 Softmax Softmax Multimodal CNN Multimodal CNN GRU Image GRU Image Embedding Embedding GRU-DO3 GRU-DO4 W t W t

RNN 을이용한이미지캡션생성 ( 동계학술대회 15) Flickr 8K B-1 B-2 B-3 B-4 m-rnn (Baidu)[2] 56.5 38.6 25.6 17.0 DeepVS (Stanford)[5] 57.9 38.3 24.5 16.0 NIC (Google)[4] 63.0 41.0 27.0 - Ours-GRU-DO1 63.12 44.27 29.82 19.34 Ours-GRU-DO2 61.89 43.86 29.99 19.85 Ours-GRU-DO3 62.63 44.16 30.03 19.83 Ours-GRU-DO4 63.14 45.14 31.09 20.94 Flickr 30K B-1 B-2 B-3 B-4 m-rnn (Baidu)[2] 60.0 41.2 27.8 18.7 DeepVS (Stanford)[5] 57.3 36.9 24.0 15.7 NIC (Google)[4] 66.3 42.3 27.7 18.3 Ours-GRU-DO1 63.01 43.60 29.74 20.14 Ours-GRU-DO2 63.24 44.25 30.45 20.58 Ours-GRU-DO3 62.19 43.23 29.50 19.91 Ours-GRU-DO4 63.03 43.94 30.13 20.21 W t+1 W t+1 W t+1 Softmax Softmax Softmax Multimodal CNN Multimodal CNN Multimodal CNN GRU Image GRU Image GRU Image Embedding Embedding Embedding W t W t W t

Flickr30k 실험결과 A black and white dog is jumping in the grass A group of people in the snow Two men are working on a roof

신규데이터 A large clock tower in front of a building A man and a woman are playing with a sheep A man in a field throwing a frisbee A little boy holding a white frisbee

한국어이미지캡션생성 W t+1 Softmax Multimodal CNN 한어린소녀가풀로덮인들판에서있다 건물앞에서있는한남자 구명조끼를입은한작은소녀가웃고있다 GRU Image Embedding 분홍색개를데리고있는한여자와한여자 W t

Residual Network + 한국어이미지캡션생성 ( 동계학술대회 16)