PowerPoint 프레젠테이션

Similar documents
DIY 챗봇 - LangCon

Naver.NLP.Workshop.SRL.Sogang_Alzzam

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

( 제 20-1 호 ) '15 ( 제 20-2 호 ) ''16 '15 년국제개발협력자체평가결과 ( 안 ) 16 년국제개발협력통합평가계획 ( 안 ) 자체평가결과반영계획이행점검결과 ( 제 20-3 호 ) 자체평가결과 국제개발협력평가소위원회

Page 2 of 5 아니다 means to not be, and is therefore the opposite of 이다. While English simply turns words like to be or to exist negative by adding not,

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

본문01

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Ch 1 머신러닝 개요.pptx

Page 2 of 6 Here are the rules for conjugating Whether (or not) and If when using a Descriptive Verb. The only difference here from Action Verbs is wh

006_026_특집_정일권.indd


Microsoft PowerPoint Predicates and Quantifiers.ppt

º¸µµ¿Â

목차 AI Boom Chatbot Deep Learning Company.AI s Approach AI Chatbot In Financial service 2

RNN & NLP Application

2002년 2학기 자료구조

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

유의사항 Information marking example 1 3 4

성인용-칼라-단면-수정1030

PowerPoint 프레젠테이션

자연언어처리

(JBE Vol. 24, No. 1, January 2019) (Special Paper) 24 1, (JBE Vol. 24, No. 1, January 2019) ISSN 2287-

Microsoft PowerPoint - 27.pptx

제1강 인공지능 개념과 역사

PowerPoint Presentation

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx


강의지침서 작성 양식

4. 수업의 흐름 차시 창의 인성 수업모형에 따른 단계 수업단계 활동내용 창의 요소 인성 요소 관찰 사전학습: 날짜와 힌트를 보고 기념일 맞춰보기 호기심 논리/ 분석적 사고 유추 5 차시 분석 핵심학습 그림속의 인물이나 사물의 감정을 생각해보고 써보기 타인의 입장 감정

슬라이드 1

PowerPoint 프레젠테이션

김기남_ATDC2016_160620_[키노트].key

AnnualReport_2015.pdf

15_3oracle

딥러닝 첫걸음

°¡°Ç2¿ù-ÃÖÁ¾

KAKAO AI REPORT Vol.01

종합설계 I (Xcode and Source Control )

Data Industry White Paper

PowerPoint 프레젠테이션

2 min 응용 말하기 01 I set my alarm for It goes off. 03 It doesn t go off. 04 I sleep in. 05 I make my bed. 06 I brush my teeth. 07 I take a shower.

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

(......).hwp

직무분야별 담당예정업무(공고문 별첨).hwp_um76wXUEDjTxsPeq4vzx

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

Structural SVMs 및 Pegasos 알고리즘을 이용한 한국어 개체명 인식

야쿠르트2010 9월재출

PowerPoint 프레젠테이션

Stage 2 First Phonics

1_2•• pdf(••••).pdf

빅데이터_DAY key

<B1A4B0EDC8ABBAB8C7D0BAB8392D345F33C2F75F E687770>

2017 1

(중등용1)1~27

사회통계포럼

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

003_°³Á¤3ÀúÀ۱dz»Áö

생들의 역할을 중심으로 요약 될 수 있으며 구체적인 내용은 다음과 같다. 첫째. 교육의 대상 면에서 학습대상이 확대되고 있다. 정보의 양이 폭발적으로 증가하고 사회체제의 변화가 가속화 되면서 학습의 대상은 학생뿐만 아니라 성인 모두에게 확대되고 있으며 평생학습의 시대가

ecorp-프로젝트제안서작성실무(양식3)

하나님의 선한 손의 도우심 이세상에서 가장 큰 축복은 하나님이 나와 함께 하시는 것입니다. 그 이 유는 하나님이 모든 축복의 근원이시기 때문입니다. 에스라서에 보면 하나님의 선한 손의 도우심이 함께 했던 사람의 이야기 가 나와 있는데 에스라 7장은 거듭해서 그 비결을

How to use this book Preparation My family I have a big family. I have grandparents, parents. I m the oldest in my family. My father is strict. 다양한 생활

_KrlGF발표자료_AI

도약종합 강의목표 -토익 700점이상의점수를목표로합니다. -토익점수 500점정도의학생들이 6주동안의수업으로 점향상시킵니다. 강의대상다음과같은분들에게가장적합합니다. -현재토익점수 500점에서 600점대이신분들에게가장좋습니다. -정기토익을 2-3번본적이있으신분

DBPIA-NURIMEDIA

강의계획서 과목 : JUN s TOEIC 700+( 도약 ) 2017년 3차강사 : 황준선 교재 : ETS 토익기본서 (RC&LC)+ 수업부교재 (JUN s TOEIC 700+) + 품사별추가문제 +Mini Test 수업목표 : LC & RC 필수기본전략수립및 GRAM

PowerPoint 프레젠테이션

ㅇ ㅇ

기획 1 서울공대생에게 물었다 글 재료공학부 1, 이윤구 재료공학부 1, 김유리 전기정보공학부 1, 전세환 편집 재료공학부 3, 오수봉 이번 서울공대생에게 물었다! 코너는 특별히 설문조사 형식으로 진행해 보려고 해 요. 설문조사에는 서울대학교 공대 재학생 121명, 비

- 2 -

±èÇö¿í Ãâ·Â

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

슬라이드 1

소성해석

160322_ADOP 상품 소개서_1.0

R을 이용한 텍스트 감정분석

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

정보기술응용학회 발표

4

untitled

Microsoft PowerPoint - WiseNLU(ETRI, 임수종) 배포본

SchoolNet튜토리얼.PDF


장애인건강관리사업

11.8.HUHkoreanrock.hwp

에너지절약_수정

C# Programming Guide - Types


I&IRC5 TG_08권

PowerPoint 프레젠테이션

1

02-19~-44-하이퍼루프다시

컨텍스트인지형 Deep-Symbolic 하이브리드개념그래프생성및질의응답 A Deep-Symbolic Hybrid Approach to Context-aware Conceptual Graphs (CG) and Question Answering (QA)

I. 2

1)2) 1

<31342D3034C0E5C7FDBFB52E687770>

현대영화연구

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

Electronics and Telecommunications Trends 인공지능을이용한 3D 콘텐츠기술동향및향후전망 Recent Trends and Prospects of 3D Content Using Artificial Intelligence Technology

Transcription:

기호적접근과딥러닝기술을융합한자연어처리및질의응답기술 2018. 8. 13. 김현기 언어지능연구그룹 / 한국전자통신연구원 1/48

발표순서 인공지능과엑소브레인 자연어처리연구현황 자연어질의응답연구현황 2/48

AI : Hype( 대대적이고과장된광고 ) or Hope? <Google Trends> 기술발전 <Gartner Hype Cycle for AI(2017) 는아래참고 > http://www.cityam.com/270451/gartner-hype-cycle-2017-artificial-intelligence-peak-hype 3/48

AI Washing (AI 업계의과대광고 ) Hype and "AI Washing" is creating confusion, obscuring the real benefits of the technology <Gartner, 17.7> < 출처 : The Register> < 출처 : IEEE Spectrum> < 출처 : Google> 4/48

현재의 AI : Supervised 99%, Unsupervised 1% Supervised Learning: 대용량, 고품질학습데이터 (Labeled Data) 기반 - Overfitting 문제고려필요 - < 학습데이터예시 ( 출처 : cs.stanford.edu)> * Supervised learning: machine learning task of learning a function that maps an input to an output based on example input-output pairs * Unsupervised learning: machine learning task of inferring a function that describes the structure of "unlabeled" data 5/48

딥러닝발전방향 : Unsupervised Learning Geoffrey Hinton said we need to start over (2017.9) "deeply suspicious" of back-propagation But Hinton suggested that, to get to where neural networks are able to become intelligent on their own, what is known as "unsupervised learning" "I suspect that means getting rid of back-propagation." Yann LeCun warned about AI hype and AI winter (2018.5) Even LeCun thinks a winter could be coming if endowing AI with more human-like generality takes longer than the people funding our research expect, There is a huge industry right now around the current technology of machine learning and that is not going away, Bloomberg 인터뷰영상 : https://www.youtube.com/watch?v=dzqrczye4v0 6/48

발표순서 인공지능과엑소브레인 자연어처리연구현황 자연어질의응답연구현황 7/48

자연어, 인간의언어 CHOMSKY: KNOWLEDGE OF LANGUAGE (1986) 언어능력 (linguistic competence) -> 학습 문법적으로올바른문장과바르지않은문장을인지하고, 이전에발언된적이없는특별한문장을만들고이해하는능력 언어수행 (linguistic performance) -> 수행 구체적인상황에서의언어의실제사용 언어적사건에대한이해 ( 듣기, 읽기 ) 와실제의표현 ( 말하기, 쓰기 ) 인간은매순간학습과수행을동시에병행 (Real-time Learning) 8/48

자연어처리기술 언어 = 말 + 글 < 듣기 : 음성인식 > < 읽기 : 언어이해 > + 대화처리 질의응답 < 말하기 : 음성합성 > < 쓰기 : 언어생성 > 수치, 시각, 9/48

AI s Language Problem MIT Technology Review by Will Knight August 9, 2016 Machines that truly understand language would be incredibly useful. But we don t know how to build them. 문법분석 : 문어체는언어학자수준분석가능 품사분류, 구문구조분석 의미분석 : 전세계적으로연구초기단계 Meaning: 중의, 함의, 은유, 반의 Context: 문맥, 맥락, 상황 Reasoning: Common sense 필요 B** 사의차량이잇달아불타는사고가발생했다. < 문자는유한, 의미는무한 > 10/48

엑소브레인 : 딥러닝적용고려사항 기호적접근과딥러닝기술을융합한자연어처리및질의응답기술개발 External Knowledge An Exponential Law For AI Compute Explainable AI Labeled data Domain adaptation 법률데이터 특허데이터 Scalability Interpretability 뉴스기사 < 출처 : DARPA> < 출처 : OpenAI> 백과사전 11/48

2 단계연구목표 전문분야대상자연어처리, 질의응답핵심기술개발및산업화 - 전문분야 : 법률분야, 특허분야 - 인공지능법률가 인공지능변리사 엑소브레인오픈 API 엑소브레인생태계 법률, 판례, 소송등자문 특허조사분석및심사자문 언어처리, 질의응답 API SW 배포, DB 배포, 인력양성 12/48

엑소브레인시스템구성도 언어자원수집 / 분석 법률데이터 특허데이터 WP5 최적추정론답 WP4 질자문연이어해 WP3 정답후보생성 질문 정답지식학습 WiseQA 핵심기술 정답후보순위화 정답후보근거추론 정답신뢰도추론 질문유형분석정답유형분석정답제약인식 WiseQA 자원및지식 정답추론모델 정답유형지식베이스 WP6 WiseQA 플랫폼 WP7 WiseQA 응용및생태계 위키백과 QA 서비스 법률분야 QA 서비스 언어학지습식 텍스트빅데이터수집 어휘지식구축 관계정보추출 비정형언어지식베이스구축 질문유형지식베이스 특허분야 QA 서비스 뉴스기사 백과사전 WP2 의자미연이해 어의미역인식상호참조해결생략어복원 WP1 패러프레이즈인식 전문분야통합 WiseWordNet 언어지식베이스 엑소브레인오픈 API 서비스 자연어이해언어자원 문자법연이해 어 형태소분석 동음이의어 / 다의어 분석 개체명인식 의존구문분석 언어학습모델 엑소브레인학습데이터 국내외표준화 13/48

발표순서 인공지능과엑소브레인 한국어분석연구현황 자연어질의응답연구현황 14/48

(1) 자연어심층이해기술 어휘, 문장, 문맥의문법과의미의이해 대화 자연어어휘의이해 1 개체명인식 어휘의미분석 2 자연어문장의이해 의미역인식 의존구문분석 Word Spacing 형태소 Symbol 언어 분석 Preprocessing 자원 전처리 자연어구문의이해 자연어의미의이해 Sentence Boundary Recognition 상호참조해결 생략어복원 3 자연어문맥의이해 의미 문법 WP2: 지속적언어지식학습연계성능개선추진 < 자연어이해기술개발방향 > 15/48

현재의자연어처리수준 구문분석은언어학자수준, 의미분석에도전하는단계 의존구문분석성능 엑소브레인 : 93% ( 한국어 ) 구글 : 94% ( 영어 ) 언어학자 : 96%-97% < 출처 : aiindex.org> 16/48

세부기술개요 (1/2) ( 문법 ) 형태소분석 자연어어휘이해 독립적의미를가진가장작은언어표현단위 명사 ( 예 : 하늘, 학교, 한국 ), 용언 ( 예 : 높, 예쁘, 달리 ), 조사 ( 예 : 은, 는, 이, 가 ), 어미 ( 예 : ㄴ, ㄹ, 고, 게 ), 부사등 ( 의미 ) 개체명인식 인명, 지명, 기관명등의개체명을문서에서추출하고종류를결정 15 개대분류및 146 개세부분류개체명태그사용 ( 의미 ) 동음이의어 / 다의어분석 동음이의어 : 형태는동일하나의미들이전혀다른단어 예제 : 배 배 _01( 신체부위 ), 배 _02( 기계, 운송수단 ), 배 _03( 열매 ) 다의어 : 포괄적인의미는동일하지만어원적으로다른의미를가지고있는단어 예제 : 배 _01( 신체부위 ) 배 _01_00_01: 사람이나동물의몸에서위장, 창자, 콩팥따위의내장이들어있는곳으로가슴과엉덩이사이의부위 배 _01_00_02: 절족동물, 특히곤충에서머리와가슴이아닌부분 배 _01_00_03: 긴물건가운데의볼록한부분 17/48

세부기술개요 (2/2) 자연어문장이해 ( 문법 ) 의존구문분석 어절간의지배 - 피지배관계분석을통하여, 문장의구조적중의성을해소하는기술 예 : 나는예쁜꽃을보았다. ( 의미 ) 의미역인식 문장내에서서술어를중심으로서술어에대한의미적역할을하는논항을인식 예 : 협회가방송사로부터프로그램제작을맡았다. 18/48

딥러닝의존구문분석기술개발 (SVM) Transition-based 구문분석기술 세종말뭉치성능 : 92.58% UAS ( 딥러닝 ) Transition-based 구문분석기술개발 세종말뭉치성능 : 92.74% UAS ( 딥러닝 ) Graph-based 딥러닝구문분석기술개발 세종말뭉치성능 : 93.38% UAS ( 시간은 13 배증가 ) Graph-based 구문분석모델 19/48

엑소브레인한국어분석오픈 API http://www.etri.re.kr/aiopen 분석결과 : 김영란법은 2016 년 9 월 28 일에시행되었다. 20/48

자연어의문법분석에서의미분석으로가기위해서 (1) 현재의정보추출기술은많은의미의손실발생 21/48

자연어의문법분석에서의미분석으로가기위해서 (1) 필요성 현재의정보추출기술은의미의손실이크며, 구문분석수준의문법으로는의미처리에한계가명확하고, 단답형, 서술형지식을추출 / 저장하여질의응답에활용 서술형지식 : 목적, 원인, 방법, 조건등 접근방법 1. 문장에서인간이인지하는정보의단위로구분하여, 2. 단위지식을추출하고, 3. 단위지식간의의미역을부착, 그래프로상호연결 Abstract Meaning Representation 은고비용, 고난도 방법론 1. 구문분석, 의미역인식등언어분석결과기반의미표현체계설계 22/48

언어분석결과에대한자연어의미표현체계설계 녹둔도전투에서조선군 11 명이죽고 160 여명이잡혀갔으며, 열다섯필의말이약탈당했다. <frame 0> 녹둔도전투 : 전쟁 장소 [clause 0] <frame 1> 조선군 : 군사기관 대상격 <frame 3> 죽고 : PREDICATE verbal_form = 능동 " <frame 2> 11 명 : 인원수 나열 <frame 4> <frame 5> 160여명 : 인원수대상격잡혀갔으며 : PREDICATE verbal_form = 피동 " [clause 1] 나열 <frame 6> 열다섯필 : 수량 대상격 <frame 8> 약탈당했다 : PREDICATE verbal_form = 피동 " [clause 2] <frame 7> 말 23/48

자연어의문법분석에서의미분석으로가기위해서 (2) 필요성 어휘와어순이상이하나의미가동일한문장간의유사도분석필요 접근방법 1. 패러프레이즈사전과학습데이터구축 2. NLP 기반문장유사도분석기술개발 3. 딥러닝기반문장유사도분석기술개발 고려사항 : 대량의패러프레이즈 DB 구축필요 사례 : PPDB@UPenn, SNLI@Stanford 24/48

문장유사도 ( 패러프레이즈 ) 인식 두문장간의의미적유사도분석 정답가설과정답문장간유사도비교에활용 특허청구항간유사도비교에활용 (1) NLP 기반유사도분석 문장 1 소방당국은전기합선으로불이난것으로보고있습니다. 문장 2 소방당국은일단누전으로인한화재로보고있습니다. 문장유사도 무관 중립 유사 (2) 딥러닝기반유사도분석 25/48

언어분석기반문장유사도인식기술개발 [ 비교문장 1] 부패방지법은부정부패예방을위해제안된법률이다 [ 비교문장 2] 김영란법은 2016 년 9 월 28 일에시행되었다. [ 근거문장 ] 김영란법은대한민국에서부정부패를방지하기위해만들어진법률로, 1 년 6 개월간의유예기간을거친후 2016 년 9 월 28 일시행되었다. [ 비교문장 1] [ 근거문장 ] [ 비교문장 2] 부패방지법부정부패예방위하제안되법률 부정부패법 - 부정부패, 부정부패법 - 위하, 부정부패법 - 법률, 부정부패 - 부정부패법, 부정부패 - 위하, 부정부패 - 법률, <WWN> 김영란법 대한민국 부정부패 방지 위하 만들 김영란법 -2016 년 9 월 28 일, 김영란법 - 시행되,, 시행되 - 김영란법, 시행되 -2016 년 9 월 28 일 김영란법 2016 년 9 월 28 일 시행되 법률 거친 후 2016 년 9 월 28 일 시행되 < 의존구문관계 > 2016 년 9 월 28 일 -NP_AJT- 시행되 < 의미역관계 > 시행되 - 시간 -2016 년 9 월 28 일 통합유사도매칭정렬 통합유사도 Logistic Regression 어휘 (term) 유사도 패러프레이즈어휘개체명유사도사전 WWN 확장어휘 (term) 유사도시공간유사도어휘배치 (Skip-bigram) 유사도 어휘순서열 (Smith-Waterman) 유사도 의존구문관계유사도 의미역관계유사도 26/48

딥러닝기반문장유사도인식기술개발 CNN 기반문장임베딩모델 (co-work with KAIST) 27/48

자연어처리기술차별성 언어학자수준으로어휘의의미, 개체명인식, 문장의문법등을복합적으로분석가능한한국어분석시스템개발 구문분석성능 : 엑소브레인 93%, 언어학자 96% 구분스펙비고 세부기술 제공방식 형태소분석, 동음이의어분석 / 다의어분석, 개체명인식, 의존구문분석, 의미역인식 라이브러리, Rest API 가능 국내최고, 최다기술 성능비교 기술이전 국내대기업한국어분석기술대비 - 개체명인식 5% 이상우위 - 의미역인식 10% 이상우위 대기업 SI 업체, AI 업체등다수 분석결과국내대기업 : 206 개개체명인식 ETRI: 394 개개체명인식 국내대기업 : 2 개의미역대상 ETRI: 4 개필수의미역대상 28/48

향후계획 고난도언어처리기술개발 언어의문법분석을뛰어넘기위한패러프레이즈인식, 생략어복원, 참조해결등언어의의미이해기술개발 도메인확장 구어체뿐만아니라, 법률 / 특허등의전문분야로분야확장추진 분야확장을용이하게하기위한전이학습기술개발 엑소브레인오픈 API 서비스업데이트 한국어분석기술 6 종의성능개선예정 ( 18 년 11 월 ) 29/48

발표순서 엑소브레인개요 한국어분석연구현황 자연어질의응답연구현황 30/48

자연어질의응답개요 정답유형에따른분류 질문 / 정답문장간어휘의불일치문제해결필요 단답형과서술형정답의구분이모호 단답형 QA ( 정답 : 주로개체명 ) 서술형 QA ( 정답 : 구, 절, 또는문장 ) what Who, 인물 When, 시간 Where, 장소 how why what Q: 하스타는어느시대도구야 A: 하스타 ( 라틴어 : Hasta 창 ) 는 { 고대 [ 로마시대 ]} 의공화정초기와중기에걸쳐사용된긴창이다. Q: 앙주제국은왜해체됐지? A: { 헨리 2 세의아들존이 1214 년 [ 부빈느전투에서프랑스카페가의필리프 2 세에게패배 ] 하여프랑스지역의영지를모두잃어버림 } 으로써앙주제국은사실상해체되었다. 31/48

스탠포드대 SQuAD 순위 SQuAD 2.0: 현재엑소브레인참여대학 ( 강원대 ) 연구가 1 위 동일 MRC 모델을한국어에적용시, 영어대비약 5% 낮게나옴 SQuAD 1.1 SQuAD 2.0 32/48

스탠포드大 SQuAD 쉬운기계독해는가능하나, 인간수준독해는새로운돌파구필요 스탠포드大 SQuAD 평가 답변을찾을수있는문장과유사문장추가시 75% 에서 35% 로성능하락 위키피디아전체에서정답단락을검색하고정답을찾는 QA 성능은 29% <EMNLP 2017 논문 > <SQUAD 지문 / 질문 / 정답 > <ACL 2017 논문 > 33/48

질의응답처리단계및시스템구성도 처리단계 : 질문분석, 정답후보검색및생성, 최적정답추론 4 대로분산병렬처리를통한고속연산처리가능 (100 TPS) 34/48

자연어질문분석기술 단답형 / 서술형질의응답을위한질문분류기술개발 딥러닝기반한정답유형인식기술개발 정답제약을위한정보추출기술개발 이법은부정부패예방을위해제안된법률이며, 2016 년 9 월 28 일에시행되었다. 질문 [ 이법은부정부패예방을위해제안된법률이며,] [2016 년 9 월 28 일에시행되었다.] [ 분할질문 1] [ 분할질문 2] 다차원질문분류 질문초점인식 정답유형인식 질문분할및분할관계인식 SPO 단위및제약정보추출 분석결과 질문분석자질벡터 질문분류 : - 정답형태 : 단답형 - 질문도메인 : 법 - 구조적분류 : 주관식 - 의미적분류 : 용어요청형 질문초점 : 이법 어휘정답유형 : 법, 법률 의미정답유형 : CV_LAW 분할질문 1 분석자질벡터 분할질문관계 질문초점 : 이법어휘정답유형 : 법, 법률의미정답유형 : CV_LAW 분할질문 1 : 이법은부정부패예방을위해제안된법률이다. 분할질문 2 분석자질벡터 AND 질문초점 : 이법 ( 생략복원 ) 어휘정답유형 : 법 ( 생략복원 ) 의미정답유형 : CV_LAW 정답제약 ( 시간 ) : 2016 년 9 월 28 일 분할질문 2 : ( 이법은 ) 2016 년 9 월 28 일에시행되었다. 질문관계유형 : 나열형질문 LAT(Lexical Answer Type): 어휘정답유형 SAT(Semantic Answer Type): 의미정답유형 35/48

시맨틱검색기반정답후보생성기술 문서구조를고려한검색시스템설계 위키피디아의미적단락단위검색 딥러닝기술을이용한단락재순위화기반기술개발 Bi-LSTM max-pooling 네트워크기반단락임베딩적용 질문분석 ( 질문분할 : q 1, q 2 ) 분할질문 (q 1 ) 이법은부정부패예방을위해제안된법률이며 분할질문 (q 2 ) 2016 년 9 월 28 일에시행되었다. 질문관계유형 : 나열형 질문관계 : AND 정답단락검색 단락검색 단락재순위화 부정청탁및금품등수수의금지에관한법률은대한민국에서부정부패를예방하기 ( 중략 ) 흔히 ' 김영란법 ' 이라는별칭으로불린다. 부정부패척결을위한맑은사회만들기운동 -2001 년부패방지법제정 김영란법이..( 중략 )..1 년 6 개월의유예기간을거친후 2016 년 9 월 28 일시행되었다. 2016 년 9 월 28 일독일에서덴마크..( 중략 ).. 올보르외곽주택에서덴마크경찰에체포되었다. 부정부패척결을 이법은부정부패예방.. 부정청탁및금품 김영란법 2016년 9월 28일 < 단락검색 > < 질문 - 검색단락유사도기반재순위화 > 36/48

딥러닝 MRC 기반정답후보생성 한국어 MRC 모델개발및 WiseQA 활용 정답단락입력시, EM: 56.14% / F1: 74.34% 언어이해결과를활용한 MRC 성능개선 개체명인식결과반영시, F1 약 2.4% 성능개선 검색단락학습을통한 MRC 실용화설계 Answer Prediction MRC model Input to MRC network Passage Encoding P-Q Attention Question Encoding Answer Prediction Passage Encoding P-Q Attention Question Encoding ( 실제적용환경과동일환경학습 ) 어절임베딩 개체명임베딩 구문구조임베딩 질문 정답단락 검색단락 question vector 언어분석결과기반 MRC 성능개선 정보검색결과단락기반 MRC 모델학습 [Variational Inference] 질문문장벡터변수화적용 (co-work with 강원대 ) 37/48

정답후보타입및제약추론기술 질문에서정답의타입조건을만족하는정답후보를선별 질문 어휘사전, 패러프레이징, 워드임베딩정보등을이용한타입추론 S ubject P redicate {Time/Location/Order/Work} 을통한제약추론 이법은부정부패예방을위해제안된법률이며, 2016 년 9 월 28 일에시행되었다. Focus 이법 LAT SAT part of 법 _01 depend on CV_LAW 정답타입추론 ( 패러프레이징, WordEmbedding 활용 ) [WiseWordNet] 사회규범 법 부정청탁금지법 CV_LAW CV_LAW 유의관계 김영란법 정답제약추론 ( 서술형의미태그, S ubject P redicate Time 제약 ) (PLACE) [ 워드임베딩벡터 ] 법김영란법부정청탁금지법 [Wiki-Category] 대한민국의법 넘겨주기 2015 년법 부정청탁및금품등수수의금지에관한법률 김영란법 서술형의미태그 목적 부정부패예방 TIME DATE 2016 년 9 월 28 일 (PLACE) Predicate 시행되다 (PLACE) (PLACE) 38/48

최적정답신뢰도학습및모델구축 딥러닝기반의다중시스템및자질학습을통한신뢰도추론 질문유형및정답유형에기반한신뢰도모델 대용량질문 - 근거 - 정답 training set KBQ Engine IRQ Engine MRC Engine 근거자질 1. 대용량질문-근거-정답학습셋을통한베이스라인신뢰도산출다중시스템기반근거자질학습 개별베이스라인신뢰도추론 정답여부정답여부 feature feature 타입타입 feature feature 검색검색 feature feature 제약제약 feature feature 근거검색근거검색 feature feature 근거검증근거검증 feature feature 병합병합 1 0.72, 0.84, 0.8 0.72, 0.84, 0.8 1.0, 25 1.0, 25 0.98, 0.87, 0.98, 0.87, 0.98, 0.87, 7.98 0.97, 0.77, 0.6 0.98, 0.87, 0.9 7.98 0.97, 0.77, 0.6 0.9 0.9 0.9 0 0.64, 0.62, 0.7 0.64, 0.62, 0.7 0.87, 21 0.87, 21 0.86, 0.76, 0.86, 0.76, 0.86, 0.76, 8.75 0.82, 0.80, 0.7 0.86, 0.76, 1.0 8.75 0.82, 0.80, 0.7 1.0 1.0 1.0 0 0.32, 0.37, 0.6 0.32, 0.37, 0.6 0.76, 15 0.76, 15 0.39, 0.35, 0.39, 0.38, 0.39, 0.35, 3.58 0.82, 0.44, 0.4 0.39, 0.38, 0.7 3.58 0.82, 0.44, 0.4 0.7 0.7 0.7 0 0.12, 0.04, 0.7 0.12, 0.04, 0.7 0.13, 4 0.13, 4 0.19, 0.24, 0.22, 0.34, 0.19, 0.24, 0.69 0.29, 0.39, 0.3 0.22, 0.34, 0.4 0.69 0.29, 0.39, 0.3 0.4 0.4 0.4 3. 신뢰도모델세분화 2. 딥러닝기반의신뢰도학습 신뢰도모델 / 임계치반영 정답추론신뢰도모델세분화및신뢰도임계치선정 각엔진별신뢰도를반영하여재학습 통합베이스라인신뢰도추론 KBQ Engine IRQ Engine MRC Engine Conf MRC Conf IR Conf final Conf KB feature evidence 39/48

법률 QA 시스템 주요법령대상으로문장형태질문을입력받아정답추론 단답형질문 : 단일 Object(Entity) 나단어를정답으로제시하는질문 국회에서사무총장은국회법상누가임면하나요? [ 정답 : 국회의장 ] 서술형질문 : 복수개의 Object 나절 / 구형태의정답을요청하는질문 임기가만료된국회의장의당적은어떻게되나요? [ 정답 : 당적이탈할당시의소속정당으로복귀 ] 나열형질문 : 단일문장내복수개의정답이표현된정답대상 회기전체의사일정에는어떤내용이들어가나요? [ 정답 : 본회의개의시간, 심의대상안건의순서 ] 40/48

국회도서관제공법률데이터및우선순위 적용단계 1 위원회명 소관법률개수 국회운영위원회 14 과학기술정보방송통신위원회 87 교육문화체육관광위원회 144 보건복지위원회 113 환경노동위원회 108 소계 466 2 행정안전위원회 158 농림축산식품해양수산위원회산업통상자원중소벤처기업위원회 206 115 국토교통위원회 124 정보위원회 28 여성가족위원회 25 소계 656 법제사법위원회 171 정무위원회 87 3 기획재정위원회 79 외교통일위원회 36 국방위원회 67 소계 440 합계 1562 국가법령정보센터 http://www.law.go.kr/lsw/main.html 41/48

법률 QA 시스템 : MRC 성능 법률 QA 학습데이터 질문정답정답근거법 국회의원은몇명인가요? 200 인이상 2 국회의원의수는법률로정하되, 200 인이상으로한다. 헌법제 41 조국회는개회식을언제하나요? 집회일국회는집회일에개회식을행한다. 국회법제 6 조 국회정기회는일년에몇번열리나요 매년 1 회 제 47 조 1 국회의정기회는법률이정하는바에의하여매년 1 회집회되며, 국회의임시회는대통령또는국회재적의원 4 분의 1 이상의요구에의하여집회된다. 헌법제 47 조 1 정부는추가경정예제56조정부는예산에변경을가할필요가있을때에는추추가경정예산안은어떻게편성되나요? 산안을편성하여국헌법제56조가경정예산안을편성하여국회에제출할수있다. 회에제출할수있다. 정부는당해연도제출할법률안에관한계획을어디에통지해야하나요? 국회 정부는부득이한경우를제외하고는매년 1월 31일까지당해연도에제출할법률안에관한계획을국회에통지하국회법제5조의여야한다. 그계획을변경한때에는분기별로주요사항을 3 국회에통지하여야한다. MRC 성능 F1 score: 74.63% Exact match score: 67.45% 42/48

특허 QA 시스템 유사한특허청구항의검색과청구항간의유사도분석 검색단위 개별청구항 1차년도검색단위확대당해년도 청구항전체 검색방법 청구항유사도 청구항기반 텀검색 증거수집기반 (evidence gathering) WiseWordNet 기반어휘확장 검색기반정보확대검색방법다양화 매칭의위치구별과유사도중복반영의문제점개선 유의어정교화및확장개선 청구항, 특허명, 요약, 키워드기반 섹션별가중치반영텀검색 뉴럴정보검색 매칭정렬 (word-alignment) 기반 패러프레이즈특화사전기반어휘확장추가 43/48

특허분야텍스트특성및구조화방법 청구항은 < 독립항, 종속항 (n 개 )> 단위로구분하여색인 문장이매우길고, 절의경계를명확히하기위해기호 (;) 사용 44/48

특허 QA 유사한특허청구항의검색과청구항간의유사도분석 45/48

뉴럴색인 / 검색 문장임베딩벡터기반색인및검색 질의벡터와컬렉션내의문장벡터들의유사도비교 문장내 Word Embedding 정보에기반하여문장을벡터로변환 뉴럴색인 DB 뉴럴유사도비교 *Alexis Conneau, 2017. Supervised learning of universal sentence representations from natural language inference data. 46/48

QA 기술차별성 정답과오답을구분하고, 정답산정의근거제시가능 오답이거나정답을찾을수있는단락이없는경우, 검색결과제시 질문자동완성기능등의부가기능필요 자연어질문분석 뉴럴정보검색 패러프레이즈인식 통계기반정답추론 + 딥러닝기계독해 47/48

맺음말 시금석 나침반 ETRI 지능정보연구본부는 11 월에질의응답, 대화처리, 영상이해등오픈 API 및학습데이터를공개할예정입니다. 국내외자연어처리발전을위해최선을다하겠습니다. 48/48