자연어처리와 기계학습

Similar documents

23

07.045~051(D04_신상욱).fm

IT현황리포트 내지 완

손민선

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

Naver.NLP.Workshop.SRL.Sogang_Alzzam

단감-고등한국사-정답

내지무인화_

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

Microsoft Word - ijungbo1_13_02

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

DBMS & SQL Server Installation Database Laboratory

Corporate Learning

Slide 1

인터넷 검색엔진

01 ´ë±¸±¤¿ª½Ã ÃÖÁ¾

방송연예1119

ProQuest Congressional 미국연방의회의법률제정및개정관련정보, 청문회정보, 상하원의원들에 대한정보, 위원회자료, Code of Federal Regulations, U.S. Federal Register, 정책관련뉴스등에대한검색이가능한데이터베이스입니다.

2,5 부 1 부 입례송영 21장(다 찬양하여라) 예배에의 부름 시 56:10 사회자 송영 찬양대 기원 사회자 찬송 37장(주 예수 이름 높이어) 다함께 기도 2부 : 주낙명 장로 /5부: 기우중 장로 신앙고백 사도신경 다같이 찬송 293장(주의 사랑 비칠 때에) 다함

Microsoft PowerPoint - Westlaw-nanet

3. 네이버검색 제 3장에서는네이버검색서비스에대한내용을살펴본다. 네이버검색은네이버에서가장대표적인서비스이다. 네이버검색서비스는계속진화하여다양하고정교한검색방법을제공하고, 다양한영역에서추출된검색결과를제공하고있다. 특히다양한영역의검색결과를한꺼번에보여주는 통합검색 방식은네이버검

1학년-방학활용.hwp


Ⅱ.수사결과 붙임1 피고인별 공소사실 요지 및 처리결과 참조 Ⅲ.TV홈쇼핑 업계의 실태 및 문제점 도입목적 및 현황 TV홈쇼핑 시스템은 중소기업이 대기업과 공정하게 경쟁할 수 있는 시장을 만들어 주는 한편,양질의 제품을 개발하고 유통과정을 단순화시켜 이를 염가로 최종소


LISA는문헌정보학교수님과정보전문가를위해디자인된국제적인초록, 색인서비스로, Librarianship, Information science, Online retrieval, Publishing and information technology 등에관한주제의과거와현재에관한서

DBPIA-NURIMEDIA



Microsoft Word - CSWP_sample(KOR).docx

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

목차 AI Boom Chatbot Deep Learning Company.AI s Approach AI Chatbot In Financial service 2

160322_ADOP 상품 소개서_1.0

14sdjb0615

강의계획서 과목 : JUN s TOEIC 700+( 도약 ) 2017년 3차강사 : 황준선 교재 : ETS 토익기본서 (RC&LC)+ 수업부교재 (JUN s TOEIC 700+) + 품사별추가문제 +Mini Test 수업목표 : LC & RC 필수기본전략수립및 GRAM

UI피피티

242..

May leaflet_final.pdf

歯_ _ 2001년도 회원사명단.doc

PowerPoint 프레젠테이션

Quick Reference Guide 엘스비어코리아 서울시용산구녹사평대로 206 천우빌딩 4 층 Tel. 02) l . l Homepage.

MVVM 패턴의 이해

pUBmED UPDATE

PowerPoint 프레젠테이션

YOUR BUSINESS INSIGHT QLIK SENSE 3 RD APRIL, 2015 송혁 SENIOR SOLUTION ARCHITECT, QLIK SINGAPORE

vRealize Automation용 VMware Remote Console - VMware

<C7CFB0E8B4EBC7D0BFACB8CDC0FC5FB4EBC1F8C7A55FBEE7BDC45F31C7D0B3E22E786C73>

쉽게 풀어쓴 C 프로그래밍

<B1B9B0A1B1E2B7CFBFF82DC3D6C1BEBAB8B0EDBCAD2DB4D9B5EBB1E22D2D41342D2DC0CEBCE2BFEB2D312E687770>

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Database Search 편 * Database Explorer 8개의카테고리로구성되어있으며, 데이터베이스의폴더역할을하는 subset ( 혹은 subbase) 을생성하여데이터를조직및관리하게된다. 클릭! DNA/RNA Molecules : feature map의데이터

리텀 백서 새로저장-작은용량

Next Generation Search Engines ( 차세대검색엔진의발전방향및전망 ) 박민우

PowerPoint プレゼンテーション

Systematic Reviews/Evidence-Based Medicine

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

11±Ç ¹ø¿ª°ú Á¤´ä-À¥¿ë

on ScienceDirect User Guide

슬라이드 1

도약종합 강의목표 -토익 700점이상의점수를목표로합니다. -토익점수 500점정도의학생들이 6주동안의수업으로 점향상시킵니다. 강의대상다음과같은분들에게가장적합합니다. -현재토익점수 500점에서 600점대이신분들에게가장좋습니다. -정기토익을 2-3번본적이있으신분

......CF0_16..c01....

Manufacturing6

on ScienceDirect User Guide

Ubiqutious Pubilc Access Reference Model

.....pdf

PowerPoint 프레젠테이션

슬라이드 1

- 1 -

Prologue 01 마그네슘 합금의 장점 및 적용 분야 02 다이캐스팅 이란? 1. About 장원테크 01 Company Overview 02 사업영역 핵심기술력 04 국내 사업장 05 베트남 법인 06 업계 Top Tier 고객사 확보 2. Cash-Cow 모바일

PowerPoint 프레젠테이션

국내외학위논문 DB 이용교육 학과전담연구지원실임정현 02)

PubMed 이용교육(기초편)

untitled

가. 제 1부 : 2011년 한국의 고객만족도() 조사 개요 1. 의 정의 난 1992년 첫 시행 후 20년째를 맞하는 대한민국 대표 고객만족도 조사 제도 è (orean ustomer atisfaction ndex : 한국의 고객만족도)는 한국의 각 상품, 서비 스에

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

PubMed 이용교육 (2014 학부 ) 고문정 2582 /mail.

untitled

TOEIC PART 7 답이보이는시간단축 Part7 Skills 주교재

정보기술응용학회 발표

09권오설_ok.hwp

강의 개요

[Blank Page] i

Journal of Educational Innovation Research 2018, Vol. 28, No. 2, pp DOI: IPA * Analysis of Perc

+국듣-해설(001~69p)

12권2호내지합침


05Çѱ۳»Áö11

폐기물 소각시설 에너지 회수실태 조사 및 모니터링시스템 구축방안 연구.hwp

Vertical Probe Card Technology Pin Technology 1) Probe Pin Testable Pitch:03 (Matrix) Minimum Pin Length:2.67 High Speed Test Application:Test Socket

Microsoft PowerPoint - 23.메모리.pptx

고3-02_비문학_2_사회-해설.hwp

Scopus Elsevier Korea Tel. 02) Homepage.

´º½º·¹ÅÍ2¿ùÈ£


보고서커버양식 이곳에 타이틀이 ㅟ

<BFACB1B831382D31355FBAF2B5A5C0CCC5CD20B1E2B9DDC0C720BBE7C0CCB9F6C0A7C7E820C3F8C1A4B9E6B9FD20B9D720BBE7C0CCB9F6BBE7B0ED20BFB9C3F8B8F0C7FC20BFACB1B82D33C2F7BCF6C1A E687770>

coverbacktong최종spread

Transcription:

키워드를활용한기계독해모델 1007 이예진, 한미래

목차 문제정의및해결방법 제안모델 파이프라인키워드추출 (Sequence Labeling) 모델검색 (Information Retrieval) 모델기계독해 (Machine Reading Comprehension) 모델 실험및성능평가 결론 2

1. 문제정의및해결방법 문제정의 - 검색어로전문적인지식을검색할경우, 검색결과가광범위함 - 논문과같은전문적인문서에서직접문서를읽고이해하기어려움 - 사람이긴논문텍스트에서직접원하는정보를찾기에는시간이오래걸림 데이터마이닝 Q. 데이터마이닝의 6 단계는? A.? 3

1. 문제정의및해결방법 기계독해 (Machine Reading Comprehension; MRC) 기계가주어진문서를이해하고입력받은질문에대한답변을추출하는질의응답작업 A. 데이터마이닝은 ~ Q. 데이터마이닝의 6 단계는? 4

1. 문제정의및해결방법 해결방법 데이터의 66% ( 질문난이도중, 하 ) 의경우, 정답과키워드가동일한문장내에존재 키워드와키워드를포함한단서문장 (Evidence sentence) 활용 기존의 MRC 모델보완 검색어매칭의문제해결 A. 데이터선택, 데이터정제, 데이터변환, 데이터마이닝, 패턴평가, 지식표현 Q. 데이터마이닝의 6 단계는? 단서문장 : 데이터마이닝은일반적으로데이터선택, 데이터정제, 데이터변환, 데이터마이닝, 패턴평가, 지식표현의 6 단계로되어있다. 5

2. 제안모델 Pipeline 질문 & 문서 키워드추출모델질문에서키워드추출 검색모델 (IR) 정답과관련된 Passage 검색 기계독해모델 (MRC) 정답 질문 : 데이터마이닝의 6 단계는? 키워드 : 데이터마이닝정답 : 데이터선택, 데이터정제, 데이터변환, 단서문장후보추출데이터마이닝, 패턴평가, 지식표현 데이터마이닝은일반적으로데이터선택, 데이터정제, 데이터변환, 데이터마이닝, 패턴평가, 지식표현의 6 단계로되어있다. 필터링된문서구성 6

2. 제안모델 모델전체구조 7

2. 제안모델 키워드추출모델 : 입력시퀀스에레이블시퀀스를부여 (Sequence Labeling) - 질문에서키워드에해당하는토큰추출 Query : 한국정부에서늘어나는폐기물발생량을줄이기위해수립한것은? Label : 0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 8

2. 제안모델 검색모델 (Information Retrieval) : Lucene 을사용해서데이터로부터 관련된정보를추출 - 데이터의 85% 는키워드가질문에대한정답앞에존재 - 전체논문을 3문장씩 (Passage) 색인 ( 현재문장 + 다음 2문장 ) - 질문 (Query) 을입력하여질문에대한정답이될수있는상위 10개의 Passage 검색 검색된 Passage를필터링된문서 (Filtered context) 로사용 9

2. 제안모델 검색모델 (Information Retrieval) 에서의인덱싱 (Indexing) 방법 1 본연구에서는 UC 의서비스를선정하는데있어서보다사용자의관점에서접근함으로써사용자에게실제적인편익을줄수있는방법을제안하고자한다. 2 일찍이 Jeff Moore 는 Crossing the Chasm 이라는책을통하여많은 IT 기업이좋은기술과아이템을가지고도 90% 에이르는실패율을보이고있는것을아래와같이설명하려하였다. 3 일반적으로어떤기술이개발되면초창기에는혁신을추구하거나기술매니아들혹은소위 Early Adopter 들이구입을하게되고이들에의해편익성 (convenience) 가검증되고이의결과에따라개방적인대중들, 보수적인대중들이순차적으로구입하게된다는것이다. 4 그러나많은기술의경우여기서말하는기술과성능 (Performance) 에중점을두어실제로대중이원하는해결안 (Solution)/ 편익성 (Convenience) 을간과하게되는경우가많고이것은 90% 의실패율을보이는것으로설명하였다. 5 < 그림 1> Moore 의 Chasm 곡선이러한결과는 u- 서비스에서더욱확장이될수밖에없는데그이유는 u- 서비스라는것이아직존재해보지않은것이기때문에검증이되어있지않고더더구나눈에보이지않으며조용한기술 (Calm Technology) 를추구하고있기때문이그하나의이유이다. 6 이렇게이루어진서비스가실제사용환경에적용되었을때사용자가정말편리함을느끼고자신이원하던문제가해결되는가는다르다. Indexing : 1,2,3 / 2,3,4 / 3,4,5 / 4,5,6... 10

2. 제안모델 기계독해 (Machine Reading Comprehension) 기계독해모델고도화 - 키워드임베딩 (Keyword Embedding) : 질문에있는핵심키워드가답변추론에잘반영되도록사용 - 단서문장임베딩 (Evidence Sentence Embedding) : 키워드를포함하거나단서문장이답변추론에반영되도록사용 - 답변길이가긴논문데이터의특성을반영하여답변길이에제한을두지않고예측 11

3. 실험및평가 국내논문데이터질의응답셋 논문 : 279,143 개 논문 QA 쌍 : 831,182 개 12

3. 실험및평가 실험데이터 학습데이터셋 전체논문데이터의 5% 사용 논문약 14,000 개 논문 QA 쌍약 41,500 개 검증데이터셋 논문약 3,350 개 논문 QA 쌍약 10,000 개 13

3. 실험및평가 성능평가 평가지표 : EM, F1 사용 - Exact Match (EM) 정답텍스트의어절과예측텍스트어절간의단순비교정답 1, 오답 0 으로계산 - F1 Score 정답텍스트와예측텍스트어절간의정밀도 (precision) 와재현율 (recall) 을구해서 F1 점수계산 14

3. 실험및평가 성능평가 키워드추출모델 IR 모델 Model F1 Recall Precision RoBERTa-base 83.1 86.97 79.57 RoBERTa-large 82.33 87.46 77.77 Rank Recall Top 1 59.67 Top 2 68.64 Top 3 72.74 Top 4 76.12 Top 5 77.85 Top 6 79.49 Top 7 80.65 Top 8 81.66 Top 9 82.19 Top 10 82.87 15

3. 실험및평가 성능평가 MRC 모델 Model EM F1 RoBERTa-base (Our Implements) RoBERTa-base w/o 답변길이제한 RoBERTa-base + keyword 임베딩 Proposed model RoBERTa-base + keyword 임베딩 + evidence 임베딩 Proposed model RoBERTa-base + keyword 임베딩 + evidence 임베딩 + filtered context 20.91 46.25 17.51 73.67 16.92 74.99 18.81 77.40 17.21 72.24 + 31.15%p + 3.73%p 16

3. 실험및평가 성능평가 MRC 모델 시간 Proposed model RoBERTa-base + keyword 임베딩 + evidence 임베딩 Proposed model RoBERTa-base + keyword 임베딩 + evidence 임베딩 + filtered context 1330 초 101 초 7 100 로시간단축 - 검증데이터논문약 600 개, QA 쌍 1800 개에대해서추론시걸리는시간 - 검색모델로필터링된 context 사용시기존 MRC 모델들보다 7/100 의추론시간단축 17

3. 실험및평가 성능평가 MRC 모델 질문감정의색인과검색과정은어떤특징을가지고있는가? 예시 1 정답 예측 색인가와이용자사이의주관적인판단과함께이를표현하는용어사용의차이로인해검색결과의불일치로이어지는경향이있다 감정의색인과검색은색인가와이용자사이의주관적인판단과함께이를표현하는용어사용의차이로인해검색결과의불일치로이어지는경향이있다. 질문 PC 재질의튜브램프의단점은? 예시 2 정답 저온 (?35 이하 ) 에서는사용환경조건에따라파손되는단점 예측 저온 (?35 이하 ) 에서는사용환경조건에따라파손되는단점이있어냉동창고와같은저온용으로는사용하기가적합하지않다. - 정답과예측답변의길이가길기때문에정량평가점수가낮지만 정성평가시예측답변이정답과같은문장임을확인 18

4. 결론 키워드검색이아닌질문 (Query) 검색가능 질문 (Query) 으로전문적인지식에대한구체적인답변획득 검색시간단축 사람이직접긴텍스트를읽고이해하지않아도원하는정보추출 키워드가존재하지않는경우에도검색가능 키워드가포함된데이터가구축되어있지않아도질문에서키워드를추출하여검색 키워드검색 : 데이터마이닝 질문검색 : 데이터마이닝의 6 단계는? 정답 : 데이터선택, 데이터정제, 데이터변환, 데이터마이닝, 패턴평가, 지식표현 19

5. 향후연구 키워드모델및검색모델의성능향상 전처리및후처리 현재는어떠한전처리및후처리도하지않음 단서문장이여러개인경우고려 Multi-hop QA 적용 20