PowerPoint 프레젠테이션

Similar documents
PowerPoint 프레젠테이션

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

C# Programming Guide - Types

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

PowerPoint 프레젠테이션

김기남_ATDC2016_160620_[키노트].key

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

자연언어처리

¿ÀǼҽº°¡À̵å1 -new

BSC Discussion 1

ecorp-프로젝트제안서작성실무(양식3)

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

#Ȳ¿ë¼®

<C5D8BDBAC6AEBEF0BEEEC7D C1FD2E687770>

untitled

슬라이드 1

정보기술응용학회 발표

Ch 1 머신러닝 개요.pptx

untitled

À±½Â¿í Ãâ·Â

歯제7권1호(최종편집).PDF

R을 이용한 텍스트 감정분석

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

DIY 챗봇 - LangCon

6주차.key

음악의 구성 형식에 따라 추출된 대표 선율을 이용한 내용 기반 음악 검색 시스템

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

±èÇö¿í Ãâ·Â

methods.hwp

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

1

DBPIA-NURIMEDIA

JVM 메모리구조

DW 개요.PDF

Data Industry White Paper

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

슬라이드 1

여행기

2002년 2학기 자료구조

PCServerMgmt7

< FB1B9BEEEB1B3C0B0BFACB1B C1FD5FC3D6C1BE2E687770>

강의지침서 작성 양식

슬라이드 1

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

The Self-Managing Database : Automatic Health Monitoring and Alerting

슬라이드 1

KD hwp

Microsoft PowerPoint - XP Style

e- 11 (Source: IMT strategy 1999 'PERMISSION ' ) The World Best Knowledge Providers Network

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

untitled

15_3oracle

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

PowerPoint Presentation

,126,865 43% (, 2015).,.....,..,.,,,,,, (AMA) Lazer(1963)..,. 1977, (1992)

°¡°Ç2¿ù-ÃÖÁ¾

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

DBPIA-NURIMEDIA

Voice Portal using Oracle 9i AS Wireless

초보자를 위한 ADO 21일 완성

유니티 변수-함수.key

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

Chap7.PDF

리뉴얼 xtremI 최종 softcopy

Semantic Search and Data Interoperability for GeoWeb

대한한의학원전학회지26권4호-교정본(1125).hwp

Frama-C/JESSIS 사용법 소개

슬라이드 1

<4D F736F F F696E74202D F ABFACB1B8C8B85FBEF0BEEEC3B3B8AEBFCDB1E2B0E8B9F8BFAAC7F6C8B228C1F6C3A2C1F829>

untitled

Page 2 of 5 아니다 means to not be, and is therefore the opposite of 이다. While English simply turns words like to be or to exist negative by adding not,

LXR 설치 및 사용법.doc

1217 WebTrafMon II

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

Solaris Express Developer Edition

Oracle Apps Day_SEM


6자료집최종(6.8))

금오공대 컴퓨터공학전공 강의자료

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

제20회_해킹방지워크샵_(이재석)

SW_faq2000번역.PDF


CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

<B1DDC0B6C1A4BAB8C8ADC1D6BFE4B5BFC7E228C1A63836C8A3292E687770>

PowerPoint 프레젠테이션

Microsoft Word doc


비식별화 기술 활용 안내서-최종수정.indd

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

<4D F736F F F696E74202D E20C0CEC5CDB3DD20C0C0BFEB20B9D720BCADBAF1BDBA20B1E2BCFA E >

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

thesis

No Slide Title

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

슬라이드 1

Microsoft PowerPoint - AC3.pptx

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

Transcription:

WiseQA: 하이브리드추론기반자연어질의응답기술 2015. 8. 21. 김현기 / 장명길 / 류법모 / 이형직 / 허정 / 배용진 지식마이닝연구실 한국전자통신연구원 1/63 1/69

WiseQA 개요 QA 관련연구 WiseQA 연구성과및계획 맺음말

WiseQA 개요 복잡한자연어로기술된문제의의미를이해하고정답을추론하여생성함 자연어질문 자연어질의응답 문제이해정답후보추론최적정답생성 정답, 근거, 정확도 휴먼피드백 자연어이해 지속적학습 (1/2/3 세부과제 ) Copyright 2015 by ETRI 3/37

기술동향및연구방법론 ( 요약 ) IBM Watson: 비정형지식베이스기반귀납적문제해결 - 질문 : 여러개의문장으로구성된복잡한질문 - 정답 : 비정형지식에서 62%, 정형지식에서 7.8% 찾음 Google Knowledge Graph: 정형지식베이스기반연역적문제해결 - 질문 : 한개문장, 제한된문형의단순한질문 - 정답 : 질문의객체와매칭되는지식그래프의단순사실정보제공 <IBM Watson (1천만권도서분량 )> <Google Knowledge Graph > 비정형지식베이스 : 62% 정형지식베이스 : 7.8% 계룡산의높이는? 유성이타버리지않고땅에떨어진것은? 자연어 QA 시스템을평가하는방법은? 객체 : 5 억 7 천만개 사실 : 180 억개 지식추출정확률 @ 재현율 : 45%@50%, 35%@80% 모든문제에대한명확한분석및표현불가 - IBM 왓슨 : 질문의 11% 는정답유형결정불가 모든정답을사전에정형화된지식으로구축불가 - 지식 : 선언적지식, 절차적지식, 경험적지식등 하이브리드 QA = Inductive QA + Deductvie QA + Abductive QA Copyright 2015 by ETRI 4/37

KB-based Deductive QA: 신뢰성 > 커버리지 Q: 계룡산 [entity] 의높이 [property] 는? Entity linking Property linking 계룡산 height 800m Answer Type: Number mountain Conclusion must be true if all premises are true 도전기술 표현의다양성, Partial parsing 계룡산은얼마나높나요? 계룡산의높이는 Entity / Property disambiguation & linking Ontology construction: 지식표현커버리지, 지식구축신뢰도 Copyright 2015 by ETRI 5/37

Data-driven Inductive QA : 신뢰성 < 커버리지 Q: 오만원권화폐에서신사임당옆에그려져있는과일은? Evidences (+) 오만원권앞에는신사임당옆에포도가그려져있다. (+) 오만원권에있는그림은포도입니다. (+) 포도는오만원권지폐에신사임당초상뒤에도안화되어있다. (-) 오만원권의뒷면그림으로는매화와대나무가있다. Conclusion is probable based on supporting evidences 도전기술 Linguistic knowledge(e.g., WordNet, FrameNet) Uncertainty processing 오만원권화폐에서신사임당옆에그려져있는것은? Deep parsing: 어휘 / 문장 / 문맥의이해 Paraphrasing Copyright 2015 by ETRI 6/37

Abductive QA inference to the best explanation "a entails b" is used for inference snore entails sleep Q: 김구는언제돌아가셨나요? 도전기술 : textual entailment in QA Question entailment: 데이터기반표현대중성 김구는언제사망하셨나요? Word/Phrase/Sentence entailment: 암살당하다 entails 사망하다 1949 년안두희에게총격당하여암살당하였다. Copyright 2015 by ETRI 7/37

도전기술 인간과의의사소통을뛰어넘어지식소통이가능하며, 전문가수준의사결정을지원하는 인공두뇌 개발 도전기술 (1) 자연어이해기술 자연어로기술된텍스트의어휘, 문법, 문맥의의미이해 Wise Natural Language Understanding (2) 지식학습기술 빅데이터로부터새로운지식의학습및생산 Wise KB (3) 자연어질의응답기술 자연어질문을이해하고, 정형 / 비정형지식으로부터정답을추론 Wise Question Answering 기술독창성 Copyright 2015 by ETRI 8/37

WiseQA 개요 QA 관련연구 WiseQA 연구성과및계획 맺음말

Question Answering(QA) Find the answer to a question in a large collection of documents (By Bernardo Magnini) questions (in place of keyword-based query) answers (in place of documents) Research Context Question Answering Closed Domain Open Domain Structured data Free text Web Document collections Single document Copyright 2015 by ETRI 10/37

Question Type & Answer Type Question Type: an idiomatic categorization of questions to distinguishing between different processing strategies and/or answer types Factoid List Definition Relationship Superlative Opinion Command etc Answer Type: the class of object or lexical type of sentence sought by the question Exact answer: Person, Place, Date, Number, Short answer: Definition, Explanation(Why, How) Long answer: Summary, Report Copyright 2015 by ETRI 11/37

Paradigms of QA Nature of information IR-based QA: useful in an open domain Find Answers from a collection of documents TREC QA, IBM Watson Knowledge-based QA: useful in a close domain Find Answers from a Knowledge Base Google Knowledge Graph, Wolfram Alpha, Apple Siri Nature of the technique Shallow linguistic methods Simple, limited question & answer types Deep linguistic methods Complex, unlimited question & answer types Copyright 2015 by ETRI 12/37

IR-based QA: TREC QA TREC(Text Retrieval Conference) QA Track 미국 NIST, ARDA, DARPA 후원 From 1999 ~ To 2007 (http://trec.nist.gov/data/qamain.html) From 2002, the notion of confidence was introduced 시스템이제시한 1 등이정답인경우만고려함 Main task: 자연어질문 ( 대부분 1 문장 ) 에대한 Factoid, List, Definition 정답찾기 소스 : 뉴스텍스트 (3GB) Copyright 2015 by ETRI 13/37

IR-based QA: TREC Factoid QA Type-and-Generate Method I Q: 김구는언제태어났나? Expected Answer Type: DATE A: 김구는 1876 년 8 월 29 일 ( 음력 7 월 11 일 ) 에황해도해주백운방텃골 ( 基洞 ) 에서 ( 구 ) 안동김씨김순영 ( 金淳永, 당시 24 세 ), 현풍곽씨곽양식 ( 郭陽植 ) 의딸곽낙원 ( 당시 17 세 ) 부부의외동아들로태어났다. (Wikipedia 김구 페이지에서발췌 ) 정답후보 : 1876 년 8 월 29 일 ( 음력 7 월 11 일 ), 1876 년 8 월 29 일, 음력 7 월 11 일, 7 월 11 일 Copyright 2015 by ETRI 14/43

IR-based QA: TREC Factoid QA Type-and-Generate Method I 1. Question Processing: 질문을분석하여찾고자하는정답유형결정 2. Passage Retrieval: 질문에서키워드추출하여관련된구절검색 3. Answer Processing: 검색된구절을분석하여정답추출및순위화 어려운예 : 암살과 ( 총격당함 절명 죽다 ) 의의미매칭 Q : 김구는언제암살되었나? (Answer Type: Date) A : [ 주어생략 ] 1949 년 6 월 26 일, 12 시 36 분, 서울의자택인경교장에서육군포병소위안두희에게총격당하였다. [ 주어생략, 시간생략 ] 곧병원으로옮겨졌으나절명하였다. (Wikipedia 김구 페이지에서발췌 ) Copyright 2015 by ETRI 15/43

IR-based QA: TREC Factoid QA Type-and-Generate Method II (LCC) 1. 질문으로부터찾고자하는 Expected Answer Type 결정 2. 질문으로부터키워드추출후, 분석하고자하는구절검색 WordNet 활용 Lexical Alternation 대응 Query reformulation 3. 질문구조 and/or 정답유형기반검색결과분석하여정답추출 WordNet 활용 Semantic Alternation 분석 Copyright 2015 by ETRI (Source: S. Harabagiu, D. Moldovan) 16/43

TREC QA 질문예 Copyright 2015 by ETRI (Source: Overview of the TREC 2007 Question Answering Track) 17/43

TREC QA 성능 Copyright 2015 by ETRI 2001 2003 2005 2006 2007 Main/Document/Relatio nship Main/ciQA Tasks Main/List/Context Main/Passage Document Collection # Questions Question Source Correctness Judgments Evaluation Measures Best Main Task Results TIPSTER/TREC (979,000 documents; 3GB) Main: 500 List:25 Context:42 MSNSearch and AskJeeves Logs Main/Context: Main Correct/ Incorrect/ Unsupported (Lenient: unsupported= correct; Strict: unsupported=incorrec t) List: Correctness/Distinctn ess Main/Context: MRR List: Average Accuracy 0.68(MRR) Corpus of English News (1,033,000 documents; 3GB) Main: (Factoid: 413 List:37 Definition:50) Passage: 413 AOL and MSNSearch Logs (Factoid/list: Incorrect/Unsupporte d/inexact/correct) Definition: Information nuggets created and marked by assessors Passage: Incorrect/Unsupporte d/correct Main: FinalScore= 0.5*FactoidScore+0.2 5*ListScore+0.25*Def Score Passage: Accuracy Final: 0.559 (Factoid:0.7, list:0.396, Def:0.442) Same as TREC 2003 Same as TREC 2003 Main: (Factoid: 362 List: 93 Other:75) Document: 50 Relationship: 25 Main (Factoid: 403 List:89 Other:75) ciqa: 25 Main/complex/ciQA AQUAINT-2 (News: 907,000 documents) + Blog06 corpus Main (Factoid: 360 List:85 Other:70) ciqa: 25 Same as TREC 2003 Same as TREC 2005 Same as TREC 2005 Main (Factoid/list: Incorrect/Unsupported/I nexact/correct Other: same as TREC 2003 definition task ) Document: relevant/not relevant Relationship: same as other task Main: FinalScore =0.5*Factoid+0.25*List+ 0.25*Other Document: R-Prec, MAP Relationship:F(β=3) Final: 0.534 (Factoid:0.713, list:0.468,other:0.248) Main (Factoid/list: Incorrect/Unsupported/I nexact/locally Correct/globally Correct Other: same as TREC 2005 ) ciqa: same as other task Main: FinalScore =1/3*Factoid+1/3*List+1 /3*Other ciqa: Pyramid F-Score Main (Factoid/list: Incorrect/Unsupported /Inexact/locally Correct/globally Correct Other: same as TREC 2005 ) ciqa: same as other task Main: FinalScore =1/3*Factoid+1/3*List +1/3*Other ciqa: Pyramid F-Score Final: 0.394 Final: 0.484 (Factoid:0.578,list:0.433, (Factoid:0.706,list:0.47 Other:0.250) 9,Other:0.281) 18/43

TREC QA vs. Waston QA TREC QA Type-and-generate QA 1. Limited AT: 질문으로부터찾고자하는기정의 Answer Type 결정 2. 질문으로부터키워드추출후, 분석하고자하는단락검색 3. 질문구조및정답유형기반검색결과분석하여정답추출 성능 : 48.4% (Factoid: 70.6%, List: 47.9%, Other: 28.1%, 2007) (-) 제한적 Answer Type (Coarse grained: 6, Fine grained: 50, Li & Roth 2002) Watson QA Generate-and-type QA 1. Unlimited AT: 질문으로부터찾고자하는 Lexical Answer Type 동적결정 2. 다양한정답추출방법사용하여정답후보생성및정답후보의타입결정 3. 정답후보에대한근거분석기반최종정답합성및랭킹 성능 : 70%( 정확률 ), 86%( 정확률 )@70%( 응답률 ) (2011) (-) 제퍼디퀴즈쇼의정답의 95% 는위키피디아표제어임 Lexical Answer Type: 질문에서정답으로찾고자하는엔티티를가르키는어휘 - poet, he, clerk Copyright 2015 by ETRI 19/43

IBM Watson: Lexical Answer Types Why LAT? Open domain problem: Long tail answer type distribution New answer types were being introduced at 12% to be roughly constant Copyright 2015 by ETRI 20/43

IBM Watson: QA Architecture 핵심기술 : Generate-and-type 방법 (Data-driven approach) 1. Hypothesis Generation: 질문을분할하여대량의가설생성 2. Evidence Retrieval & Scoring: 정답후보를지지하는근거검색및점수계산 3. Final Merging & Ranking: 질문유형별최적화된정답랭킹 Copyright 2015 by ETRI 21/43

IBM Watson: Precision SW: Linux with UIMA, Hadoop, Lucene, Indri HW: 90 x IBM Power 750 servers, 80 Teraflops (30 억원 ) 2,880 CPU cores, 15 Terabytes of memory IBM 왓슨이우승하기까지 2004 년 - IBM 은 2nd 그랜드챌리지로 제퍼디 퀴즈쇼우승목표설정 2007 년 - 왓슨 Deep QA V0.1 개발 2011 년 - 왓슨 제퍼디 퀴즈쇼우승 (70%) - HW: 30 억원규모슈퍼컴사용 2012 년 - 왓슨 QA 의헬스케어, 빅데이터분야레퍼런스 SW 개발 2014 년 - 왓슨응용제품개발을위해 10 억불투자결정 Copyright 2015 by ETRI 22/43

Deep QAs of Stanford, Facebook & MS WebQuestions dataset contains 5,810 question-answer pairs with common questions asked by web users(berant et al. 2013) This dataset is built using Freebase as the KB by crawling questions (Source: Microsoft Research Technical Report MSR-TR-2014-121) Copyright 2015 by ETRI 23/37

WiseQA 개요 QA 관련연구 WiseQA 연구성과및계획 맺음말

WiseQA 개요 복잡한자연어로기술된문제의의미를이해하고정답을추론하여생성함 자연어질문 자연어질의응답 문제이해정답후보추론최적정답생성 정답, 근거, 정확도 휴먼피드백 자연어이해 지속적학습 (1/2/3 세부과제 ) Copyright 2015 by ETRI 25/37

WiseQA Architecture Natural Language Question Understanding entail Q = Q 1 e, Q 2 e,, Q n e, Q Q i e, 1 i n decmp Q e i = Q e i,1, Q e e i,2,, Q i,m, relation = Or, And, Dep, Q i e = m 1 j=1 R(Q i,j f mean (Q e i,j ) = Answer Type Axiom Proving Answer Constraints Axiom Proving e e, Q i,j+1, relation) QD i,j e, QC e i,j, QF e i,j, AT e i,j, AC e e i,j, QIF i,j KB-based Candidate Retrieval Question Natural Language Understanding Question Entailment Q 1 e, Q 2 e,, Q n e Question Decomposition Question Analysis IR-based Passage Retrieval Answer Candidates Generation Answer Candidates Reduction Answer Verification Answer Confidence Reasoning 남아메리카에위치해있으며, 수도가카라카스인이나라의국명은 작은베네치아 란뜻을가지고있다 질문분석결과 <Question Entailment> Q e 1 : 남미에위치하고, 카라카스가수도인이국가의이름은 작은베네치아 라는의미가있다. Q e 1 : 남아메리카에위치하고, 국명이 작은베네치아 라는의미가있는이국가의수도는카라카스이다. <Question Decomposition> e Q 1,1 : 남미에위치하고, 카라카스가수도인이국가 e Q 1,2 : 이국가의이름은 작은베네치아 라는의미가있다. e Q 2,1 : 남아메리카에위치하고, 국명이 작은베네치아 라는의미가있는이국가 e Q 2,2 : 이국가의수도는카라카스이다. <Question Understanding Axioms> f mean (Q e 1,1 ) = { 질문도메인 (QD) : 지리, 질문클래스 (QC) : 단답형, 속성값요청형, 질문초점 (QF) : 이국가, 어휘정답유형 (LAT) : 국가, 의미정답유형 (SAT) : LCP_COUNTRY, 정답제약 (LOC Explicit ) : 남미, 정답제약 (FRAME sytactic ) : (P: 수도, A0:X, A1: 카리카스 ) }, f mean (Q e 1,2 ),, f mean (Q 2,2 e ) R(f mean (Q e 1,1 ), f mean (Q e 1,2 ), And) R(f mean (Q e 2,1 ), f mean (Q e 2,2 ), And) Answer, Confidence, Source

자연어질문분석기술 연구목표 질문의정답유형인식기술개발 문제해결전략생성을위한질문분할기술개발 지식베이스검색을위한질문시맨틱프레임생성 주요성과 Hybrid 정답유형인식및 WiseWordNet 기반정답유형상호검증기술개발 - 기계학습과규칙방법을결합한어휘정답유형 (LAT) 과의미정답유형 (SAT) 의 Hybrid 정답유형인식및검증 질문초점을이용한규칙기반질문분할및분할관계인식기술개발 심층언어분석및패턴기반질문시맨틱프레임생성기술개발 질문 [ 이것은조선왕조시기에중추부의정삼품당상관을이르던말이었다가나중에와서는나이많은남자를낮잡아이르는말로쓰였다.] [ 소설운수좋은날의남자주인공에게쓰였던이호칭은무엇일까?] [ 분할질문 2] [ 분할질문 1] 질문클래스인식 질문초점인식 정답유형인식 질문분할및분할관계인식 시맨틱프레임생성 분석결과 질문분석자질벡터 질문클래스 : 단답형 - 사실관계형 질문초점 : 이것, 이호칭, 무엇 어휘정답유형 : 당상관, 남자, 호칭 의미정답유형 : CV_POSITION 질문관계유형 : 병렬형질문 정답제약 : 시간 - 조선왕조시기 분할질문 1 분석자질벡터 질문초점 : 이것어휘정답유형 : 당상관, 남자의미정답유형 : CV_POSITION TYPE( X, 말 ) Predicate: 이르다 ARG0: X ARG1: [ 중추부 ][OGG_POLITICS] 의정삼품 [ 당상관 ][CV_POSITION] (NP_OBJ) ARG-TMP: [ 조선왕조시기 ][DYNASTY](NP_AJT) TYPE( X, 말 ) Predicate: 낮잡아이르다 ARG0: X ARG1: 나이많은남자 (NP_OBJ) 분할질문 2 분석자질벡터 질문초점 : 이호칭, 무엇어휘정답유형 : 주인공의미정답유형 : CV_POSITION TYPE( X, 호칭 ) Predicate: 쓰이다 ARG0: X ARG2: 소설 [ 운수좋은날 ][LITERATURE] 남자주인공에게 (NP_AJT) LAT(Lexical Answer Type): 어휘정답유형 Copyright 2015 by ETRI SAT(Semantic Answer Type): 의미정답유형 27/37

자연어질문분류 분류기준대분류중분류소분류설명 정답형태 질문형태 질문구조형태 단답형 서술형 나열형 순서형 짝짓기형 정의형 사실관계형 추론형 OOD 형 일반형 괄호채우기형 용어요청형 의미요청형 속성값요청형 속성요청형 논리추론형 연산추론형 연상형 관계추론형 속성비교형 시간비교형 계산형 단답형식의명사 ( 구 ) 또는어휘로정답을제시해야하는경우 주관식문장이나개조식으로정답을제시하는경우 정답이 1 개이상인형태의질문 정답이순서대로제시되어야하는질문 속성과정답이짝을이루어제시되어야하는경우 정의문이제시되고용어를찾는문제 용어가제시되고정의문을찾아정답을제시하는문제 속성을제시하고속성값을찾는문제 속성값이제시되고속성을찾는문제 다양한질문 / 용어등이공통적으로연관되는정답을추론하는질문 Entity 나 Event 의속성이제시되지않고, 단지관련된속성값을찾는질문 속성값에대한비교연산이수행되어야하는질문 속성값중, 시간정보에대한연산이수행되어야하는질문 속성값에대한사칙연산이수행되어야정답을제시할수있는질문 멀티미디어정보와함께제시되는질문 괄호채우기를제외한주관식문제 심볼등을통해 Blank 를채워넣는형태의질문 다지선다형제시된보기들중, 하나를선택하는질문 ( 긍정질문만 ) 부정형 다중선택형 묶음형 부정형을긍정형으로변환시, 보기들중올바른것을복수개선택하는질문의형태로됨 부정형을긍정형으로변환시, 보기들중유사한특징으로묶는형태의질문

WiseQA 평가질문 ( 장학퀴즈문제 ) 이수익은이별의비애를담은그의시에 < 우울한 ' 이것 '> 이라는제목을붙여쓸쓸하고감상적인느낌을더했다. 프랑스대중이즐기는가요를지칭하는이것은무엇일까? 샹송 이별자리는황도 12 궁의마지막별자리로미의여신아프로디테와그녀의아들에로스가변한것이라고전해진다. 2 월에서 3 월의탄생별자리이기도한이별자리는무엇일까? 이단어는다른나라항구에상업용선박이드나드는것을법으로금지하는것을의미하는무역용어이다. 언론에서는특정시점까지보도를유예하는것을뜻하는말로쓰이는데이단어는무엇일까? 이것은조선시기흥선대원군이경복궁중건을위해강제로거둔기부금이다. ' 백성들이원망하며내는세금 ' 이라는별명을얻기까지한이것은무엇일까? 프랑스화가인이사람은원색을이용해강렬하면서도개성적인작품을그렸다. 야수파운동을주도했으며 < 붉은방 > 을그린이사람은누구일까? 국민에게인기가있고명망있는인물을후보로영입하는데유리한제도로서, 정당에관계없이누구나참여해당의대선후보를선출하는이제도는무엇일까? 이것은조선시기정조가즉위한후기존의호위기구인숙위소를대신해설치한국왕의친위부대이다. 수도에내영을두고수원에외영을설치했던이부대는무엇일까? 이것은날지못하는새로, 조류가운데드물게사람을겁내어피하지않는다. 남반구의해양환경에주로서식하며땅위를뒤뚱거리며걸어다니는데이새는무엇일까? 이열매는지중해연안에서재배되는것이가장품질이좋으며, 프랑스남부에있는망통에서는매년 2 월에이열매를이용한축제가열린다. 신맛을내는이열매는무엇일까? 이들은중세시대교회에서여성성악가를쓸수없었기때문에생겨났다. 여성과비슷한성질의목소리를가진남성성악가를말하는이용어는무엇일까? 물고기자리엠바고원납전마티스오픈프라이머리장용영펭귄레몬카스트라토 Copyright 2015 by ETRI 29/37

비정형정답후보추론기술 연구목표 텍스트빅데이터대상정답후보색인 / 검색 오픈도메인질의응답을위한정답후보생성 심층분석기반정답가설근거검색및검증 정답의다양한근거기반정답가설통합및순위화 주요성과 다중모델기반정답후보색인및검색 정답가설생성을위한정답후보유형추론및제약기술개발 문맥정보유사도기반정답가설근거추론 정답가설의다중근거통합및 LTR 기반순위화 * LTR(Learning to Rank) 질문이해 Answer Candidates Generation Answer Candidates Reduction Answer Evidence Gathering & Verification Answer Confidence Reasoning 최적정답 Q Understanding A Candidate A Reduction A Verification A Confidence Copyright 2015 by ETRI 30/37

정답신뢰도추론기술 연구목표 다중근거기반정답가설의신뢰도측정 응답전략기반최적정답신뢰도임계치학습 정답가설검증을통한최적정답추론방법설계 주요성과 정답유형별신뢰도자질선별및조합의학습 시뮬레이션을통한최적정답신뢰도의임계치학습방법고안 질문도치, 질문복제, 질문치환을통한최적정답검증방법도출 질문분석 비정형정답가설추론 도전과제대비평가셋 <Q,A> pairs 학습과정 정답추론과정 Global-ranked 정답가설 Top 5 정답근거벡터 통합된점수 신뢰도임계치학습 정답신뢰도이력회귀분석 (Logistic Function) 최적정답신뢰도측정 신뢰도자질선별및조합 신뢰도정규화 최적정답검증및추론 질문도치 / 복제 / 치환 질문 - 정답모순검증 질문유형별응답신뢰도 threshold 선정 1. 신뢰도 < Minim threshold Not Answered 신뢰도 3. Minim threshold <= 신뢰도 <= Threshold 2. 신뢰도 > Threshold 최적정답응답 < 최적정답추론및생성기술구성도 > Copyright 2015 by ETRI 31/37

WiseQA 분산병렬처리플랫폼개발 연구목표 대용량텍스트의언어분석 / 색인 / 저장기술개발 빠르고효율적인 QA 연산을위한실시간처리 WiseQA 플랫폼개발 * IBM 왓슨은 30 억원규모의슈퍼컴퓨터사용 주요성과 맵리듀스기반대용량언어분석 / 색인 / 저장기술개발 PC 클러스터링을통한빠르고저렴한 WiseQA 플랫폼개발 * 효율적다중모델검색를위한분산검색기술개발 * UIMA-AS 기반실시간 WiseQA 플랫폼개발 비정형텍스트 언어언어언어분석분석언어분석언어분석분석 다중다중색인다중색인다중색인다중색인색인 Visualization Layer Interface Layer Serving Layer MongoDB Interface Web templet HTTP Solr-cloud Interface Maria DB Interface 질문 Scaleout 컨트롤러 검색어추출분산태스크생성분산태스크할당 / 취합분산 QA 엔진실행 Copyright 2015 by ETRI 대용량언어분석언어처리결과저장분산색인색인결과저장 < 대용량언어분석 / 색인 / 저장기술연구목표 > MongoDB Solr-cloud Level DB <WiseQA 분산병렬처리플랫폼개발기술연구목표 > WiseQA Core layer SolrCloud Hadoop Cluster NameNode MongoDB Cluster Zookeeper UIMA(AS) Shard DataNode Shard Shard Shard Shard QA Core Module Resource <WiseQA 분산병렬처리플랫폼개발기술구성도 > JNI 32/43

중점개발기술 Deep NLP parsing: Rule + Supervised learning + DL SRL, CoRef. Resolution, Zero-anaphora resolution Textual entailment: DL using WiseWordNet NL Question Understanding for axiom proving Tight coupling of IR-based & KB-based QA Natural language to logic representation(1 세부 ) logic representation to structured query language(2 세부 ) Hybrid reasoning QA Deductive + Inductive + Abductive approaches to learn best combination of approaches Answer confidence reasoning Copyright 2015 by ETRI 33/37

WiseQA 개요 WiseQA 연구성과 WiseQA 연구계획 맺음말

QA 기술발전계획 Factoids simple facts that can be extracted from short text strings Simple Summarization (Smart Advisor) a shortened version of one or more documents or content objects Focused Summarization (Decision Supporter) interpret multiple information sources and then stitch together a coherent answer Copyright 2015 by ETRI 35/43

맺음말 2001: A Space Odyssey (1968 년 ) Copyright 2015 by ETRI 36/37

맺음말 아서 C. 클라크 s three laws 어떤노년의과학자가무엇이가능하리라고한다면그것은거의확실히맞다. 그러나그가무엇이불가능하리라고한다면틀릴가능성이높다. 가능성의한계를발견하는유일한방법은불가능할때까지시도해보는방법밖에없다. 충분히발달한과학은마법과구분할수없다. Copyright 2015 by ETRI 37/37

감사합니다. 38/69