엑소브레인자연어질의응답기술 김현기 언어지능연구그룹, 한국전자통신연구원
1. 엑소브레인의지능은? 2. 엑소브레인의성장과현재 3. 엑소브레인의미래 c 2017, ETRI All Rights Reserved 2
다시시작된인공지능을제대로이해하려면 인간의지능 = 학습능력 + 문제해결능력 다중지능 : 다수의지능들은항상서로교류하면서작용 (Howard Gardner, 1983) 그리고, 제 4 차산업혁명 = 연결 + 융합 세계경제포럼 (WEF): 물리적, 디지털적, 생물학적영역간 경계를모호하게하는기술들의융합으로인한변화 인공지능에대한총체적접근필요 초연결 + 초지능 + 초실감 c 2017, ETRI All Rights Reserved 3
인간의지능 : 언어를통한학습과기억 뇌의 1% 파악 : 1000 억개가넘는신경세포와이들이연결된시냅스 학습과기억 : 소리 - 이미지 - 개념의동시에인지되며, 4 개의감각이미지가작동 기계의인공신경망 : 인간두뇌가보유한능력중기계로구현할수있는분야 c 2017, ETRI All Rights Reserved 4
두뇌의리버스엔지니어링 <Blue Brain Project - Brain Waves Simulation( 출처 : 유튜브, 2013.7)> c 2017, ETRI All Rights Reserved 5
인공지능에대한진보와보수적의견 마음을지닌기계의탄생 지능은오직생명의것 c 2017, ETRI All Rights Reserved 6
기계의지능 AI 인공지능 (AI) Science and engineering of making intelligent machines (John McCarthy, 1955) 1 약한인공지능, Weak AI, Artificial Narrow Intelligence 2 강한인공지능, Strong AI, Full AI, Artificial General Intelligence Nick Bostrom(2014): 인간지능의 2022 년 10%, 2040 년 50%, 2075 년 90% 가능성 3 초인공지능, Artificial Super Intelligence (AI Revolution: The road to superintelligence) Ray Kurzweil(2006), BBC(2013) 등은 2045 년특이점 (Singularity) 도래예측 < 그림출처 : 디지털타임스 (2017.4)> c 2017, ETRI All Rights Reserved 7
인공지능기술개발사례 언어지능 IBM Watson 컴퓨터제퍼디쇼우승 (2011) - Power 750 * 9대 (2880 코어, 16TB 메모리 ) - 200억페이지, 4단계추론 시각지능 구글 Brain (X-Project) (2012) - 9 계층의 Deep 뉴럴네트워크, 고양이인식 (74%) - 유투브이미지 / 영상랜드마크자동인식서비스 학습지능 Google AlphaGo (2016) - 인공신경망기반 Value and policy networks - 이세돌 9단과대결에서승리 (2016.3) 뇌인지컴퓨팅 DARPA/IBM SyNAPSE Project(2013) - 뇌시뮬레이션, 뉴로모픽칩, 시스템구조등 - 목표 : 100억개뉴론, 100조개시냅스연결 c 2017, ETRI All Rights Reserved 8 Prototype of IBM Cognitive Computer 응용 : 해파리로봇 - 해양안전
인공지능의총체적접근 1 핵심요소및성장단계 로켓을만들려면로켓엔진과이로켓엔진을구동시킬연료가필요합니다. 딥러닝이로켓이라면대규모뉴럴네트워크는엔진이고, 대량의데이터는연료입니다. 두가지가공존해야만딥러닝이가능한것이죠. (Andrew Ng, 엔비디아 GTC 2015) 3 초인공지능 2 강한인공지능 1 약한인공지능 (AI 2.0) 1 약한인공지능 (AI 1.0) 창의성 빅데이터 알고리즘 컴퓨팅 c 2017, ETRI All Rights Reserved 9 알고리즘 : 머신러닝, 딥러닝, 강화학습, 빅데이터 : 방대한학습데이터 컴퓨팅인프라 : 분산처리, GPU 창의성
인공지능의총체적접근 2 연결과융합 언어 = 말 + 글 < 듣기 : 음성인식 > < 읽기 : 언어이해 > + < 말하기 : 음성합성 > < 쓰기 : 언어생성 > 수치, 시각, c 2017, ETRI All Rights Reserved 10
엑소브레인의지능은? 전문가와지식소통이가능한인공지능 SW 개발 * 지식산업환경에서전문가수준의질의응답 (Question Answering) 을통한지식서비스제공 Question Answering 금융 / 민원등전문지식상담 Decision Support 법률 / 특허등의전문가판단지원 무배당신바람건강보험에가입했습니다. 신장결석으로충격파쇄석수술을했는데, 수술시보험금지급이가능한가요? 자연어심층이해 자연어지식생산 이특허출원서와중복되는선행특허는? Smart Advisor 전문직종의사결정지원 Edward Fox was diagnosed with type 2 diabetes last year. What are good medications for him? 자연어질의응답 Thinking Machine 지능형단말의인공두뇌로활용 착륙예정점에대한경사각수직면유도결함의정비항목은?
국내외연구동향 정부와기업에서지능형 QA 을위한대규모인공지능프로젝트진행 - 정부 AQUAINT QA 프로젝트, IBM Waston, 구글지식그래프 * AQUAINT: Advanced Question Answering for Intelligence 2021 년동경대입시합격가능한인공지능프로젝트진행, 포기 ( 16 년 ) - 토다이로봇 : 국립정보과학연구소, 슈퍼컴활용 2011~2021 년진행 지경부는빅데이터및인공지능을 SW 핵심기술로선정 (12 년 4 월 ) - 2013 년국가혁신기술개발형엑소브레인 SW 과제시작 c 2017, ETRI All Rights Reserved 12
기술동향 & 연구방법론 : 앙상블 QA 지향 IBM Watson: 비정형지식베이스위주 IR 기반의 QA - 질문 : 여러개의문장으로구성된복잡한질문 - 정답 : 비정형지식에서 62%, 정형지식에서 2.2% 찾음 Google Knowledge Graph: 정형지식베이스위주 KB 기반의 QA - 질문 : 한개문장, 제한된문형의단순한질문 - 정답 : 질문의객체와매칭되는지식그래프의단순사실정보제공 <IBM Watson> <Google Knowledge Graph > 비정형지식베이스 : 69.1% 정형지식베이스 : 2.2% 객체 : 5 억 7 천만개 사실 : 180 억개 지식추출정확률 @ 재현율 : 45%@50%, 35%@80% 계룡산의높이는? 유성이타버리지않고땅에떨어진것은? 자연어 QA 시스템을평가하는방법은? 모든문제에대한명확한분석및표현불가 - IBM 왓슨 : 질문의 11% 는정답유형결정불가 모든정답을사전에정형화된지식으로구축불가 - 지식 : 선언적지식, 절차적지식, 경험적지식등 c 2017, ETRI All Rights Reserved 13
KB-based Deductive QA: 신뢰성 > 커버리지 Q: 계룡산 [entity] 의높이 [property] 는? Entity linking Property linking 계룡산 height 800m Answer Type: Number mountain Conclusion must be true if all premises are true 도전기술 표현의다양성, Partial parsing 계룡산은얼마나높나요? 계룡산의높이는 Entity / Property disambiguation & linking Ontology construction: 지식표현커버리지, 지식구축신뢰도 c 2017, ETRI All Rights Reserved 14
Data-driven Inductive QA : 신뢰성 < 커버리지 Q: 오만원권화폐에서신사임당옆에그려져있는과일은? Evidences (+) 오만원권앞에는신사임당옆에포도가그려져있다. (+) 오만원권에있는그림은포도입니다. (+) 포도는오만원권지폐에신사임당초상뒤에도안화되어있다. (-) 오만원권의뒷면그림으로는매화와대나무가있다. Conclusion is probable based on supporting evidences 도전기술 Linguistic knowledge(e.g., WordNet, FrameNet) Uncertainty processing 오만원권화폐에서신사임당옆에그려져있는것은? Deep parsing: 어휘 / 문장 / 문맥의이해 Paraphrasing c 2017, ETRI All Rights Reserved 15
엑소브레인의단계별지능화 엑소브레인의단계별지능화 도전적원천기술확보로시작, 글로벌기술상용화로발전 목표 및결과물 2013.05 2017.03 2020.01 2022.12 1 단계 ( 핵심기술개발 ) IBM 왓슨과기술격차 7 년을 4 년간개발하여단축 ( 사실지식 QA 시스템 ) 2 단계 ( 응용기술개발 ) 전문지식서비스세계적성능달성 (Smart Advisor) 3 단계 ( 글로벌기술개발 ) 다국어전문지식서비스세계최고성능달성 (Thinking Machine) 기술검증 : 지식대결 ( 장학퀴즈 < 대결! 엑소브레인 > 압승 ( 16.11.18)) 전문지식 QA 시스템상용화 ( 예 : 법률, 특허, 상담 ) 전문지식 QA 의사결정지원시스템상용화 다국어지식 QA 기술검증및사업화 엑소브레인인공지능산 / 학 / 연생태계구축 엑소브레인생태계 법률 / 특허전문지식제공 지능형상담 QA 공공및기업고객상담 전문분야컨설팅 QA 다국어지식서비스제공 지능형로봇 QA 정비보조등지능적업무수행 웨어러블 QA 표준화추진, SW, DB/ 말뭉치 전문가의사결정지원 헬스케어, 피트니스지식서비스 c 2017, ETRI All Rights Reserved
장학퀴즈 < 대결! 엑소브레인 > EBS 장학퀴즈 1021 회유튜브동영상 : https://www.youtube.com/watch?v=oj6wyz7z-h4 c 2017, ETRI All Rights Reserved 17
장학퀴즈 < 대결! 엑소브레인 > 결과 총 30 문제 (600 점 ) = 객관식 10 문제 (100 점 ), 주관식 10 문제 (200 점 ), 고난이도주관식 10 문제 (300 점 ) 엑소브레인 25 문제 (510 점 ), 차점자 18 문제 (350 점 ) 맞춤 < 객관식문제 > < 주관식문제 > c 2017, ETRI All Rights Reserved 18
쉬운문제와어려운문제 < 문제은행구축으로해결가능한문제 > c 2017, ETRI All Rights Reserved 19 < 문제의의미를이해하고, 답변을동적으로추론해야하는문제 >
과제개념 : WiseQA (Wise Question Answering) 자연어질문 자연어질의응답 문제이해정답후보추론최적정답추론 정답, 근거, 정확도 휴먼피드백 자연어이해 지식학습및축적 (1/2/3 세부과제 ) c 2017, ETRI All Rights Reserved 20
(1) 자연어심층이해기술 - 기계가이해하는자연어 소피스트란그리스어로지혜로운자또는지혜를만들어내는사람이라는뜻으로, BC 5~4 세기의그리스의철학자들을말한다. 이들은아테네사람들을대상으로하여수사학과웅변술을가르쳤다. 형태소분석 소피스트 /NNG+ 란 /JX 그리스 /NNP+ 어 /XSN+ 로 /JKB 지혜롭 /VA+ ㄴ /ETM 자 /NNB 또는 /MAG 지혜 /NNG+ 를 /JKO 만들 /VV+ 어 /EC+ 내 /VX+ 는 /ETM 사람 /NNG+ 이 /VCP+ 라는 /ETM 뜻 /NNG+ 으로 /JKB+,/SP BC/SL 5/SN+~/SO+4/SN+ 세기 /NNP+ 의 /JKG 그리스 /NNP+ 의 /JKG 철학 /NNG+ 자 /XSN+ 들 /XSN+ 을 /JKO 말 /NNG+ 하 /XSV+s다 /EF+./SF 이 /NP+ 들 /XSN+ 은 /JX 아테네 /NNP 사람 /NNG+ 들 /XSN+ 을 /JKO 대상 /NGG+ 으로 /JKB 하 /VV+ 아 /EC 수사 /NNG+ 학 /XSN+ 과 /JC 웅변 /NNG+ 술 /XSN+ 을 /JKO 가르치. /VV+ 었 /EP+ 다 /EF+./SF 문법분석 개체명인식 어휘의미분석 <CV_OCCUPATION: 소피스트 /NNG>+ 란 /JX <CV_LANGUATE: 그리스 /NNP+ 어 /XSN>+ 로 /JKB 지혜롭 /VA+ ㄴ /ETM 자 /NNB 또는 /MAG 지혜 /NNG+ 를 /JKO 만들 /VV+ 어 /EC+ 내 /VX+ 는 /ETM 사람 /NNG+ 이 /VCP+ 라는 /ETM 뜻 /NNG+ 으로 /JKB+,/SP <DT_DURATION:BC/SL 5/SN+~/SO+4/SN+ 세기 /NNP>+ 의 /JKG <LCP_COUNTRY: 그리스 /NNP>+ 의 /JKG 철학 /NNG+ 자 /XSN+ 들 /XSN+ 을 /JKO 말 /NNG+ 하 /XSV+s다/EF+./SF 이 /NP+ 들 /XSN+ 은 /JX <LCP_CAPITALCITY: 아테네 /NNP> 사람 /NNG+ 들 /XSN+ 을 /JKO 대상 /NGG+ 으로 /JKB 하 /VV+ 아 /EC <FD_ART: 수사 /NNG+ 학 /XSN>+ 과 /JC <FD_ART: 웅변 /NNG+ 술 /XSN>+ 을 /JKO 가르치 /VV+ 었 /EP+ 다 /EF+./SF. 소피스트란그리스어로지혜로운자 18_0000/NNB 또는지혜 02_0001/NNG+ 를만들 00_0101/VV+ 어내는사람 00_0001/NNG+ 이라는뜻 00_0002/NNG+ 으로, BC 5~4+ 세기 03_0002/NNG+ 의그리스 02_0000/NNP+ 의철학자들을말하 00_0101/VV+ ㄴ다. 의존구문분석 <VP> 말한다. <VP> 의미분석 의미역인식 상호참조해결 무형대용어생략복원 <AJT> <OBJ> 뜻으로 철학자들을 <THME: 대상 > <SBJ> <VNP_MOD> <NP_MOD> <NP_MOD> 소피스트란 사람이라는 5~4세기 <AGENT: 행동주 > 그리스의 <NP> BC <AJT> <NP> <AP> <VP_MOD> 그리스어로 자 또는 만들어내는 <AGENT: 행동주 > <SBJ> 이들은 가르쳤다. <VP> <THME: 대상 > <OBJ> 하여 웅변술을 <AGENT: 행동주 > <ATTR: 속성 > <SBJ> <OBJ> <THME: 대상 > <AJT> <CNJ> 이들은 사람들을 대상으로 수사학과 <NP> 아테네 c 2017, ETRI All Rights Reserved <VP_MOD> <THME: 대상 > <OBJ> <THME: 대상 > 지혜로운지혜를
(2) 언어지식추출 / 학습 / 구축 도서 12 만권분량을자동으로학습하여언어지식으로생산 맵리듀스분산처리기반 6 일이내분석가능 (4 대사용 ) 어휘지식베이스 (WiseWordNet ): 1,677,885 개어휘 < 어휘지식베이스 > 왕 정기수 타입 코어지식선조 국적조선 리더기간 1567.00.00-1608.00.00 활동무관의병활동지휘의병장활동활동 TM_OVERLAP 국적 1572.00.00-1645.00.00 직책기간정봉수직급활동 임진왜란 평안북도 활동지 장소 정묘호란 소이벤트 < 비정형언어지식베이스 > < 시연 >
(3) 단답형질의응답기술 Q 이것은정도전이 ' 천하를다스리는데부지런해야하고, 안일하지말아야왕의소임을다하는것 ' 이라는의미로이름을지었다. 경복궁에속한이건물의이름은무엇일까? A 1. 근정전 ( 신뢰도 : 80%) 2. 광화문 ( 신뢰도 : 5%) 3. 강녕전 ( 신뢰도 : 1%) 자연어분석과질문이해정답후보의복합추론최적정답의추론 자연어어휘 / 문맥 / 의미의분석 자연어질문의다차원분석 정답제약과질문시맨틱프레임생성 정형 / 비정형정답후보생성 정답후보의정답제약조건추론 정답가설근거추론및정답후보병합 최적정답신뢰도학습 최적정답응답임계치학습 최적정답신뢰도추론및검증 Logic-based WiseQA [1] 질문은정답을추론하고제약하는조건들을포함한다 [2] 정답은질문에서분석된모든조건들을 참 (True) 으로충족시켜야한다 [3] 문제를풀수록정답과오답을더욱정확하게판별해야한다 c 2017, ETRI All Rights Reserved < 시연 >
엑소브레인의현재성과 언어학자수준의문법이해기술과인간퀴즈왕수준의 QA 기술개발 SW 보급 (34건), 머신러닝학습데이터보급 (153건), 인력양성 (464명, 석사13명 / 박사4명배출 ) IPR 확보 : 국제표준 2건 ( 표준특허 7건 ), 국내표준 4건 자연어심층이해기술등의상용화 ( 솔트룩스-아담, 마인즈랩-마음, 인터웍스미디어-온라인광고 ) < 머신러닝학습데이터보급 ( 15, 16)> < 국내외언론보도 250 여건 > c 2017, ETRI All Rights Reserved 24 < 국제표준승인 2 건 ( 15, 16)>
언어의의미이해의중요성 25 c 2017, ETRI All Rights Reserved
엑소브레인의미래 : 2 단계개발목표 전문분야대상서술형질의응답핵심기술개발및산업화 - 전문분야 : 법률, 특허, 공공, 금융등 - 인공지능법률가 인공지능변리사 엑소브레인오픈 API 엑소브레인생태계 법률, 판례, 소송등자문 특허조사분석및심사자문 언어처리, 질의응답 API SW 배포, DB 배포, 인력양성
독해력이필요한질의응답문제 산소 https://ko.wikipedia.org/wiki/%ec%82%b0%ec%86%8c 텍스트 문제난이도 상 : 우주에서두번째로가장많은원소는? 중 : 우주에서많이존재하는원소중에서산소의순위는? 하 : 물에포함된산소는지각에존재하는산소전체의몇퍼센트를차지하나? c 2017, ETRI All Rights Reserved 27
법률분야인공지능개발동향 리걸테크 IT를활용해법조인 ( 판사, 검사, 변호사등 ) 의법률검색, 업무처리등을보조, 또는일반인의법률자문, 판례분석등을도와주는기술및서비스 유망분야내용국내외기술현황 법률검색 -( 미국 ) ROSS Intelligence (IBM 왓슨활용 ): 파산법관련법률 / 판례를분석해수임사건법조인이담당한입법안또는사건관련된방대한법령, 판례, 에도움이될만한내용을제공논문등의검색서비스 -( 미국 ) Westlaw: 판례, 법령, 행정규제, 신문 / 논문등법률관련정보검색기능제공 변호사, 전문가등 검색 / 추천 고객이조건에맞는변호사를검색또는추천하는서비스 -( 한국 ) 헬프미 : 온라인변호사검색기능및법률상담기능제공 -( 영국 ) Lexoo: 고객의조건에맞는변호사추천기능제공 전자증거개시 소송준비과정중디지털데이터로부터증거를수집하고분 석하는서비스 -( 미국 ) Disco: 다양한전자문서에서정보를검색, 추출, 관리하는기능제공 -( 미국 ) Logikcull: 클라우드기반으로디지털증거를분석하고추출하는기능제공 법률자문및전략수립 입법관련입법안의통과가능성또는사법관련소송에서승 소가능성등의예측분석 -( 미국 ) FiscalNote: 입법안의통과가능성을분석하는프로퍼시 (Prophecy), 규제정보를 분석하는 소나 (Sonar) 등을통해입법과관련법령정보를분석하여기업에제공 -( 미국 ) Lex Machina: 데이터마이닝기반법원의판결예측분석기능제공 c 2017, ETRI All Rights Reserved 28
4 차산업혁명에서지식노동의자동화단계 - AI 적용단계 1 단계 : 보조자수준 전문가시스템을하나의보조자로보는것으로, 이들은일상적인분석수행을돕고전문성이필요한작업부분을지적해준다. 2 단계 : 동료수준 사용자는문제에대하여시스템과계속해서 " 이야기 " 를함으로써마침내 " 공동결정 " 에이를수있도록돕는다. c 2017, ETRI All Rights Reserved 3 단계 : 전문가수준 사용자는시스템을진정한전문가로보고사용자는시스템의조언을의심할여지없이받아들인다. < 출처 : 위키피디아 >
장기적관점에서의연구와육성이중요 대가들의언어처리기술개발에대한발언 (Computation Linguistics, 2015) Explainable AI : 인간이이해못하는인공지능, 믿어도되나 c 2017, ETRI All Rights Reserved 30
기술 / 시장의환경변화대응은? - 엑소브레인과 4 차산업혁명 전문가시스템 (1 순위 ), 자율로봇 (2 순위 ), 지능형가상비서 (3 순위 ) 시장선도 출처 : TechNavio 2015, BCC 리서치 2015 엑소브레인의 4 차산업혁명에서적용분야와시기 c 2017, ETRI All Rights Reserved 31
맺음말 국가와산업에활용가능한인공두뇌개발 스마트머신 ( 스마트자문가 : 인간의지적노동 10% 보조 ) 지적노동의자동화 (5~7 조달러경제적가치 ) Top 10 Strategic Technology Trends for 2014 <Gartner, 2013> Disruptive technologies <McKinsey, 2013> 2011 2020 2024 2030 2045 인공지능재조명 <Techcast, 2013> 기계가인간의지적노동 30% 대체 Tomorrow s world: A guide to the next 150 years <BBC, 2013> 인간지능을뛰어넘는슈퍼지능머신 ( 확률 10%~50%) c 2017, ETRI All Rights Reserved 32
인간의지식노동을보조하기위한시작단계 인간에게어려운일이로봇에게는쉽고, 인간에게쉬운일이로봇에게는어렵다. < 한스모라벡의역설 >
감사합니다. c 2017, ETRI All Rights Reserved