Microsoft PowerPoint - WiseNLU(ETRI, 임수종) 배포본

Similar documents
PowerPoint 프레젠테이션


RNN & NLP Application

Naver.NLP.Workshop.SRL.Sogang_Alzzam

< B3EDB9AEB8F1C2F728332D362936BFF92E687770>

<C5D8BDBAC6AEBEF0BEEEC7D02D3336C1FD2E687770>

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Structural SVMs 및 Pegasos 알고리즘을 이용한 한국어 개체명 인식

000논문집-목차

자연언어처리

PowerPoint Presentation

제5장 형태소분석

윙윙_포트폴리오_3

DIY 챗봇 - LangCon

제 26 회한글및한국어정보처리학술대회논문집 (2014 년 ) 한국어 NLP2RDF 프레임워크 원유성 한국과학기술원, Semantic Web Research Center {styner0305, jiwoo35, prismriver, hahmyg,

Big Data Analysis Using RHINO

Chap 6: Graphs

딥러닝NLP응용_이창기

웹 기반 네트워크 모니터링 및 분석 시스템의 설계와 구현

PowerPoint 프레젠테이션

핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

어휘의미 체계 기반 입체적 국어사전 확장

와플-4년-2호-본문-15.ps

(JBE Vol. 24, No. 1, January 2019) (Special Paper) 24 1, (JBE Vol. 24, No. 1, January 2019) ISSN 2287-

핵 심 교 양 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 교양학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (

자연언어처리

(p47~53)SR

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Ch 1 머신러닝 개요.pptx

<C0CCBCF8BFE42DB1B3C1A4BFCFB7E12DB1E8B9CCBCB12DC0DBBCBAC0DAB0CBC1F5BFCFB7E12DB8D3B8AEB8BBB3BBBACEC0DAB0CBC1F52E687770>

È޴ϵåA4±â¼Û

강의계획서 과목 : JUN s TOEIC 700+( 도약 ) 2017년 3차강사 : 황준선 교재 : ETS 토익기본서 (RC&LC)+ 수업부교재 (JUN s TOEIC 700+) + 품사별추가문제 +Mini Test 수업목표 : LC & RC 필수기본전략수립및 GRAM

untitled

Frama-C/JESSIS 사용법 소개

<B9ABC1A62D31>

Microsoft Word - src.docx


<B3EDB9AEC0DBBCBAB9FD2E687770>

<464B4949B8AEC6F7C6AE2DC0AFBAF1C4F5C5CDBDBABBEABEF7C8AD28C3D6C1BE5FBCD5BFACB1B8BFF8BCF6C1A4292E687770>

1차내지


딥러닝 첫걸음

슬라이드 1

¼Òâ¹Ý¹®Áý¿ø°í.hwp

에너지절약_수정

G hwp

E (2005).hwp

목차 AI Boom Chatbot Deep Learning Company.AI s Approach AI Chatbot In Financial service 2


Microsoft Word - How to make a ZigBee Network_kr


1-1-basic-43p

TTA Journal No.157_서체변경.indd

UDI 이슈리포트제 20 호 울산권개발제한구역의효율적관리방안 도시계획연구실정현욱연구원 052) / < 목차 > 요약 1 Ⅰ. 서론 3 Ⅱ. 울산권개발제한구역의현황및문제점 4 Ⅲ. 외국의개발제구역대안적관리사

OCW_C언어 기초

Observational Determinism for Concurrent Program Security

[PyConKR2017] 노가다 없는 텍스트 분석을 위한 한국어 NLP

Microsoft PowerPoint - AC3.pptx


국어 순화의 역사와 전망

歯15-ROMPLD.PDF

JAVA PROGRAMMING 실습 08.다형성

정보 사회와 컴퓨터

PHP & ASP

step 1-1

<28C3D6C1BE29C7D1B1B9BEEEB9AEB9FDB7D028317E D E687770>

Slide 1

ë–¼ì‹€ìž’ë£„ì§‚ì‹Ÿì€Ł210x297(77p).pdf

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

08( ) CPLV15-64.hwp

레프트21

문화재이야기part2

현장에서 만난 문화재 이야기 2


CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관


Curriculum Vitae 2 Sangkeun Jung, Cheongjae Lee. Gary Geunbae Lee. Using utterance and semantic level confidence for interactive spoken dialog clarifi


08학술프로그램

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

5 291

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

< FB1B9BEEEB1B3C0B0BFACB1B C1FD5FC3D6C1BE2E687770>

DBPIA-NURIMEDIA

ICT À¶ÇÕÃÖÁ¾

차 례 머리말 Ⅰ. 21세기세종계획일지 Ⅱ. 21세기세종계획사업조직변천및주요사업내역 i -

The mission minded church - Strategies in building a multicultural ministry – Die missions-bereite Kirche - Strategien zum Aufbau multikultureller Ge

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

src.xls

03±èÀçÈÖ¾ÈÁ¤ÅÂ

PowerPoint 프레젠테이션

KD hwp

제1강 인공지능 개념과 역사

PowerPoint 프레젠테이션

41호-소비자문제연구(최종추가수정0507).hwp

Transcription:

WiseNLU: 지식처리를 위한 자연어 의미 이해 기술 2015. 8. 21. 임수종/이충희/임준호/김현기 ETRI 지식마이닝연구실 1/69 1/63

과제개념 : WiseQA 복잡한자연어로기술된문제의의미를이해하고정답을추론하여생성함 자연어질문 연구목표 자연어질의응답 문제이해정답후보추론최적정답생성 정답, 근거, 정확도 휴먼피드백 자연어어휘 / 문장 / 문맥간의미이해기술개발 언어이해에필요한모든기술을파이프라인으로연결 생태계조성을위한자연어이해기술보급 한국어심층이해기술의국내표준화추진 자연어 WiseNLU 이해 지속적학습 (1/2/3 세부과제 )

WiseNLU: 개발방향 2 자연어문장의이해 1 의미역인식 의존구문분석 3 자연어어휘의이해 개체명인식 형태소분석 Symbo Preprocessing Word Spacing 언어자원 Sentence Boundary Recognition 상호참조해결 자연어문맥의이해 어휘의미분석 전처리 무형대용어생략복원 자연어구문의이해 자연어의미의이해 WP2: 지속적언어지식학습연계성능개선추진

WiseNLU: 연구목표및구성도 언어지능 : 세계최고수준자연어이해기술개발가능성검증 방법론 : 인간의언어이해방법을모방한자연어이해기술설계및방법론정립 1. 파이프라인 : 어휘분석 à 어휘의미분석 à 구문분석 à 의미역인식 à 문맥인식 2. 하이브리드 : 빠르고명확한분석방법 ( 사전 + 패턴 ) + 의미제약 / 추론방법 [ 어휘의미망 + 기계학습 )

WiseNLU: Exampe 소피스트란그리스어로지혜로운자또는지혜를만들어내는사람이라는뜻으로, BC 5~4 세기의그리스의철학자들을말한다. 이들은아테네사람들을대상으로하였고, 수사학과웅변술을가르쳤다. 형태소분석 개체명인식 어휘의미분석 소피스트 /NNG+ 란 /JX 그리스 /NNP+ 어 /XSN+ 로 /JKB 지혜롭 /VA+ ㄴ /ETM 자 /NNB 또는 /MAG 지혜 /NNG+ 를 /JKO 만들 /VV+ 어 /EC+ 내 /VX+ 는 /ETM 사람 /NNG+ 이 /VCP+ 라는 /ETM 뜻 /NNG+ 으로 /JKB+,/SP BC/SL 5/SN+~/SO+4/SN+ 세기 /NNP+ 의 /JKG 그리스 /NNP+ 의 /JKG 철학 /NNG+ 자 /XSN+ 들 /XSN+ 을 /JKO 말 /NNG+ 하 /XSV+s다/EF+./SF 이 /NP+ 들 /XSN+ 은 /JX 아테네 /NNP 사람 /NNG+ 들 /XSN+ 을 /JKO 대상 /NGG+ 으로 /JKB 하 /VV+ 았 /EP+ 고 //EC+,/SP 수사 /NNG+ 학 /XSN+ 과 /JC 웅변 /NNG+ 술 /XSN+ 을. /JKO 가르치 /VV+ 었 /EP+ 다 /EF+./SF <CV_OCCUPATION: 소피스트 /NNG>+ 란 /JX <CV_LANGUATE: 그리스 /NNP+ 어 /XSN>+ 로 /JKB 지혜롭 /VA+ ㄴ /ETM 자 /NNB 또는 /MAG 지혜 /NNG+ 를 /JKO 만들 /VV+ 어 /EC+ 내 /VX+ 는 /ETM 사람 /NNG+ 이 /VCP+ 라는 /ETM 뜻 /NNG+ 으로 /JKB+,/SP <DT_DURATION:BC/SL 5/SN+~/SO+4/SN+ 세기 /NNP>+ 의 /JKG <LCP_COUNTRY: 그리스 /NNP>+ 의 /JKG 철학 /NNG+ 자 /XSN+ 들 /XSN+ 을 /JKO 말 /NNG+ 하 /XSV+s다/EF+./SF 이 /NP+ 들 /XSN+ 은 /JX <LCP_CAPITALCITY: 아테네 /NNP> 사람 /NNG+ 들 /XSN+ 을 /JKO 대상 /NGG+ 으로 /JKB 하 /VV+ 았 /EP+ 고 //EC+,/SP <FD_ART: 수사 /NNG+ 학 /XSN>+ 과 /JC <FD_ART: 웅변. /NNG+ 술 /XSN>+ 을 /JKO 가르치 /VV+ 었 /EP+ 다 /EF+./SF 소피스트란그리스어로지혜로운자 18_0000/NNB 또는지혜 02_0001/NNG+ 를만들 00_0101/VV+ 어내는사람 00_0001/NNG+ 이라는뜻 00_0002/NNG+ 으로, BC 5~4+ 세기 03_0002/NNG+ 의그리스 02_0000/NNP+ 의철학자들을말하 00_0101/VV+ ㄴ다. 의존구문분석 의미역인식 상호참조해결 무형대용어생략복원 <VP> 말한다. <AJT> <OBJ> 뜻으로 철학자들을 <THME: 대상 > <SBJ> <VNP_MOD> <NP_MOD> <NP_MOD> 소피스트란 사람이라는 5~4세기 그리스의 <AGENT: 행동주 > <NP> BC <AJT> <NP> <AP> <VP_MOD> 그리스어로 자 또는 만들어내는 <VP_MOD> <THME: 대상 > <OBJ> <THME: 대상 > 지혜로운 지혜를 <VP> <AGENT: 행동주 > 가르쳤다. <SBJ> 이들은 <VP> <THME: 대상 > <OBJ> 하였고, 웅변술을 <AGENT: 행동주 > <ATTR: 속성 > <SBJ> <OBJ> <THME: 대상 > <AJT> <CNJ> 이들은 사람들을 대상으로 수사학과 <NP> 아테네

WiseQA 적용 헨리필립호프가블루호프를구매한해는? 정답후보문장 은행가헨리필립호프는블루호프를 1830년에구매했다. 헨리필립호프는블루호프를이듬해에샀다. 1830년헨리필립호프가구매한블루호프는 블루호프는헨리필립호프에게 1830년에팔렸다. 보석상에리아손은블루호프를헨리필립호프에게 1830년에팔았다. 헨리필립호프는 1900년에뉴욕의거래상에게블루호프를팔았다. 1830년헨리필립호프는런던에서이다이아몬드를구입했다. 헨리필립호프는블루호프를 70년간소유하였는데, 1830년에사들였다.

음절학습기반형태소분석기술 연구목표및성과 사전과음절학습을통합한형태소분석기 * 기분석사전 270 만건 + 음절학습 111 만어절 다국어언어확장을위한형태소분석방법 * SVM 기반언어독립적인음절학습적용 한국어형태소태그셋국내표준채택 입력문장 음절분리 규칙기반전처리 엥겔키퍼비교수는엑스선은파장이 0.01 나노미터이며, 1. 음절학습기반형태소분석 엥겔키퍼비 /NNP+ 교수 /NNG+ 는 /JX 엑스선 /NNG+ 은 /JX 파장 /NNG+ 이 /JKS 0.01/SN 나노 /NNG+ 미터 /NNB+ 이 /VCP+ 며 /EC+,/SP 문맥정보기반음절학습을통한신조어인식기분석사전을통한 2. 기분석사전기반형태소음절학습분석오류수정 엥겔키퍼비 /NNP+ 교수 /NNG+ 는 /JX 엑스선 /NNG+ 은 /JX 파장 /NNG+ 이 /JKS 0.01/SN 나노미터 /NNB+ 이 /VCP+ 며 /EC+,/SP 기분석사전기반전처리 음절단위품사분류 규칙기반후처리 형태소결합 기본사전 ( 확장 ): 단위품사 ( 용언, 부사, 단일명사 ) (123,303 개 à1,378,374 개 ) 복합명사사전 : 1,320,495 개 학습셋 : 111 만어절형태소태깅말뭉치 * NNP: 고유명사, NNG: 일반명사, NNB: 의존명사 < 형태소분석기술 > 원형복원 < 형태소분석기술구성도 > 원형복원추출태깅말뭉치 : 1,011 만어절

세부분류개체명인식기술 연구목표및성과 자연어질의응답을위한개체명인식기술개발 * 2단계, 180개세부분류인식 * 개체명사전 307만건 + 학습셋 956만문장구와절형태의고난이도개체명인식기술개발 * 예 : 영화 à 성실한나라의엘리스 한국어개체명분류체계정립및국내표준화 국보인첨성대는신라중기의석조건축물이다. 1 단계 : 개체명경계및대분류인식 (35 개클래스 ) AF DT 2 단계 : 개체명세분류인식 (180 개클래스 ) * AF(Artifact): 인공물 ( 대분류클래스 ) * DT(Date): 날짜표현 ( 대분류클래스 ) * AF_CULTURAL_ASSET: 문화재 ( 세분류클래스 ) * DT_DYNASTY: 왕조시대 ( 세분류클래스 ) Q: <PS_NAME: 헨리필립호프 > 가 <MT_ROCK: 블루호프 > 를구매한해는? 은행가 <PS_NAME: 헨리필립호프 > 는 <MT_ROCK: 블루호프 > 를 <DT_YEAR:1830 년 > 에구매했다. <PS_NAME: 헨리필립호프 > 는 <MT_ROCK: 블루호프 > 를이듬해에샀다. <MT_ROCK: 블루호프 > 는 <PS_NAME: 헨리필립호프 > 에게 <DT_YEAR:1830 년 > 에팔렸다. 보석상에리아손은 <MT_ROCK: 블루호프 > 를 <PS_NAME: 헨리필립호프 > 에게 <DT_YEAR:1830 년 > 에팔았다. <PS_NAME: 헨리필립호프 > 는 <DT_YEAR:1900 년 > 에 <LCP_CITY: 뉴욕 > 의거래상에게 <MT_ROCK: 블루호프 > 를팔았다. <DT_YEAR:1830 년 > <PS_NAME: 헨리필립호프 > 는 <LCP_CITY: 런던 > 에서이다이아몬드를구입했다. <PS_NAME: 헨리필립호프 > 는 <MT_ROCK: 블루호프 > 를 <DT_DURATION:70 년간 > 소유하였는데, <DT_YEAR:1830 년 > 에사들였다.

다의어수준어휘의미분석기술 연구목표 주요성과 의미이해를위한동형이의어및다의어분석기술개발 * 동형이의어빈도 : 9.7% ( 표준국어대사전 ) * 다의어빈도 : 12% ( 표준국어대사전 ) 고성능어휘의미분석을위한결합방법론연구 동음이의어와다의어분석을순차적으로분석하는 2 단계어휘의미분석기술개발 * 동음이의어학습셋 818 만건 + 다의어학습셋 377 만건 다양한의미분석모델을결합한앙상블학습기반어휘의미분석방법확립 안중근은두손목에수갑을차고있었다. 1 단계 : 동음이의어차 _03 인식 2 단계 : 다의어차 _03_01_02 인식 Q: 헨리필립호프가블루호프를구매한 < 해 : 010002 > 는? <Q_Focus: temp> 헨리필립호프는블루호프를이듬해에샀다 < 사 : 000100 >. 블루호프는헨리필립호프에게 1830 년에팔렸다.< 팔리 : 000001 > 보석상에리아손은블루호프를헨리필립호프에게 1830 년에팔았다 < 팔 : 000101 >. 헨리필립호프는 1900 년에뉴욕의거래상에게블루호프를팔았다 < 팔 : 000101 >. 안중근은두손목에수갑을차 03_01_02+ 고있었다. < 어휘의미분석기술연구목표 >

의존구문분석기술 연구목표 지배소후위트렌지션기반의존구문분석개발 * 250 여종자질개발및최적화기계학습기술개발 * 문장부호및문장유형특성을반영한성능개선 * 국내최고정확률 92.5%( 세종 ), 93.0%(GS) 달성 위키피디아와다양한문장유형의의존구문분석 기계학습과규칙을혼합한하이브리드분석 Q: 헨리필립호프가블루호프를구매한해는? 구매하다 ( 헨리필립호프 :SBJ, 블루호프 :OBJ, 해 :AJT_temp à Q_focus) 은행가헨리필립호프는블루호프를 1830 년에구매했다. 구매하다 ( 헨리필립호프 :SBJ, 블루호프 : OBJ, 1830 년 :AJT_temp) 신민회는기독교이념을바탕으로 1907 년에조직된단체이다. 지배소후위트렌지션기반의존구문분석 1 단계 신민회는... 1907년에조직된단체이다. 헨리필립호프는블루호프를이듬해에샀다. 사다 000100 ( 헨리필립호프 :SBJ, 블루호프 : OBJ, 이듬해 :AJT_temp) 다의어수준어휘의미분석 유의어정보 ( 구매하다 == 사다 000100 ) 시간정보정규화 ( 이듬해 == 1830 년 ) 2 단계 신민회는... 1907년에조직된단체이다. * 트렌지션방법을이용한계산속도개선 : O(n 3 ) à O(n) * 한국어지배소후위특징반영 : 정확률및효율성향상 1830 년헨리필립호프가구매한블루호프는... 구매하다 ( 헨리필립호프 :SBJ, 블루호프 :VP_MOD, ) 장밥티스트는블루호프를헨리필립호프에게 1830 년에팔았다. 팔다 ( 장밥티스트 :SBJ, 블루호프 :OBJ, 헨리필립호프 :AJT, 1830 년 :AJT_temp) * UAS: Unabeed Attachment Score

의미역인식기술 연구목표 문장표현의의미애매성해소를위한의미역인식기술개발 * Sequence Labeing 및의미자질활용도메인확장을위한 Prior mode 기반 DA 방법론확립 한국어의미역및태깅말뭉치구축방법론정립 * 의미역개수 : 23 개 ( 핵심격 5 개, 부가격 18 개 ) 질문 : 신민회는언제조직되었나? 정답후보문장 : ( 문장 1) 신민회는 1907 년에조직되었다. ( 문장 2) 1907 년에조직된신민회는 <SBJ> <VP> 신민회는 조직되었다. 문장 1 문장 2 <SBJ> <AJT> 1907 년에 신민회는 <VP_MOD> 조직된 <AJT> 1907년에 Q: 헨리필립호프가블루호프를구매한해는? 구매하다 ( 헨리필립호프 :A0-buyer, 블루호프 :A1- thing bought, 해 :AM-TMP à Q_focus) 1830 년헨리필립호프가구매한블루호프는... 구매하다 ( 헨리필립호프 :A0-buyer, 블루호프 :A1- thing bought, 1830 년 :AM-TMP) 보석상에리아손은블루호프를헨리필립호프에게 1830 년에팔았다. 팔다 ( 에리아손 :A0-seer, 블루호프 :A1-thing sod, 헨리필립호프 :A2-buyer, 1830 년 :AM_TMP) FrameSet ( 구매하다 ßà 팔다 ) 헨리필립호프는 1900 년에뉴욕의거래상에게블루호프를팔았다. 팔다 ( 헬리필립호프 :A0-seer, 블루호프 :A1-thing sod, 뉴욕의거래상 :A2-buyer, 1900 년 :AM_TMP) 의미역인식결과 PRED( 서술어 ) AGENT( 행동주 ) TMP( 시간 ) 조직되다 신민회 1907 년 블루호프는헨리필립호프에게 1830 년에팔렸다. 팔다 ( 블루호프 :A1-thing sod, 헨리필립호프 :A2-buyer, 1830 년 :AM_TMP) 사동 - 피동관계 ( 팔리다 ßà 팔다 ßà 구매하다 ) * DA: Domain Adaptation

상호참조해결기술 연구목표 주요성과 규칙과통계를결합한한국어상호참조해결기술개발 * 상호참조사용빈도 : 문장당 2.8 회 ( 위키백과 889 문장분석결과 ) 한국어상호참조해결기술정립및표준화 국내최초규칙 / 통계결합방법확립 * Deep Learning 기반 Guided Mention-Pair 모델개발 * 세계최고정확률 69.6% 달성 (IBM:63.4%) 국내표준화를위한한국어상호참조해결말뭉치및태깅가이드구축 질문 : 1907 년에안창호가설립한조직은? 정답후보문장 : 신민회는기독교이념을바탕으로조직된비밀결사단체이다. 이단체는 1907 년 4 월에안창호의발기에의해서창립되었다. 정답 : 이단체? 상호참조해결결과신민회는기독교이념을바탕으로조직된비밀결사단체이다. < 이단체 : 신민회 > 는 1907 년 4 월에안창호의발기에의해서창립되었다. Q: 헨리필립호프가블루호프를구매한해는? 구매하다 ( 헨리필립호프 :A0-buyer, 블루호프 :A1- thing bought, 해 :AM-TMP à Q_focus) 1830 년헨리필립호프는런던에서이다이아몬드를구입했다. 구입하다 ( 헨리필립호프 :A0-buyer, 이다이아몬드 :A1- thing bought, 1830 년 :AM-TMP, ) 어휘의미정보, 개체명인식기반상호참조해결 정답 : 신민회

무형대용어생략복원기술 연구목표 주요성과 한국어필수격무형대용어복원기술개발 * 무형대용어사용빈도 : 문장당 0.92 회 ( 위키피디아 3,000 문장분석결과 ) 학습데이터구축툴및시각화모듈개발 한국어무형대용어기술정립및표준화 3 단계다중기계학습기반생략복원기술개발 * 각단계별최적기계학습방법적용 * 세계최고성능 : 69.2% ( 일본어 : 42.7) 한국어무형대용어태그셋정립및국내표준화를위한말뭉치구축 ( 위키피디아 3 천문장 ) 질문 : 신민회가정주에설립한학교는? 정답후보문장 : 신민회는기독교이념을바탕으로조직된비밀결사단체이다. 민족교육을추진하고자평양에대성학교와정주의오산학교를설립하였다. 정주의오산학교를설립하였다 : 주어생략으로정답추론불가 무형대용어복원결과신민회는기독교이념을바탕으로조직된비밀결사단체이다. < 신민회는 > 민족교육을추진하고자평양에대성학교와정주의오산학교를설립하였다. 신민회 주어복원으로인해정답 오산학교 추론가능 Q: 헨리필립호프가블루호프를구매한해는? 구매하다 ( 헨리필립호프 :A0-buyer, 블루호프 :A1-thing bought, 해 :AM-TMP à Q_focus) 헨리필립호프는블루호프를 70 년간소유하였는데, 1830 년에사들였다. 소유하다 ( 헨리필립호프 :SBJ, 블루호프 :OBJ, 70 년간 :AJT) 사들이다 (1830 년 :AJT) 생략된필수격 ( 주격, 목적격 ) 복원 표제어복원

WiseNLU : 데모 ETRI 언어분석워크벤치 이것은여류작가 셸리 가 1818 년에쓴소설로공포소설이면서공상과학소설의고전으로손꼽힌다. 파리에서출판된이소설은무엇일까?

자연어의특성을고려한실질적기술개발 언어의생명성과문장부호의의미를이해가능한기술개발 국립국어원 2014년표준어추가시정안 발표 (2014.12.15.) 신규표준어및신조어의지속적학습을통한성능개선 (WP2 지속적학습기술연계 ) 국립국어원 한글맞춤법문장부호개정안 발표 (2014.10.27. 발표, 26년만의개정 ) 인터넷환경의글쓰기에적합하도록문장부호용법현실화 : 조항수 66개 à 94개증가 문장부호사용빈도 : 문장당평균 1.2회발생 ( 위키백과 ) 문장부호로표현되는문장구조반영을통한의존구문분석성능개선 : 90.1% à 91.2% 예문 : " 장안에화제가된다 " 는말의장안은당나라의수도이며현재는어디인가? 장안에 어절이 수도이며 로잘못분석됨 장안에화제가된다 인용문이한단위로올바르게분석됨 윌리엄셰익스피어 (Wiiam Shakespeare, 1564 년 4 월 26 일 ~1616 년 4 월 23 일 ) 는영국의극작가, 시인이다. à 자연어이해대상문장 : 윌리엄셰익스피어는영국의극작가, 시인이다. à 문장부호기반구문처리 Wiiam Shakespeare (type: 부가설명 ) 1564 년 4 월 26 일 ~1616 년 4 월 23 일 (type: 연대 ) < 문장부호반영이전구문분석결과 < > 문장부호반영이후구문분석결과 >

Deep Learning 적용자연어심층이해성능개선 접근방법 1. Deep Neura Network(DNN) 입력으로 Pre-training 된결과사용 예 : Word Embedding, Phrase Embedding 구조적분류를위한신경망구조확장적용 Convoutiona Neura Network, LSTM 2. 지도학습방법에 WE 결과를학습자질로사용 실험결과 Word2Vector 이용하여학습 K-means 이용하여클러스터링 방법론 개체명인식 의존구문분석 의미역인식 상호참조해결 지도학습 90.7% 92.5% 77.8% 60.46% DNN 88.4% 90.4% 75.1% 69.6% (Nopretraining: 65.8%) 지도학습 + WE 89.0% - 76.9% - <Sentence approach network, R. Coobert/JMLR 2011>

LSTM:Long Short-Term Memory RNN architecture specificay designed to address the vanishing gradient and expoding gradient probem The hidden neura units are repaced by a number of memory bocks. Each memory bock contains severa ces whose activations are controed by 3 mutipicative gates Input/forget/output gate Deep Bidirectiona LSTM A standard LSTM processes the sequence in forward direction. The output of this LSTM ayer is taken by the next LSTM ayer as input, processed in reversed direction These two standard LSTM ayers compose a pair of LSTM End-to-end Learning of SRL Using RNN (Zhou, 2015)

지속적학습목표및구성도 학습지능 : 빅데이터로부터끊임없이언어지식학습및증강 방법론 : 빅데이터로부터끊임없이언어지식을추출하고학습하는기술설계및방법론정립 1. Never-ending Language Learning: 빅데이터로부터끊임없이언어지식을자가학습 2. Language sustainabiity: 새로운언어지식획득 3. Domain adaptabiity: 도메인확장 신뢰도검증 지속적언어지식추출프레임워크 < 어휘지식학습예 > < 지속적언어지식학습프레임워크 >

지속적학습적용예 단서문장 그러나, <COUNTRY: 일본 > 과 <COUNTRY: 미국 > 의 <POLICY: 가쓰라 - 태프트밀약 > 후변절한이사람은누구인가? 단서기반언어지식확장 cue word 학습 협약, 조약협정, 약조, 선언 언어이해패턴학습 <COUNTRY> 과 / 와 <COUNTRY> 의 <TARGET:POLICY> 화약, 밀약 지난 42 년간미궁속에묻혔던 <COUNTRY: 한국 > 과 <COUNTRY: 일본 > 의 <POLICY:' 독도밀약 의독도밀약실체가 > 드러났다의실체가. 월드러났다간중앙은. 월간중앙은 1670 년에 <COUNTRY: 잉글랜드 > 와 <COUNTRY: 프랑스 > 의 <POLICY: 도버밀약에도버밀약따라 1672 > 에년따라특별1672 사면권을년특별 사면권을 언어이해기술개선 학습기반언어지식확장 언어자원 ( 사전 ) 증강 난징조약, 을사조약, 강화도조약, 독도밀약, 도버밀약, 한로밀약, 비외르쾨밀약, 통계기반학습데이터추가및언어이해모델증강.. <POSITION: 박정희대통령 > 이 <COUNTRY: 일본 > 과 <POLICY: 독도밀약 > 을했는데, 아마도 <ISLAND: 독도 > 를 <DATE:1965 년 1 월 > <COUNTY: 성북동 > 에서 <POSITION: 정일권국무총리 > 와 <COUNTRY: 일본 > <POLITICS: 자민당 > 의실력자 <POSITION: 우노소스케의원 > 이 <POLICY: 독도밀약 > 에사인을한사건이있었습니다 <POLICY: 비외르쾨밀약은비외르쾨밀약 <DATE: > 은 1905 <DATE: 년 7월1905 24일년> 7<POSITION: 월 24일 > 러 <POSITION: 시아황제니콜라이러시아2황제세 > 와니콜라이 <POSITION: 2세 > 와독일 <POSITION: 황제빌헬름독일 2 황제세 > 가빌헬름맺은비밀조약으로 2세 > 가맺은, 비밀조약으로, <POLICY: 도버밀약은도버밀약 <WAR: > 제은 3<WAR: 차영국-제네덜란드 3차영국전쟁 -네덜란드 > 당시전쟁 > 당시 <COUNTRY: 영국영국 > 과 > 과 <COUNTRY: 프랑스프랑스 > 가 > 가<DATE:1670 <DATE:1670 년 6월 1일 > 체결한년 6월비밀 1일 > 조약이다체결한비밀. 조약이다. 학습기반언어이해기술개선 학습기반언어지식확장 지식베이스지식증강 독도밀약 : 도버밀약 : 한로밀약 : 비외르쾨밀약 :.. 언어이해패턴학습 <COUNTRY> 과 / 와 <COUNTRY> 의 <TARGET:POLICY> <TARGET:POLICY> 은 / 는 <DATE> <POSITION> 과 / 와 <POSITION> 가 < 맺, 체결하 > 비밀조약 <TARGET:POLICY> 은 / 는 <WAR> <COUNTRY> 과 / 와 <COUNTRY> 가 <DATE> < 맺, 체결하 > 비밀조약

어휘의미관계 ( 신조어,IS-A) 추출기술독창성 빅데이터로부터언어지식을끊임없이학습하는방법론정립 * Continuous Learning 사이클생성 : 언어지식의자동확장 à 언어이해성능개선 형태소신조어 IS-A 관계 문서수집 독일을선택한메수트외질을 " 국가의배반자 " 라고비판해, 한편외질은최근 4 번의캄프누원정에서 외질은최근 EPL 리그뿐만아니라챔피언스리그에서도 17,251 개어절.. 외질 ( 터키어 : Mesut Ozi, 1988 년 10 월 15 일 ~ ) 은잉글랜드프리미어리그아스널소속의축구선수이다. 외질은분명특별한축구선수로평가된다. < 시드패턴지식 > #INSTANCE#=NP[PS_NAME] à #TYPE#=VNP[CV_OCCUPATION]( 이다 ) 303,591 개위키백과문서 지식추출 격조사기반단어추출 독일을선택한메수트외질을 " 국가의배반자 " 라고비판해, 한편외질은최근 4 번의캄프누원정에서 외질은최근 EPL 리그뿐만아니라챔피언스리그에서도 외질은잉글랜드프리미어리그아스널소속의축구선수이다. 반복적 IS-A 어휘의미관계지식확장 통계기반신뢰도필터링 외질은분명특별한축구선수로평가된다. 그가제기량을발휘한다면, 아스널로선천군만마를얻은것이나 통계기반신뢰도필터링 독일 1, 외질 3, 국가 1, 4 번 1, 원정 1, 챔피언스리그 1 신조어후보 1,555 개추출 < 확장지식 > #INSTANCE#=NP[PS_NAME] à #TYPE#=NP_AJT[CV_OCCUPATION]( 로 ) à VP( 평가되다 ) IS-A 지식 551 개구축 사전기반필터링 독일 1, 외질 3, 국가 1, 4 번 1, 원정 1, 챔피언스리그 1 고빈도저신뢰지식필터링 #INSTANCE#=NP[PS_NAME] à #TYPE#=NP_AJT[CV_OCCUPATION]( 로 ) à VP( 평가되다 ) 추출어휘의미관계 è ( 홍진영, 복면가왕 ), ( 공지영, 노동운동가 ) IS-A 303,268 개추출 지식검증 외질 NNG 챔피언스리그 NNG 형태소신조어사전생성 외질 NNG, 챔피언스리그 NNG 자동평가기반신조어검증성능하락 : 아니오성능하락 : 예 외질 NNG 챔피언스리그 NNG 신조어 176 개추출 신조어추출정확도 94.7% 자동평가기반 IS-A 어휘의미관계지식검증 성능향상 : 예 #INSTANCE#=NP[PS_NAME] à #TYPE#=NP_AJT[CV_OCCUPATION]( 로 ) à VP_[ 평가되다 ] 성능향상 : 아니오 #INSTANCE#=NP[PS_NAME] à #TYPE#=NP_AJT[CV_OCCUPATION]( 로 ) à VP_[ 평가되다 ] IS-A 추출정확도 89.3%

WiseNLU: 개발방향 2 자연어문장의이해 1 의미역인식 의존구문분석 3 자연어어휘의이해 개체명인식 형태소분석 Symbo Preprocessing Word Spacing 언어자원 Sentence Boundary Recognition 상호참조해결 자연어문맥의이해 어휘의미분석 전처리 무형대용어생략복원 자연어구문의이해 자연어의미의이해

Broad-Coverage Semantic DP (SemEva 2014 Task8) Syntactic/Semantic representation 비교 Syntactic DP Semantic DP(SRL) 접근성 Root node 로부터어떤 node 든지접근가능 유일한 root 가존재하지않으며, 접근불가능한 node 도존재 Path 유일성 Root node 로부터특정 node 까지유일한 path 만존재 특정 node 에접근할수있는 path 가여러개존재할수있음 Semantic representation 을위해서 genera graph processing 을도입하려함 who did what to whom 을좀더 direct 하게표현가능하도록 의존문법의 projectivity 를무시함 (non-projectivity) 궁극적으로모든 content words 을 1 개의구조로통합하려함 à 현재는 predicate 단위로분리되어있음 기존 PropBank NomBank 는 verba/nomina predicate 에대해 argument identification 으로국한됨 Negation, Scopa embedding, Comparatives, Possessives, Various types of modification, conjunction

Semantic DP Representations

Abstract Meaning Representation(Banarescu et a, 2013) Motivation: unify a semantic annotation

Abstract Meaning Representation(Banarescu et a, 2013) Sentence-eve annotation

WiseNLU: 국내표준화계획 한국어이해표준화계획 2 차년도표준화결과 대상기술 : 형태소품사세트 표준심의및공고완료 3 차년도표준화계획 대상기술 : 개체명인식, 의존구문분석 일정 : 4 차년도표준화계획 목표기술 : 어휘의미분석, 의미역인식, 상호참조및무형대용어복원

WiseNLU: 말뭉치배포계획 WiseNLU 말뭉치배포계획 개체명태깅말뭉치배포계획 목표 : 기계학습을이용하여학습이가능한수준의말뭉치공개 2015 년 5,000 문장, 2016 년 5,000 문장배포목표 태그셋 : PLO + Misc. 또는 ETRI 태그셋대분류사용 배포시기 : 한글및한국어정보처리학회 (10 월 16 일 ~17 일 ) 비고 : 차년도국어정보처리시스템경진대회에 ETRI 말뭉치활용예정 WiseQA 평가셋배포계획 대상코퍼스 : 형태소분석, 개체명인식, 어휘의미분석, 구문분석, 의미역인식 배포시기 : 한글및한국어정보처리학회 (10 월 16 일 ~17 일 ) 배포대상코퍼스 : GS3.0 소스콘텐츠 : 장학퀴즈질문및정답단락 ( 위키백과, 표준국어대사전, 등 ) 배포수량 약 500~600 문장수준으로예상 태깅가이드매뉴얼 언어분석표준화제안과동일한가이드라인적용

WiseNLU 배포현황및계획 WiseNLU 자연어이해기술배포 대상기술 : 7 개기술 형태소분석기술, 어휘의미분석기술, 개체명인식기술, 구문분석기술, 의미역인식기술, 상호참조해결기술, 무형대용어복원기술 배포기관 : 대학 14 개연구실, 기업 4 개 3 차년도배포및계획 3월초 : 3차년도 1차시스템제공 ( 배포완료 ) 6월중순 : 신규모듈추가및자료구조, 활용편의성개선 ( 배포완료 ) 9월중순 : 주요기술별성능개선버전배포 12월초 : 신뢰성개선및 3차년도최종 WiseNLU 시스템배포

감사합니다. 29/69