차세대정보컴퓨팅기술개발사업 한국어정보처리원천기술연구개발워크샵및연구성과물발표회 2019 년 02 월 19 일국민대학교 7 호관 445 호 총괄책임자 : 강승식 ( 국민대학교 ) 제 1 세부 : 강승식 ( 국민대학교 ) 제 2 세부 : 박혁로 ( 전남대학교 ) 제 3 세부 : 김학수 ( 강원대학교 )
차세대정보컴퓨팅기술개발사업 한국어정보처리원천기술연구개발워크샵및연구성과물발표회 2019.02.19 ( 화 ) 국민대학교 7 호관 445 호 초대의글 2017 년 9 월부터 2020 년 12 월까지차세대정보컴퓨팅기술개발사업으로수행중인 한국어정보처리원천기술 연구개발사업의 1,2 차년도연구결과물을소개하고향후과제진행방향을논의하는워크샵을개최합니다. 주요성과물의하나로 한국어원시말뭉치 2 억 7 천만어절 (2 천만문장 ) 을구축하여 http://nlp.kookmin.ac.kr/kcc 에공개하였으며, 추가로품사태깅말뭉치, 구문태깅말뭉치등한국어정보처리에필수적인언어자원및언어분석모듈등의연구성과물을공개하여관련연구자들이자유롭게사용할수있도록할예정입니다. 이러한목적으로과제워크샵및연구성과물발표회를개최하오니관심있는분들께서는적극참여해주시기바랍니다. 2019 년 02 월 19 일 총괄책임자 : 강승식 ( 국민대학교 ) 제 1 세부 : 강승식 ( 국민대학교 ) 제 2 세부 : 박혁로 ( 전남대학교 ) 제 3 세부 : 김학수 ( 강원대학교 ) 참여교수 김한샘 ( 연세대 ) 오효정 ( 전북대 ) 류법모 ( 부산외대 ) 이민행 ( 연세대 ) 조은경 ( 서강대 ) 한경수 ( 성결대 ) 임희석 ( 고려대 ) 김재훈 ( 해양대 ) 이공주 ( 충남대 ) 옥철영 ( 울산대 ) 김유섭 ( 한림대 ) 온병원 ( 군산대 ) 최성필 ( 경기대 ) 이창기 ( 강원대 )
프로그램 : 2019.02.19. 국민대 7 호관 445 호 일시 10:40 11:00 등록 프로그램 11:00 12:00 초청강연 ( 고려대, 최재웅교수 ) 12:00-13:30 점심식사 제 1 세부 : 기계학습및평가용언어자원구축 13:30 14:50 강승식 ( 국민대 ) 오효정 ( 전북대 ) 류법모 ( 부산외대 ) 김한샘 ( 연세대 ) 이민행 ( 연세대 ) 조은경 ( 서강대 ) 임희석 ( 고려대 ) 14:50 15:00 Coffee Break 제 2 세부 : 기초분석도구및서비스개발 15:00 16:00 박혁로 ( 전남대 ) 김재훈 ( 해양대 ) 이공주 ( 충남대 ) 옥철영 ( 울산대 ) 16:00 16:10 Coffee Break 16:10 17:10 제 3 세부 : 핵심응용기술개발 김학수 ( 강원대 ) 김유섭 ( 한림대 ) 온병원 ( 군산대 ) 최성필 ( 경기대 ) 이창기 ( 강원대 ) 17:10 18:00 Discussion & Brain Storming 18:00 19:30 저녁식사 ( 장소 : 추후공지 ) 등록기간 등록방법 등록안내 사전등록 문의처 행사문의 교육문의 2019 년 2 월 18 일 12:00 까지 konltk7@gmail.com 이메일제목 : 워크샵참가 : 성명 / 소속 구분사전등록현장등록 학생 / 일반무료 ( 점심샌드위치제공 ) 무료 행사장소 주차요금 국민대학교조단비연구원 dbups3119@naver.com 국민대학교김동규연구원 kdg9511@naver.com 행사장안내 (7 호관 445 호 ) 국민대학교 7 호관 445 호 할인권판매 : 3 천원 / 일 정문 ( 버스정류장 )
차세대정보컴퓨팅기술개발사업 한국어정보처리원천기술연구개발워크샵및연구성과물발표회 목차 강승식교수 국민대 김한샘교수 연세대 기계학습및평가용언어자원구축 오효정교수 전북대 류법모교수 부산외대 이민행교수 연세대 조은경교수 서강대 임희석교수 고려대 박혁로교수 전남대 기초분석도구및서비스개발 김재훈교수 해양대 이공주교수 충남대 옥철영교수 울산대 김학수교수 강원대 핵심응용기술개발 김유섭교수 한림대 온병원교수 군산대 최성필교수 경기대 이창기교수 강원대
숫자로표상된의미 : 딥러닝시대의의미론 최재웅 ( 고려대 ) 국민대학교워크숍 2019 년 2 월 19 일 참고 : 최재웅 (2018), 숫자로표상된의미, [ 언어와정보사회 ] 34 호 목차 발표순서 1. 도입 2. 의미표상방식 : 어휘의미, 문장의미 3. 어휘의미 : 벡터공간모형 1. 워드벡터 / 워드임베딩 2. 결과자료 3. 언어학적활용 4. 결론 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 2
도입 Semantic Web I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web the content, links, and transactions between people and computers. A "Semantic Web", which makes this possible, has yet to emerge, but when it does, the day-today mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The "intelligent agents" people have touted for ages will finally materialize. Berners-Lee 1999 The term was coined by Tim Berners-Lee for a web of data (or data web) that can be processed by machines that is, one in which much of the meaning is machinereadable. (From Wikipedia) 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 3 도입 언어 /language 형태 form/expression/ language 의미 meaning/ semantic content 엄마 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 4
의미표상 의미표상 사전적정의 엄마 a female parent 성분분석 (Componential analysis) Meaning components: 엄마 [+female, parent] 형식의미론 (Formal semantics) Model theoretic interpretation: 엄마 엄마 M,g 분포가설 (Distributional hypothesis) quantitative turn 의미의양화 : 엄마 3571 / 숫자연쇄 (3571, 26, ) 벡터공간모형 ( 선형대수학, Linear Algebra) 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 5 문장의미 문장의미 : 집합론적모형 의미란무엇인가? Something out there in the world: Realistic view Mental entity: Cognitive view 형식의미론 : 모형이론적, 집합이론적입장 모형을기반으로주어진문장표현의진리치 / 진리조건을결정하는것 언어 진리치 세상 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 6
문장의미 모형이론적의미론 표현 논리식 해석 / 의미할당 모형 세상 K runs. run (k ) 해석 / 의미할당 {k} 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 7 어휘의미 어휘의미는? 집합이론모형에서벡터공간모형으로 The meanings of words have largely been neglected in formal semantics, typically being represented as atomic entities such as dog', whose interpretation is to denote some object (or set of objects) in a set-theoretic model. the meanings of words will be represented using vectors, as part of a high-dimensional semantic space. The fine-grained structure of this space is provided by considering the contexts in which words occur in large corpora of text. Clark, Stephen (2015), Vector Space Models of Lexical Meaning in Lappin & Fox. 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 8
어휘의미 어휘의미 : 벡터공간모형 엄마 : 3571 * 임의의숫자 / 빈도수 / a. 의미를얼마만큼직관에부합되면서도체계적으로잘드러내는가? b. 의미관계를얼마만큼잘포착하는가? c. 추론이나 의미연산 이가능한가?. mother: obj/tell subj/die mod/lone (27.49, 40.23, 59.05) 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 9 어휘의미 Sketch Engine 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 10
워드임베딩 워드벡터 / 의미벡터 mother: obj/tell subj/die mod/lone (27.49, 40.23, 59.05) 주요의문 어휘전반에걸쳐의미를규정하는데필요한자질은? 어떤자질을어떻게설정하는가? 어휘별자질값 / 수치를어떻게구하는가? 엄마 (-0.959987, 1.875226, -0.835720, 0.472719, 벡터공간모형 ( 선형대수학, Linear Algebra) 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 11 워드임베딩 벡터로표상된의미 : word embedding (low) dimensional (200 features/dimensions/ranks) 벡터공간모델모형관련주요의문 어떻게만드는가? In unsupervised learning, the 어디에 algorithms 활용하는가 are left to themselves to discover interesting structures in the data. 어디에활용하는가? 의미적관련성포착및관련연산 PCA 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 12
워드임베딩 Word2vec: Word embedding tool Word2Vec is a group of related models that are used to produce word embeddings. (From Wikipedia) These models are shallow, two-layer neural networks that are trained to reconstruct linguistic contexts of words. Input: a large corpus of texts Output: a vector space (typically of several hundred dimensions), with each unique word in the corpus being assigned a corresponding vector in the space. Word vectors are positioned in the vector space such that words that share common contexts in the corpus are located in close proximity to one another in the space 절차 : 텍스트전처리, 프로그램설치및실행, 결과검색 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 13 결과예시 Cosine similarity 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 14
결과시각화 Visualization 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 15 가설 / 이론 Distributional semantics Distributional semantics is a theory of meaning which is computationally implementable and very, very good at modelling what humans do when they make similarity judgements. This approach to meaning is in no way the only one, but has come from a particular philosophical tradition involving linguists and philosophers such as Leonard Bloomfield, Zellig Harris, J.R. Firth or again Ludwig Wittgenstein (in his later work) and Margaret Masterman. http://aurelieherbelot.net/research/distributional-semanticsintro/ 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 16
가설 / 이론 Distributional semantics 코사인유사도 (cosine similarity) 의미적유사도 느슨한의미의 의미적유사도 : 의미적관련도 관련어휘 [ 표준국어사전 ] : 의미적동의어, 의미적반의어, 본말, 준말, 비슷한말, 참고어휘, 참고어휘 : 어떤표제어의의미를이해하는데도움이될수있는표제어 코사인유사도에기반한여러결과물 ( 어휘적관계 ) 이화자의직관을반영하는가? 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 17 활용예 Word embedding 활용예 Semantically/pragmatically related (synonymous/antonymous/ ) word list for each word semantic distance between any pair of words Semantic/pragmatic classes V4908 8 거의 01 전혀 01 별로 01 이루 01 별반 01 딱히 02 도저히별달리 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 18
활용예 Word embedding 활용예 Inference/analogy 아빠 : 아들 = [ ] : 딸 * 아빠 - 아들 + 딸 = [(' 엄마 ', 0.931), (' 언니 ', 0.778), (' 엄마 _ 아빠 ', 0.761), (' 아내 01', 0.748), (' 어머니 01', 0.745)] 한국 : 서울 = [ ] : 도쿄 * 한국 - 서울 + 도쿄 = 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 19 사용언어자원및처리절차 세종의미분석말뭉치 물결자원 : 4 개일간지 2000-2013 년도기사 (6 억어절 ) 조선, 동아, 중앙, 한겨레 BNC(British National Corpus) 절차 : 1. 형태소분석 2. (Word2phrase 를이용한어휘결합 ) 3. Word2vec 을이용한 wordembedding Parameters: skipgram/cbow, min freq 2, window 8 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 20
결과자료 Similarity: 별로 ( 역순정렬 ) Word: 별로 01/MAG Position in vocabulary: 2661 Word Cosine distance ------------------------------------------------ 전혀 01/MAG 0.759114 그다지 /MAG 0.721255 별 02/MM 0.716306 별다르 01/VA 0.596534 딱히 02/MAG 0.594654 도 /JX 0.594131 그리 02/MAG 0.592236 아무것 /NNG 0.582232 별반 01/MAG 0.574758 특별히 /MAG 0.573280 거의 01/MAG 0.568257 아무 01/MM 0.556437 아무런 /MM 0.540597 아무래도 /MAG 0.530550 꽤 01/MAG 0.516622 도무지 02/MAG 0.506698 밖에 /JX 0.505642 아무 01/NP 0.500108 별다르 /VA 0.495149 좀처럼 /MAG 0.490569 적 02/VA 0.489714 못하 /VA 0.484308 절대 05/MAG 0.483904 썩 01/MAG 0.475421 아직 01/MAG 0.474474 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 21 결과자료 전혀 의상위유관어 4 거의 01, 별 02, 별다르 01, 별로 01, 별반 01, 아무런, 일절 02 3 그다지, 별다르, 아무01, 일체01, 조차, 특별히격의, 결코, 그다지 _ 중요하02, 더01_ 이상05, 딱히02, 별달리, 별로01_ 신경04_ 쓰03, 별말02, 별문제, 사뭇, 아무01_ 도, 2 아무것, 아무것 _ 도, 아무런 _ 언급, 어처구니, 완전히, 일언반구, 전연01, 전혀01_ 고려하01, 전혀01_ 언급하, 제대로, 좀처럼, 좀체, 터무니, 특별하, 하등02 가감01, 경황01, 구김살, 그다지 _ 크01, 그리02_ 크01, 꿈쩍 _ 도, 도무지02, 도통03, 뚜렷하, 미동02_ 도, 별로01_ 중요하02, 1 쉽사리, 아무런 _ 응답, 어이02, 으면 _ 소용07, 일면식, 전혀01_ 관여하, 전혀01_ 신경04_ 쓰03, 전혀01_ 어울리, 절대05, 조차 _ 제대로, 직접적 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 22
결과자료 ( 코사인유사도, 빈도 ) 학교 (7686) 손 01(8464) 학생 (0.695,6151), 교사09(0.686,2768), 중학교 (0.685,700), 대학01(0.667,5332), 수업04(0.656,1215), 고등학교 (0.656,869), 학부모 (0.653,638), 유학04_ 반11(0.633,12), 교장03(0.632,933), 고교04(0.632,401), 학원02(0.627,649), 국민학교 (0.616,620), 교육청 (0.615,258), 영재03_ 교육 (0.614,15), 이머전 _ 프로그램 (0.613,11), 교실 (0.612,1070), 교과02(0.609,139), 실업고 (0.607,34), 교육 (0.606,6083), 민단 _ 계 /XSN(0.606,11), 초 88_ /SP_ 중등 (0.602,14), 선인 /NNP(0.601,10), 졸업식장 (0.597,12), 대안03_ 학교 (0.596,13), 특수학교 (0.593,13), 유치원 (0.592,367), 중88_./SP(0.592,15), 공립학교 (0.591,38), 초등학교 (0.59,493), 3/SN_ 학년 (0.589,373), 대안03_ 교육 (0.588,26) 두01/MM_ 손01(0.641,699), 쥐01/VV(0.63,1064), 팔 01(0.612,1210), 손가락 (0.608,1166), 맞잡01/VV(0.554,77), 꼭 02/MAG_ 쥐01/VV(0.549,81), 손목 (0.542,296), 오른손 (0.54,265), 꽉 /MAG_ 움켜쥐 /VV(0.531,14), 주먹 _ 쥐 01/VV(0.522,13), 발01(0.521,2265), 만지 /VV(0.516,667), 엄지 01_ 와 /JC(0.51,30), 양손01(0.509,153), 오른 /MM_ 손 01(0.508,10), 손바닥 (0.505,661) 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 23 결과자료 dog Word Freq CosDist cat 4916 0.792 puppy 677 0.753 pet 1484 0.731 puppyhood 16 0.674 colly 10 0.661 hunting_instinct 11 0.66 yorkshire_terrier 19 0.65 german_shepherd 41 0.649 horse 11719 0.641 animal 13706 0.637 alsatian 105 0.637 pedigree_dog 11 0.632 kennel 292 0.631 black_labrador 22 0.631 BNC animal Word Freq CosDist human 3218 0.738 rat_mouse 11 0.73 hunting_instinct 11 0.72 human 10694 0.707 species 8348 0.702 creature 3427 0.692 behavioural_adapt ation 12 0.686 ungulate 18 0.685 domesticated_anim al 26 0.682 placental_mammal 10 0.667 hoofed 10 0.666 eat_contaminated 10 0.662 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 red Word Freq CosDist blue 5563 0.839 yellow 3172 0.81 red/subst 2303 0.769 white 15325 0.756 purple 909 0.709 greeny 11 0.697 pink 2304 0.694 yellow 413 0.693 brown 2666 0.691 knit_welt 10 0.682 blue_stripe 10 0.676 lime_green 16 0.67 cobalt_blue 14 0.669 dark_red 54 0.668 chocolate-br own 13 0.665 24
결과자료 Word: 카페오레NNG Position in vocabulary: 325481 Word Cosine distance ------------------------------------------------------------------------ 라테NNG 0.631076 프렌치NNG_ 카페NNG 0.616583 아메리카02NNP_ 놀01VV 0.614844 커피NNG 0.614594 아메리카02NNP_ 노12NNG 0.609900 카페NNG_ 모카NNG 0.602005 카푸치노NNG 0.600762 라떼NNP 0.600240 요거01NP_ 트01VV 0.596785 요거트NNG 0.595597 녹차01NNG_ 라떼NNP 0.592509 카라멜NNG 0.588655 고구마NNG_ 케이크NNG 0.585035 네스99NNP_ 카페NNG 0.581325 아이스NNG_ 아메리카02NNP_ 노11NNP 0.579934 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 25 결과자료 관점이결과에영향을미치는가? H ' 정의 03' C ' 정의 03' [(' 사회 07_ 정의 03', 0.799), (' 법치주의 ', 0.712), (' 민주주의 ', 0.711), (' 법치 ', 0.711), (' 자유 03_ 민주주의 ', 0.708), (' 도덕 ', 0.664), (' 보편적 _ 가치 06', 0.661), (' 대의 03', 0.657), (' 윤리 ', 0.655), (' 사법 02_ 정의 03', 0.640), (' 법질서 ', 0.639), (' 질서 03', 0.634), (' 진리 ', 0.633), (' 불의 02', 0.625), (' 양심 02', 0.624), (' 자유주의 ', 0.618), (' 인류애 ', 0.611), (' 국민 _ 주권 01', 0.609), (' 자유 03', 0.609), (' 평등 ', 0.607)] [(' 사회 07_ 정의 03', 0.785), (' 법치주의 ', 0.760), (' 민주주의 ', 0.747), (' 법치 ', 0.735), (' 자유 03_ 민주주의 ', 0.732), (' 도덕 ', 0.710), (' 진리 ', 0.701), (' 대의 03', 0.697), (' 자유주의 ', 0.685), (' 불의 02', 0.675), (' 윤리 ', 0.667), (' 박애 ', 0.660), (' 법질서 ', 0.659), (' 자유 03_ 민주적 _ 기본 _ 질서 03', 0.655), (' 보편적 _ 가치 06', 0.651), (' 이데올로기 ', 0.642), (' 평등 ', 0.640), (' 자유 03', 0.632), (' 양심 02', 0.624), (' 자주 03', 0.623)] 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 26
통시연구활용 A [case] study on historical changes https://nlp.stanford.edu/projects/histwords/ 1. Visualizing changes in word meaning 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 27 통시연구활용 A [case] study on historical changes https://nlp.stanford.edu/projects/histwords/ 2. Uncovering statistical laws of semantic change High frequency less semantic change likely More polysemous more semantic change likely 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 28
문장의미는? 문장의미는? 엄마가오셨다. 엄마 (-0.959987, 1.875226, -0.835720, 0.472719, 가 (-0.325049, -0.996780, -0.004611, -1.288200, 오 (-0.435634, -0.660927, 1.567977, -2.256657, 시 (-0.129665, 0.907324, 1.499305, -2.020838, 었 (1.125780, 1.085099, -0.499714, -0.365474, 다 (2.053955, 0.144086, -0.757581, 0.490556, Compositionality/ 합성성? 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 29 문장의미는? Compositional distributional semantics! There are two major approaches to formal analysis of natural language: (Heunen, et al. 2013) one of a logical nature (Dowty, Wall and Peters, 1981), and one of a distributional kind relying on vector spaces as models of meaning (Schütze, 1998). Compositional distributional semantic models are an extension of distributional semantic models that characterize the semantics of entire phrases or sentences. This is achieved by composing the distributional representations of the words that sentences contain. From Wikipedia Ex: Nouns are vectors, adjectives are matrices, Baroni & Zamparelli 2010. 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 30
결론 의미명시방식 문장의미 집합이론모형의미론 어휘의미 벡터공간모형의미론 딥러닝활용워드벡터표상특징및장점 자질 - 값 방식의수치화된의미표상 분포정보기반 의미유사성정도수치화 다양한의미계산가능성 양질 의워드벡터생성기법 : Word2Vec, 컴퓨터를이용한단시간일괄도출 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 31 참고자료 이용자료 세종의미분석말뭉치, 물결 21(http://corpus.korea.ac.kr), BNC 이용도구 word2vec (Ubuntu Linux 환경 ), Python(Anaconda, gensim), R, Perl, Utagger 참고문헌 Wikipedia M. Baroni and R. Zamparelli. 2010. Nouns are vectors, adjectives are matrices: Representing adjective-noun constructions in semantic space. In Conference on Empirical Methods in Natural Language Processing (EMNLP-10),Cambridge, MA, 2010. Tim Berners Lee. 1999. Weaving the Web : The Original Design and Ultimate Destiny of the World Wide Web by its Inventor, Harper San Francisco. Tim Berners-Lee. 2001. "The Semantic Web". Scientific American: May 17, 2001. François Chollet. 2018. Deep Learning with R. Manning. David R. Dowty, Robert E. Wall, Stanley Peters. 1981. Introduction to Montague Semantics. Springer. Chris Heunen, et al.(ed). 2013. Quantum Physics and Linguistics. OUP. Hinrich Schütze. 1998. Automatic word sense discrimination. Computational Linguistics, Volume 24, Number 1. Dominic Widdows. 2004. Geometry and Meaning. Stanford, California: CSLI publications. 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 32
2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 33 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 34
워드임베딩 Word2vec 실행 Input: 전처리된텍스트 말뭉치 /Big data: 세종말뭉치 ( 형태의미주석 )/1100 만어절, 물결 21 일부 /1 억 5000 만어절 사용태거 : Utagger ( 울산대옥철영교수실, 2010 판 ) Parameters./word2vec -train sj_semtag1010_uou_utf8.txt -output vectorsk1.bin -cbow 1 -size 200 -window 8 Output: 한국어 - 벡터사전 (*.vec, *.bin) 결과활용? 벡터계산 / 운용법활용 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 35 결과자료 Word: 무사 03NNG_ 바 03NNB_ 예 JX Position in vocabulary: 474509 Word Cosine distance ------------------------------------------------------------------------ 소유03NNG_ 즈03NP 0.563065 소유즈호NNG 0.533329 러시아NNP_ 우주02NNG_ 비행사NNG 0.516233 러시아NNP_ 항공NNG_ 우주국NNG 0.498318 바이코누르NNP_ 우주02NNG_ 기지08NNG 0.485914 우주02NNG_ 왕복NNG_ 선19XSN_ 소유즈호NNG 0.473509 국제02NNG_ 우주02NNG_ 정거장NNG 0.470252 러시아NNP_ 우주선01NNG 0.466425 말렌첸코NNG 0.464894 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 36
2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 37 PAUL SMOLENSKY Optimality Theory RBM (1986) A restricted Boltzmann machine (RBM) is a generative stochastic artificial neural network that can learn a probability distribution over its set of inputs. RBMs have found applications in dimensionality reduction, [2] classification, [3] collaborative filtering, [4] feature learning [5] and topic modelling. rose to prominence after Geoffrey Hinton and collaborators invented fast learning algorithms for them in the mid-2000. (From Wikipedia) 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 38
a4 2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 39 슬라이드 39 a4 https://www.cc.gatech.edu/~alanwags/dlai2016/(gunning)%20ijcai-16%20dlai%20ws.pdf Explainable Artificial Intelligence (XAI) adm, 2018-05-07
2019-2-19 최재웅 ( 고려대 ), 국민대워크숍 40
2017 년도차세대정보컴퓨팅기술개발사업 한국어정보처리원천기술연구개발 ( 총괄과제 ) 사업기간 2017.09.01~2020.12.31 (40 개월 ) 주관기관 국민대학교 참여기관 전남대학교, 강원대학교 총괄책임자 국민대학교강승식교수 KMU Natural Language Processing Laboratory 목차 총괄과제개요 : 연구목표, 연구내용, 추진일정등 1차년도연구내용 (2017.09.01 ~ 2018.05.31, 9개월 ) 주요연구추진내용, 목표달성도 주요핵심연구성과사례, 자체평가의견서 2차년도연구내용 (2018.06.01 ~ 2019.05.31, 12개월 ) 주요연구추진내용, 목표달성도 연구성과물목록 3, 4차년도연구계획 (2019.06.01 ~ 2020.12.31, 12+7개월 ) 각세부별연구추진계획, 추진전략, 중점해결과제 1,2,3세부결과물통합, 대표연구성과물, 데모동영상제작등 향후계획 : 결과물배포및활용방안, 기술이전, 사업화등 2
총괄 : 과제목표 최종목표 최종목표 한국어정보처리원천기술 : 상황인지, 사용자의도파악 1 차목표 대규모언어자원구축, 언어분석모듈, 응용기술개발딥러닝, 상황인지, 사용자의도파악기술개발 대규모언어자원구축 / 배포, 상황인지및사용자의도파악기술 BigText 말뭉치구축 - 배포 (github, open API) 딥러닝기반의한국어정보처리기술 상황인지, 사용자의도파악기술개발 Github, KoNLTK 플랫폼, open API, 웹서비스등 한국어언어처리분석기술 한국어형태소분석및품사태깅 한국어명사분석및의존구조파서 한국어개체명인식 한국어의미태거 ( 단어의미, 의미역할 ) 한국어언어처리응용기술 한글챗봇시스템 대화체구어분석 텍스트표현및문서요약 감성분석, 정보추출및표현 3 총괄 : 연구내용요약 (1 세부 ) 대규모언어자원구축, 상황인지및사용자의도파악기술 기계학습및평가용 BigText 말뭉치구축및배포 (open API, 파이썬플랫폼 ) 딥러닝기법을이용한한국어정보처리기술개발 상황인지및사용자의도파악기술연구개발 (2 세부 ) 언어처리분석모듈연구개발 언어처리분석모듈수정 - 보완, 추가개발 (3 세부 ) 언어자원및언어분석모듈의활용 언어자원및분석모듈활용을위한핵심응용기술 4
총괄 : 한국어정보처리원천기술연구개발 제 2 세부 제 1 세부 제 3 세부 한국어정보처리원천기술연구개발언어자원뱅크, 언어분석도구, 핵심응용기술 한국어분석모듈연구개발 대규모언어자원구축, 상황인지및사용자의도파악기술개발 한국어처리응용기술 - 한국어형태소분석, 품사태거 - 복합어분석, 의존구조파서 - 한국어개체명인식, 의미태깅 - BigText 언어자원구축및배포 - 딥러닝기반의한국어정보처리기술 - 상황인지및사용자의도파악기술 - 대화체구어분석 - 한국어챗봇모델 - 텍스트표현및문서요약 - 감성분석 1 세부 강승식교수 김한샘교수 오효정교수 류법모교수 한국어정보처리를위한 Gold Standard 언어자원뱅크구축 언어자원구축, 상황인지및사용자의도파악기술 대화체및의미추론언어자원구축 언어자원평가셋구축및평가도구개발 언어자원평가셋구축, 활용, 배포, 확산 - 기존언어자원정비 - Python API 개발 - 언어처리도구개발 - 언어자원분석도구 - 대화체말뭉치구축 - 대화체말뭉치분석 - 의미추론언어자원 - 언어학연구 / 교육활용 - 언어자원평가셋구축 - 품사태깅말뭉치구축 - 언어자원평가도구 - 평가셋테스트, 검증 - 언어자원평가셋구축 - 구문태깅말뭉치구축 - Gold Standard 언어자원구축, 배포, 확산 이민행 ( 연세대, 언어자원활용 ), 조은경 ( 서강대, 감정사전 ), 한경수 ( 성결대, 등록어연구 )
2 세부 7 3 세부 한국어기반자연어처리응용원천기술확보및 KLP Application Bank 를통한확산 8
위탁과제 : 고려대임희석교수 목표지향적학습데이터구축을위한도메인속성추출및데이터구조디자인 End-to-End 학습기반한국어대화시스템학습모델 문헌연구 속성추출 데이터구조 디자인 word2vec Bag of words Human computation 을이용한데이터수집및전처리및후처리방법론연구 Entity 추출기 Entity 추적기 RENN 과 Softmax Classifier 를이용한대화예측기 데이터전처리및후처리 Human computation 을이용한데이터수집 데이터구조 ( 템플릿 ) 목적지향적한국어학습데이터구축 End-to-End 학습기반한국어대화시스템구축 9 총괄 : 추진일정계획 1 차년도 2 차년도 3 차년도 4 차년도 제 1 세부 한국어언어자원구축 / 정비 / 보완 / 배포 언어자원분석도구개발 KoNLTK 플랫폼구축및개발대규모언어자원구축, 배포 딥러닝기반의한국어정보처리기초기술연구 대규모언어자원확장구축, 공개, 웹서비스 상황인지, 사용자의도파악기술연구개발 언어자원활용, 딥러닝기반의언어처리기술개선 제 2 세부 NLTK I/F 분석및어휘분석 NE, NP 인식기설계및구문변환기 표준 API 작성및동형이의어 WSD NE/NP 인식, 문장단위분석 개념분별단어임베딩 딥러닝기반 NE, NP 인식 성능평가및개선 형태소분석및한국어임베딩기술연구 한국어텍스트임베딩기술 1 문 1 답챗봇기술및문서요약기술개발 문맥인지챗봇기술개발및한국어문서요약기술고도화 제 3 세부 개체명인식, 대화요소분석, 감성사전생성엔진 한국어감성사전, 통합정보추출 문맥기반감성분석, 다중문장시맨틱트리플추출 분석모델공개, 자가성장형정보추출, 대화분석기술 10
연구개발결과의우수성및창의성 언어자원뱅크구축설계 언어분석기초도구개발 KoNLTK 플랫폼설계 1 세부 4차산업시대에딥러닝및빅데이터분석은품질좋은언어자원의필요성이점차중요해지고있으며기계학습및평가용으로양질의데이터를구축하고배포함으로써한국어정보처리기술의향상을도모함 실용적인한국어언어자원과언어처리모듈의개발, 확산, 배포를위한한국어지식정보허브시스템으로언어처리기술을활용하는스타트업및연구개발에활용됨 품사태거, 구문태거등언어처리기초도구들의성능향상은상위언어처리기술들과융합하여다양한응용분야에활용될수있도록함 한국어품사태깅시스템개발 한국어구문분석시스템개발 개체명인식기개발 2 세부 한국어품사태깅시스템개발과관련하여현재최고 수준의품사태깅시스템을개발하여공개적으로배포하였음 한국어구문분석시스템개발에서구구조로태깅된세종말뭉치를의존구조로변환하는도구및구문분석결과를시각화하는도구를개발하여배포함 개체명인식분야에서는제한된컴퓨팅환경에서도실행할수있는기계학습기반개체명인식기를개발 3 세부 한국어챗봇기술개발 기존색인에서추출에사용하지않은양상정보를추가하 여검색커버리지를향상시켰으며, 의사형태소분석으 로형태소를단어로바꿔주는모듈의필요성이없어짐 다국어정보추출기술개발 심층학습기술에기반하여영어기준세계최고성능의일정수준이상을달성하였음 텍스트표현및요약기술개발 단어임베딩기술자체는이미존재하던기술이나한국어및한글고유특성에맞는단어및어절임베딩기술은존재하지않던기술임 대화체구어분석기술개발 대화분석연구는국내최초로시도되는연구에그의미가있음 한국어감성분석기술개발 대용량문서코퍼스에서주요양상을자동으로탐지하 는알고리즘을개발하였으며, 토픽모델의결과를정제 하고레이블링하는독창적인알고리즘을제안함 위탁과제 본연구의개발결과는특정목적에부합하는한국어데이터셋의부족문제를보완하기위하여실제사용자들의대화데이터셋으로구축되어있다는실용성측면에서우수하다고할수있음 11 연구개발결과의파급효과 언어자원뱅크구축설계질좋은원시 / 태깅말뭉치를제공함으로써데이터부족현상을해결하고이를기반으로빅데이터분석, 딥러닝등한국어텍스트관련기술발전에기여함 언어분석기초도구개발언어처리에필요한기초도구개발에따른다양한언어처리기술과융합에활용하며, 맞춤법오류를자동으로탐지하고교정하여국민들의올바른국어생활에기여함 KoNLTK 플랫폼설계실용적인수준의한국어언어자원, 언어분석모듈등을한국어지식정보허브를통해배포, 확산, 활용, 서비스에기여함 한국어품사태깅시스템개발 한국어구문분석시스템개발 개체명인식기개발 본연구에서는품사 / 의미태깅, 구문분석, 개체명인식등다양한한국어분석도구를개발, 배포예정임. 이러한도구들은한국어처리응용시스템을개발할때기초도구로매우유용하게활용될것임. 이러한도구를자유롭게활용함으로써한국어기반응용시스템개발이활성화되고, 새로운언어기반응용분야가출현할것으로기대됨 한국어챗봇기술개발 채팅뿐만아니라색인어를사용하는모든분야에활용될수있음 한국어텍스트표현및요약기술개발 공개된임베딩을이용한오픈소스한국어처리프로그램의개발에활용가능함 한국어감성분석기술개발 양상탐지알고리즘과한국어감성사전은한국어감성분석의정확도를높이고문서요약및여론조사등의소프트웨어개발에중요한역할을수행할것임 다국어 ( 한국어 / 영어 ) 정보추출기술개발 한국어자연어처리기술전반의기반이될수있는한국어정형데이터베이스구축도구로서활용할수있음 한국어대화체구어분석기술개발 언어장애의유무및언어발달수준의평가등에활용될수있음 위탁과제 예상되는파급효과로는연구개발결과물을여러가지목적지향적대화시스템에서사용하여한국어대화시스템의기술발전에기여하며, 궁극적으로자연어처리기술의발전에기여함 12
연구개발결과에대한활용가능성 언어자원뱅크구축설계 언어분석기초도구개발 KoNLTK 플랫폼설계 1 세부 실용적인언어지식관리체계구축및활성화를통한데이터기반의언어처리연구개발의활성화를유도함 실용적인한국어언어처리의기초도구파급에따라이를활용한연구개발및서비스개발의활성화를통해수요자중심의언어처리기술을제공함 한국어언어자원의종합적인운영, 관리, 보급을위한허브로써빅데이터분석, 딥러닝등다양한응용분야에서쉽게활용할수있도록함 한국어품사태깅시스템개발 한국어구문분석시스템개발 개체명인식기개발 2 세부 한국어품사 / 의미태깅시스템은한국어처리를위한 기초적인도구로챗봇, 지능형비서등다양한응용서비스에활용됨 구문분석시스템은 SNS 상에서사용자들의감성분석이나기계번역등에필수적으로사용됨 개체명인식등정보추출도구는정보검색, 질의 / 응답등시스템에활용됨 3 세부 한국어챗봇기술개발 검색시스템, 채팅시스템에활용가능함 다국어정보추출기술개발 한국어정형데이터베이스구축도구로써활용가능함 텍스트표현및요약기술개발 딥러닝을이용한다양한한국어자연어처리시스템에활용가능함 대화체구어분석기술개발 대상의언어수준에맞는챗봇개발, 에세이평가등에활용가능함 한국어감성분석기술개발 영역에최적화된감성사전구축에기초자료로활 용가능함 위탁과제 다양한목적지향적대화시스템에사용하는것이가능하며, 여러자연어처리기술의기본데이터셋으로사용하는것이가능함 13 1 차년도실적 연구기간 : 2017.09.01 ~ 2018.05.31 (9 개월 ) KMU Natural Language Processing Laboratory
1 세부 2 세부 1 차년도 : 총괄연구개발목표의달성도 세부연구목표 세부연구개발내용 달성도 (%) 언어자원뱅크구축설계 - 구조적 tagging정보를어절간의의존구조로변환방법론설계및연구 - 자동띄어쓰기및복합명사분해태깅데이터 set 설계연구및구축 95 언어분석기초도구개발 - 딥러닝방법과확률론적방법의두가지방식으로언어분석기초도구인자동띄어쓰기를개발및정확도는 90% 이상 100 KoNLTK 플랫폼설계 - 한국어언어자원배포및언어자원처리 Python 플랫폼을위한기본적인설계완료및테스트방법론연구, 현재기본적인구조는 https://github.com/konltk/konlp에서확인가능 95 말뭉치변환도구개발프로그램 IF 개발 의존구조표현방식개발 - 세종구문말뭉치 ( 구구조문법 ) 의존구조말뭉치로변환 (Rigid head-final 형식변환모드, Non-rigid head-final 형식변환모드 ) 90 - 프로그램인터페이스개발및프로그램공개 - CoNLL-U 형식정의 100 - 각필드의형식및값의범위를정의 구문구조에서의존구조로의변환규칙개발 - head-final 구문에대한기본변환규칙정의 90 - head-initial 예외구문에대한예외변환규칙정의 NLTK 분석 API - NLTK의구조를분석하여개체명식과기저구인식을설계함. 100 개체명인식기설계 - NLTK의모듈을활용하여개체명인식기능을설계하고초벌실험에성공함. 100 기저명사구인식기설계 - NLTK의모듈을활용하여기저구인식기능을설계하고초벌실험에성공함. - 기저명사구의경우에는정규표현을이용하도록설계되었으나문제점이발견되어이를변경중에있음. 90 - 세종말뭉치 1천만어절중미학습 10% 를실험대상으로설정. 형태소분석정확률 - 동형이의어번호를제거하고형태소원형복원과경계구분, 품사태깅의정확성을실험. - 정답과오답분류는매우엄격하고단순하게스트링매치를사용하였으며, 이는형태소분석의정답자체가모호한경우라도정답스트링과다르면항상오답으로분류하였음을의미함. 97.40 동형이의어분별정확률 - 위실험 ( 형태소분석정확률실험 ) 에서동형이의어번호까지정확하게태깅한것을정답으로분류. 이외의조건은모두동일. 96.5 채팅문장분석기술개발 - 색인어추출기및의사형태소분석기개발완료 100 한국어단어및어절임베딩기술개발 - 한국어단어임베딩학습기개발완료및임베딩 API 배포완료 100 3 세부 정보추출원천패키기기술개발 - 영문데이터에대한개체명인식기, 개체간관계추출엔진개발완료 100 양상탐지알고리즘개발 - 양상탐지소프트웨어를개발할수있는이론적근거마련 100 도메인공통한국어감성사전구축및배포 - 12,381 개의도메인공통감성어에대한사전개발 100 구어분석사례연구 - 다양한사례분석을통하여 SALT를벤치마킹하기로결정 100 구어분석시스템개발 - 지표를이용한분석시스템개발완료 100 15 0 5 사업화계획 (FUTURE)) 1 차년도각세부실적 1 차년도 : 총괄연구성과지표 구분 1 세부 2 세부 3 세부합계 논문게재성과 학술회의발표실적 SCI 급 - - 1 1 비SCI 급 4 2 5 11 국내 4 2 2 8 국외 5 - - 5 12 13 특허성과 수상실적 출원특허 - - 1 1 등록특허 - - - - 기술료징수현황 (2 건진행중 ) 1 ( 한국어어휘지도 ) 1 ( 강원대 NLP 연구실형태소분석기외 2 건 ) 국외 3 - - 3 국내 1-1 2 기술지도 (1 건진행중 ) - 1 1 1 2 2 5 산업지원성과 소프트웨어실적 기술이전 (2건진행중 ) 1 1 2 기술평가 - - - - 등록 - 2 1 3 공개 4 7 6 17 3 20 16
1 차년도 : 주요연구내용 1 세부 2 세부 3 세부 언어자원뱅크구축설계및언어분석기초도구개발 Github 의 KoNLTK 을통한파이썬플랫폼설계및구축 언어처리모듈배포를위한 Open API 설계및테스트 자동띄어쓰기와복합명사분해말뭉치 set 설계및구축 UTagger-HG 파이썬버전개발 구문분석기반구축 개체명인식및기저명사구인식설계 채팅문장분석기술I 개발한국어단어및어절임베딩기술개발구어분석연구동향분석대화요소분석기술개발한국어감성사전구축기술개발정보추출원천패키지기술개발 위탁과제 - 맛집관련기존연구및블로그분석을통해주요속성분류 - 실제대화데이터에서수집되어야하는태깅정보들의형태정의 - 데이터수집모델및시나리오기획하여메신저를통한맛집대화데이터수집 - 실제대화에서나타날수있는띄어쓰기오류, 특수문자등의처리 - 속성정보의일부분을자동으로추출할수있는개체명인식기개발 17 1 세부 : 연구내용 (1 차년도 ) 2세부언어분석도구 1투입인력세부언어자원구성현황구축 3세부핵심응용기술 한국어기계학습및평가용 Gold Standard 언어자원구축 한국어원시 / 태깅말뭉치구축언어처리기초도구개발 KoNLTK 플랫폼 언어처리도구 ( 오픈 API) 한국어언어자원 ( 말뭉치, 평가셋, 사전등 ) 언어처리소프트웨어 (tokenizer, tagger,.) KoNLTK 플랫폼을통한언어자원및언어처리도구공개 18
1 세부 : 주요연구성과사례 (1 차년도 ) 1 세부언어자원구축및설계 한국어정보처리원천기술연구개발및오픈소스플랫폼을통한공개 한국어언어자원구축및설계 언어자원구축기초도구개발 KoNLTK를통한언어자원및언어분석및활용소프트웨어통합및배포 Github 의 KoNLTK flatform 을통한언어자원및언어처리소프트웨어공개, 배포, 확산, 활용 자동띄어쓰기, 복합명사분해말뭉치 Set 설계및구축 : 경진대회추진 (8월중 ) 언어분석기초도구, 자동띄어쓰기개발 (1) 통계기반 N-gram 자동띄어쓰기모듈 (2) Deep learning기반 Bidirectional LSTM + CRF 기반의자동띄어쓰기개발 Konltk.org을통한자동화홈페이지구축및 konlp 오픈소스자동화문서화 한국어말뭉치와한국어분석모듈배포를위한파이썬플랫폼개발, Open API 설계및테스트 독일뮌헨대협력을통한한국어품사태거공개 (1 세부이민행교수와 3 세부옥철영교수협력 ) 19 20
2 세부 : 연구내용 (1 차년도 ) 1세부언어자원구축 2세부언어분석도구투입인력구성현황 3세부핵심응용기술 한국어처리를위한기초분석도구및서비스개발 언어분석표준 API 및패키징 ( 책임 : 박혁로 전남대 ) 한국어태깅시스템 ( 책임 : 옥철영 울산대 ) 한국어구문분석시스템 ( 책임 : 이공주 충남대 ) 한국어정보추출시스템 ( 책임 : 김재훈 한국해양대 ) 표준 API 개발, 도구패키징 품사태깅, 단어의미분별, 개념 WSD 전이기반파서, 그래프기반파서 기저명사구인식, 한국어개체명인식 분석도구의표준 API 설계및패키징을통한일반공개 21 2 세부 : 주요연구성과사례 (1 차년도 ) 한국어품사태거인 UTagger 개발및공개 세종말뭉치변환도구 의존구조시각화도구 개체명 / 기저명사구인식기설계및프로토타입구현 22
3 세부 : 연구내용 (1 차년도 ) 1세부언어자원구축 3세부핵심응용기술투입인력구성현황 2세부언어분석도구 한국어지능형시스템을위한핵심응용기술개발 채팅모델텍스트표현및문서요약감성분석정보추출대화체구어분석 언어처리응용소프트웨어 ( 오픈 API) 언어처리응용언어자원 ( 대화말뭉치, 평가셋, 감성사전등 ) 텍스트표현및요약 KLP Application Bank ( 배포및공유 ) 23 3 세부 : 주요연구성과사례 (1 차년도 ) SCI 논문게재 : Low-Cost Implementation of a Named Entity Recognition System for Voice-Activated Human- Appliance Interfaces in a Smart Home 기술이전 : KACTEIL-KMA( 강원대학교자연어처리연구실형태소분석기 ) 외 2 건 24
위탁과제 : 연구내용 (1 차년도 ) 목적지향적대화기술개발을위한정형화된맛집대화데이터구축 Human computation 기법 Data Augmentation 기법 맛집대화데이터수집 위치 맛집도메인관련데이터구조디자인 음식종류 식당 날짜 / 시간 전처리및후처리방법론 인원 가격 맛집도메인관련속성추출 문헌연구 데이터구조디자인 띄어쓰기교정기, 개체명인식기 Data base Data base 성과 해외학술대회 2 편 맛집도메인대화데이터 50,000 건대화시스템설계 ( 추가연구 ) 25 위탁과제 : 주요연구성과사례 (1 차년도 ) 자연어처리기술의활용수요가많은챗봇을이용한예약시스템을개발하고있음 26
1 차년도자체평가의견서 연구기간 : 2017.09.01 ~ 2018.05.31 (9 개월 ) KMU Natural Language Processing Laboratory 연구개발수행노력의성실도 (1 차년도 ) 각대학의참여교수들의연구실별로팀을구성하여연구및개발업무를성실히수행하였음 자동띄어쓰기와복합명사분해학습말뭉치와평가용말뭉치를구축중에있으며이를기반으로경진대회를추진중임 기술개발역량향상을위해각연구실및자연어처리기업개발자들과의오프라인자연어처리 Open 세미나를개최하였고추후지속적으로 Open 세미나를개최함으로써자연어처리기술의확산에기여함 본과제연구팀은여러대학연구팀으로구성되어있으나, 연구개시후빠른시간내에과제워크숍을통하여각연구팀의역할과수행범위를확정하였음 1 차년도과제개시후비교적짧은기간내에당초목표한연구성과를달성하기위해모든연구원들이성실하게노력하였음 각연구실별로팀을구성하여연구및개발업무를성실히수행하였음 2 회에걸친오프라인전체회의를통해연구방향을긴밀히논의하였음 지적재산권확보를위해연구노트를성실히작성하였음 위탁과제 연구의세부연구목표의대부분을달성하였으며, 아직달성되지않은부분에대해서는 1 차년도종료시점에달성예정에있음 28
NLP 오픈세미나 (1 차년도 ) 1,2 회각 20 여명참석 3,4 회는품사태깅문제언어모델과 HMM 예정 29 공개발표된연구개발성과 (1 차년도 ) 1 세부 국내학술지논문게재 : 4 건 학술대회발표 : 9 건 ( 국외 5 건, 국내 4 건 ) 수상실적 : 4 건 ( 국외 3 건, 국내 1 건 ) Github 와 konltk.org 사이트를통한소프트웨어공개 : 3 건 뮌헨대홈페이지를통한소프트웨어공개 : 1 건 2 세부 국내학술지논문게재 : 2 건 국내학술대회논문발표 : 2 편 기술이전 : 2 건, 기술료징수액 : 1,000 만원 소프트웨어등록 : 2 건 소프트웨어및말뭉치공개 : 7 건 3 세부 SCI 급논문 : 1 건 기술이전 / 기술지도 : 2 건 국내학술지논문 : 5 건 (1 건은 5 월게재예정 ) 학술대회논문 : 2 건 소프트웨어등록 : 1 건 특허출원 : 2 건 (1 건은 5 월중출원예정 ) Github 의 konltk.org 사이트를통한소프트웨어공개 : 6 건 (5 월중완료예정 ) 최우수논문상 : 1 건 위탁과제 국외학술대회논문 2 편 30
31/49 연구개발결과에대한종합의견 (1 차년도 ) 1 세부 2세부 3 세부 - 계획서에제시한말뭉치수집, 정비를통한언어자원뱅크구축및공개시스템의전체적인프레임워크를설계하였음 - 한국어언어처리모듈및언어자원배포, 확산허브로서활용될 github와 konltk.org 사이트를통해소프트웨어공개프레임워크를구축하였음. 이외에도국외에소프트웨어공개하였음 ( 뮌헨대홈페이지를통한소프트웨어공개 1건 ) - 국내외학술논문을계획대비초과달성하였음 ( 국내학술지논문 : 4건, 국내외학술대회발표 : 9건 ) - 본과제에서는과제수행기간에비교적짧았음에도불구하고제안서상에서제시했던정략적목표 ( 논문, 기술이전등 ) 를모두달성하였음 - 제안서에서제시한한국어분석도구, 품사 / 의미태거, 말뭉치변환도구, 구문분석시각화도구이외에도기초적개체명인식기, 보조용언구인식기등의 SW를추가공개하였으며당초제안했던목표를충분히달성하였음 - 계획서에제시한연구목표달성도를 100% 충족하였음 - 국내외학술논문을계획대비초과달성하였음 ( 비SCI 논문대신 SCI 논문게재, 국내학술지 2건추가달성 ) - 기술료실적을초과달성하였음 ( 기술이전 1 건, 기술지도 1건 ) - 연구결과확산을위해 Github를통해 6건의소프트웨어를공개하였음 (5월중완료예정 ) 본연구를성실하게수행하였으며, 과제수행목표를대부분달성하였음. 본과제의연구결과물은빅데이터, 딥러닝등다양한응용분야에서활용될수있도록함으로써해당분야의발전에큰기여를할것으로기대됨 32
2 차년도실적 연구기간 : 2018.06.01 ~ 2019.05.31 (12 개월 ) KMU Natural Language Processing Laboratory 1 세부 2 차년도연구실적 : 총괄 대규모원시말뭉치구축및배포 (2 억 7 천만어절, 2 천만문장 ) 딥러닝기법을이용한한국어정보처리기술개발 상황인지및사용자의도파악기술연구개발 2 세부 UTagger-HG 기능개선 전이기반구문분석기술개발 기계학습기반개체명인식기및기저명사구인식기구현 3 세부 딥러닝기반종단형챗봇개발 문장및문서임베딩기술개발 언어연령분석시스템개발 종단형정보추출모델개발 / 통합 한국어감성사전및 API 공개 위탁과제 딥러닝기반의맛집예약대화시스템모델구조설계 딥러닝기반의맛집예약대화시스템개발 학습된맛집예약대화시스템모델평가및성능개선방안분석 34
0 5 사업화계획 (FUTURE)) 1 차년도각세부실적 2 차년도 : 총괄연구성과지표 구분 1 세부 2 세부 3 세부합계 논문게재성과 학술회의발표실적 특허성과 SCI 급 - - 비SCI 급 국내 국외 - - 출원특허 - - 등록특허 - - - 12 13 1 수상실적 기술료징수현황 (2 건진행중 ) ( 한국어어휘지도 ) ( 강원대 NLP 연구실형태소분석기외 2 건 ) 국외 - - 국내 - 2 5 산업지원성과 소프트웨어실적 기술지도 - 기술이전 (2건진행중 ) 기술평가 - - - 등록 - 공개 3 20 35 1 세부 : 연구내용 (2 차년도 ) 국민대강승식 - 언어자원구축, 상황인지및사용자의도파악 대규모원시말뭉치구축 (2억7천만어절 ) 딥러닝기법을이용한한국어처리연구 상황인지, 사용자의도파악기술연구 부산외대류법모 - 구문태깅말뭉치, 경진대회용평가셋구축 구문태깅말뭉치구축및활용방안 경진대회용평가셋구축 연세대김한샘 - 구어체 / 대화말뭉치및언어자원활용 구어체 / 대화말뭉치구축 국어학분야의언어자원활용 언어자원구축및딥러닝기술개발 성결대한경수 - 미등록어와복합어수집, 정비, 활용 미등록어수집, 정비, 활용방안 복합어말뭉치수집, 정비, 활용 전북대오효정 연세대이민행, 서강대조은경 - 품사태깅말뭉치, 경진대회용평가셋구축 품사태깅말뭉치구축및활용방안 경진대회용평가셋구축 - 국어학 / 언어학분야에서언어자원구축, 활용 국어학 / 언어학분야의언어자원활용교육, 연구 한국어감성사전구축 36
1 세부 : 연구내용 (2 차년도 ) 담당 국민대강승식 연세대김한샘 전북대오효정 부산외대류법모 성결대한경수 연세대이민행서강대조은경 2 차년도연구내용 언어자원구축, 상황인지및사용자의도파악기술개발 대규모원시말뭉치구축및배포 (2 억 7 천만어절, 2 천만문장 ) 딥러닝기법을이용한한국어정보처리기술개발 상황인지및사용자의도파악기술연구개발 구어체 / 대화말뭉치및언어자원활용 구어체 / 대화말뭉치구축및활용방안 국어학분야의언어자원활용 품사태깅말뭉치, 경진대회용평가셋구축 품사태깅말뭉치구축및활용방안 경진대회용평가셋구축및활용 구문태깅말뭉치, 경진대회용평가셋구축 구문태깅말뭉치구축및활용방안 경진대회용평가셋구축및활용 미등록어와복합어수집, 정비, 활용 미등록어수집, 정비, 활용방안 복합어말뭉치수집, 정비, 활용 국어학, 언어학분야에서언어자원구축및활용 한국어코퍼스언어학에서활용방안 국어학 / 언어학분야의언어자원활용교육및연구 감성사전구축 37 1 세부 : 경진대회개최내역 38
2 세부 : 연구내용 (2 차년도 ) 다의어 WSD 과정 UWordMap UWordMap API 문장입력 형태소분석 & 동형이의어분별 용언앞의논항추출 UWordMap 자질계산 (1~6) 밥 입력 : 밥을먹다. 을 1 밥 (?) 이없음 먹다 2 확장탐색 논항별어휘망내의위치 밥 의상위탐색 먹다 의 [ 을 ] 의논항 _020101 함수명 GetPS GetHyperW ord GetHyperAl lword GetHypoW ord GetNRelV GetVRelN 설명 ( 단어 or 동형 ) 의다의어받아오기 단어의 1 레벨위의상위어받아오기 다의어의모든상위어받아오기 다의어의 1 레벨아래의하위어받아오기 해당용언과논항 ( 격조사 ) 으로관련된명사받아오기 해당명사을논항 ( 격조사 ) 으로가지는용언받아오기 다의어결정 GetRelSubC t GetSynSet 용언과명사가연결된논항 ( 격조사 ) 받아오기 다의어의동의어받아오기 다의어의미분석완료 GetAntSet GetDistanc e 다의어의반의어받아오기 다의어 1 과다의어 2 의거리받아오기 39 2 세부 : 연구내용 (2 차년도 ) 담당 전남대박혁로 울산대옥철영 충남대이공주 해양대김재훈 실적 표준 API 개발및도구패키징 2 차년도연구계획 도구간 I/F 를위한 API 명세작성 심층학습을이용한한국어분석기술연구 한국어태깅시스템 단어의미태깅시스템개발 한국어어휘망에대한파이썬인터페이스개발 한국어구문분석시스템 전이기반구문분석시스템개발 성능평가및패키징 한국어정보추출 개체명인식기개발 한국어기저명사구분석기개발 국내비 SCI 3 편, 국내학술발표 7 건 SW 등록 2 건 기술이전 4 건 40
3 세부 : 2 차년도실적 1 세부언어자원 3 세부자체구축말뭉치 2 세부언어분석도구 한국어기반자연어처리응용원천기술개발 채팅모델 텍스트표현및문서요약 감성분석정보추출대화체구어분석 딥러닝기반종단형챗봇기술개발 한국어문장및문서임베딩기술개발 도메인감성사전자동구축소프트웨어개발 개체명참조문자열기반정보추출엔진개발 언어장애및언어연령분석서비스개발 지식기반챗봇기술개발 한국어추출요약기술개발 대표도메인감성사전구축및공개 대용어참조해소엔진개발 딥러닝에기반한단훈화된분석기술개발 (2018 년 12 월기준 ) 국외저널 15 편국내저널 10 편 특허출원 4건특허등록 1건기술이전 3건석사 3명, 박사 0명배출 Book Reading Bot 개발 ( 챗봇 + 질의응답 + 문서요약 ) 41 목표 강원대김학수 강원대이창기 군산대온병원 경기대최성필 한림대김유섭 실적목표 3 세부 : 연구내용 (2 차년도 ) Book Reading Bot 개발 ( 챗봇, 문서요약, 기계독해기술통합 ) 한국어챗봇기술개발 딥러닝기반종단형챗봇기술개발 지식베이스임베딩기술과결합된챗봇기술개발 한국어텍스트표현및문서요약기술개발 한국어문장및문서임베딩기술개발 한국어추출요약기술개발 한국어감성분석기술개발 도메인의영향을받지않는감성어와심층학습을통한도메인에최적화된감성사전구축기술개발 도메인감성사전에대한평가기술개발 한국어정보추출기술개발 개체명참조문자열기반통합정보추출엔진개발 대용어참조해소엔진개발 한국어대화체구어분석기술개발 언어장애및언어연령분석서비스개발 딥러닝에기반한단순화된분석기술개발 국외 SCI 논문 2편, 국외비SCI 논문 2편, 국내비SCI 5편 ( 초과달성 ) 국내특허출원 2건 ( 초과달성 ) 기술이전 1건 ( 초과달성 ) 인력양성석사 4명, 박사 1명 ( 박사배출미흡 ) 42 국민대학교한국어정보처리자연어처리연구실원천기술개발
위탁과제 : 연구개발내용 (2 차년도 ) 정형화된맛집대화데이터를이용한맛집추천대화시스템개발 맛집추천대화형데이터셋 (1 차년도 ) 딥러닝을이용한 End-to-End 기반의맛집추천대화시스템학습모델 위치 음식종류 식당 날짜 / 시간 인원 가격 사용자로부터속성들을추출하는대화형템플릿구축 word2vec Bag of words End-to-End 학습기반맛집추천대화시스템구축 Entity 추출기 Entity 추적기 RENN 과 Softmax Classifier 를이용한대화예측기 예상성과 해외우수학술대회 1 편, SCI(E) 2 편특허출원 1 편, SW 등록 1 건 언어지식정보가추가된맛집도메인대화데이터 (50000 건 ) End-to-End 학습기반맛집추천대화시스템소스코드공유 43 위탁과제 : 연구내용 (2 차년도 ) 담당 고려대임희석 2차년도연구실적 정형화된맛집대화데이터를이용한맛집추천대화시스템개발 Group preference-based item similarity model Attention 기반의대화발화예측모델 자연어이해를위한적대학습방법 실적 국외학술논문 1 편 학술발표 : 국내 2 편 44
2 차년도 : 연구성과물공개, 배포 공개기술명 공개장소 활용실적등 한국어정보처리원천기술공개플랫폼 KoNLTK Platform KoNLTK github ( 자동띄어쓰기, 형태소분석기, 임베딩 https://github.com/konltk/ 등 ) KoNLTK(KoNLP) 사이트 KoNLTK(KoNLP) Konltk 플랫폼사용자들에게편의성 http://konltk.org/en/latest/index. 사이트공개제공을위한홈페이지 html KCC150 한국어문장 raw corpus 한국어원시말뭉치공유 자연어처리 1억8천만어절, http://nlp.kookmin.ac.kr/kcc/ 연구자료로활용 1,333만문장 https://github.com/hyunyoung2/h 복합명사분해기소스, 2018 차세정 복합명사분해모듈 yunyoung2_korean_compound_no un_decomposition 언어처리경진대회참가 ( 우수상 ) 자동띄어쓰기학습데이터 15,000 문장 https://sites.google.com/site/kore anlp2018/task-1 2018 차세정언어처리경진대회사이트 ( 자동띄어쓰기 ) 자동띄어쓰기경진대회에참가한팀에서학습데이터로활용함 2018 차세정언어처리경진대회사이트 자동띄어쓰기용 https://sites.google.com/site/kore ( 자동띄어쓰기 ) 평가데이터 1,000 anlp2018/task-1 자동띄어쓰기경진대회에서제출한문장시스템성능평가에활용함 2018 차세정언어처리경진대회사이트 한국어복합명사분해용평가데이터 https://sites.google.com/site/kore anlp2018/task-2 ( 복합명사분해 ) 복합명사분해경진대회에서제출한시스템성능평가에활용함 자동띄어쓰기모듈 ( 부산외대 ) https://github.com/ask4git/bufs_ KoSpacing 부산외대에서개발한한국어자동띄어쓰기모듈의소스와리소스공개 한국어자동띄어쓰기, 복합명사분해 차세정언어처리 https://sites.google.com/site/kore 경진대회, 학습데이터및평가데이터, 경진대회 2018 anlp2018/home 제출시스템, 평가결과를공개함 정신의학신문기사수집, ( 정서장애분석을 https://github.com/haninformatic 국가정보포털정신의학용어류수집, 위한 ) 감성언어 s/sentimentanalysis ( 향후 ) 정서장애용어와텍스트기사간자원수집기연관성분석 한국어품사태거 http://www.cis.uni-muenchen.de/~ schmid/tools/treetagger/ 한국어품사태깅말뭉치를이용한품사태거구현 공개기술명 공개장소 활용실적등 UTagger-Python 울산대학교한국어연구실홈페이지 http://klplab.ulsan.ac.kr 한국어형태소 & 의미분석 UCorpus-HG 울산대학교한국어연구실홈페이지한국어형태소 & 의미분석주석말뭉치 http://klplab.ulsan.ac.kr ( 기계학습용 ) UCorpus-DP/SR 울산대학교한국어연구실홈페이지한국어의존관계 / 의미역주석말뭉치 http://klplab.ulsan.ac.kr ( 기계학습용 ) UCorpus-HG: UTagger 학습사전 울산대학교한국어연구실홈페이지 http://klplab.ulsan.ac.kr UTagger-Python 용학습사전 (upgrade) UTagger-TCM 울산대학교한국어연구실홈페이지 http://klplab.ulsan.ac.kr 한국어형태소 & 의미분석주석도구 UTagger-SR 울산대학교한국어연구실홈페이지 http://klplab.ulsan.ac.kr 의존관계 / 의미역반자동주석도구 UTagger-NE 울산대학교한국어연구실홈페이지 http://klplab.ulsan.ac.kr NE: 개체명반자동주석도구 45 대표연구성과물 (2 차년도 ) 원시말뭉치 2 억 7 천만어절 (2 천만문장 ) 평가용언어자원구축 자동띄어쓰기, 복합명사분해 한국어딥러닝기술개발 한국어문장의임베딩기술 딥러닝기반종단형챗봇기술개발 Book Reading Bot: 채팅, 요약, 질의응답동시수행 46
3, 4 차년도계획 3 차년도 : 2019.06.01 ~ 2020.05.31 (12 개월 ) 4 차년도 : 2020.06.01 ~ 2020.12.31 ( 7 개월 ) KMU Natural Language Processing Laboratory 총괄 : 연구개발계획 (3,4 차년도 ) 1 세부 한국어언어자원확장구축및배포 - 원시말뭉치및태깅말뭉치확장구축, 정비, 에러수정 - 한국어언어자원배포및활용 : open API, 웹서비스 한국어언어처리딥러닝기술개발, 언어처리기술의활용 2 세부 딥러닝기반한국어분석도구개발 - 형태소분석, 개체명분석기등을딥러닝기반으로개발 기존모델과딥러닝모델이통합된 KoNLTK 도구패키지개발 / 배포 3 세부 자가학습형지식획득챗봇개발 딥러닝기반생성적문서요약기술개발 지능형챗봇을위한한국어감성분석기술 자가학습형정보추출기술개발 페르소나챗봇을활용한심리상담자동화기술개발 위탁과제 맛집대화시스템모델구현 맛집추천대화시스템모델구축 학습된맛집추천대화시스템모델평가및성능개선 48
1 세부 : 연구계획 (3,4 차년도 ) 한국어언어자원확장구축및배포 한국어언어처리딥러닝기술개발 언어자원구축및딥러닝기술개발 Open API Feedback Application 한국어언어자원공개및 API 개발 언어자원및언어처리기술의활용, 서비스 49 1 세부 : 연구계획 (3,4 차년도 ) 국민대강승식 - 언어자원구축, 상황인지및사용자의도파악 BigText 말뭉치확장구축 ( 원시 / 태깅말뭉치 ) 딥러닝기법을이용한한국어정보처리기술 상황인지, 사용자의도파악기술연구개발 부산외대류법모 - 구문태깅말뭉치, 경진대회용평가셋구축 구문태깅말뭉치확장구축및활용 말뭉치성능평가, 품질개선, 활용방안 연세대김한샘 - 구어체 / 대화말뭉치및언어자원활용 구어체 / 대화말뭉치확장구축 국어학분야의언어자원활용 언어자원구축및딥러닝기술개발 성결대한경수 - 미등록어와복합어수집, 정비, 활용 미등록어자동수집, 정비, 활용 성능평가, 품질개선, 활용방안 전북대오효정 연세대이민행, 서강대조은경 - 품사태깅말뭉치, 경진대회용평가셋구축 품사태깅말뭉치확장구축 말뭉치성능평가, 품질개선, 활용방안 - 국어학 / 언어학분야에서언어자원구축, 활용 국어학 / 언어학분야의언어자원활용교육, 연구 한국어감성사전확장구축, multi-word expression 50
1 세부 : 연구계획 (3,4 차년도 ) 담당 국민대강승식 연세대김한샘 전북대오효정 부산외대류법모 성결대한경수 연세대이민행서강대조은경 2 차년도연구계획 언어자원구축, 상황인지및사용자의도파악기술개발 BigText 말뭉치구축및배포 (open API, 파이썬플랫폼 ) 딥러닝기법을이용한한국어정보처리기술개발 상황인지및사용자의도파악기술연구개발 구어체 / 대화말뭉치및언어자원활용 구어체 / 대화말뭉치구축및활용 국어학분야의언어자원활용 품사태깅말뭉치, 경진대회용평가셋구축 품사태깅말뭉치구축및활용 경진대회용평가셋구축및활용 구문태깅말뭉치, 경진대회용평가셋구축 구문태깅말뭉치구축및활용 경진대회용평가셋구축및활용 미등록어와복합어수집, 정비, 활용 미등록어수집, 정비, 활용 복합어말뭉치수집, 정비, 활용 국어학, 언어학분야에서언어자원구축및활용 한국어코퍼스언어학에서활용방안 국어학 / 언어학분야의언어자원활용교육및연구 감성사전구축및활용 51 2 세부 : 연구계획 (3,4 차년도 ) 담당 전남대박혁로 울산대옥철영 충남대이공주 해양대김재훈 실적목표 딥러닝기반 KoNLTK 패키지개발 API 설계 딥러닝기반형태소분석기개발 한국어태깅시스템 품사태거, 의미태거성능개선 한국어어휘망개선 한국어구문분석시스템 2 차년도연구계획 전이기반구문분석시스템 확률그래프를이용한구문분석시스템 한국어정보추출 딥러닝기반개체명인식기개발 딥러닝기반한국어문장 chunking 시스템개발 국와 SCI 2 편, 국내비 SCI 5 편 국내특허출원 2 건, 국내특허등록 1 건 석사 4 명, 박사 1 명 52
3 세부 : 연구계획 (3,4 차년도 ) 자가학습형지식획득챗봇개발 딥러닝기반생성적문서요약기술개발 지능형챗봇을위한한국어감성분석기술개발 자가학습형정보추출기술개발 페르소나챗봇을활용한심리상담자동화기술개발 53 목표 강원대김학수 강원대이창기 군산대온병원 경기대최성필 한림대김유섭 실적목표 3 세부 : 연구계획 (3 차년도 ) 자가학습형지식획득챗봇개발 ( 지식획득형챗봇, 문서요약, 정보추출기술통합 ) 한국어챗봇기술개발 문맥을반영한멀티턴챗봇기술개발 자가학습가능한지식획득형챗봇기술개발 한국어문서요약기술개발 딥러닝기반의한국어문서요약기술개발 한국어문서요약학습및평가데이터구축 한국어감성분석기술개발 딥러닝모델을위한도메인감성사전기반대용량학습데이터생성기술개발 딥러닝기반의도메인감성요약기술개발 한국어정보추출기술개발 개체명발견및연동기술개발 다중문장기반시맨틱트리플추출엔진개발 한국어대화체구어분석기술개발 토픽분석을위한대화주제전환판단모델개발 One-stop 딥러닝모델개발 정성지표의자동측정방법개발 국외 SCI 논문 5 편, 국내비 SCI 6 편 국내특허출원 3 건, 국내특허등록 2 건 인력양성석사 8 명, 박사 1 명 54 국민대학교한국어정보처리자연어처리연구실원천기술개발
목표 강원대김학수 강원대이창기 군산대온병원 경기대최성필 3 세부 : 연구계획 (4 차년도 ) 심리상담을위한페르소나챗봇개발 ( 지식획득형챗봇, 문서요약, 정보추출, 감성분석, 구어분석기술통합 ) 한국어챗봇기술개발 페르소나를가진감성챗봇기술개발 한국어문서요약기술고도화 다양한문서임베딩기술을결합한한국어문서요약기술고도화 한국어문서요약학습및평가데이터추가구축 한국어감성분석기술개발 태스크오리엔티드챗봇을위한한국어감성분석기술개발 지능형챗봇을위한한국어감성분석기술개발 한국어정보추출기술개발 학습집합자가증대및강화학습기반정보추출기술개발 의미적트리플에대한메타정보추출기술개발 한림대김유섭 실적목표 한국어대화체구어분석기술개발 챗봇을활용한상담자동화기술개발 챗봇을활용한즉시분석기술개발 국외 SCI 논문 5 편, 국내비 SCI 6 편 국내특허출원 2 건, 국제특허출원 2 건, 국내특허등록 3 건 기술이전 1 건 인력양성석사 6 명, 박사 3 명 55 국민대학교한국어정보처리자연어처리연구실원천기술개발 < 기타 > 연차평가, 기대효과 KMU Natural Language Processing Laboratory
연차평가계획및내용 : 1 세부 구분년도세부연구목표세부연구개발내용 언어자원뱅크구축설계 한국어정보처리를위한다양 한언어자원 GS 설계 평가목표및착안점 가중치 ( 연구비 ) 60% (165,000) 1 분기 (1/4) 2 분기 (2/4) 추진일정 3 분기 (3/4) 4 분기 (4/4) 1 차년도 2017 언어분석기초도구개발 자동띄어쓰기, 용례 / 공기정보검색기 정확도 90% 이상 20% (55,000) K-NLTK 플랫폼설계 Python 플랫폼에서공통 API 설계 20% (55,000) 2 차년도 2018 기초언어자원뱅크구축 지식기반도구개발 원시말뭉치및태깅말뭉치정태깅정확률비, 에러수정 95% 이상 Tokenizer, 복합명사분해기, 정확도 90% 미등록어자동수집이상 60% (222,000) 20% (74,000) 3차년도 2019 4차년도 2020 K-NLTK 플랫폼구현 python 플랫폼개발 심층언어자원뱅크구축 대화체구어말뭉치구축등태깅정확률고차원언어자원구축 90 이상 평가도구개발 띄어쓰기오류교정 ERR 5% 미만 K-NLTK 플랫폼연동 기존언어자원연계및동일 API 기반접근 언어자원뱅크평가및보대용량말뭉치를다양한형태태깅정확률 완 로효율적으로분석 95% 기존 언어자원도구보완 단어 / 문서벡터구성엔진 연구대비성능 0.5% 향상 K-NLTK 플랫폼고도화 품사부착코퍼스간의품사태매핑률 90% 그셋맵핑기능이상 57 20% (74,000) 60% (222,000) 20% (74,000) 20% (74,000) 60% (147,600) 20% (49,200) 20% (49,200) 구분년도세부연구목표세부연구개발내용평가목표및착안점 1 차년도 2017 2 차년도 2018 3 차년도 2019 4 차년도 2020 연차평가계획및내용 : 2 세부 UTagger-HG 파이썬버전 개발 구문분석기반구축 개체명인식및기저명사구인식설계 UTagger-HG 기능개선 전이기반구문분석 기계학습기반개체명인식기및기저명사구인식기구현 단어 / 개념임베딩 그래프기반구문분석 심층학습기반개체명인식및기저명사구인식 심층학습기반어휘의미분별 UTagger 파이썬 API 변환 NE, NP Chunking 에서요구하는형태소분석기능추가 말뭉치변환도구개발프로그램 I/F 개발시각화도구개발 NLTK 분석 API 설계 개체명인식기및기저명사구인식기설계 동형이의어 WSD 성능개선다의어 WSD 성능개선한국어어휘망파이썬 API 개발 전이기반구문분석기개발 형태소분석정확도 : 96.5% 이상 변환정확도 90% 이상 다의어분별정확률 80% 이상 레퍼런스 논문과의 오차 +-2% 개체명인식 : F1 80% 이상 CRF 및 SVM 기반한국어개체명인식기및기저명사구인식시스템기저명사구인식 : F1 91% 구현상 개념분별을위한단어 / 개념임베딩 그래프기반구문분석기개발 레퍼런스 논문과의 오차 +-2% Tensor flow에기반한개체명인식개체명인식 : F1 85% 및기저명사구인식시스템개발기저명사구인식 : F1 93% 개념기반 WSD 개념분별정확률 80% 이상 구문분석기성능향상심층학습모델구현기존연구대비성능 +0.5% 개체명인식기고도화 시스템성능개선및패키징을통한개체명인식 : F1 90% 공개기저명사구인식 : F1 95% 가중치 ( 연구비 ) 50% (107,500) 30% (64,500) 20% (43,000) 40% (114,000) 30% (85,500) 30% (85,500) 30% (85,500) 30% (85,500) 40% (114,000) 20% (57,000) 30% (85,500) 20% (57,000) 1 분기 (1/4) 2 분기 (2/4) 추진일정 3 분기 (3/4) 4 분기 (4/4) 도구패키징및공개 도구통합및패키징을통한일반공개 58 6 개의도구통합일관성있는 API 20% (57,000)
구분년도세부연구목표세부연구개발내용평가목표및착안점 1 차년도 2017 2 차년도 2018 연차평가계획및내용 : 3 세부 채팅문장분석기술 I 개발 한국어단어및어절임베딩기술개발 구어분석연구동향분석 대화요소분석기술개발 한국어감성사전구축기술개발 정보추출원천패키지기술 개발 1 문 1 답형챗봇기술개발 한국어문장및문서임베딩기술개발 대화수준분석알고리즘개발 대화말뭉치구축및관리도구개발 한국어감성사전및 API 공개 종단형정보추출모델 개발 / 통합 가중치 ( 연구비 ) 1 분기 (1/4) 2 분기 (2/4) 추진일정 3 분기 (3/4) 어휘 - 의미색인어추출기개발색인어커버리지 : 80% 이상 10% (21,500) 의사형태소분석기개발정확도 : 90% 이상 10% (21,500) 한국어단어임베딩기술개발 단어임베딩을이용한단어유추정확도 : 30% 이상 10% (21,500) 한국어어절임베딩기술개발 단어임베딩및어절임베딩 API 배포 10% (21,500) 국내외개발동향분석 국내외기술동향보고서 2% (4,300) 국내외산업계동향분석 국내외산업동향보고서 2% (4,300) 문장수준분석모듈개발 평가자간상관관계 70% 8% (17,200) 대화수준분석모듈개발 이상 8% (17,200) Aspect 탐지알고리즘개발정확도 70% 이상 10% (21,500) 한국어감성사전생성엔진개발감성사전정확도 : 80% 이상 10% (21,500) 개체명인식기개발 개체간관계추출엔진개발 딥러닝기반종단형챗봇기술개발지식베이스, 임베딩기술과결합된챗봇기술개발 영어기준세계최고성능의 95% 이상달성 영어기준세계최고성능의 95% 이상달성 채팅사용자정성평가 3 점이상 1 문 1 답형채팅모델 API 배포 4 분기 (4/4) 10% (21,500) 10% (21,500) 10% (28,500) 10% (28,500) 한국어문장임베딩기술개발문장및문서임베딩 API 10% (28,500) 한국어문서임베딩기술개발배포 10% (28,500) 의사소통장애인의대화분석 8% (22,800) 기술개발정확도 70% 이상연령별언어능력평가기술개발 8% (22,800) 말뭉치구축도구개발말뭉치구축 / 관리도구 70% 2% (5,700) 말뭉치관리도구개발이상개발 2% (5,700) 언어자원패키징 10% (28,500) 한국어감성사전생성엔진언어자원및 API 배포 10% (28,500) 패키징개체명참조문자열기반통합엔진의정보 ( 트리플 ) 10% (28,500) 통합정보추출엔진개발추출정확도 60% 이상달성대용어참조해소엔진59 개발 ( 한국어 / 영어 ) 10% (28,500) 한국어정보처리 원천기술개발 3 차년도 2019 4 차년도 2020 채팅문장분석기술 II 개발 한국어문서요약기술개발 대화토픽분석기술개발 대화말뭉치구축및관리도구개발문맥기반문서감성분석기술개발 다중문장기반정보추출기술개발 문맥인지챗봇기술개발 한국어문서요약기술고도화 응용개발 문맥기반문서감성분석을위한훈련데이터 / 모델 / 평가데이터공개 자가성장형한국어및영어정보추출기술개발 어휘-의미색인어추출기색인어커버리지 : 90% 고도화 이상 문장임베딩활용기술 채팅사용자정성평가 개발 3.2점이상 한국어문서요약학습및평가데이터구축딥러닝기반의한국어문서요약기술개발전체대화의토픽모델링기술개발개별대화의토픽모델링기술개발말뭉치구축도구개발 한국어문서요약 ROUGE-L: 25 이상 10% (28,500) 10% (28,500) 10% (28,500) 10% (28,500) 8% (22,800) 정확도 70% 이상 8% (22,800) 말뭉치구축 / 관리 2% (5,700) 말뭉치관리도구개발도구개발완료 2% (5,700) 훈련데이터와평가세트개발제안모델의정확도 : 10% (28,500) 80% 이상 DNN 모델개발 10% (28,500) 개체명발견및연동기술통합엔진의 10% (28,500) 개발정보 ( 트리플 ) 추출다중문장기반시맨틱정확도및재현율 65% 10% (28,500) 트리플추출엔진개발이상 문맥인지채팅모델개발 한국어문서요약학습및평가데이터추가구축다양한문서임베딩기술을걀합한한국어문서요약기술고도화 채팅사용자정성평가 3.5 점이상 한국어문서요약 ROUGE-L: 30 이상 20% (57,000) 10% (28,500) 10% (28,500) 대화분석기술을이용한응용개발응용 3개이상개발 10% (28,500) 앱 / 웹개발 10% (28,500) 훈련데이터와평가세트 10% (28,500) 공개언어자원및 API 배포 DNN 모델 API 10% (28,500) 학습집합자가증대및강화학습기반정보추출기술개발 의미적트리플에대한 60 메타정보추출기술개발 통합엔진의정보 ( 트리플 ) 추출 정확도및재현율 70% 이상달성 ( 한국어 / 영어 ) 10% (28,500) 10% (28,500)
사회적효과 기대효과 띄어쓰기등한글맞춤법문제, 복합어의사시시옷등국민들의언어생활의혼란을언어자원구축과분석, 통계, 확률을통해해소할수있음 의도치않게발생하는철자오류와구문오류 ( 어색한문장 ), 비문및어색한표현등을자동감지하여언어생활에기여하게됨 미등록어와유사어분석에의해국어생활에기여함 경제적효과 NLP 관련연구결과물공유체계및유기적인협력관계로최선의연구개발성과를얻을수있음 빅데이터, 머신러닝, 텍스트마이닝, 소셜네트워크분석등언어산업발전및관련시장활성화에기여함 글로벌 IT 산업의한국어언어처리관련시장을선점 기술적효과 기개발된언어자원및언어처리분석모듈의활용 개체명인식, 구문분석등언어처리핵심기술의발전에기여함 연구개발된기술을언어자원과핵심요소기술들의집합체로발전시켜연구자들간의시너지효과를가져옴 61 기타사항 ( 과제특이사항 ) 본과제의목표는 이며품질이우수한한국어 언어자원과언어처리모듈의배포, 확산, 활용 입니다. Github.com/konltk 와 http://konltk.org/ 를통해파이썬플랫폼으로 한국어지식정보허브 를구축하고, 관련연구자, 산업체, 대국민에게공개하여자유롭게활용하도록하며, 이원천기술을 OpenAPI 및웹서비스로제공하고자합니다. 원천기술확보를위해, 1 세부는한국어언어자원과언어처리도구를개발하고, 2 세부는한국어품사태거, 구문분석기, 개체명인식기등언어분석도구를개발하며, 3 세부는원천기술의활용및핵심응용기술을개발합니다. 과제목표를달성하기위한최선의방법으로 NLP 연구자들이최대한많이참여하여 (16 개대학, 교수 18 명, 총 91 명 ) 원천기술을연구개발하고이를배포, 확산, 활용하는데최선의노력을다하고있습니다. 62
< 별첨 > NLP 사업화및서비스계획 Open API, 활용방안, 기술이전등 연구목적, 시제품개발, 공공서비스등은무료로제공상업적목적의경우, 라이센스제공지속적으로언어자원을수집 / 관리 / 배포 / 개선 / 확장방안모색 KMU Natural Language Processing Laboratory 사업화및서비스계획 ( 국내최고전문연구자콘소시엄 ) 한국어정보처리원천기술서비스제공 주관기관 참여기관 (1) 연구자, 개발업체, 대국민서비스 (2) 파이썬플랫폼기반의빅데이터분석, 인공지능 ( 딥러닝 ) 분야서비스 (3) 공개 API 기반의 Android/IOS 어플리케이션서비스 (4) 챗봇등대화형시스템활용기술서비스 ( 자연어이해시스템 ) 수요기관 : 연구자, 개발자, 산업체, 국민 언어자원분석모듈 : 보급형, 고급형 공개 SW 서비스플랫폼 언어자원활용기술서비스 언어자원수집, 구축, 정비, 활용 언어처리도구및활용모듈 언어분석모듈개발, 수정, 보완 사용자맞춤형서비스개발 다양한언어자원의수집, 구축, 정비, 활용 다양한언어자원 최고의서비스제공 최고의기술력 Python 플랫폼 공개 API 서비스 언어자원의웹서비스 스마트폰앱서비스 응용분야에적합한형태의분석결과서비스 Application 에적합한분석결과 대화형소프트웨어 빅데이터분석 머신러닝 ( 딥러닝 ) 학습데이터 국내최고전문가컨소시엄으로지속적인연구개발결과제공 64
국외사례 : 언어자원의사업화 LDC(Linguistic Data Consortium) https://www.ldc.upenn.edu/ https://www.lexicalcomputing.com 65 사업화사례 : 자연어인터페이스 open API http://wit.ai/ http://dialogflow.com (api.ai) 66
사업화사례 : Google Cloud API 67 국내사례 : 한국어언어분석 open API ETRI 네이버랩스 (amica) 68
국외사례 : Sentence Generation Tools Robot Journalism: Sports, Earth Quake, Traffic, Weather Report, etc https://automatedinsights.com/ https://www.narrativescience.com/ 69 < 별첨 > 과제책임자및참여교수소개 KMU Natural Language Processing Laboratory
과제총괄책임자 ( 국민대강승식교수 ) 한국어정보처리분야집중연구 - 개발 한국어형태소분석, 구문분석 색인어추출및가중치계산 복합명사분해 맞춤법검사및교정 자동문서분류 자동띄어쓰기등 SW 공개, NLP 관련자료공개 http://nlp.kookmin.ac.kr/ http://cafe.daum.net/nlpk/ http://cafe.naver.com/nlpk/ 71 한국어언어처리모듈연구 - 개발 72
미등록어수집, 문서분류기술 73 2 세부책임자 ( 전남대박혁로교수 ) 정보검색분야집중연구 한글문헌을위한자동색인모형연구 정보검색시스템 KRISTAL-2 개발참여 문서의미표현모델연구 주요연구내용 토픽모델을이용한문서표현 74
3 세부책임자 ( 강원대김학수교수 ) 김학수교수 연구분야 서강대학교박사 UMass, Amherst 박사후연구과정 다이퀘스트책임연구원 ETRI 선임연구원 강원대학교컴퓨터정보통신공학교수 정보과학회언어공학연구회간사 (2014 년 ) ACL Local Organization Committee (2012 년 ) IR52 장영실상수상 (2001 년 ) < 자연어처리 > Dialogue System and Chatting System Question-answering System Co-Reference Resolution Named Entity Recognition, Dependency Parsing, Speech Act Analysis < 지식마이닝 > Relation Extraction Knowledge Construction 주요프로젝트 엔씨소프트, 정보검색기반기계독해시스템개발 엔씨소프트, 지능형채팅시스템개발 엔씨소프트, 한국어구문분석기술이전 LG 전자, 딥러닝기반자연어처리기술개발 LG 전자, 트리플기반질의응답기술개발 삼성전자, 휴대단말에서사용자입력오류를고려한입력어추천기술개발 삼성전자, 번역도우미를위한문장분석기술개발 더존비즈온, 슈퍼북자동분개를위한기계학습방법의회계패턴분석연구 ETRI, 사회망자동구축을위한관계인스턴스추출에관한연구 산업통상자원부, 링크드데이터기반대화형질의응답검색프레임워크개발 지경부, 다중영역정보서비스를위한대화형개인비서소프트웨어원천기술개발 연구재단, 음성언어시스템을위한다중발화후보자연어처리기술개발 연구재단, 정형 / 비정형빅데이터대상교차언어질의응답시스템개발 주요현황 논문실적 : 총 188 편 - 국제학회지 / 학술대회 70 편 (SCI 급 : 29 편 ) - 국내학회지 / 학술대회 120 편 과제 / 특허 / 기타대표실적 - 과제수행건수 37 건 ( 산학협력과제 21 건 ) - 기술이전 2 건, 국내외특허 11 건등록 - BioASQ 2016 2 등수상 - SQuAD 5 위 (2018 년 5 월 8 일현재 ) 해외학회위원활동 - 2014 IWSDS Program Committee - 2013 IJCAI Program Committee - 2012 ACL Local Organization Committee 75 국민대학교한국어정보처리자연어처리연구실원천기술개발 위탁과제책임자 ( 고려대임희석교수 ) 교수님사진 현고려대학교컴퓨터학과교수현한국융합학회논문지편집위원장현고려대학교스마트에이징연구단연구단장현고려대학교지능형UI/UX 사업단사업단장현고려대학교디지털금융공학과주임교수전 Univ. of Colorado Visiting Scholar 전한국컴퓨터교육학회논문지편집위원장현 LGU+ 자문교수 연구분야 주요프로젝트 ( 최근 5 년 ) 주요현황 ( 최근 3 년 ) - 코퍼스정보검색기 : 코퍼스에대한형태소, 품사, 어절, 용례, 자소, 이웃단어등을지원하는검색기술 - 문서분류기 : 정보검색모델을기반으로코사인유사도를통해문서를분류하는기술 - 형태소분석기 : 문장을형태소단위로분리하고분리된형태소를분석하는기술 - 자동띄어쓰기교정기 : 확률모델을이용한자동띄어쓰기교정기술 - 딥러닝기반의 Image Captioning 기술 - 딥러닝기반의 Scene Segmentation 기술 - 딥러닝기반의 Sketch Upsampling 기술 - End-to-End 학습기반의레스토랑추천대화시스템 - 딥러닝기반의유사이미지검색기술 스마트시니어세대의문화향유를위한인지반응맞춤형 UI/UX 기술개발 - 한국콘텐츠진흥원 전통문화융복합지원을위한지능형검색플랫폼구축 - 한국콘텐츠진흥원 사용자중심의지능형패션검색및맞춤형코디네이션제품개발 - 산업통상자원부 개인과집단지성의디지털콘텐츠화를통한유통및확산서비스기술개발 - 미래창조과학부 / 정보통신 방송연구개발사업 사용자선호도변화를고려한개인맞춤형콘텐츠소비경로추천모델연구및개발 - 한국연구재단 / 중견연구자지원사업 최근 3 년간 Top 10 논문 3 건 논문 SCI : 23 편 비 SCI : 86 편 특허 국내특허출원 : 30 건 국외특허출원 : 2 건 기술이전건수 : 12 건 저서 : 3 권 76 국민대학교한국어정보처리자연어처리연구실원천기술개발
전체연구팀구성도 총괄책임자국민대강승식교수 ( 자연어처리 ) NLP 플랫폼구축, Open API 서버운영 한국어처리최신기술개발, 언어자원웹서비스 1 세부 : 한국어기계학습및평가용언어자원구축 2 세부 : 한국어처리기초분석도구및서비스 3 세부 : 지능형시스템을위한핵심응용기술개발 연세대김한샘교수 구어체말뭉치구축및활용 국어학분야의언어자원활용 전남대박혁로교수 분석도구표준 API 개발 분석도구패키징 강원대김학수교수 챗봇을위한문장정규화및문장생성기술개발 대화문맥을반영한챗봇개발 전북대오효정교수 품사태깅, 개체명태깅말뭉치 평가셋구축및경진대회준비 부산외대류법모교수 구문태깅말뭉치구축및활용 평가셋구축및경진대회준비 성결대한경수교수 복합어말뭉치수집 복합어말뭉치정비및활용 연세대이민행교수 언어학분야의언어자원활용 CQPweb 기반말뭉치활용교육 서강대조은경교수 데이터사이언스와언어지식융합 국어정보학, 언어공학 울산대옥철영교수 한국어품사태깅 단어의미분별 개념 WSD 해양대김재훈교수 한국어기저명사구인식 개체명인식 충남대이공주교수 한국어의존구조분석 구문분석관련도구개발 고려대임희석교수 ( 위탁 ) 한국어대화기술개발 목적지향적대화형추천시스템 End to End 학습데이터구축 77 강원대이창기교수 어절, 문장, 문서임베딩기술개발 문서요약기술개발 한림대김유섭교수 언어능력평가기술개발 대화토픽분석기술개발 경기대최성필교수 개체명인식및관계추출기술개발 자가성장형정보추출기술개발 군산대온병원교수 감성사전구축 문맥기반감성분석기술개발 전체연구팀구성도 한국어정보처리원천기술연구개발 86 명 ( 교수 17, 박 19, 석 30, 학 20) 위탁 : 대화시스템개발 ( 고려대 ) 1 세부 : 언어자원구축 ( 국민대 ) 2 세부 : 언어분석모듈 ( 전남대 ) 3 세부 : 언어처리활용 ( 강원대 ) 언어자원플랫폼개발국민대강승식교수 단어수준언어자원구축전북대오효정교수 문장수준언어자원구축부산외대류법모교수 구어체언어자원구축연세대김한샘교수 분석모듈 API 개발전남대박혁로교수 품사태깅의미태깅울산대옥철영교수 명사구인식개체명인식해양대김재훈교수 문장생성챗봇개발강원대김학수교수 문서임베딩요약기술강원대이창기교수 대화토픽분석기술한림대김유섭교수 관계추출정보추출경기대최성필교수 연구원구성 - 박사과정 1 명 - 석사과정 4 명 - 학부과정 2 명 연구원구성 - 박사과정 2 명 - 석사과정 1 명 말뭉치수집, 정비, 활용성결대한경수교수 연구원구성 - 학부과정 1 명 연구원구성 - 석사과정 0 명 - 학부과정 3 명 언어자원활용교육연세대이민행교수서강대조은경교수 연구원구성 - 학부과정 2 명 연구원구성 - 박사과정 4 명 - 석사과정 1 명 연구원구성 - 석사과정 2 명 - 학부과정 2 명 구문분석기술개발충남대이공주교수 연구원구성 - 박사과정 2 명 - 석사과정 1 명 - 학부과정 1 명 연구원구성 - 연구교수 1 명 - 박사과정 2 명 - 석사과정 2 명 - 학부과정 1 명 78 연구원구성 - 박사과정 1 명 - 석사과정 4 명 연구원구성 - 박사과정 3 명 - 석사과정 3 명 - 학부과정 2 명 - 연구원 1 명 연구원구성 - 박사과정 3 명 - 석사과정 2 명 감성분석기술개발군산대온병원교수 연구원구성 - 석사과정 1 명 - 학부과정 2 명 연구원구성 - 석사과정 1 명 - 학부과정 3 명 연구원구성 - 박사과정 0 명 - 석사과정 6 명