공학석사학위논문 Word Embedding 자질을이용한 한국어개체명인식 2015 年 12 月 창원대학교 대학원 친환경해양플랜트 FEED 공학과 최윤수
공학석사학위논문 Word Embedding 자질을이용한 한국어개체명인식 Korean Named Entity Recognition Using Word Embedding Features 지도교수차정원 이논문을공학석사학위논문으로제출함. 2015 年 12 月 창원대학교 대학원 친환경해양플랜트 FEED 공학과 최윤수
최윤수의석사학위논문을인준함. 심사위원장이종근印 심사위원김한경印 심사위원차정원印 2015 年 12 月日 창원대학교대학원
목차 그림목차 iii 표목차 iv I. 서론 1 II. 관련연구 4 1. 영어권에서의개체명인식 4 2. 한국어에서의개체명인식 6 3. 언어모델 (Language Model) 7 III. Word Embedding 자질을이용한한국어개체명인식 8 1. 개체명인식시스템 9 2. 형태소분석및품사부착 11 3. 학습과정 14 4. 개체명인식과정 23 IV. 실험및토의 25 1. 실험환경 25 2. 실험결과 27 3. 오류분석 35 i
V. 결론및향후연구 41 참고문헌 43 ABSTRACT 46 부록 A. 품사집합 47 ii
그림목차 < 그림 III-1> 개체명인식시스템의전체구조도... 9 < 그림 III-2> 형태소분석및품사부착예... 11 < 그림 III-3> 제안시스템의학습과정구조도... 14 < 그림 III-4> CBOW 언어모델의생성과정... 16 < 그림 III-5> 원시문서의형태소분석및품사부착... 17 < 그림 III-6> CBOW 언어모델을이용한형태소단위의 word embedding... 17 < 그림 III-7> 개체명인식과정구조도... 23 < 그림 IV-1> 형태소분석및품사부착오류예... 36 iii
표목차 < 표 III-1> 개체명범주및정의... 10 < 표 III-2> B/I/O 형태의개체명태그부착예... 13 < 표 III-3> 형태소단위로생성된 word vector의예... 18 < 표 III-4> 형태소 word vector의군집정보의예... 19 < 표 III-5> 자질생성예제... 20 < 표 III-6> 템플릿사용자질예제... 22 < 표 IV-1> 한국어개체명인식기본시스템성능... 27 < 표 IV-2> Word vector 자질을사용하였을때개체명인식성능... 28 < 표 IV-3> 군집정보자질을용하였을때개체명인식성능 (TV 도메인 )... 29 < 표 IV-4> 군집정보자질을사용하였을때개체명인식성능 (Sports 도메인 )... 30 < 표 IV-5> 군집정보자질을사용하였을때개체명인식성능 (IT 도메인 )... 30 < 표 IV-6> Word embedding 자질을모두사용하였을때개체명인식성능... 32 < 표 IV-7> 자질별시스템성능비교 (TV 도메인 )... 33 < 표 IV-8> 자질별시스템성능비교 (Sports 도메인 )... 34 < 표 IV-9> 자질별시스템성능비교 (IT 도메인 )... 34 < 표 IV-10> 한국어개체명인식시스템성능비교 (TV 도메인 )... 35 < 표 IV-11> 기본시스템 +Word Vector+ 군집정보 (300개) (TV 도메인 )... 38 iv
< 표 IV-12> 기본시스템 +Word Vector+ 군집정보 (200 개 ) (Sports 도메인 )... 39 < 표 IV-13> 기본시스템 + 군집정보 (400 개 ) (IT 도메인 )... 40 v
I. 서론 제 Ⅰ 장 서론 개체명 (Named Entity) 이란인명, 기관명, 지명등과같이문서나문장에서특정한의미를가지고있는단어또는어구를말한다 [1]. 인명 : 최윤수, 박태호 기관명 : 청와대, 창원대학교 지명 : 부산광역시, 경상남도창원시 정보검색에서개체명은주요검색대상이된다. 이러한개체명을추출하기위해 자연어처리분야에서개체명인식 (Named Entity Recognition) 에대한연구가발전했다. 1
개체명은다음과같은특징들을가진다. 첫번째로개체명의대부분은고유명사로서미등록어인경우가많고신조어와같이계속해서생성되거나삭제되는경우가많다. 두번째로개체명은애매성을가진다. 애매성이란같은단어라도문맥에따라다른개체명을가지는것이다. 아래예문을살펴보면 창원대학교 가첫번째문장에서는기관명을의미하지만, 두번째문장에서는지명을의미한다. 최윤수는 2014 년 3 월 3 일창원대학교에입학했다. 윤수와태호는창원대학교앞에서만나기로약속했다. 이와같은개체명의특징들때문에사전을구축하여개체명을인식하고의미를파악하는것은어렵다. 따라서개체명인식에대한연구가더욱필요하다는것을알수있다. 개체명인식에관한연구는영어권에서먼저발전하였다 [2-6]. 영어권에서는개체명인식을위해대문자자질등영어에서나타나는언어특징을이용하여높은개체명인식성능을보였다. 한국어에서도개체명인식에대한다양한연구가있었다 [7-11]. 하지만한국어는영어에서나타나는대문자와같은특정자질 (feature) 의부재로개체명을인식하기어려운점이있다. 한편자연어처리분야에서 word embedding 자질을이용하는연구가진행되고있다 [12,13]. 최근새롭게제안된 word embedding 방법인 CBOW(Continuous Bag-of-Words) 언어모델은기존의 word embedding 방법보다높은성능을보인다 [14]. 본논문에서는한국어개체명인식에서자질부족문제를보완하기위해 word 2
embedding 자질을사용하는방법을제안한다. CBOW 모델과 K-means를이용하여각각형태소단위의 word vector와군집정보를생성하고, 이를개체명인식을위한자질로사용하였다. 실험결과 word embedding 자질을개체명인식에사용할경우의미있는성능향상이있었다. 본논문의구성은다음과같다. II장에서는관련연구로서영어권과한국어에서의이전개체명인식방법과언어모델및 word embedding에대하여기술한다. III장에서는 word embedding 자질을한국어개체명인식에적용한방법에대하여설명한다. IV 장에서는제안된방법을이용한다양한실험에대해기술하고실험결과에대한분석을한다. 마지막으로 V장에서결론을도출하고향후과제를기술한다. 3
II. 관련연구 제 Ⅱ 장 관련연구 본장에서는영어권에서의개체명인식시스템과한국어에서의개체명인식시스 템관련연구, 그리고언어모델에대한관련연구를살펴본다. 1. 영어권에서의개체명인식 개체명인식에관한연구는영어권에서먼저발전하였다. 초기개체명인식은 HMM(Hidden Markov Model) 을이용하여사람, 단체, 지역, 시간, 날짜, 백분율, 금액, 4
NOT-A-NAME 총 8개의범주에대하여개체명을부착하였다 [2]. 이연구에서는대문자나호칭기호등영어에서나타나는문자의특징을자질로사용하여 93% 의높은성능을보였다. 또한 HMM 외에다양한지도학습방법이개체명인식에사용되었다 [3,4]. [3] 과 [4] 는벵골어에서각각 CRFs(Conditional Random Fields) 와 SVMs(Supports Vector Machines) 을이용하여개체명인식을실험하였다. 인명, 지역, 단체, 숫자, 비개체명으로총 5개의범주에대하여개체명을부착하였다. 사용한자질로는주변단어정보, 형태소분석결과, 접미사, 접두사, 단어길이, 단어의첫글자등을사용하였다. 개체명인식실험결과 [3] 은 90.7% 의성능을보였고, [4] 는 91.8% 의성능을보였다. 최근에는트위터글을분석하여개체명을인식하는실험이있었다 [5,6]. 트위터글은오타나축약어, 신조어등의사용으로단어의원형을복원하는작업이필요하다. 예를들어 tomorrow 라는단어를트위터에서는 2morrow 나 tmrw 등으로사용하기때문에이를정규화하는작업과함께개체명을인식하는방법이다. [5] 는트위터글을학습하여개체명인식실험을수행하여 83.6% 의개체명인식성능을보였다. 5
2. 한국어에서의개체명인식 한국어에서의개체명인식에대해서는다음과같은연구가있었다. 개체명인식을위한학습중반지도학습인 Co-Training 기법을변형한규칙기반의방식이있었다 [7]. 그리고지도학습방법으로 CRFs(Conditional Random Fields) 와최대엔트로피모델 (Maximum Entropy Model) 을이용하는방법이있었다 [8]. CRFs로개체명의경계만을인식하고최대엔트로피모델을이용하여개체명을분류하는방법으로 83.4% 의성능을보였다. 또한 Structural SVMs 및 Pegasos 알고리즘을이용한한국어개체명인식방법이있었다 [9]. 이방법은 CRFs를이용한방법 [8] 보다높은성능을유지하면서학습시간은 4% 줄일수있었다. 다른방법으로개체명인식을위해개체명사전을이용하는방법이있다 [10]. 개체명인식성능향상을위해위키피디아를이용하여개체명사전을구축하고확장하는방법이다. 최근에는딥러닝을이용한개체명인식 [11] 또한연구되었는데영어에비해자질이부족한한국어에자질튜닝작업에들어가는시간과노력을줄이면서기존의개체명인식기성능과큰차이가없음을보였다. 하지만앞서언급된한국어개체명인식에대한방법들모두영어권에비해낮은성능을보인다. 이는영어에서나타나는대문자자질등의부재때문이다. 따라서본연구에서는한국어개체명인식의자질부족문제를보완하기위해 word embedding 자질을한국어개체명인식에이용하는방법을제안한다. 6
3. 언어모델 (Language Model) 언어모델 (Language Model) 은문장을이루는단어들의확률분포로서음성인식, 기계번역, 형태소분석등의분야에서매우중요한정보로사용되고있다. Word embedding 이란언어모델의하나로서문장속의단어들사이의관계를비지도학습 (Unsupervised learning) 방식으로분석하여특징화하는것이다. 최근에는다양한 word embedding 방법을이용하여영어의 chunking 과개체명인식을수행하고각각의성능을비교하는연구가있었다 [12]. 또한인공신경망을이용하는 NNLM(Neural Network Language Model) 은뛰어난성능을나타내어많은많은연구에참고되었다 [13]. 최근새로운 word embedding 방법으로 CBOW(Continuous bag-of-words) 모델이제안되었다 [14]. CBOW 모델은현재 word 의문맥을이루는 vector 들의합으로그 word 의 vector 를결정하는모델이다. NNLM 의구조를변경해은닉층 (Hidden Layer) 대신투영층 (Projection Layer) 을사용함으로써학습시간을 100 배이상단축시켰다. 또한 NNLM 보다의미정확도는 1%, 구문정확도는 11% 높은성능을보였다 [14]. 7
III. 제 Ⅲ 장 Word Embedding 자질을이용한한국어개체명인식 Word Embedding 자질을 이용한한국어개체명인식 한국어개체명인식은영어에서나타나는대문자자질등의부재로개체명을인식하는데어려운점이있다. 본연구에서는 word embedding 자질 (feature) 을한국어개체명인식에사용하여, 자질부족문제를보완하고성능이향상된한국어개체명인식시스템을만드는것을목표로한다. 본장에서는전체적인개체명인식시스템에대한설명과 word embedding 자질을생성하는방법에대하여설명하고, 학습및모델생성과정그리고개체명인식과정에대하여설명한다. 8
1. 개체명인식시스템 본논문에서제안하는개체명인식시스템의전체구조는 < 그림 III-1> 과같다. 시스템은크게학습과정과개체명인식과정으로나뉜다. 학습과정은학습문서로부터학습모델을생성하는과정이다. 개체명인식과정은개체명이부착되지않은원시문서에서학습모델을이용해개체명을인식하고개체명을부착한문서를출력하는과정이다. < 그림 III-1> 개체명인식시스템의전체구조도 본논문에서제안한시스템에서학습및학습모델생성을위해, 통계적기계학습 방법중하나인 CRFs(Conditional Random Fields) 를이용한다. CRFs 는조건부확률을 최대로하는비방향성그래프모델이다 [15,16]. CRFs 는 HMMs(Hidden Markov Models) 9
에비하여변수독립성조건이필요없으며, MEMMs(Maximum Entropy Markov Models) 에비하여 label bias 문제가없는장점이있다 [15,16]. 개체명인식시스템은사용자가인식하고자하는범주를결정한다. 본시스템에서는 < 표 III-1> 과같이총 14개 ( 인명, 학술분야및이론, 인공물, 기관, 지역, 문명 / 문화관련명칭, 날짜, 시간, 수량표현, 이벤트, 동물, 식물, 물질, 용어 ) 의개체명범주를사용한다. < 표 III-1> 개체명범주및정의 개체명범주 태그 정 의 1 PERSON PER 실존일물과가상의인물 ( 캐릭터, 신화속인물 ) 2 FIELD FLD 학문분야및이론, 법칙, 기술등 3 ARTIFACTS_WORKS AFW 인공물로사람에의해창조된대상물 4 ORGANIZATION ORG 기관및단체와회의 / 회담을모두포함 5 LOCATION LOC 지역명칭과행정구역명칭등 6 CIVILIZATION CVL 문명및문화에관련된용어 7 DATE DAT 날짜 8 TIME TIM 시간 9 NUMBER NUM 숫자 10 EVENT EVT 특정사건및사고의명칭과행사등 11 ANIMAL ANM 동물 12 PLANT PLT 식물 13 MATERIAL MAT 금속, 암석, 화학물질등 14 TERM TRM 의학용어, IT 관련용어등의일반용어를총칭 10
2. 형태소분석및품사부착 본연구에서는형태소단위로개체명을인식한다. 따라서학습과정과개체명인식과정을위해문서의형태소분석및품사부착과정이필요하다. 형태소란언어학에서의미를가지는가장작은말의단위를나타낸다. 형태소분석이란문장을최소한의형태소단위로분리하는것을말하며, 형태소품사부착이란형태소분석결과에형태소가지니는구문기능에따라일정한주석을부착하는작업이다. < 그림 III-2> 는형태소분석및품사부착의예이다. 문장 : 최윤수는 2014 년 3 월 3 일창원대학교에입학했다. 최윤수는 최윤수 /NNP + 는 /JX 2014 년 2014/SN + 년 /NNB 3 월 3/SN + 월 /NNB 3 일 3/SN + 일 /NNB 창원대학교에 입학했다. 창원대학교 /NNP + 에 /JKB 입학 /NNG + 하 /XSV + 았 /EP + 다 /EF +./SF < 그림 III-2> 형태소분석및품사부착예 < 그림 III-2> 에서 NNP 는고유명사, NNG 는일반명사, NNB 는의존명사를의미 한다. JX 는보조사, JKB 는부사격조사를의미한다. XSV 는동사파생접미사, EP 는선어말어미, EF 는종결어미, SF 는종결기호를의미한다. 형태소분석및품 11
사부착결과로부터어휘정보, 품사정보, 형태소길이정보등개체명인식을위한특징정보를얻을수있다. 형태소단위로개체명을인식할경우개체명의형태소경계를구분해야하는문제가발생한다. 본시스템에서는형태소의경계를표현하기위해 < 표 III-1> 의개체명범주태그에 B/I/O 형태를결합한개체명태그를사용하였다. B/I/O 형태는개체명의시작 (Begin), 개체명의중간혹은마지막 (Inside), 개체명이아닌것 (Outside) 로구성된다. < 표 III-2> 에서형태소분석및품사부착이된문장에 B/I/O 형태의개체명태그부착예를보여준다. PER_B, DAT_B, ORG_B 는각각인명, 날짜, 기관개체명의시작형태소를의미한다. DAT_I 는날짜개체명의중간또는끝형태소의미하며, O 는개체명이아닌형태소를의미한다. 12
< 표 III-2> B/I/O 형태의개체명태그부착예 형태소 형태소품사태그 개체명태그 최윤수 NNP PER_B 는 JX O 2014 SN DAT_B 년 NNB DAT_I 3 SN DAT_I 월 NNB DAT_I 3 SN DAT_I 일 NNB DAT_I 창원대학교 NNP ORG_B 에 JKB O 입학 NNG O 하 XSV O 았 EP O 다 EF O. SF O 13
3. 학습과정 < 그림 III-3> 는제안시스템의학습과정구조도이다. 형태소분석및품사부착이완료된학습문서에서형태소정보와개체명사전, 일반명사사전그리고 CBOW 언어모델로부터자질 (feature) 을생성한다. 자질생성이끝나면템플릿으로부터원하는자질을선택하여 CRFs로학습을수행한다. CRFs의학습이끝나면학습모델이생성된다. < 그림 III-3> 제안시스템의학습과정구조도 14
3.1 개체명사전과일반명사사전 학습문서의형태소분석및품사부착작업이끝나면형태소의개체명사전존재유무에대해검색한다. 개체명사전은 < 표 III-1> 의 14 개범주에각각해당하는개체명을모아생성한사전이다. 해당범주의개체명사전에존재여부만으로도개체명을인식하는데큰도움이된다. 하지만개체명은계속해서새로운개체명이생성되고기존개체명이삭제되기때문에개체명사전만으로는개체명을인식하는데어려움이있다. 본시스템에서는이를보완하기위해일반명사사전을이용한다. 일반명사사전이란우리가가지고있는명사를모두모으고, 이중개체명이되는명사를제외하고남은명사로생성한사전이다. 일반명사사전에존재한다는것은개체명이아닐가능성이크다는뜻이며, 일반명사사전에존재하지않는다는것은개체명일가능성이높다라고해석할수있으므로개체명을인식하는데큰도움이된다. 실제본연구자의이전실험에서일반명사사전을개체명인식에사용할경우약 0.5% 의성능향상이있었다. 3.2 CBOW 언어모델 본연구에서는 CBOW 언어모델을이용하여 word embedding 을수행하였다. 영어에서는가공되지않은대량의원시문서를그대로입력하여, word 단위의 word 15
embedding 을수행하고 word vector 를생성한다. 본연구에서는한국어에맞춰대량의원시문서를형태소분석및품사부착단계를거치고, 이를입력으로하여형태소및품사단위의 word embedding 을수행하였다. < 그림 III-4> 는 CBOW 언어모델생성과정이다. 우선가공되지않은대량의원시문서에형태소분석및품사부착과정을거친다. 형태소분석및품사부착이끝나면 < 그림 III-5> 와같이형태소분석및품사부착된문서를형태소단위로분리하여순서대로나열한다. < 그림 III-4> CBOW 언어모델의생성과정 16
원시문서 : 경상남도창원시의창구에창원대학교는 1969 년에개교하였다. 경상남도 /NNP 창원시 /NNP 의창구 /NNP 에 /JKB 창원대학교 /NNP 는 /JX 1969/SN 년 /NNB 에 /JKB 개교 /NNG 하 /XSV 았 /EP 다 /EF./SF < 그림 III-5> 원시문서의형태소분석및품사부착 형태소를나열하고난뒤첫번째형태소부터차례로 word embedding 을수행한다. 형태소단위로 word embedding 을수행하므로 < 그림 III-6> 와같이앞, 뒤주변형태소 로부터자기자신의 word vector 값을결정한다. < 그림 III-6> CBOW 언어모델을이용한형태소단위의 word embedding 17
CBOW 언어모델을이용하여 word embedding을수행하면형태소단위로실수값으로이루어진 word vector가생성된다. 본시스템에서는 word vector를 50차원의실수로생성하고, 이실수값을학습과개체명인식과정을위한 word embedding 자질로사용한다. < 표 III-3> 은형태소단위로생성된 word vector의예이다. < 표 III-3> 형태소단위로생성된 word vector의예 형태소 Word Vector 경상남도 /NNP 0.054519, -0.039076,..., 0.049407 창원시 /NNP 0.076326, -0.113740,..., 0.066791 의창구 /NNP -0.097192, -0.085535,..., 0.291513 에 /JKB 0.214002, -0.124554,..., 0.146882 창원대학교 /NNP -0.039561, 0.006097,..., -0.145819 는 /JX 0.175349, -0.134337,..., 0.111820 NUMBER/SN 0.271558, -0.068706,..., 0.254129...... Word vector 생성이완료되면이 vector 값을이용하여군집화 (Clustering) 를수행할 수있다. 실수로이루어진 word vector 값을입력으로하고, 군집할단위개수 K 값을 정한후 K-means 알고리즘을이용하여군집화를수행한다. K-means 는중심을 선택하고군집화를수행한후군집화가정상적으로이루어졌는지검정하고이상적인군집화가이루어지거나일정횟수에도달할때까지중심을갱신하고군집화를수행하는알고리즘이다. 군집화를수행하면형태소단위의군집정보 (Cluster Symbol) 를생성할수있다. 이군집정보를이전에생성한 word vector 와함께개체명인식을위한 word embedding 자질로써사용한다. < 표 III-4> 는형태소단위의 word vector 를 200 개, 300 개, 400 개, 18
500 개로군집화한군집정보의예이다. < 표 III-4> 를보면이상적인군집화를 수행하는과정에서군집개수에따라군집정보가달라지는것을알수있다. < 표 III-4> 형태소 word vector의군집정보의예 Word vector 군집정보 (Cluster Symbol) 형태소 200 개 300 개 400 개 500 개 경상남도 /NNP 25 155 376 355 창원시 /NNP 3 130 101 479 의창구 /NNP 90 155 261 355 에 /JKB 189 167 383 92 창원대학교 /NNP 79 132 242 480 는 /JX 93 32 383 92 NUMBER/SN 113 13 29 183............... 3.3 자질생성 (Feature Generation) 자질은문장을이루는형태소단위로생성한다. 형태소분석및품사부착정보로부터기본자질을생성하고개체명사전, 일반명사사전그리고 CBOW 언어모델을이용하여자질을추가한다. < 표 III-5> 은자질생성예제이다. 자질 1 은형태소의어휘, 2 는형태소의품사태그, 3 은형태소의길이이다. 자질 4 는형태소의어절내위치로 0 은어절내첫번째형태소, 1 은어절내중간형태소, 2 는어절내마지막형태소로총 3 가지 19
값을가진다. 자질 5 는현재어절의마지막형태소가조사일경우그조사의형태소와품사태그를사용하고, 조사가아닐경우 - 를사용한다. 자질 6 은 < 표 III-1> 의개체명범주순서로, 14 개개체명사전내에형태소의존재여부이다. 자질 7 은일반명사사전내에존재여부이다. 자질 6 과자질 7 은존재할경우 1, 존재하지않을경우 0 의값을가진다. 자질 8 은 3.2 장에서설명한것과같이대량의원시문서로생성한 CBOW 언어모델에서, 현재형태소의 word vector 또는군집정보를 word embedding(w/e) 자질로사용한다. < 표 III-5> 자질생성예제 자질번호형태소 1 2 3 4 5 6 7 8 1 최윤수 NNP 3 0 는 /JX 00000000000000 0 W/E 2 는 JX 1 2 는 /JX 00000000000000 1 W/E 3 2014 SN 4 0-00000000000000 1 W/E 4 년 NNB 1 2-00000000000000 1 W/E 5 3 SN 1 0-00000000000000 1 W/E 6 월 NNB 1 2-00000000000000 1 W/E 7 3 SN 1 0-00000000000000 1 W/E 8 일 NNB 1 2-00000000000000 1 W/E 9 창원대학교 NNP 5 0 에 /JKB 0001100000000 0 W/E 10 에 JKB 1 2 에 /JKB 00000000000000 1 W/E 11 입학 NNG 2 0-00000000000000 1 W/E 12 하 XSV 1 1-00000000000000 1 W/E 13 았 EP 1 1-00000000000000 1 W/E 14 다 EF 1 1-00000000000000 1 W/E 15. SF 1 2-00000000000000 1 W/E 20
< 표 III-5> 에서아홉번째형태소인 창원대학교 의경우어휘는 창원대학교 이고, 품사는 NNP 이고, 형태소의길이는 5 이다. 어절내첫번째형태소로어절내위치는 0 이고, 어절의마지막형태소가조사이므로 에 /JKB 이고, 개체명사전에는 기관개체명사전 과 지역개체명사전 에존재하므로 00011000000000, 일반명사사전에존재하지않음으로 0 이자질로써생성된다. 그리고 CBOW 언어모델로부터현재형태소의 50 차원의실수로이루어진 word vector 값또는군집정보가 word embedding 자질로생성된다. 3.4 학습및모델생성 자질을모두생성하면학습및모델생성을수행한다. 학습에사용할자질은템플릿으로결정한다. < 표 III-6> 은템플릿사용자질예제이다. 대괄호안에서앞의숫자는현재입력형태소로부터의거리를뜻하며, - 는이전형태소, + 는다음형태소를의미한다. 대괄호안에서뒤의숫자는 < 표 III-5> 의자질번호를뜻한다. & 기호는두개이상의자질을합친조합자질을의미한다. 템플릿번호 1 번은현재형태소의첫번째자질인형태소어휘를뜻한다. 2 번은현재형태소의두번째자질인형태소품사를뜻하고, 3 번은현재형태소의여섯번째자질인개체명사전존재여부를뜻한다. 4 번은이전형태소의어휘와현재형태소의품사를조합한자질을의미한다. 5 번은다음형태소의품사와현재형태소의어휘를조합한자질을을의미한다. 21
< 표 III-6> 템플릿사용자질예제 템플릿번호 선택자질 1 [0, 1] 2 [0, 2] 3 [0, 6] 4 [-1, 1] & [0, 2] 5 [+1, 2] & [0, 1] 예를들어 < 표 III-5> 에서아홉번째형태소인 창원대학교 는템플릿번호 1번에의해현재형태소의어휘인 창원대학교 자질, 2번에의해현재형태소의품사인 NNP 자질이사용된다. 그리고템플릿번호 3번에의해개체명사전존재여부로써 0001100000000 자질이사용된다. 또한템플릿번호 4번에의해이전형태소의어휘인 일 과현재형태소의품사인 NNP 를조합한조합자질을사용하고, 5번에의해다음형태소의품사인 JKB 와현재형태소의어휘인 창원대학교 를조합한조합자질을사용한다. 22
4. 개체명인식과정 < 그림 III-7> 은개체명인식과정구조도이다. 개체명인식과정은개체명이부착되지않은원시문서가입력되면형태소분석및품사부착을수행하고, 학습과정과동일하게자질을생성한다. 생성된자질과학습과정에서생성된모델을이용하여개체명을인식하고개체명을부착한후결과문서를출력한다. < 그림 III-7> 개체명인식과정구조도 23
아래는원시문서에대한개체명인식결과의예제이다. 예제에서보는것과같이 박태호 는인명 (PER) 으로, 창원대학교 는기관명 (ORG) 으로, 학생 은문명및문화 관련명칭 (CVL) 으로개체명이인식이된것을알수있다. < 박태호 :PER> 는 < 창원대학교 :ORG> 에다니는 < 학생 :CVL> 이다. 24
IV. 실험및토의 제 IV 장 실험및토의 1. 실험환경 본논문에서제안된방법의효용성을보이기위해다양한실험을진행하였다. 한국어개체명인식시스템의성능을측정하기위해서 TV 도메인과스포츠도메인, IT 도메인문서를사용하였다. 도메인의문서는각각개체명모델을생성하기위한학습데이터와성능평가를위한평가데이터로나누어사용하였다. TV 도메인에서는 104,759문장을학습데이터로사용하고 3,896문장을평가데이터로사용하였다. 스포츠도메인에서는 42,809문장을학습데이터로사용하고 4,000문장을평가데이터로 25
사용하였다. 마지막으로 IT 도메인에서는 14,075문장을학습데이터로사용하고 1,000문장을평가데이터로사용하였다. Word embedding 자질을사용하였을때개체명인식성능을알아보기위해 word embedding 자질을사용하지않은시스템성능과 word vector 자질과군집정보자질을추가로사용한개체명인식성능을비교분석하였다. 그리고기본시스템에군집정보자질과 word vector 자질을모두사용하였을때의성능을비교분석하였다. CBOW 언어모델을생성하기위해대량의원시문서내에약 2억 8천만개의형태소를사용하여 word embedding을수행하고, 50차원의실수로이루어진 569,589개의형태소단위 word vector를생성하였다. 개체명인식을위한형태소분석과 word embedding을위한형태소분석은창원대학교적응지능연구실에서공개한 Espresso[17] 를사용하여수행하였다. 또한 CRFs를이용한학습및평가를위해 CRF++ 을사용하였다. 제안한시스템의성능평가를위해정밀도와재현율을결합한 F 1 measure를사용하였다. 평가척도는식 (1) 과같다. 실제정답의수정밀도 (Precision, P) = 시스템이출력한수 실제정답의수재현율 (Recall, R) = 정답문서의모든정답의수 F 1 measure = 2 P R P + R (1) 26
2. 실험결과 2.1 기본시스템성능 Word embeddgin 자질을사용하였을때의성능변화를알기위해, word embedding 자질을제외하고기본자질만을사용하여실험을수행하였다. < 표 IV-1> 는 Word embedding 자질을사용하지않은기본시스템성능이다. TV 도메인에서는 88.51%, Sports 도메인에서는 89.45%, IT 도메인에서는 80.50% 의성능을보였다. < 표 IV-1> 한국어개체명인식기본시스템성능 도메인 Precision(%) Recall(%) F 1 measure(%) TV 도메인 89.15 87.88 88.51 Sports 도메인 90.42 88.51 89.45 IT 도메인 82.78 78.34 80.50 27
2.2 Word Vector 자질을사용한성능평가 다음으로기본시스템에 word vector 자질 1 을추가로사용하고실험을수행하였다. < 표 IV-2> 는세가지도메인에서 word vector 자질을추가로사용하였을때의성능이다. < 표 IV-1> 의기본시스템의성능과비교하였을때, TV 도메인에서는 88.91% 로 0.4% 향상된성능을보였다. Sports 도메인은 89.92% 로 0.47% 향상된성능을보였다. IT 도메인에서는 80.51% 로 0.01% 향상된성능을보였다. < 표 IV-2> Word vector 자질을사용하였을때개체명인식성능 도메인 Precision(%) Recall(%) F 1 measure(%) 성능변화 (%) TV 도메인 89.24 88.59 88.91 +0.4 Sports 도메인 91.00 88.85 89.92 +0.47 IT 도메인 82.86 78.30 80.51 +0.01 이실험을통해 word vector 자질을추가로사용할경우형태소정보로부터얻은자질과사전으로부터얻은자질의부족한부분을보완하여개체명인식성능을향상시킬수있음을알수있다. 하지만 IT 도메인에서는 0.01% 성능향상에그쳐 word vector 자질외에추가로다른 word embedding 자질을사용할필요성이있음을알수있다. 1 Word vector 는실수값으로소수점여섯째자리에서반올림하여소수점다섯째자 리로사용하였다. 28
2.3 군집정보자질을사용한성능평가 두번째로기본시스템에군집정보자질을추가로사용하여실험을수행하였다. 군집정보자질은앞서생성한 word vector를 K-means 알고리즘을이용하여군집화하였다. K-means 알고리즘은군집화하고자하는군집개수를지정한다. 본실험에서는 200, 300, 400, 500개로군집화하여각각군집정보자질을생성하였다. < 표 IV-3>, < 표 IV-4>, < 표 IV-5> 는각각 TV 도메인과 Sports 도메인, IT 도메인의군집개수별성능을보여준다. 모든도메인에서기본시스템에군집정보자질을추가로사용하였을때그성능이향상되었다. 군집정보자질을생성할때사용한군집개수별성능에서 TV 도메인에서는 300개, Sports 도메인은 200개, IT 도메인은 400개에서성능이가장높았다. < 표 IV-1> 의기본시스템의성능과비교하였을때, TV 도메인에서는 88.74% 로 0.23% 성능이향상되었고, Sports 도메인에서는 89.93% 로 0.48% 성능이향상되었다. IT 도메인에서는 81.32% 로 0.82% 성능이향상되었다. < 표 IV-3> 군집정보자질을용하였을때개체명인식성능 (TV 도메인 ) 군집개수 Precision(%) Recall(%) F 1 measure(%) 성능변화 (%) 200개 89.08 88.01 88.54 +0.03 300개 89.19 88.29 88.74 +0.23 400개 89.24 87.86 88.54 +0.03 500개 89.19 88.16 88.67 +0.16 29
< 표 IV-4> 군집정보자질을사용하였을때개체명인식성능 (Sports 도메인 ) 군집개수 Precision(%) Recall(%) F 1 measure(%) 성능변화 (%) 200개 90.97 88.92 89.93 +0.48 300개 90.96 88.85 89.90 +0.45 400개 90.81 88.77 89.78 +0.33 500개 90.54 88.56 89.54 +0.09 < 표 IV-5> 군집정보자질을사용하였을때개체명인식성능 (IT 도메인 ) 군집개수 Precision(%) Recall(%) F 1 measure(%) 성능변화 (%) 200개 83.33 79.16 81.19 +0.69 300개 83.18 78.79 80.92 +0.42 400개 83.39 79.36 81.32 +0.82 500개 83.48 79.18 81.27 +0.77 < 표 IV-3>, < 표 IV-4>, < 표 IV-5> 에서군집개수에따른성능변화의추세가일정하지않고, 도메인에따라가장좋은성능을보이는군집정보가다르다는것을알수있다. 이는도메인에관계없이대량의원시문서를사용하여 word embedding을수행하고 CBOW 언어모델을생성하였지만, 각도메인에서나타나는형태소가조금씩다르기때문이다. 또한군집개수에따라군집정보가달라지면서, 같은개체명범주를가지는형태소들이군집될수도있고군집되지않을수도있기때문이다. 예를들어 < 표 III-4> 에서 경상남도 /NNP 와 의창구 /NNP 는모두지명을의미하는개체명 30
이다. 그런데 300개와 500개로군집화하였을때는같은군집정보를가지지만 200 개와 400개로군집화하였을때는다른군집정보를가지게된다. 따라서도메인에따라가장높은성능을보이는군집개수를찾기위해, 다양한실험을수행할필요성이있다는것을알수있다. 31
2.4 Word Embedding 자질을모두사용한성능평가 마지막으로 word vector 자질과군집정보자질을모두사용하여실험을수행하였다. 각도메인에서군집정보자질을사용했을때가장성능이좋은군집개수자질을 word vector 자질과함께사용하였다. TV 도메인은 300개, Sports 도메인은 200개, IT 도메인은 400개로군집화하여생성한군집정보자질을사용하였다. < 표 IV-6> 은 word embedding 자질을모두사용하였을때개체명인식성능이다. < 표 IV-1> 의기본시스템의성능과비교하였을때, TV 도메인에서는 89.03% 로 0.52% 성능이향상되었다. Sports 도메인에서는 89.98% 로 0.53% 성능이향상되었으며, IT 도메인은 80.69% 로 0.19% 성능이향상되었다. < 표 IV-6> Word embedding 자질을모두사용하였을때개체명인식성능 도메인 Precision(%) Recall(%) F 1 measure(%) 성능변화 (%) TV 도메인 89.33 88.73 89.03 +0.52 Sports 도메인 91.10 88.89 89.98 +0.53 IT 도메인 82.91 78.58 80.69 +0.19 하지만모든자질을사용하는것이가장높은성능을보이는것은아니다. < 표 IV-7>, < 표 IV-8>, < 표 IV-9> 은각도메인에서사용자질별시스템성능을비교한것이다. < 표 IV-7> 와 < 표 IV-8> 의 TV 도메인과 Sports 도메인에서는 word vector 자질과군집정보자질을모두사용하는것이가장성능이높았다. 하지만 < 표 IV-9> 의 IT 32
도메인에서는 word vector 자질을사용하지않고, 400 개로군집화한군집정보자질만 을사용하였을때가장성능이높았다. 생성한자질들을모두사용하는것보다선택 적으로사용하는것이개체명인식성능에더유리할수도있다는것을보여준다. < 표 IV-7> 자질별시스템성능비교 (TV 도메인 ) 사용자질 F 1 measure(%) 기본시스템 88.51 기본시스템 + Word Vector 88.91 기본시스템 + 군집정보 (200 개 ) 88.54 기본시스템 + 군집정보 (300 개 ) 88.74 기본시스템 + 군집정보 (400 개 ) 88.54 기본시스템 + 군집정보 (500 개 ) 88.67 기본시스템 + Word Vector + 군집정보 (300 개 ) 89.03 33
< 표 IV-8> 자질별시스템성능비교 (Sports 도메인 ) 사용자질 F 1 measure(%) 기본시스템 89.45 기본시스템 + Word Vector 89.92 기본시스템 + 군집정보 (200 개 ) 89.93 기본시스템 + 군집정보 (300 개 ) 89.90 기본시스템 + 군집정보 (400 개 ) 89.78 기본시스템 + 군집정보 (500 개 ) 89.54 기본시스템 + Word Vector + 군집정보 (200 개 ) 89.98 < 표 IV-9> 자질별시스템성능비교 (IT 도메인 ) 사용자질 F 1 measure(%) 기본시스템 80.50 기본시스템 + Word Vector 80.51 기본시스템 + 군집정보 (200 개 ) 81.19 기본시스템 + 군집정보 (300 개 ) 80.92 기본시스템 + 군집정보 (400 개 ) 81.32 기본시스템 + 군집정보 (500 개 ) 81.27 기본시스템 + Word Vector + 군집정보 (400 개 ) 80.69 34
< 표 IV-10> 은 TV 도메인에서기존한국어개체명인식시스템과의성능비교표이다. Structural SVM을사용한방법과제안방법은동일한성능을보였으며 FFNN과 CNN을사용한방법보다는더우수한성능을보였다. 제안방법이최신한국어개체명인식시스템의성능과큰차이가없음을입증한다. < 표 IV-10> 한국어개체명인식시스템성능비교 (TV 도메인 ) 시스템 F 1 measure(%) Structural SVM 89.03 FFNN 87.74 CNN 88.57 제안방법 89.03 3. 오류분석 실험에서나타난오류는크게두가지유형으로나눌수있다. 하나는잘못된개체명범주가부착된유형이다. 잘못된개체명범주가부착된유형은다시두가지유형으로나눌수있다. 첫번째로애매성에의해잘못된개체명범주가부착된경우이다. 예를들어 창원대학교 는지명 (LOC) 과기관명 (ORG) 두가지범주에모두속하는애매성을가지고있다. 이때주변정보를이용하여애매성을해결하고하나의범주를선택해야한다. 하지만주변정보가부족하면애매성을해결하지못하고잘못된개체명범주가부착되는오류가발생한다. 잘못된개체명범주가부착되는 35
두번째경우는잘못된분석에의한오류로개체명이아닌것에도개체명범주를부착하는것이다. 다른하나의개체명오류유형은개체명을인식하지못한오류이다. 개체명을인식하지못한오류는다시다음과같은경우로나눌수있다. 첫번째는형태소분석오류에의해발생하는개체명인식오류이다. < 그림 IV-1> 을보면인명 (PER) 으로분류되는개체명인 박지성 은형태소분석및품사부착단계에서 박지성 /NNP 로분석되어야한다. 하지만 박지 /NNG+ 성 /XSN 으로잘못분석될경우개체명으로인식하지못하는오류를발생시킬수있다. 박지성박지 /NNG + 성 /XSN 2 < 그림 IV-1> 형태소분석및품사부착오류예 개체명을인식하지못한두번째경우는주변정보가부족하거나학습이부족하여개체명을인식하지못한오류이다. 특히 2어절이상의개체명의경우어절중일부를개체명으로인식하지못한오류가있었다. 예를들어 웨인루니 나 크리스티아누호날두 같은개체명에서 웨인, 크리스티아누 등을개체명으로인식하지못한오류이다. < 표 IV-11>, < 표 IV-12>, < 표 IV-13> 는각도메인에서가장성능이좋은자질의 Confusion Matrix이다. 표에서열은시스템에서부착한개체명출력결과이고, 행은실제정답개체명이다. 표에서 None 은개체명이아닌것을의미한다. 각 Confusion 2 XSN 은명사파생접미사를의미한다. 36
Matrix를살펴보면개체명이아닌데개체명을부착한오류와개체명을인식하지못한오류가많음을알수있다. 각표를살펴보면특히문명 / 문화관련명칭범주의 CVL 에서개체명을인식하지못한오류가많음을알수있다. 이는 CVL 에 2어절이상의개체명에서나타나는오류가많이포함되어있기때문이다. 예를들어 항공전문가, IT 전문가 의개체명에서 전문가 만을인식하거나, 주미일본대사 에서 일본대사 만을인식하는오류등이있다. 그리고이벤트범주의 EVT 와용어범주의 TRM 또한 2어절이상의개체명을많이포함하고있기때문에개체명미인식오류가많이나타난다. 인명범주의 PER 과기관범주의 ORG 에서도개체명미인식오류가많이나타난다. 두범주에서는 2어절이상의개체명에서나타나는오류뿐만아니라개체명의특성에서발생하는오류가있다. 인명과기관명의경우고유성이라는특성을가진다. 고유성은데이터에서출현빈도가낮다는것을의미하고, 평가데이터의개체명이학습데이터에서나타나지않는경우를발생시킨다. 이런경우주변정보를이용하여개체명을인식해야하지만, 주변정보가부족할경우개체명을인식하지못하는오류로이어진다. 37
< 표 IV-11> 기본시스템 +Word Vector+ 군집정보 (300 개 ) (TV 도메인 ) Sys 정 PER FLD AFW ORG LOC CVL DAT TIM NUM EVT ANM PLT MAT TRM None 총합 PER 770 1 2-1 2 - - - - - 3-2 57 838 FLD 1 366 2 2 2 6 - - - - - - 2 4 69 454 AFW 4 2 273 1 2 4 2-3 2 1-2 2 66 364 ORG 2 3 2 151 11 1 - - 1 - - - 1 1 33 206 LOC 4 4 4 2 723 6 - - - 2 1 - - - 61 807 CVL 4 2 4-8 1,531 - - 4-1 2 1 3 206 1,766 DAT 1 3 - - 4 1 1,258-3 1 - - - - 42 1,313 TIM - - - - - - - 217 4 - - - - 1 16 238 NUM 1 1-1 1-23 - 2,451 1 2 - - - 109 2,590 EVT - - - - 1 - - - - 23 - - - - 5 29 ANM - - 4-1 1 - - - - 787-3 2 103 901 PLT - - 1 - - 2 - - - - 2 112 - - 14 131 MAT - - 4-2 2 - - - - - - 165 2 43 218 TRM 2 6 3-1 8 - - - - 4 - - 635 150 809 None 50 38 59 21 27 170 76 21 209 7 74 11 23 116-902 총합 839 426 358 178 784 1,734 1,359 238 2,675 36 872 128 197 768 974 38
< 표 IV-12> 기본시스템 +Word Vector+ 군집정보 (200 개 ) (Sports 도메인 ) Sys 정 PER FLD AFW ORG LOC CVL DAT TIM NUM EVT ANM PLT MAT TRM None 총합 PER 2,836 - - 3 4 2 - - 1-1 - - 1 151 2,999 FLD - 12-10 - 2 - - - 1 - - - - 20 45 AFW 2-116 6 3 - - - 1 4 - - - - 22 154 ORG 12-1 2,427 25 12 1-3 14 - - - - 130 2,625 LOC 6-3 21 690 8 - - - 14 - - - - 54 796 CVL 10 - - 7 5 2,704 3-15 7 - - - 6 429 3,186 DAT 2 - - - - - 1,098-46 1 - - - - 34 1,181 TIM - - - - - - 1 160 1 - - - - - 6 168 NUM 2 - - 1-5 - 2 4,048 3 - - - 2 121 4,184 EVT 2 1-42 23 8 1-8 580 - - - 4 172 841 ANM - - - - - 1 - - - - 199 - - 6 39 245 PLT - - - - - - - - - - - 3 - - 7 10 MAT - - - - - 1 - - - - - - 1-11 13 TRM 9-2 10 1 8 - - 10 4 4 - - 750 332 1,130 None 99 1 7 87 31 276 38 9 223 146 11 - - 174-1,102 총합 2,980 14 129 2,614 782 3,027 1,142 171 4,356 774 215 3 1 943 1,528 39
< 표 IV-13> 기본시스템 + 군집정보 (400 개 ) (IT 도메인 ) Sys 정 PER FLD AFW ORG LOC CVL DAT TIM NUM EVT ANM PLT MAT TRM None 총합 PER 373 - - 5 2 2 - - - - - - - 1 63 446 FLD 1 271-4 - 4 - - 1 - - - - 6 61 348 AFW 1 2 62 7 2 3 - - - 1 - - - 2 38 118 ORG 3 15 9 945 12 5 1 - - - - - - 8 76 1,074 LOC - - 3 9 435 1 - - - 2 - - - 4 44 498 CVL 2 13-14 2 597 - - 3 2 - - 1 10 116 760 DAT - - - - - - 384 - - - - - - - 85 469 TIM - - - - - - - 15 - - - - - - 3 18 NUM - 1 - - - - 1-413 - - - - 1 85 501 EVT - 6 1 4 4 2 - - - 25 - - - 4 33 79 ANM 1 - - - - - - - - - 13 - - - 12 26 PLT - - - - - - - - - - - - - - 3 3 MAT - 1 - - 1 - - - - - - - 1 - - 3 TRM 2 27 2 7 3 3 - - - 1 - - - 346 155 546 None 39 55 16 70 27 101 77 2 48 18 1 - - 84-538 총합 422 391 93 1,065 488 718 463 17 465 49 14-2 466 774 40
V. 결론 제 Ⅴ 장 및향후연구 결론및향후연구 본논문에서는한국어개체명인식에서영어에비해부족한자질문제를보완하고, 더높은성능의한국어개체명인식시스템을만들기위해 word embedding 자질을 이용하는방법을제안하였다. Word embedding 을수행하기위하여 CBOW 언어 모델을이용하였다. CBOW 언어모델은현재 word 의문맥을이루는 word 들이가지고있는 vector 값의합으로현재 word 의 vector 값을결정하는모델이다. CBOW 언어모델을이용하여형태소단위의 word vector 를생성하고, 이 vector 값을 K- means 알고리즘으로군집화하여군집정보를생성하였다. 41
Word embedding 자질을이용하는방법으로형태소단위의 word vector 와군집정보를 CRFs 의자질로사용하였다. TV 도메인과 Sports 도메인, IT 도메인으로총세가지도메인에서실험을수행하였다. 실험을수행한결과최고성능이기본시스템보다 TV 도메인에서는 0.52%, Sports 도메인에서는 0.53%, IT 도메인에서는 0.82% 로각각성능이향상되어그효용성을입증했다. 또한최신의한국어개체명인식시스템과도큰성능차이가없었다. 하지만어떤 word embedding 자질이개체명인식에서가장효용성이있는지알기위해다양한실험이필요하다. 향후에는 word embedding 을형태소단위가아닌개체명단위로수행하고, 그 word vector 를자질로사용하여개체명인식을수행하는실험을수행할것이다. 그리고 K-means 알고리즘이아닌다른알고리즘을이용하여군집화를수행하고, 생성된군집정보를자질로사용하는실험을수행할것이다. 또한아직까지영어권개체명인식시스템성능에비해떨어지는한국어개체명인식시스템성능을향상시키기위한방법을연구할것이다. 42
참고문헌 참고문헌 1. 이경희, 이주호, 최명석, 김길창, 한국어문서에서개체명인식에관한연구, 제 12 회한글및한국어정보처리학술대회, pp. 292-299, 2000. 2. Daniel M. Bikel, Scott Miller, Richard Schwartz, Ralph Weischedel, "Nymble: a High- Performance Learning Name-finder", Proceedings of the Fifth Conference on Applied Natural Language Processing, pp. 194-201, 1997. 3. A. Ekbal, R. Haque, and S. Bandyopadhyay, Named Entity Recognition in Bengali: A Conditional Random Field Approach, Proceedings of 3rd International Joint Conference Natural Language Processing (IJCNLP-08), pp. 589-594, 2008. 4. A. Ekbal and S. Bandyopadhyay, Bengali Named Entity Recognition using Support Vector Machine, Proceedings of Workshop on NER for South and South East Asian Languages, 3rd International Joint Conference on Natural Language Processing (IJCNLP), (India), pp. 51-58, 2008. 5. Xiaohua Liu, Ming Zhou, Furu Wei, Zhongyang Fu, Xiangyang Zhou, "Joint Inference of Named Entity Recognition and Normalization for Tweets", Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pp. 526-535, 2012. 43
6. Ritter, Alan, Sam Clark, and Oren Etzioni, "Named entity recognition in tweets: an experimental study", Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, pp. 1524-1534, 2001. 7. 정의석, 이현숙, 황이규, 윤보현, 한국어개체명인식을위한 CoTraining 기법, 한국정보과학회인간과컴퓨터상호작용연구회학술대회발표논문집 (HCI) 제 2 호, pp. 525-529, 2003. 8. 이창기, 황이규, 오효정, 임수종, 허정, 이충희, 김현지, 왕지현, 장명길, "Conditional Random Fields 를이용한세부분류개체명인식 ", 제 18 회한글및한국어정보처리학술대회, pp. 268-272, 2006. 9. 이창기, 장명길, "Structural SVMs 및 Pegasos 알고리즘을이용한한국어개체명인식 ", 인지과학제 21 권제 4 호, pp. 655-667, 2010. 10. 송영길, 정석원, 김학수, 위키피디아를이용한정보검색기반개체명사전구축방법, 한국정보과학회학술발표논문집, pp. 648-650, 2015. 11. 이창기, 김준석, 김정희, 김현기, 딥러닝을이용한개체명인식, 한국정보과학회학술발표논문집, pp. 423-425, 2014. 12. J. Turian, L. Ratinov and Y. Bengio, Word representations: A simple and general method for semi-supervised learning, Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pp. 384-394, 2010. 13. Y.Bengio, R.Ducharme, P.Vincent. A neural probabilistic language model, Journal of Machine Learning research, Vol.3, pp. 1137-1155, 2003. 44
14. T. Mikolov, K. Chen, G. Corrado and J. Dean, "Efficient Estimation of Word Representations in Vector Space", ICLR Workshop, 2013. 15. J. Lafferty, A. McCallum, F. Pereira, Conditional random fields: Probabilistic models for segmenting and labeling sequence data, Proceedings. 18th International Conference on Machine Learning, pp. 282-289, 2001. 16. 이호석, 조건부랜덤필드와응용에대한고찰, 한국정보과학회가을학술발표논문집제 36 권제 2 호, pp. 184-187, 2009 17. 홍진표, 차정원, 어절패턴사전을이용한새로운한국어형태소분석기, 한국정보과학회종합학술대회논문집제 35 권제 1 호, pp. 279-274, 2008 45
ABSTRACT ABSTRACT Korean Named Entity Recognition Using Word Embedding Features Choi Yunsu Dept. of Eco-Friendly Offshore Plant FEED Engineering Graduate School, Changwon National University Changwon, Korea Named Entity Recognition (NER) is the task to recognize and classify named entities such as person name, location, and organization. There were various studies on Korean Named Entity Recognition, but those have some problems, for example lacking features as compared to English NER. In this paper, we propose a method that uses word embedding as features for Korean NER. We generate word vector using Continuous-Bag-of-Words(CBOW) model from POS tagged corpus, and word cluster symbol using K-means algorithm from word vector. We use word vector and word cluster symbol as word embedding features in Conditional Random Fields(CRFs). From the result of experiment, performance improves 0.52%, 0.53% and 0.82% respectively in TV domain, Sports domain and IT domain over the baseline system. Showing better performance than other NER systems, we demonstrate effectiveness and efficiency of the proposed method. KEYWORDS NLP(Natural Language Processing), NE(Named Entity), NER(Named Entity Recognition), Word Embedding, CBOW(Continuous-Bag-of-Words), Machine Learning, CRFs(Conditional Random Fields) 46
부록 A. 품사집합 부록 A. 품사집합 TAG POS TAG POS NNG 일반명사 IC 감탄사 NNB 의존명사 VCP 긍정지정사 NNP 고유명사 VCN 부정지정사 NP 대명사 VV 동사 NR 수사 VA 형용사 JKS 주격조사 VX 보조용언 JKC 보격조사 EF 종결어미 JKO 목적격조사 EC 연결어미 JKG 관형격조사 ETN 명사형전성어미 JKB 부사격조사 ETM 관형형전성어미 JKV 호격조사 EP 선어말어미 JKQ 인용격조사 SF 마침표, 물음표, 느낌표 JC 접속조사 SP 쉼표, 가운뎃점, 콜론, 빗금 JX 보조사 SS 따옴표, 괄호표, 줄표 XPN 명사접두사 SE 줄임표 XSN 명사파생접미사 SO 붙임표 ( 물결, 숨김, 빠짐 ) XSB 부사파생접미사 SL 외국어 XSV 동사파생접미사 SH 한자 XSA 형용사파생접미사 SN 숫자 XR 어근 NF 명사추정범주 MM 관형사 NV 용언추정범주 MAG 일반부사 SW 기타기호 MAJ 접속부사 NA 분석불능범주 47
이력서 성명 : 최윤수생년월일 : 1988년 05월 01일출생지 : 부산광역시해운대구주소 : 부산광역시해운대구반여1동 918-7번지 20통 1반 학력 2007-20014: 창원대학교공과대학정보통신공학과 (B.S.) 20014-2016: 창원대학교대학원친환경해양플랜트FEED공학과정 ( 컴퓨터 정보통신공학 )(M.S.) 발표논문 1. 최윤수, 정진욱, 황민태, 진교홍, 스마트교육을위한전자칠판시스템용판서소프트웨어개발, 2014 한국정보처리학회춘계학술발표대회논문집제21권제1호, pp. 1043-1046, 2014 2. 최윤수, 정진욱, 황민태, 진교홍, 사용자동작인식기능을지원하는판서소프트웨어개발, 한국정보통신학회논문지제19권제5호, pp. 1213-1220, 2015. 3. 김중한, 최윤수, 박태호, 차정원, 개체명부착말뭉치에서자동오류수정, 2015 한국컴퓨터종합학술대회 (KCC2015) 논문집, pp. 669-671, 2015. 4. 최윤수, 황민태, 태블릿기기와전자칠판시스템간의연동기술연구, 한국정보통신학회논문지제19권제7호, pp. 1719-1727, 2015. 5. 최윤수, 차정원, Word Embeddings 자질을이용한한국어개체명인식및분류, 2015 한국정보과학회동계학술발표회, pp. 546-548, 2015. 48