07( ) CPLV16-17.hwp

Similar documents
Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

09권오설_ok.hwp

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

R을 이용한 텍스트 감정분석

???? 1

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

08김현휘_ok.hwp

untitled

14.531~539(08-037).fm

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

03-서연옥.hwp

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

DBPIA-NURIMEDIA

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

디지털포렌식학회 논문양식

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

DBPIA-NURIMEDIA

05( ) CPLV12-04.hwp

정보기술응용학회 발표

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

Ch 1 머신러닝 개요.pptx

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

DBPIA-NURIMEDIA

12 CO N T E N T S

11 CO N T E N T S

À±½Â¿í Ãâ·Â

°í¼®ÁÖ Ãâ·Â

인문사회과학기술융합학회

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 25(3),

DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 27(7),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Sep.; 26(10),

10(3)-09.fm

±è¼ºÃ¶ Ãâ·Â-1

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 30(3),

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

DBPIA-NURIMEDIA

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

서론 34 2

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

???? 1

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

07_À±ÀåÇõ¿Ü_0317

07.045~051(D04_신상욱).fm

45-51 ¹Ú¼ø¸¸

DBPIA-NURIMEDIA

토픽모델링을위한시뮬레이터도구개발 정영섭, 임채균, 최호진 한국과학기술원전산학과대전광역시유성구구성동대학로 291 {pinode, rayote, 요약 : 본연구는매개변수추론공식을자동유도하는모듈을이용하여토픽모델링시뮬레이터를개발함으로써, 토

DBPIA-NURIMEDIA

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

6.24-9년 6월

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Lumbar spine

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

- 1 -

<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A52DC1A4BFB5C3B62E687770>

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

09È«¼®¿µ 5~152s

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

3. 클라우드 컴퓨팅 상호 운용성 기반의 서비스 평가 방법론 개발.hwp

04김호걸(39~50)ok

04_이근원_21~27.hwp

, ( ) 1) *.. I. (batch). (production planning). (downstream stage) (stockout).... (endangered). (utilization). *

10 이지훈KICS hwp

노동경제논집 38권 4호 (전체).hwp

<31372DB9DABAB4C8A32E687770>

07변성우_ok.hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

DBPIA-NURIMEDIA

Æ÷Àå½Ã¼³94š

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

정도전 출생의 진실과 허구.hwp

<31325FB1E8B0E6BCBA2E687770>

문학석사학위논문 존밀링턴싱과이효석의 세계주의비교 로컬 을중심으로 년 월 서울대학교대학원 협동과정비교문학 이유경

달생산이 초산모 분만시간에 미치는 영향 Ⅰ. 서 론 Ⅱ. 연구대상 및 방법 達 은 23) 의 丹 溪 에 최초로 기 재된 처방으로, 에 복용하면 한 다하여 난산의 예방과 및, 등에 널리 활용되어 왔다. 達 은 이 毒 하고 는 甘 苦 하여 氣, 氣 寬,, 結 의 효능이 있

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: * A Study on Teache

<313720BCADBCBAB9AB2DBBE7C8B8C0FBB1E2BEF720C5F5C0DA20C0C7BBE7B0E1C1A42E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Sep.; 30(9),

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE May; 27(5),


DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 27(7),

DBPIA-NURIMEDIA

룩업테이블기반비선형렌즈플레어실시간렌더링방법 (Real-Time Nonlinear Lens-Flare Rendering Method Based on Look-Up Table) 조성훈 정유나 이성길 (Sunghun Jo) (Yuna Jeong) (Sungkil Lee) 요

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

<C7A5C1F620BEE7BDC4>

Transcription:

ISSN 2383-6318(Print) / ISSN 2383-6326(Online) KIISE Transactions on Computing Practices, Vol. 22, No. 9, pp. 461-466, 2016. 9 http://dx.doi.org/10.5626/ktcp.2016.22.9.461 무한사전온라인 LDA 토픽모델에서의미적연관성을사용한토픽확장 (Topic Expansion based on Infinite Vocabulary Online LDA Topic Model using Semantic Correlation Information) 곽창욱 김선중 박성배 김권양 (Chang-Uk Kwak) (Sun-Joong Kim) (Seong-Bae Park) (Kweon Yang Kim) 요약토픽확장은학습된토픽의질을향상시키기위해추가적인외부데이터를반영하여점진적으로토픽을확장하는방법이다. 기존의온라인학습토픽모델에서는외부데이터를확장에사용될경우, 새로운단어가기존의학습된모델에반영되지않는다는문제가있었다. 본논문에서는무한사전온라인 LDA 토픽모델을이용하여외부데이터를반영한토픽모델확장방법을연구하였다. 토픽확장학습에서는기존에형성된토픽과추가된외부데이터의단어와유사도를반영하여토픽을확장한다. 실험에서는기존의토픽확장모델들과비교하였다. 비교결과, 제안한방법에서외부연관문서단어를토픽모델에반영하기때문에대본토픽이다루지못한정보들을토픽에포함할수있었다. 또한, 일관성평가에서도비교모델보다뛰어난성능을나타냈다. 키워드 : 토픽확장, 무한사전온라인 LDA, 토픽모델, Word2Vec, 온라인토픽모델 Abstract Topic expansion is an expansion method that reflects external data for improving quality of learned topic. The online learning topic model is not appropriate for topic expansion using external data, because it does not reflect unseen words to learned topic model. In this study, we proposed topic expansion method using infinite vocabulary online LDA. When unseen words appear in learning process, the proposed method allocates unseen word to topic after calculating semantic correlation between unseen word and each topic. To evaluate the proposed method, we compared with existing topic expansion method. The results indicated that the proposed method includes additional information that is not contained in broadcasting script by reflecting external documents. Also, the proposed method outperformed on coherence evaluation. Keywords: topic expansion, infinite vocabulary online LDA, topic model, word2vec, online topic model 본연구는미래창조과학부및정보통신기술연구진흥센터의정보통신 방송연구개발사업의일환으로수행하였음 [B0126-16-1002, 개방형미디어생태계구축을위한시맨틱클러스터기반시청상황적응형스마트방송기술개발 ] 이논문은제42회동계학술발표회에서 무한사전온라인 LDA 토픽모델을이용한토픽확장 의제목으로발표된논문을확장한것임 학생회원 : 경북대학교컴퓨터학부 cukwak@sejong.knu.ac.kr 비회원 : 한국전자통신연구원스마트미디어플랫폼연구실 kimsj@etri.re.kr 종신회원 : 경북대학교컴퓨터학부교수 (Kyungpook National Univ.) sbpark@sejong.knu.ac.kr (Corresponding author 임 ) 비회원 : 경일대학교컴퓨터공학과교수 kykim@kiu.ac.kr 논문접수 : 2016년 3월 18일 (Received 18 March 2016) 논문수정 : 2016년 5월 31일 (Revised 31 May 2016) 심사완료 : 2016년 6월 15일 (Accepted 15 June 2016) CopyrightC2016 한국정보과학회ː 개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회컴퓨팅의실제논문지제22권제9호 (2016. 9)

462 정보과학회컴퓨팅의실제논문지제 22 권제 9 호 (2016. 9) 1. 서론방송콘텐츠는영상, 음성으로이루어진드라마, 뉴스, 엔터테인먼트를지칭하며, 여러사용자에게실시간으로전달된다. 이러한방송콘텐츠에는등장인물간의관계, 제품정보등사용자들이관심가질만한정보가많이포함되어있다. 특히, 방송대본에는실제방송을위한내용들이기술되어있기때문에, 이를분석하면해당방송콘텐츠가담고있는내용들을사용자에게제공할수있다. 하지만대본내에서상품이나배우이름과같은정보들은등장인물간의대화에서기술되지않는다. 이와같은이유로기존에대본만을학습한토픽모델에서는 Product PLacement (PPL) 와같은정보들을사용자에게제공하기어렵다. 이를해결하기위한한가지방법으로외부연관문서를통한확장을고려할수있다. 즉, 웹상에존재하는블로그또는뉴스데이터에는대본에서사용하지않았던용어, PPL 정보등이직접적으로언급되어있다. 따라서이러한문서들을모델확장에이용하면대본에서다루지않은정보들을제공할수있다. 토픽모델은문서에서주제를찾기위해제안된모델로써대본분석에사용할경우, 대본의내용을구조화하여이용할수있다. 본논문에서는대본으로학습된토픽모델에외부연관문서를추가하여토픽을확장하고자한다. 이때중요한점은외부연관문서에는기존토픽모델을구축할때사용되지않았던단어들이존재하는데, 이들을기존토픽에반영할필요가있다. 이를위해본연구에서는무한사전온라인 LDA 토픽모델 [1] 을사용하였다. 무한사전온라인 LDA 토픽모델은기존에학습된토픽모델을추가문서를이용하여확장할때, 새롭게등장한단어들을반영하기위한방법이다. 기존의무한사전을이용한토픽확장에서는새로운단어들을기존의토픽에반영할때, 토픽과단어사이의의미적유사도 (Semantic Correlation) 를계산후가장유사한토픽에단어를할당하였다 [2]. 하지만, 중의적성격을가진단어를하나의토픽에만할당하는것은적절한토픽의형성에한계점이있다. 예를들어, 애플 이라는단어는 과일 과 애플사 ( 社 ) 와같은여러뜻을내포하고있기때문에하나의토픽에서만형성되지않을수있다. 따라서본논문에서는새로운단어가할당될토픽의적절한수를찾고할당함으로써토픽의응집성과연관성을향상시킬수있었다. 실험에서는블로그를사용한토픽확장결과를살펴보였다. 토픽확장결과를정성적으로평가한결과, 기존에학습된토픽에새로운단어가적절히반영되는것을확인할수있었다. 또한, PMI와 Word2Vec를이용 한응집성, 연관성의평가에서도제안한방법이더높은성능을나타냈다. 즉, 제안한방법을대본과외부데이터를이용한토픽확장에이용할경우, 대본에서얻은정보뿐만아니라외부데이터로부터얻은정보까지반영할수있었다. 본논문의구성은다음과같다. 2절에서는토픽모델과관련된내용들을설명한다. 3절에서는무한사전온라인 LDA 토픽모델에서의미적유사도를반영한토픽확장방법을살펴본다. 4절에서는실제대본과블로그를이용하여실험한결과를비교분석한다. 마지막으로 5절에서는결론을맺는다. 2. 관련연구토픽모델은문서를구조화하기위한방법으로써각각의토픽은의미적으로유사한단어들로구성되어있다. 2003년 Blei et al. 가 LDA(Latent Dirichlet Allocation)[3] 을발표한이후로, 이를확장한많은토픽모델들이연구되었다. Teh et al. 은기존의 LDA에서토픽의수를지정해야하는문제를해결하기위해, 비모수토픽모델을연구하였다 [4]. 하지만위의토픽모델에서는토픽학습에방대한양의문서가주어졌을경우, 토픽학습시간이오래걸린다는문제점이있었다. 토픽을대량의문서에서효율적이며지속적으로학습하기위해온라인학습법을적용한토픽모델연구들이이루어져왔다. Hoffman et al. [5] 은 LDA 토픽모델에서온라인학습법을사용하였다. 또한, Wang et al. [6] 은비모수토픽모델에서온라인학습법을적용하였다. 위의두연구에서는문서들을일정한크기의집합 (minibatch) 단위로나누고지속적으로학습에추가하였다. 하지만기존의온라인토픽모델에서는학습에사용될단어들을학습전에미리알고있어야한다. 즉, 기존모델에새로운단어가확장을위해추가되었을경우, 이단어들을반영하지못하는문제점이있었다. 이를해결하기위해무한사전온라인 LDA 토픽모델이제안되었다 [1]. 무한사전온라인 LDA 토픽모델은 Zhai et al. 이제안한방법으로써, 기존의온라인 LDA 토픽모델을기반으로스트리밍상황에서새롭게추가된단어들이학습된토픽에반영된다. 이방법에서는각각의토픽은전체어휘사전을공유하는것이아니라, 토픽별로독립적인어휘사전을가진다. 기존학습모델에존재하지않은새로운단어가확장을위해추가되었을때, 토픽모델의업데이트는아래에서술된세단계에걸쳐이루어진다. 먼저새로운단어를각각의토픽에추가한다. 각각의토픽별로이전의토픽내의단어분포를반영한현재토픽의단어값을계산한다. 마지막으로, 각토픽에서상위 개의단어만남기고나머지단

무한사전온라인 LDA 토픽모델에서의미적연관성을사용한토픽확장 463 어들을제거한다. 이와같은과정을통해기존의온라인토픽모델의학습에서새로운단어를반영하지못하는한계점을보완할수있다. Kwak et al. [2] 은무한사전온라인 LDA 토픽모델에서토픽의질적향상을위해 Word2Vec를이용한의미적유사도를반영하였다. 이방법에서는각토픽과새롭게추가된단어의유사도비교를통해가장유사한토픽에단어를추가한다. 하지만어휘사전에단어가추가될때, 가장유사한토픽에만추가되기때문에, 중의적인성격을가진단어의경우에는특정토픽에서만나타나게되어적절한토픽형성에문제가될수있다. 따라서본논문에서는이러한문제를보완하기위해주어진 threshold 이상일경우, 의미적으로연관되어있다고여기고토픽에단어를추가하여토픽학습하였다. 3. 무한사전온라인 LDA 토픽모델에서의미적유사도를반영한토픽확장본논문에서제안하는토픽확장과정은아래그림 1 과같다. 먼저방송대본을이용하여초기토픽을학습한다. 이후추가되는블로그데이터를이용하여학습된토픽모델을갱신한다. 토픽갱신학습에서새로운단어와의토픽간의유사도계산을통해일정한 threshold 이상의토픽에단어를할당한다. 단어의할당이후에는변형추론 (variational inference) 를통해가중치를계산한다. 갱신학습은추가된모든문서를학습할때까지반복된다. 먼저전체문서 (corpus) 의각각의문서 (document) 는 Dirichlet 분포로부터 를선택한다. 문서 내의 번째단어에대해서할당될토픽 ( ) 과단어의값 ( ) 을결정한다. 즉, 각각의문서의토픽분포에따라토픽을선택하고, 해당문서에서선택된토픽에할당될단어들을선택하는과정으로토픽이형성된다. 본논문에서는위의과정을통해 개의대본토픽을생성한다. 3.2 의미적유사도를반영한토픽확장토픽확장학습은블로그문서가추가될때마다이루어지며, 그림 2와같이 2 단계로나뉜다. 먼저, 새로운단어를유사한토픽에할당한다. 토픽확장학습에서기존의토픽모델에존재하지않는새로운단어가나타날경우, 충분한통계적정보가부족하기때문에토픽모델에적절히반영하기위한방법이필요하다. 따라서, 각각의토픽내의단어들과새로운단어사이의유사도를계산한후, 주어진 threshold보다높은값을가진토픽에새로운단어를추가한다. 그림 2 토픽갱신학습과정 Fig. 2 A process of topic updating 그림 1 외부연관문서를통한토픽확장흐름도 Fig. 1 A process of topic expansion using external document 3.1 토픽학습본논문에서는대본을이용한초기토픽학습을위해 LDA[3] 를사용하였다. 초기토픽생성과정은아래와같다. 1. for each document in a corpus do 2. Choose a distribution ~ Dir() 3. for each of the word = 1,..., do 4. Choose a topic ~ Multi( ) 5. Choose a word 토픽내의단어들과새로운단어사이의유사도는 Word2Vec[7] 값을이용한다. 단어와토픽간의유사도값 는아래의식 (1) 과같이계산할수있다. 는토픽내의단어 와의단어유사도값의평균이며, 아래의식 (1) 과같이계산된다. (1) 는단어 와토픽 의상위 번째단어인 와의 Word2Vec 값을의미하며식 (2) 를통해계산 할수있다. 은단어 의벡터를의미하며학습된 Word2Vec 모델에서얻을수있다. (2)

464 정보과학회컴퓨팅의실제논문지제 22 권제 9 호 (2016. 9) 위의식 (1) 에따라얻어진 가주어진 threshold 보다높을경우해당토픽 k에단어 를할당한다. 새로운단어가할당되는토픽의수는각토픽과의유사도값에따라달라진다. 새로운단어의할당이후에는기존의무한사전온라인 LDA에서사용한토픽내단어의가중치계산방법에따라가중치를계산한다 [1]. 블로그를반영한토픽확장학습은주어진블로그문서가모두학습에반영될때까지반복된다. 4. 실험결과 4.1 실험설계본논문에서는실험을위해아래표 1과같이세종류의드라마대본으로토픽학습하였다. 대본의경우, 장면을하나의문서로사용하였다. 확장에반영할외부연관문서로는블로그를사용하였으며, 드라마가방영된이후 3개월의기간동안웹에게시된문서를수집하였다. 사용된데이터의통계는표 1에서확인할수있다. 효과적인토픽학습을위해각각의문서로부터명사만을추출하였고, 불용어는제거하였다. 드라마는 풍문으로들었소 1~10화, 후아유 1~15화, 신사의품격 1~14화 대본을대상으로실험하였다. O Callaghan et al. 은토픽모델의성능평가를위해학습된토픽의일관성 (Coherence) 을측정하였다 [8]. 토픽의일관성은두가지의지표로평가할수있다. 먼저, 는 PMI[9] 를이용하여토픽내의단어들의공기 (co-occurence) 를측정하며, 토픽내의단어들의응집성을의미한다. 는 Word2Vec를이용하여토픽내의단어사이의연관성 (relatedness) 을측정하였다. TC-PMI는식 (3) 과같이측정할수있다. 식 (3) 에서 은토픽내의상위 k개의단어를의미하며, 는전체토픽의수를나타낸다. log 는전체문서에서단어, 가함께등장할확률을나타내며, 는단어 가등장할확률을의미한다. 위의두확률은아래의식 (4) 에따라계산할수있다. 식 (4) 에서 Docsw i w j 는단어 와 가함께등장한문서의개수를의미하며, Docsw i 는단어 가등장한문서의개수를의미한다. Docs 는전체문서의수를나타낸다. Docsw i w j Docs Docsw i Docs (3) (4) 는아래식 (5) 를통해계산할수있다. 는 Word2Vec 에서계산된단어 와단어 사이의유사도값을의미한다. (5) 성능평가를위해 3가지의비교모델과비교평가하였다. OLDA(Online LDA) 모델은온라인학습을적용한 LDA 토픽학습방법으로, 대본을이용한토픽학습이후에블로그문서를순차적으로추가학습하였다. IVOT(Infinite Vocabulary Online Topic model) 는무한사전온라인토픽모델을이용하여토픽학습한방법이며, SCI(Semantic Correlation Information) 는새로운단어가학습에추가되었을경우, 가장유사한토픽의어휘사전에단어를추가한방법이다. PMI는각각의드라마의대본과블로그문서를통해계산하였고, Word2Vec는한글위키피디아 1) 문서에서 160차원으로학습하였다. 또한, 토픽내에서상위 30개의단어가해당토픽을잘나타내기에유의미한것으로여기고, 을 30으로설정하였다. 학습될토픽의개수 K 는 30으로설정하였다. 새로운단어의토픽할당에기준이되는 threshold는 0.05로설정하였다. 풍문으로들었소 (1~10화) 후아유 (1~15화) 신사의품격 (1~14화) 표 1 데이터통계 Table 1 Statistics of data sets # of document # of total words # of unique words # of duplicated words Script 770 9,778 2,285 Blog 436 36,781 7,138 Script 983 17,129 2,766 Blog 574 23,806 5,802 Script 606 21,767 4,188 Blog 394 27,616 6,569 # of unique words in duplicated words 7,691 1,229 14,481 1,448 17,117 1,946 1) http://dumps.wikimedia.org/kowiki/

무한사전온라인 LDA 토픽모델에서의미적연관성을사용한토픽확장 465 4.2 실험결과표 2는각각의비교모델에서토픽의확장결과중일부를나타낸다. 토픽확장결과를살펴보면, OLDA에서는 인상, 태우, 진애 등대본의내용에기반한등장인물관련토픽이형성되었다. 하지만 OLDA 모델에서는블로그문서에서등장한단어들을반영하지못하였다. 반면에, OLDA를제외한다른모델에서등장한 유호정, 고아성 과같은단어들은배우정보로써대본에존재하지않는단어들이다. 또한, 블로그를토픽확장에이용할경우, 제품, 원피스, 블라우스 와같은상품정보를토픽에반영할수있다. 이처럼, 블로그데이터를추가적으로학습에반영할경우, 대본에없는단어들을추가할수있으며, 이를토대로다수의사용자가관심있는정보들을토픽으로제공할수있다. 다음으로 TC-PMI와 TC-W2V를통한토픽일관성 결과를살펴본다. 표 3에서볼수있듯이, 제안한방법이 TC-PMI와 TC-W2V에서전반적으로뛰어난수치를나타냈다. 이는제안한방법에서구성된토픽의단어들이함께등장할확률이높은단어들이결집되어있고, 또한의미상으로도서로유사하다는것을의미한다. 이에반하여, IVOT 방법에서는모든토픽에단어를추가한이후에갱신학습이진행되기때문에중복된토픽이생성되었다. 또한, SCI 방법에서는단어마다하나의토픽에만할당되기때문에적절한토픽의형성에한계점이있었고, 제안한방법보다낮은수치를보였다. 하지만 후아유 드라마의 결과에서는제안한방법이 IVOT 방법보다낮은수치를보였다. 이는유사도를반영하여새로운단어가할당되지만, 블로그에서빈번하게등장한단어는적절한토픽형성에저해요소가되었다. 후아유 드라마에서는 학교, 학생, 선생님 과같은단어가다수의토픽에서중복해서나타났는데, 특히단어 학교 의경우에는전체 574개의블로그문서 표 2 드라마 풍문으로들었소 에대한토픽확장결과중일부 Table 2 An example of topic expansion OLDA IVOT SCI Proposed method 1 인상 풍문 캐릭터 고아성 2 태우 드라마 연기력 춴피스 3 비서 제품 눈길 고급 4 당신 유호정 쉬폰 착용 5 비서실 패션 예전 소매 6 진애 고아성 작가 아이 7 책상 고급 와인 허리 8 오르골 컬러 마무리 디테일 9 문자 착용 도중 네이비 10 통화 여성 수트 블라우스 후아유 신사의품격 풍문으로들었소 표 3 토픽일관성결과 Table 3 The results of topic coherence TC-PMI TC-W2V OLDA 1.1080 0.0235 IVOT 1.4828 0.0375 SCI 1.3493 0.0506 제안한방법 1.2598 0.0651 OLDA 1.6010 0.0352 IVOT 1.5402 0.0452 SCI 1.9433 0.0448 제안한방법 2.0449 0.0658 OLDA 1.7399 0.0368 IVOT 1.6128 0.0521 SCI 1.6599 0.0517 제안한방법 1.9008 0.0789 중 475개의문서에서등장했다. 토픽학습결과에서는 16 개의토픽에서단어 학교 가형성되었다. 이러한요소로인해, 제안한방법의 수치가낮게측정되었다. 이처럼본논문에서제안한방법이기존의토픽확장방법보다토픽의응집성과연관성에서뛰어난성능을보이고있음을확인할수있었다. 특히의미적유사도를반영한 SCI 방법과의비교에서적절한수의토픽에단어를할당하여토픽을확장함으로써토픽의질이향상됨을보였다. 5. 결론및향후연구 본논문에서는대본을기반으로학습된토픽모델에블로그를추가하여토픽을확장했다. 이를위해무한사전온라인 LDA 토픽모델을사용하였다. 이방법은기존에학습된토픽모델에새로운문서를추가하여토픽을확장하는방법이다. 토픽의질을향상시키기위해단어의토픽할당에서 Word2Vec를이용한의미적연관관계를반영하였다. 실험에서는기존의온라인토픽모델들과비교하였으며, 본논문에서확장에이용한방법이학습된토픽에서다루지못한단어들을모델에추가적으로반영할수있었다. 또한, 토픽일관성평가에서도비교모델보다뛰어난성능을보였다. 본논문에서제안한토픽확장방법은학습될토픽의개수를사용자가입력해야한다. 각각의드라마별로구분될내용들이다르기때문에, 적절한수의토픽을찾아표현하는것이필요하다. 따라서향후연구에서는비모수토픽모델을적용한무한사전온라인토픽모델의연구를통해이러한문제들을해결하고자한다. 추가적으로현재는 threshold를기준으로새로운단어를유사한토픽들에추가하지만, 확률기반으로유사한토픽에할당하는방법이고려될수있겠다.

466 정보과학회컴퓨팅의실제논문지제 22 권제 9 호 (2016. 9) References [1] K. Zhai and J. Boyd-Graber, "Online Latent Dirichlet Allocation with Infinite Vocabulary," Proc. of The 30th International Conference on Machine Learning, pp. 561-569, 2013. [2] C. U. Kwak, S. J. Kim, S. B. Park, and S. J. Lee, "Online Topic Model for Broadcasting Contents Using Semantic Correlation Information," International Journal of Computer, Electrical, Automation, Control and Information Engineering, Vol. 10, No. 1, pp. 71-74, 2015. [3] D. M. Blei, A. Y. Ng, and M. I. Jordan, "Latent dirichlet allocation," Journal of machine Learning research, Vol. 3, pp. 993-1022, 2003. [4] Y. W. Teh, M. I. Jordan, M. J. Beal, and D. M. Blei, "Hierarchical dirichlet processes," The American statistical association, 2006. [5] M. Hoffman, F. R. Bach, and D. M. Blei, "Online learning for latent dirichlet allocation," Advances in neural information processing systems, pp. 856-864, 2010. [6] C. Wang, J. W. Paisley, and D. M. Blei, "Online variational inference for the hierarchical Dirichlet process," Proc. of International Conference on Artificial Intelligence and Statistics, pp. 752-760, 2011. [7] T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space," arxiv preprint arxiv:1301.3781 2013. [8] D. O Callaghan, D. Greene, J. Carthy, and P. Cunningham, "An analysis of the coherence of descriptors in topic modeling," Expert Systems with Applications, Vol. 42, No. 13, pp. 5645-5657, 2015. [9] G. Bouma, "Normalized (pointwise) mutual information in collocation extraction," Proc. of GSCL, pp. 31-40, 2009. 박성배 1994 년한국과학기술원컴퓨터과학과졸업 ( 학사 ). 1996 년서울대학교대학원컴퓨터공학과졸업 ( 석사 ). 2002 년서울대학교대학원컴퓨터공학과졸업 ( 박사 ). 2004 년 ~ 현재경북대학교 IT 대학컴퓨터학부교수. 관심분야는기계학습, 자연어처리, 텍스트마이닝, 정보추출, 생명정보학 김권양 1983년경북대학교전자공학과졸업 ( 학사 ). 1990년경북대학교대학원전자공학과졸업 ( 석사 ). 1998년경북대학교대학원컴퓨터공학과졸업 ( 박사 ). 1983년~ 1988년 ETRI 연구원. 1999년~2000년 University of Central Florida 방문교수. 1991년~현재경일대학교컴퓨터공학과교수. 관심분야는기계학습, 자연어처리, 텍스트마이닝, 정보추출, 생명정보학 곽창욱 2013 년동국대학교컴퓨터멀티미디어학부졸업 ( 학사 ). 2015 년경북대학교대학원컴퓨터학부졸업 ( 석사 ). 2015 년 ~ 현재경북대학교대학원컴퓨터학부박사과정관심분야는텍스트마이닝, 기계학습 김선중 충남대학교컴퓨터과학과졸업 ( 학사, 석사 ). 1989년~현재한국전자통신연구원책임연구원및스마트미디어플랫폼연구실장으로근무. 관심분야는융합서비스제어, 스마트TV, 콘텐츠마이닝