토픽모델링을위한시뮬레이터도구개발 정영섭, 임채균, 최호진 한국과학기술원전산학과대전광역시유성구구성동대학로 291 {pinode, rayote, 요약 : 본연구는매개변수추론공식을자동유도하는모듈을이용하여토픽모델링시뮬레이터를개발함으로써, 토

Similar documents
Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

R을 이용한 텍스트 감정분석

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

제 3강 역함수의 미분과 로피탈의 정리

PowerPoint 프레젠테이션

07( ) CPLV16-17.hwp

BibLaTeX을 이용한 한국어 참고 문헌 처리의 가능성

Introduction to Topic Models

MVVM 패턴의 이해

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

?????? 1? ???_part1.hwp


이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

PowerPoint 프레젠테이션

Microsoft PowerPoint - chap06-2pointer.ppt

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

Microsoft Word - logic2005.doc

<B3EDB4DC28B1E8BCAEC7F6292E687770>

Ch 1 머신러닝 개요.pptx

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

Sequences with Low Correlation

<4D F736F F F696E74202D2035BBF3C6F2C7FC5FBCF8BCF6B9B0C1FA2E BC8A3C8AF20B8F0B5E55D>

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

KISTA ISSUE PAPER Vol. 15 ( ) Contents 텍스트마이닝기반의특허분석및이를활용한기술동향예측 I. 개요 3 II. 개념및방법론 1. 기본개념 4 2. 텍스트마이닝 (Text Mining) 6 III. 사례연구 1. 키워드분석을통한트렌

게임 기획서 표준양식 연구보고서



Microsoft Word - src.doc

Microsoft PowerPoint - chap06-5 [호환 모드]

14( ) CPLV11-69.hwp

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

[ 마이크로프로세서 1] 2 주차 3 차시. 포인터와구조체 2 주차 3 차시포인터와구조체 학습목표 1. C 언어에서가장어려운포인터와구조체를설명할수있다. 2. Call By Value 와 Call By Reference 를구분할수있다. 학습내용 1 : 함수 (Functi

C# Programming Guide - Types



PowerPoint 프레젠테이션

Microsoft PowerPoint - Java7.pptx

04 Çмú_±â¼ú±â»ç

특집-5

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

Microsoft PowerPoint - additional01.ppt [호환 모드]

빅데이터_DAY key

PowerPoint 프레젠테이션

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

용역보고서

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

Lecture12_Bayesian_Decision_Thoery

(Microsoft Word - \305\344\307\310\270\360\265\250\270\26501_CP_22. 15F-22-\276\310\301\244\261\271)

Chap 6: Graphs

설계란 무엇인가?

<BACFC7D1B3F3BEF7B5BFC7E22D3133B1C733C8A BFEB2E687770>


윈도우즈프로그래밍(1)

슬라이드 1

adfasdfasfdasfasfadf

chap 5: Trees

실험 5

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

Microsoft PowerPoint - thesis_rone.ppt

= ``...(2011), , (.)''

MATLAB and Numerical Analysis

Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft s Bing Search Engine Thore Graepel et al., ICML, 2010 P

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

임베디드시스템설계강의자료 6 system call 2/2 (2014 년도 1 학기 ) 김영진 아주대학교전자공학과

PowerPoint 프레젠테이션

Microsoft PowerPoint - chap05-제어문.pptx

슬라이드 1

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

정보기술응용학회 발표


소프트웨어공학 Tutorial #2: StarUML Eun Man Choi

PowerPoint Template

경영학석사학위논문 투자발전경로이론의가설검증 - 한국사례의패널데이타분석 년 8 월 서울대학교대학원 경영학과국제경영학전공 김주형

PowerPoint Presentation

PowerPoint 프레젠테이션

수식모드수식의표현법 수학식표현 조남운 조남운 수학식표현

DBPIA-NURIMEDIA

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Visual Basic 반복문

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

exp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

PART

Part Part

£01¦4Àå-2

½ºÅ丮ÅÚ¸µ3_³»Áö

272*406OSAKAÃÖÁ¾-¼öÁ¤b64ٽÚ

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

기존에 Windchill Program 이 설치된 Home Directory 를 선택해준다. 프로그램설치후설치내역을확인해보면 Adobe Acrobat 6.0 Support 내역을확인할수 있다.

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

170

006- 5¿ùc03ÖÁ¾T300çÃâ

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

한국어교재_중급1-앞-인쇄용.indd

SNU =10100 =minusby by1000 ÇÁto0.03exÇÁto0.03exÇÁ=10100 =minusby by1000 ·Îto0.03ex·Îto0.03ex·Î=10100 =minusby by1000

제 12강 함수수열의 평등수렴

Transcription:

토픽모델링을위한시뮬레이터도구개발 정영섭, 임채균, 최호진 한국과학기술원전산학과대전광역시유성구구성동대학로 291 {pinode, rayote, hojinc}@kaist.ac.kr 요약 : 본연구는매개변수추론공식을자동유도하는모듈을이용하여토픽모델링시뮬레이터를개발함으로써, 토픽모델의설계를용이하게하여세계연구자들에게기여하고, 설계한모델에대한실험및추론과정을관찰가능하게하여토픽마이닝교육및배포에기여하는것을목표로한다. 2000 년대초반부터본격적으로시작된확률적토픽마이닝을세계최초로 step 단위로시뮬레이션하고새로운토픽모델설계를용이하게하는도구를제공하며, 두가지의기여를한다. 첫째, 기법을적용한최종결과뿐만아니라, 내부적으로어떤처리과정을거치는지볼수있도록함으로써, 토픽모델링을연구및학습하는사람들에게해당알고리즘혹은기법을이해하는데에큰도움을줄수있다. 둘째, 새로운토픽모델을 GUI 환경에서설계하고자동으로추론과정을시뮬레이션해주는도구혹은라이브러리를최초로제시한다. 핵심어 : 토픽모델링, 시뮬레이터, 추론과정일반화 1. 서론 토픽마이닝은데이터마이닝의한갈래로써문서, 그림및영상등의멀티미디어데이터를분석하는새로운기법으로서활발히연구되고있다. 최근에는이기술을더욱다양한데이터, 이를테면가속도센서및 Wifi 등의센서로부터입력받은데이터를분석하여, 활동에따른사용자군집화, 소셜네트워크사용자군집화, 활동인지등으로써각종서비스에활용될수있는가능성을인정받고있다. 토픽마이닝은문서내단어들과같은데이터가같은문서단위내에함께등장하는횟수가많을수록, 해당데이터군집이특정의미를가지고있다고가정한다. 예를들어, 문서를 Latent Dirichlet Allocation (LDA) [1] 으로분석하는경우, 토픽은가중치를가진단어들의리스트로써표현되며, 한토픽내에서높은가중치를가진단어들은함께많이등장했음을의미한다. 각문서마다토픽의분포가존재하기때문에, 일정토픽분포내에서함께등장했던단어들은특정토픽에서높은가중치를가지게된다. 예를들 어, 그림 1 에서토픽 New movie 에관한문서들은함께사용하는공통의단어군집이있으며, 토픽 O.S.T 에관한문서들은토픽 New songs 와토픽 New movies 에서함께사용되는단어군집이섞여서표현되고있음을의미한다. 확률적으로토픽을분석하는베이지안토픽모델에대한연구의역사는 2003 년 LDA 이래로비교적짧아서, 아직미개척된연구주제들이산재해있다. 문서, 이미지, 비디오등다양한데이터를서로다른측면으로분석하는새로운응용토픽모델에대한연구들이활발히진행되고있지만, 토픽모델링을소개하고교육하기위해 step 별로시뮬레이션하는도구, 혹은토픽모델을개발하고실험하기위한 GUI 환경의도구는아직제시된바없다. 베이지안토픽모델을설계할때주로 conjugate pair 를고려하는데, 이는매개변수 (parameter) 추론공식을일정규칙하에서자동으로유도해낼수있음을의미한다. 따라서, 본연구는매개변수추론공식을자동유도하는모듈을이용하여토픽모델링시뮬레이터를개발함으로써, 토픽모델의설계를용이하게하여세계연구자들에게기여하고, 설계한모델에대한실험및추론과정을관찰가능하게하여토픽마이닝교육및배포에기여하는것을목표로한다. 그림 1 : 문서데이터를대상으로한토픽마이닝의결과를상징적으로도식화한예

본논문의구성은다음과같다. 제 2 절에서는토픽마이닝및분석도구에관련된연구동향을정리하였고, 제 3 절에서는본연구에서제안하는토픽모델링시뮬레이터에대해배경, 토픽모델링개념소개, 토픽모델링시뮬레이터의순으로기술하였다. 제 4 절에서는결론및향후연구계획을요약하였다. 2. 관련연구 토픽마이닝의시초가되었던 Latent Semantic Analysis (LSA) [2], Probabilistic Latent Semantic Analysis (PLSA) [3], Latent Dirichlet Allocation (LDA) 등의연구들이미국에서등장하면서, 이를응용한다양한확률적토픽모델들이등장했다. 이모델들은다양한데이터의특징및상황을적절하게분석하기위한고유의특징을가지고있으며, 이를증명하기위한실험방법들도제시되었다. 프린스턴대학에서 Blei 등이제시한 Latent Dirichlet Allocation (LDA) 는 PLSA 를확장한모델로서, 데이터에내재된토픽을베이지안모델로써표현하고분석하는모든토픽모델들의기초가되었으며, 문서이외에도이미지, 비디오, 오디오, 라이프로그및클릭스루데이터등의데이터를분석하기위해새로운랜덤변수들을추가한응용모델들이여러대학및연구소에서등장했다. 특히, LDA 를응용한모델들중에서, 문서의토픽이아닌저자관점의토픽을얻는 Author Topic Model (ATM) [4], 시간에따른토픽의흐름을분석하는 Dynamic Topic Model (DTM), 웹문서들로부터개체간의관계를분석하는 Nubbi [5], 하나의문서내의개체간의관계들을분석하는 S-EGTM [6] 등은토픽마이닝이다양한데이터에적용이가능하고여러의미있는결과를얻을수있다는가능성을보여주었다. 2003 년 LDA 가소개된후, 다양한토픽모델들은주로문서를분석하는데에초점이맞춰져있었으며, 이미지, 비디오, 라이프로그등의데이터를다루는연구들은비교적그수가적다. 특히, 소셜네트워크의분석및비디오데이터에대한연구는진행을시작하는단계에있다. 본논문은 2000 년대초반부터본격적으로시작된확률적토픽마이닝을세계최초로 step 단위로시뮬레이션하고새로운토픽모델설계를용이하게하는도구를제공하는것이목적이다. 이와유사한목적을가진대표적인기존서비스로서, 데이터분석을위한여러알고리즘및기법들을소개하고연구및교육에활용하기위한 Waikato Environment for Knowledge Analysis (WEKA) [7] 를들수있다. WEKA 는정해진규칙에따라데이터를입력하면, 다양한알고리즘및기법들을적용한결과를볼수있게해주는유용한도구이다. 세계의많은사람들이연구및교육의목적으로 WEKA 를이용하고있으며, 적용가능한데이터및기법들을점차적으로추가해나가고있다. 또다른예로써, Support Vector Machine (SVM) 기법을손 쉽게적용하고사용할수있도록라이브러리를제공하는 libsvm [8] 등이있으며, 토픽마이닝라이브러리로는스탠포드토픽마이닝툴박스 [9] 가있다. 이러한기존서비스들에는공통적인두가지단점이있다. 첫째, 기법을적용한최종결과를볼수있지만, 내부적으로어떤처리과정을거치는지볼수있도록자유로운시뮬레이션을할수없다. 토픽마이닝의추론과정은반복적인 stochastic process 이므로사용자가다양한데이터를적용하면서처리과정을자유롭게시뮬레이션할수있도록한다면, 해당알고리즘혹은기법을이해하는데에큰도움을줄수있을것이다. 둘째, 토픽마이닝기법이비교적최근에등장하였기때문에, 새로운토픽모델을 GUI 환경에서설계하고자동으로추론과정을시뮬레이션해주는도구혹은라이브러리가없다. 2003 년미국에서 LDA 가소개된후, 유럽및오세아니아, 아시아등지에서도토픽모델을이용한다양한연구들이박차를가하고있지만, 토픽마이닝을효과적으로학습하고모델을 GUI 환경에서설계할수있는도구가아직없다. 본논문에서토픽모델링기법을시뮬레이션하고설계하는 GUI 환경의도구를완성함으로써, 세계의연구자들이토픽모델을교육하고연구하는데에크게기여할수있다. 3. 제안방법 3.1 개발배경 토픽마이닝은기본적으로함께등장하는데이터들을토픽이라는클러스터로묶어주므로, 문서데이터의경우가중치를가진단어의리스트로써토픽이표현된다. 연구자들은이를다양한데이터에적용하기위해, LDA 를응용한서로다른토픽모델들을개발해왔다. 하지만, 토픽모델의연구역사가비교적짧아서, 문서, 비디오, 이미지, 라이프로그등의다양한데이터를다양한각도로해석할수있는미개척된연구주제들이산재해있다. 베이지안확률모델로써표현되는토픽모델은주로 conjugate pair 인분포를활용하여추론과정을단순화함으로써형상화된다. 따라서, 연구자들이새로운토픽모델을개발할때, 모델의매개변수추론공식을유도하고이를구현하여모델의유용성을증명하는작업이요구된다. 하지만, 새로운모델의매개변수수식을유도하고, 동작가능성여부판단을위해구현하는작업은적지않은시간을필요로하므로, 새로운모델개발에어려움이있다. 즉, 토픽모델링과정을보조해줄도구가필요하다. 본연구에서목표로하는토픽모델링시뮬레이터는원하는토픽모델을 GUI 환경에서손쉽게구성하고, 이를다양한데이터에적용하여, 그추론과정을관찰할수있게해준다. 따라서향후의토픽마이닝

연구자들은본시뮬레이터도구를활용함으로써보다간편하고정확하게토픽모델링을수행할수있을것으로기대한다. 3.2 토픽모델링의기본개념 토픽모델을베이지안그래프로써표현할때, 크게세가지의요소가요구된다. 첫째, 그래프를구성하는노드들이다. 사전지식을의미하는 dirichlet prior 노드와 multinomial 분포변수를의미하는노드등을예로들수있다. 특히, 관측이가능한데이터를의미하는노드는음영을넣어표현한다. 둘째, 노드사이를이어주는선이다. 이선들은방향을가지며, 어떤노드들사이에있느냐에따라서선이가지는의미가달라진다. 예를들어, dirichlet prior 변수로부터 multinomial 분포변수로향하는선은 prior 로부터 multinomial 분포가샘플링되는것을의미한다. 셋째, 한개이상의노드를감싸는블록이다. 같은블록안에존재하는노드들은같은데이터단위로처리됨을의미한다. 그림 2 의토픽모델예시는 dirichlet prior 변수인 α 로부터문서 d 의 multinomial 분포변수인 θ d 가얻어지고, 이로부터변수 z 가 θ d 에의해샘플링되는것을의미한다. 안쪽블록의 N 을한문서의단어개수라고정의하고바깥블록의 D 를문서의개수라고정의하면, 위모델은모든문서를대표하는 dirichlet prior 가한개존재하고, 각문서 d 마다 multinomial 분포 θ d 가존재하며, 이로부터각단어마다존재하는변수 z 가샘플링되는것을의미한다. 위모델에서는, 실제문서로부터관측되는데이터가없으므로매개변수들의값을추론할수없다. 그림 2 : 문서데이터를대상으로토픽마이닝의결과를상징하는예시 대표적인확률적토픽모델인 Latent Dirichlet Allocation (LDA) 는그림 3 에서보이는것처럼, 그림 2 의단순한모델로부터확장된구조를가진다. 이모델은 generative 모델이므로, 다음과같이문서를생성하는시나리오로써해석할수있다. 우선, 모든문서를생성하는작업을 d 번째문서의 i 번째단어를생성하는세부작업의반복으로표현한다. 세부작업인 i 번째단어생성을위해, 모든문서를대표하는단한개의 dirichlet prior 로부터각문서 d 마다존재하는 multinomial 토픽분포 θ d 가결정되며, 이로 부터각단어마다존재하는토픽 z 가결정된다. 샘플링된토픽 z 를이용하여, Ф z 로부터 i 번째단어 w i 가생성된다. 데이터로부터관측되는단어 w 는음영노드로써표시되며이로부터각종매개변수들이추론될수있다. 여기서, 변수 Ф 가토픽을의미하며, LDA 에서는토픽의개수를 T 개로표현하고있다. 즉, dimension 이 T 인토픽분포 θ 로부터선택된임의의토픽 z 를통해 T 개의변수 Ф 1:Z 중에서특정한 Ф z 가선택되는과정인것이다 그림 3 : Latent Dirichlet Allocation (LDA) LDA 뿐만아니라, 다양한응용모델들도이와유사한표기법으로모델을표현하고있다. 따라서, 본논문에서는새로운토픽모델을베이지안그래프로써설계하도록하며, 모델구조의표현식정의를위해노드이름이고정된의미를갖도록한다. 예를들어, 노드 Ф 는항상토픽을의미하도록한다. 단, 여러개의토픽변수를사용할경우, Ф n (n 은 0 보다큰정수 ) 로써표기한다. 3.3 토픽모델링시뮬레이터 이절에서는본연구에서개발한토픽모델링시뮬레이터도구의주요기능을 GUI 화면을통해기술하고자한다. 본시뮬레이터는기존연구들에서토픽모델들을표현하는주요수단중하나인베이지안그래프를채택하였으며, Java applet 을이용한 GUI 환경에서동작한다. 단, 그래프의각노드의명칭에따라서노드가가지는의미를고정시킴으로써모델의구조를표현하는표현식정의가가능하도록하였다. 특히, uniform 분포를가지는랜덤변수와 selector 랜덤변수, 그리고 conjugate pair 중에서 dirichlet-multinomial 인랜덤변수들을이용하여토픽모델을설계하는것을기본전제로하며, 이로써여러종류의토픽들과그에대한사전지식을표현하는다양한토픽모델을설계할수있도록하였다. 토픽모델구조표현의일관성을위해, 토픽모델의구조를표현하는고정된표현식을그림 4 와같이구현하였다. 표현식은토픽모델을표현하는세가지

요소들인노드, 선, 블록을체계적으로 XML 파일형태로저장가능하도록하였다. 시뮬레이터로써설계한토픽모델의구조는 XML 파일형태로저장및불러올수있게되어있다. 토픽모델의추론과정은기본적으로 stochastic process 이므로, 매번다른결과가나오게된다. 하지만, 한번의시뮬레이션을수행한후에이를관찰하기위해 step 을이동할때마다다른결과가나오는것은바람직하지않으므로, 한번의시뮬레이션에서각 step 별로추론상황을저장하도록설계하였다. 하지만토픽개수가증가함에따라요구되는메모리가기하급수적으로증가하므로, 시뮬레이션에이용되는토픽의개수는사전에정의된한도내에서선택하거나, 사용자가신중히결정하도록주의를요한다. 그림 4 : 토픽모델의구조표현식에대한예시 본연구에서는시뮬레이션에서각 step 별로랜덤변수들의값과토픽분포가변해가는모습을관찰할수있도록하기위해 collapsed gibbs sampling [10] 으로추론하도록했으며, step 별로각랜덤변수들이가진모든값들을저장하도록하였다. 랜덤변수들의값들만저장해놓으면이로부터각종분포를다시얻어낼수있기때문이다. 따라서, 그림 5 에서보이듯이 iteration step 을 bar 를통해시뮬레이션 step 을이동해가며추론과정을관찰할수있도록설계하였다. 그림 5 : 토픽모델링시뮬레이터실행화면 베이지안토픽모델은데이터에대한사전정보를 prior 로써제공하고, posterior 확률의근사치를데이터로부터반복적으로갱신해나가는추론작업을요구한다. Laplace approximation, variational approximation, Markov chain Monte Carlo (MCMC) 등의기법이추론에이용될수있는데, 반복적인추론작업을통해군집화된데이터, 즉토픽을얻을수있다. 본연구에서는 MCMC 기법들중하나인 collapsed gibbs sampling 을추론에이용함으로써추론과정의각 step 별로랜덤변수들의값을관측함으로써매개변수추론이이루어지는과정을한눈에관찰하기용이하도록하였다. 신규노드를추가하는과정은그림 6 에예시한바와같다. 화면 (a) 는노드추가를위해좌측에서 Circle 메뉴를선택한것이고, 화면 (b) 는자주사용하는랜덤변수이름중에서원하는것을선택하도록한것이다. 화면 (c) 는선택한랜덤변수로써신규노드를추가하는것이고, 그결과는화면 (d) 와같이표시된다. 특히, 화면 (b) 단계에서선택하는랜덤변수이름은중복될수있지만, 별도의숫자표기를통해구분된다. 예를들어, a 라는이름의노드를세개만드는경우, 각각 a-1, a-2, a-3 라는이름으로자동할당되며, a-2 를지우고새로운 a 노드를만들면, 다시 a-2 라는이름부터할당된후, 이후의중복되는노드는 a-4 와같이이름이할당된다.

그림 7 : 관측가능한신규노드의추가 그림 8 의화면 (a) 단계에서, 사용자는이미정의된 boundary 를선택하거나, 자신이원하는 boundary 이름을임의로생성할수있다. 이미정의된 boundary 로는, D, J, S, N 등이있으며, 각각문서의개수, 문단의개수, 문장의개수, 단어의개수를나타낸다. Boundary 이름은하나의모델에서 boundary 를구분하는식별자로사용되므로, 사용자가정의하는 boundary 이름은이미정의된이름과동일한것을사용할수없고, 사용자가정의한이름간에도중복은허용되지않는다. 즉, 각각의 boundary 이름은하나의모델안에서유일한식별자로사용되므로, 그모델안에서중복될수없으며, 다른모델간에는중복될수있다. 그림 6 : 신규노드의추가과정 그림 7 는관측가능한신규노드를추가한결과화면이다. 좌측의 Circle(filled) 메뉴를선택한후, 위그림 6 에예시한것과동일한과정을통해신규노드를추가할수있다. 그림 8 은기존의노드들을포함하는신규블록을추가하는과정을나타낸다. 화면 (a) 는블록추가를위해 Boundary 메뉴를선택한후원하는블록의레이블을결정한것이고, 화면 (b) 는포함하려는노드의랜덤변수명을선택하고있다. 화면 (c) 는같은방식으로원하는노드들을모두선택한후블록추가를완료하는것이고, 추가된결과는화면 (d) 와같이표시된다.

그림 8 : 신규블록의추가과정 그림 9 는두노드사이의관계를방향이있는화살표로써추가하는과정이다. 화면 (a) 는신규관계를추가하기위해 Relation 메뉴를선택하고어떤관계인지명시적으로결정한것이고, 화면 (b) 는화살표의출발노드를선택하고있다. 화면 (c) 는화살표의도착노드를선택하는것이며, 화면 (d) 는해당노드들사이에신규관계가추가된결과를보여주고있다. Relation 을선택하는단계인그림 9 의 (a) 단계에서, relation 은중복이가능하다. 즉, 하나의모델에서같은 relation 이여러번등장할수있다. 하나의모델에서 relation 의중복을허용하지않는경우, 모델의설계가매우제한되므로, relation 을중복가능하도록설계한점은본시뮬레이터의중요한특징이다. 그림 9 : 신규관계의추가과정 이러한과정을거쳐완성된토픽모델을그림 10 에예시하였다. 이그림에서는 D, N, M 이라는세개의 boundary 들이존재하며이들의이름이중복되지않는것을볼수있다. 한편, 이예에서는노드의이름들이서로다르게설정되어있지만, 앞서설명한바와같이노드의이름들은중복이가능하되, 이름에숫자를부여하여구분할수있도록되어있다. 특히, w 라는노드는다른노드들과는달리음영으로표시되어있는데, 이는노드 w 가데이터에서관측이가능하다는의미이다. 예를들어, boundary N 이단어의개수이고노드 w 가각단어를의미하는경우, 문서데이터에서노드 w 는각단어로써관측이가능하다. 이예에존재하는 relation 은다섯개인데, 이들중두개가 uniform relation 으로서동일한것임을알수있다.

그림 10 : 토픽모델링시뮬레이터로작성한토픽모델의예시 토픽모델링과정에서모델을설계한후에는, 모델의각매개변수들을학습하는과정이요구되며, 이학습의과정을사용자가시뮬레이션할수있도록도구를설계하는것이본연구의중요한목표이다. 토픽모델은저마다다른구조를가지며, 매개변수의종류와개수, relation 의종류와개수도저마다다르다. 모델들간의차이점을극복하고, 시뮬레이터상에서설계가능한모든모델들의매개변수학습을가능하도록하기위해, 본연구에서는토픽모델의설계과정에서흔히등장하는패턴을이용하였다. 베이지안토픽모델을설계할때, 주로사용되는 discrete conjugate pair 인 dirichlet-multinomial 와선택용랜덤변수및 uniform 분포변수들을활용한토픽모델의매개변수추론은일정규칙을가지게된다. 왜냐하면, 매개변수추론공식을단순화하기위해베이지안토픽모델을설계할때는주로 conjugate pair 를맞추어서설계하기때문이다. 수식 (1), (2) 는 Latent Dirichlet Allocation (LDA) 의매개변수추론공식들이다. α t 는토픽 t 에대한사전지식이며 C dt 는각각문서 d 에서토픽 t 가등장한횟수이다. 따라서, Θ dt 는문서 d 에서토픽 t 의비중을의미한다. β w 는단어 w 에대한사전지식이며 C tw 는각각전체문서들에서토픽 t 인단어 w 가등장한횟수이다. 따라서, Φ tw 는토픽 t 에서단어 w 의비중을의미한다. 그림 7 에서볼수있듯이, LDA 는 dirichlet 변수인 α 로부터 multinomial 변수 θ d 를거쳐서샘플링되는랜덤변수 z 를가진다. 또한, dirichlet (1) (2) 변수 β 로부터 multinomial 변수 Ф z 를거쳐서단어 w 를샘플링한다. 즉, α 와 β 는데이터에대한사전지식을의미하며모델의초기화및 smoothing 역할을하게된다. 데이터에서관측되는단어 w 로부터매개변수 θ 와 Ф 의근사치를추론해낼수있다. LDA 모델에는 dirichlet-multinomial 가두쌍이존재하며, 두개의매개변수추론을위한수식은 dirichlet prior 변수및샘플링변수를이용한분수로써수식 (1), (2) 와같은형태를가지게된다. 즉, dirichlet prior 변수는분자에서 smoothing 역할을하며, 분모는 multinomial 의각종경우를모두더한값이된다. 본연구에서는, 설계된토픽모델의원활한시뮬레이션을위해한화면에등장하는문서와토픽개수의최대치를설정하였다. 여기에는두가지이유가있다. 첫째, 토픽모델은많은양의문서를대상으로많은토픽을동시에분석할수있지만, 시뮬레이터는동시에모든것을표현할수없기때문이다. 둘째, 본연구는시뮬레이터를한 step 씩관찰가능하도록하기위해매개변수추론에 collapsed gibbs sampling 을이용한다. 따라서, 각 step 에해당하는랜덤변수들의값을모두저장해야하는데, 문서와토픽개수가많아지면메모리소모가과도해지고이로인해시뮬레이션이불가능해질수있기때문이다. 예를들어, 10 만개의단어에서토픽들을분석하기위해매개변수추론알고리즘을 100 번반복한경우, 10 만 * 100 ( 즉, 1,000 만 ) 단어에해당하는변수의값을저장해야하는데이는현실적이지못하다. 본시뮬레이터도구는설계된토픽모델의추론과정을관측한후, 이를이용해사용자가간단한실험을할수있는기능을제공한다. 데이터를학습용 / 평가용으로구분하여 n-fold cross validation 이가능하도록하며, 평가용데이터에대한 perplexity 와간단한 prediction 실험기능을제공한다. Perplexity 를계산할때에는, 학습용데이터를이용하여추론과정을거친모델의매개변수와평가용데이터를기반으로계산한다. Prediction 실험에서는 prediction 대상과단위를사용자가결정하도록한다. 예를들어, LDA 에서문서의토픽을 prediction 하는경우, prediction 대상은 θ 가되고단위는 D 가된다. 한편, 다양한토픽모델을설계및시뮬레이션할수있도록하기위해, 다양한데이터와다양한종류의랜덤변수들을표현할수있어야하고, 이를이용하여설계된모델의유도함수로부터매개변수추론유도가자동으로이루어질수있어야하겠다. 이를위해, 다양한데이터및랜덤변수들, 혹은 parametric function 을추가하여모델의설계에사용할수있도록추론모듈의기능을확장할계획으로있다. 4. 결론 본논문에서는매개변수추론공식을자동유도하는모듈을이용하여, 토픽모델의설계를용이하게

보조하고, 설계한모델에대한실험및추론과정을관찰할수있도록지원하는토픽모델링시뮬레이터도구를소개하였다. 본시뮬레이터의학술적기여도는크게두가지인데, 첫째는, 토픽모델링기법을적용한최종결과뿐만아니라, 내부적으로어떤처리과정을거치는지관찰할수있도록함으로써, 토픽모델링을학습, 연구, 또는이용하는사람들에게특정알고리즘이나기법을이해시키는데많은도움을줄수있다는점이고, 둘째는, 토픽모델을 GUI 환경에서설계하고추론과정을시뮬레이션해주는도구를세계최초로개발했다는점이다. 후자의경우는물론, 토픽마이닝이라는연구분야자체가역사가아직일천하기때문인것으로이해되며, 본연구와비슷한시도가이미타연구그룹에서진행중일수도있겠다. 본연구에서개발중인토픽모델링시뮬레이터는아직완전한완성단계가아니므로, 향후연구로서토픽모델설계의편리성을증가시키고, 서로다른토픽모델들간의차이점을극복할수있는보다일반화된추론알고리즘의개발을계획하고있고, 또한본시뮬레이터도구를이용한새로운종류의토픽모델들의설계및검증작업을지속적으로수행하고자한다. Topic Flows of Entity Groups Within One Document, Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD) 2012, Part I, LNAI 7301, pp.366-378, Kuala Lumpur, Malaysia, 29 May ~ 1 June, 2012. [7] WEKA, http://www.cs.waikato.ac.nz/ml/weka/ [8] libsvm, http://www.csie.ntu.edu.tw/~cjlin/libsvm/ [9] 스탠포드토픽마이닝툴박스, http://nlp.stanford.edu/software/tmt/tmt-0.4/ [10] Griffiths, T. L. and Steyvers, M. (2004). Finding Scientific Topics. Proceedings of the National Academy of Sciences of the United States of America (PNAS) 2004, pp.5228-5235. 감사의글 본연구는방위사업청과국방과학연구소의지원으로수행되었습니다 (UD060048AD). 참고문헌 [1] Blei, D. M., Ng, A. Y., and Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, pp.993-1022. [2] Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W., and Harshman, R. A. (1990). Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science (JASIS), 41(6), pp.391-407. [3] Hofmann, T. (1999). Probabilistic Latent Semantic Analysis. Uncertainty in Artificial Intelligence (UAI) 1999, Stockholm, Sweden, pp.289-296. [4] Rosen-Zvi, M., Griffiths, T. L., Steyvers, M., and Smyth, P. (2004). The Author-Topic Model for Authors and Documents. Uncertainty in Artificial Intelligence (UAI) 2004, Baff, Canada, pp.487-494. [5] Chang, J., Boyd-Graber, J. L., and Blei, D. M. (2009). Connections Between the Lines: Augmenting Social Networks with Text. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD) 2009, Paris, France, pp.169-178. [6] Young-Seob Jeong and Ho-Jin Choi, (2012). Sequential Entity Group Topic Model for Getting