DBPIA-NURIMEDIA

Similar documents
À±½Â¿í Ãâ·Â

09( ) CPLV16-04.hwp

09권오설_ok.hwp

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

김기남_ATDC2016_160620_[키노트].key

DBPIA-NURIMEDIA

°í¼®ÁÖ Ãâ·Â

(JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

07.045~051(D04_신상욱).fm

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

04( ) CPLV14-28.hwp

DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

<5B D B3E220C1A634B1C720C1A632C8A320B3EDB9AEC1F628C3D6C1BE292E687770>

R을 이용한 텍스트 감정분석

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

2 : (Juhyeok Mun et al.: Visual Object Tracking by Using Multiple Random Walkers) (Special Paper) 21 6, (JBE Vol. 21, No. 6, November 2016) ht

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

DIY 챗봇 - LangCon


DBPIA-NURIMEDIA

인문사회과학기술융합학회

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: 3 * The Effect of H

Ch 1 머신러닝 개요.pptx

DBPIA-NURIMEDIA

02( ) SAV12-19.hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 29(2), IS

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

3 : OpenCL Embedded GPU (Seung Heon Kang et al. : Parallelization of Feature Detection and Panorama Image Generation using OpenCL and Embedded GPU). e

19_9_767.hwp

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti

???? 1

서론 34 2

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

272 石 堂 論 叢 49집 기꾼이 많이 확인된 결과라 할 수 있다. 그리고 이야기의 유형이 가족 담, 도깨비담, 동물담, 지명유래담 등으로 한정되어 있음도 확인하였 다. 전국적인 광포성을 보이는 이인담이나 저승담, 지혜담 등이 많이 조사되지 않은 점도 특징이다. 아울

03-서연옥.hwp

45-51 ¹Ú¼ø¸¸

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on


Rheu-suppl hwp

6.24-9년 6월

08김현휘_ok.hwp

10(3)-09.fm

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

SchoolNet튜토리얼.PDF

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN

<33C2F DC5D8BDBAC6AEBEF0BEEEC7D02D3339C1FD2E687770>

DBPIA-NURIMEDIA

14.531~539(08-037).fm

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

<31325FB1E8B0E6BCBA2E687770>


THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

2 차원단위블록정렬을이용한 내용기반이미지매칭 장철진 O 조환규부산대학교컴퓨터공학과 {jin, Content-based image matching based on 2D alignment of unit block tessellation C

본문01

Journal of Educational Innovation Research 2016, Vol. 26, No. 3, pp.1-16 DOI: * A Study on Good School

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

<C7A5C1F620BEE7BDC4>

DBPIA-NURIMEDIA

Data Industry White Paper

½Éº´È¿ Ãâ·Â

±è¼ºÃ¶ Ãâ·Â-1

05( ) CPLV12-04.hwp

#Ȳ¿ë¼®

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 25(3),

DBPIA-NURIMEDIA

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

차 례... 박영목 **.,... * **.,., ,,,.,,

디지털포렌식학회 논문양식

Page 2 of 6 Here are the rules for conjugating Whether (or not) and If when using a Descriptive Verb. The only difference here from Action Verbs is wh

(JBE Vol. 20, No. 5, September 2015) (Special Paper) 20 5, (JBE Vol. 20, No. 5, September 2015) ISS

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

04김호걸(39~50)ok

03-ÀÌÁ¦Çö

ePapyrus PDF Document

정보기술응용학회 발표

<B1B3B9DFBFF83330B1C7C1A631C8A35FC6EDC1FDBABB5FC7D5BABB362E687770>

09È«¼®¿µ 5~152s

<32392D342D313020C0FCB0C7BFED2CC0CCC0B1C8F12E687770>

Can032.hwp

Journal of Educational Innovation Research 2016, Vol. 26, No. 2, pp DOI: * Experiences of Af

p 19; pp 32 37; 2013 p ㆍ 新 興 寺 大 光 殿 大 光 殿 壁 畵 考 察 ; : 2006

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

Transcription:

ISSN 2383-630X(Print) / ISSN 2383-6296(Online) Journal of KIISE, Vol. 42, No. 4, pp. 451-458, 2015. 4 http://dx.doi.org/10.5626/jok.2015.42.4.451 멀티모달개념계층모델을이용한만화비디오컨텐츠학습을통한등장인물기반비디오자막생성 (Character-based Subtitle Generation by Learning of Multimodal Concept Hierarchy from Cartoon Videos) 김경민 하정우 이범진 장병탁 (Kyung-Min Kim) (Jung-Woo Ha) (Beom-Jin Lee) (Byoung-Tak Zhang) 요약기존멀티모달학습기법의대부분은데이터에포함된컨텐츠모델링을통한지식획득보다는이미지나비디오검색및태깅등구체적문제해결에집중되어있었다. 본논문에서는멀티모달개념계층모델을이용하여만화비디오로부터컨텐츠를학습하는기법을제안하고학습된모델로부터등장인물의특성을고려한자막을생성하는방법을제시한다. 멀티모달개념계층모델은개념변수층과단어와이미지패치의고차패턴을표현하는멀티모달하이퍼네트워크층으로구성되며이러한모델구조를통해각각의개념변수는단어와이미지패치변수들의확률분포로표현된다. 제안하는모델은비디오의자막과화면이미지로부터등장인물의특성을개념으로서학습하며이는순차적베이지안학습으로설명된다. 그리고학습된개념을기반으로텍스트질의가주어질때등장인물의특성을고려한비디오자막을생성한다. 실험을위해총 268 분상영시간의유아용비디오 뽀로로 로부터등장인물들의개념이학습되고학습된모델로부터각각의등장인물의특성을고려한자막문장을생성했으며이를기존의멀티모달학습모델과비교했다. 실험결과는멀티모달개념계층모델은다른모델들에비해더정확한자막문장이생성됨을보여준다. 또한동일한질의어에대해서도등장인물의특성을반영하는다양한문장이생성됨을확인하였다. 키워드 : 멀티모달학습, 개념학습, 컨텐츠모델링, 문장생성 Abstract Previous multimodal learning methods focus on problem-solving aspects, such as image and video search and tagging, rather than on knowledge acquisition via content modeling. In this paper, we propose the Multimodal Concept Hierarchy (MuCH), which is a content modeling method that uses a cartoon video dataset and a character-based subtitle generation method from the learned model. The MuCH model has a multimodal hypernetwork layer, in which the patterns of the words and image patches are represented, and a concept layer, in which each concept variable is represented 이논문은정부 ( 미래창조과학부 ) 의재원으로한국연구재단의지원을받아수행된 논문접수 : 2014년 9월 1일 연구이며 (NRF-2010-0017734-Videome), 정부 ( 미래창조과학부및정보통신 (Received 1 September 2014) 기술진흥센터 ) 의정보통신, 방송연구개발사업지원 (10035348-mLife, 14-824-09-014, 논문수정 : 2015년 1월 21일 10044009-HRI.MESSI) 을일부받았음 (Revised 21 January 2015) 이논문은 2014 한국컴퓨터종합학술대회에서 멀티모달개념계층모델을이용한 심사완료 : 2015년 1월 28일 만화비디오컨텐츠학습을통한등장인물기반비디오자막생성 의제목으로발표된논문을확장한것임 학생회원 : 서울대학교컴퓨터공학부 kmkim@bi.snu.ac.kr bjlee@bi.snu.ac.kr 비회원 : 서울대학교컴퓨터공학부 jwha@bi.snu.ac.kr (Accepted 28 January 2015) CopyrightC2015 한국정보과학회ː 개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회논문지제42권제4호 (2015. 4) 종신회원 : 서울대학교컴퓨터공학부교수 (Seoul National Univ.) btzhang@bi.snu.ac.kr (Corresponding author 임 )

452 정보과학회논문지제 42 권제 4 호 (2015. 4) by a probability distribution of the words and the image patches. The model can learn the characteristics of the characters as concepts from the video subtitles and scene images by using a Bayesian learning method and can also generate character-based subtitles from the learned model if text queries are provided. As an experiment, the MuCH model learned concepts from Pororo cartoon videos with a total of 268 minutes in length and generated character-based subtitles. Finally, we compare the results with those of other multimodal learning models. The Experimental results indicate that given the same text query, our model generates more accurate and more character-specific subtitles than other models. Keywords: multimodal learning, concept learning, content modeling, sentence generation 1. 서론스마트폰과유튜브등 IT의발전을통해이미지, 동영상데이터가급격하게증가함에따라멀티모달데이터로부터지식을학습하는기법에대한연구가활발하게진행되고있다. 최근 deep learning 또는비모수베이지안모델, Topic model 등을활용한 corr-lda 등다양한멀티모달학습기법이연구되어왔으나 [1-4]. 대부분은데이터에포함된컨텐츠를모델링하여지식을학습하기보다는이미지나비디오검색및태깅등구체적인문제해결에집중되어있었다. 본논문에서는하이퍼네트워크모델 [5] 을이용하여데이터의지속적인증가에따라변화하는개념을효과적으로학습할수있는멀티모달개념계층모델을소개하고유아용만화비디오로부터컨텐츠를모델링하는기법을제안한다. 최초 DNA컴퓨팅을위한시뮬레이션모델로서 [6] 제안된하이퍼네트워크는인간의기억방식과유사하게정보를단편적컨텐츠기반으로저장또는검색 (content-addressable memory) 할수있으며 [5] 패턴인식과질병진단등다양한문제에성공적으로적용되어왔다 [7-10]. 하이퍼네트워크를이용한 SPC(Sparse Population Coding) 모델은만화비디오컨텐츠를모델링하기위해서제안되었다 [11]. SPC 모델에서는저차원의이미지와텍스트정보를담고있는각각의 microcode가부분메모리 (partial memory) 와같이작용하며 microcode들의집합으로하나의고차원개념을나타낼수있다. 그리고 deep neural network와달리시간에따른개념의변화를학습할수있고모델의구조가데이터에맞게변하는장점이있는반면모델구조에계층이없어복잡한패턴의데이터를효과적으로학습할수없는문제점이있다. 본논문에서제안하는멀티모달개념계층모델 (Multimodal concept hierarchy) 은계층적구조로구성되며하위층은 SPC모델과같이단어와이미지패치의고차패턴을표현하는하이퍼그래프 (hypergraph) 구조 [4] 를포함하고상위층은개념변수들로구성되며이개념변수들은하위층의유사한특성을갖는하이퍼에지 (hyperedge) 들로구성된부분그래프와연결된다. 본연구에서개념변수는등장인물의특성을나타내며만화비디오로 부터의등장인물개념학습은순차적베이지안추론으로설명된다. 그리고텍스트질의가주어질때학습된개념을바탕으로멀티모달추론을통해등장인물의특성을고려한비디오자막을생성한다. 실험을위해총 52개에피소드 268분상영시간의유아용만화비디오 뽀로로시즌 3 를사용하였다. 뽀로로 의등장인물들의개념을학습시킨후모델로부터등장인물의특성을고려한비디오의자막을생성하고이를기존의멀티모달학습모델과비교해본결과멀티모달개념계층모델이다른모델들보다더정확한자막문장을생성함을확인했다. 또한동일한질의어에대해서도등장인물의특성을반영하는다양한문장을생성함을확인하였다. 2. 멀티모달개념계층모델멀티모달개념계층모델 (Multimodal Concept Hierarchy: MuCH) 은계층구조로표현되며하위층은하이퍼그래프구조를이용하여단어와이미지패치의고차패턴을표현하는하이퍼에지집합으로구성된다 ( 그림 1(a)). 상위층은하이퍼에지의부분집합과연결되어있는개념변수들을포함하며본연구에서는하나의개념변수는한명의등장인물에대응된다 ( 그림 1(b)). 비디오의화면이미지와자막데이터로부터이미지패치들과단어들이추출되고추출된이미지패치와단어는그래프에서각각하나의노드 r 또는 w에대응된다. 그러므로하이퍼에지들은단어와이미지패치의고차패턴을표현할수있다 [10]. 하이퍼에지를구성하는이미지패치와단어들의패턴연관성은하이퍼에지의가중치로표현된다. 그리고상위층의개념변수들은해당개념변수와연관성이큰패치및단어들로구성된하이퍼에지의부분집합과연결되며개념변수들은하이퍼에지를공유할수있다. 이러한모델구조를통해등장인물들은단어와이미지패치변수들의확률분포로표현된다. 인지과학적으로살펴보면이모델은개념변수들이이미지패치, 단어들과직접연결되어있다는점에서사람의인지가시각, 언어, 청각등과같은모달리티들에근거하고있는 grounded cognition[12,13] 을반영한다. grounded cognition 입장에서개념은뇌의 association area에서객체의여러모달리티정보를통합하여형성되

멀티모달개념계층모델을이용한만화비디오컨텐츠학습을통한등장인물기반비디오자막생성 453 (a) An example of hyperedges (b) An example of multimodal concept hierarchy model 그림 1 멀티모달개념계층모델의구조 Fig. 1 Structure of multimodal concept hierarchy model 고나중에객채의개념을재현할때 association area가통합했던정보를바탕으로각각의모달리티를재활성화시킨다 [14]. 이는 MuCH가가지고있는특성과유사하다. 모델의학습과정을수식으로정의하면화면이미지-자막데이터에서추출된이미지패치와단어는각각이진벡터인 r=(r 1,,r N) 과 w=(w 1,,w M) 으로표현되고등장인물정보는이진벡터 c=(c 1,,c K) 로나타내어진다. 이때, 모델의파라미터 =(e, α) 와등장인물정보 c가주어졌을때이미지패치-자막쌍의확률분포는다음과같다. (1) 여기서 e는하이퍼에지의집합을, 는하이퍼에지가중치집합을의미한다. 멀티모달계층모델은비디오에서스토리가진행됨에따라순차적으로학습하게되고학습단위는에피소드하나씩이다. 학습초기모델은매우적은양의데이터를사용하여하이퍼에지들의소규모네트워크를구성하며점진적학습기법을통해 [15] 새로운데이터를학습할수록최적의하이퍼에지개수와가중치값을탐색하게된다. 이러한학습절차는순차적베이지안추론을통해정의되고식은다음과같다. (2) p t 는 t 번째에피소드에서확률분포를의미하고 t 번째에피소드가들어왔을때 prior 분포 p t-1( ) 는 posterior 분포를계산하는데사용이된다. 여기서계산된 posterior 분포 p t( ) 는다음단계에서 prior로사용된다. 식 (2) 는또다음과같이변형될수있다. 습은 log함수를사용하여 log likelihood를최대화하는방식으로이뤄진다. (4) 위의식에서첫번째항은등장인물정보와모델의파라미터가주어졌을때단어와이미지패치생성과관련이있고두번째항은모델을통해등장인물의동시등장예측과관련이있다. 마지막항은지난단계에서학습한모델을반영한다. 데이터생성항은단어생성과이미지생성으로나눠질수가있다. (5) 이때, 특정단어와이미지패치가생성될확률은다음과같이정의될수있다. (6) (7) (3) 여기서 D t 는 t 번째에피소드의데이터크기이다. 학 s m 은 s 의 m 번째요소를나타내며 e c 는 c (d) 에서값이 1인등장인물과연결된하이퍼에지들의부분집합을나타낸

454 정보과학회논문지제 42 권제 4 호 (2015. 4) 다. e w i 와 e r i 은 i 번째하이퍼에지의단어와이미지패치벡터를나타낸다. 하이퍼에지의초기가중치는해당하이퍼에지가포함하고있는단어와이미지패치가새로얻은데이터에서얼만큼자주등장하는지에대한함수로정의될수있다. 이미지패치 u와 v의특징벡터 u V, u C 와 v V, v C 사이의 L2 distance를계산한다. 이미지패치의특징을추출하는방법은 4.1장에서자세히설명이되어있다. (9) 은두개의특징벡터의효과를조절해주는상수이다. S(v, u) 가임계치보다작으면두개의이미지패치 u 와 v 는같다고정의할수있다. 여기서 r (d) e r i 와 w (d) e w i 는주어진데이터 r (d) 와 w (d) 가각각 i 번째하이퍼에지의단어벡터, 이미지패치벡터들과내적한값으로새로얻은데이터와하이퍼에지가가지고있는데이터가비슷할수록높은값을갖게된다. g(e i) 는 e i 가가지고있는단어의 tf-idf 값의기하평균이고일부 functional word들이비정상적으로큰가중치를갖게되는경우를막는다. 는 1보다작은음수가아닌값이고 λ는 moderating 상수이다. 그러므로, 식 (4) 의첫번째항은모델이가지고있는단어와이미지패치의분포가새롭게얻은단어와이미지패치의분포와유사할수록높아진다. 또한, 위의식을계산하기위해서서로다른두패치의동일성을계산할지시함수 (indicator function) 도필요하다. 전체화면이미지로부터얻어지는매우다양한이미지패치들가운데같은객체를나타내는패치들이많이존재하기때문이다. 유사함수 S(v, u) 는두개의 3. 문장생성알고리즘학습된개념을기반으로이미지질의가주어졌을때등장인물정보를고려하여질의를텍스트로전환하는식은아래와같이멀티모달추론식으로설명된다. (10) 위식에서 P(w,c r,e,α) 와 P(c r,e,α) 는이미지에등장하는등장인물들의개념변수와연결된하이퍼에지의부분집합을통해계산된다. 본논문에서는전환된텍스트질의를사용하여문장을생성하기위해하이퍼네트워크기반문장생성알고리즘 [16] 을이용하였으며그림 2는등장인물정보를고려하여문장을생성하는예를보여주고있다. 문장생성과정을간략하게설명하자면, 우선등장인물 Petty 와단어 go 의정보를포함하고있는하이퍼에지집합을만든뒤룰렛휠선택방식을사용하여기본문장 (let s go back) 을만든다. 그리고문장을 그림 2 등장인물기반문장생성의예 Fig. 2 An example of character-based sentence generation

멀티모달개념계층모델을이용한만화비디오컨텐츠학습을통한등장인물기반비디오자막생성 455 4. 실험결과 그림 3 등장인물기반문장생성알고리즘 Fig. 3 Character-based sentence generation algorithm 뒤로확장시켜나가기위해마찬가지로 Petty 와 go, back 정보를포함하고있는하이퍼에지집합중하나를선택하여부분문장 ( go back to ) 을만들고이를기본문장뒤에잇는다. 이과정은부분문장이끝기호 </s> 를포함할때까지반복되며같은방법을사용하여기본문장을앞으로도확장시킨다. 구체적인알고리즘은그림 3에나타나있다. 4.1 데이터전처리본논문에서는총 52개에피소드 268분길이의만화비디오 뽀로로시즌 3 와 MIR Flickr[17] 를데이터로사용되었다. 뽀로로 비디오는약 5000개의화면이미지-자막쌍으로변환하였다. 그리고그림 4와같이화면이미지로부터 MSER(Maximally Stable External Regions) 를사용하여이미지패치를추출한뒤각각의패치를 SIFT(Scale-Invariant Feature Transform) 을사용하여인코딩한뒤다시 VLAD(Vector of Locally Aggregated Descriptor)[18] 로 128 k 차원의행렬로인코딩하였다. 이때 k는 SIFT 클러스터의크기로 300을사용하였다. 또한픽셀의 RGB 값을 10 단계로양자화하여각이미지패치마다 10 10 10 크기의 RGB 히스토그램을계산하였다. 만화비디오의이미지가단순하여각등장인물들이고유의색깔로구별가능했기때문이다. 자막은 1900 차원의이진벡터로표현이되었다. MIR Flickr data set은전체 25000개데이터가운데 10000개를무작위로선택했고각이미지는해당태그들을포함하였다. 태그는주로사용되는 1,386개로한정하였고전처리과정은 뽀로로 비디오와같은방법을사용하였다. 4.2 문장생성본논문은모델이비디오의개념을학습한뒤주어진이미지를통해문장을생성하는상황을어린아이가비디오를본뒤화면이미지를통해스토리를회상해보는문제로여겼다. 문장생성을위해각에피소드당무작위로 10개의이미지-자막쌍을만들어테스트데이터로사용했고이를제외한모든데이터를훈련데이터로사용했다. 이미지질의는 likelihood인 P(w r, c, e, a) 가가장높은 w를통해텍스트질의로바뀌었고문장은앞에서언급한알고리즘에의해생성되었다. 표 1은 corr- 그림 4 이미지패치전처리과정 Fig. 4 Image preprocessing method

456 정보과학회논문지제 42 권제 4 호 (2015. 4) (a) Negative log likelihood (b) Average precision 그림 5 스토리가진행됨에따른모델성능 Fig. 5 Model performance as the story goes on Scene images 표 1 등장인물기반비디오자막생성결과 Table 1 The results of character-based sentence generation Generated sentences (words) Original clda mdbm MuCH Original clda mdbm MuCH I am making a magic potion is, I, you, crong, it, cookie, cororong, uh, pipi, poyoyo - i am making magic sorry i am making food - your magic wand already but i want to meet you sure everyone headed into the forest I, is, you, crong, the cookie, crorong, uh, pipi, poyoyo - you think everyone is better to the forest - we have to find everyone ran away LDA[4], multimodal deep Boltzmann machine (mdbms) [1], MuCH가동일한질의어에대해서생성한자막을비교하고있다. 자막생성결과 corr-lda 나 mdbms 은가장빈번하게등장하는단어들을위주로생성한반면, MuCH는하이퍼에지들이갖는정보에기반하여보다실제자막에가까운문장을생성하였다. 이는등장인물정보의학습과하이퍼에지에기반한정보저장방식이모델의개념학습에도움을주었고이에따라문장생성의정확성이높아졌음을의미한다. 그림 5는비디오의스토리가진행됨에따라향상하는모델의성능을보여주고있다. (a) 는모델이점진적으로학습하면서주어진데이터에등장하는단어의 negative log likelihood 를나타낸다. 학습이 SPC 모델보다빠르게이루어짐을확인할수있다. (b) 는아직보여지지않은에피소드 13 의이미지가질의로주어졌을때모델이생성한단어의 precision을나타낸다. Precision은모델이생성한단어의총개수와그중질의이미지의실제자막안에포 함되는단어의개수비율로나타낼수있다. 모델이생성하는단어의개수는질의이미지의실제자막이갖는단어개수와같도록하였다. (b) 에나타난바와같이모델들은모두초기학습성능이올라가다가에피소드 3,4를학습하면서일시적으로성능이감소하였다. 일시적감소현상은아직개념이학습되지않은새로운등장인물들이나타났기때문이다. 표 2는 corr-lda, multimodal deep Boltzmann machine, 표 2 Flickr 데이터를사용한단어생성결과 Table 2 Words generation results for MIR Flickr dataset Models cldas mdbms SPC MuCH F-Score 0.007 0.009 0.008 0.019 Successful Tagging (30) 0.241 0.213 0.198 0.263 Successful Tagging (100) 0.533 0.341 0.412 0.579 * 괄호안의숫자는모델이생성한단어의개수를의미

멀티모달개념계층모델을이용한만화비디오컨텐츠학습을통한등장인물기반비디오자막생성 457 SPC[10], MuCH가 Flickr 데이터의이미지를사용하여단어를생성한결과를비교하고있다. 학습을위해전체 10000개 Flickr 데이터중 9000개를훈련데이터로사용하였고나머지 1000개데이터의이미지를질의로사용하였다. 원래이미지가가지고있는태그를적어도한개이상맞추었는지의여부를평가기준으로하였을때 MuCH는다른모델에비해서더높은성능을얻을수있었다. 5. 결론및향후연구방향본논문은만화비디오로부터컨텐츠를학습할수있는멀티모달개념계층모델을제시하고학습된모델로부터등장인물정보를반영한비디오자막을생성해보았다. 제안하는모델은멀티모달하이퍼네트워크층 ( 하위층 ) 과개념변수층 ( 상위층 ) 으로구성되며하위층은하이퍼그래프구조를이용하여단어와이미지패치의고차패턴을표현하는하이퍼에지집합으로구성되며상위층은하위층에존재하는하이퍼에지들을통해각개념들을단어와이미지패치의고차패턴으로표현했다. 실험데이터는만화비디오 뽀로로시즌 3 가사용되었고만화비디오는이미지처리가쉽고단어가많지않으며줄거리가간단하기때문에실험을위한테스트베드로적합하였다. 제안하는모델의성능을평가하기위해등장인물의개념을학습하여비디오자막을생성해본결과기존의멀티모달학습모델들에비해실제자막과더가깝고등장인물의정보를더반영한문장을생성할수있었다. 또한비디오의스토리가진행됨에따라에피소드단위를기반으로점진적학습을할수있었고모델의성능도점점향상되었다. 본연구주제와관련한향후연구방향은다음과같다. 먼저, 이미지와텍스트전처리에최근기계학습에서좋은성능을보이고있는 CNN과 RNN과같은 deep learning 기법을사용해보는것이다. 객체인식과같은분야에서 CNN은다른알고리즘보다더우월한성능을보이고있으며텍스트도 RNN을사용하여 1 of k coding 방식대신실수벡터로표현할수있다. 이미지와텍스트의표현능력이높아진다면만화비디오테스트베드에서벗어나드라마나영화, 또는구글글라스등의휴대용기기로부터얻을수있는데이터에서지식을학습해볼수있다. 이러한일들이가능해지면스마트기기로부터사용자의행동패턴을분석, 예측할수있고, 주어진상황을파악하여사용자에게알맞은행동을추천할수있게된다. 또한, 유투브와같은동영상사이트나휴대용기기로부터녹화된영상등에서확인할수있듯이실세계에는이미지가주어졌을때이에부합하는텍스트데이터가 항상존재하지않는다. 이점을고려했을때모델은학습과정에음향모달리티를추가로사용할수있어야한다. 학습하는데이터의양이증가함에따라모델의처리량을늘리기위해 GPU 등을활용한병렬처리도구축되어야할것이다. References [1] N. Srivastava, and R. Salakutdinov, Multimodal Learning with Deep Boltzmann Machines, Advances in Neural Information Processing Systems 25 (NIPS 2012), pp. 2231-2239, 2012. [2] C. Kemp, J. B. Tenenbaum, T. L. Griffiths, T. Yamada, and N. Ueda, Learning Systems of Concepts with an Infinite Relational Model, Proc. of the 21st Conference on Artificial Intelligence (AAAI 2006), pp. 381-388, 2006. [3] R. Kiros, R. Salakutdinov and R. Zemel, Multimodal Neural Language Models, Journal of Machine Learning Research Conference on Machine Learning, Vol. 32, No. 1, pp. 595-603, 2014. [4] H. Xiao, and T. Stibor, Toward Artificial Synesthesia: Linking Images and Sounds via Words, NIPS Workshop on Machine Learning for Next Generation Computer Vision Challenges, 2010. [5] B. T. Zhang, Hypernetworks: A molecular evolutionary architecture for cognitive learning and memory, IEEE Computational Intelligence Magazine, Vol. 3, No. 3, pp. 49-63, 2008. [6] B. T Zhang and J. K. Kim, DNA hypernetworks for information storage and retrieval, Lecture Notes in Computer Science DNA12, 4287, pp. 298-307, 2006. [7] J. K. Kim and B. T. Zhang, Evolving hypernetworks for pattern classification, IEEE Congress on Evolutionary Computation (CEC 2007), pp. 1856-1862, 2007. [8] B. T. Zhang and H. Y. Jang, A Bayesian algorithm for in vitro molecular evolution of pattern classifiers, Lecture Notes in Computer Science, 3384, pp. 458-467, 2005. [9] J.-W. Ha, J.-H. Eom, S.-C. Kim, and B.-T. Zhang, Evolutionary hypernetwork models for aptamerbased cardiovascular disease diagnosis, The Genetic and Evolutionary Computation Conference (GECCO 2007), pp. 2709-2716, 2007. [10] S.-J Kim, J.-W. Ha, and B.-T. Zhang, Bayesian evolutionary hypergraph learning for predicting cancer clinical outcomes, Journal of Biomedical Informatics, 49, pp. 101-111, 2014. [11] B. T. Zhang, J. W. Ha, and M. G. Kang, Sparse population code models of word learning in concept drift, Proc. of Annual Meeting of the Cognitive Science Society (CogSci 2012), pp. 1221-1226, 2012. [12] A. Martin, The representation of object concepts in the brain, Annual Review of Psychology, 58, 25-45,

458 정보과학회논문지제 42 권제 4 호 (2015. 4) 2007. [13] M. Kiefer, E. J. Sim, B. Herrnberger, J. Grothe, and K. Hoenig, The sound of concepts: Four markers for a link between auditory and conceptual brain systems, Journal of Neuroscience, 28, 12224-12230, 2008. [14] W. Prinz, M. Beisert and A. Herwig, Action Science : Foundation of an Emerging Discipline, MIT Press, pp. 384, 2013. [15] B. T, Zhang, An incremental learning algorithm that optimizes network size and sample size in one trial, Proc. of IEEE International Conference on Neural Networks (ICNN 94), 1, pp. 215-220, 1994. [16] J. H. Lee, S. H. Lee, W. H. Chung, E. S. Lee, T. H. Park, R. Deaton, and B.-T. Zhang, A DNA assembly model of sentence generation, BioSystems, 106, pp. 51-56, 2011. [17] M. J. Huiskes, M. S. Lew, The MIR Flickr Retrieval Evaluation, Proc. of the 2008 ACM International Conference on Multimedia Information Retrieval (MIR 08), 2008. [18] H. Jegous, M. Douze, C. Schmid, and P. Perez, Aggregating Local Descriptors into a Compact Image Representation, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2010), pp. 3304-3311, 2010. 장병탁정보과학회논문지제 42 권제 2 호참조 김경민 2013 년홍익대학교컴퓨터공학과학사 2013 년 ~ 현재서울대학교컴퓨터공학부석박사통합과정. 관심분야는기계학습, Computational Intelligence, 멀티미디어마이닝, 인지과학 하정우 2004 년서울대학교컴퓨터공학부학사 2004 년 ~2006 년삼성 SDS. 2006 년 ~2015 년서울대학교컴퓨터공학부박사. 관심분야는기계학습, 확률그래프모델, 진화연산, 생물정보학, 멀티모달정보검색및추천, 인지과학, 의료정보학 이범진 2012년고려대학교전자및정보공학부학사. 2012년~현재서울대학교컴퓨터공학부석 박사통합과정. 관심분야는인지기계학습, 평생학습, 다중센서기반기계학습