DBPIA-NURIMEDIA

Similar documents
09( ) CPLV16-04.hwp

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

DBPIA-NURIMEDIA

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

DBPIA-NURIMEDIA

Ch 1 머신러닝 개요.pptx

PowerPoint 프레젠테이션

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DB0FBB3EBC1D8>

논문제출양식

À±½Â¿í Ãâ·Â

(JBE Vol. 24, No. 1, January 2019) (Special Paper) 24 1, (JBE Vol. 24, No. 1, January 2019) ISSN 2287-

DBPIA-NURIMEDIA

다중 곡면 검출 및 추적을 이용한 증강현실 책

Electronics and Telecommunications Trends 인공지능을이용한 3D 콘텐츠기술동향및향후전망 Recent Trends and Prospects of 3D Content Using Artificial Intelligence Technology

(JBE Vol. 23, No. 5, September 2018) (Special Paper) 23 5, (JBE Vol. 23, No. 5, September 2018) ISSN

(JBE Vol. 24, No. 4, July 2019) (Special Paper) 24 4, (JBE Vol. 24, No. 4, July 2019) ISSN

(JBE Vol. 22, No. 2, March 2017) (Special Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN

Introduction to Deep learning

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

딥러닝 첫걸음

2 : (Seungsoo Lee et al.: Generating a Reflectance Image from a Low-Light Image Using Convolutional Neural Network) (Regular Paper) 24 4, (JBE

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

R을 이용한 텍스트 감정분석

PowerPoint 프레젠테이션

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

(JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

표상학습을이용한딥러닝이미지특성의범용분류성에대한실험적분석 지도교수장병탁 이논문을공학학사학위논문으로제출함 년 12 월 21 일 서울대학교공과대학컴퓨터공학부한동식 2016 년 2 월

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

RNN & NLP Application

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

제1강 인공지능 개념과 역사

°í¼®ÁÖ Ãâ·Â

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 29(7),

정보기술응용학회 발표

02본문

DBPIA-NURIMEDIA

빅데이터_DAY key

DBPIA-NURIMEDIA

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

DBPIA-NURIMEDIA

PowerPoint Presentation

1 : (Eunyul Kim et al.: Video Highlight Prediction Using Multiple Time-Interval Information of Chat and Audio) (Special Paper) 24 4, (JBE Vol.

2 : (EunJu Lee et al.: Speed-limit Sign Recognition Using Convolutional Neural Network Based on Random Forest). (Advanced Driver Assistant System, ADA

4 : (Hyo-Jin Cho et al.: Audio High-Band Coding based on Autoencoder with Side Information) (Special Paper) 24 3, (JBE Vol. 24, No. 3, May 2019

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

290 정보과학회컴퓨팅의실제논문지제 24 권제 6 호 ( ) 1. 서론음성인식시스템은모바일디바이스의보편화로음성데이터에대한접근과확보가용이해짐에따라지난몇년간크게발전하였다. 화자식별 (Speaker Identification) 은개인성도의음성학적특징을모델링하고분류

김기남_ATDC2016_160620_[키노트].key

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

02본문

법학박사학위논문 실손의료보험연구 2018 년 8 월 서울대학교대학원 법과대학보험법전공 박성민

2 : CNN (Jaeyoung Kim et al.: Experimental Comparison of CNN-based Steganalysis Methods with Structural Differences) (Regular Paper) 24 2, (JBE

KAKAO AI REPORT Vol.01

문학석사학위논문 존밀링턴싱과이효석의 세계주의비교 로컬 을중심으로 년 월 서울대학교대학원 협동과정비교문학 이유경

PowerPoint Presentation

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

행정학석사학위논문 공공기관기관장의전문성이 조직의성과에미치는영향 년 월 서울대학교행정대학원 행정학과행정학전공 유진아

(JBE Vol. 23, No. 4, July 2018) (Special Paper) 23 4, (JBE Vol. 23, No. 4, July 2018) ISSN


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

KD hwp

DBPIA-NURIMEDIA

27 2, * ** 3, 3,. B ,.,,,. 3,.,,,,..,. :,, : 2009/09/03 : 2009/09/21 : 2009/09/30 * ICAD (Institute for Children Ability

02본문

02( ) SAV12-19.hwp

6 : (Gicheol Kim et al.: Object Tracking Method using Deep Learing and Kalman Filter) (Regular Paper) 24 3, (JBE Vol. 24, No. 3, May 2019) http

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

(JBE Vol. 23, No. 6, November 2018) (Special Paper) 23 6, (JBE Vol. 23, No. 6, November 2018) ISSN 2

때문이다. 물론가장큰이유는, 다음절에서살펴보겠지만최근들어딥러닝구조를학습하는데필요한여러가지테크닉들이개발되었기때문이다 [6,7]. 딥러닝이산업현장에서선호되는데는몇가지이유가있다. 일단은어려운문제를잘해결한다는것이다. 예를들어서, 물체인식과음성인식등전통적인패턴인식의문제에서딥러닝

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

1217 WebTrafMon II

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

Reinforcement Learning & AlphaGo

(JBE Vol. 24, No. 4, July 2019) (Special Paper) 24 4, (JBE Vol. 24, No. 4, July 2019) ISSN

ch3.hwp

한국현대치의학의발전 년논문, 증례보고, 종설및학술강연회연제를중심으로 Development of modern dentistry in Korea 저자저널명발행기관 NDSL URL 신유석 ; 신재의大韓齒科醫師協會誌 = The journal of the Ko

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

_KrlGF발표자료_AI

경영학석사학위논문 투자발전경로이론의가설검증 - 한국사례의패널데이타분석 년 8 월 서울대학교대학원 경영학과국제경영학전공 김주형

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

#Ȳ¿ë¼®

11¹Ú´ö±Ô

,. 3D 2D 3D. 3D. 3D.. 3D 90. Ross. Ross [1]. T. Okino MTD(modified time difference) [2], Y. Matsumoto (motion parallax) [3]. [4], [5,6,7,8] D/3

Transcription:

TV 드라마비디오스토리분석딥러닝기술 Deep Learning Technologies for Analysis of TV Drama Video Stories 저자 (Authors) 남장군, 김진화, 김병희, 장병탁 출처 (Source) 방송과미디어 22(1), 2017.1, 12-23 (12 pages) Broadcasting and Media Magazine 22(1), 2017.1, 12-23 (12 pages) 발행처 (Publisher) 한국방송 미디어공학회 The Korean Society Of Broad Engineers URL http://www.dbpia.co.kr/article/node07109484 APA Style 남장군, 김진화, 김병희, 장병탁 (2017). TV 드라마비디오스토리분석딥러닝기술. 방송과미디어, 22(1), 12-23. 이용정보 (Accessed) 서울대학교 66.249.82.*** 2017/03/06 18:41 (KST) 저작권안내 DBpia 에서제공되는모든저작물의저작권은원저작자에게있으며, 누리미디어는각저작물의내용을보증하거나책임을지지않습니다. 그리고 DBpia 에서제공되는저작물은 DBpia 와구독계약을체결한기관소속이용자혹은해당저작물의개별구매자가비영리적으로만이용할수있습니다. 그러므로이에위반하여 DBpia 에서제공되는저작물을복제, 전송등의방법으로무단이용하는경우관련법령에따라민, 형사상의책임을질수있습니다. Copyright Information Copyright of all literary works provided by DBpia belongs to the copyright holder(s)and Nurimedia does not guarantee contents of the literary work or assume responsibility for the same. In addition, the literary works provided by DBpia may only be used by the users affiliated to the institutions which executed a subscription agreement with DBpia or the individual purchasers of the literary work(s)for non-commercial purposes. Therefore, any person who illegally uses the literary works provided by DBpia by means of reproduction or transmission shall assume civil and criminal responsibility according to applicable laws and regulations.

12 특집 : 딥러닝기반방송미디어기술 특집 딥러닝기반방송미디어기술 TV 드라마비디오스토리분석딥러닝기술 Deep Learning Technologies for Analysis of TV Drama Video Stories 남장군, 김진화, 김병희, 장병탁 / 서울대학교 요약비디오정보를자동으로학습하고관련문제를해결하기위해서는, 비디오의기본구성요소인영상, 음성, 언어정보의학습을기반으로고차원의추상적개념을파악하는기술이필수적이다. 최근딥러닝이실용적인수준으로이러한기술을가능하게함에따라, 보다도전적인비디오스토리분석과이해문제해결을시도할수있게되었다. 본고에서는비디오의요소별분석에적용가능한최신딥러닝기술을소개하고, 딥러닝기술을핵심으로한 TV 드라마의스토리분석사례를살펴본다. Ⅰ. 서론 닝이라는공통의기술하에서다중지능구현으로융합되는획기적인변화가이어지고있다. 이러한변화에힘입어비디오스토리를이해하는수준의지능구현연구를본격적으로시작할수있게되었다. 본고에서는이러한변화를견인한대표적인딥러닝기술을정리하고, TV 드라마비디오에서의스토리학습사례를소개한다. 이후구성은다음과같다. Ⅱ장과 Ⅲ장에서는비디오의요소분석과스토리학습문제및관련딥러닝기술을정리한다. Ⅳ장에서는여러딥러닝기술을기반으로 TV 드라마비디오에서스토리를분석한응용사례를소개한다. 마지막으로 Ⅴ장에서는결론을맺는다. 최근딥러닝기술이크게발전하면서인공지능의대표적목표인음성지능, 시각지능, 언어지능의구현이실용적인단계로올라섰다. 무엇보다각분야별기술이개별적으로연구되던기존트렌드가딥러 Ⅱ. 비디오정보의추출및분석 비디오를자동으로분석하는문제는인공지능에 12 방송과미디어제 22 권 1 호

TV 드라마비디오스토리분석딥러닝기술 13 서오랜기간다룬문제이며, 영상의시각정보추출부터스토리구성에따른비디오분류문제까지다양한세부문제를해결해야한다. 최근딥러닝기술을이용한컴퓨터영상분석기술에힘입어비디오분류, 이벤트인식, 비디오자동주석등의분야에서큰진전이이어지고있다. 몇가지사례를살펴보자면, [1] 에서는다중해상도컨볼루션신경망 (Multiresolution CNN) 구조를제안하여대규모비디오데이터의자동주석및분류문제에적용하였다. [2] 는다중모달딥러닝을사용하여비디오의시각과음성정보의매핑성능을보여주었다. [3] 에서는시공간특성간섭 (Spatio-temporal feature coherence) 을통해대용량비디오에서자주나타나는개념들을구별하였다. 이와같은사례는대용량비디오데이터의자동주석과분류, 특정이벤트인식등구체적이지만제한된정보를분석하는데공통점이있다. 그러나실제비디오의스토리자동분석을위해서는보다추상적인수준의내용인식과흐름에대한모델이필요하다. 관련사례로서, [4] 에서는 TV 드라마의등장인물중심의정보를학습하여등장인물간소셜네트워크를분석하였다. [5] 는 Deep Embedded 메모리망을이용하여유아애니메이션뽀로로의내용관련질문에자동으로응답하는인공지능시스템을선보였다. Ⅲ. 딥러닝기반비디오스토리분석연구 비디오스토리를이해하는딥러닝모델을만들기위해서는비디오를구성하는다양한구성요소가종합된대규모데이터가필요하다. Ⅲ장에서는최 < 그림 1> 비디오소셜이벤트검출예시 근에공개된여러대용량비디오데이터셋을소개하고, 비디오구성요소중영상과언어학습에필수적인대표적인딥러닝기술을소개한다. 1. 비디오스토리학습데이터셋이미지인식을비롯한다양한컴퓨터비전문제의해법이크게개선된가장큰계기중의하나가바로 ImageNet(2009 년 ) 과같은대용량공개데이터셋의출시이다. 비디오는이미지에비해데이터의복잡도가훨씬높기때문에, 특정문제해결에특화된벤치마크용데이터셋위주로공개되고있으며, ImageNet 데이터셋정도의대규모비디오데이터셋은많지않다. 대표적인데이터셋으로독일의 MPI에서공개한 MPII-MD 가있다. MPII-MD 데이터셋은 94개영화의 68K개비디오클립-묘사글의쌍을포함하였고 LSMDC2016(Large Scale Movie Description and Understanding Challenge) 대회에서비디오묘사글생성연구의벤치마크데이터셋으로사용되었다. 비디오분류문제를풀기위해최근구글에서는 ImageNet 에대응되는비디오분류데이터셋 YouTube-8M 를공개하였다. YouTube-8M 는 2017 년 1 월 13

14 특집 : 딥러닝 기반 방송미디어 기술 (a) PororoQA 데이터셋 예시 (b) MPII-MD 데이터셋 예시 (c) Movie QA 데이터셋 예시 (d) YouTube 8M 데이터셋 예시 <그림 2> 비디오 스토리 학습 데이터셋 8백만 개(총 5백만 분 분량)의 비디오 URL과 비디 1) 영상처리 딥러닝 기술 오 단위의 표지(Video-level labels) 데이터가 포함 이미지 분류 문제: 전통적인 영상처리에서는 된다. 이는 기존의 스포츠 동영상 분류를 위한 SIFT, HOG와 같은 특징점 추출 방법을 사용하 Sports-1M 데이터셋보다도 큰 규모의 데이터셋이 여 문제에 접근하였다. 이러한 방법은 전문가의 다. 또한 비디오에 관한 질의응답 문제를 풀기 위해 지식이 필요하고 각 문제마다 수작업으로 디자인 구축한 MovieQA과 PororoQA 데이터셋이 있다. 을 해야하는 문제점이 있다. 반면 딥러닝 기술은 MovieQA는 140개 영화의 비디오 클립과 영화 소 데이터에서 분류에 필요한 특징점을 자동으로 학 개, 그리고 자막, 묘사글이 포함되고 영화 스토리에 습한다. 영상처리에서 대표적 딥러닝 기술인 컨 관한 질의응답 데이터가 약 7천 개 포함되어 있다. 볼루션 신경망(Convolutional neural network, PororoQA는 유아용 애니메이션 Pororo 의 177개 CNN)은 깊은 층의 네트워크를 통해 다양한 단계 에피소드에서 추출한 16K개의 비디오 클립과 자막, 의 특징점 조합을 학습하여 성능을 크게 개선하 27K개 비디오 묘사글과 9K개의 스토리 질의응답 였다. 데이터가 포함된다. <그림 2>에서 각 데이터셋의 대표적인 CNN 모델로 딥러닝 기반 영상처리를 촉발한 AlexNet[6]이 있다. AlexNet(<그림 3>)을 예시를 볼 수 있다. 통해 CNN의 대표적 요소 기술을 살펴본다. 2. 비디오 분석을 위한 딥러닝 기술 컨볼루션(Convolution): 이 층에서는 입력 이미 지에 학습 가능한 필터를 적용한 컨볼루션 연산을 이 절에서는 비디오 영상과 언어 분석을 위한 대 표적인 딥러닝 기술을 소개한다. 수행한다(식 (1)). 각 필터별로 2차원 이미지를 훑은 결과로 2차원 활성화맵을 출력한다. 14 방송과 미디어 제22권 1호

TV 드라마 비디오 스토리 분석 딥러닝 기술 15 (식 (2))를 사용하였고 표준화 함수(식 (3))는 인접된 특징값 사이의 영향을 최소화한다. (2) (3) 완전 연결층(Fully connected layer): 완전연결층 은 일반 인공신경망 구조와 같으며 모델의 출력단 에 연결되어 softmax를 통해 레이블별 예측 확률 을 출력한다. Dropout: 학습 단계에서 일부 은닉 노드를 확률 <그림 3> AlexNet 모델의 구조도 적으로 제외하여, 노드에 연결된 부분의 학습을 일 시적으로 중단시킨다. 과적합을 방지하고 성능 향 (1) 상에 기여한다. 풀링(Pooling): 풀링 과정은 지정영역의 대표 값 을 계산하는 과정을 통해 모델의 복잡도를 줄이고 영상의 정보를 추상화한다. <그림 5> ImageNet 이미지 분류 결과 예시 AlexNet은 2012년에 ImageNet 이미지 분류대 회에서 압도적 성능으로 우승하였다. 이후 대회에 서는 CNN의 다양한 변형 모델이 발표되어 성능 <그림 4> 컨볼루션과 최대 풀링 연산 을 향상시켰다. <표 1>에 AlexNet, VGG-Net[7], 활성화와 표준화(Activation and normalization): GoogLeNet[8]과 ResNet[9] 모델을 정리하였다. 층사이의 값의 전달 과정에 활성화 함수 ReLU 최근 이미지 분류와 인식 문제에서 최고의 성능 2017년 1월 15

16 특집 : 딥러닝기반방송미디어기술 RAM Buffer RAM ReLU 10 8 6 Multiplier 4 2 ALU Convolutional Layer -10-5 5 10 F(x) = max(0, x) Pool Layer Dropout Layer Kernel normalizer = m < 그림 6> AlexNet 의구성요소 ( 컨볼루션, 활성화함수, 풀링, Dropout 의구조도 ) < 표 1> 대표적인 CNN모델및 ImageNet 분류성능비교 Model year layer Top-5 error DA Conv. layer Kernel size FC layer FC layer size Dropout LRN AlexNet 2012 8 16.4% + 5 11, 5, 3 3 4096, 4096, 1000 + + VGGNet 2014 19 7.3% + 16 3 3 4096, 4096, 1000 + - GoogLeNet 2014 22 6.7% + 12 7,1,3,5 1 1000 + + ResNet 2015 152 3.57% + 151 7,1,3,5 1 1000 + - DA: Data Augmentation; FC: Full Connection; LRN: Local Response Normalization; 을보이는딥러닝모델은 ResNet(deep residual network, 딥잔차망 ) 이다. ResNet 은신경망의층이층의입력값 x를중심으로항등함수와 ( 지름길연결로구현 ) 비선형학습이필요한잔차 F(x) 를구분하여 ( 여러신경망층으로구현 ) x+f(x) 형태의매핑을학습하도록하였다. < 그림 7> 은완전연결층을중심으로구성한 ResNet 층의개념도이며, 이미지처리문제의경우컨볼루션층을적용한다. 그결과, 기존모델에서층을깊게쌓을때성능이하락하는문제를해결하고, 필요에따라충분히깊은층 을가진모델을학습하여성능을향상하는것이가능하게되었다. < 표 2> 는 ResNet을이용하여 ImageNet 데이터셋에서이미지분류문제를푼실험결과이다. ResNet은 2015년의이미지넷과 Microsoft COCO 대회의탐지와분리분야에서우승하였다. < 표 2> 2015년 ImageNet 분류실험결과 Method Top-5 err. (test) VGG(ILSVRC 14) 7.32 GoogLeNet(ILSVRC 14) 6.66 VGG(v5) 6.8 PReLu-net 4.94 BN-inception 4.82 ResNet(ILSVRC 15) 3.57 < 그림 7> ResNet 의잔차학습단위도식화 이미지생성문제 : 이미지분류문제외에 CNN 구조의또다른성공적응용분야는이미지생성이다. 최근이미지생성에서각광을받고있는대표적인모델은 GAN(Generative Adversarial Network, 16 방송과미디어제 22 권 1 호

TV 드라마비디오스토리분석딥러닝기술 17 y 3 Real data The flower with round yellow petals. y z Generator noise (or latent variable) Discriminator real false 1024 100 z 4 4 Project and reshape 8 8 CONV 1 128 256 512 64 5 16 Stride 2 5 32 5 5 5 5 Stride 2 5 5 Stride 2 16 32 Stride 2 CONV 2 CONV 3 64 CONV 4 G(z) < 그림 8> GAN 모델의모식도 < 그림 9> DCGAN 의생성모듈구조도 생성대립넷 )[10] 이다. GAN은생성모듈과분류모듈이학습과정에서서로적대적으로대결을한결과생성모듈의성능을극대화한다. 생성모듈은사전분포로부터임의로표집된 z로부터데이터 x=g(z) 를생성한다. 분류모듈은생성모듈이생성한데이터와실제데이터를구분하려한다. 반대로생성모듈은분류모듈을속일수있는실제와같은데이터를생성하려한다. 실제데이터의확률분포를 P data 라하고생성모듈이학습한확률분포를 P model 이라고할때, 생성대립넷은학습과정에서최적의 v(g,d) 를갖는 G 와 D를찾는다 ( 수식 (4)). 정반대형태이고이에따라필터의크기가역으로커진다. 이모델에사용되는컨볼루션은필터추출간격을 2로하고풀링을생략하여과대적합화문제를완화하였다. 배치정규화 (batch normalization) 를적용하여학습의속도를높이고아담 (adam) 최적화기법이응용되었다. DCGAN 을비롯한이미지생성모델이발전함에따라, 관련한다양한문제에도적용되었다. 이미지의가려진영역을재생하는사례를 < 그림 10> 에서볼수있다. (4) 이미지생성모델로서의 GAN의뛰어난가능성은곧다양한후속모델개발로이어진다. 대표적사례로, 강력한영상처리성능을보이는 CNN모델을결합한 DCGAN(Deep Convolutional GAN)[11] 은실제사진수준의이미지생성도가능하다. < 그림 9> 와같이 DCGAN 모델은네개이상의컨볼루션층으로분류모듈을구성하고, 비슷한수의디컨볼루션층으로생성모듈을구성하였다. 디컨볼루션은컨볼루션의흐름이거울에반사된것과같은 < 그림 10> DCGAN 으로가려진공간을채우는예 2) 언어처리딥러닝기술비디오의연속적이미지뿐만아니라음성, 자막등과같은순서정보를학습하기위해서는다른방식의모델이필요하다. 순환신경망 (Recurrent Neural Network, 2017 년 1 월 17

18 특집 : 딥러닝기반방송미디어기술 RNN을기반으로한다양한딥러닝모델이문장생성, 기계번역등과같은대표적언어처리문제에서획기적성능향상결과를보이고있으며, 영화시나리오작성 [15], 이미지묘사글생성 [16] 등에도적용되고있다. < 그림 11> 순환신경망구조도 RNN)[12] 은순서를고려한동적신경망모델로서특히언어처리응용분야에획기적인발전을가져왔다. RNN의가장큰특징은과거에대한기억을가지고있다는것이다. 과거의입력된단어의순서를고려하여새로운단어를예측하는언어모델링에서는 RNN이기존의모델을대체하였다. < 그림 11> 은 RNN의구조도이다. (5) RNN의학습과정에서도다른신경망모델과마찬가지로일부데이터를기준으로오차를줄이는방향으로연결가중치를조절하는 SGD(Stochastic Gradient Descent) 및오류역전파방법을사용하며, 특히시간축방향에도동일한방식을적용하는 BPTT(Back Propagation Through Time) 알고리즘이사용된다. 기본 RNN 은긴시간간격간의연관성을학습하는과정에서안정적인학습이어려운문제가있으며, 이를해결한확장모델로서 LSTM(Long Short- Term Memory)[13] 과 GRU(Gated Recurrent Unit)[14] 가기본구성요소로많이사용된다. 이들은모델에입출력과기억정보를선별적으로조절하는게이트 (gate) 를두어 RNN에비해긴문장의생성과학습의성능을높였다. Ⅳ. 딥하이퍼넷기반 TV 드라마분석 이장에서는 TV 드라마비디오스토리분석의직접적사례로서딥하이퍼넷을이용하여 TV 드라마로부터인물관계를자동으로분석하는연구를소개한다. 딥하이퍼넷은계층구조를통해데이터로부터자동으로지식을학습한다. 기존의고정된신경망모델의구조와는달리구조는유동적으로변할수있어동적인정보를다루기에적합하다. 1. 딥하이퍼넷이절에서는딥하이퍼넷의기술적인부분을살펴본다. < 그림 12> 는딥하이퍼넷의구조도이다 [17]. 모델자체는다층구조로구성되었고이미지- 자막쌍을구성하여 Monte Carlo Sampling 방법을통해 H층의하이퍼에지를구성한다. C 1 층노드는 H 층하이퍼에지의부분집합을클러스터링한조합이고노드의갯수는학습에따라변하게된다. (6) h m 는 C 1 층의 m번째노드에연결된하이퍼에지 (hyperedge) 의집합이고함수 Dist 는에지사이들의유클리드거리이다. Sim(h m ) 가임계값을넘을때노드는두개로갈라지게된다. 그중임계값 18 방송과미디어제 22 권 1 호

TV 드라마비디오스토리분석딥러닝기술 19 은 Sim들의평균과표준편차에의해정한다. C 2 층의노드는등장인물에대응되며 C 1 층과의연결은등장인물들이나타나는장면 (Scene) 에의해결정된다. 본연구에서는비디오의매개이미지- 자막쌍을입력하여딥하이퍼넷의학습과정에서순차적으로시각적언어개념망을만드는동시에에피소드를관찰하면서순차적베이지안추론에의해개념망의이미지- 자막쌍을업데이트한다. (7) 이진벡터 r, w는이미지조각과단어의특징벡터이고 c 1, c 2 는노드의존재여부를판단한다. e 는하이퍼에지들의집합이고 α는에지들의가중치이다. 파라미터 θ(e,α) 와 c 1, c 2 가주어졌을때 (7) 의수식으로학습이진행된다. P t 는 t번째에피소드에대한매개변수의확률분포이다. t번째에피소드를관찰하였을때사전확률분포 P t-1 (θ) 는우도와표준값을계산함으로써사후확률분포를업데이트한다. 자세한학습과정은 [17] 에서소개 하였다. 2. 비디오정보추출등장인물인식방법 : 이절에서는딥러닝기술을활용하여드라마영상에서등장인물을인식한결과를소개한다. 먼저 TV 드라마속의얼굴을검출기를이용하여장면속얼굴영역을검출한다. 검출된얼굴을인식하기위하여본연구에서는 2012 년 R. Socher 등이제안한컨볼루션 -재귀신경망 (Convolutional - recursive neural network, CNN-RNN)[18] 을적용하였다. 미국 TV 드라마 Friends 의등장인물총 6명의얼굴이미지총 6000 장을수집하여학습한결과 89% 의인식률을보였다. 장소분류방법 : 본연구에서는장소를분류하기위해 Bag of features(bof) 모델을사용한다. Bof모델은각장소이미지를고유특징벡터 (Eigenvectors) 의집합으로정의하고특징벡터들의분포를학습하여분류하는기술이다. TV 드라마에서주로등장하는 7개장소이미지에서각각 200개의학습데이터와 100개의테스트데이터를선정하였다. 장소분류실험을한결과 77.0% 의인식률을 Concept Layer 3 Abstract Sandwich Multiple Concept Layers Sparse Population Code Layer e Concept Layer 2 e e e e e e e e e e e e e Concept Layer 1 Concrete Microcode Population Party W Birthday W r Movie W r Fashion W W Dinner W r r W W W W W W W r r r r r Observable Variables (Patches, Words) r < 그림 12> 딥하이퍼넷학습모델구조도

20 특집 : 딥러닝기반방송미디어기술 < 그림 13> TV 드라마 Friends 등장인물사이의연관성분석결과 보였다. 3. 데이터전처리과정실험대상으로서 TV 드라마 Friends 의 183편에피소드, 총 4400 분분량의비디오데이터를사용하였다. 전체비디오는자막의출현시간을기준으로이미지프레임을추출하여약 6M개의이미지-자막쌍의데이터로변환하였다. 등장인물인식과장소분류방법을통해시각정보를추출하였고의자, 램프, 컵등기타물체인식은 R-CNN 모델 [19] 을적용하여이미지조각을생성하였다. 이미지조각은 4096 차원의컨볼루션신경망특징벡터로표현한다. 출현된자막은단어 (Word) 단위로 Word2vec[20] 을적용하여 200차원의실수벡터로변환하였다. 4. TV 드라마스토리분석 이절에서는딥하이퍼넷의학습을통해구축된지식망을이용하여 TV 드라마속등장인물의관계를분석한실험결과를소개한다. < 그림 13> 은등장인물의연관성을분석한실험결과이다. 그래프에서두인물사이에연결된선의개수는그들이공유하는하이퍼에지의개수를표시하고각등장인물에표시된히스토그램은기타인물과공유하는하이퍼에지들의가중치의합이다. 즉통계값이높을수록연관성이높음을의미한다. 그래프를보면드라마 10편의인물관계에비해 49편까지학습한등장인물사이의연관성은상대적으로높아졌음을확인할수있다. 이런정보는드라마속의인물등장비율, 대본의양, 인물중요성등기타관련정보를추측하는데정량적인근거가될수있다. 또한학습한지식을이용하여비디오묘사글검색문제에적용할수있다. < 그림 14> 는비디오스토리묘사글검색과정과실험결과예시이다. 20 방송과미디어제 22 권 1 호

TV 드라마비디오스토리분석딥러닝기술 21 < 그림 14> 비디오스토리에대한묘사글검색문제예시 Ⅴ. 요약및결론 본고에서는비디오분석연구를위한대용량비디오데이터셋과대표적인딥러닝기술을살펴보았다. 비디오와같은다중모달데이터를다루기위한영상처리기법과언어처리기법의최신연구동향을정리하고본연구진의 TV 드라마분석연구를 통해실제응용사례를소개하였다. 딥러닝기술의발전과컴퓨팅능력의향상은비디오와같은대용량데이터를분석하는데기술적인배경이되었다. 이러한동향을바탕으로비디오스토리의학습에필요한데이터또한점차풍부해질것으로기대되며, 앞으로도보다혁신적인후속연구가계속나올것으로기대된다. 2017 년 1 월 21

22 특집 : 딥러닝기반방송미디어기술 참고문헌 참고문헌 [1] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. pp. 1725-1732. (2014) [2] I.-H. Jhuo and D.T. Lee. Video event detection via multi-modality deep Learning. In Proceedings of International Conference on Pattern Recognition. pp. 666-671. (2014) [3] D. Tran, L. Bourdev, R. Fergus, L. Torresani and M. Paluri. C3D: Generic features for video analysis. arxiv preprint arxiv:1412.0767. (2014) [4] C.-J. Nan, K.-M. Kim and B.-T. Zhang. Social network analysis of TV drama characters via deep concept hierarchies. In Proceedings of International Conference on Advances in Social Networks Analysis and Mining. pp. 831-836. (2015) [5] K. Kim, C. Nan, M.-O. Heo, S.-H. Choi and B.-T. Zhang. PororoQA: Cartoon video series dataset for story understanding. In Proceedings of NIPS 2016 Workshop on Large Scale Computer Vision System. (2016) [6] A. Krizhevsky, I. Sutskever and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Proceedings of Advances in neural information processing systems. (2012) [7] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arxiv preprint arxiv:1409.1556. (2014) [8] C. Szegedy, W. Liu, W., Y. Jia, P. Sermanet, S. Reed, D. Anguelov and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 1-9. (2015) [9] K. He, X. Zhang, S. Ren and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2016) [10] I. Goodfellow, J. Pouget-Abadie et al. Generative adversarial nets. In Proceedings of Advances in Neural Information Processing Systems. pp.2672-2680. (2014) [11] A. Radford, L. Metz, and S. Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. In Proceedings of International Conference on Learning Representations. (2015) [12] A. Graves, A. Mohamed, G. Hinton. Speech recognition with deep recurrent neural networks. In Proceedings of 2013 IEEE international conference on acoustics, speech and signal processing. pp. 6645-6649. (2013) [13] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural Comput. vol. 9. pp. 1735-1780. (1997) [14] K. Cho, B. Van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H Schwenk and Y. Bengio. Learning phrase representations using RNN encoder-decoder for statistical machine translation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. (2014) [15] http://benjamin.wtf [16] O. Vinyals, A. Toshev, S. Bengio and D. Erhan. Show and tell: A neural image caption generator. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 3156-3164. (2015) [17] J.-W. Ha, K.-M. Kim and B.-T. Zhang. Automated construction of visual-linguistic knowledge via concept learning from cartoon videos. In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. pp. 522-528. (2015) [18] R. Socher, B. Huval, B. Bath, C. D. Manning and A. Y. Ng. Convolutional-recursive deep learning for 3D object classification. In Proceedings of Advances in Neural Information Processing Systems. pp. 665-673. (2012) [19] R. Girshick, J. Donahue, T. Darrell and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of International Conference on Pattern Recognition. pp. 580-587. (2014) [20] T. Mikolov, I. Sutskever, K. Chen, G. Corrado and J. Dean. Distributed representations of words and phrases and their compositionality. In Proceedings of Advances in Neural Information Processing Systems. pp. 3111-3119. (2013) 22 방송과미디어제 22 권 1 호

TV 드라마비디오스토리분석딥러닝기술 23 필자소개 남장군 - 2014 년 : Harbin Engineering University 전자정보공학부학사 - 2014 년 ~ 현재 : 서울대학교컴퓨터공학부석사과정 - 주관심분야 : 기계학습, 컴퓨터비전, 인지과학 김진화 - 2011 년 : 광운대학교컴퓨터소프트웨어학과학사 - 2015 년 : 서울대학교협동과정인지과학전공석사 - 2015 년 ~ 현재 : 서울대학교협동과정인지과학전공박사과정 - 주관심분야 : 딥러닝, 주의기반인지시스템 김병희 - 2003 년 : 서울대학교컴퓨터공학부학사 - 2006 년 : 서울대학교컴퓨터공학부박사과정수료 - 2006 년 : 독일베를린공대방문연구원 - 2006 년 ~ 현재 : 서울대학교컴퓨터공학부연구원 - 주관심분야 : 기계학습기반인공지능, 딥러닝, 순서정보학습및생성 장병탁 - 1986 년 : 서울대학교컴퓨터공학과학사 - 1988 년 : 서울대학교컴퓨터공학과석사 - 1992 년 : 독일 Bonn 대학교컴퓨터과학박사 - 1992 년 ~ 1995 년 : 독일국립정보기술연구소연구원 - 1997 년 ~ 현재 : 서울대학교컴퓨터공학부교수및인지과학, 뇌과학, 생물정보학협동과정겸임교수 - 2003 년 ~ 2004 년 : MIT 인공지능연구소 (CSAIL) 및뇌인지과학과 (BCS) 객원교수 - 2007 년 ~ 2008 년 : 삼성종합기술연구원 (SAIT) 객원교수 - 현재 : 서울대학교인지과학연구소소장, Applied Intelligence, BioSystems, Journal of Cognitive Science 등국제저널편집위원 - 주관심분야 : 바이오지능, 인지기계학습, 분자진화컴퓨팅기반뇌인지정보처리모델링 2017 년 1 월 23