3 : (Special Paper) 21 4, 2016 7 (JBE Vol. 21, No. 4, July 2016) http://dx.doi.org/10.5909/jbe.2016.21.4.525 ISSN 2287-9137 (Online) ISSN 1226-7953 (Print) a), a), a), a) Development of Online Video Mash-up System based on Automatic Scene Elements Composition using Storyboard Jongbin Park a), Kyung-Won Kim a), Jong-Jin Jung a), and Tae-Beom Lim a).,,... Abstract In this paper, we develop an online video mash-up system which use automatic scene elements composition scheme using a storyboard. There are two conventional online video production schemes. Video collage method is simple and easy, but it was difficult to reflect narrative or story. Another way is a template based method which usually select a template and it replaces resources such as photos or videos in the template. However, if the related templates do not exist, there are limitations that cannot create the desired output. In addition, the quality and atmosphere of the output is too dependent on the template. To solve these problems, we propose a video mash-up scheme using storyboard and we also implement a classification and recommendation scheme based on topic modeling. Keyword : Storyboard, Video Mash-up, Scene composition, Topic Modeling, Template a) (Korea Electronics Technology Institute) Corresponding Author : (Jongbin Park) E-mail: jpark@keti.re.kr Tel: +82-2-6388-6699 ORCID: http://orcid.org/0000-0002-6123-5300 (IITP) SW. [ (B0101-16-0559), SW ] 2016 IWAIT 2016. Manuscript received March 23, 2016; Revised June 10, 2016, Accepted June 10, 2016.
(JBE Vol. 21, No. 4, July 2016).,,,, [1-3]..., [4]. (Filter effect) (Transition effect). [4]. [5-8].. [5]..... LSI(Latent Semantic Indexing). (User context),. UI... II, III. IV, V.. 1. 1 [8].,,.. [8].
3 : 1. [8] Fig. 1. Concept of previous online video making framework [8] [8],. 2..,, [9]. [10]. [11,12].., [11,12]., [11,12]... 3. MLT MLT(Media Lovin' Toolkit), 2 3 [13]. MLT [13]. API,,,, [13]. MLT LGPL., [13]., MLT
(JBE Vol. 21, No. 4, July 2016). 4. [8]. (Scene template) (1)., (2). (Text String). [8] LSA(Latent Sematic Analysis/Indexing) [14]. LSA (Vector Space) SVD(Singular Value Decomposition) (Topic),, [14,15].., (similarity) (6) (Cosine similarity)., 1, 0, 1. cos (3),,,.. 1. (4) (5). MLT XML.,. [8] (1), (3), (4). 2.,, [8]. [8],,,,,., 20,. (dictionary) (none) [8].,
3 :. 2 (Storyboard) UI.,,, JSON(JavaScript Object Notation). 2 JSON.. 3. 3 (Scene Template), (Resource), (Background Music), (Filter Effect), (Mask Effect). 5. - (1), (2), (3) -. 2. 2. JSON Fig. 2. Example of a JSON format data for storyboard representation,,,, 3. Fig. 3. Flowchart of proposed video mash-up scheme
(JBE Vol. 21, No. 4, July 2016) 4. Fig. 4. Example of Interface between storyboard and scene elements.,. 4. 4 (Scene),,,. (Storyboard Scene) (Scene Element) (RegularTags) (IrregularTags).. (Dictionary) [8].. 4. 4 Opening,FadeIn. Opening FadeIn. [8]. 5 (Entire Set of Specific Scene Elements),. 5. Fig. 5. Example of scene elements extraction using RegularTags and IrregularTags
3 : LSA. TF-IDF LDA [14-16]. 5.,,,. 6. 6 2,, rtag, itag. 6 {rtag: Opening, rtag: MainBody,..., rtag: MainBody, rtag: Ending, rtag: BGM, rtag: Filter, rtag: Mask }. rtag Opening rtag Opening. itag itag (6) Opening. MainBody, Ending..,,,,,,,,.,,. 6 rtag BGM, Filter, Mask,,, itag. (Opening), (Main Body), (Ending) 6. Fig. 6. Example of Selection of Scene Templates and Composition of Video Tracks
(JBE Vol. 21, No. 4, July 2016). 10.. 1. 7,. (1), (2), (3). (Front-page) UI(User Interface)., PHP MariaDB. (Rendering Queue) (Job) (Idle State)., 3GHz CPU, 8GByte 30 3 ~6. CMS(Contents Management Server). 8 JSON 5. MLT XML,,,. 8 bgm, filters,. 1,. (Grayscale), (Oldfilm), (Sepia) MLT 7. Fig. 7. System Configuration for the Proposed Service
3 : 8. JSON Fig. 8. Example of a JSON file for scene templates composition 100 [13]. 9 MLT. 1 2,,,., <mlt> </mlt> <producer id="producer0"> <property name="resource">./res/01.jpg</property> </producer> <producer id="producer1"> <property name="resource">./res/02.jpg</property> </producer> <playlist id="playlist0"> <entry producer="producer0" in="0" out="49" /> <blank length="50" /> </playlist> <playlist id="playlist1"> <blank length="50" /> <entry producer="producer1" in="0" out="49" /> </playlist> <tractor id="tractor0"> <multitrack> <track producer="playlist0" /> <track producer="playlist1" /> </multitrack> </tractor> <producer in="0" out="99" id="audio_bgm"> <property name="resource">./audio/in_tune.mp3</property> </producer> <playlist id="playlist_audio"> <entry producer="audio_bgm" /> </playlist> <tractor id="tractor1"> <multitrack> <track hide="audio" producer="tractor0" /> <track hide="video" producer="audio_bgm" /> </multitrack> <filter> <property name="mlt_service">watermark</property> <property name="resource">../watermark1.png</property> </filter> <filter> <property name="track">0</property> <property name="mlt_service">greyscale</property> </filter> </tractor> 9. MLT XML Fig. 9. Example of composed MLT XML data
534 방송공학회논문지 제21권 제4호, 2016년 7월 (JBE Vol. 21, No. 4, July 2016) 본 구성은 그림 9와 동일하여 복잡한 MLT구조에서도 파싱 및 요소 값의 변경을 통해 장면요소 간 조합 및 필터추가가 가능하다. 그림 10은 사용자정보, 사용자의도 정보 등이 비정형메 타태그 형태로 입력되었을 때 이를 단어 단위로 구분한 예 이다. 구분된 단어들은 하나의 단어 집합으로 구성하여 스 토리보드의 장면과 장면요소들을 연결하는데 사용한다. 그 림 10의 예시에서는 Cafe, Coffee, Americano, LowPrice, Cafe, Icecream, Dessert, Seoul, BundangGu, Silent, Warm, Sweet, Location, Menu, Price, Happy, Daily, Cost, Night, 라는 단어가 단어 집합으로 구 성되었으며, 이를 기 확보된 장면템플릿의 집합에 질의를 하면 그림 11과 같이 유사도에 따라 결과가 출력됨을 확인 할 수 있다. 유사도(Similarity) 값은 [8]의 주제모델링 방식 MidNight, Xmas, Christmas 그림 11. 주제모델링 방법[8]을 사용하여 추천된 장면템플릿 예 Fig. 11. Example of Recommended Scene Templates 그림 10. 전략메타정보의 예 Fig. 10. Example of the Strategic Meta Information 의 분류 및 추천 방법을 사용함에 따라 식 (6)과 같이 코사 인 유사 방법으로 계산된다. 추천된 장면템플릿을 살펴보
박종빈 외 인 스토리보드에 따라 장면요소를 자동 조합하는 주제모델링 기반 온라인 비디오 매쉬업 시스템 개발 535 3 : 그림 12. 장면요소들의 조합방법으로 생성한 출력 비디오 예시 Fig. 12. Example of Output Video using Scene Element Composition 면 Cafe, Dessert, Location, Menu, Xmas 와 같은 주제와 부합함을 확인할 수 있다. 이런 과정을 통해 최종 합성된 영상의 예시는 그림 12에 나타내었다. 제안방법을 서비스 제공의 편의성과 결과물의 다양성 측 면에서 분석하면 기존 방식으로는 전문디자이너가 30초 분 량의 장면 장면템플릿 1건을 새롭게 만들기 위해 평균 30시 간 정도의 디자인 시간을 요구했다. 또한 이를 주제에 따라 수정하는 작업도 4~8시간을 필요로 했다. 그러나 제안방법 을 이용하는 경우 초기 장면템플릿들을 디자인하는데 소요 되는 시간은 비슷했지만, 이를 스토리보드에 따라 자동으 로 재조합하여 사용할 수 있기 때문에 결과물의 재생 시간 을 쉽게 조절할 수 있었다. 결과물의 다양성 확보를 위해 본 논문에서는 30초 분량의 장면템플릿 30개를 제작했으 며, 이를 활용하여 5~10초 분량의 조합용 템플릿들을 Opening, Main Body, Ending 으로 구분하여 각각 10 개씩을 제작했다. 3가지로 구분된 장면템플릿들을 무작위 조합하여 영상 합성을 수행하면 이론상으로는 1,000개의 다른 결과물이 만들어 질 수 있고, 길이를 늘이면 조합의 수는 훨씬 늘어나게 된다. 하지만 템플릿 자체가 특정 업종 에 특화된 경우에는 조합된 결과가 원래의 목적에 부합하 지 못하는 경우도 발생한다. 예를 들어 미용실 소개용 장면 템플릿이 음식점 관련 영상에 사용되는 경우에는 주관적으 로 느껴지는 품질과 만족도가 크게 감소했다. 이런 부수효 과를 고려하여 조합의 다양성은 유사도 계산 값을 기반으 로 사용자가 결정하고 상위 유사도 값을 갖는 장면템플릿 을 조합에 사용할 수 있도록 하였다. 본 논문에서 제안하는 방식은 장면요소들을 상호 조합하 고 전환효과, 필터효과, 배경음악을 추가할 수 있도록 함을 특징으로 한다. 이 기능은 하나로 구성된 완성형 템플릿뿐 만 아니라 본 논문에서 제안한 스토리보드에 따라 조합된 콘텐츠에 대해서도 적용할 수 있다. 이러한 특징적 요소가 전체 성능에 미치는 영향을 확인하기 위해 기술 개발에 직 접 참여하지 않은 9명의 피실험자에 대해서 설문 방식으로 만족도 조사를 수행했다. 질문은 크게 2가지로써, 제안방법 에 의해 동영상의 품질이 더 좋아졌는지를 질문하는 문항 에 { 더 나빠졌다 (0점), 거의 비슷하다 (5점), 더 좋아졌 다 (10점)}는 답변 중에서 선택하게 하고, 목표로 하는 콘 텐츠에 대한 스토리와 목적 강조 효과를 확인하기 위해 어 떤 목적을 가지고 만들어진 것 같느냐는 질문에 대해 { 모 르겠다 (0점), 약간 느껴진다 (5점), 확실히 느껴진다 (10점)}라는 답변 중에서 선택하도록 했다. 실험에 사용한 콘텐츠는 그림 11에서 카페 영상을 대조군 영상으로 하여, 그림 12와 같이 크리스마스 시즌을 감안하여 눈이 내리는 효과 및 워터마크, 크리스마스 캐럴 배경음악을 추가한 실 험군 영상을 사용했다. 실험결과 콘텐츠 만족도는 평균 2.8 점으로써 원본 영상 보다 나빠졌다는 의견이 많았다. 특히 자동으로 부가한 워터마크가 당초의 디자인 품질을 저해하 고 이를 해결하기 위해 전문 디자이너가 만든 콘텐츠 요소 가 더해진다면 품질 향상도 가능하겠다는 의견이 있었다. 목적 강조 효과와 관련해서는 응답 평균이 5.0점을 보임으 로써 다수의 피실험자가 실험군 영상에 대해서 의도와 목 적을 느낄 수 있다고 답했다. 제한된 실험 환경에서의 설문 이었지만 콘텐츠 디자인의 중요성을 재확인 했다. 만족도 분석은 보다 다양한 콘텐츠와 다수의 사용자 피드백 정보 가 필요하고 이를 객관적으로 분석해야 하는 도전적인 문 제이다. 현재 서비스 품질 개선 및 안정성 향상을 위한 작업
(JBE Vol. 21, No. 4, July 2016)...,,... (References) [1] E. Jung, J. Choi, Y. Shon, "Influence of advertising type and gender on advertising effectiveness: The efficacy of storytelling advertising", Korean Journal of the science of Emotion & sensibility, pp.489-502, 2012 [2] Michael Miller, YouTube for business: Online video marketing for any business, 2nd Edition, Pearson Education, 2011 [3] David Meerman Scott, The new rules of marketing and PR: how to use social media, blogs, news releases, online video, and viral marketing to reach buyers directly, John Wiley & Sons, 2009 [4] Beaver, Frank Eugene, Dictionary of Film Terms: The Aesthetic Companion to Film Art., Peter Lang Publishing. pp. 46. ISBN 978-0-8204-7298-0, 2006 [5] Nemo Nemo TV, http://nemonemo.tv/web/main.php [6] J. Park, M. Park, K. Kim, J. Jeong, J. Lee, and T. Lim, Development of Cloud-based Service Framework for Promotional Video Synthesis, KICS, 2015 Winter Conference, pp. 795-796, 2015 [7] J. Park, K. Kim, J. Jeong, and T. Lim, "Development of Processing Interface for Promotional Video Making System based on MLT Multimedia Framework", 2015 Korean Society of Broadcast Engineers Summer Conference, w2.4-4, pp. 1-2, 2015 [8] J. Park, H. Lee, K. Kim, J. Jung, and T. Lim, "Classification and Recommendation of Scene Templates for PR Video Making Service based on Strategic Meta Information", Journal of broadcast engineering(jbe), Vol 20, No. 6, pp. 848-861, 2015 [9] Online Standard Korean Dictionary, http://stdweb2.korean.go.kr/ main.jsp [10] https://en.wikipedia.org/wiki/plot_(narrative) [11] https://ko.wikipedia.org/wiki/ [12] https://en.wikipedia.org/wiki/storyboard [13] MLT Multimedia Framework, http://www.mltframework.org/ [14] Deerwester, Scott C., et al. "Indexing by latent semantic analysis." JAsIs 41.6 pp.391-407, 1990 [15] G. Salton and M. McGill, editors. Introduction to Modern Information Retrieval. McGraw-Hill, 1983 [16] Blei, David M., Andrew Y. Ng, and Michael I. Jordan. "Latent dirichlet allocation." the Journal of machine Learning research 3, pp. 993-1022, 2003-2004 : - 2006 : - 2008 : (CRC) - 2011 : - 2012 : - 2012 ~ : - ORCID : http://orcid.org/0000-0002-6123-5300 - :,,,,
박종빈 외 인 스토리보드에 따라 장면요소를 자동 조합하는 주제모델링 기반 온라인 비디오 매쉬업 시스템 개발 537 3 : 저자소개 김경원 - 년 : 한국외국어대학교 컴퓨터공학과 학사 년 : 한국외국어대학교 컴퓨터공학과 석사 년 : 건국대학교 컴퓨터 정보통신공학과 박사수료 년 ~ 현재 : 전자부품연구원 스마트미디어연구센터 : http://orcid.org/0000-0001-6530-8426 주관심분야 : 메타데이터, 스마트 TV, N-스크린 서비스, 맞춤형방송, 멀티미디어 검색 2001 2003 2013 2004 ORCID 정종진 - 년 : 성균관대학교 정보통신공학부 학사 년 : 성균관대학교 전자전기컴퓨터공학부 석사 년 ~ 현재 : 전자부품연구원 스마트미디어연구센터 : http://orcid.org/0000-0003-3924-8938 주관심분야 : 멀티미디어신호처리, 빅데이터 기반 스마트 서비스, 클라우드 기반 스마트홈 플랫폼 1997 2002 2002 ORCID 임태범 - 년 : 서강대학교 물리학과 학사 년 : 서강대학교 전자계산학과 석사 년 : 대우전자 영상연구소 전임연구원 년 : 건국대학교 컴퓨터공학과 박사 년 ~ 현재 : 전자부품연구원 스마트미디어연구센터장 : http://orcid.org/0000-0003-1173-6606 주관심분야 : 홈네트워크 솔루션, IoT, 클라우드 방송, DTV방송, 맞춤형방송, 멀티미디어 검색, IPTV 1995 1997 2002 2012 2002 ORCID