1: (Special Paper) 24 4, 2019 7 (JBE Vol. 24, No. 4, July 2019) https://doi.org/10.5909/jbe.2019.24.4.553 ISSN 2287-9137 (Online) ISSN 1226-7953 (Print) a), a) Video Highlight Prediction Using Multiple Time-Interval Information of Chat and Eunyul Kim a) and Gyemin Lee a).. LSTM.. e,. Abstract As the number of videos uploaded on live streaming platforms rapidly increases, the demand for providing highlight videos is increasing to promote viewer experiences. In this paper, we present novel methods for predicting highlights using chat logs and audio data in videos. The proposed models employ bi-directional LSTMs to understand the contextual flow of a video. We also propose to use the features over various time-intervals to understand the mid-to-long term flows. The proposed Our methods are demonstrated on e-sports and baseball videos collected from personal broadcasting platforms such as Twitch and Kakao TV. The results show that the information from multiple time-intervals is useful in predicting video highlights. Keyword : Video highlight, Multiple time-interval models, Bi-directional LSTM, Chat logs, a) IT (Dept. of BroadcastingCommunication Fusion Program, Graduate School of Nano IT Design Fusion, Seoul National University of Science and Technology) Corresponding Author : (Gyemin Lee) E-mail: gyemin@seoultech.ac.kr Tel: +82-2-970-6416 ORCID: https://orcid.org/0000-0001-6785-8739 IPIU 2019.. This study was supported by the Research Program of Seoul National University of Science and Technology. Manuscript received April 30, 2019; Revised July 5, 2019; Accepted July 5, 2019. Copyright 2016 Korean Institute of Broadcast and Media Engineers. All rights reserved. This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.
554 방송공학회논문지 제24권 제4호, 2019년 7월 (JBE Vol. 24, No. 4, July 2019) Ⅰ. 서 론 최근 Afreeca TV, Kakao TV, Youtube와 같은 개인방송 플랫폼을 보는 사람들이 증가하면서 축구와 야구 같은 스 포츠부터 e스포츠까지 이들 플랫폼을 통해 중계하는 경우 가 늘어나고 있다. 이와 같은 경기 영상들은 대체로 길이가 길기 때문에 시청자의 편의를 위해 경기의 주최자나 중계 자는 하이라이트 영상을 제작하여 제공하기도 한다. 하지 만 하이라이트 영상을 제작하기 위해서는 전문적인 편집 기술과 장비가 필요하고 시간과 비용이 많이 소요되는 문 제가 있다. 이에 본 논문에서는 영상에서 하이라이트의 위 치를 자동으로 예측하는 방법을 제안한다. 그림 1에서 보이는 것과 같이 대다수의 개인방송 플랫폼은 영상과 채팅이 함께 화면에 자리하며 시청자들은 채팅창에 서 영상에 대한 의견을 함께 나눌 수 있다. 특히 다수의 시청 자가 흥미를 느끼는 부분에서는 채팅창에서도 활발한 의견 교류가 이루어진다. 이러한 경향은 채팅 내역이 하이라이트 예측에 유용할 수 있음을 의미한다. 또한 경기가 진행됨에 따라 해설자와 관중들은 환호하거나 탄식하면서 반응을 하 므로 오디오 역시 영상의 흐름을 파악하는데 중요한 단서를 제공한다고 볼 수 있다. 우리는 이러한 점을 이용하여 채팅과 오디오를 하이라이트 예측에 사용하는 방법을 제시한다. 하이라이트를 추출하는데 있어 고려해야할 또 하나의 사 항은 콘텐츠의 특성에 따라 다른 흐름을 보일 수 있다는 것이 다. 즉, 콘텐츠의 종류에 따라 한 이벤트가 미치는 영향의 시 간적 길이는 차이를 보일 수 있다. 예를 들어, e스포츠의 경우 는 대게 경기가 빠른 속도로 진행되어 현재 발생한 이벤트의 중요도는 즉각적인 전후관계를 파악함으로 판단할 수 있다. 하지만 축구나 야구와 같은 전통 스포츠 경기에서는 대체로 현재 발생한 이벤트가 득점으로 이어지는지 파악하기 위해 서는 중장기적인 흐름을 파악할 필요가 있다. 이에 본 논문은 여러 길이의 시간 정보를 함께 이용하는 다중 시구간 모델을 제안한다. 제안하는 모델은 실제 개인방송 플랫폼에서 중계 된 e스포츠와 야구경기 영상을 이용해 평가한다. Ⅱ. 관련 연구 영상을 요약하거나 하이라이트를 예측하는 방법에 관한 많은 연구가 이루어지고 있다. 대부분의 연구는 영상의 시 각적 정보를 이용하는데 초점을 맞추고 있다. [3]은 영상을 짧은 길이의 세그먼트로 구분하고 세그먼트끼리 비교하여 하이라이트에 포함될 점수를 매긴 후, 점수가 높을 세그먼 트를 하이라이트로 분류하는 방법을 설명한다. Tang 등은 영상을 클립 단위로 나눈 다음 각 클립이 하이라이트인지 판단하기 위해 low-level 시각적 특징(색상 히스토그램과 HOG)을 기반으로 한 이벤트 통계를 추출하는 방법을 제안 하였다. Szegedy 등은 CNN 을 이용해 영상으로부터 시 각적 특징을 추출한 후 LSTM(Long Short-Term Memory) 을 사용해 하이라이트를 찾는 방법을 보였다. 한편 Xiong 등은 스포츠 비디오는 특정 장면에서 관객들 의 함성이 크다는 특징에 주목하여 음향정보를 이용해 하 이라이트를 찾는 방법을 제안한다. 최근에는 자연어 처리 방법을 이용하여 영상을 분석하는 연구도 늘어나고 있다. [8]은 스포츠 영상의 특정 이벤트를 찾기 위해 트위터의 트 윗을 이용하는 방법을 설명하였다. 또한 [9]와 [10]은 시간 동기된 코멘트를 이용하여 하이라이트를 검출하였는데, 각 각 토핑 모델과 concept-emotion mapping 방법을 사용하여 그림 1. 개인방송 플랫폼 구성 (좌: Twitch[1], 우: Kakao TV[2]) [4] Fig. 1. Examples of live streaming platforms (left: Twitch[1], right: Kakao TV[2]) [5] [6] [7]
1:.. [11], [12] LSTM..... Single Time Interval Model(STIM)., Multiple Time Interval Model(MTIM),. 1.. FastText [13], MFCC (Mel Frequency Cepstral Coefficient) [14]. FastText word2vec [15]. FastText (, 1) 300... MFCC., 1, 20..,. 2. STIM 2. STIM Fig. 2. Single Time Interval Model(STIM)
(JBE Vol. 24, No. 4, July 2019). LSTM [16]. LSTM..,. STIM, LSTM... 1. Algorithm 1. STIM Input: feature 1: 2: Output: highlight score BiLSTM LSTM LSTM LSTM.... 3. MTIM..,. MTIM. 3 MTIM. (, 1) LSTM., (, 2) LSTM.,., 1, 2, 120.. MLP(Multi Layer Perception) 2... 3. MTIM Fig. 3. Multiple Time Interval Model(MTIM)
1:. 2. Algorithm 2. MTIM Input: short-term feature, long-term feature 1: 2: 3: 4: Output: highlight score 4... 4(a) STIM, 4(b) MTIM. M-STIM(Multimodal-Single Time Interval Model), M- MTIM(Multimodal-Multiple Time Interval Model). STIM MTIM. 4(a) 2 STIM. M-STIM LSTM, MLP. 3. Algorithm 3. M-STIM Input: chat feature, audio feature 1: 2: 3: 4: Output: highlight score 4(b) short term long term 4(a). M-MTIM LSTM LSTM MTIM MLP ( 4). Algorithm 4. M-MTIM Input: short-term chatting feature, long-term chatting feature, short-term audio feature, long-term audio feature 1: 2: 3: 4: 5: 6: Output: highlight score (a) (b) 4.. (a) M-STIM, (b) M-MTIM Fig. 4. Highlight prediction models using multimodal data. (a) M-STIM, (b) M-MTIM
(JBE Vol. 24, No. 4, July 2019).. e. Twitch Kakao TV. (ground truth). F. F (precision) (recall). ground truth.. MLP. MLP. MLP 2,. 1. e e 2017 Twitch League of Legends 5LoL 2017, IEM 2017, 2017 LoL, 2017 LoL, 2017 LoL 63. 2017 LoL 2017 LoL 7. e OGN, ground truth. 35, 10%. 10%. 63 1. e 1. e Table 1. Summary of e-sports and baseball datasets Type Statistics Video length (sec) Total number of chats Number of chats per second Length of highlights (sec) Highlight ratio (%) e-sports Baseball mean (±std) 2,096.76 (±599.10) 6,429.49 (±4,216.18) 3.08 (±1.92) 213.27 (±70.99) 10.55 (±3.78) max 47,850 14,145 5.96 469 22.30 min 1,483 2,495 1.22 146 9.84 mean (±std) 12,175.39 (±1,176.13) 15,572.32 (±4,216.18) 1.27 (±0.38) 599.25 (±225.34) 4.95 (±1.93) max 14,866 24,796 1.98 1,361 12.59 min 9,909 5,562 0.53 76 0.61
1: (a) Ground truth (b) STIM (chat) (c) STIM (audio) (d) M-STIM (chat and audio) 5. e ( :, : ) Fig. 5. Experiment results on an e-sports test video (blue: highlight locations, red: highlight score) STIM. 5. 1, 0. 5(b) 5(c) ground truth 5(a) 230. M-STIM 5(d) 5(a). 7 2. MLP. LSTM. MLP,.... MLP.,. STIM F 44.99 63.19. M-STIM 65.64.,.
(JBE Vol. 24, No. 4, July 2019) 2. e 7 Table 2. Experiment results on e-sports data Data type Model Precision Recall F Chat Chat + MLP 12.71 15.59 13.92 STIM 49.36 41.69 44.99 MLP 42.63 50.97 46.17 STIM 69.58 58.44 63.19 MLP 33.17 39.39 35.83 Simple STIM 66.23 55.54 60.09 M-STIM 71.96 60.90 65.64 (simple STIM). M-STIM LSTM. 2. Simple STIM F 60.09, M-STIM 65.64 M-STIM. M-STIM. 2. 2018 4 5 Kakao TV 28. 5 ground truth. 3 20, 5% 10., (a) Ground truth (b) STIM (chat) (c) STIM (audio) (d) M-STIM (chat and audio) (e) M-MTIM (chat and audio) 6. (2000~4000, :, : ) Fig. 6. Experiment results on a baseball video (2000~4000sec, blue: locations of highlights, red: highlight score)
1:. 28 1. 6 (2000~4000). 6(b) 6(c) 2740 3090, 3400,. M-STIM 6(d) 6(a). M-MTIM 6(e) 6(c) 2250 3340 ground truth. 3 5. e MLP. 3 MLP F 30.. STIM, 30.59, 45.84. M-STIM F 47.20,. 3.. M-MTIM 51.48.. 3. 5 Table 3. Experiment results on baseball data Data type Model Precision Recall F Chat Chat + Model MLP 29.79 13.11 18.16 STIM 29.20 32.32 30.59 MTIM 30.09 32.74 31.28 MLP 43.71 19.20 26.60 STIM 43.23 49.17 45.84 MTIM 46.25 53.01 49.23 MLP 32.56 14.30 19.81 Simple STIM 41.94 47.42 44.33 M-STIM 44.48 50.64 47.20 M-MTIM 48.57 55.20 51.48 4. F Table 4. F scores evaluated for various long-term intervals Long term interval Chat Chat + STIM - 30.59 45.84 47.20 MTIM 1min 20.02 43.63 48.55 2min 21.32 47.84 51.48 3min 22.22 44.94 45.88 4min 19.50 49.23 48.36 5min 23.26 48.54 46.33 6min 31.28 47.60 48.86 7min 20.60 48.20 47.99 3. MTIM MTIM. 1. 4.,
(JBE Vol. 24, No. 4, July 2019) 2 M-MTIM F. 1 2.. 6, 4.. 4..... LSTM.,..,... (References) [1] Twitch, https://www.twitch.tv/ (accessed Mar. 08, 2019). [2] Kakao TV, https://tv.kakao.com/ (accessed Mar. 08, 2019). [3] M. Sun, A. Farhadi, and S. Seitz, Ranking Domain -specific Highlights by Analyzing Edited Videos, European Conference on Computer Vision, Zurich, Switzerland, pp. 708-802, 2014, doi:10.1007/978-3-319-10590-1_51. [4] H. Tang, V. Kwatra, ME. Sargin, and U. Gargi, "Detecting highlights in sports videos: Cricket as a test case," IEEE International Conference on Multimedia and Expo, Barcelona, Spain, pp. 16, 2011, doi:10.1109/icme.2011.6012139. [5] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, Going deeper with convolutions, The IEEE Conference on Computer Vision and Pattern Recognition, Boston, Massachusetts, pp. 1-9, 2015, doi: 10.1109/ CVPR.2015.7298594. [6] K. Zhang, WL. Chao, F. Sha, and K. Grauman, Video Summarization with Long Short-term Memory, European Conference on Computer Vision, Amsterdam, Netherlands, pp. 766-782, 2016, doi:10.1007/ 978-3-319-46478-7_47. [7] Z. Xiong, R. Radhakrishnan, A. Divakaran, and TS. Huang, Highlights extraction from sports video based on an audio-visual marker detection framework, IEEE International Conference on Multimedia and Expo, Amsterdam, Netherlands, pp. 29-32, 2005, doi:10.1109/icme.2005.1521352. [8] LC. Hsieh, CW. Lee, TH. Chiu, and W. Hsu, Live semantic sport highlight detection based on analyzing tweets of twitter, IEEE International Conference on Multimedia and Expo, Melbourne, Australia, pp. 949-954, 2012, doi:10.1109/icme.2012.135. [9] J. Li, Z. Liao, C. Zhang, and J. Wang, Event Detection on Online Videos using Crowdsourced Time-Sync Comment, International Conference on Cloud Computing and Big Data, Macau, China, pp. 52-57, 2016, doi:10.1109/ccbd.2016.021. [10] Q. Ping, C. Chen, Video Highlights Detection and Summarization with Lag-Calibration based on Concept-Emotion Mapping of Crowd-sourced Time-Sync Comments, Empirical Methods in Natural Language Processing, Copenhagen, Denmark, pp. 1-11, 2017, doi:10.18653/v1/w17-4501. [11] E. Kim, G. Lee, "Highlight Detection in Personal Broadcasting by Analysing Chat Traffic : Game Contests as a Test Case," Journal of Broadcast Engineering, Vol.23, No.2, pp.218-226, 2018, doi: http://dx.doi.org/10.5909/jbe.2018.23.2.218. [12] CY. Fu, J. Lee, M. Bansal, and AC. Berg, Video Highlight Prediction Using Audience Chat Reactions, Empirical Methods in Natural Language Processing, Copenhagen, Denmark, pp. 972-978, 2017. [13] A. Joulin, E. Grave, P. Bojanowski, and T. Mikolov, Bag of Tricks for Efficient Text Classification, European Chapter of the Association for Computational Linguistics, Valencia, Spain, pp. 427-431, 2016, doi:10.18653/v1/e17-2068. [14] S. Davis, P.Mermelstein, Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken
김은율 외 명 채팅과 오디오의 다중 시구간 정보를 이용한 영상의 하이라이트 예측 563 1 : Sentences, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol.28, No.4, pp.357-366, 1980, doi:https://doi.org/ 10.1109/tassp.1980.1163420. [15] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient Estimation of Word Representations in Vector Space, Journal of Biomedical Science and Engineering, Vol.9, No.1, pp.7-16 2016 [16] S. Hochreiter, J. Schmidhuber, Long short-term Memory, Neural Computation, Vol.9, No.8, pp.1735-1780, 1997, doi:10.1162/neco. 1997.9.8.1735. 저자소개 김은율 년 서울과학기술대학교 전자 미디어공학과 학사 년 현재 서울과학기술대학교 나노 디자인융합대학원 정보통신미디어공학전공 석사과정 주관심분야 머신러닝 딥러닝 신호처리 - 2017 : IT - 2017 ~ : IT - ORCID : https://orcid.org/0000-0001-9023-7834 :,, 이계민 - 년 : 서울대학교 전기공학부 학사 년 : University of Michigan EECS 석사 년 : University of Michigan EECS 박사 년 ~ 2012년 : University of MichiganResearch Fellow 년 ~ 현재 : 서울과학기술대학교 전자IT미디어공학과 부교수 : https://orcid.org/0000-0001-6785-8739 주관심분야 : 머신러닝, 신호처리, 의료정보학 2001 2007 2011 2011 2013 ORCID