75 특집 딥러닝기반방송미디어기술 글로벌라이프로그미디어클라우드개발및구축 Global lifelog media cloud development and deployment 송혁, 최인규 *, 이영한, 고민수, 오진택 **, 유지상 * / 전자부품연구원, * 광운대학교, ** 판도라티비 요약글로벌라이프로그미디어클라우드서비스를위하여네트워크기술, 클라우드기술멀티미디어 App 기술및하이라이팅엔진기술이요구된다. 본논문에서는미디어클라우드서비스를위한개발기술및서비스기술개발결과를보였다. 하이라이팅엔진은표정인식기술, 이미지분류기술, 주목도지도생성기술, 모션분석기술, 동영상분석기술, 얼굴인식기술및오디오분석기술등을포함하고있다. 표정인식기술로는 Alexnet을최적화하여 Alexnet 대비 1.82% 우수한인식성능을보였으며처리속도면에서 28배빠른결과를보였다. 행동인식기술에있어서는기존 2D CNN 및 LSTM에기반한인식방법에비하여제안하는 3D CNN 기법이 0.8% 향상된결과를보였다. 판도라티비는클라우드기반라이프로그동영상생성서비스를개발하여현재테스트서비스를진행하고있다. Ⅰ. 서론 멀티미디어콘텐츠를분석하여이해하는이미지분석, 동영상분석및오디오분석기술은오래전부터많은연구자들이관심을가져온영역이다. 오랜시간동안꾸준한연구를통하여그성능은지속적으로향상되어왔으나실용화되기에는부족한수준이었다. 최근딥러닝을이용한영상분석기술이하드웨어기술의발전에힘입어급속히발전되고널리퍼지고있다. 구글은고양이얼굴을 1,000 개의컴퓨터를이용하여판별해내기시작하였으며, P.sermanet et al. 은 Kaggle competition 에서개와고양이를구분하는수준으로성능을높였다 [1-2]. 음성분야에서딥러닝을이용한성능은매우우수하며 Deng, L et al. 은음성인식오류율을 1.5% 이하로줄였다 [3]. 본논문은미래창조과학부 SW 컴퓨팅산업원천기술개발사업 ( 과제번호 R0190-16-1115) 을지원받아수행한결과입니다. 2017 년 1 월 75
76 특집 : 딥러닝 기반 방송미디어 기술 딥러닝을 이용한 멀티미디어 콘텐츠 분석 기술을 이 용한 응용 분야는 매우 다양하다. 방송, 모바일 응용, 자동으로 인식/처리하고 테마 기반 플랫폼을 활용한 디 지털 라이프로그 형태의 서비스를 개발하였다. 로봇, 자동차, 소셜미디어 등에서 활용 가능하며 본 논 본 논문은 본론에서 라이프로그 플랫폼에 포함된 문에서는 미디어 클라우드 플랫폼 상에서 멀티미디어 지능형 하이라이팅 엔진과 이를 처리하기 위한 클 분석 기술을 통한 라이프로그 서비스를 제공하는 시스 라우드 서비스를 설명하며 결론에서 연구 결과를 템을 설명한다. 미디어 라이프로그 서비스는 개인 또는 상용화하기 위한 방안을 제시한다. 대용량 클라우드에 저장된 개인의 사진, 동영상 및 오 디오 정보를 활용하여 자동으로 데이터의 분류 및 멀티 Ⅱ. 본 론 미디어 데이터를 생성하여 제공하는 서비스를 의미한 다. 판도라티비와 전자부품연구원에서는 글로벌 미 디어 클라우드 플랫폼 기반 개인 멀티미디어 콘텐츠를 본 연구에서 <그림 1>에서 보는바와 같이 클라우 <그림 1> 글로벌 라이프로그 미디어 클라우드 서비스 구성도(Global lifelog media cloud service) 76 방송과 미디어 제22권 1호
글로벌라이프로그미디어클라우드개발및구축 77 드서비스를위한기능을가지는플랫폼을개발하였다. 본서비스의기능은크게하이라이팅기능, 편집기능그리고뷰어기능이다. 하이라이팅엔진은멀티미디어분석기술을이용하여이미지, 동영상및오디오의콘텐츠에포함된내용을이해하여활용가능한데이터를추출하는모듈이며편집기능은서버및모바일단말에서사용자에자동으로편집동영상을제공또는직접편집가능하도록하며뷰어에서는사용자와의관계및라이프로그를보여준다. 하이라이팅기능은지능형분석하이라이팅엔진에서기능을수행하며편집및뷰어기능은단말및서버에서기능을수행한다. 1. 지능형분석하이라이팅엔진 1) 하이라이팅모듈하이라이팅모듈은크게클라이언트와클라우드서버로구성되어있으며각모듈의기능은 < 그림 2> 와같다. 클라이언트는모바일디바이스, 또는 PC이며멀티미디어데이터의획득및저수준의영상분석을수행한다. 클라이언트에서수행하는기능은이미지분석, 비디오분석및오디오분석이며이미지분석은얼굴검출, 표정인식및메타데이터분석이다. 비디오분석은비디오파일에포함된메타데이터를추출한다. 오디오분석은오디오파일에포함된태그를추출한다. 클라우드서버역시이미지분석, 비디오분석및오디오분석기능이며대부분의기능은클라우드서버에서수행한다. 클라우드서버에서수행하는세부기술은영상분류, 주목도지도생성, 객체검출, 모션분석, 컷검출, 키프레임분석, 행동인지, 표정인식, 그리고오디오분할이다. 대부분의기술은딥러닝기술을활용하여구현하였다. 2) 이미지분석모듈 - Image classification 미디어클라우드하이라이팅서버에서이미지분 < 그림 2> 하이라이팅모듈기능도 (Functions in highlighting module) 2017 년 1 월 77
78 특집 : 딥러닝기반방송미디어기술 석모듈의기능은입력된이미지데이터를분석하여이미지데이터를분류하고이미지내에포함된객체를인식하며주목도지도를생성한다. 결과데이터는메타데이터로저장이되며영상생성모듈에서분류된데이터를활용하여동영상을생성한다. 이미지분석모듈은 CNN 기반학습모델을활용하여정확도를높였다. Pretrain 된학습모델은 Imagenet 을이용하여학습되었으며목표하는이미지카테고리데이터를부가학습하여성능을향상시켰다. 얼굴, 해변, 책, 커피, 잔디, 단풍, 눈, 자동차, 개및하늘등 10개의카테고리로구분하였다. 산하여얻는다. 입력영상의모든영역에 basis 함수를곱해 79개의특징지도를얻는다. 커널밀도추정에의해특징지도의각계수값들을이용하여확률분포를얻을수있으며, 이를이용하면각화소의우도값을계산할수있다. 각특징지도들의같은화소위치의우도값들을이용하여결합우도를계산하며, 이는 Shannon 의정리에의해 self-information 값으로변환할수있다. 이 self-information 값이각화소위치의주목도값이된다. 해상도별화질별다양한영상을이용하여 < 그림 3> 과같이결과테스트를진행하였다. - Saliency region detection 라이프로그동영상을생성하기위해필요한정보로는이미지의분류정보및콘텐츠에포함된객체정보뿐아니라다양한테마에기반한모션이포함된동영상을생성하기위해서주목도지도가필요하다. 주목도지도는 Local Image Patch 를이용하여연산되며 79개의 basis 함수를이용한다 [4]. Basis 함수들은 infomax ICA(Independent Component Analysis) 기법을이용하여다수의자연영상에서계 - Image retrieval 영상내에서객체검색기법은기존의 Convolutional layer 와 Fully connected layer 로이루어진 CNN 구조에서 Fully connected layer 를제거하고마지막 Convolutional layer 의 2D 특징맵만을이용한다. 식 (1) 과같이마지막특징맵들에서최고값만을추출하여 K차원의특징벡터를만든다 [5]. (1) < 그림 3> 주목도지도생성결과 (Results of saliency region detection) 78 방송과미디어제 22 권 1 호
글로벌라이프로그미디어클라우드개발및구축 79 여기서 f Ω 는특징벡터를나타내며, f Ω,i 는 i번째특징맵의최고값을나타낸다. 또한 X i (p) 는 i번째특징맵의 p좌표에서의값을나타내며, K는마지막 convolution layer 의채널수를나타낸다. 이러한특징벡터를 query 와 reference 영상에대해각각계산하고 cosine similarity 를이용하여 query 에가장가까운 reference 영상을찾게된다. 식 (2) 는 cosine similatiry 를계산하는식을나타낸다. (2) 여기서 A, B는유사도를비교할두벡터를나타낸다. 위와같은방법은기존에영상분류를위해학습된모델을추가학습없이사용할수있다는장점이있다. 3) 동영상분석모듈 - Motion analysis 동영상의모션을분석하고이를이용하여영상의카메라의움직임을추정한다. 카메라의움직임은 움직임없음, 줌인, 줌아웃, 카메라이동, 객체중심카메라이동 의 5가지로분류한다. 먼저동영상프 레임간의 optical flow 를계산하여움직임을추정한다 [6]. < 그림 4> 와같이추정된모션들중일정크기보다작은모션들은움직임이없는경우로결정하고나머지움직임이있는경우는 360 를 8방향으로등분한대표방향으로양자화시킨다. 이렇게 9가지값으로변환된움직임들은각모드에대해누적시켜움직임히스토그램을얻을수있다 [7]. 움직임히스토그램을통해카메라의움직임을추정하는방법은다음과같다. 1) 움직임없음 : Mode 0의히스토그램값이가장클경우 2) 줌인, 줌아웃 : 1) 의경우가아닐때, 8방향의히스토그램값모두가일정비율이상의값을가질경우 2-1) 줌인 : 영상을세로축으로 2등분하여위영역의 mode 1~3과아래영역의 mode 5~7 의값들의합이위영역의 mode 5~7과아래영역의 mode 1~3값들의합보다클때 2-2) 줌아웃 : 2-1) 이아닌경우 3) 카메라이동, 객체중심카메라이동 : 1), 2), 모두해당되지않는경우 3-1) 객체중심카메라이동 : 8방향히스토그램값의합과 mode 0의값의비율이일정이상일때 3-2) 카메라이동 : 3-1) 이아닌경우 < 그림 4> 움직임에따른모드 (Modes of motions) - Scene change detection & key frame detection 키프레임동영상에서대표적인프레임을의미하며비디오콘텐츠의요약내용을포함하고있다. 키프레임을사용함으로비디오데이터의주내용을표현할수있다. < 그림 6> 은제안하는알고리즘을나타낸다 [8]. 2017 년 1 월 79
80 특집 : 딥러닝기반방송미디어기술 < 그림 5> 모션분석결과 (Results of motion analysis) < 그림 6> 비디오분석알고리즘 (Video analysis algorithm) 본연구에사용된알고리즘은고정크기의연속된프레임에서비유사도를계산하기위하여 Eigen value 를구하였다. SVD기반의영상압축알고리즘을이용하여입력영상을변환하였다. 본연산은식 (3) 과같이표현된다. A는이미지데이터매트릭스를의미하며 U는 Left singular 벡터, V는 Right singular 벡터를의미한다. (3) 80 방송과미디어제 22 권 1 호
글로벌라이프로그미디어클라우드개발및구축 81 4) 표정인식모듈표정인식은멀티미디어라이프로그데이터에포함된감정표현을추출하는대표적인방법이며콘텐츠제공을위한테마선택에활용가능한정보이다. 표정인식모듈은서버및단말에서동작하며단말에서의동작을위하여최적화설계되었다. 표정데이터증대를위하여얼굴각도를여러각도로변환하여학습데이터셋의수를늘렸다. 기본적인학습모델은 Alexnet 을활용하여설계되었다. Alexnet 모델을활용하여표정인식모듈을구동할경우소형단말기기에서의동작은상대적으로긴동작시간이요구된다. 따라서모델의최적화가필수적이다. Alexnet 의구조를각레이어별로최적화하여 < 표 1> 과같은최적화결과를도출하였다 [9]. 표정인식의평균인식률은 < 표 2> 와같이 96.88% 를보였으며이를모바일단말기기인삼성갤러시 S6에서동작하였을경우 0.8초이내동작속도를보여 Alexnet 을구동하였을경우 22초동작 한결과에비하여속도개선을하였다. 5) 행동인식모듈멀티미디어콘텐츠내에다양한행동을분석하여객체간행동정보를활용하여콘텐츠분석및동영상생성에활용한다. 행동인지를위한구조는 Donahue, at al. 의 Long term recurrent convolutional network 기법을활용하여 < 그림 7> 과같이 3D CNN 구조를적용하였다 [10]. 제안하는방법은 2D CNN구조를 3D CNN으로변형하여활용하였다. 독립적인 3D CNN으로입력되는연속적인프레임의수를 N이라하고각 3D CNN을통해나오는값을참조하는단계의수를 T라고정의한다. 연속적인프레임에서 N T개의프레임을선택할때시작프레임의간격을 Stride 로표현한다. 행동인식률은 < 표 3> 에서보는바와같이기존 Donahue 의기법에비하여 0.8% 향상된결과를보였다. < 표 1> 표정인식결과 (Results of facial expression recognition) Feature map channel/ Nodes Data Augmentation Ratio(%) Size of Parameter(MB) Intermediate1 96-256-384-384-256 / 4096-4096-6 O 95.05 217 Intermediate2 36-96-144-96-128 / 1024-1024-6 O 96.88 6.2 Proposed 36-96-144-96-128 / 1024-1024-6 X 88.8 6.2 < 표 2> 카테고리별인식결과 (Confusion matrix of facial expression recognition) Neutral Happy Sadness Angry Surprise Disgust Total Ratio(%) Neutral 82 3 1 2 0 0 88 93.18 Happy 0 88 0 0 0 0 88 100 Sadness 2 0 44 0 0 0 46 95.65 Angry 0 1 1 51 0 2 55 92.73 Surprise 0 0 0 0 57 0 57 100 Disgust 0 0 0 0 0 50 50 100 384 96.88 2017 년 1 월 81
82 특집 : 딥러닝기반방송미디어기술 < 그림 7> 3D convolution 과 LSTM 을이용한행동인지기법 (Action recognition using 3D convolution and LSTM) < 표 3> 행동인식결과 (Results of action recognition) CNN Training Method Input size Data Ratio (%) 2D (AlexNet) Fine-tuning 224x224 T : 16 Stride : 8 93.7 2D (AlexNet) Training 224x224 T : 16 Stride : 8 89.7 2D CNN (Intermediate) Training 80x120 T : 16 Stride : 8 89.9 3D CNN (Intermediate) Training 224x224 N : 3 T : 12 86.0 3D CNN (Proposed) Training 80x120 N : 9 T : 7 96.35 6) 오디오모듈오디오파일은동영상생성시에있어서장면전환이나효과의시작과끝을동기화하여활용한다. 동영상의비트를추출하기위하여 Mel-frequency cepstral coefficient와 Harmonic patch class profile 을사용하였다. 이후에오디오데이터를 Smoothing 기법과 Normalizing 기법을통하여분할하여 0.53 의 F1 정확도를추출하였다. 2. 클라우드기반의미디어라이프로그플랫폼연구앞선영상분석기능을이용한하이라이팅모듈 을활용하여사용자의관심사별로분류, 재가공된비디오로그들을퍼스널빅데이터와융합하여시각화및아카이빙해주는글로벌미디어클라우드서비스를위한주요기술은아래와같다. 크게미디어관제시스템과 NLE 렌더링사이의전처리, 스트리밍을위한딜리버리시스템, 콘텐츠및메타데이터분석처리시스템그리고인코딩센터로구분된다. 1) 미디어관제시스템과 NLE 렌더링사이의전처리프로세스 1 NLE에서영상의필요구간으로직접 Seek 인식처리로렌더링과정의프로세스단계가줄어들어효율적임 82 방송과미디어제 22 권 1 호
글로벌라이프로그미디어클라우드개발및구축 83 < 그림 8> 글로벌라이프로그미디어클라우드콘텍스트구조 (Global lifelog media cloud development and deployment Context Diagram) 2 필요한구간을미리잘라내어 NLE에전달하여처리함으로써 NLE에서는입력영상의포맷과 Codec 을고려하지않아도됨 2) 모바일어플리케이션스트리밍에적합한딜리버리시스템 1 모바일에서미디어서버로요청이가능할때사용자는딜리버리시스템으로영상재생요청을할수있으며 5초이내에영상시작 2 Http Live Streaming 방식 : mp4 파일을 chunk 단위로다운받아재생하는방식 Mp4 를 hls로변환시서버의리소스가증가될것으로예상되지만변환작업은파일로딩후의연산에대한내용이기때문에 CPU 사양으로서커버가가능함 전체파일에대한다운로드없이 Chunk 단 위의요청이기때문에서버의부하도그만큼낮아짐 3) 콘텐츠및메타데이터분석처리시스템 1 콘텐츠분석처리 영상분석과정에서생성된이미지는카테고리분류를위한썸네일이며영상분석결과를바탕으로생성된이미지는영상의정확한구간별대표썸네일로추출함 Message queue 방식은분석요청이많아질때를대비해서신뢰성, 안정성, 확장성을보장 2 메타데이터분석처리시스템 콘텐츠분석기를통해분석된결과를메타데이터수집기를통해분석된메타데이터 (GPS, 날짜 ) 를이용하여날씨정보와메타데 2017 년 1 월 83
84 특집 : 딥러닝기반방송미디어기술 이터로사용자가감수성을느끼게하는텍스트정보생성 분석을위해 MongoDB 의 Map & Reduce, Aggregation 을이용하여관리자에게실시간데이터를조회하고여러가지프레임워크의조합없이단순한구조로관리자가원하는데이터를 MogoDB 의 Aggregation 을통해빠르고유연하게대처 단순한구조로인하여배포의용이성, 유지보수성이향상됨 4) 인코딩 Job 분할분산인코딩센터 1 Encoding 엔진에서입력영상을 Keyframe 단위로분할하고분할된영상은시스템의물리적 core 개수만큼의 Encoding thread 에분산시켜처리하여하드웨어성능을최대한활용, Encoding 속도를최대화 2 GPU 가속 (nvidia cuda,intel media sdk) 을이용하여 Video stream 을인코딩하고 CPU는 Audio stream 을인코딩하는하이브리드방식을적용하여빠른인코딩을구현 Ⅲ. 결론 본연구를통하여전자부품연구원과 판도라티비는글로벌라이프로그미디어클라우드서비스를오픈하였으며현재내부테스트를진행하고있다. 전자부품연구원의하이라이팅엔진은이미지, 동영상및오디오콘텐츠를분석하여사람이인식할수있는대부분의정보를분석하여메타데이터로추출하였으며각세부모듈의인식률은기존연구와비교하여우수한결과를보였다. 하이라이팅분석엔진은글로벌라이프로그미디어클라우드서비스뿐아니라보안, 방송, 엔터테인먼트, 차량, 교육등다양한분야에활용될수있을것으로보인다. 현재하이라이팅엔진의대부분모듈이딥러닝기반지능형알고리즘을구현되어있으나일부모듈에있어아직연구가미진한부분이있어이에대한연구가진행되어야하며상용화를위해서각모듈별최적화작업을진행중이다. 참고문헌 참고문헌 [1] Le, Quoc V. Building high-level features using large scale unsupervised learning. 2013 IEEE international conference on acoustics, speech and signal processing. IEEE, 2013. [2] Sermanet, Pierre, et al. Overfeat: Integrated recognition, localization and detection using convolutional networks. arxiv preprint arxiv:1312.6229 2013. [3] Deng, Li. Deep learning: from speech recognition to language and multimodal processing. APSIPA Transactions on Signal and Information Processing 2016. [4] N.D.B. Bruce, J.K. Tsotsos, Saliency Based on Information Maximization, Advances in Neural Information Processing Systems, 18, pp. 155-162, June 2006. [5] Tolias, Giorgos, Ronan Sicre, and Hervé Jégou. Particular object retrieval with integral max-pooling of CNN activations. arxiv preprint arxiv:1511.05879 (2015). [6] Zach, Christopher, Thomas Pock, and Horst Bischof. A duality based approach for realtime TV-L 1 optical flow. Joint Pattern Recognition Symposium. Springer Berlin Heidelberg, 2007. 84 방송과미디어제 22 권 1 호
글로벌라이프로그미디어클라우드개발및구축 85 참고문헌 참고문헌 [7] H. Kim, S. Lee and A. C. Bovik, Saliency Prediction on Stereoscopic Videos, in IEEE Transactions on Image Processing, vol. 23, no. 4, pp. 1476-1490, April 2014. [8] Min Soo Ko, Hyok Song, Video Analysis Algorithm based on Saliency Region Detection from Selected Key-frames, ITC-CSCC 2016. [9] In Kyu Choi, Hyok Song, Jisang Yoo, Convolutional Neural Networks for Facial Expression Recognition, KOSBE, 11. 2016. [10] Donahue, Jeffrey, et al. Long-term recurrent convolutional networks for visual recognition and description. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. 필자소개 송혁 - 1999 년 2 월 : 광운대학교제어계측공학과학사 - 2001 년 2 월 : 광운대학교전자공학과석사 - 2013 년 2 월 : 광운대학교전자공학과박사 - 2000 년 ~ 현재 : 전자부품연구원근무 - 주관심분야 : 영상인식, 딥러닝, 영상보안 최인규 - 2014 년 2 월 : 광운대학교전자공학과학사 - 2016 년 2 월 : 광운대학교전자공학과석사 - 2016 년 2 월 ~ 현재 : 광운대학교전자공학과박사과정 - 주관심분야 : 컴퓨터비전, 영상인식, 딥러닝 이영한 - 2005 년 2 월 : 광운대학교전자공학과학사 - 2007 년 2 월 : 광주과학기술원정보통신공학과석사 - 2011 년 8 월 : 광주과학기술원정보통신공학부박사 - 2011 년 9 월 ~ 2014 년 12 월 : LG 전자기술원선임연구원 - 2015 년 1 월 ~ 현재 : 전자부품연구원근무 - 주관심분야 : 음성 / 오디오신호처리, 머신러닝 2017 년 1 월 85
86 특집 : 딥러닝기반방송미디어기술 필자소개 고민수 - 2010 년 2 월 : 광운대학교전자공학과학사 - 2012 년 2 월 : 광운대학교전자공학과석사 - 2016 년 2 월 : 광운대학교전자공학과박사 - 2016 년 ~ 현재 : 전자부품연구원근무 - 주관심분야 : 영상신호처리, 머신러닝 오진택 -2000 년 2 월 : 부산과학기술대학교산업디자인학과 -2011 년 8 월 : 고려사이버대학교경영학과학사 -2001 년 4 월 ~ 2005 년 3 월 : 유비정보시스템근무 -2005 년 7 월 ~ 2008 년 3 월 : 한일네트워스근무 -2011 년 6 월 ~ 2013 년 12 월 : 네오플러스근무 -2014 년 1 월 ~ 현재 : 판도라티비근무 - 주관심분야 : 영상처리및관제시스템, 클라우드서비스 유지상 - 1985 년 : 서울대학교전자공학과공학사 - 1987 년 : 서울대학교전자공학과공학석사 - 1993 년 : Purdue Univ., EE, PH. D. - 1997 ~ 현재 : 광운대학교교수 - 주관심분야 : 방송기술, 컴퓨터비젼, 영상처리 86 방송과미디어제 22 권 1 호