14 특집 : 차세대방송미디어기술및서비스 특집 차세대방송미디어기술및서비스 클립형미디어서비스를위한동영상자동축약기술동향및신규서비스예측 홍순기, 주재환, 김상진 / 에스비에스 Ⅰ. 개요 최근시청자는미디어소비에대한주도권을자신이갖기를원한다. 원하는미디어를원하는시간에소비하고자하는시청자의욕구를충족시키기위해, 미디어서비스업체들은호흡이긴동영상을짧은길이의동영상으로축약하여제공하는클립형미디어서비스를제공하고있다. 이러한클립형미디어서비스를위해서는동영상축약이필수적으로필요한데, 현재대부분의서비스업체들은동영상축약을수동으로진행하고있다. 따라서수동으로동영상을축약하는데소요되는경제적 / 시간적비용을줄이기위해, 예전부터다양한동영상자동축약기술이시도되었다 [1][2]. 비교적최근까지연구된 자동축약기술은이미지인식 / 분석기술을활용하여이미지의품질을다양한관점으로수치화하고, 선형예측기술을통해수치화된이미지품질들로부터해당이미지의중요도를추정한후, 목표시간에맞추어중요도가낮은프레임을소거하는방법을사용하였다. 이러한방법을통해동영상축약의자동화가능성을확인할수있었으나, 이미지인식 / 분석기술의한계에의해자동생성된축약결과물을바로클립형미디어서비스에적용할수있을정도의정확도를확보하지는못하였다. 하지만최근이미지인식 / 분석능력을비약적으로발전시킨딥러닝기술을동영상자동축약기술에적용하여자동생성된축약결과물의정확성을크게향상시킨기술들이제안되었다. 이고는 2018 년도정부 ( 과학기술정보통신부 ) 의재원으로정보통신기술진흥센터의지원을받아수행된연구임 (2017-0-00176, 지상파 UHD 방송기반융합플랫폼및서비스기술개발 ) 14 방송과미디어제 23 권 1 호
클립형미디어서비스를위한동영상자동축약기술동향및신규서비스예측 15 이에본기고에서는클립형미디어서비스의개념과국내서비스동향을소개하고, 클립형서비스를위한동영상자동축약기술의발전과정에대해살펴보려한다. 마지막으로동영상자동축약기술을활용하여지상파 UHD 방송에서서비스할수있는신규클립형미디어서비스에대해예측해보려한다. Ⅱ. 클립형미디어서비스 동영상을시청하는단말이고정형 TV에서이동형모바일로바뀌면서, 시청자들은원하는시간에원하는콘텐츠를소비하자고하는욕구가증가했다. 변화된시청자의욕구를충족시키기위해방송사들은스마트미디어렙 (SMR) 을통해방송사의콘텐츠를짧은동영상클립으로만들어서포탈에공급하고있다. 포탈을통한방송사동영상의클립형 미디어서비스는이미일반화되어있으며, 방송사콘텐츠에대한홍보뿐만아니라프리롤광고를통한광고수익도얻고있다. 포털을통한클립형미디어서비스의성공이후로, 각방송사들은페이스북등의 SNS에각사의채널을개설한후독자적인클립형미디어서비스를제공하고있다. 이렇듯클립형미디어서비스는시대적인요구에의해점점확대되고있으며, 이는 2017 년 5월방송을시작한지상파 UHDTV 서비스에서도예외일수없다. 지상파 UHDTV 는 ATSC3.0 표준을기반으로하고있으며, 이는방송통신을융합한새로운양방향서비스를구현할수있는가능성을열었다. 특히, 클립형미디어서비스와관련하여지상파방송 3사는양방향방송안내 (Advanced ESG) 서비스를제공하고있다. 기존 TV및유료방송사업자를통해제공되고있는 방송안내 기능에그치지않고, 시청자가원하는프로그램에대한상세정보및썸네일뿐만아니라하이라이트영상, 예고방송등의클 < 그림 1> 포탈을통한클립형미디어서비스 2018 년 1 월 15
16 특집 : 차세대방송미디어기술및서비스 < 그림 2> 지상파 UHDTV A-ESG 서비스 < 그림 3> 지상파 UHDTV 티비바 (TIVIVA) 서비스 립형미디어를제공받을수있다. 또한지상파방송 3사는지상파 UHD 채널과온라인동영상서비스가결합된세계최초지상파 UHD 양방향서비스인티비바 (TIVIVA) 서비스를런칭하였다. 티비바서비스를통해시청자는지상파 UHD 방송을보다가언제든지다시보기 (VOD) 나관련영상등시청자가원하는서비스를선택하여시청할수있다. < 그림 3> 의왼쪽그림에서볼수있듯이, 시청자가지상파 UHDTV 방송에진입하면안테나를통해전달된시그널을해석하여 TV에서실시간방송하단에실시간영상과관련된클립형미디어와 VOD를관람할수있는티비바홈 (< 그림 3> 의오른쪽그림 ) 링크를포함하고있는티비바미 니런처를실행하여화면에오버레이해준다. 앞서살펴본바와같이, 클립형미디어서비스는현재방송서비스체계에서도중요한위치를차지하고있지만, 앞으로펼쳐질지상파 UHDTV 방송체계를기반으로한신규방송서비스에서도매우중요한역할을할것으로예상된다. Ⅲ. 동영상자동축약기술현황 클립형미디어서비스를제공하기위해서는동영상을축약하는과정이필수적이다. 현재동영상축약과정은사람이전체영상을확인하고클립형미 16 방송과미디어제 23 권 1 호
클립형미디어서비스를위한동영상자동축약기술동향및신규서비스예측 17 디어로생성할짧은길이의구간을발췌하여파일로생성하고있다. 이러한수동축약과정을거칠경우제작비용과서비스품질측면에서한계점이존재한다. 현재클립형미디어서비스가선택하고있는수동축약과정은클립형미디어서비스를제공하는채널과프로그램이많아질수록제작비용이크게증가할수밖에없다. 또한수동으로축약을진행하는시간에의해발생하는서비스지연은서비스품질측면에서시청자의만족도를저해하는요소가된다. 따라서위의문제를보완하기위해동영상을자동으로축약하기위한기술의개발이필수적으로필요하다. 1. 딥러닝이전의자동축약기술딥러닝기술이전에도이미지분석기술을이용한자동축약기술에대한연구는계속되어왔다. 대표적으로 M. Gygil[3] 에의해제안된동영상축약기술은기존의다양한이미지분석기법을활용하여유의미한결과를보여주었다. 따라서본장에서는 M. Gygil 에의해제안된기술을분석하여딥러닝이전의자동축약기술에대해알아보려한다. < 그림 4> 와같이, 이미지분석기술을활용한동영상축약기술은크게콘텐츠분할, 영상분석, 관심도예측의 3단계과정으로구성되어있다. 기본 < 그림 4> 이미지분석기술을활용한동영상자동축약기술 2018 년 1 월 17
18 특집 : 차세대 방송미디어 기술 및 서비스 <표 1> 영상 분석 기술 상세 내용 시각적 주의 지수(Visual attention socre) 검출 기술 Saliency Map Detection 영상에서 인간이 생물학적으로 관심있어 할 만한 영역 또는 객체를 검출하는 알고리즘 이미지를 주파수 정보로 변환하고, 주파수 영역에서 페이즈 변화 정보만을 추출한 후, 주파수 정보를 화소 영역으로 역변환하는 방법으로 검출함. Image Signature Input image RGB color channels channel maps Final saliency map Human attention score 프레임 별로 saliency map을 생성한 후, saliency map을 [0 ~ 1] 사이의 값으로 normalizing 함. saliency map내 0인 값들을 제외하고 나머지 값들의 평균값이 1에 가까우면 사람들이 관심있어 하는 프레임으로 결정함. 이미지 품질 예측 기술 이미지 품질 = Contrast와 에지 분포 정보를 이용해서 사진의 품질을 예측하는 알고리즘 Contrast가 높을 수록 좋은 품질의 영상일거라 가정함. p(x) H(i) = Hr(i) + Hb(i) + Hg(i) Color channel (Red/Green/Blue) histogram, Hr / Hg / Hb Combined histogram H는 영상 크기로 나누어줌. 0 Contrast (98% mass) 255 w = 0.8 x y w = 0.7 에지가 영상의 중심부에 넓게 분포할 수록 좋은 품질의 영상일거라 가정함. 1-w w = 0.56 x y w = width /100 얼굴과 인물 검출 기술 Quality Score = the area of the bounding box of faces and persons / the frame size Faces Detection Viola, P.,etc., Robust real-time face detection. IJCV (2004) 높은 검출률을 달성하면서도 극도로 빠르게 얼굴 검출을 수행할 수 있는 프레임워크 Person Detection Felzenszwalb, P.F., etc., : Object detection with discriminatively trained part based models. PAMI (2010) 높은 검출률을 달성하면서도 극도로 빠르게 얼굴 검출을 수행할 수 있는 프레임워크 18 방송과 미디어 제23권 1호
클립형미디어서비스를위한동영상자동축약기술동향및신규서비스예측 19 적으로연속된이미지들을유의미한단위의세그먼트로분할 (1단계 ) 하고, 각세그먼트에속해있는이미지에서특징값들을추출 (2단계 ) 한후, 각이미지특징값들의선형조합으로예측한관심도지수 (Interestness) 를세그먼트단위로평균내어세그먼트의평균관심도지수 ( 단계3) 를구한다. 이후에는주어진목표시간을고려하여관심도지수가작은세그먼트부터삭제하는방식으로축약을수행한다. 좀더자세히알아보면, 본기술은이미지분석을기반으로하고있기때문에, 준비단계에서동영상을프레임단위의이미지파일로복호한다. 이후콘텐츠분할단계에서는연속적인프레임단위의이미지들을유의미한단위로분할하여축약을수행하기위한최소단위인세그먼트 (segment) 를생성한다. 이때분할지점을선택하는기준은장면전환이일어난지점과객체인식및추적 (SURF[9]) 을통해객체움직임이가장적은지점으로, 이는세그먼트를이어붙였을때연속된두개의세그먼트가부자연스럽게이어지는것을방지하기위해서이다. 다음단계는각각의세그먼트안에속해있는이미지들에서영상분석기술을통해특징값들을찾고이를이용하여품질지수를생성해내는영상분석단계이다. 이때사용하는영상분석기술들은 Saliency Map 검출 [4] 에기반한시각적주의지수 (visual attention score) 검출 [5], 에지 / 칼라분포에따른이미지품질예측 [6], 이미지내에서얼굴과인물이차지하는비중 [7, 8] 등이다. 자세한내용은 < 표 1> 에정리하였다. 영상분석을통해생성한특징값 i 를사용하여구한품질지수를 u i 로정의하고이미지한장에총 N개의특징값들이존재할때, 이미지한장의관심도지수를아래와같은선형예측모델을통하여구한다. N N N ik = w 0 + w i u i + w i,j u i u j i=1 i=1 j=i+1 위의식에서알수있듯이, 특징값 i 를사용하여구한품질지수 u i 에곱해지는적절한가중치값 w 를구하는것이핵심포인트인데, 특징값들간의상호작용을고려하였다는특징이있다. 해당논문에서는사람이직접축약을수행하여 Ground truth 를생성하였으며, 최소자승 (Least square) 법을사용하여가중치값 w를학습시켰다. 2. 딥러닝을활용한자동축약기술 앞에서살펴본것과같이자동축약기술의핵심은영상을분석하여사용자에게유의미한특징값들을얼마나정확하게찾아내느냐로정의할수있다. 특히보통사용자에게유의미한특징값들은영상내에존재하는객체 (Object) 에의해좌우되는경우가많으므로, 동영상축약기술은영상내에존재하는객체를정확하게인식하는것이매우중요하다. 최근 < 그림 5> 에서알수있듯이딥러닝기술의등장과함께객체인식기술의정확도가딥러닝이전의기술과비교하여매우가파르게향상되고있다. 실제로 MS 社가제공하는머신러닝데이터셋인 Common Objects in Context (COCO)[19] 을이용하여객체인식성능을테스트하였을때, 2015 년딥러닝기술에의해기존알고리즘과비교하여 3배의성능이향상 (5% 15%) 되었으며, 이후 2017 년까지 2.5년동안딥러닝기술이발전하면서 3배의추가성능향상 (15% 46%) 이이루어졌다. 한편, Tensorflow[15], Darknet[16] 등과같이딥러닝신경망을쉽게구성할수있는플랫폼들이오픈소스로공개되고, 이러한플랫폼위에서구동할 2018 년 1 월 19
20 특집 : 차세대방송미디어기술및서비스 COCO Object Detection Average Precision (%) Past (best circa 2012) Progress within DL methods : Also 3x! 5 Early 2015 15 19 29 2.5 years 36 39 Tobay 2017 46 DPM (Pre DL) Fast R-CNN (AlexNet) < 그림 5> 객체인식기술성능향상 Fast R-CNN (VGG-16) Faster R-CNN (VGG-16) Faster R-CNN (ResNet-50) Faster R-CNN (R-101-FPN) Mask R-CNN (X-152-FPN) 수있는 Faster R-CNN[17], Single Shot Multibox Detection(SSD)[18], You Only Look Once(YOLO)[20] 와같은객체검출신경망모델들도오픈소스로공개되면서딥러닝기술을활용하기위한문턱이많이낮아졌다. 따라서자연히딥러닝기반의객체인식기술을자동축약기술에적용하려고하는움직임도생겨났다. MS 社의 Yao[14] 는 < 그림 6> 과같이각각의이미지 (Frame) 를공간적으로분석하기위한딥러닝 신경망 (AlexNet)[12] 과순차적인이미지들 (Clip) 을시간적으로분석하기위한딥러닝신경망 (C3D)[13] 을사용하여각세그먼트의하이라이트지수를구한후, 하이라이트지수를활용하여동영상축약을수행하는알고리즘을제안하였다. 딥러닝신경망을통해서기존의알고리즘에비해객체검출성능을향상시켰다는점과순차적인이미지들을사용하여시간적분석을하는신경망을추가했다는점에서제안된알고리즘은이후딥러닝을사용한동영상 Frame (spatial stream) AlexNet Video timelapse S1 Si SN AlexNet AlexNet Video Clip (temporal stream) C3D C3D C3D Average Pooling Average Pooling 2X Video skimming 1/2X 1X 2X (a) Input video (b) Deep convolution neural networks (c) Highlight curve (d) Video summarization < 그림 6> MS 社의 Yao 알고리즘, 시간및공간적분석을위한별도의딥러닝신경망을사용하며, 하이라이트지수를활용하여동영상축약을수행함 20 방송과미디어제 23 권 1 호
클립형미디어서비스를위한동영상자동축약기술동향및신규서비스예측 21 축약알고리즘에많은영향을주었다. 또한동영상축약의형태를 Timelapse 와 Skimming 의 2 가지타입으로정의한것도의미가있다. 두가지형태모두하이라이트지수를활용한다는공통점이있지만, Timelapse 의경우는하이라이트지수가낮을수록빠른속도로프레임을재생하고 Skimming 의경우는하이라이트지수가낮은프레임을삭제하는방식으로동영상을축약한다는차이점이있다. 위의장점에도불구하고 Yao의알고리즘은프레임레벨의학습데이터가필요하다는점과공간적 / 시간적분석을위한딥러닝신경망이분리되어있어신경망학습이힘들고알고리즘수행시간이오래걸린다는단점이있다. 따라서이러한문제를극복하기위해세그멘트레벨의학습데이터와공간적 / 시간적분석이하나의딥러닝신경망에서수행되도록하기위한연구가진행되었다. Panda[11] 는영상의상황에따라딥러닝네트워크상에서공간적으로활성화되는특정영역이존재하는것 ( 예를들어, < 그림 7> 와같이양치질영상 의경우에는 손에들려있는칫솔과입주변 영역이활성화됨 [10]) 에영감을얻어 DeSumNet 이라는동영상축약솔루션을제안하였다. DeSumNet 은입력영상을시공간적으로분석할수있는 3D 합성곱신경망 (Convolution Neural Network: CNN) 구조를활용하여특정상황에서시공간적으로활성화되어있는영역을찾는 합성곱신경망 과사용자의의도를반영하여활성화된영역을중요도점수 (Importance score) 로변환해주는 완전히연결된망 으로구성되어있다. 예를들어, < 그림 8> 과같이, 서핑 (Surfing) 영상이입력영상인경우, 영상을일정한크기의클립으로나눈후나뉘어진클립중에서사용자가중요하다고생각한클립을선택하여 DeSumNet 을학습시키면, 차후에테스트영상을 DeSumNet 에공급하였을때사용자가선택한영상과유사한클립의중요도점수가높게계산되어출력된다. 이후, 중요도점수가높은클립들을우선적으로추려서축약동영상을생성하게된다. < 그림 7> 딥러닝신경망에서영상의상황에따른활성화영역표시 2018 년 1 월 21
22 특집 : 차세대방송미디어기술및서비스 Raw Video 64 2 2 1 128 2 2 2 256 3D Convolutional layer 3D Pooling layer Fully connected layer 256 256 2 2 2 2048 2048 10 2 2 2 2 2 2 Spatio-temporal Importance Scores Important Segments FC6 FC7 FC8 Surfing CONV1 3 3 3 3 3 3 3 3 3 CONV2 CONV3 CONV4 POOL3 POOL4 3 3 3 CONV5 POOL5 3 3 3 < 그림 8> DeSumNet 구조 - 3D CNN 을사용하여시공간중요도점수를계산함 Panda 의알고리즘은하나의통합된딥러닝신경망인 DeSumNet 을세그멘트레벨의학습데이터를활용하여학습시키고, 이를이용하여동영상축약을수행할수있다는점에서딥러닝신경망을활용한최근알고리즘중에서도매우의미있는결과를보여줬다고할수있다. Ⅳ. 동영상자동축약기술을활용한지상파 UHD 기반신규서비스예측 2016 년 7월 ATSC 3.0기반의지상파 UHDTV 방송송수신정합표준이지상파 UHD 방송표준으로최종확정되었다. 해당표준은 차세대방송표준포 럼 에서학계, 국책연구소, 방송국, TV 제조사및장비업체등에서공동으로표준초안을만들었으며, TTA를통해최종표준안으로채택되었다. 해당 UHDTV 표준은 RF 위주의물리계층 MMMT/ ROUTE 기술을포함한시스템즈, HEVC/MPEG-H Audio 기술이차용된컴포넌트, 콘텐츠보호를위한 UHD-CP 기술, 융합형 3DTV, 부가서비스를위한 IBB(Integrated Broadcast & Broadband) 에관한내용등이포함되어있다 [21]. ATSC 3.0기반의지상파 UHD 방송표준은기존의 ATSC 1.0과비교하여많은부분에서차이가있지만, 서비스측면에서가장눈여겨봐야할차이점은방송망과브로드밴드망을결합하여새로운방송시스템을구축할수있는기반기술이갖춰졌다는점이다. 특히 < 그림 9> 지상파 UHD 방송규격을활용한시청자선택형클립미디어서비스 22 방송과미디어제 23 권 1 호
클립형미디어서비스를위한동영상자동축약기술동향및신규서비스예측 23 HbbTV(Hybrid Broadcast & Broadband) 기술에한국형기능을추가한 IBB(Integrated Broadcast & Broadband) 표준을통해시청자가원하는콘텐츠를선택할수있는양방향서비스를지상파 UHD 플랫폼을통해제공받을수있는가능성이생겼다. IBB 표준은지상파 UHD 방송을시청하면서방송망및브로드밴드망을통해웹기반의서비스애플리케이션을제공하는데필요한방법을정의하고있다. 따라서지상파 UHD 표준, IBB 표준, 그리고동영상자동축약기술을활용하여 < 그림 9> 와같은지상파 UHD 방송규격과연계된시청자선택형클립미디어서비스를제공할수있다. 자동축약시스템은방송사의온라인배포시스템 (Online Publishing System: OPS) 로부터드라마 12화의콘텐츠와콘텐츠정보를수신하여자동으로동영상축약을수행한후축약된콘텐츠정보를장면연동이벤트관리시스템으로송부한다. 장면연동이벤트관리시스템은실시간방송프로그램정보와축약된동영상의길이에맞추어드라마 13화가방송되기전에시청자 TV로웹기반서비스애플리케이션을포함한 IBB App 신호를전송한다. IBB App 신호를수신한시청자는 (1) Linear 방송선택하여현재방송중인예능 76회를그대로시청할수도있고, (2) 다음프로그램의요약본시청을선택하여드라마 12화요약본을시청할수도있다. 즉, 시청자에게시청자의선택에따라시청자가원하는유형의방송을시청할수있는선택권을부여하는신규클립형서비스를제공할수있다. 물론상기한신규클립형서비스를실제로제공하기위해서는수신한 IBB App 신호를단말에서처리할수있는 IBB 표준개정이방송사와단말제조사간의협의를통해도출되어야하고, 단말에서 IBB App 신호에포함되어있는정확한타이밍에본방송을클립미디어로대체할수있는지검증하는과정이필요하다. 하지만이러한문제점은방송사와단말제조사의협력에의해어렵지않게해결될것으로보이며, 상기한서비스에한정되지않고지상파 UHD 방송규격을활용한시청자선택형클립미디어서비스는필연적으로가까운미래에선보여질것으로예측된다. Ⅴ. 결론 본기고에서는클립형미디어서비스의개념과국내서비스동향을소개하고, 클립형서비스를위한동영상자동축약기술의발전과정에대해살펴보았다. 수동축약과정에서발생하는비용과서비스지연문제를해결하기위해, 기존에는이미지분석기술을활용한접근을하였으며, 최근에는딥러닝기술을활용한접근이활발하게이루어지고있다는것을확인할수있었다. 마지막으로딥러닝기술에의해발전된동영상자동축약기술을활용하여시청자에게신규로제공할수있는지상파 UHD 방송기반클립형미디어서비스에대해예측해보았다. 2018 년 1 월 23
24 특집 : 차세대방송미디어기술및서비스 참고문헌 참고문헌 [1] Gygli, M., Grabner, H., Van Gool, L.: Video summarization by learning submodular mixtures of objectives. In: CVPR (2015) [2] Zhang, K., Chao, W.l., Sha, F., Grauman, K.: Summary transfer: exemplar-based subset selection for video summarization. In: CVPR (2016) [3] M. Gygil, etc., Creating Summaries from User Video, ECCV2014, pp 505~520 [4] X. Hou, J. Harel and C. Koch, Image Signature: Highlighting Sparse Salient Regions, in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 34, no. 1, pp. 194-201, Jan. 2012. [5] N. Ejaz, I. Mehmood, SW Baik, Efficient visual attention based framework for extracting key frames from videos, in Signal Processing: Image Communication 28 (1), 34-44, Jan. 2013. [6] Y. Ke, X. Tang and F. Jing, The Design of High-Level Features for Photo Quality Assessment, in CVPR, 2006. [7] Viola, P., Jones, M.: Robust real-time face detection. IJCV (2004) [8] Felzenszwalb, P.F., Girshick, R.B., McAllester, D., Ramanan, D.: Object detection with discriminatively trained part based models. PAMI (2010) [9] Herbert Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool SURF: Speeded Up Robust Features, Computer Vision and Image Understanding (CVIU), Vol. 110, No. 3, pp. 346-359, 2008. [10] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. Learning deep features for discriminative localization, CVPR 2016. [11] R Panda, A Das, Z Wu, J Ernst, AK Roy-Chowdhury, Weakly supervised summarization of web videos, 2017 IEEE International Conference on Computer Vision (ICCV), 3677-3686 [12] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. [13] D. Tran, L. D. Bourdev, R. Fergus, L. Torresani, and M. Paluri. Learning spatiotemporal features with 3d convolutional networks. In ICCV, 2015. [14] T. Yao, T. Mei, and Y. Rui. Highlight detection with pairwise deep ranking for first-person video summarization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 982-990, 2016. [15] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. J. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mane, R. Monga, S. Moore, D. G. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. A. Tucker, V. Vanhoucke, V. Vasudevan, F. B. Viegas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu, and X. Zheng., TensorFlow:Large-scale machine learning on heterogeneous distributed systems, arxiv preprint, 1603.04467, 2016. arxiv.org/abs/1603.04467. Software available from tensorflow.org. [16] Joseph Redmon, Darknet: Open Source Neural Networks in C, Software available from http://pjreddie.com/darknet/, 2013-2016. [17] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. [18] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. E. Reed. SSD: single shot multibox detector. CoRR, abs/1512.02325, 2015. [19] COCO:Common Objects in Context (2016). http://mscoco.org/dataset/#detections-leaderboard. Accessed 25 July 2016. [20] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. arxiv preprint arxiv:1506.02640, 2015. [21] 이동관, 지상파 UHD 현황및부가서비스, 방송과기술, 14 Oct. 2016. 24 방송과미디어제 23 권 1 호
클립형미디어서비스를위한동영상자동축약기술동향및신규서비스예측 25 필자소개 홍순기 - 2006 년 9 월 : 연세대학교전기전자공학과학사 - 2016 년 2 월 : 연세대학교전기전자공학과박사 - 2013 년 9 월 ~ 2016 년 9 월 : 삼성전자 DMC 연구소책임연구원 - 2016 년 10 월 ~ 현재 : SBS 미디어솔루션팀매니저 - 주관심분야 : 비디오 / 영상신호처리, 모바일비디오통신, 방통융합미디어서비스 주재환 - 2007 년 2 월 : 연세대학교전기전자공학과학사 - 2009 년 2 월 : 연세대학교전기전자공학과석사 - 2009 년 2 월 ~ 2015 년 3 월 : 삼성전자 DMC 연구소책임연구원 - 2015 년 4 월 ~ 현재 : SBS 미디어솔루션팀매니저 - 주관심분야 : 차세대방송시스템및서비스, 비디오 / 영상신호처리 김상진 - 1989 년 2 월 : 연세대학교전기공학과학사 - 1991 년 2 월 : 연세대학교전기공학과석사 - 1991 년 2 월 ~ 현재 : SBS 미디어솔루션팀팀장 - 現 TTA 방송기술위원회 (TC8) 의장 - 現 TTA 지상파방송프로젝트그룹 (PG 802) 의장 - 주관심분야 : 차세대방송시스템및서비스, 비디오 / 영상신호처리 2018 년 1 월 25