딥러닝기반비디오분석기술 Deep Learning-based Video Analysis Techniques 저자 (Authors) 김지섭, 남장군, 장병탁 Jiseob Kim, Chang-Jun Nan, Byoung-Tak Zhang 출처 (Source) 정보과학회지 33(9), 2015.9, 21-31 (11 pages) COMMUNICATIONS OF THE KOREA INFORMATION SCIENCE SOCIETY 33(9), 2015.9, 21-31 (11 pages) 발행처 (Publisher) 한국정보과학회 KOREA INFORMATION SCIENCE SOCIETY URL http://www.dbpia.co.kr/article/node06513038 APA Style 김지섭, 남장군, 장병탁 (2015). 딥러닝기반비디오분석기술. 정보과학회지, 33(9), 21-31. 이용정보 (Accessed) 서울대학교 147.46.78.57 2015/10/13 20:09 (KST) 저작권안내 DBpia 에서제공되는모든저작물의저작권은원저작자에게있으며, 누리미디어는각저작물의내용을보증하거나책임을지지않습니다. 이자료를원저작자와의협의없이무단게재할경우, 저작권법및관련법령에따라민, 형사상의책임을질수있습니다. Copyright Information The copyright of all works provided by DBpia belongs to the original author(s). Nurimedia is not responsible for contents of each work. Nor does it guarantee the contents. You might take civil and criminal liabilities according to copyright and other relevant laws if you publish the contents without consultation with the original author(s).
특집원고 딥러닝기반비디오분석기술 서울대학교김지섭 남장군 장병탁 * 1. 서론 1) 최근딥러닝모델은컴퓨터비젼의여러분야에서눈부신성능향상을보이며, 연구패러다임을바꾸고있다. 기존의컴퓨터비젼연구가 SIFT[19], HOG[5] 와같이사람의지식에기반을두어유용한특징 (Feature) 을설계하는데집중했다면, 딥러닝은다층인공신경망을이용해유용한특징들을데이터로부터직접학습하는방식을취한다. 이러한학습기반의방법은사람이미처알지못하는유용한특징들을데이터를통해직접찾아낼수있기때문에성능향상에보다. 특히인터넷을통해큰규모의데이터셋을수집하는것이용이해지고 GPU 컴퓨팅이보편화되어복잡한모델의계산문제가완화됨에따라딥러닝은컨볼루션신경망모델 [18] 을필두로물체인식및검출 [13,25,31], 얼굴인식 [8,30,32] 장소인식 [37], 사람의자세인식및검출, 사람의골격인식 [33,34,4], 깊이 ( 카메라와물체사이의거리 ) 추정 [6] 등이미지를이용한다양한컴퓨터비젼문제에서기존알고리즘의성능을크게넘어서게되었다. 이렇듯딥러닝기술이기존의사람이설계한특징추출방법을대체하는경향은최근비디오데이터에대해서도나타난다. 이미지분석에서널리사용되는컨볼루션신경망모델에시계열정보를채널의형태로응용한모델 [20], 광학적흐름정보를컨볼루션신경망모델의입력으로적용시킨모델 [26], 컨볼루션차원에시간을추가하여시간적가변성을효과적으로다룰수있는 3D 컨볼루션신경망모델 [9, 10, 1, 11], 독립부분공간분석 (ISA), 느린특징분석 (SFA) 등의얕은특징추출알고리즘을컨볼루션신경망과결합시킨모델 [17,29], 다음프레임데이터의예측에유용한특징을학습하는무감독학습모델 [21,28] 등이그예이다. 이와같은딥러닝기반모델들은비디오로부 터직접유용한특징을학습할수있으며데이터가축적됨에따라성능을지속적으로높일수있는장점을지니고있다. 본논문에서는이러한딥러닝기반비디오특징학습모델들을정리하고각모델의아이디어와장단점을비교분석한다. 2장에서는비디오데이터분석의중요성에대해설명하고많은비디오딥러닝모델의기초가되는컨볼루션신경망모델에대해알아본다. 그다음에는비디오데이터에서의딥러닝방법을크게두분류로나누어 3장에서는 3차원컨볼루션신경망에기반을둔감독학습모델들에대해, 4장에서는무감독학습모델들에대해자세히설명한다. 5장에서는실제응용상황에서딥러닝모델을사용하여문제를해결하는본연구실의사례에대해설명한다. 6 장에서는다양한벤치마크데이터셋에서각딥러닝모델의성능을비교분석하며, 마지막으로 7장에서는결론을맺으며앞으로연구가더필요한부분과나아가야할방향을제시한다. 2. 딥러닝기반비디오분석모델기존의많은컴퓨터비젼연구들이이미지데이터의분석에초점이맞추어져있는반면, 인공지능연구자들이보다관심을가지고있는문제는이미지보다는비디오데이터의분석이다. 인지적관점에서볼때비디오는보다사람에게자연스러운형태의데이터라고할수있다. 사람은정지이미지한장이아닌지속적으로입력되는시각정보의흐름, 즉비디오정보를이용해다양한개념을학습한다. 예컨대, 포식자나먹이가다가오거나도망을가는지, 물체에힘을가하면어떻게움직이는지등을파악하는것은생존과직결된원초적인인식문제인데, 이러한문제를해결하는데는시간적정보가필수적이므로비디오를통해서만학습될수있다. 기술적인측면에서도비디오 * 종신회원 2015. 9 정보과학회지 21
(a) (b) 그림 1 사람이직접설계한 Gabor 필터 (a) 와컨볼루션신경망이데이터로부터학습한특징필터 (b) [10] 데이터를다루는것이유리한점이있다. 정지이미지에서각픽셀값사이의연관성을파악하는것은어려운문제인데, 비디오에서는각픽셀값들이시간의흐름에따라연관성을가지고변화하므로이를손쉽게파악할수있다. 반면, 비디오데이터를분석하는데어려움도존재하는데그중가장문제가되는것은데이터의높은복잡도이다. 비디오는연속된이미지여러장으로구성되어있으므로이미지에비해몇배의고차원데이터이다. 또한실제로같은데이터인경우에도진행속도나지연에따른시간축의가변성으로인해일관성 있게다루기가어렵다. 샘플링주기, 모션블러로인한노이즈도무시할수없는문제이다. 비디오특징추출방법으로광학적흐름 (Optical Flow; [2]), 3차원으로확장한 HOG[12], 해리스코너 (Harris Corner)[15], SURF[36] 등이기존에제시되었으나, 이들방법은사람이직접설계한것으로비디오데이터의복잡한패턴을모두분석하기에는어려움이있다. 이에, 이미지데이터에서와마찬가지로딥러닝을통해직접특징을학습하는방법들이제시되었다. 그중주류를이루는것은이미지데이터에대해최고수준의성능을보이고있는컨볼루션신경망모델을비디오데이터로확장한모델들이다. 컨볼루션신경망모델 (Convolutional Neural Network) 은다층인공신경망의일종으로이미지와같이각데이터차원간기하적연관성을가지는데이터를효과적으로인식하기위해제안되었다 [18]. 컨볼루션신경망모델은모든데이터차원을동시에모델링하는대신기하학적으로가까이있는국부영역의차원들사이의패턴만을모델링함으로써모델의복잡도를줄인것이특징이다. 이미지데이터의경우이러한특징이특히유용한것을볼수있는데, 이미지에서윤곽선은인접한픽셀들사이에서나타나는한패턴이고도형은인접한윤곽선들이모여서나타내는패턴이므로국부영역을모델링하는것으로충분하기때문이다. 또한이러한국부패턴은이미지의모든영역에서나타날수있는데, 컨볼루션신경망은패턴을영역별로독립적으로모델링하지않고커널 (Kernel) 의형태로모든영역에서공통적으로모델링하므로효율적이다. 이렇게커널을전체이미지영역을움직이면서계산하는것을컨볼루션연산이라고하는데, 컨볼루션신경망모델의가장주요한요소이며여러층의컨볼루션유닛을둠으로써픽셀의조합으로부터윤곽선을, 윤곽선의조합으로부터도형을, 도형의조합으로부터물체를단계적으로찾아낼수있다. 그림 2 ImageNet 데이터셋에대해 Krizhevsky 등이제안한컨볼루션신경망모델의구조 [13] 22 특집원고딥러닝기반비디오분석기술
3. 3 차원컨볼루션신경망기반감독학습모델 그림 3 컨볼루션연산과 ( 최대값 ) 통합연산 [38] 컨볼루션신경망의또다른요소는통합 (Pooling) 연산이다. 컨볼루션연산은앞서설명한바와같이이미지의어떤영역에어떤국부패턴이있는지를찾아내며이를반복하면얼굴이나물체를찾아낼수있다. 하지만연산을반복하더라도패턴이이미지내어느부분에있는지정보를계속유지하게되는데, 많은인식문제에서이는불필요한정보이다. 예컨대물체인식문제에서는주어진이미지가어떤물체인지가중요할뿐정확히어떤위치에물체가있는지정보는인식성능에영향을주지않으며오히려불필요한노이즈로작용할수있다. 통합연산은이러한위치정보를줄여, 보다노이즈에강인하게만들어준다. 보다자세히는, 통합연산은컨볼루션연산의결과가입력으로주어지면이들의위치해상도를두세배정도로줄여주는역할을한다. 이때출력되는정보는인접한네개혹은아홉개 ( 각각두배, 세배축소의경우 ) 의차원중가장큰값으로결정된다 1). 이와같이통합연산을하는경우이미지내에서물체가평행으로조금옮겨지더라도출력되는값이같으므로노이즈에강인하게된다. 컨볼루션연산과통합연산을여러차례번갈아가며수행하고나면위치정보가제거된상세한패턴정보를가진특징들이추출된다. 보다높은인식성능을위해마지막으로이들특징들간의연관성을일반적인신경망으로모델링하여최종인식결과를출력한다 ( 그림 2). 컨볼루션신경망모델은이미지데이터의국부적인성질을잘활용하여, 이미지인식에서는최근까지최고수준의성능을보이고있다 [13,25,31,8,30,32,37,33, 34,6]. 비디오데이터는이미지의시퀀스이므로자연스러운확장으로서시간축을추가한 3차원컨볼루션신경망모델을생각해볼수있다. 이러한아이디어를가장처음적용한것은 Kim 등의연구로사람행동인식에 3차원컨볼루션신경망을사용하였다 [11]. 다만, 해당연구에서는각이미지시퀀스에서기존비젼기술을이용해장면분할을수행하고, Action Volume 방법을통해사람의실루엣을미리처리한후컨볼루션신경망을사용한것이어서유용한특징을직접학습하는딥러닝의장점을온전히활용한것은아니다. 보다딥러닝의장점을잘살린모델은이후 Ji 등이제시한모델로기존에휴리스틱을이용하여전처리했던부분을 3차원컨볼루션으로대체하였다 [9]. 3차원컨볼루션연산은그림 4과같이커널이 3차원큐브형태로시간축으로도국부적인특징만을모델링한다. 예를들어전체 30 프레임으로구성된비디오가 1) 평균을취하는등의다른통합방법도존재하지만, 여기서는가장널리쓰이고있는최대값통합 (Max-Pooling) 을기준으로설명한다. 그림 4 Ji 등이제안한 3 차원컨볼루션연산 [9] 2015. 9 정보과학회지 23
있을경우, 이들 30프레임을동시에모델링하지않고 5 프레임정도크기의커널을두어시간축으로컨볼루션연산을하는것이다. 이러한방식이타당한이유는시간도공간과마찬가지로긴시간차이에비해인접한시간들사이에유용한패턴들이존재하며, 각패턴은 30프레임의시작이나중간, 끝어느곳에서도등장할수있기때문이다. 시간축방향으로의통합연산도합리적이다. 예를들어 5초가량의비디오클립이있을때사람이손을흔드는동작이비디오의시작부분에나오든, 끝부분에나오든, 혹은조금다른속도로나오든모두손을흔드는동작임에는다름이없다. 즉, 정확한시점에대한해상도는인식문제에있어서크게영향을주지못하고노이즈로작용할수있다는것이다. 따라서이미지의경우와마찬가지로통합연산을적용하여시간적인노이즈에강인한모델을얻을수있게된다. Ji 등의모델에부족한점이있다면입력으로미가공데이터와함께구배정보 (Pixel Gradient), 광학적흐름 (Optical Flow) 등의전처리된정보를여전히사용했다는것이다. 이는부족한데이터로인한학습의비효율성을개선하기위한장치로, 3차원컨볼루션신경망이자체적으로구배나광학적흐름과같은정보를학습할수있는능력을가지고는있지만직접디자인한것만큼의성능을내기위해서는많은양의데이터가요구되기때문이다. Baccouche 등은이러한비효율성에따른문제점에도불구하고미가공데이터만으로학습을진행하여보다좋은성능을도출하였다 [1]. 다만, 이모델에서제시하는성능은인식결과들사이의시간적연관성을다시순환신경망의일종인장단기기억모델 (Long Short-Term Memory; LSTM) 을이용해학습및추론한결과로일대일로비교하기엔무리가있다. Karpathy 등은보다기초적인부분에대한분석연구를진행하였는데, 3차원컨볼루션신경망의각층별커널사이즈에따라성능이어떻게달라지는지를비교하여보다좋은커널사이즈의조합을도출하였다 [10]. 커널사이즈파라미터의조합은그성질에따라단일프레임, 그림 5 3 차원컨볼루션신경망에서의융합성질에따른커널사이즈조합분류 [10] 후반융합, 전반융합, 느린융합의크게네가지로나누어볼수있다 ( 그림 5). 단일프레임의경우일반적인 2차원컨볼루션신경망과같으며시계열정보가반영되지않은세팅이다. 후반융합의경우먼저공간적연관성에주목하여상세한패턴들을찾은후마지막에시간적연관성을모델링하는세팅이며, 전반융합은반대로초기에시간적연관성을모델링하고이후에공간적패턴을찾는세팅이다. 마지막으로느린융합은후반융합과전반융합의중간적인세팅으로적절한비율로시공간적패턴을동시에모델링한다. 해당논문에서는실험을통해위의네가지세팅중느린융합이가장성능이좋다는결론을도출하였다. 4. 무감독학습모델무감독학습모델은레이블로부터직접적인감독을받는대신낮은차원, 희소성, 직교성, 느린변화속도등제한된조건하에서원래의데이터를나타낼수있는표현 (Representation) 을학습한다. 학습된표현은데이터를함축적으로나타내게되므로유용한특징으로사용된다. 학습된특징의유용성을평가하기위해서는간단한선형분류모델을추가하여레이블링된데이터에대해학습하고테스트성능을비교하는방법이일반적으로사용된다. 4.1 얕은특징알고리즘기반모델독립성분분석 (ICA), 독립부분공간분석 (ISA), 느린특징분석 (SFA) 등의모델은무감독학습기반의특징추출알고리즘으로널리사용되어왔다. 이들은딥러닝과대비되는얕은 (Shallow) 모델로비디오데이터에적용할경우차원이높고데이터의구조가복잡하기때문에성능이떨어지는문제가있다. 하지만이러한얕은특징모델을컨볼루션유닛과번갈아가며사용하여깊은구조를구성하고, 이를통해높은성능을내는모델들이연구되고있다. Le 등은독립부분공간분석모델과컨볼루션신경망모델을결합하여 Stacked Convolutional ISA라는알고리즘을제안하였다 [17]. 고차원의비디오데이터공간에서부분공간을찾는문제는학습을통해유용한특징을찾는것과유사하다. 특히제안된모델에서이러한부분공간의수가원래의비디오데이터차원보다작고서로독립적이어야한다는조건이있기때문에, 학습된부분공간은중복없이소수의유용한특징을찾게된다. 또한 3차원컨볼루션신경망과유사하게각특징을데이터시공간에컨볼루션연산을취하므로보다효율적으로학습이가능하다. 24 특집원고딥러닝기반비디오분석기술
4.2 순환신경망기반모델 (a) 독립부분공간분석 (ISA) 모델 앞서살펴보았던대부분의모델이시계열적연관성을컨볼루션의형태로모델링했었던반면, 이장에서는보다시계열적연관성에주목한순환신경망 (Recurrent Neural Network) 기반모델에대해설명한다. 이들모델들역시무감독으로특징을학습하며, 레이블을예측하는대신다음시간스텝의입력을잘예측하도록학습을진행한다. Ranzato 등에의해제안된순환적컨볼루션신경망모델 (Recurrent Convolutional Neural Network; rcnn) [22] 은공간적차원들, 즉이미지에대해서는컨볼루션신경망을이용하고, 시간축에대해서는순환적신경망을사용한모델이다. 이는이미지에대해컨볼루션신경망의장점을잘살리면서도, 시간축으로는순환신경망을사용하여보다오랜시간전의데이터와의연관성도효과적으로모델링할수있다는장점이있다. 다만이모델에서는모델의복잡성을줄이기위하여실수에가까운픽셀값을이용하는대신 k-means 클러스터링방법으로이산화시킨낮은차원의입력을사용한다. (b) Stacked Convolutional ISA 모델그림 6 독립부분공간분석모델과, 이를이용하여구성된 Stacked Convolutional ISA 모델 [17] 그림 7 DL-SFA 모델 [29] Sun 등은 Le 의모델과유사하지만, 독립부분공간분석대신느린특징분석 (SFA) 을사용하여컨볼루션을수행하는모델인 DL-SFA(Deeply Learned SFA) 를제안하였다 [29]. 느린특징분석은시계열데이터를모델링하는방법중하나로, 어떠한데이터에서보다상위의추상적인특징은하위의상세특징에비해느리게변한다는가정을토대로한다. 예를들어사람이걷고있는비디오클립이있을때각픽셀값은굉장히빠른속도로변하지만, 팔을흔드는것이나걷는행위자체와같은추상적인특징은느린속도로변화한다. DL-SFA 모델은이러한느린특징분석과컨볼루션연산을데이터시공간에대해수행하여유용한특징들을학습한다. 그림 8 순환적컨볼루션신경망모델 (rcnn)[22] 그림 9 장단기기억 (LSTM) 기반무감독학습모델 [28] 2015. 9 정보과학회지 25
Srivastava 등이제안한방법은장단기기억 (Long Short-Term Memory; LSTM) 순환신경망을이용하는것이다 [28]. 기존의순환신경망은오랜시간전의데이터와의연관관계를학습할수있도록고안되었으나, 실제로는신경망층을여러번통과함에따라기울기사라짐 (Gradient Vanishing), 또는기울기폭발 (Gradient Explosion) 현상이발생하여학습에어려움이있다. 장단기기억은, 강제적으로기울기값을유지하도록하는 CEC (Constant Error Carousel) 유닛을두어이러한문제를해결한모델이며, 비교적긴시간의연관성도학습할수있는장점이있다 [7]. Srivastava는그림 9과같이장단기기억을이용하여무감독학습을하는모델을제안하였으며, 바로다음스텝의입력뿐만아니라, 이후여러스텝의입력, 입력된데이터시퀀스자체 2) 까지예측하도록함으로써더욱유용한특징을학습할수있도록하였다. (a) 조명합성방법 5. 자세 - 위치 - 행동통합인식딥러닝시스템 이장에서는컨볼루션신경망을이용하여 2D 영상 ( 깊이정보가없는 RGB 영상 ) 으로부터사람의자세, 위치및행동을분류하는본연구진의연구를소개한다 [39]. 이연구는앞서소개한연구들과비교하여두가지큰특징이있다. 첫번째특징은 ImageNet, KTH와같은정제된데이터를사용하지않고직접수집한데이터를사용하였으며, 레이블링에드는시간과노력을완화시키기위하여데이터셋을자동으로확장하는방법을사용했다는것이다. 두번째특징은자세, 위치그리고행동인식문제가서로연관이있음에주목하여시너지를낼수있도록하나의통합모델을개발했다는것이다. (b) 배경합성방법그림 10 합성을통한데이터셋확장방법 5.2 자세-위치인식기자세를인식하는문제와위치를인식하는문제는서로밀접한연관이있다. 영상내사람의위치를인식한다면해당위치를집중적으로분석하여자세를보다정확히인식할수있고, 반대로자세인식결과가헷갈리게나온다면위치인식이잘못되었을가능성이있으므로다시위치인식을수행하는등의작업을통해상호인식성능을높일수있다. 5.1 데이터셋확장컨볼루션신경망모델은복잡한만큼학습을위해많은데이터를필요로하며, 감독학습모델이기때문에모든데이터에대해레이블정보를필요로한다. 본연구에서는대규모데이터레이블링에드는노력을완화시키기위해거실환경에서직접수집하고레이블링한적은양의데이터에조금씩변형을가해새로운데이터를합성하는방법을사용하였다. 이방법은같은수의데이터를직접모으는것에비해다양성이나정확성이떨어지지만, 손쉽게많은데이터를얻을수있다는장점이있다. 새로운데이터는기존의이미지에다양한조명및배경을합성하여생성되었으며, 이방법을통해학습데이터의규모를 60배로확장하였다 ( 그림 10). 2) 이는 Auto-Encoder 모델의학습방식과유사하다. 그림 11 자세 - 위치통합인식모델 26 특집원고딥러닝기반비디오분석기술
본연구에서는이러한연관성을반영하여다음과같은통합인식모델을제안하였다 ( 그림 11). 먼저이미지가입력되면자세및위치인식기는약한예측 (Weak Prediction) 을수행하여각각의레이블을예측한다. 위치인식기로예측된위치정보는이미지내에사람이어디에위치하고있는지를알려주는정보이므로, 모델에해당부분을강조하도록하향식 (Top-Down) 피드백을주게된다. 피드백을반영한모델이다시자세를예측하게되는데, 이러한계산방식은이미지내의주변배경을무시하고특정영역에집중함으로써자세인식성능을높이는데도움을준다. 5.3 자세- 동작인식기자세와동작사이에도밀접한연관성이존재하기때문에, 두가지정보를유기적으로결합하여사용하게되면인식정확도를높일수있다. 예를들어뛰기, 걷기등의동작클래스의경우손을흔드는등의동작과는달리앉거나누운상태에서수행하는것이불가능하다. 따라서자세인식을통해알아낸서기, 앉기, 눕기등의정보를동작인식기와결합하면보다정확한인식결과를도출할수있다. 제안하는모델에서는앙상블방법을사용하여 argmax Action P Pose P Action 과같은방식으로동작인식결과를개선한다. 5.4 실험및결과데이터합성을통한데이터셋확장과자세 -위치통합인식기의도입을통한성능향상을각각확인하기위해세가지실험세팅에서학습과테스트를진행하였다. 첫번째세팅에서는데이터셋확장과통합인식기를모두사용하지않고실험을진행하였고, 두번째세팅에서는확장된데이터셋을사용하여실험을진행하였다. 세번째세팅에서는데이터셋확장은사용하지않고, 인식모델을통합인식기로하여실험을진행하였다. 각세팅에서학습후테스트정확도를뽑은결과는표 1과같다. 표 1 데이터셋확장및통합인식모델의도입에따른성능 ( 테스트정확도 ) 향상기본세팅데이터셋확장통합인식모델정확도 (%) 85.87±0.11 94.55±0.07 95.50±1.13 첫번째세팅으로진행한실험에서테스트정확도는 85.87% 를기록하였다. 두번째세팅에서테스트정확도는 94.55% 로, 데이터셋확장방법을통해약 9% 정도의성능향상을달성할수있었다. 세번째세팅에서테스트정확도는 95.50% 로, 데이터셋확장을사용하지않았음에도자세- 위치인식결과의유기적인공유를통해약 10% 정도의높은성능향상을달성할수있음을볼수있었다. 6. 딥러닝모델의성능비교 6.1 비디오데이터셋이미지에서의인식을비롯한다양한컴퓨터비젼문제가활발히연구되고지속적으로개선되었던배경에는방대한벤치마크데이터셋이있다. 특히딥러닝과같은학습기반의알고리즘들은데이터의품질과규모에따라성능이직접적으로좌우되는만큼데이터셋의중요도가높다. MNIST, CIFAR-10 등간단한실험과테스트에용이한데이터셋과수백만장규모의자연의이미지로구성되어실제응용문제를대변하는 ImageNet 데이터셋이좋은예이다. 반면비디오의경우, 아직규모와다양성면에서부족한편이다. 데이터의복잡도에비례하게데이터수가많이필요한데반해 ImageNet 데이터셋정도의대규모데이터셋은아직구축된바가없고, 데이터의종류도사람의동작인식을제외하면전무한수준이다. 다만간단한테스트를위한벤치마크데이터셋들은꾸준히발전되어왔는데, 여기서는비교적많은논문에서실험되고비교되는데이터셋들을소개한다. 표 2 사람행동비디오데이터셋비교데이터셋공개년도동작종류수동작당클립수 KTH 2004 6 10 Weizmann 2005 9 9 Hollywood 2008 8 30-140 UCF-Sports 2009 9 14-35 HMDB-51 2011 51 100-200 UCF-101 2012 101 100-150 KTH[24] 와 Weizmann[3] 은가장일찍구축된비디오데이터셋으로, 배경이간단하고데이터의수가많지는않으나같은클래스에비교적다양한영상이포함돼있다는것이특징이다. 이후등장한 Hollywood 데이터셋 [16] 은할리우드의다양한영화에서수집된많은수의비디오클립으로구성돼있으며, 특히해당클립이어떤장면인지도같이레이블링되어있어장면인식문제등에다양하게활용할수있다. UCF-Sports[23] 는스포츠채널에서추출한다양한영상으로구성된데이터셋으로, 역동적인동작들이많이포함돼있으며배경이비교적단순하다는특징을가지고있다. 이후에등장한데이터셋은동작의종류수가많고각동작당클립수도많아서보다실제문제에가까운것들로, 최근등장한딥러닝알고리즘들의성능비교로많이사용되고있다. HMDB51[14] 는 YouTube, 영화등공개 2015. 9 정보과학회지 27
데이터베이스로부터 수집된 것으로 배경과 인물이 다양 하다. UCF-101[27]의 경우 동작의 종류가 101 가지로 가장 많으며, 5 가지의 큰 범주로 나뉘어 있어 가장 다양한 종류의 비디오 데이터를 포함한다. 또한, 각 동작 종류별 데이터 수도 많아 딥러닝 모델 학습에 특히 적합하다. 앞서 설명한 데이터셋들은 표 2에 연도별, 규모별 로 정리되어있다. 다음 장에서 이들 데이터셋에 대해, 위의 3, 4장에서 소개된 모델의 성능을 비교한다. 6.2 성능 비교 위의 3, 4 장에서 설명된 모델들 중 인식 성능이 제공되 는 모델들을 뽑아 표 3에 정리하였다. 표는 크게 네 그룹 (a) KTH 데이터셋 [24] (b) UCF-101 데이터셋 [27] 그림 12 비디오 데이터셋의 예시 28 특집원고 딥러닝 기반 비디오 분석 기술
표 3 딥러닝모델별성능비교 ( 수치는분류정확도 (%), Hollywood 의경우 Mean AP) KTH Hollywood UCF-Sports UCF-101 Harris3D+HOG/HOF [35] 91.8 45.2 78.1 Cuboids+HOG3D [35] 90.0 45.7 82.9 Handwired Feature + 3D ConvNet [9] 90.2 3D ConvNet + LSTM [1] 94.4 Slow-Fusion 3D ConvNet [10] 41.3 Stacked Convolutional ISA [17] 91.4 53.3 86.5 DL-SFA [29] 93.1 48.1 86.6 Unsupervised LSTM [28] 75.8 의모델의성능으로구성되어있다. 처음두행은사람이직접설계한기존의특징추출방법들의성능결과이고, 다음세행은 3 장에서설명된 3차원컨볼루션신경망모델들의성능결과이다. 그다음의두행은얕은특징기반무감독학습모델, 마지막행은순환신경망기반무감독학습모델의성능결과를각각나타낸다. 먼저 KTH 데이터셋의성능결과를비교해보면기존의특징추출방법대비딥러닝기반특징추출방법이약간의우위를나타내는것을볼수있다. 한편 Hollywood 및 UCF-Sports 데이터에서는딥러닝모델의성능우위가보다두드러지는데, 이는이들데이터셋이 KTH 데이터셋에비해보다다양한데이터를포함하고있는것때문으로분석해볼수있다. KTH 데이터셋은일정한배경에서촬영된반면, Hollywood 및 UCF-Sports 데이터셋은배경과동작의종류가비교적다양하다. 이경우사람이설계한특징들만으로는모델링할수없는데이터가포함되어있을가능성이크므로학습기반의특징추출방법이우위를나타내는것이설명된다. UCF-101 데이터셋에서의성능을비교해보면 3차원컨볼루션신경망모델에서학습된특징에비해장단기기억모델에서학습된특징이훨씬효과적인것을볼수있다. 이는장단기기억모델이보다긴시간차이의시계열연관성을학습할수있기때문인것으로해석이가능하다. 이는한편으로는놀라운결과인데, 일반적으로감독학습이무감독학습에비해높은성능을나타낸다고알려진것에반하는결과이기때문이다. 비교하는두모델의성격이많이다르기때문에일반화하기에는무리가있지만, 이결과는무감독학습의가능성을시사한다. 무감독학습모델이감독학습모델에비해크게성능이떨어지지않는다면, 레이블링되어있지않은수많은데이터에대해학습을진행함으로써오히려보다높은성능을추구할수있기때문이다. 7. 논의및결론본논문에서는다양한딥러닝기반비디오특징학습모델에대하여정리하였다. 모델은크게 3차원컨볼루션신경망기반감독학습모델과무감독학습기반모델로나뉘며, 무감독모델은다시얕은특징추출알고리즘기반컨볼루션신경망모델과, 순환적신경망모델로나뉜다. 벤치마크데이터를통한성능비교에서딥러닝모델을통해학습한특징이기존의사람이디자인한특징에비해우위를보이는것을볼수있었다. 이러한경향은 UCF-101과같이최근구축된대규모데이터에서더욱부각될것으로예상된다. 또한, 무감독학습모델이감독학습모델에비해서크게뒤떨어지지않는성능을보이는것을통해, 무감독학습모델들의가능성을예측해볼수있다. 특히동영상데이터의경우대규모의레이블링작업이어려운만큼무감독학습모델을사용하는것이상대적으로큰장점을가지고있으며, 사람이일상생활에서시각자극을학습하는형태가무감독비디오학습이므로앞으로의활발한연구가예상된다. 참고문헌 [ 1 ] Moez Baccouche, Franck Mamalet, Christian Wolf, Christophe Garcia, and Atilla Baskurt. Sequential deep learning for human action recognition. In Human Behavior Understanding, pages 29-39. Springer, 2011. [ 2 ] John L Barron, David J Fleet, and Steven S Beauchemin. Performance of optical flow techniques. International journal of computer vision, 12(1):43-77, 1994. [ 3 ] Moshe Blank, Lena Gorelick, Eli Shechtman, Michal Irani, and Ronen Basri. Actions as space-time shapes. In The Tenth IEEE International Conference on Computer Vision (ICCV 05), pages 1395-1402, 2005. [ 4 ] Xianjie Chen and Alan L Yuille. Articulated pose 2015. 9 정보과학회지 29
estimation by a graphical model with image dependent pairwise relations. In Advances in Neural Information Processing Systems, pages 1736-1744, 2014. [ 5 ] Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. Computer Society Conference on, volume 1, pages 886-893. IEEE, 2005. [ 6 ] David Eigen, Christian Puhrsch, and Rob Fergus. Depth map prediction from a single image using a multi-scale deep network. In Advances in Neural Information Processing Systems, pages 2366-2374, 2014. [ 7 ] Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neu- ral computation, 9(8):1735-1780, 1997. [ 8 ] Junlin Hu, Jiwen Lu, and Yap-Peng Tan. Discriminative deep metric learn- ing for face verification in the wild. In Computer Vision and Pattern Recog- nition (CVPR), 2014 IEEE Conference on, pages 1875-1882. IEEE, 2014. [ 9 ] Shuiwang Ji, Wei Xu, Ming Yang, and Kai Yu. 3d convolutional neural networks for human action recognition. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 35(1):221-231, 2013. [10] Andrej Karpathy, George Toderici, Sachin Shetty, Tommy Leung, Rahul Sukthankar, and Li Fei-Fei. Large-scale video classification with convo- lutional neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 1725-1732. IEEE, 2014. [11] Ho-Joon Kim, Joseph S Lee, and Hyun-Seung Yang. Human action recogni-tion using a modified convolutional neural network. In Advances in Neural Networks ISNN 2007, pages 715-723. Springer, 2007. [12] Alexander Klaser, Marcin Marszałek, and Cordelia Schmid. A spatio- temporal descriptor based on 3d-gradients. In BMVC 2008-19th British Machine Vision Conference, pages 275-1. British Machine Vision Associa- tion, 2008. [13] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet clas- sification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097-1105, 2012. [14] H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, and T. Serre. HMDB: a large video database for human motion recognition. In Proceedings of the International Conference on Computer Vision (ICCV), 2011. [15] Ivan Laptev and Tony Lindeberg. On space-time interest points. Interna- tional Journal of Computer Vision, 64(2-3):107-123, 2005. [16] Ivan Laptev, Marcin Marszałek, Cordelia Schmid, and Benjamin Rozenfeld. Learning realistic human actions from movies. In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, pages 1-8. IEEE, 2008. [17] Quoc V Le, Will Y Zou, Serena Y Yeung, and Andrew Y Ng. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In Computer Vision and Pattern Recogni- tion (CVPR), 2011 IEEE Conference on, pages 3361-3368. IEEE, 2011. [18] Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient- based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, 1998. [19] David G Lowe. Distinctive image features from scaleinvariant keypoints. International journal of computer vision, 60(2):91-110, 2004. [20] Tomas Pfister, Karen Simonyan, James Charles, and Andrew Zisserman. Deep convolutional neural networks for efficient pose estimation in gesture videos. In Computer Vision-ACCV 2014, pages 538-552. Springer, 2015. [21] Marc Aurelio Ranzato, Arthur Szlam, Joan Bruna, Michaël Mathieu, Ro- nan Collobert, and Sumit Chopra. Video (language) modeling: a baseline for generative models of natural videos. CoRR, abs/1412.6604, 2014. [22] MarcAurelio Ranzato, Arthur Szlam, Joan Bruna, Michael Mathieu, Ronan Collobert, and Sumit Chopra. Video (language) modeling: a baseline for generative models of natural videos. arxiv preprint arxiv:1412. 6604, 2014. [23] Mikel D Rodriguez, Javed Ahmed, and Mubarak Shah. Action mach a spatio-temporal maximum average correlation height filter for action recog- nition. In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, pages 1-8. IEEE, 2008. [24] Christian Schüldt, Ivan Laptev, and Barbara Caputo. Recognizing human actions: a local svm approach. In Pattern Recognition, 2004. ICPR 2004. of the 17th International Conference on, volume 3, pages 32-36. IEEE, 2004. [25] Pierre Sermanet, David Eigen, Xiang Zhang, Michaël Mathieu, Rob Fer-gus, and Yann LeCun. Overfeat: Integrated recognition, localization and detection using 30 특집원고딥러닝기반비디오분석기술
convolutional networks. arxiv preprint arxiv:1312. 6229, 2013. [26] Karen Simonyan and Andrew Zisserman. Two-stream convolutional net- works for action recognition in videos. In Advances in Neural Information Processing Systems, pages 568-576, 2014. [27] Khurram Soomro, Amir Roshan Zamir, and Mubarak Shah. Ucf101: A dataset of 101 human actions classes from videos in the wild. arxiv preprint arxiv:1212.0402, 2012. [28] Nitish Srivastava, Elman Mansimov, and Ruslan Salakhutdinov. Unsu-pervised learning of video representations using lstms. arxiv preprint arxiv:1502. 04681, 2015. [29] Lin Sun, Kui Jia, Tsung-Han Chan, Yuqiang Fang, Gang Wang, and Shuicheng Yan. Dl-sfa: Deeply-learned slow feature analysis for action recognition. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2625-2632. IEEE, 2014. [30] Yi Sun, Yuheng Chen, Xiaogang Wang, and Xiaoou Tang. Deep learn-ing face representation by joint identificationverification. In Advances in Neural Information Processing Systems, pages 1988-1996, 2014. [31] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Ra- binovich. Going deeper with convolutions. arxiv preprint arxiv: 1409.4842, 2014. [32] Yaniv Taigman, Ming Yang, Marc Aurelio Ranzato, and Lars Wolf. Deep-face: Closing the gap to human-level performance in face verification. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 1701-1708. IEEE, 2014. [33] Jonathan J Tompson, Arjun Jain, Yann LeCun, and Christoph Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. In Advances in Neural Information Processing Systems, pages 1799-1807, 2014. [34] Alexander Toshev and Christian Szegedy. Deeppose: Human pose estima- tion via deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 1653-1660. IEEE, 2014. [35] Heng Wang, Muhammad Muneeb Ullah, Alexander Klaser, Ivan Laptev, and Cordelia Schmid. Evaluation of local spatio-temporal features for ac- tion recognition. In BMVC 2009-British Machine Vision Conference, pages 124-1. BMVA Press, 2009. [36] Geert Willems, Tinne Tuytelaars, and Luc Van Gool. An efficient dense and scale-invariant spatio-temporal interest point detector. In Computer Vision-ECCV 2008, pages 650-663. Springer, 2008. [37] Bolei Zhou, Agata Lapedriza, Jianxiong Xiao, Antonio Torralba, and Aude Oliva. Learning deep features for scene recognition using places database. In Advances in Neural Information Processing Systems, pages 487 495, 2014. [38] WW Zhu, A Berndsen, EC Madsen, M Tan, IH Stairs, A Brazier, P Lazarus, R Lynch, P Scholz, K Stovall, et al. Searching for pulsars using image pattern recognition. The Astrophysical Journal, 781(2):117, 2014. [39] 김지섭, 김은솔, 윤상웅, 정문식, 최현수, 장병탁. Deep convolutional neural network을이용한 2d 영상에서의사람자세, 행동및위치통합인식시스템. In 2015 한국컴퓨터종합학술대회 (KCC2015) 논문집, pages 846 848. 한국정보과학회, 2015. 김지섭 2011 서울대학교기계항공공학부졸업 ( 학사 ) 2011~ 현재서울대학교컴퓨터공학부석박사통합과정관심분야 : 딥러닝, 비디오데이터학습, 다양체학습 E-mail : jkim@bi.snu.ac.kr 남장군 2014 Harbin Engineering University 전자정보공학부졸업 ( 학사 ) 2014~ 현재서울대학교컴퓨터공학부석박사통합과정관심분야 : 기계학습, 컴퓨터비전, 인지과학 Email: cjnan@bi.snu.ac.kr 장병탁 1986 서울대컴퓨터공학과학사 1988 서울대컴퓨터공학과석사 1992 독일 Bonn 대학교컴퓨터과학박사 1992~1995 독일국립정보기술연구소 (GMD, 현 Fraunhofer Institutes) 연구원 1997~ 현재서울대컴퓨터공학부교수및인지과학, 뇌과학, 생물정보학협동과정겸임교수 2003~2004 MIT 인공지능연구소 (CSAIL) 및뇌인지과학과 (BCS) 객원교수 2007~2008 삼성종합기술연구원 (SAIT) 객원교수현재서울대인지과학연구소소장 Applied Intelligence, BioSystems, Journal of Cognitive Science 등국제저널편집위원관심분야 : 바이오지능, 인지기계학습, 분자진화컴퓨팅기반뇌인지정보처리모델링 Email: btzhang@bi.snu.ac.kr 2015. 9 정보과학회지 31