독립부분공간분석 (Independent Subspace Analysis) 알고리즘기반의시 공간적특징학습을통한동작인식 by 이기석 Submitted to the Department of Computer Science and Engineering in partial fulfillment of the requirements for the degree of Bachelor of Science in Computer Science and Engineering at the SEOUL NATIONAL UNIVERSITY August 2012 c Seoul National University 2012. All rights reserved. Author.............................................................. Department of Computer Science and Engineering June 21, 2012 Certified by.......................................................... 장병탁교수 Thesis Supervisor Accepted by......................................................... 신영길 Chairman Department Committee on Undergraduate Theses
2
독립부분공간분석 (Independent Subspace Analysis) 알고리즘기반의시 공간적특징학습을통한동작인식 by 이기석 Submitted to the Department of Computer Science and Engineering on June 21, 2012, in partial fulfillment of the requirements for the degree of Bachelor of Science in Computer Science and Engineering Abstract 본연구에서는, 최근 Stanford 대학의 Andrew Y. Ng 교수그룹에서제안한새로운시 공간적특징 (spatio-temporal features) 의무감독학습 (unsupervised learning) 기법을적용해서영상데이터로부터동작인식및분류를행하는실험을수행했다. 본연구에서사용한 Andrew Y. Ng 교수그룹의핵심알고리즘은부분독립공간분석 (Independent Subspace Analysis, ISA) 알고리즘을확장시킨것이다. ISA 알고리즘은작은차원 (low-dimensional) 의입력데이터에대해서는효율적으로학습을행하지만, 높은차원 (high-dimensional) 의입력데이터에대해서는학습시간이차원에비례해기하급수적으로증가한다는단점이있다. 이러한단점을보완하기위해, Andrew Y. Ng 교수그룹에서는스태킹 (stacking), 컨볼루션 (convolution) 과같은심층학습 (deep learning) 기법을도입한계층적 ISA (Stacked Convolutional ISA) 알고리즘을고안했다. 본연구에서는이러한핵심알고리즘을샌드위치요리과정을촬영한영상데이터에적용시켜서동작인식및분류실험을행했다. 그결과몇몇동작범주에대해서는매우높은성능을나타내어사용한알고리즘의우수한성능을일부입증했다. 하지만나머지동작범주에대해서는표면적인수치상으로는높은성능을보였지만, 실제로는샘플개수부족및고르지못한샘플분포와같은실험조건의제약으로인해결과를유의미하다고해석하기어려웠다. 이와같은영상기반동작인식연구는추후로봇연구적용될수있고, 이를통해인간의동작을인식한로봇이각종유용한업무를수행할수있을것으로기대된다. Thesis Supervisor: 장병탁 Title: 교수 3
4
Acknowledgments 가장먼저본학사학위논문의지도교수님이신장병탁교수님께진심에서우러나오는깊은감사를드린다. 2006년봄장병탁교수님의인공지능강좌를들으면서지금의내진로가어렴풋이결정되기시작했다. 당시교수님께서강의시간에인공지능과생명과학, 인지과학, 뇌과학의역동적인융합을선도적으로소개해주시지않았더라면나는아직도내적성분야를찾지못한채방황하고있었을지도모른다. 그로부터 5년이지난 2011년봄, 오랫동안병역의의무를다하고돌아와유학을본격적으로준비하기시작하면서다시장병탁교수님을찾아갔다. 그날이후로 1 년이넘는기간동안장병탁교수님으로부터받은아낌없는지원없었더라면나는해외유학의꿈을쓸쓸히접어야했을지도모른다. I would also like to express my sincere appreciation to Dr. Marcus Kaiser. In the Spring of 2011, I was able to learn for the very first time about the field of computational neuroscience as I took his graduate-level course. I am now willing to dedicate myself to studying the field of computational neuroscience, which would have been impossible without his kind support. Because he and I are engaging in the same small field, I am sure that we will be crossing paths many times in the future. 학부지도교수로서언제나친절하게대해주시고도움이되는말씀을들려주신엄현상교수님, 공과대학 공우 를탄생시키는데중요한역할을하시어간접적으로내게큰영향을미치셨고, 또한위기의순간에흔쾌히추천서를써주는은혜를베푸신하순회교수님께도이지면을빌어깊은감사의말씀을올린다. 내게천국과도같은군인생활을선사해주신 EA Korea 박종흠본부장님께도깊은감사의인사를드린다. 그것만해도감지덕지인데, 번듯한경력과더불어추천서까지제공해주시니너무나감사해서몸둘바를모를지경이다. 내가어릴적꿈을이루어 MIT에진학할수있었던데에는위에서언급한분들의 실질적 도움이상당했지만, 만약이창희를만나지못했더라면지금의나는절대로존재할수없었을것이라확신한다. 그가자신만의삶을주체적으로헤쳐나가는방식을보며신선한충격에서헤어나오지못했던나는, 그로부터내인생을통틀어서가장긍정적인영향을받았노라고당당하게말할수있다. 이른바 Chungdam junction 의일원인여환승을비롯, 장지윤과김균태역시그에못지않은긍정적인 5
자극원임과동시에훌륭한대구사투리선생님들이다. 미국으로출국하기전에내제2의마음의고향인대구에꼭한번찾아가보고싶다. 내가우리나라최고의대학으로불리는이곳서울대학교에오게되면서가질수있었던가장큰행운은, 바로나보다지적으로훌륭한친구들을아무런노력도들이지않고만날수있었다는것이다. UC Berkeley의고우종과최원태, Stanford 의김주성, 그리고 MIT의전상우에게특별한감사를표한다. 그들로부터나는항상많은것을배울수있었지만, 내가그들에게해줄수있었던것은한잔의술을따라주는것뿐이었다. 김진현과김상국을비롯한수많은컴퓨터공학부동기들에게도심심한감사를표한다. 또한바이오지능연구실의선배이자과후배인김은솔에게특별한감사의말을전한다. 언제나유쾌한그녀의사려깊은도움이없었더라면내유학준비는난항을겪었을것이다. 알게된지는가장짧지만가장많은시간을함께하고있는공과대학 공우 친구들에게도특별한감사의마음을전한다. 그들틈에껴있으면나는그들의젊음에취해언제나새로운활력을얻을수있었다. 공우동생들중이현민에게는너무나도새삼스럽지만특별한감사를전한다. 내게지적인영향을끼치지는못했을지언정, 언제나내인생의든든한버팀목이되어주고있는가장소중한나의동네친구들 권혁인, 정현우, 김경식, 박정준 에게도고맙다는말을전하고싶다. 조금은연락이뜸해졌지만그래도마치어제봤던것처럼다시편하게볼수있는내친구들 이동현, 김중교, 배준호, 장덕희 에게는연락좀하라는핀잔을전하도록하겠다. 분당 JSA 어학원의오랜인연으로묶여있는김우재, 이대승, 상윤범에게는조만간한번모이자는말을전하겠다. 일일이감사의말을전할수는없지만내인생에너무나도긍정적인영향을끼쳤던모든고마운분들께는, 감사의말을직접전하지못해송구스럽다는상투적인말밖에는드릴수가없다. 미안함으로가득찬나의가슴이그로인해지금도먹먹하다는사실을알려드리고싶다. 마지막으로, 도저히글이나말따위로는그어마어마한감사함을표현할수없는내가족들께사랑한다는말을전하고싶다. 내유전체의절반씩을하사해주신강영련어머니, 이경태아버지, 그리고나와절반가량의유전자를공유하고있을이현석형님, 사랑합니다, 그리고앞으로는말뿐이아닌행동으로사랑을표현하겠습니다. 6
Contents 1 서론 13 1.1 연구목적................................. 14 1.2 연구내용................................. 14 1.3 연구범위................................. 15 1.4 논문의구성................................ 15 2 관련연구 17 3 핵심연구내용 19 3.1 Independent Subspace Analysis..................... 19 3.2 Stacked Convolutional ISA........................ 22 3.3 영상데이터로부터의시 공간적특징학습............... 24 3.4 학습된시 공간적특징을이용한동작인식.............. 24 4 실험및결과 27 4.1 실험내용................................. 27 4.2 실험방법................................. 28 4.2.1 실험데이터 (TUM 데이터 )................... 28 4.2.2 Stacked Convolutional ISA 네트워크의학습.......... 28 4.2.3 동작인식및분류........................ 30 4.3 실험결과................................. 31 4.4 결과분석................................. 31 7
5 결론 35 5.1 연구결과요약.............................. 35 5.2 연구결과활용방안........................... 36 5.3 향후과제................................. 36 A Figures 39 8
List of Figures 3-1 기본적인 ISA 네트워크의구조..................... 20 3-2 신경망구조로표현된 ISA 네트워크.................. 21 3-3 ISA 네트워크의학습과정........................ 22 3-4 Stacked Convolutional ISA 네트워크.................. 23 3-5 영상데이터에적용시킨 Stacked Convolutaional ISA 네트워크... 25 A-1 실험영상데이터 A시점......................... 39 A-2 실험영상데이터 B시점......................... 40 A-3 실험영상데이터 C시점......................... 40 A-4 실험영상데이터 gaze cam 시점.................... 41 A-5 실험영상데이터 mounted cam 시점.................. 41 9
10
List of Tables 4.1 동작인식및분류를위한동작범주.................. 29 4.2 동작범주별분류정확도 (TUM 데이터학습 )............. 32 4.3 동작범주별분류정확도 (Hollywood2 데이터학습 )......... 32 11
12
Chapter 1 서론 최근들어기계학습 (machine learning) 기술을이용해서영상데이터를분석하여 각종동작패턴을인식하려는연구가활발히진행되고있다. 이는기본적으로, 인 식하고자하는특정동작패턴의영상데이터를기계학습분류기 (classifier) 에입 력시켜각종학습알고리즘 (learning algorithm) 으로학습시키고, 이렇게학습시킨 기계학습분류기에새로운영상데이터가입력되었을때이를자동으로인식하여 동작패턴별로분류하게된다. 여기에서핵심은, 영상데이터로부터유용한시 공 간적특징 (spatio-temporal features) 들을추출하여, 이러한특징들의분포차이를 이용해서각각의동작패턴들을분류하는것이다. 기존에는영상데이터로부터유용한시 공간적특징들을추출할때연구자가 직접설계한특징 (hand-crafted features) 들을이용했다 1. 예를들어, SIFT (Scale Invariant Feature Transfrom, [1, 2]) 는이동 (translation), 확대 축소 (scaling), 회전 (rotation) 과같은국소적공간변형 (local transformation) 에불변 (invariant) 하도록 설계된특징들을이용하고, HOG (Histograms of Oriented Gradients, [3]) 는방향성을 갖는기울기 (oriented gradients) 들을격자처럼배치하고이로부터추출된특징들을 이용해서장면 (scene) 에서물체를인식한다. 하지만이러한기법들은추출할특징들을연구자들이직접정교하게설계해 1 기계학습과컴퓨터비전 (computer vision) 분야에서 특징 (features) 이란특정목적 예를들어인식 (recognition) 또는분류 (classification) 을달성하는데유용하게쓰일수있는수치값을의미한다. 보통입력데이터 (raw input) 로부터다양한방법을적용하여유용한수치값들을추출하는데, 이때추출방법과추출된수치값모두를포괄적으로 특징 이라고부르기때문에혼란의소지가있음에유의해야한다. 본논문에서는혼선을피하기위해때때로추출된수치값을 특징 대신 특징값 이라고지칭하기도한다. 13
야하기때문에상대적으로많은시간과노력이필요하다. 또한분석하고자하는데이터의종류와성격에따라효과적인특징집합이천차만별로달라지는데도불구하고, 미리설계한고정된특징집합만을이용할경우다양한데이터에유연하게대처하기어렵다. 최근에는이러한단점들을보완하기위해무감독학습 (unsupervised learning) 알고리즘을이용해서데이터로부터직접유용한시 공간적특징들을학습하는기법이각광을받고있다. 1.1 연구목적 본연구에서는최근에발표된 [4] 에서제시한무감독학습알고리즘을이용해서영상데이터로부터직접유용한시 공간적특징들을추출하고, 이를이용해서영상데이터속인간의동작패턴을자동으로인식, 분류해보았다. [4] 에서제시한무감독학습알고리즘은독립부분공간분석 (Independent Subspace Analysis, ISA) 알고리즘을확장시킨것으로서, 각종동작인식기법의성능을평가하기위한다양한대규모기성데이터집합에대해서우수한성능을보였다. 본연구에서는이러한최신무감독학습알고리즘을특수한목적을위해제작되매우제한적인영상데이터에적용시켜봄으로써, 해당알고리즘의우수성, 확장성및특정목적에의적용가능성을시험해본다. 1.2 연구내용 본연구에서는 [4] 에서제시한 ISA 기반의시 공간적특징학습알고리즘을새로운데이터에적용시켜보았다. 본연구에서사용한데이터는실제사람이샌드위치를만드는동작을카메라로촬영한것으로서, 샌드위치를만들때행해지는사람의동작들을몇개의미리정해진범주로분류하였다. 우선일차적으로 [4] 에서제시된무감독학습알고리즘을이용해서주어진영상데이터로부터유용한시 공간적특징들을학습하고, 이렇게학습된특징들을영상데이터에적용시켜특징값들을추출한뒤, 마지막으로추출된특징값들의분포차이를이용해서각각의동작들을인식하고분류하였다. 14
1.3 연구범위 본연구에서는 [4] 에서제시된알고리즘이특정목적을위해제작된매우제한적인영상데이터에서도효과적으로동작하는지알아보고, 더나아가로봇에서인간의동작을영상으로인식할수있을지, 그리고이러한동작인식을통해로봇이유용한작업을수행할수있을지여부에대한가능성을타진해본다. 이과정에서 [4] 에서제시한 ISA 기반알고리즘의작동원리를설명하고장, 단점을분석하는데주력할것이다. 1.4 논문의구성 본논문에서는 [4] 에서제시한 ISA 기반의시 공간적특징학습알고리즘을중점적으로논하고, 해당알고리즘을이용해샌드위치요리과정을촬영한비디오영상데이터를분석한뒤그결과를논한다. 먼저 2장에서는기존에행해졌던관련연구들을살펴보, 3장에서는제안된알고리즘의핵심원리들을집중적으로살펴본다. 4장에서는샌드위치요리과정을촬영한영상데이터를제시된알고리즘을통해분석한실험과정및결과에대해논하며, 마지막으로 5장에서는연구결과를요약하고연구를통해드러난문제점들을지적한뒤이를해결하고발전시켜나가기위한새로운방안들을제시한다. 15
16
Chapter 2 관련연구 2차원이미지에서의물체인식 (object recognition) 연구와 3차원영상에서의동작인식 (action recognition) 연구는서로깊게연관되어있다. 2차원이미지에서의물체인식분야에서는연구자들이직접설계한저수준특징 (low-level hand-crafted features) 들이최근까지도활발하게연구되고있다. Chapter 1에서언급했던 SIFT [1, 2] 와 HOG [3] 등이그대표적인예이다. [4] 에도언급되어있듯이이러한설계된특징 (hand-crafted features) 들을 2차원에서 3차원으로확장시키는접근법이영상기반동작인식연구의주를이루고있다. 이러한접근법의가장큰단점은 Chapter 1에서도언급했듯이특징설계에상당한시간과노력이소요된다는점, 그리고서로성격이다른다양한종류의데이터에대해유연하게대처하기어렵다는점이다. 보다구체적으로설명하자면, 한종류의데이터에대해서는그데이터의특성에맞는각종특징들을신중하게설계해서효과를볼수있지만, 이렇게설계된특징들이전혀다른성격의다른데이터에는효과적으로적용되기어렵다. 위에서언급한각종설계된특징들이저수준이미지처리 (low-level image processing) 분야의이론적지식을활용했다면, 최근들어서는생물학분야의이론적지식을동원한새로운접근법들이활발하게제안되고있다. 특히, 인간의뇌에서시 공간적시각정보를처리하여동작을인식하는과정에대한과학적연구가활발하게진행되고있으며 [5], 이러한신경과학적지식을바탕으로한새로운동작인식시스템이속속등장하고있다 [6, 7]. 하지만이러한시스템들역시뇌신경회로의정보처리과정을모방해서설계한특징들을이용하기때문에, 앞에서언급한 17
설계된특징들과비슷한단점을공유하고있다고볼수있다. 최근들어기계학습분야에서주목받고있는심층학습 (deep learning, [8, 9, 10, 11]) 역시신경과학적원리에그바탕을두고있다고할수있다. 이러한심층학습에기반한기계학습알고리즘으로는 Convolutional Neural Networks (CNNs, [8]), Convolutional Restricted Boltzmann Machines (C-RBMs, [12]), Deep Belief Networks (DBNs, [10]) 등이있다. 이러한심층학습알고리즘들역시동작인식연구분야에서활발하게응용되고있다. 이러한심층학습기법에서는심층네트워크 (deep networks) 를학습시키는과정에서자연스럽게계층적이고복합적인특징들을학습하게되는특성이있다. 이들중에서특히 CNNs를 3차원으로확장시켜서동작인식에적용시킨연구가주목할만하다 [13, 14]. CNNs는그특성상앞서언급한다른심층기법들과마찬가지로네트워크를학습시키는과정에서자동적으로계층적이고복합적인특징들을학습하게된다. 하지만 [13] 에서는 CNNs의가장하위단에연구자들이직접설계한특징들을적용시켰기때문에앞에서언급했던설계된특징의단점을그대로나타내고있다. 또한 CNNs는주로감독학습 (supervised learning) 기법으로학습시키기때문에, 다량의분류된데이터 (labeled data) 를준비해야한다는단점이있다. 분류된데이터를준비하기위해선사람이직접상당한시간과노력을들여야하기때문에, 이는감독학습기법에있어서큰단점으로작용한다. 위에서언급한각종동작인식기법들의단점을해결하기위한접근법으로서무감독학습 (unsupervised learning) 기법이최근들어주목받고있다. 보다구체적으로설명하자면, 실험데이터로부터직접유용한시 공간적특징 (spatio-temproal features) 들을학습하고이를이용해서동작을인식하는것이다. 무감독학습기법을통해특징을학습하기때문에다량의분류된데이터를준비할필요가없을뿐더러, 설계된특징이가지고있는단점들을효과적으로극복할수있는것이다. 본논문에서사용한핵심알고리즘이바로이러한무감독학습에기반한시 공간적특징학습기법이다 [4]. 특히특징학습을위한무감독학습기법으로택한독립부분공간분석 (Independent Subspace Analysis, ISA [15, 16]) 알고리즘은뇌신경회로에서일어나는정보처리원리와도깊은연관이있기때문에, 앞서언급했던다양한기법들의장점을취하면서단점을극복할수있는효과적인접근법이라할수있겠다. 18
Chapter 3 핵심연구내용 이장에서는 [4] 에서제시된핵심알고리즘을소개한다. 이장의전반부에서는먼저알고리즘의기본이되는독립부분공간분석 (Independent Subspace Analysis, ISA) 에대해설명한다. ISA 알고리즘은기존에주로작은크기의정적자연이미지패치 (static natural image patches) 에적용되어유용한특징 (features) 들을학습하는데쓰여왔다. 하지만 ISA 알고리즘을보다큰이미지에적용시키는데는소요되는계산시간문제등각종확장성문제 (scalability problem) 가수반된다. 이러한문제점을고려하여 [4] 에서는기본적인 ISA 네트워크를보단큰이미지에적용시키기위해스태킹 (stacking), 컨볼루션 (convolution) 등의심층학습 (deep learning) 기법을이용했고 1, 이장의후반부에서이러한구조적특징들에대해상세히설명하도록한다. 이장에서설명할내용은 [4] 에서제시된내용에전적으로기반한다는것을미리밝혀두는바이다. 3.1 Independent Subspace Analysis 독립부분공간분석 (Independent Subspace Analysis, ISA) 은이미지패치로부터유 용한특징 (features) 들을학습하는무감독학습 (unsupervised learning) 알고리즘이 다 [4]. ISA 알고리즘은구조적으로 ISA 네트워크라는 2- 계층네트워크 (two-layered network) 로나타낼수있다 [16]. ISA 알고리즘은 Topographic Independent Compo- 1 스태킹 (stacking), 컨볼루션 (convolution) 등의기술용어들은각각이사용되는분야에서의고유한의미를잘살린번역이존재하지않기때문에, 원어와한글독음을병기하도록한다. 앞으로도비슷한상황에서이와같은규칙을동일하게적용한다. 19
Figure 3-1: 기본적인 ISA 네트워크의구조 [16]. 격자구조안의연속된작은직사각형이미지들은각각입력이미지패치에대한선형필터들을나타낸다. 각각의선형필터에제곱비선형성 (square nonlinearity) 을적용한원형도식이 ISA 네트워크첫번째계층에서의단순유닛 (simple unit) 을나타낸다. 그림에서는인접한 3 3 개의단순유닛들의활성값 (activation) 을합한뒤제곱근비선형성 (square-root nonlinearity) 을적용해서 ISA 네트워크두번째계층의풀링유닛 (pooling unit) 한개의활성값을계산하는구조를표현한다. nent Analysis 알고리즘과도깊은관련성을지니고있다 [16]. ISA 네트워크의첫번째계층은학습가능한가중치집합 W 로구성되어있으며, 두번째계층은일반적으로미리고정된가중치집합 V 로구성되어있다. 또한첫번째계층에는제곱비선형성 (square nonlinearities) 이, 두번째계층에는제곱근비선형성 (square-root nonlinearities) 이존재한다. 여기에서미리고정된가중치집합 V 의경우일반적으로두번째계층의뉴런하나와첫번째계층의고정된개수의인접뉴런들을포괄적으로연결하는구조를나타내며, 이런식으로입력데이터의공간구조 (topographic grids, [16]) 를조직적으로표현한다. 위에서설명한 ISA 네트워크의기본적인구조를 Figure 3-1에나타냈다. 본연구에서사용한기본적인 ISA 네트워크를신경망 (neural network) 구조로나타낸것이 Figure 3-2이다. Figure 3-2를바탕으로 ISA 네트워크의구조와학습과정을수식으로표현하면다음과같다 [4]. 주어진입력패턴 x t 에대해, 두번째계층에서뉴런들각각의활성값 (activation) 을다음과같이나타낼수있다. 20
Figure 3-2: 신경망구조로표현된 ISA 네트워크 [4] p i (x t ; W, V ) = k n V il ( W lj x t j )2 (3.1) l=1 ISA 알고리즘은 ISA 네트워크두번째계층의 sparse feature representation 을찾음 으로써첫번째계층의학습가능한가중치파라미터 W 를학습하는데, 이때다음 식을이용한다. minimize W T t=1 j=1 m p i (x t ; W, V ), (3.2) i=1 subject to W W T = I (3.3) 여기에서입력패턴 {x t } T t=1은 whitening 된입력예제들이다 2. 또한입력데이터의픽셀값들을단순유닛 (simple units) 으로연결시키는가중치집합을 W R k n 로나타내고, 단순유닛과풀링유닛 (pooling units) 들을연결시키는 ( 일반적으로고정된 ) 가중치집합을 V R m k 로나태낸다. n, k, m은각각입력차원, 단순유닛의개수및풀링유닛의개수를나타낸다. 식 3.3에나타난 orthonormal constraint는 ISA 알고리즘에의해학습된특징들의다양성을보장하는조건으로서, 수학적으로자세한설명을원할경우 [16] 을참고하면된다. 이제까지설명한 ISA 네트워크의학습과정을그림으로표현한것이 Figure 3-3에나타나있다. 위에서설명한 ISA 네트워크를정적자연이미지패치 (static natural image patches) 에적용시키면각종특징들을학습할수있는데, 이때학습된특징들은 2 Whitening 이란통계학적인의미에서평균이 0 이되면서단위공분산 (identity covariance) 을갖도록입력패턴들을선형적으로변환시키는것을의미한다. 21
Figure 3-3: ISA 네트워크의학습과정 [4] 보통 Gabor 필터 ( 일명 edge detector ) 와같은선형필터 (linear filter) 의형태를나타낸다. 이러한선형필터들을시각적으로나타내면 Figure 3-1에서격자구조안의연속된작은사각형들처럼보인다. 이와같이 ISA 알고리즘은선형필터와같은가장기본적인형태의특징들을학습하고, 이렇게학습된특징들을이용해서물체인식 (object recognition) 을포함한각종이미지처리 (image processing) 작업들을수행할수있다. 3.2 Stacked Convolutional ISA 앞에서설명한 ISA 네트워크구조는작은크기의이미지패치에대해서는실용적이지만, 입력차원이높아질수록 ISA 네트워크를학습시키는데소요되는시간이기하급수적으로증가한다 [4]. 따라서 ISA 알고리즘을일반적인크기의이미지에직접적용시키는것은매우비효율적이다. 특히영상데이터를다룰경우에는이미지데이터를다룰경우와는다르게공간차원에시간차원이더해진다. 따라서정적이미지데이터에대해서 ISA 네트워크를효율적으로학습시킬수있을정도의공간차원이라고하더라도, 시간차원이추가되면입력차원이십수배이상커질 22
Figure 3-4: Stacked Convolutional ISA 네트워크 [4]. 학습된 ISA 네트워크를입력데이터의서로다른위치에이른바 copy and paste 방식으로붙여넣고, 하위계층의출력을상위계층의입력으로삼는다. 설명의편의를위해입력데이터와맞닿아있는첫번째계층의 ISA 네트워크들이중복없이모든입력차원을망라하고있는것으로표현됐지만, 실제로는각각의 ISA 네트워크에대한입력이서로일부중복된다. 수있다. 이러한문제점에대한돌파구를 [4] 에서는 Convolutional Neural Network 구조를통해마련했다. 즉, 입력데이터를작은차원으로세분해서 ISA 네트워크를적용시킨뒤, 각각의결과값을취합하여 (convolution) 이를다시새로운 ISA 네트워크의입력데이터로사용하는것이다. 이러한방식을반복하여 (stacking) 계층적인구조를만들면이른바 Stacked Convolutional ISA 네트워크가만들어지고, 이를통해높은차원의입력데이터를효율적인방식으로다룰수있게된다. 이를간략하게도식화한것이 Figure 3-4에나타나있다. [4] 에서제시한방법을간략히설명하면다음과같다. 우선 ISA 네트워크를작은입력데이터패치들에대해서학습시킨다. 이렇게학습된 ISA 네트워크를좀더넓은영역의입력데이터패치에분산배치하고, 각각의 ISA 네트워크들의결과값을취합하여상위계층 ISA 네트워크의입력값으로사용한다. Figure 3-4에도나타나있듯이하위계층의출력값을상위계층의입력값으로사용하는과정에서 PCA (Principal Component Analysis) whitening 기법을이용한전처리과정 (preprocessing step) 을거친다. PCA whitening 기법은이미지처리분야에서표준적인전처리과정으로사용되는데, 이에관한구체적인설명은 [16] 에나와있다. 23
Stacked Convolutional ISA 네트워크의학습과정은심층학습 (deep learning) 분야의각종문헌 [10, 17] 에서제안한 greedy layer-wise training 알고리즘을사용한다 [4]. 보다구체적으로, 우선첫번째계층의 ISA 네트워크를수렴할때까지학습시킨뒤, 이를이용해서구성한 Stacked Convolutional ISA 네트워크의두번째계층을마찬가지로수렴할때까지학습시킨다. [4] 에의하면이러한기법을통해학습에필요한시간을수시간정도로대폭감소시킬수있다. 3.3 영상데이터로부터의시 공간적특징학습 앞의절에서설명한 Stacked Convolutional ISA 네트워크를시간차원이더해진영상데이터에적용시키는방법은의외로간단하다. 기본적으로 2차원이미지패치를 3차원영상블록으로대치하기만하면된다 [4]. 이때 ISA 네트워크가 3차원입력데이터를다룰수있도록따로처리할필요없이, 단순하게 3차원영상블록을 2 차원벡터형태로변환시키기만하면된다. Figure 3-5에이러한과정이도식적으로나타나있다. 영상데이터로부터추출하여동작인식에활용할국소특징 (local features) 의경우, Stacked Convolutional ISA 네트워크의최종출력값에중간계층출력값을조합해서구성한다 [4]. 이러한방식은단순히최종출력값만으로국소특징을구성했을때에비해높은성능을나타내는것으로알려졌다 [4]. 3.4 학습된시 공간적특징을이용한동작인식 앞절에서설명한것처럼 Stacked Convolutional ISA 네트워크의각계층별출력값을조합해서동작인식에사용할국소특징 (local features) 을구성할수있다. 이관점에서본다면, 인식하고자하는동작을나타내는하나의영상데이터는그것을구성하는수많은국소시 공간적특징 (local spatio-tempral features) 들의집합으로간주할수있다. 예를들어, 달리는동작의영상데이터를구성하는특징 (features) 들의집합과걷는동작의영상데이터를구성하는특징들의집합을생각해볼수있다. 통계적관점에서봤을때, 하나의동작범주 ( 예를들면달리기 ) 에속하는영상데이터들을구성하는특징들의분포는상대적으로서로유사할것이고, 서로다른 24
Figure 3-5: 영상데이터에적용시킨 Stacked Convolutaional ISA 네트워크 [4] 동작범주 ( 예를들면달리기와걷기 ) 에속하는영상데이터들을구성하는특징들의분포는상대적으로서로차이가있을것이다. 이렇게각각의동작영상데이터를그것을구성하는특징들의집합으로환원시켜서각각의분포차이를이용해동작을인식할수있다. 이러한기법을이른바 bag-of-features [18] 기법이라고하며, [4] 에서와마찬가지로본논문에서도이방식을이용해서각각의동작을분류하였다. 25
26
Chapter 4 실험및결과 이장의전반부에서는앞장에서설명한핵심알고리즘을실제영상데이터에적용 시켜본실험의내용및방법에대해서설명한다. 후반부에서는실험결과와그에 대한분석을기술한다. 4.1 실험내용 우선앞장에서설명한 Stacked Convolutional ISA 네트워크를실험데이터에적용시켜서유용한시 공간적특징 (spatio-temporal features) 들을학습했다. 본논문에서사용한실험데이터 (TUM 데이터 ) 에대해서는다음절 (Section 4.2) 에서자세하게설명하도록한다. 이와더불어비교분석을위해 [4] 에서사용했던 Hollywood2 [19] 데이터를이용하여별개의 Stacked Convolutional ISA 네트워크를학습시켰다. 이렇게서로다른두데이터집합으로학습시킨두네트워크를 TUM 데이터에적용해서각각의동작인식및분류성능을측정, 비교해보았다. 다시말해서, TUM 데이터로학습시킨네트워크를다시 TUM 데이터의동작인식및분류에적용시킨경우와, Hollywood2 데이터로학습시킨네트워크를이용해서 TUM 데이터의동작인식및분류를행한경우를비교분석했다. 27
4.2 실험방법 4.2.1 실험데이터 (TUM 데이터 ) 본실험에서사용한영상데이터는뮌헨공과대학 (Technische Universität München, TUM) 의 IAS (Intelligent Autonomous System) 그룹 Michael Beetz 교수팀이제작했다. 실험을위하여실제사람이샌드위치를만드는행동을카메라로촬영하였다. 촬영은뮌헨공과대학교에서진행하였으며, 사람이빵, 오이, 치즈등의재료를이용하여샌드위치를만드는과정을세방향에서촬영하였다 (Figure A-1, A-2, A-3). 또, 안구운동추적기를이용하여사람이주시하고있는부분을카메라로촬영하였다 (Figure A-4, A-5). 촬영한영상데이터는약 60 fps (frames per second) 로이루어져있으며, 샌드위치한개를만드는데에는약 3분가량의시간이소요되었다. 샌드위치를만드는동일한과정을세번반복하여총 9분여에걸친영상이촬영되었다. 원본고화질영상데이터의공간차원이상당히큰관계로, 효율적인알고리즘의운용을위해원본영상데이터의가로세로각각을 25% 수준으로축소시킨데이터를실험에사용했다. 이후영상데이터를흑백 (gray-scale) 으로변환하여색상정보를제거하고 1, 앞에서설명한 PCA whitening 전처리과정을통해이미지처리에유용한정보만을남겨놓고입력데이터의차원을축소시켜서입력데이터로사용했다. 동작인식및분류를위해서사람이샌드위치를만드는과정에서특징적인동작들을총 9개의범주로분류하였다. 이를정리한것이 Table 4.1에나타나있다. 4.2.2 Stacked Convolutional ISA 네트워크의학습 본실험에서사용한 Stacked Convolutional ISA 네트워크의파라미터는 [4] 에서와 동일하게설정했다. 우선실험에서사용한 Stacked Convolutional ISA 네트워크는 두층의 ISA 네트워크들로구성되어있다. 하위계층에서사용된 ISA 네트워크에 대한입력차원은 16 16 공간차원과 10 시간차원을포괄해서총 16 16 10 으로 설정했다. 이때공간차원은가로세로픽셀의개수를뜻하고, 시간차원은비디오 1 2 차원장면 (scene) 에서물체를인식하는 (object recognition) 경우와는달리, 3 차원영상 (video) 에서동작을인식하는 (action recognition) 경우에는일반적으로색상정보의유무가성능에큰영향을미치지않는다. 28
Table 4.1: 동작인식및분류를위한동작범주와각범주에속하는샘플개수 Action Train # Test # Total # Crumpling 2 1 3 CuttingSomething 3 3 6 DisposeAnObject 2 1 3 Reaching 15 15 30 ReleaseGraspOfSomething 16 15 31 SpreadingOntoSurface 5 5 10 Sprinkle 2 1 3 TurningOnPowerDevice 2 1 3 UnWrappingSomething 6 5 11 Total 53 47 100 프레임수를의미한다. ISA 네트워크의단순유닛 (simple unit) 개수는 300개로설정하고, 풀링유닛 (pooling unit) 개수역시 300개로설정했다. 즉, 단순유닛과풀링유닛사이에 1:1 대응이이루어지기때문에이경우특별한공간구조 (topographic grids) 를나타내지않는다. 이렇게구성한 ISA 네트워크에서는 300개의풀링유닛활성값 (activtaion) 각각을하나의독립된특징 (features) 으로간주한다. 이렇게설정한 ISA 네트워크를앞서설명했던무감독학습 (unsupervised learning) 기법으로학습시키기위해총 87,600개의 3차원비디오블록을실험영상데이터로부터무작위로추출했다. ISA 네트워크를앞서추출한무작위샘플데이터에대해학습시키는과정에서는 [4] 에서와동일한 batch projected gradient descent 기법을사용했다. 즉, 87,600개의모든데이터샘플에대한 ISA 네트워크의출력값을모두더한목적값 (objective value) 을계산하고, 목적값이감소시키는방향으로가중치집합 W 를갱신한다. 이러한과정을목적값이수렴할때까지반복하는데, 실제로는최대반복회수를 50번으로한정시켰다. 즉, 수렴여부에관계없이 50 번의가중치갱신과정을반복한이후에는학습을종료했다. 비교목적으로 Hollywood2 데이터를사용해서학습시킨 ISA 네트워크의경우총 200,000여개에달하는무작위샘플을사용했다. 앞서언급했던것처럼 Stacked Convolutional ISA 네트워크의학습에는 greedy layer-wise training [10, 17] 기법을사용했다. 이에따라먼저하위계층의 ISA 네트워크를완전히학습시킨후상위계층의 ISA 네트워크를학습시켰다. 상위계층 ISA 네트워크에대한입력차원은다음과같이설정되었다. 우선 20 20 공간차 29
원과 14 시간차원을포괄하는 20 20 14 차원의비디오블록 87,600개를실험영상데이터로부터무작위로추출했다. 미리학습시킨하위계층 ISA 네트워크를 20 20 14 차원블록의각모서리에분산배치시키면 2 2 2 총 8개의하위계층 ISA 네트워크가생성된다. 이는 Figure 3-5에도식적으로나타나있다. 이렇게배치한 8개의 ISA 네트워크로부터총 300 8 = 2, 400개의특징값 (features) 을얻고, 이를다시상위계층 ISA 네트워크의입력값으로사용한다. 따라서상위계층 ISA 네트워크의입력차원은 2,400이된다. 상위계층 ISA 네트워크의단순유닛개수는 400개, 풀링유닛개수는 200개로설정했다. 즉, 상위계층 ISA 네트워크의경우풀링유닛한개당단순유닛두개로구성된공간구조를가지고있다. 이를도식적으로나타낸것이 Figure 3-2에나타나있다. 상위계층 ISA 네트워크역시하위계층 ISA 네트워크와마찬가지로 batch projected gradient descent 기법으로수렴할때까지학습시켰다. 4.2.3 동작인식및분류 동작인식및분류역시 [4] 에서와동일한 bag-of-features SVM [18] 기법을사용했다. 먼저학습된 Stacked Convolutional ISA 네트워크를실험영상데이터에적용시켜서각각의동작샘플들을국소시 공간적특징 (local spatio-temporal features) 들의집합으로변환했다. 예를들어, 샌드위치를만드는동작중칼로무엇인가를써는동작범주인 CuttingSomething 의경우두개의학습샘플이존재했는데, 각각의 3차원영상샘플에학습된 Stacked Convolutional ISA 네트워크를빈틈없이적용해서수백개의특징집합으로변환시켰다. 이러한방식으로모든학습샘플로부터 Stacked Convolutional ISA 네트워크의출력값을빈틈없이계산했고, 이를통해모든영상데이터를 local spatio-temporal features 공간으로치환했다. 이후 local spatio-temporal features 집합을 K-means 기법을통해 3,000개의클러스터로 vector quantization 시켰다. 이렇게만들어진 3,000 개의클러스터각각이이른바시각단어 (visual words) 를구성한다. 이후각동작샘플별로데이터에포함된모든 local spatio-temporal features 를 3,000개의기준점, 즉시각단어들로분류해서시각단어분포히스토그램을계산한다. 최종적으로는이러한동작샘플별히스토그램을정규화시키고이를학습데이터로삼아서 χ 2 -kernel SVM (Support Vector Machine) Classifier를학습시킨다. 이렇게학습된 SVM Classifier를이용해서 30
테스트샘플들의동작인식및분류실험을수행했다. Table 4.1에나와있듯이전체적으로학습샘플의수가많지않을뿐더러, 몇몇동작범주에만많은수의학습샘플이몰려있는등전체적인학습샘플의분포가고르지못했다. 따라서 9개동작범주에대한 multi-class SVM 분류는큰의미를갖지못한다고판단, 각각의범주에대한 binary SVM 분류를행하였다. 4.3 실험결과 Table 4.1에나와있는 9개동작범주각각에대한 binary SVM 분류결과가 Table 4.2와 4.3에나타나있다. Table 4.2에서는 TUM 데이터로학습시킨 Stacked Convolutional ISA 네트워크를사용해서동작인식및분류를행했을때의정확도결과를나타내고있다. TUM 데이터에서는샌드위치를만드는과정을세방향의각도에서촬영했고이를각각 A, B, C시점으로지칭한다 (Figure A-1, A-2, A-3). 본실험에서는동작인식및분류를세방향의촬영각도중 B, C 두시점에대해서행했다. 동작인식및분류의성능척도로는 accuracy와 AP (Average Precision) 를이용했다. Table 4.2에서확인할수있듯이 Reaching 과 ReleaseGraspOfSomething 두범주를제외하고는모두높은수준의 accuracy와 AP를보였으며, 총 9개범주의성능척도를모두평균해서계산한 mean accuracy와 mean AP는대략 90% 대초반을나타냈다. Table 4.3에는 Hollywood2 데이터로학습시킨 Stacked Convolutional ISA 네트워크를사용해서동작인식및분류를행했을때의정확도결과를나타내고있다. 전체적인결과는 Table 4.2에나타난결과와거의비슷하게나타났다. 4.4 결과분석 수치상으로만보면평균적으로 90% 이상의정확도를보였기때문에사용한알고리즘이상당히좋은성능을보인다고생각할수있다. 하지만좀더세심하게실험결과를분석하면수치상으로우수해보이는결과가실제로는유의미하다고하기어렵다는것을파악할수있다. 우선 Table 4.1에서확인할수있듯이전체적인학습및테스트샘플의절대적인개수가매우부족하다. 특히 Crumpling, DisposeAnObject 등을포함한 4개의동작범주의경우학습샘플이 2개, 테스트 31
Table 4.2: 동작범주별분류정확도 (TUM 데이터학습 ) B시점 (Figure A-2) C시점 (Figure A-3) Action Accuracy AP Accuracy AP Crumpling 100% (47/47) 100% 97.9% (46/47) 100% CuttingSomething 95.7% (45/47) 100% 95.7% (45/47) 100% DisposeAnObject 97.9% (46/47) 100% 97.9% (46/47) 100% Reaching 74.5% (35/47) 79.1% 70.2% (33/47) 67.1% ReleaseGraspOfSomething 72.3% (34/47) 66.9% 70.2% (33/47) 53.7% SpreadingOntoSurface 100% (47/47) 100% 100% (47/47) 100% Sprinkle 100% (47/47) 100% 100% (47/47) 100% TurningOnPowerDevice 97.9% (46/47) 100% 97.9% (46/47) 100% UnWrappingSomething 100% (47/47) 100% 95.7% (45/47) 100% Mean 93.1% 94.0% 91.7% 91.2% Table 4.3: 동작범주별분류정확도 (Hollywood2 데이터학습 ) B시점 (Figure A-2) C시점 (Figure A-3) Action Accuracy AP Accuracy AP Crumpling 97.9% (46/47) 100% 97.9% (46/47) 100% CuttingSomething 95.7% (45/47) 90.9% 95.7% (45/47) 100% DisposeAnObject 95.7% (45/47) 100% 97.9% (46/47) 100% Reaching 70.2% (33/47) 68.2% 78.7% (37/47) 79.6% ReleaseGraspOfSomething 66.0% (31/47) 55.3% 66.0% (31/47) 59.5% SpreadingOntoSurface 97.9% (46/47) 97.0% 95.7% (45/47) 100% Sprinkle 100% (47/47) 100% 100% (47/47) 100% TurningOnPowerDevice 97.9% (46/47) 100% 97.9% (46/47) 100% UnWrappingSomething 100% (47/47) 100% 97.9% (46/47) 100% Mean 91.3% 90.2% 92.0% 93.2% 샘플이단 1개에불과하다. 실질적으로이런수준의샘플개수를가지고는제대로된기계학습분류를행하기가사실상불가능하다. 여기에더해서, Reaching 과 ReleaseGraspOfSemething 의두범주에각각 30개와 31개의샘플이몰려있는등샘플개수분포가특정동작범주에심하게편중돼있다. 앞에서도설명했지만이렇게심하게치우친샘플분포로인해 multi-class SVM 분류를행하지못하고각각의동작범주에대해서 binary SVM 분류를행한것이다. 위에서언급한두가지요소, 즉부족한샘플개수와고르지못한샘플분포로인해서사실상 AP (Average Precision) 척도는큰의미를갖지않는다고할수있다. AP는 accuracy와는달리 confusion matrix로부터직접계산해서얻을수있는실질적수치값이아니라확률 32
적계산에의존하는값이기때문에, 다량의샘플에대해 SVM 분류를행했을때에만유의미하다고판단할수있다. 그렇다면상대적으로높은 accuracy 결과값에대해선어떤평가를내릴수있을까? 우선샘플개수가어느정도되는 Reaching 과 ReleaseGraspOfSomething 의경우각각 70% 와 60% 대의크게높지않은정확도결과를나타냈다. 또한상당수의동작범주에서테스트샘플개수가단 1개에불과하기때문에, 이러한동작범주에서의높은정확도는대부분 negative example에의해서나타난다고해석할수있다. 예를들면, Crumpling 동작범주의경우테스트샘플개수가단 1개에불과하는데, binary SVM 분류결과에서 47개의테스트샘플에대해모두 Crumpling 이아니라는결과를내놓았다. 이경우, 실제로 Crumpling 동작에대한제대로된인식및분류가전혀행해지지않았음에도불구하고, negative example 들을모두제대로 Crumpling 이아니라고분류했기때문에 100% 에육박하는정확도를나타낸것이다. 물론 SpreadingOntoSurface 와 UnWrappingSomething 과같이학습및테스트샘플수도어느정도갖추고있고분류결과도상당히좋은경우도존재한다. 하지만이를제외한경우에서의동작인식및분류성능은대체로평균또는그이하라고간주할수있다. 이러한결과는학습및테스트샘플개수가부족하고동작범주간의샘플분포가고르지못한데서비롯된다고추정할수있기때문에, 이러한결과를바탕으로사용한알고리즘의성능이좋지않다고단정짓기에는무리가있다. 위에서설명한점들을고려했을때, 충분한개수의샘플을갖춘뒤 binary SVM 분류및 multi-class SVM 분류를행해서제대로된성능을평가할필요가있다. 한가지주목할만한점은 Stacked Convolutional ISA 네트워크를 TUM 데이터로학습시킨경우와 Hollywood2 데이터로학습시킨경우에있어서동작인식및분류성능에서의차이가거의없었다는점이다. 이점은 [4] 에서도언급된 Selftaught learning paradigm [20] 의측면에서생각해볼수있다. Self-taught learning paradigm 이란무감독학습 (unsupervised learning) 단계에서실험데이터와전혀관련이없는데이터를이용해서유용한시 공간적특징들을학습하는것을일컫는다. ISA 알고리즘을정적자연이미지패치 (static natural image patches) 에적용시키면일반적으로 Gabor 필터와같이이미지처리에가장기본이되는선형필터들을학습하듯이, Stacked Convolutional ISA 네트워크를비디오블록에적용시켜학습시 33
키면일반적으로방위 (orientation) 와속도 (velocity) 에선택적 (selective) 인움직이는모서리탐지필터 (edge detectors) 를학습하게된다 [4]. 따라서동작인식및분류를행하고자하는데이터와관련이없는영상데이터를이용해 Stacked Convolutional ISA 네트워크를학습시키더라도유용한시 공간적특징들을학습할수있으며, 이러한특징들이가지는일반성으로말미암아전혀관련이없는데이터에서도상당한성능을발휘할수있게되는것이다. 34
Chapter 5 결론 본논문에서는 [4] 에서제시한핵심알고리즘, 즉독립부분공간분석 (Independent Subspace Analysis, ISA) 알고리즘기반의시 공간적특징 (spatio-temporal features) 학습을통한동작인식기법을앞서설명한 TUM 데이터에적용시켜보았다. 이장에서는먼저연구결과를요약하고그의의를기술한뒤, 본연구결과를앞으로어떻게보완하고활용해나갈것인지에대해논한다. 마지막으로구체적인향후과제를제시하며마무리한다. 5.1 연구결과요약 [4] 에서제시된 ISA 알고리즘에기반한시 공간적특징의무감독학습 (unsupervised learning) 기법은, 분류되어있지않은데이터 (unlabeled data) 에유용하게적용될수있다는무감독학습기법의장점과더불어 ISA 알고리즘의이론적장점도모두포괄하고있다. 특히이알고리즘은동작인식을행하고자하는데이터로부터직접시 공간적특징 (spatio-temporal feature) 들을학습하기때문에정확도를높일수있다는장점을가지고있다. 본논문에서는이러한알고리즘의우수성을검증하기위해해당알고리즘을새로운데이터 (TUM 데이터 ) 에적용시켜보았다. Table 4.2에서확인할수있듯이표면적으로는해당알고리즘이우수한성능을보이는것처럼나타났으나, Section 4.4에서논한것과같이실질적으로는각종실험조건의제약으로인해의미있는결과를얻었다고보기어렵다. 보다구체적으로, 학습및테스트샘플수가턱없이부족했던것과더불어각동작범주별샘플들의 35
분포가매우고르지못했기때문에이러한문제점에봉착했다. 이와같은문제들로인해원래의도했던 multi-class SVM 분류를시도해볼수없었으며, binary SVM 분류결과도유의미한수준에서만족스러웠다고할수없었다. 하지만이러한악조건속에서도일부동작범주에대해서는매우우수한성능을보여줬기때문에, [4] 에서제시한핵심알고리즘이동작인식에탁월한성능을발휘한다는사실을일부입증할수있었다. 추가적으로, Table 4.3에나타는결과를통해이른바 Self-taught learning paradigm 을다시한번확인해볼수있었다. 5.2 연구결과활용방안 본논문에서사용한 TUM 데이터의경우, 본래로봇에서의영상을통한동작인식관련연구를위해제작되었다. 로봇에서영상처리를통해사람이행하는각종동작들을올바르게인식할수있게된다면로봇의활용분야가비약적으로확장될수있다. 예를들어, 사람이샌드위치를만드는과정을로봇이인식할수있게된다면로봇이각종요리보조를통해사람을도울수있을것이다. 더나아가서, 사람이샌드위치를만드는과정을로봇이학습한뒤자신이직접사람을대신해샌드위치를만들수도있을것이다. 이와같은원대한연구목표를이루기위한첫걸음이바로본논문에서다룬것과같은동작인식에대한연구이다. 로봇의경우그것이활용되는환경에따라엄청나게다양한동작영상에노출될것이며, 따라서로봇을그것의활용분야에맞게일일이미리학습시키기란거의불가능하다. 따라서로봇의동작인식에있어서는무감독학습 (unsupervised learning) 기법이필수적일것이다. 본연구에서부족했던부분을보완해서추가적인연구를수행한다면이와같은로봇에서의영상처리를통한동작인식연구분야에크게기여할것으로생각된다. 5.3 향후과제 우선적으로본논문의연구를학습및테스트샘플을대량으로확충하여추가적으로행할필요가있다. 또한본연구에서는동작인식에만초점을맞추고있는데, 순수한동작이외에동작에수반되는다른객체들을함께인식하는등의문맥인 36
식역시중요한연구대상이다. 예를들어, 팔을움직이는비슷한동작이라도손에칼이쥐어져있다면이는물체를써는동작으로인식될수있다. 이와같이문맥을인식하는과정에서는특히주의집중 (attention) 이필수적인요소로고려돼야한다. 예를들어손에칼이쥐어져있다는사실을인식하기위해서는먼저손의위치를인식한뒤해당위치에주의를집중해야만할것이다. 따라서자연스럽게주의집중이물체, 동작, 문맥을인식하는데어떤영향을미치는지에대해추가적으로연구할필요가있다. 위에서언급한연구들은주로동작인식의원리적측면에국한되어있다. 이러한물체, 동작, 문맥인식에대한연구가어느정도진전을이룬뒤에는실제로봇을이용한응용시스템의제작을함께진행할필요가있다. 이과정에서영상을통한인식뿐만아니라다른매체, 예컨대음성을통한인식을추가적으로연구하여서로다른감각을통합시키는연구가병행되어야한다. 이를통해인공지능은점점더인간수준의지능 (Human-level Intelligence) 에다가갈수있을것이다. 37
38
Appendix A Figures Figure A-1: 실험 영상 데이터 A시점 39
Figure A-2: 실험 영상 데이터 B시점 Figure A-3: 실험 영상 데이터 C시점 40
Figure A-4: 실험 영상 데이터 gaze cam 시점 Figure A-5: 실험 영상 데이터 mounted cam 시점 41
42
Bibliography [1] David G. Lowe. Object recognition from local scale-invariant features. In International Conference on Computer Vision (ICCV), 1999. [2] David G. Lowe. Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vision (IJCV), 60(2):91 110, November 2004. [3] Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In In CVPR, pages 886 893, 2005. [4] Quoc V. Le, Will Y.Zou, Serena Y. Yeung, and Andrew Y. Ng. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011. [5] M. A. Giese and T. Poggio. Neural mechanisms for the recognition of biological movements. Nat Rev Neurosci, 4(3):179 192, March 2003. [6] H. Jhuang, T. Serre, L. Wolf, and T. Poggio. A biologically inspired system for action recognition. In In ICCV, pages 1 8, 2007. [7] H. Jhuang, E. Garrote, J. Mutch, T. Poggio, A. Steele, and T. Serre. Automated home-cage behavioral phenotyping of mice. Nature Communications, 2010. [8] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. In Intelligent Signal Processing, pages 306 351. IEEE Press, 2001. [9] Geoffrey Hinton and Ruslan Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504 507, 2006. [10] Geoffrey E. Hinton, Simon Osindero, and Yee-Whye Teh. A fast learning algorithm for deep belief nets. Neural Comput., 18(7):1527 1554, July 2006. [11] Yoshua Bengio. Learning deep architectures for AI. Foundations and Trends in Machine Learning, 2(1):1 127, 2009. Also published as a book. Now Publishers, 2009. [12] Mohammad Norouzi, Mani Ranjbar, and Greg Mori. Stacks of convolutional restricted boltzmann machines for shift-invariant feature learning. In CVPR, 2009. 43
[13] Shuiwang Ji, Wei Xu, Ming Yang, and Kai Yu. 3d convolutional neural networks for human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 99(PrePrints), 2012. [14] Moez Baccouche, Franck Mamalet, Christian Wolf, Christophe Garcia, and Atilla Baskurt. Sequential Deep Learning for Human Action Recognition. In B. Lepri A.A. Salah, editor, 2nd International Workshop on Human Behavior Understanding (HBU), Lecture Notes in Computer Science, pages 29 39. Springer, November 2011. [15] Aapo Hyvärinen and Patrik Hoyer. Emergence of phase- and shift-invariant features by decomposition of natural images into independent feature subspaces. Neural Comput., 12(7):1705 1720, July 2000. [16] Aapo Hyvrinen, Jarmo Hurri, and Patrick O. Hoyer. Natural Image Statistics: A Probabilistic Approach to Early Computational Vision. Springer Publishing Company, Incorporated, 1st edition, 2009. [17] Yoshua Bengio, Pascal Lamblin, Dan Popovici, Hugo Larochelle, Université De Montréal, and Montréal Québec. Greedy layer-wise training of deep networks. In In NIPS. MIT Press, 2006. [18] Heng Wang, Muhammad Muneeb Ullah, Alexander Klaser, Ivan Laptev, and Cordelia Schmid. Evaluation of local spatio-temporal features for action recognition. In BMVC 2009 - British Machine Vision Conference, London, United Kingdom, September 2009. CLASS. [19] Marcin Marsza lek, Ivan Laptev, and Cordelia Schmid. Actions in context. In Conference on Computer Vision & Pattern Recognition, jun 2009. [20] Rajat Raina, Alexis Battle, Honglak Lee, Benjamin Packer, and Andrew Y. Ng. Self-taught learning: transfer learning from unlabeled data. In Proceedings of the 24th international conference on Machine learning, ICML 07, pages 759 766, New York, NY, USA, 2007. ACM. 44