DBPIA-NURIMEDIA

Similar documents
Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

(JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

04 Çмú_±â¼ú±â»ç

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN

DBPIA-NURIMEDIA

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

02( ) SAV12-19.hwp

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

°í¼®ÁÖ Ãâ·Â

09권오설_ok.hwp

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

½Éº´È¿ Ãâ·Â

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

2

À±½Â¿í Ãâ·Â

45-51 ¹Ú¼ø¸¸

김기남_ATDC2016_160620_[키노트].key

07.045~051(D04_신상욱).fm

DBPIA-NURIMEDIA

歯3-한국.PDF

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

서울도시연구_13권4호.hwp

03¹Ú³ë¿í7~272s

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

DBPIA-NURIMEDIA

2 : (Seungsoo Lee et al.: Generating a Reflectance Image from a Low-Light Image Using Convolutional Neural Network) (Regular Paper) 24 4, (JBE

152*220

Ch 1 머신러닝 개요.pptx

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

2 : (Juhyeok Mun et al.: Visual Object Tracking by Using Multiple Random Walkers) (Special Paper) 21 6, (JBE Vol. 21, No. 6, November 2016) ht

R을 이용한 텍스트 감정분석

0125_ 워크샵 발표자료_완성.key

DBPIA-NURIMEDIA

정보기술응용학회 발표

딥러닝 첫걸음

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

05( ) CPLV12-04.hwp

1 : 360 VR (Da-yoon Nam et al.: Color and Illumination Compensation Algorithm for 360 VR Panorama Image) (Special Paper) 24 1, (JBE Vol. 24, No


pdf 16..

2 : (EunJu Lee et al.: Speed-limit Sign Recognition Using Convolutional Neural Network Based on Random Forest). (Advanced Driver Assistant System, ADA

exp

Reinforcement Learning & AlphaGo

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

p 19; pp 32 37; 2013 p ㆍ 新 興 寺 大 光 殿 大 光 殿 壁 畵 考 察 ; : 2006

2 : 3 (Myeongah Cho et al.: Three-Dimensional Rotation Angle Preprocessing and Weighted Blending for Fast Panoramic Image Method) (Special Paper) 23 2

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

Output file

26 이경승(394~400).hwp

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

<372DBCF6C1A42E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 29(7),

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

,. 3D 2D 3D. 3D. 3D.. 3D 90. Ross. Ross [1]. T. Okino MTD(modified time difference) [2], Y. Matsumoto (motion parallax) [3]. [4], [5,6,7,8] D/3

DBPIA-NURIMEDIA

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

3 : 3D (Seunggi Kim et. al.: 3D Depth Estimation by a Single Camera) (Regular Paper) 24 2, (JBE Vol. 24, No. 2, March 2019)

(JBE Vol. 7, No. 4, July 0)., [].,,. [4,5,6] [7,8,9]., (bilateral filter, BF) [4,5]. BF., BF,. (joint bilateral filter, JBF) [7,8]. JBF,., BF., JBF,.

19_9_767.hwp

우리들이 일반적으로 기호

- 2 -

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

09È«¼®¿µ 5~152s

홍익3월웹진PDF

홍익노사5월웹진용

<4D F736F F D DB1E2BCFAB5BFC7E2BAD0BCAE2DBEF3B1BCC0CEBDC42DC3A4BFF8BCAE2E646F6378>

±è¼ºÃ¶ Ãâ·Â-1

연구노트

63-69±è´ë¿µ

스키 점프의 생체역학적 연구

DBPIA-NURIMEDIA

방송공학회논문지 제18권 제2호

박선영무선충전-내지

감각형 증강현실을 이용한

<313920C0CCB1E2BFF82E687770>

¨ë Áö¸®ÇÐȸÁö-¼Û°æ¾ðOK

8-VSB (Vestigial Sideband Modulation)., (Carrier Phase Offset, CPO) (Timing Frequency Offset),. VSB, 8-PAM(pulse amplitude modulation,, ) DC 1.25V, [2

ÀÌÀç¿ë Ãâ·Â

서론 34 2

PowerPoint 프레젠테이션

DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jan.; 28(1), IS


위해 사용된 기법에 대해 소개하고자 한다. 시각화와 자료구조를 동시에 활용하는 프로그램이 가지는 한계와 이를 극복하기 위한 시도들을 살펴봄으로서 소셜네트워크의 분석을 위한 접근 방안을 고찰해 보고자 한다. 2장에서는 실험에 사용된 인터넷 커뮤니티인 MLBPark 게시판

±èÇö¿í Ãâ·Â

Electronics and Telecommunications Trends 인공지능을이용한 3D 콘텐츠기술동향및향후전망 Recent Trends and Prospects of 3D Content Using Artificial Intelligence Technology

무선데이터_요금제의_가격차별화에_관한_연구v4.hwp

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

ePapyrus PDF Document

PowerPoint 프레젠테이션

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

09구자용(489~500)

3 : OpenCL Embedded GPU (Seung Heon Kang et al. : Parallelization of Feature Detection and Panorama Image Generation using OpenCL and Embedded GPU). e

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

Transcription:

434 정보과학회논문지 : 컴퓨팅의 실제 및 레터 제 19 권 제 8 호(2013.8) ISA 기반 시 공간적 학습을 통한 요리 동작 인식 (Cooking Action Recognition via Spatio-temporal Feature Learning based on ISA) 이 기 석 김 은 솔 (Kisuk Lee) (Eun-Sol Kim) Karinne Ramirez Amaro (Karinne Ramirez Amaro) Michael Beetz 장 병 탁 (Michael Beetz) (Byoung-Tak Zhang) 요 약 기계학습(machine learning) 기술을 이용해서 영상 데이터로부터 동작 패턴을 인식하는 연구에 있어서, 최근 들어 무감독학습(unsupervised learning)의 중요성이 부각되고 있다. 본 논문에서는 ISA (Independent Subspace Analysis) 알고리즘에 기반한 최신 무감독학습 기법인 Stacked Convolutional ISA 알고리즘[1]을 이용해서 샌드위치를 만 드는 인간의 동작을 촬영한 영상 데이터를 분석, 동작 인식 을 행하였다. 데이터로부터 직접 유용한 특징들을 학습하는 무감독학습 기법의 장점을 그대로 나타내어, 해당 알고리즘 은 제한적인 학습 및 테스트 샘플 조건 하에서도 인상적인 이 논문은 제39회 추계학술발표회에서 ISA기반 시 공간적 특징 학습을 통한 사람의 요리 동작 인식 의 제목으로 발표된 논문을 확장한 것임 비 회 원 : 서울대학교 컴퓨터공학부 torms3@gmail.com eskim@bi.snu.ac.kr 비 회 원 : 뮌헨공과대학교 컴퓨터공학부 ramirezk@in.tum.de 비 회 원 : 뮌헨공과대학교 컴퓨터공학부 교수 michael.beetz@in.tum.de 종신회원 : 서울대학교 컴퓨터공학부 교수 btzhang@bi.snu.ac.kr (Corresponding author임) 논문접수 : 2013년 2월 12일 심사완료 : 2013년 5월 20일 CopyrightC2013 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작 물의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처 를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회논문지: 컴퓨팅의 실제 및 레터 제19권 제8호(2013.8) 성능을 나타냈다. 반면 요리동작에 있어서는 손동작 자체를 인식하는 것 이외에도 현재 손에 쥐어진 도구나 재료의 종 류를 인식하는 것이 중요한데, 이러한 문맥 인식(context recognition)은 향후 추가적으로 연구해야 할 과제로 남아있다. 키워드: 동작 인식, 무감독학습, Stacked Convolutional ISA Abstract In the research of action recognition from video data based on machine learning, unsupervised learning approach has recently been spotlighted. In this paper, we adopted stacked convolutional ISA algorithm, a state-of-the-art unsupervised learning technique based on independent subspace analysis (ISA) algorithm that has recently been suggested in [1], to the human cooking action recognition from video data. The algorithm extracted useful spatio-temporal features directly from the video data, which can be regarded as the most significant advantage of unsupervised learning approach, resulting in impressive performance despite of the restricted number of training and test sets. In human cooking action recognition, it is imperative to recognize the identity of cooking utensils or food materials currently held in hands besides the hand action itself. This sort of context recognition remains open to the future study. Keywords: action recognition, unsupervised learning, stacked convolutional ISA 1. 서 론 최근 들어 기계학습(machine learning) 기술을 이용 해서 영상 데이터를 분석하여 각종 동작 패턴을 인식하 고자 하는 연구가 활발히 진행되고 있다. 여기에서 핵심 은, 영상 데이터로부터 유용한 시 공간적 특징(spatiotemporal features)들을 추출하여, 이러한 특징들의 분포 차이를 이용해서 각각의 동작 패턴들을 분류하는 것이다. 기존에는 영상 데이터로부터 유용한 시 공간적 특징 들을 추출할 때 연구자가 직접 설계한 특징(hand-crafted features)들을 이용했다. 예를 들어, SIFT (Scale-Invariant Feature Transform, [2])는 이동, 확대 축소, 회전 과 같은 국소적 변형(local transformation)에 불변 (invariant)하도록 설계된 특징들을 이용해서 장면 상의 물체를 인식한다. 하지만 이러한 기법들은 추출할 특징들을 연구자가 직접 정교하게 설계해야 하기 때문에 상대적으로 많은 시간과 노력이 필요하다. 또한 분석하고자 하는 데이터 의 종류와 성격에 따라 효과적인 특징 집합이 천차만별 로 달라지는데도 불구하고, 미리 설계된 고정된 특징 집 합만을 이용하기 때문에 다양한 데이터에 유연하게 대 처하기 어렵다. 최근에는 이러한 단점들을 보완하기 위 해 무감독학습(unsupervised learning) 알고리즘을 이용

ISA 기반 시 공간적 학습을 통한 요리 동작 인식 435 해서 데이터로부터 직접 유용한 시 공간적 특징들을 학 습하는 기법이 각광을 받고 있다. 본 논문에서는 최근에 발표된 [1]에서 제시한 무감독 학습 알고리즘인 Stacked Convolutional ISA 를 이용 하여 사람이 요리하는 과정을 촬영한 영상 데이터로부 터 직접 유용한 시 공간적 특징들을 학습하였고, 또한 [1]에서와 마찬가지로 이렇게 학습한 특징들을 최근의 동작 인식 분야에서 가장 널리 이용되고 있는 방법인 bag-of-features SVM[3] 기법에 접목시켜 동작 인식 및 분류를 행하였다. 본 논문은 총 6절로 구성되어 있다. 2절에서는 국내외 주요 동작인식 방법에 대하여 소개하고, 3절에서는 본 논문에서 사용한 요리 동작 영상 데이터에 대하여 기술 한다. 4절에서는 핵심 알고리즘을 설명하고, 5절에서는 제안된 방법에 대한 실험 결과를 기술하고 분석하여 타 당성을 검증한다. 마지막으로 6절에서는 결론을 맺고 향 후 연구 과제에 대해서 검토한다. 2. 관련 연구 2.1 2차원 물체 인식 및 3차원 동작 인식 2차원 이미지에서의 물체 인식(object recognition) 연구와 3차원 영상에서의 동작 인식(action recognition) 연구는 서로 깊게 연관되어 있다. 2차원 이미지에서의 물체 인식 분야에서는 연구자들이 직접 설계한 저수준 특징(low-level hand-crafted features)들이 최근까지도 활발하게 연구되고 있다. 이러한 설계된 특징들을 2차원 에서 3차원으로 확장시키는 접근법이 영상 기반 동작 인식 연구의 주를 이루고 있다[1]. 위에서 언급한 각종 설계된 특징들이 저수준 이미지 처리(low-level image processing) 분야의 이론적 지식 을 활용했다면, 최근 들어서는 생물학 분야의 이론적 지 식을 동원한 새로운 접근법들이 활발하게 제안되고 있 다. 특히, 인간의 뇌에서 시 공간적 시각 정보를 처리하 여 동작을 인식하는 과정에 대한 과학적 연구가 활발하 게 진행되고 있으며[4], 이러한 신경과학적 지식을 바탕 으로 한 새로운 동작 인식 시스템이 속속 등장하고 있 다[5]. 하지만 이러한 시스템들 역시 뇌신경회로의 정보 처리 과정을 모방해서 설계한 특징들을 이용하기 때문 에, 서론에서 언급한 설계된 특징들의 단점을 그대로 나 타낸다고 볼 수 있다. 2.2 심층학습 기법을 적용한 동작 인식 최근 들어 기계학습 분야에서 주목 받고 있는 심층 학습(deep learning, [6-8]) 역시 신경과학적 원리에 그 바탕을 두고 있다고 할 수 있다. 이러한 심층 학습 알 고리즘들 역시 동작 인식 연구 분야에서 활발하게 응용 되고 있다. 이러한 심층 학습 기법에서는 심층 네트워 크(deep networks)를 학습시키는 과정에서 자연스럽게 계층적이고 복합적인 특징들을 학습하게 되는 특성이 있다. 이들 중에서 특히 CNNs (Convolutional Neural Networks, [7])를 3차원으로 확장시켜서 동작 인식에 적용 시킨 연구가 주목할 만하다[9]. 하지만 [9]에서는 CNNs의 가장 하위 단에 연구자들이 직접 설계한 특징들을 적용 시켰기 때문에 앞에서 언급했던 설계된 특징들의 단점 을 그대로 나타내고 있다. 또한 CNNs는 주로 감독학습 (supervised learning) 기법으로 학습시키기 때문에, 다 량의 분류된 데이터(labeled data)를 준비해야 한다는 단점이 있다. 분류된 데이터를 준비하기 위해선 사람이 직접 상당한 시간과 노력을 들여야 하기 때문에, 이는 감독학습 기법에 있어서 큰 단점으로 작용한다. 2.3 무감독학습 기법을 적용한 동작 인식 위에서 언급한 각종 동작 인식 기법들의 단점을 해결 하기 위한 접근법으로서 무감독학습 기법이 최근 들어 주목 받고 있다. 무감독학습 기법에서는 실험 데이터로 부터 유용한 시 공간적 특징들을 직접 학습하기 때문에 다량의 분류된 데이터를 준비할 필요가 없을뿐더러, 설 계된 특징이 가지고 있는 단점들을 효과적으로 극복할 수 있는 것이다. 본 논문에서 사용한 핵심 알고리즘이 바로 이러한 무 감독학습에 기반한 시 공간적 특징 학습 기법이다[1]. 특히 특징 학습을 위한 무감독학습 기법으로 택한 ISA [10] 알고리즘은 뇌신경회로에서 일어나는 정보처리 원리 와도 깊은 관련이 있기 때문에, 앞서 언급했던 다양한 기법들의 장점을 취하면서 단점을 극복할 수 있는 효과 적인 접근법이라 할 수 있겠다. 3. 요리 동작 영상 데이터 본 논문에서 사용한 영상 데이터는 뮌헨공과대학(Technische Universität München, TUM)의 IAS(Intelligent Autonomous System) 그룹 Michael Beetz 교수 팀이 제작했다. 실험을 위하여 실제 사람이 빵, 오이, 치즈 등 의 재료를 이용하여 샌드위치를 만드는 과정을 카메라 를 이용해서 세 방향(A,BC)에서 촬영하였다(그림 1). 동작 인식 및 분류를 위해서 사람이 샌드위치를 만드 는 과정에서 특징적인 동작들을 총 9개의 범주로 분류 하였고, 이를 정리한 것을 표 1에서 찾아볼 수 있다. 4. ISA 기반 요리 동작 인식 4.1 Independent Subspace Analysis ISA 알고리즘[4]은 이미지 패치로부터 유용한 특징 (features)들을 학습하는 무감독학습 알고리즘이다[1]. ISA 알고리즘은 구조적으로 ISA 네트워크라는 2-계층

436 정보과학회논문지 : 컴퓨팅의 실제 및 레터 제 19 권 제 8 호(2013.8) 여기에서 입력 패턴 은 whitening 된 입력 예 제들이다. n, k, m 은 각각 입력 차원(input dimension), simple units 개수, pooling unit 개수를 나타내며, 따라 서 W k n, V m k 이다. 식 (2)의 orthonormal constraint는 ISA 알고리즘에 의해 학습된 특징들의 다 양성을 보장하는 조건으로서, 수학적으로 자세한 설명을 원할 경우 [11]을 참고하면 된다. 그림 1 세 방향에서 촬영한 샌드위치 요리 과정. Normthresholding interest points detection 결과가 함께 표시되어 있다(본문 참조). Fig. 1 Sandwich-making videos from three different angles. Norm-thresholding interest points detection results are also represented 4.2 Stacked Convolutional ISA 앞에서 설명한 ISA 네트워크 구조는 작은 크기의 이미지 패치에 대해서는 실용적이지만, 입력 차원이 높아질수록 ISA 네트워크를 학습시키는데 소요되는 시간이 기하급수 적으로 증가한다[1]. 따라서 ISA 알고리즘을 일반적인 크 기의 이미지에 직접 적용시키는 것은 매우 비효율적이다. 이러한 문제점에 대한 돌파구를 [1]에서 심층학습 기 법[7]을 통해 마련했다. 즉, 입력 데이터를 작은 차원으 로 세분하여 ISA 네트워크를 적용시킨 뒤, 각각의 결과 값을 취합하여(convolution) 이를 다시 새로운 ISA 네 트워크의 입력 데이터로 사용하는 것이다. 이러한 방식 을 반복하여(stacking) 계층적인 구조를 만들면 이른바 Stacked Convolutional ISA 네트워크가 만들어지고, 이 그림 2 ISA 네트워크의 신경망 구조(참고문헌 [1]의 그림 1에서 차용함) Fig. 2 Architecture for ISA network (adapted from Figure 1 in [1]) 를 통해 높은 차원의 입력 데이터를 효율적인 방식으로 다룰 수 있게 된다(그림 3). [1]에서 제시한 방법을 간략히 설명하면 다음과 같다. 우선 ISA 네트워크를 작은 입력 데이터 패치들에 대해 네트워크(two-layered network)로 나타낼 수 있다[11]. 이 를 신경망(neural network) 구조로 나타낸 것이 그림 2이다. ISA 네트워크 첫 번째 계층의 구성단위를 simple 서 학습시킨다. 이렇게 학습된 ISA 네트워크를 좀 더 넓은 영역의 입력 데이터 패치에 분산 배치하고, 각각의 ISA 네트워크들의 결과값을 취합하여 상위 계층 ISA unit이라고 하며, 주어진 입력 패턴 와 simple unit들 은 학습 가능한 가중치 집합 W로 연결되어 있다. ISA 네트워크 두 번째 계층의 구성단위는 pooling unit이라 고 하며, simple unit과 pooling unit은 일반적으로 미 리 고정된 가중치 집합 V로 연결되어 있다. 주어진 입 력 패턴 에 대해, pooling unit의 활성값(activation) 은 다음과 같이 나타낼 수 있다. (1) ISA 알고리즘은 ISA 네트워크 두 번째 계층의 sparse feature representation을 찾음으로써 첫 번째 계층의 학습 가능한 가중치 집합 W를 학습하는데, 이 때 다음 식을 이용한다. (2) 그림 3 Stacked Convolutional ISA 구조 (참고문헌 [1]의 그림 5에서 차용) Fig. 3 Architecture for stacked convolutional ISA (adapted from Figure 5 in [1])

ISA 기반 시 공간적 학습을 통한 요리 동작 인식 437 네트워크의 입력값으로 사용한다. 그림 3에서도 나타나 있듯이 하위 계층의 출력값을 상위 계층의 입력값으로 사용하는 과정에서 PCA (Principal Component Analysis) whitening 기법을 이용한 전처리 과정(preprocessing step)을 거친다. PCA whitening 기법은 이미지 처리 분야에서 표준적인 전처리 과정으로 사용되는데, 이에 관한 구체적인 설명은 [11]에 나와 있다. Stacked Convolutional ISA 네트워크의 학습 과정은 심층 학습 분야의 각종 문헌[7,9]에서 제안한 greedy layerwise training 기법을 사용한다[1]. 보다 구체적으로, 우선 첫 번째 계층의 ISA 네트워크를 수렴할 때까지 학습시킨 뒤, 이 네트워크를 하위계층에 분산 배치시켜서 Stacked Convolutional ISA를 구성하고, 두 번째 계층의 ISA 네트 워크를 마찬가지로 수렴할 때까지 학습시킨다. [1]에 의하 면 이러한 기법을 통해 학습에 필요한 시간을 기존 24시간 정도에서 2-3시간 정도로 대폭 감소시킬 수 있다. 5. 실험 결과 및 분석 5.1 시 공간적 특징 학습 본 논문에서 사용한 Stacked Convolutional ISA 네트 워크의 파라미터는 [1]에서와 동일하게 설정했다. 우선 Stacked Convolutional ISA 네트워크는 두 계층으로 구 성했다. 하위 계층에서 사용된 ISA 네트워크(ISA1)에 대 한 입력 차원(또는 receptive field)은 16 16 픽셀 공간 차원과 10 프레임 시간 차원을 포괄해서 n =16 16 10= 2,560 으로 설정했고, k = m =300으로 설정했다. 영상 데 이터로부터 무작위로 16 16 10 비디오 블록을 100,000 개 추출해서 ISA1을 학습시켰다(그림 3). 앞서 언급했던 것처럼 2계층으로 이루어진 Stacked Convolutional ISA 네트워크를 학습시키는 데에는 greedy layer-wise training [7,9] 기법을 사용했다. 이에 따라 먼저 하위 계층의 ISA 네트워크(ISA1)를 완전히 학 습시킨 후 상위 계층의 ISA 네트워크를 학습했다. 전체 Stacked Convolutional ISA 네트워크에 대한 입력 차원 n 은 20 20 14 = 5,600 으로 설정했다. 상위 계층에 사용 된 ISA 네트워크(ISA2)를 학습시키기 위해 역시 영상 데 이터로부터 무작위로 20 20 14 비디오 블록 100,000 개 를 추출했다. 앞서 미리 학습시킨 ISA1을 20 20 14 차원 비디오 블록의 각 모서리에 분산 배치하면 2 2 2 총 8개 의 ISA1이 하위 계층을 구성하게 된다(그림 3). 이렇게 배치한 8개의 ISA1로부터 총 200개의 특징값(features) 을 얻고, 이를 다시 상위 계층 ISA 네트워크(ISA2)의 입 력값으로 사용했다. 따라서 ISA2의 입력 차원은 2,400이 된다. ISA2에서는 k = 200, m =100으로 설정했다. 최종적인 시 공간적 특징은 하위 계층의 중간 출력값 2,400 개를 PCA 차원 감소를 통해 100 개로 줄이고, 여 기에 상위 계층 최종 출력값 100 개를 더해서 총 200 개의 값을 이용했다(그림 3). 5.2 Norm-thresholding Interest Points Detection [1]에서는 ISA1의 출력값의 총 합(activation norm) 에 경계값(threshold value)을 적용해서 동작의 움직임이 통계적으로 유의미한 지점(interest point)을 골라내는 이른바 norm-thresholding interest points detecting 기법을 선보였다. 본 실험에서 경계값을 30%로 잡고 동일한 실험을 수 행하였고, 그 결과로 생성된 interest point들을 시각화 한 것이 그림 1에 나타나 있다. 5.3 동작 인식 및 분류 동작 인식 및 분류 역시 [1]에서와 동일한 bag-offeatures SVM (Support Vector Machine) 기법[3]을 사 용했다. 앞에서 학습한 Stacked Convolutional ISA 네트 워크를 영상 데이터에 적용시켜서 국소적 특징(local features)을 계산한 뒤, 이를 K-means clustering 기법으 로 vector quantization 시킨다. 총 9개의 동작 범주 각각에 대한 X 2 -kernel binary SVM을 학습시키고 동작 인식 및 분류를 행한다. A, B, C 세 개의 시점(샌드위치 요리 비디 오를 촬영한 각도) 중 학습 및 테스트 샘플이 준비된 B, C 시점에 대해서만 분류를 행하였으며, 각각은 3-fold cross-validation을 통해 신뢰성을 높였다(표 1). 표 1 샌드위치 요리 비디오의 동작 분류 정확도 (K는 K-fold cross-validation의 실행 회수를 의미) Table 1 Classification accuracy for actions in sandwich making videos (K: K-fold cross-validation) 5.4 결과 및 분석 표 1에 9개 동작 범주 각각에 대한 binary SVM 분 류 결과가 나타나 있다. 표 1에서 확인할 수 있듯이 대 부분의 범주에 대해서 높은 수준의 accuracy를 보였으 며, 총 9개 범주의 성능 척도를 모두 평균해서 계산한 mean accuracy는 대략 90% 초반을 나타냈다. 하지만 동작 범주 별 샘플 분포가 고르지 못하고, 상당수 의 동작 범주에서 샘플의 절대적 개수가 모자라는 악조건 으로 인해 multi-class SVM 분류를 시도하지 못했고, 오 직 binary SVM 분류만 시행되었다. 또한 정확도가 높은

438 정보과학회논문지 : 컴퓨팅의 실제 및 레터 제 19 권 제 8 호(2013.8) 표 2 Hollywood2 비디오의 동작 분류 정확도 Table 2 Classification accuracy for actions in Hollywood2 video dataset 께 인식하는 문맥 인식(context recognition) 역시 중요 한 연구 대상이다. 이러한 문맥 인식에 있어서는 특히 주의집중(attention)이 필수적인 요소로 고려돼야 한다. 이에 관한 인지과학적 협력 연구가 앞으로 활발히 진행 될 것으로 기대되고, 이러한 다학제적인(multi-disciplinary) 연구를 통해 인공지능은 점점 더 인간 수준의 지 능(human-level intelligence)에 다가갈 수 있을 것이다. References 경우에도 학습 및 테스트 샘플 수가 적은 경우 그러한 높은 정확도가 주로 negative example에 의해 성취되었다. 이러한 불리한 조건에도 불구하고 몇몇 동작 범주는 학습 및 테스트 샘플 수도 어느 정도 갖추고 있고 분류 결과도 상당히 좋았다. 따라서 사용한 알고리즘의 성능 을 제한적으로 확인해 볼 수 있었다. 5.5 Self-Taught Learning Paradigm 표 2에서는 Stacked Convolutional ISA 네트워크를 실험 데이터와 전혀 별개인 Hollywood2 데이터[12]를 이용해서 학습시킨 후, 학습된 네트워크를 이용해서 실 험 데이터의 동작을 분류한 결과로서, 표 1과 비교해 봤 을 때 큰 차이가 없는 것을 확인할 수 있다. 이러한 접 근은 [1]에서도 언급된 self-taught learning paradigm [13]의 측면에서 생각해 볼 수 있다. Self-taught learning paradigm 이란 무감독학습 단계에서 실험 데이터와 전혀 별개의 새로운 데이터를 이용해서 유용한 시 공간 적 특징들을 학습하는 것을 일컫는다. Stacked Convolutional ISA 네트워크를 비디오 블록에 적용시켜 학습시키면 일반적으로 방위(orientation)와 속 도(velocity)에 선택적(selective)인 움직이는 모서리 탐지 기(moving edge detectors)를 학습하게 되는데[1], 이러 한 특징들이 가지는 일반성으로 말미암아 전혀 관련이 없는 데이터에서도 상당한 성능을 발휘할 수 있게 되는 것이다. 6. 결론 및 향후 연구 본 논문에서는 [1]에서 제시한 Stacked Convolutional ISA 알고리즘을 인간의 요리 동작을 촬영한 영상 데이터 에 적용시켜 보았다. 본 논문에서 사용한 알고리즘은 무감 독학습 측면에서는 분류되어 있지 않은 데이터(unlabeled data)에 유용하게 적용될 수 있다는 장점이 있고, 또한 ISA 알고리즘의 측면에서는 생물학적으로 타당한(biologically plausible) 특징들을 학습할 수 있다는 장점이 있다[1,11]. 본 연구에서는 동작 인식에만 초점을 맞추고 있는데, 순수한 동작 이외에 동작에 수반되는 다른 객체들을 함 [1] Q. V. Le, W. Y. Zou, S. Y. Yeung, and A. Y. Ng, "Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis," Proc. of the Computer Vision and Pattern Recognition, 2011 IEEE Conference, pp.3361-3368, 2011. [2] D. G. Lowe, "Object recognition from local scaleinvariant features," Proc. of the Computer Vision, 1999 IEEE International Conference, pp.1150-1157, 1999. [3] H. Wang et al., "Evaluation of local spatio-temporal features for action recognition," Proc. of the British Machine Vision Conference, p.127, 2009. [4] M. A. Giese and T. Poggio, "Neural mechanisms for the recognition of biological movements," Nat. Rev. Neurosci., vol.4, no.3, pp.179-192, 2003. [5] H. Jhuang et al., "A biologically inspired system for action recognition," Proc. of the Computer Vision, 2007 IEEE 11th International Conference, pp.1-8, 2007. [6] Y. Bengio, "Learning deep architecture for AI," Foundation and Trends in Machine Learning, vol.2, no.1, pp.1-127, 2009. [7] Y. LeCun et al., "Gradient-based learning applied to document recognition," Proc. of the IEEE, vol.86, Issue 11, pp.2278-2324, 1998. [8] Y. Bengio et al., "Greedy layer-wise training of deep networks," Neural Information Processing Systems 19, p.153, 2006. [9] S. Ji et al., "3d convolutional neural networks for human action recognition," IEEE Transactions; Pattern Analysis and Machine Intelligence, vol.35, Issue 1, 2010. [10] A. Hyvärinen and P. Hoyer, "Emergence of phaseand shift-invariant features by decomposition of natural images into independent feature subspaces," Neural Comput., vol.12, no.7, pp.1705-1720, 2000. [11] A. Hyvärinen and P. Hoyer, Natural Image Statistics, Springer, 2009. [12] M. Marszalek, I. Laptev, and C. Schmid, "Actions in context," Proc. of the Computer Vision and Pattern Recognition, 2009 IEEE Conference, pp.2929-2936, 2009. [13] R. Raina et al., "Self-taught learning: transfer learning from unlabeled data," Proc. of the 24th international conference on Machine learning, pp.759-766, 2007.