NUI 시스템을위한키넥트센서기반제스처인식 NUI 시스템을위한키넥트센서기반제스처인식 Gesture Recognition based on Kinect Sensor for NUI System 조선영 1) 1) 1) ㆍ김서영ㆍ남다예ㆍ서민지ㆍ최연지ㆍ이현정ㆍ김보형 연세대학교 1) ㆍ풍문여자고등학교ㆍ명덕여자고등학교 1) 멘토: 변혜란ㆍ이호준ㆍ전연옥ㆍ이미란 연세대학교 1) ㆍ풍문여자고등학교ㆍ명덕여자고등학교ㆍ마이크로소프트 4) 초록 본논문에서는키넥트센서기반의제스처인식을통한구글스트리트뷰제어유저인터페이스시스템을제안한다. 제스처인식은키넥트를통해획득된이용자의관절정보로부터제스처를표현하는특징을추출하는단계와, 추출한특징에기반하여제스처를인식하는단계로구성되어있다. 먼저관절정보특징추출단계에서는어깨를중심으로하는격자공간내에서사람의인체구성비를고려한손의상대적위치기반특징을제안한다. 제안하는특징은입력영상의단순한절대좌표정보가아닌각관절간상대적위치와인체구성비를고려한손의위치특징을이용하였기때문에, 사용자의영상내위치와회전변화에도강인한장점을가지고있다. 제스처인식단계에서는은닉마르코프모델알고리즘을적용하여제안하는특징에기반한제스처카테고리분류를수행한다. 제안하는제스처인식방법은구글스트리트뷰제어인터페이스에적용함으로써더직관적인실감형 NUI 시스템을구성할수있음을보였다. This paper proposes a user interface system for Google street view control using gesture recognition based on Microsoft Kinect sensor. The gesture recognition is consists of feature extraction and gesture recognition steps from Kinect s skeleton information. In feature extraction step, we propose a feature that consists of the position of hands relative to shoulder in grid space. Since the proposed feature is not absolute but relative position information, our feature is robust to position and rotation variations. In gesture recognition step, we classify the gesture categories using a Hidden Markov Model. We apply our gesture recognition into Google street view 517
WISET 주니어과학기술논문집 control interface and show that the interface can be more intuitive augmented NUI system. 키워드: NUI, 제스처인식, 구글스트리트뷰, 키넥트 Ⅰ. 서론 최근정보가더욱더다양하고방대해짐에따라사용자는습득한정보를빠르게이해하고활용을하는것이매우중요하다. 이러한정보전달및가공에있어서 NUI (Natural User Interface) 기술이점점중요해지고있다. 정보획득및가공기술이복잡해질수록기술과사용자사이의간격은점점넓어지는데, 이러한간격은더직관적이고쉬운인터페이스기술을통해해결이가능하다. 이러한인터페이스기술은의류, 교육, 의료분야와같은다양한산업분야에서생산성을높이고, 기술과사용자들과의간격을줄이기위한방안으로 NUI 기술들을적용및각분야에특화된기술로접목하는추세이다. NUI 시스템은기존의사용자인터페이스시스템과는달리사용법을익히기위하여특별히외우거나별도로학습해야하는부분없이일상생활에서사용하는동작들을기반으로직관적인사용이가능한사용자인터페이스를뜻한다. NUI 시스템을위해카메라영상, 다양한센서, 터치스크린, 뇌파, 음성등을이용한다양한기술이적용될수있다. 본연구에서는다양한 NUI 응용시스템의기반기술중에하나인팔및손제스처인식기술을이용한 NUI 응용인터페이스를제안한다. 기존의제스처인식연구에서는 CCD 및 CMOS 카메라에서획득할수있는정보들을가공하여제스처인식하는데이용하였다. 하지만최근카메라센서기술의발달로단순한색상기반정보가아닌영상의깊이정보, 즉 3D 정보까지이용할수있는기술이개발되어이에기반한제스처인식및자세추정연구가많이이루어지고있다[1-3]. 깊이기반특징추출방법에는스테레오카메라를이용한방법과, 별도의깊이정보를획득할수있는센서를부착한방법으로나눌수있다. 특히 2010년 Microsoft 사에서출시한키넥트(Kinect) 라는카메라센서는가격이저렴하고깊이정보뿐만아니라이정보를한번더가공한관절정보까지함께제공해준다. 키넥트를이용하면기존의신체부위검출및자세추정방법보다쉽게이용자의신체부위검출과자세추정이가능하다. 키넥트는 Microsoft에서제공하는 SDK를이용하며사용법이쉽고간단하기때문에다양한 NUI 응용기술에사용된다. 특히 Xia[4] 는키넥트를통해획득한깊이정보를이용하여 3차원얼굴영역을모델링하여얼굴영역을검출한 518
NUI 시스템을위한키넥트센서기반제스처인식 후에영역증가알고리즘을적용하여몸전체의영역을검출및추적하는방법을제안하였다. 키넥트는깊이영상뿐만아니라색상정보도함께제공한다. Oikonomidis[5] 는키넥트가제공하는깊이정보와색상정보를함께이용하여손의피부색으로손영역을검출하고깊이정보를이용하여 3차원관절구조를추적하는연구를진행하였다. 위와같은기반기술연구외에도제스처인식기술을이용한 NUI 응용기술연구도활발히진행되고있다. 로봇에키넥트를설치하여로봇과사람간의상호작용을제스처인식을통해가능하게하는시스템이개발되었다 [6]. 또한 Sung[7] 의연구에서도로봇에직접키넥트를설치하여사람의보조에필요한로봇시스템에제스처를사용하는연구가진행중이다. 본논문에서는키넥트를이용한환경에서제스처를인식하고이를응용한구글스트리트뷰제어시스템을제안한다. 그림 1. 구글스트리트뷰의예. Ⅱ. 1. 실험및방법 스트리트뷰분석 다양한인터넷포탈에서는다양한스트리트뷰서비스를제공한다. 그중구글에서제공하는구글스트리트뷰서비스는 API 사용이편리하며, 전세계대부분지역의스트리트뷰이미지를제공한다. 하지만구글스트리트뷰 API[8] 에는전진, 방향전환등의이벤트를처리해줄수있는적절한함수가없다. 따라서구글스트리트뷰이미지 API[9] 를함께사용하여스트리트뷰의이미지를한장씩불러오도록하였다. 구글스트리트뷰이미지 API는스트리트뷰영상의크기, 해당스트리트뷰위치의위도와경도이용하여해당지점의스트리트뷰영상을제공한다. 또한추가적인파라미터로써 heading, pitch를이용하여쳐다보는방향, 각도까지고려한스트리트뷰영상을제공한다. Heading은해당위도, 경도에서사람이바라보는방향으로, 가능한값으로는 0에서부터 360 이고, 0과 360 은북쪽을뜻한다. Pitch는해당지점에서위, 아래를바라보는각도를의미한다. 가능한값은 +90에서 -90 이고, +90 은수직으로위를볼때를, -90은수직으로아래를볼때를의미한다. 본논문에서정의한각제스처는각각에해당하는스트리트뷰영상의변환을수행한다. 오른쪽이동동작이인식이되면 Heading 변수를조정하여스트리트뷰 519
WISET 주니어과학기술논문집 는오른쪽으로돌아가며, 반대로왼쪽이동동작이인식이되면왼쪽으로돌아간다. 또한전진동장이인식이되면스트리트뷰내에서전진을한다. 2. 그림 2. 특징추출 인체구성비특징 본논문에서는제스처인식연구를위하여마이크로소프트사에서제공하는 Kinect SDK의 NUI Skeleton API[10] 를사용하여사용자의관절정보를획득한다. NUI Skeleton API를이용하여획득한관절위치정보중어깨의위치정보를이용하여어깨의중심으로부터인체구성 비율을고려한양팔간의일정한격자공간을형성한다. 사용자의제스처인식을위해구성된격자공간내에서각손의위치를검출하고이격자공간으로부터의상대적인손의위치를제스처인식의특징으로활용하도록하였다. 그림 2에서나타난어깨로부터의각격자공간은하나의문자로표현이되며연속적으로표현된이문자들이하나의제 스처로모델링이된다. 3. 제스처모델 2절에서추출된특징은입력되는연속한영상에서프레임단위로획득이된다. 이러한연속된프레임의각각의특징시퀀스가하나의제스처모델이된다. 각제스처모델을생성하는방법은추출한특징을기반으로은닉마르코프모델 (Hidden Markov Model, HMM)[11] 을이용하여제스처모델링을수행한다. 각제스처에대한 HMM 상태(state) 의개수는제스처의패턴에따라달라지지만본논문에서는 3 개로형성이되었다. 제스처 HMM은 Baum-Welch[11] 알고리즘을이용하여학습하였다. 먼저각제스처인식을위해서는제스처의시작점과끝점을알아야한다. 이를위해서비제스처와제스처를구분하는 HMM 모델을하나더추가하여먼저제스처인지아닌지부터판별한다. 그림 3은제스처와비제스처를구분하는방법을보여주고있다. 입력시퀀스 에서다음시퀀스 이입력이되었을때각제스처모델의우도확률과비제스처모델의우도확률을비교한후모든제스처 HMM 모델이비제스처모델의확률보다높을때 을제스처의마지막입력으로정의한다. 제스처와비제스처구분단계가끝난후에는각제스처에해당하는 HMM 모델 을이용하여새프레임입력 t가있을때 520
NUI 시스템을위한키넥트센서기반제스처인식 마다어깨를중심으로구성된격자공간내의손의상대적인위치정보를인덱스화하여각 HMM 모델을통해사후확률 를계산한다. 이때 는각제스처에해당하는 HMM 모델을나타내며 는제스처시작시점부터현재프레임까지의인덱스시퀀스이다. 제스처입력이있을때마다제스처분류를수행하기위해서는하나의인덱스시퀀스가가지는각제스처모델에서의로그우도함수가최대가되는모델이최종제스처로인식이된다. 식 arg (1) (1) 에서 는인식된제스처결과이고, 는정의된제스처의클래스인덱스를나타낸다. 본논문에서는왼쪽이동, 오른쪽이동, 걷기세가지의제스처동작을정의하였다. 제스처인식단계에서한팔의특징만사용하는왼쪽, 오른쪽이동제스처와는달리걷기제스처는두팔의특징모두를사용한다. 이러한차이로인하여, 각팔마다 HMM 모델을따로생성하여인식하였는데, 걷기동작은두팔의 HMM모델각각마다걷기제스처를인식하도록하여두팔모두걷기제스처로인식이되었을때최종적으로걷기제스처로인식한다. 4. 구글스트리트뷰 NUI 본논문에서는위에서제시한제스처 인식알고리즘을이용하여구글스트리트뷰를더실감적이고직관적으로이용할수있는이용자환경을제공하도록하였다( 그림. 그림 3. 제안하는스트리트뷰 UI 기존의키보드와마우스를사용하던 GUI 시스템대신별도의입력장치없이키넥트센서하나만을이용한 NUI 시스템을구성하였다. 실제구글스트리트뷰를모니터화면속을걷는동작으로이용할수있다. Ⅲ. 1. 결과및토론 실험데이터셋수집 실험데이터는제스처인식모델을학습하기위한학습용데이터와실제성능을검증하기위한테스트용데이터로나누었다. 실험데이터는마이크로소프트키넥트센서를이용하여직접촬영하였다. 각제스처마다 6명의다른사람이촬영하였고, 각사람마다 20번 반복하여촬영을수행하였다. 그림 5는 521
WISET 주니어과학기술논문집 직접촬영한데이터셋의샘플영상을보여준다. 그림 4(a) 는왼쪽이동제스처, 그림 4(b) 는오른쪽이동제스처, 그림 4(c) 는걷기제스처이다. 각각의제스처는 120 개의시퀀스로구성되어있다. 촬영환경은카메라삼각대 1.5m의높이에서키넥트센서의적정거리 1.5m~3m까지의 2. 스트리트뷰 NUI 그림 4에서 보여주는 제안하는 스트리트뷰 UI는 먼저 제스처 인식 프로그램을만들고, 원하는스트리트뷰 이벤트를위하여구글스트리트뷰이미지 API 를이용하였다. 구글스트리트뷰 API 자체에는키보드이벤트를지원하지않기 때문에 키보드 이벤트를 지원하는 스트리트뷰 이미지 API 를 이용하였다. 키보드 이벤트를 이용하여 스트리트뷰 이미지의회전, 이동기능을수행하도록 프로그래밍 하였다. 제스처 인식 프로그램과 스트리트뷰 프로그램은 키보드이벤트를통하여연동이된다. 그림 5은제안하는스트리트뷰 NUI의 흐름도를 보여준다. 특정 제스처가 인식되면, 출력결과가키보드이벤트로 맵핑이되어구글스트리트뷰로전송된다. 전송된키보드이벤트정보를이용하여 스트리트뷰 내에서 영상의 이동이 발생하는 방식으로 NUI 시스템이 동작하게된다. 그림 4. 실험데이터셋 거리에서촬영을수행하였다. 제스처인식에있어서다양한학습데이터수집은아주중요한단계중하나이며, 연구결과의일반화를위하여최대한다양한인물, 배경, 환경등에서수집을하는것이연구결과에도움이된다. 3. 그림 5. 스트리트뷰 NUI 흐름도 제스처인식결과 그림 6은제스처인식프로그램의실행화면이다. 키넥트센서를통해촬영되는 522
NUI 시스템을위한키넥트센서기반제스처인식 이용하였다. 제안하는특징은절대적위치가아닌인체구성비를고려한관절간상대적위치를이용함으로써, 사용자의영상내위치와회전변화에도강인한장점을가질수있었다. Ⅳ. 결론 그림 6. 제스처인식프로그램프레임이화면에나타나고해당프레임의관절정보를이용하여제스처인식을수행한다. 본논문에서는제스처인식에사용하는특징으로어깨를중심으로격자공간에대한손의상대적위치를 본논문에서는키넥트센서를이용한 제스처인식알고리즘을제안하고, 이를 구글 스트리트뷰 제어 시스템에 적용하였다. 제안하는 제스처 인식 알고리즘은인체구성비를고려한상대적 위치 기반 특징을 통해 제스처를 효율적으로표현하였다. 제스처특징은 은닉마르코프모델을이용하여제스처 클래스로 분류하였다. 직접 촬영한 데이터셋을이용하여제스처인식모델 학습및테스트를수행하였고, 해당실험 환경에서 잘 동작함을 확인하였다. 제안하는제스처인식알고리즘은구글 스트리트뷰를제어하는데적용하였다. 제스처 인식 모듈과 구글 스트리트뷰 프로그램을키보드/ 마우스이벤트맵핑을 통하여 PC 환경에서구동되도록하였다. 앞으로는더직관적이고풍부한사용자 경험을토대로한 NUI 시스템이더욱 많이개발될것이며, 이에대한기반 기술인 제스처 인식 기술은 더욱 중요해질 것이다. 향후 연구로써, 실생활에 적용 가능한 수준의 높은 정확도와 빠른 속도의 제스처 인식을 위한효율적특징추출및인식알고리즘 523
WISET 주니어과학기술논문집 연구를진행할예정이다. Ⅴ. 참고문헌 [1] M. Siddiqui and G. Medioni, Human pose estimation from a single view point, real=time range sensor, In Workshop on Computer Vision for Computer Games at Conference on Computer vision and Pattern Recognition, 2010. [2]R. Munoz-Salinas, R. Medina-Carnicer, F.J. Madrid-Cuevas, and A. Carmona-Poyato, "Depth silhouettes for gesture recognition," Pattern Recognition Letters, vol.29, no.3, pp.319-329, 2008. [3]P. Suryanarayan, A. Subramanian, and D. Mandalapu,"Dynamic hand pose recognition using depth data," In International Conference on Pattern Recognition, 2010. [4]L. Xia, C.-C. Chen, J.K. Aggarwal, "Human detection using depth information by Kinect," In Workshop on Human Activity Understanding from 3D Data at Conference on Computer Vision and Pattern Recognition, 2011. [5]I. Oikonomidis, N. Kyriazis, and A.A. Argyros,"Efficient model-based 3D tracking of hand articulations using Kinect," In British Machine Vision Conference, 2011. [6]M.V. Bergh, D. Carton, R.D. Nijs, N. Mitsou, C.Landsiedel, K. Kuehnlenz, D. Wollherr, L.V. Gool,and M. Buss, "Real-time 3D hand gesture interaction with a robot for understanding directions from humans," In International Symposium on Robot and Human Interactive Communication, pp.357-362, 2011. [7]J. Sung, C. Ponce, B. Selman, and A. Saxena,"Human activity detection from RGBD images," In AAAI 2011 Workshop, 2011. [8]https://developers.google.com/maps/ docum entation/staticmaps/ [9]https://developers.google.com/maps/ docum entation/streetview/ [10]http://www.microsoft.com/en-us/ki nectfor windows [11]L. R. Rabiner, "A tutorial on hidden Markov models and selected applications in speech recognition," Proc. IEEE, vol.77, no.2, pp.257-286, 1989. * 이연구는 ( 재) 한국여성과학기술인지원센터 2013 WISET 여대학( 원) 생팀제연구지원사업의지원을받아수행되었습니다. 524