284 정보과학회논문지 : 컴퓨팅의실제및레터제 17 권제 4 호 (2011.4) 모바일 UI 를위한 3 축가속도신호의비선형분석과동적베이지안네트워크기반손목움직임인식 (Wrist Motion Recognition based on Nonlinear Analysis of 3D-Acceleration and Dynamic Bayesian Networks for Mobile User Interface) 황주원 민준기 (Ju-Won Hwang) 조성배 (Sung-Bae Cho) (Jun-Ki Min) 요약최근모바일기기에가속도센서가탑재되면서이를활용한제스처기반인터페이스연구가활발하다. 하지만 3 차원공간상에입력되는제스처에는의도하지않은움직임이많이포함되어있어이를정확히분할하거나인식하기어렵다. 본논문에서는이와같은불확실성이포함된시계열데이터를효과적으로인식하기위하여비선형분석방법에기반한동적베이지안네트워크 (Dynamic Bayesian 본연구는지식경제부및한국산업기술평가관리원의산업원천기술개발사업의일환으로수행하였음 (10033807, 다중센서및협업을위한자율학습기반상황인지기술 ) 이논문은제37회추계학술발표회에서 3축가속도신호의비선형분석방법과동적베이지안네트워크를활용한제스처인식 의제목으로발표된논문을확장한것임 학생회원 : 연세대학교컴퓨터과학과 hide9908@naver.com 비회원 : 연세대학교컴퓨터과학과 loomlike@sclab.yonsei.ac.kr 종신회원 : 연세대학교컴퓨터과학과교수 sbcho@cs.yonsei.ac.kr 논문접수 : 2010년 12월 28일심사완료 : 2011년 2월 16일 CopyrightC2011 한국정보과학회ː개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회논문지 : 컴퓨팅의실제및레터제17권제4호 (2011.4) network, DBN) 를사용한다. 제안하는시스템은연속적으로입력되는패턴을제스처단위로분할하는세그먼테이션 DBN 과, 분할된제스처를식별하는인식 DBN 들로구성된다. 이때비선형분석법에의해적응적으로심볼화된패턴정보가각각의모델에입력된다. 본논문에서는제안하는방법을검증하기위해서스마트폰으로부터제스처데이터를수집하고각각의모델을평가하였다. 실험결과세그먼테이션모델과제스처인식모델이각각 89.78% 과 80.23% 의정확도를보였다. 키워드 : 모바일제스처인식, 3 축가속도, 동적베이지안네트워크 Abstract Recently, as accelerometers have been built-in to the mobile devices, studies on gesture-based interface have been actively investigated. It is, however, difficult to segment or recognize gestures accurately since unintentional motions are captured in the 3-dimensional space. In this paper, dynamic Bayesian networks (DBNs) based on the nonlinear analysis are used to recognize the uncertain time-series data effectively. The proposed system consists of a segmentation-dbn, which divides continuous patterns into unit gestures, and multiple recognition-dbns that identify each gesture. Here, the patterns are symbolized by using the nonlinear analysis method, and are inputted into the models. In order to verify the proposed method, we collected gesture data from an accelerometer built-in smartphone and tested the models. As a result, the segmentation and recognition models showed 89.78% and 80.23% of accuracies, respectively. Key words :Gesture Recognition, 3D acceleration, dynamic Bayesian network 1. 서론 최근센서기술의발전으로인해다양한 HCI(Human Computer Interaction) 기술이개발되고있다. 선형가속도계는정해진방향의가속도를측정하는센서로서, 사용자가디바이스를움직이는동작에따라해당가속도정보를획득할수있다. 특히 3축가속도센서는 MEMS(Micro-Electro-Mechanical Systems) 칩의형태로간편하게모바일기기에탑재되어사용자의제스처나동작을인식하는데널리사용되고있다. 모바일제스처기반인터페이스의대표적인예로는 Nintendo사의 Wii와 SONY사의 PS3 게임컨트롤러가있으며, Apple 사의 iphone을포함한대부분의최신스마트폰에도적용되고있다. 가속도센서기반제스처인식은카메라기반시각정보를이용하는경우와는달리움직임의변화를직접계측하면서저전력으로동작이가능하다는장점이있다 [1,2]. 하지만연속적으로입력되는동작패턴을사용자가의
모바일 UI 를위한 3 축가속도신호의비선형분석과동적베이지안네트워크기반손목움직임인식 285 도한제스처명령어단위로분할해야하며, 또한 3차원공간상에입력되는동작정보를가속도값만으로인식하기때문에의도하지않은움직임 ( 비제스처 ) 등의불확실한정보를처리해야한다는어려움이있다. 본논문에서는이를효과적으로해결하기위해동적베이지안네트워크 (dynamic Bayesian network, DBN) 와비선형분석방법에기반한확률기반세그먼테이션모델과제스처인식모델을제안하였다. 2. 관련연구 최근다양한기법을기반으로하는모바일제스처전처리및인식방법들이연구되어왔다. Kim과 Choi는수집한가속도데이터로부터중력가속도를제거한뒤동작구간추출을위해서가속도의값과변화량을동시에고려하였다 [1]. Liu등은 uwave라는모바일제스처 UI 알고리즘을제안하였는데, 사용자가정의한동작을쉽게등록하여사용할수있도록템플릿매칭기반알고리즘인동적시간정합 (Dynamic time warping) 을이용하였다 [3]. 하지만이방법은계산복잡도가크다는단점이있다. Wu등은 12개의제스처셋을정의한뒤, 지지벡터기계 (Support vector machines), 동적시간정합, 나이브베이즈 (Naive Bayes), 결정트리 (Decision tree C4.5), 은닉마르코프모델 (Hidden Markov-model) 의인식성능을비교분석하였다 [4]. 이때, 은닉마르코프모델을제외한나머지방법은시계열데이터의특성을정확히모델링하기어렵다는단점이있다. 기존의방법들은사용자가의도하지않은동작인비제스처에의한불확실성을고려하지않았다. 이와같은노이즈를해결하기위해가속도센서를주된정보로활용하면서동시에다른착용식센서정보를결합하기도한다 [5]. 본논문에서는불확실한시계열정보를처리하기위해동적확률모델을적용하였다. 3. 제안하는방법본절에서는모바일기기로부터입력된가속도신호를비선형분석기반세그먼테이션 DBN모델을이용하여제스처단위로구분한뒤, 각세그먼트로부터추출한특징과인식 DBN모델들을이용하여해당제스처를식별한다. 그림 1은제안하는시스템의전체순서를보여준다. 3.1 특징추출및비선형분석방법가속도센서정보는연속해서입력이들어오기때문에세그먼테이션이필요하다. 이와같은연속패턴을처리하는일반적인방법이슬라이딩윈도우 (Sliding window) 방법이다. 본논문에서그림 2와같이겹치는슬라이딩윈도우방법을이용하여연속되는가속도데이터를처리하였다. 이때윈도우의크기 n과겹치는범위 k는예비 그림 1 제안하는제스처인식방법순서그림 2 슬라이딩윈도우를이용한가속도데이터처리실험에의해각각 20과 10(50% 겹침 ) 으로설정하였다. 3축가속도데이터는센서의민감도에의한잡음과중력가속도등이포함되어있어이를제거하거나인식알고리즘에적합한다른차원의특징으로변환하여사용해야한다. 제안하는방법에서는각윈도우로부터가속도평균, 절대평균, 표준편차, 에너지, 공분산, 인접한점간의가속도변화량, 윈도우시작과끝점에서의가속도방향차이를계산하여 21개의특징 (3축 7종류 ) 을추출한다. 이때중력에의한가속도를동작가속도로부터분리하고동작특징을증폭시키기위해 T-1과 T 두시점의윈도우에해당하는각특징의차이를계산하여 T 시점윈도우의특징값으로사용한다. 예를들어사용자가모바일기기를가만히들고있을때 T 시점에서의가속도평균을그대로특징으로사용할경우 (x, y, z) = (0, 0, 9.8) 이되지만, T-1과 T 의차이를계산하면 (0, 0, 0) 이되어감지되는동작이없음을알수있다.
286 정보과학회논문지 : 컴퓨팅의실제및레터제 17 권제 4 호 (2011.4) 특징값을확률기반모델의입력으로사용하기위해서는심볼화 (Quantization) 를해야한다. 여기에서각심볼은확률네트워크의입력노드상태를나타낸다. 제안하는방법에서는앞에서설명한대로특징값을계산한후에비선형분석방법을적용하여각각의특징값을 10개의심볼중하나로변환 (Quantization) 한다. 일반적으로비제스처와제스처는특징값의분포가다르기때문에그림 3과 4와같이비선형적으로분석하여심볼화한다. 이를위해비제스처와제스처에해당하는학습데이터 를이용하여각각의특징종류별로최소값, 상위 25%, 상위 50%, 상위 75%, 최대값에해당하는다섯개의기준값을추출한다 ( 그림 3). 이와같이추출한기준값은그림 4의그래프와같이비제스처 / 제스처두모델이겹치는구간에집중되게되어분별력있는심볼을생성할수있다. 다섯개의비제스처기준값과다섯개의제스처기준값 ( 합하여 10개의기준값 ) 은비선형적으로특징값을심볼화하며, 이렇게변환된 10 종류의심볼들은확률기반모델의증거값으로입력된다. 3.2 동적확률모델기반제스처인식베이지안네트워크 (BN, Bayesian network) 는중요한변수들간의확률관계를노드와아크 (arc) 로표현하는방향성비순환그래프형태이며, 노드마다정의된조건부확률테이블에의해적은비용으로변수간의인과관계를효율적으로표현할수있는모델이다 [6]. DBN은 BN 변수들의시간적관계를고려한모델로, 불확실한시계열데이터를다루는데효과적이다. 따라서본논문에서는제스처인식을위한세그먼테이션모델과인식모델에 DBN을적용한다. 그림 3 비선형분석과정 (a) 현재시점 (T) 에서의세그먼테이션네트워크구조 그림 4 Non-motion 과 Gesture 의확률값설정과정 (b) 시간정보를고려한전체세그먼테이션네트워크구조 그림 5 세그먼테이션네트워크
모바일 UI 를위한 3 축가속도신호의비선형분석과동적베이지안네트워크기반손목움직임인식 287 먼저한시점의가속도특징값들을고려하여세그먼테이션네트워크의구조를그림 5의 (a) 와같이설계하였다. 그후움직임특징들의시간적인인과관계를고려하여그림 5(b) 와같이확장한다. 앞에서설명한각윈도우에서추출한특징심볼값들을세그먼테이션네트워크에입력하여현재시점에서의사용자움직임이비제스처인지제스처인지를구분한다. 슬라이딩윈도우가이동하는매시점마다인식을수행하며, 연속된세시점이상에서제스처로구분된경우실제제스처가입력중인것으로판단하고인식모델을수행하게된다. 인식모델을위해각각의제스처를인식하는 L개 ( 인식하려는제스처의클래스수 ) 의 DBN을사용한다. 이때모델의구조는그림 5의세그먼테이션네트워크와동일하며, 조건부확률테이블의값은해당제스처의학습패턴에대한비선형분석결과를이용하여각각다르게설정한다. 최종인식은행동별로구성되어있는네트워크중가장확률값이높은것으로수행한다. 4. 실험및결과 4.1 실험환경실험을위해먼저그림 6과같이여섯종류의제스처를정의하였다. 각제스처는모바일기기의 UI로적용하였을때모바일컨텐츠를브라우징하기에직관적이고적합하도록동작을구성하였다. NB, NF, NL, NR는디바이스를한방향으로가볍게휘둘렀다가복원 (snap) 하는동작이고, BD와 BU는디바이스를아래 (BD) 혹은위 (BU) 로가볍게직선왕복운동 (bounce) 하는동작이다. 실험을위한데이터는 3축가속도센서가부착된삼성전자의 T-Omnia 스마트폰을이용하여수집하였다. 5명의피험자로부터각제스처별로 10회씩, 2일동안수집하여총 600개의동작샘플을획득하였다. 수집한데이터의 2/3는학습데이터로사용하였고 1/3은테스트에사용하였다. 4.2 세그먼테이션네트워크성능평가먼저제안한방법중세그먼테이션모델을평가하기위해연속적으로입력받은데이터를비제스처와제스처로구분하는실험을수행하였다. 시계열데이터특징들의전후관계를고려하지않은경우표 1과같이정밀도, 재현률, 정확률이 86% 정도의성능을보였다. 이경우동작이비제스처에서제스처로넘어가는구간과반대로제스처에서비제스처로넘어가는구간에서주로오류가발생하였다. DBN을통해시계열정보를모델링하였을때표 2와같이성능이향상되는것을확인할수있었다. 표 1 확률기반세그먼테이션모델의성능정밀도 (%) 재현율 (%) 정확률 (%) 88.4 88.2 86.17 표 2 시계열정보를고려한세그먼테이션성능정밀도 (%) 재현율 (%) 정확률 (%) 89.8 90.2 88.2 4.3 제스처네트워크의선결정인식평가표 3은각제스처인식기의성능평가결과를보여준다. 실험결과모든제스처클래스에대해서평균약 80% 의인식률을보임을확인하였다. 사람에따라제스처를크게입력하거나작게입력하기도하고, 천천히움직이거나빠르게움직이는등편차가매우컸다. 동작이큰경우상대적으로이전제스처와다음제스처사이의멈춤동작도길어서세그먼테이션이정확하게수행되었다. 하지만동작의크기와상관없이천천히움직이는경우에는가속도크기가작아서비제스처와제스처의구분이모호하여오인식이많이발생하였다. 표 3 확률기반제스처인식네트워크성능 그림 6 인식기성능평가를위해정의한제스처동작 ( 상 ) 과각제스처별가속도센서값의예 ( 하 ) 정밀도 (%) 재현율 (%) 정확도 (%) BD 80.5 82.8 78.9 BU 82.2 75.0 75.2 NB 79.1 71.6 68.9 NF 82.0 84.5 75.2 NL 77.2 75.0 68.3 NR 80.4 78.0 72.3
288 정보과학회논문지 : 컴퓨팅의실제및레터제 17 권제 4 호 (2011.4) 5. 결론및향후연구본논문에서는사용자의제스처를가속도센서가탑재된모바일기기의 UI로활용하기위해확률기반시계열인식모델을적용하는방법을제안하였다. 정확한인식을수행하기위해먼저연속적으로입력되는동작정보를제스처와비제스처로구분한뒤, 제스처패턴에대해인식모델을적용하였다. 이때각모델의동작오차를해결하고자제스처와비제스처, 그리고각제스처클래스의학습패턴을비선형구분방법으로분석하여동작특징을심볼화하였다. 실제모바일기기로부터수집한가속도데이터를이용한실험결과패턴의비선형분석방법과시계열확률모델을사용하였을때좋은성능을보임을확인할수있었다. 제스처인식성능을향상시키기위해서는정확한제스처검출 ( 세그먼테이션 ) 이선행되어야한다. 실험결과에서확인한바와같이특징들의시간적인인과관계를고려하면알고리즘의성능을향상시킬수있으며, 따라서데이터기반으로시계열확률모델의구조를학습하도록방법을확장시킬필요가있다. 향후연구로는제안하는모델의확장및기존의패턴인식알고리즘들과의비교를통한검증을수행할계획이다. 또한, 제스처기반인터페이스를모바일기기상에실제구현하였을때의사용성에대한평가도필요하다. [1] S. K. Kim and S. J. Choi, "HMM-based motion recognition with 3-D acceleration signal," Journal of KIISE: Computing Practices and Letters, vol.15, no.3, pp.216-220, 2009. [2] B. Choe, J.-H. Hong, and S.-B. Cho, "Accumulative dynamic time warping for 3-axis accelerometer based gesture recognition," Proc. of The 36th KCC, vol.36, no.1(c), pp.562-565, 2009. [3] J. Liu, L. Zhong, J. Wickramasuriya, and V. Vasudevan, "uwave: Accelerometer-based personalized gesture recognition and its applications," Pervasive and Mobile Computing, vol.5, pp.657-675, 2009. [4] J. Wu, G. Pan, D. Zhang, G. Qi, and S. Li, "Gesture recognition with a 3-D accelerometer," Proc. Ubiquitous Intelligence and Computing 2009, LNCS 5585, pp.25-38, 2009. [5] Z. Xu. and C. Xiang, "Hand gesture recognition and virtual game control based on 3D accelerometer and EMG sensors," Proc. of IUI 09, pp.401-405, 2009. [6] M. L. Wong, W. Lam, and K. S. Leung, "Using evolutionary programming and minimum description legnth principle for data mining of Bayesian networks," IEEE Trans. on Pattern Analysis and Machine intelligence, vol.21, no.2, pp.174-178, 1999. 참고문헌