목 차 1. 서론 1 2. 관련연구 3 2.1 라이프로그 3 2.2 Latent Dirichlet Allocation 4 2.2.1 추론 6 2.2.2 근사추론 7 2.3 Bigram 토픽모델 10 3. 확률적상황모델링 13 3.1 문제정의 13 3.2 센서데이터수집 14 3.3 codeword 생성 15 3.3.1 평균화 16 3.3.2 군집화 17 3.4 학습알고리즘 19 3.4.1 깁스샘플링 20 3.4.2 주제별단어정렬 21 4. 실험 22 4.1 데이터및실험설계 22 4.2 개인의행동패턴분석 23 4.3 지역방문목적예측 27 5. 결론및향후과제 29
< 표차례> 표 표 표 1 센서데이터종류및설명 13 2 실험데이터 18 3 요일분류정확도 19 < 그림차례> 그림 1 LDA 의그래프표현 4 그림 2 LDA 와 BTM 의그래프표현차이 8 그림 그림 그림 그림 그림 그림 4 일상의센서데이터예시 11 5 상황모델링시스템 12 6 행동기록기 13 7 깁스샘플링학습과정 16 8 요일별행동유형 19 9 방문목적예측 20
1. 서론 과거사람들이일상을기록하기위해 PC를사용하는경우대부분의데 이터는텍스트또는정지이미지의형태였다. 하지만, 근래저장장치기 술의발달로저렴해진저장장치를이용하여음성, 동영상등대용량멀 티미디어데이터로일상기록하는것이가능하게되었다. 이와같이다 양한형태의데이터를활용한일상기록이가능해지자많은연구자들 [1,2,3] 은이와같이개인의일상을기록할수있는라이프로그시스템 을개발하기시작했다. GPS, 카메라, 오디오, 전화통화내역및사용자 의기록데이터등다중센서로부터사람의행동을데이터베이스에기록 하고, 기록된데이터로부터원하는정보를얻는것이기본적인라이프 로그플랫폼의목적이었다. 그러나사람의일상컨텍스트(context) 를인식하기위해사용된다양한센서장치들은일상생활에서쉽게사용하기 어려운장치로구성된것이일반적이었으며, 라이프로그플랫폼은실생 활에적용되기어려우며관련된연구자들에의해제한적인형태로만활 용되었다. 하지만, 이에비해휴대전화는사람들이항상휴대하는기기 이며, 기술의발달로다양한센서를탑재한스마트폰이관심을받으면서 모바일기기를이용한사람의행동을기록하는연구는큰전환점을맞이 하게된다. MIT media lab 의 Reality Mining 프로젝트 [4] 는이러한흐름을 반영한대표적인연구라고할수있다. 최근, 스마트폰의대중화에힘입 어개인의행동, 대화, 움직임등의실시간데이터를처리할수있는기 계학습기술 [5] 에큰관심이집중되고있다. 만약스마트폰을휴대한사 용자의패턴을찾아낼수있다면, 다양한서비스로연결이가능할것이 다. 예를들어, 스마트폰의다양한센서를통해수집된데이터로부터현 1
재사용자가출근길인것을추론하고, 출근길교통정보를통해빠른길 을안내하거나, 주말에자주이용하는영화관에서상영하는영화에대한 정보를알려주는등의서비스를제공할수있다. 본논문에서는휴대전 화의다양한센서데이터를이용하여사람들의행동패턴을분석할것이 다. 최근텍스트, 이미지등여러데이터분석을위해활발하게연구되 고있는토픽모델 (Topic Models) 을이용해서행동패턴에숨겨져있는 구조를분석할것이다. 본논문의구성은다음과같다. 2장에서는라이프로그에대한관련연구와통계적추론방법에대한관련연구를소개한다. 3장에서는센서 데이터의특성및전처리방법을설명하고, 이를이용한토픽모델기반 확률적상황모델링방법을기술한다. 4장에서는실제환경에서수집된 스마트폰센서데이터를사용한실험의결과를분석한다. 마지막으로 5장 은본논문의결론및향후연구방향을논의한다. 2
2. 관련연구 2.1 라이프로그 개인의삶을디지털기기로기록하려는라이프로그연구로많은연구들 이진행되었다. 그중대표적인연구로 MyLifeBits[6] 프로젝트가있다. 위프로젝트는개인의삶을특징지을수있는모든항목들을저장및인 출가능한데이터베이스를만드는것이목적이다. 초기에는문서, 사진, 비디오등과같은디지털데이터로쉽게변환가능한자료부터웹방문 기록, 모니터에활성화중인문서에대한마우스및키보드입력정보, 실내대화등보다다양한데이터로정보수집의범위를확장해나아갔 다. 또한 2006 년에는실시간으로데이터수집, 화상카메라촬영정보 저장및건강관리등의응용에활용되었다. 사람이사용할수있는모든디지털기기로부터정보를취득하려했던 MyLifeBits 연구와달리다양한센서를장착한휴대전화로부터정보를 수집하려는연구또한진행되었다. Reality Mining 프로젝트는 Nokia 6600 스마트폰에미리설치된소프트웨어를통해약 9개월동안 100명 의 MIT media lab 구성원들의통화기록, 근접한블루투스(Bluetooth) 장 치, 기지국번호, 애플리케이션사용내역, 휴대전화상태정보를수집했 다. 특히, 집과직장에해당하는장소의기지국번호를함께기록함으로 써시간에따라기록된기지국정보를통해휴대전화사용자의위치를 알수있는데이터를구축했다. 전체데이터크기는휴대전화를약 450,000 시간동안사용한분량에해당하며, 위데이터를바탕으로사 회적관계추론, 사용자행동모델링[7] 등다양한연구가이루어졌다. 3
2.2 Latent Dirichlet Allocation 문서내단어정보를바탕으로문서의은닉변수에해당하는주제 (topic) 를밝혀내는무감독학습법(Unsupervised Learning) 으로 Latent Dirichlet Allocation[8] (LDA) 모델이많은주목을받고있다. 여기서은 닉변수인주제는의미적으로유사한문서에서자주함께등장하는단어 들의집합이며, 수작업으로문서에대한정보를추가하지않은오직단 어사이의동시발생빈도를바탕으로은닉변수를학습한다. LDA 는문 서의은닉주제를찾기위한기존방법인 Latent Semantic Indexing[9] (LSI), 확률적 LSI[10] (plsi) 방법의약점인과적합(overfitting) 현상및 데이터증가에따른모델매개변수증가현상을해결하면서도다층베이 지안모델 (Hierarchical Bayesian models) 을기계학습분야에적용한좋은 예이다. 그림 1은 LDA 모델의그래프표현이다. 전체데이터는 D 개의문서로 이루어져있으며, 각문서 d 는 N d 개의단어 로구성 된다. 그리고각단어는우리가관측할수없는주제 z 로부터생성된다 고가정한다. 즉, 하나의문서는다수의주제로구성되어있으며, 문서의 주제분포에따라생성되는단어의빈도가결정되는것이라고할수있 다. 이와같은방식으로하나의문서가생성되는과정을정리하면다음 과같다. 4
그림 1 LDA 의그래프표현. 각원은확률변수를나타내며, 어두운색의원은 관측데이터이다. 말뭉치(corpus) 는 D 개의문서로이루어져있으며, 각문서는 N 개의단어로나타낼수있다. 말뭉치를구성하는주제는 K 개이다. 1. 선택 2. 문서를구성하는 N개의단어에대해서 ㄱ) ㄴ) 주제 단어 선택 선택 전체문서는 K 개주제로표현가능하다고할때, 먼저하나의문서에 포함된주제의분포 를디리슐레(Dirichlet) 분포로정의한다. 그뒤문 서내의모든단어에대해ㄱ), ㄴ) 과정을반복한다. 먼저주제분포 를매개변수로하는다항(multinomial) 분포로부터주제인덱스를선택 한다. 선택된주제인덱스를기반으로다항분포 에서단어인덱스를선택한다. 정리하자면, Blei et al. 제안한모델은위와같은과정으로부 터문서가생성된다고가정하고, 문서의생성과정을모델링을한것이 다. LDA를이용해서문서분류 (document classification) 뿐만아니라학습을 통해주제간의관련성을파악하는등여러응용이가능함을보였다. 또 한, LDA 는문서모델링을위해고안된학습법이지만다른종류의이산 (discrete) 데이터에다양하게적용되었다. 특히, 이미지[11], 음악[12] 등 5
의분야에은닉변수학습을위해베이지안확률모델을적용할수있음 을확인하였다. 이외에도중력가속도센서또는위치정보센서로부터 수집한데이터의은닉변수를학습하기위한 LDA 응용연구도있다. 이 를이용해사람의행동분석을가능하게하는것이기본적인연구목적 이다. T. Huynh et al[13] 은일상생활의반복적행동을인식하기위해 3 차원가속도센서를착용한사람의상위레벨, 예를들어, 출근길, 점 심식사등의행동을보다세부적인행동으로부터추론이가능하다는것 을보였다. 또한, 모바일폰사용자의데이터로부터장소기반행동패턴 을발견하는연구 [14] 가이루어졌다. 2.2.1 추론 베이지안확률모델에서관측데이터가주어졌을때비관측데이터에 대한확률을계산하는과정을추론 (inference) 라고한다. 앞서설명한모 델은단어들이주어졌을때추론을통해문서의주제분포, 각단어가 속한주제및각각주제의단어분포에대한사후분포를계산한다. 사 후분포를계산하기위해서사용되는것이바로베이즈법칙 (Bayes' rule) 이다. H 는모델이고, D 는데이터를나타내는확률변수 (random variable) 라고할때, 베이즈법칙은다음과같다. 위식에서알수있듯이사후분포를계산하기위해서는결합분포 (joint distribution) 와데이터에대한주변분포(marginal distribution) 를알고있어 야한다. 그림 1의 LDA의그래프표현에서알수있듯이하나의문서에 6
대한사후분포는아래와같이정리할수있다. 결국, 사후분포를계산하려면결합분포 를은닉변수 에대해서주변화 (marginalize) 한 를계산해야한다. 은닉변수에대한주변분포 는 를함께고려하는경우 다. 개의상태공간 (state space) 값에대한계산이현실적으로불가능하 그렇기때문에사후분포를계산하기위해서는근사추론을해야한 다. LDA 의사후분포를근사추론하기위한방법으로는대표적으로베 이지안변칙추론 (variational Bayesian inference) 과마코프연쇄몬테카를 로 (Markov chain Monte Carlo: MCMC) 가있다. 2.2.2 근사추론 실제적으로다뤄지는대부분의확률모델은정확추론 (exact inference) 이불가능하다. 그렇기때문에원래모델의근사형태로접근해야한다. 이때, 사용할수있는방법중하나는결정적(deterministic) 근사기반의추론이며, 다른하나는샘플링기반의추론이다.[15] 본논문에서는샘 7
플링기반추론의널리사용되고있는 MCMC 방법중하나인깁스샘 플러 (Gibbs sampler) 를사용한다. 먼저모든은닉변수 에대한사후분포를결정하기위해서는많 은계산을필요로하기때문에, 가장관심있는확률변수인주제 z 에 대한사후분포로결정한다. 다른은닉변수인 에대해각각적분한 결과로얻을수있는가장관심있는은닉주제 에대한사후분포를 다음과같이정의할수있다. 깁스샘플러는특히비관측확률변수가여러개인경우에다른샘플링 방법보다효과적으로사용된다. 하나의문서가 N 개의단어로구성되어 있을때, N 개의은닉주제에대한사후분포를다음과같이계산한다. 전체 N 개단어의주제를결정하는과정을샘플추출과정이라고할때, 미리지정된반복횟수만큼샘플추출과정의반복을통해사후분포계 산이가능하다. 위에서정의한사후분포를계산을통해알수있다면, 우리는단어가주어졌을때어울리는주제가무엇인지확인할수있다. 샘플을추출하기위해서는완전조건부분포 (full conditional distribution) 를정의할필요가있으며, 디리슐레- 다항분포간의관계(conjugate prior) 로부터다음과같이유도가능하다. 8
여기서 는문서에서 n 번째등장하는단어 의사전 (dictionary) 인 덱스가 v 인경우에 을제외한나머지단어들중주제가 k 이면서, 사 전인덱스가 v 인단어의수를나타낸다. 이와유사하게 는문서 d 의 n 번째단어를제외하고해당문서에서주제가 k 인단어의빈도를 나타낸다. 지금까지기술한깁스샘플러의샘플추출과정으로얻은샘플을이용하 면샘플링과정에서배제된확률변수 를추정할수있다. 수식및 그래프표현정의에따라다음의조건부분포를전개할수있다. 위식에서 와 는다항분포이며, 와 는디리슐레분포이다. 그리고 를전개해서얻은결과를이용하면우리가알고싶은확률변수, 를다음과같이얻을수있다. 9
2.3 Bigram 토픽모델 LDA 는문서의단어들은서로독립적으로생성된다는 bag-of-words 가 정을기반으로한다. bag-of-words 가정하에만든모델은의미기반문 서분류및이미지분류에서좋은성능을보여주는것을확인할수있 다. 하지만이와같은가정은문제를단순화하기위한비현실적인가정 이며, 특히단어의순서또는의존성을고려해야하는경우에문제가된 다. 그림 2 LDA( 왼쪽) 과달리 Bigram Topic Model( 오른쪽) 은단어간의의존성을 가정한다. Bigram 토픽모델 [16] (BTM) 은기존의토픽모델의 unigram 모델을 확장하여단어간의존성을 1 차마코프연쇄로표현한모델이다. 그림 2 의왼쪽모델은 LDA 이며, 오른쪽은 BTM 모델을하나의문서에대한 그래프표현을한것이다. LDA 는관측단어들이 에만영향을받으 며, 단어들사이에는연관관계가없다고가정한다. 10
하지만, BTM에서는 뿐만아니라 n 번째단어는이전단어 n-1 번째 단어에도영향을받는다고가정한다. 단어사이의 2차이상의고차마코프연쇄가정이필요한경우에는연 속적인 bigram을연결하는방식으로해결이가능하다. 이처럼단어사이 의의존성을고려한모델을사용한다면단어 가주어지는경우단 어 을추론하는것이가능하다. BTM 모델에서단어가주어졌을때주제에대한사후분포의추론과정 을설명하기전에먼저전체문서의단어와주제에대한결합분포를다 음과같이정의한다. 은닉주제를추론하기위해서앞서설명한 LDA 의깁스샘플러의경우와 마찬가지로정의된결합분포로부터깁스샘플러의완전조건부분포를유 도할수있다. n 번째단어 v 의주제를추론할때, n-1 번째단어 v' 을고려해서샘 플추출과정을수행하는것이 LDA 와다른점이라고할수있다. 11
마지막으로, 깁스샘플러를수행하여얻은샘플을기반으로은닉확률변 수 를다음과같이추정할수있다. 12
3. 확률적상황모델링 이번장에서는센서데이터수집및수집된데이터전처리과정에대해 기술하며, 나아가토픽모델을이용한휴대전화사용자행동모델링기 법에대해설명할것이다. 3.1 문제정의 사람의일상은대부분유사한패턴을지니는것이일반적이다. 이동경 로및시간, 고정된위치의좌표및함께지내는사람들의수와같은정 보는일정한기준내에서좁은범위내에서변화하는값이라고생각할 수있다. 그렇기때문에우리는어떤사람의유형을정의하고그사람의 생활패턴을추측해볼수있다. 다양한센서데이터는현재휴대전화사용자의환경에대한정보를제 공한다. 예를들어, 사용자가달리는버스안에있다면 GPS 위도, 경도 값이계속변화하며, 가속도센서의값은버스의진동에따라그크기가 결정될것이다. 그리고사무실과같은실내에있는경우, 사용자근처의 전자기기의유무에따라자기장센서값이변화하며, 인식된무선 AP 에대한정보도수집가능할것이다. 이처럼최근다양한센서를탑재한 스마트폰을이용하는경우, 과거의위치정보센서를주로사용하던것과 비교해풍부한상황인식 (context-aware) 정보를얻을것으로기대해볼수 있다. 즉, 수집한센서정보를통해현재사용자의행동또는상황에대 한추론이가능할것이다. 본논문에서는수집된센서정보를바탕으로휴대전화사용자의패턴을 학습하는방법에대해기술한뒤, 학습된모델로부터사용자별패턴의 특징을알아본다. 13
그림 3 상황모델링시스템. 스마트폰사용자가센서데이터를추론서버에업로드하면학습엔진에서사용자의현재상태등을추론하고현재상태에적절한행동등을추천하는시스템. 3.2 센서데이터수집 휴대전화의센서데이터수집을위해개발된센서데이터수집기는 11 가지의정보를수집한다. 수집하는센서의종류및내용은표 1과 같다. 아래표의센서값은일정한주기로수집이되는정보이며, 센서의종류에따라수집되는정보의값의종류는물론값의형태및 범위등이모두다르다. 14
센서종류설명 GPS 절대위치( 위도, 경도) 및속도 PRX ACC ILL ORI MAG AUL BAT WIFI BLT PKG 근접유무움직임변화량단위면적당빛의밝기휴대폰의방향자기장의세기주변소리의크기현재배터리잔량및충전케이블연결유무검색가능한무선인터넷정보주변블루투스기기정보사용한응용프로그램이름 표 1 센서데이터종류및설명 센서데이터수집상황 (context) 정보를얻기위해행동기록기(Activity Logger) 를이용해서현재행동, 이동수단, 현재위치, 동행인정보를 기록한다. 사용자가입력한 4가지상황정보는실험결과분석등에 활용가능하다. 3.3 codeword 생성 BTM 은데이터가동일한형태를갖는이산데이터를다루는모델이다. 앞장에서소개한센서데이터수집기로수집한데이터는 17차원의값 으로표현되며, 각차원의값은서로다른형태(heterogeneous) 의값이다. 또한, 동일한형태의값이라하더라도값의크기가다르기때문에센서 데이터를동일한형태의데이터로변환하기위한단계가필요하다. 15
그림 4 행동기록기. 왼쪽부터현재행동, 이동수단, 현재위치, 동행인정보를 기록하기위한프로그램화면이다. 미리정의한목록외에추가적인항목을입 력할수있다. 3.3.1 평균화 본논문에서사용한센서데이터는 10초에한번씩수집된데이터를 사용한다. 즉, 센서데이터수집기는 10초마다 GPS, 가속도센서등의 정보를주기적으로기록한다. 주기적으로기록된정보는변화량이크기 때문에슬라이딩윈도우 (sliding window) 기법을사용해서평균화 (smoothing) 를한다. 데이터 은센서데이터수 를 윈도우 W 에대해이동거리 s 만큼윈도우를이동시켜서평균화를 수행한다. j 번째윈도우를다음과같이데이터에적용한다. 윈도우의크기가 W, 윈도우이동거리가 s 인평균화과정을 수행하면 N 개의센서데이터는 개의평균화된데이터로 변형된다. 16
3.3.2 군집화 데이터평균화과정을거쳐서얻은데이터는여전히연속적이며다차원 의값이기때문에, 단일이산화값을입력으로갖는 BTM에적용하기어 렵다. 이문제를해결하기위해잘알려진군집화(clustering) 기법인 k-means 군집화알고리즘 [17] 을사용한다. 평균화후생성된데이터 는윈도우의수 에 k-means 군집화알고리즘을적 용하면각군집 k 를대표하는데이터 C k 가결정된다. 평균화된데이 터 D W 의모든데이터에대해서아래와같이가장유사한군집대표인 덱스 k 를할당한다. 군집화과정을통해모든데이터 에가장유사한군집번호를할당하 면할당된군집번호 k 의값만 수로생각할수있다. 1 인(one hot representation) 다항확률변 17
그림 5 다차원센서데이터를이산화된단일값으로변경. 18
3.4 학습알고리즘 지금까지확률적상황모델링을위해필요한모듈별알고리즘및수식 에대한설명을기술하였다. 더나아가, 모델링시스템내에서각모듈 의상호관계를정의함으로써전체적인시스템의개요를제공한다. 먼 저, 휴대장치, 여기서는스마트폰에서수집한센서데이터를상황모델 링서버에하루단위로저장한다. 일정기간동안저장된데이터를학습 데이터로사용하며센서데이터값의급격한변동을완화하기위해평균 화과정을수행한다. 평균화된데이터를기반으로코드북을생성하기위 해군집화알고리즘을적용하고, 생성된코드북을이용하여평균화된데 이터에인덱스를추가하는이산화과정을추가한다. 앞서기술한모든 과정을통해다차원실수값데이터는이산화된일차원데이터로변환된 다. 그림 6 상황모델링방법의순서도. 19
이산화된일차원데이터를토픽모델 BTM에적용하여은닉변수인상황에대해학습을하고, 결과적으로상황모델을얻을수있다. 3.4.1 깁스샘플링 사후분포학습을위해필요한충분한수의독립적인샘플을추출하기 위해깁스샘플링에서는사후분포확률이정지분포 (stationary distribution) 에접근하기전의샘플을버리는 burn-in 구간을적용하였다. 또한, 독립적인샘플을추출하기위한방법으로 50회의샘플링추출간 격을유지하며샘플을주기적으로추출하였다. 그림 7 깁스샘플링과정에서추출한샘플을기반으로데이터확률을계산한결과. 샘플링과정을반복할수록데이터의확률이증가하는것을확인할수있다. 20
3.4.2 주제별단어정렬 깁스샘플링을통해얻은 행렬중 행렬을이용하기위해서는확 률을기준으로내림차순정렬을한다. 이때, 다수의주제에서단어 (codeword) 의생성확률이높다면주제별로분류또는의미분석과정에 방해가된다. 그렇기때문에다수의주제에서높은확률을갖는단어들 에적절한벌칙을부과할필요가있다. 다음식으로각주제의단어확 률을수정하면이미널리알려진 tf-idf와유사한형태의효과를얻을수있다. 21
4. 실험 4.1 데이터및실험설계 본논문에서는휴대전화센서데이터로부터패턴발견이가능한것을 보이기위해두가지실험을수행한다. 한명이지속적으로수집한센서 데이터와특정지역( 인사동) 에서여러사람이다양한활동을하면서수 집한센서데이터를사용한다. 첫번째데이터는한명의피실험자가약 6 주동안수집한데이터이다. 하루동안수집된데이터의수가너무적은경우를제외하고, 35 일간( 약 600 시간) 수집한데이터를사용한다. 두번째데이터는연인과데이트, 외국인에게인사동소개, 그리고전통제품구매과같은세가지시나리 오중한가지시나리오를수행하는동안수집된데이터를모은것이다. 6명의피실험자가시나리오순서별로 4, 5, 4 번, 총 13개의실험데이 터를수집하였다. 데이터 1 데이터 2 수집기간약 6주 2주 수집인원( 명) 1 6 샘플수 35 개( 약 600 시간) 13 개( 약 45 시간) 표 2 실험데이터 22
4.2 개인의행동패턴분석 라이프로그연구의일환으로, 약한달반동안수집한첫번째센서 데이터세트를이용하여개인의생활에대한패턴분석을수행하였다. 하루동안수집된데이터의수가상대적으로부족하거나, GPS 센서의미 작동에서기인하는위치정보손실의정도가큰경우및휴일을제외한 날에수집된데이터는 9월 28일부터 11월 2일까지총 18 일치이다. 단어 (codeword) 생성을위해평균화및군집화작업을수행하였으며, 이번 실험에서는사용되는단어의수 V 는 500, 상황의수 K는 10으로임의 로결정하였다. 그리고사후확률분포추론을위해 500회의깁스샘 플링샘플추출과정을반복하였다. 그림 8 일상생활을이루는대표적상황 4 가지의분포비율. 10월 4일에는오 후에연구실에서머무르는비율이아주높은것으로볼수있다. 23
위실험결과에서볼수있는각상황에대한이름은상황을이루는단 어의분포를바탕으로결정한이름이다. 각상황의단어분포를내림차 순으로정렬한후상위 5개단어의유형을판단하여결과적으로상황에 대한이름을지정할수있었다. 몇가지상황에대해상위에분포된단 어의형태는표 4 에서확인할수있다. 전체 8개의상황중 4개의상황 에대해서만그비율을그림으로나타냈으며, 각각정오시간대에실외 에서정지중, 실외에서이동, 오후에연구실에있거나오후에집으로 이동또는집에머무르는상황을나타낸다. 대표적인 4가지상황을제외 한나머지 4가지상황은휴대전화사용자가주로연구실에있는정보를 제공하거나, 다소다양한상황에속하는단어의혼합적인분포를보여주 기에제외하였다. 우리가그림 12에서보는것처럼센서데이터로부터추론한하루의상 황분포에대한정보를얻을수있다면, 사용자에게본인의일상에대한 요약된정보를제공할수있다는큰장점이있다. 또한위실험을확장 하여요일분류가가능하면오늘무슨요일인지판별하고사용자의행동 중해당요일에가장큰비율을차지하는상황에서적절한행동또는상 황에맞게장소추천등이가능하다. 24
[ 단어번호: 확률] 시간위도경도이동속도근접움직임크기밝기자기장 x 자기장 y 자기장 z 상황 1: ( 정오시간대) 실외에서정지중 [333: 0.007366] 7.2 37.398462 126.966517 4.03 0.02 3.01 40 9.57-16.52 26.33 [166: 0.006395] 18.2 0.000000 0.000000 0.00 0.00 10.78 0 28.25-23.18-57-15 [386: 0.006368] 11.0 37.448793 126.952225 0.00 0.00 0.00 1280-51.31-3.87-7.68 [ 56: 0.005794] 14.0 37.448942 126.951953 1.16 0.07 0.17 1261-41.87-19.28 0.97 [340: 0.005549] 6.76 0.000000 0.000000 0.00 0.01 0.17 0-1.66 9.99-15.39 상황 3: 오후에연구실에있음 [135: 0.010381] 10.2 37.349948 126.980930 1.80 0.00 0.00 40 11.12 35.43-4.68 [ 25: 0.006863] 13.5 37.448648 126.952102 10.94 0.00 0.00 40-37.87-2.93-23.87 [445: 0.005547] 15.6 37.449049 126.952463 2.06 0.06 4.03 59-19.72-0.74-16.64 [ 34: 0.004859] 13.0 37.448831 126.952193 2.70 0.00 0.00 40-24.93-0.61-34.82 [165: 0.004859] 19.0 37.448943 126.951951 0.90 0.00 7.94 40-27.70 5.71-18.42 표 3 낮시간에실외에서움직임이없는상황과오후에연구실에있는상황에서확률적으로상위에위치한단어 와그단어가대표하는센서값. GPS 센서로취득한위도, 경도값과움직임의크기가작고, 밝기가대략 40 lux, 그리고자기장의값을고려해볼때주변에전자기기가있고형광등을사용한실내조명환경인것을유추할수 있다. 그리고마지막으로 GPS 값을통해실제위치를확인할수있다. 이와같은정보를조합하면상황 3은대체 적으로오후에연구실에있는상황인것을유추해볼수있다. ( 마지막항목인주변소음의크기는센서오작동 으로동일한값을갖고있음을주의 ) 25
그림 9 상황 3 의상위두번째단어(25 번) 의 GPS 위도(37.448648), 경도 (126.952102) 의위치는서울대학교제 2 공학관임을알수있다. 26
4.3 지역방문목적예측 본논문에서제안한모델이무감독학습을통해은닉변수의패턴을찾 아낼수있음을보이기위해, 학습으로발견한은닉변수로특정지역방 문목적을분류하는실험을수행하였다. 분류기준은앞서이야기한 3 가지인사동방문목적 - 데이트하기, 외국인관광가이드, 선물구입 중어떤목적으로인사동을방문한것인지맞추는것이다. 먼저, 실험에 서사용될대조군으로서단어빈도수 (term frequency: TF) 를자질값 (feature) 으로갖는다차원문서를정의하였다. 예를들어, 전체단어의 수가 5개인문서 을 로변환해서표현 한다. 위와같은방법으로정의한 13개실험데이터를방문목적에맞게 분류하기위해대표적인감독학습알고리즘인 SVM[18] 을적용하였다. 실험군으로확률토픽모델 LDA 와 BTM 의사후분포학습으로부터알 수있는다항확률변수 를사용하여방문목적분류실험을계획하였다. 그리고대조군과마찬가지로실험군도 SVM 을이용하여방문목적을분 류하였다. 적은수의데이터를이용해서학습을하기때문에모델의분 류정확도를계산하기위해 10 분할교차검증법(10-fold cross validation) 을활용하였다. 이와같이분류정확도를계산할수있었으며, 그림 15 는 TF 모델과두토픽모델의평균교차검증정확도를나타내고있다. 그중 BTM 이가장뛰어난성능을보이는것을알수있다. 우리는실험으로부터상황 (situation) 변수를학습하는방법이상대적으로 더좋은분류성능을보여주는것을확인하였다. 이것은사후분포추론 을통해학습한은닉변수 가방문목적분류에도움이되는것을알 아보기위한실험이다. 일반적으로무감독학습의결과를평가하기위 해, 학습된은닉변수를이용하여분류성능을향상시킬수있음을보이 27
는것이일반적인결과검증법중하나이다. 그렇기때문에본실험에서 도마찬가지로특정지역( 인사동) 방문목적의분류성능을비교하는것 으로무감독학습의결과를평가한다. 그림 10 방문목적분류에대한평균교차검증정확도. BTM, LDA 를포함하는토픽모델은상황의수가 20 개이상인경우에 은닉변수를고려하지않은 TF 모델보다좋은성능을보인다. 또한모든 단어를독립으로가정한 LDA 모델은단어의 1차마코프연쇄를가정한 BTM 모델에비해낮은분류성능을보이는것을확인할수있다. 28
5. 결론 우리는다양한센서로부터수집한실생활데이터를이용하여은닉변수 인상황을모델링할수있는방법을제안하였으며, 사용자의상황을추 론할수있음을실험을통해확인하였다. 실생활센서데이터에내재된 패턴 사용자의상황 을학습하며또한노이즈에강건한시스템을위 해확률모델을적용하였다. 본논문에서적용한다층베이지안모델인 토픽모델은텍스트마이닝분야는물론이미지내사물인식 (object recognition) 등다양한분야에서활발하게연구중이며다양한분야에적 용하기위해변형된모델이제안되고있다. 다차원이며시계열특성을 갖는센서데이터를토픽모델에적용하기위해평균화및군집화과정 을통해이산화된단위로변형하였으며, 그결과로하루동안수집한센 서데이터를단어 (codeword) 의순열로바꿔서표현하였다. 그리고이와 같은변형된센서데이터를토픽모델에적용하여휴대전화사용자의상 황을무감독방식으로학습할수있음을보였다. 특히, 단어간연관성 을고려한토픽모델인 BTM 은그렇지않은 LDA 에비해은닉변수 를이용한분류문제에서더좋은성능을보였다. 이를통해, 토픽모델 을이용하여학습한은닉변수가일상생활에서수집한센서데이터에대 해의미있는정보를포함하고있음을알수있다. 29
참고문헌 [1] N. Kern, B. Schiele, H. Junker, P. Lukowicz, and G. Tröster, "Wearable sensing to annotate meeting recordings", Personal Ubiquitous Computing, vol. 7, no. 5, pp. 263-274, 2003 [2] K. Aizawa, Datchakorn, Tancharoen, S. Kawasaki, and T.Yamasaki, "Efficient retrieval of life log based on context and content", In proceedings of the 1st ACM workshop on Continuous archival and retrieval of personal experiences, pp. 22-31, 2004 [3] S. Hodges, L. Williams, E. Berry, S. Izadi, J. Srinivasan, A. Butler, G. Smyth, N. Kapur, and K. Wood, "SenseCam: A Retrospective Memory Aid", In proceedings of 8th International Conference on Ubiquitous Computing, pp. 177-193, 2006 [4] N. Eagle and A. Pentland, "Reality Mining: Sensing Complex Social Systems", Personal and Ubiquitous Computing, vol. 10, no. 4, pp. 255-268, 2006 [5] T. M. Mitchell, "Mining Our Reality", Science, 326, pp. 1644-1645, 2009 [6] J. Gemmell, G. Bell and R. Lueder, MyLifeBits: a personal database for everything, Communications of the ACM, vol. 49, no. 1, pp. 88-95, 2006 [7] N. Eagle and A. Pentland, "Eigenbehaviors: Identifying Structure in Routine", Behavioral Ecology and Sociobiology, vol. 63, no.7, pp. 1057-1066, 2009 [8] D. M. Blei, A. Y. Ng, and M. I. Jordan, "Latent Dirichlet Allocation", 30
Journal of Machine Learning Research 3, pp. 993-1022, 2003 [9] S. DeerWester, S. T. Dumais, G. W. Furnas, T. K. Landauer, and R. Harshman, "Indexing by latent semantic analysis", Journal of the American Society for Information Science, vol. 41, no. 6, pp. 391-407, 1990 [10] Thomas Hofmann, "Probabilistic latent semantic indexing", In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pp. 50-57, 1999 [11] Fei-Fei Li and Pietro Perona, A Bayesian Hierarchical Model for Learning Natural Scene Categories, In Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 524-531, 2005 [12] D. Hu and L. Saul, "A probabilistic topic model for unsupervised learning of musical-key profiles", In Proceedings of International Society for Musical Information Retrieval, pp. 441-446, 2009 [13] T. Huynh, M. Fritz, and B. Schiele, "Discovery of activity patterns using topic models", In Proceedings of the 10th International Conference on Ubiquitous computing, pp. 10-19, 2008 [14] K. Farrahi and D. Gatica-Perez, "What did you do today?: discovering daily routines from large-scale mobile data", In Proceeding of the 16th ACM International Conference on Multimedia, pp. 849-852, 2008 [15] C. M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006 [16] H. Wallach, "Topic modeling: beyond bag-of-words", In Proceedings of the 23rd International Conference on Machine Learning, pp. 977-984, 31
2006 [17] T. Kanungo, D. M. Mount, N. Netanyahu, C. Piatko, R. Silverman, and A. Y. Wu, "An efficient k-means clustering algorithm: Analysis and implementation", IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, pp. 881-892, 2002 [18] R.-E. Fan, P.-H. Chen, and C.-J. Lin, "Working set selection using the second order information for training SVM", Journal of Machine Learning Research 6, pp. 1889-1918, 2005 32