모바일디바이스상에서의특이성탐지를위한베이지안추론모델 35 모바일디바이스상에서의특이성탐지를위한베이지안추론모델 (A Bayesian Inference Model for Landmarks Detection on Mobile Devices) 황금성 조성배 이종호 (Keum-Sung Hwang) (Sung-Bae Cho) (Jong-Ho Lea) 요약모바일디바이스에서얻을수있는로그데이타는의미있고실속있는다양한개인정보를담고있다. 그러나메모리용량과연산능력의제한, 분석의어려움으로인해이러한정보들은무시되고있는것이일반적이다. 모바일환경의이러한어려움을극복하기위해로그데이타를분산된모듈에서분석하여사용자에게의미있는정보인특이성을탐지하는새로운방법을제안한다. 제안하는방법은불확실한상황에서의추론정확도를향상시키기위해베이지안확률접근방법을채택하고있다. 새로운협력적모듈형기술은모바일디바이스의제한된자원을가지고효율적으로연산하기위해베이지안네트워크를모듈로나눈다. 인공데이타와실제데이타를이용한실험에서인공데이타의경우약 84% 의정확률과약 76% 의재현률을보였으며, 실제데이타에서는부분일치를포함하여약 89% 의일치율을보였다. 키워드 : 모바일디바이스로그, 특이성추출모델, 모듈화된베이지안네트워크 Abstract The log data collected from mobile devices contains diverse meaningful and practical personal information. However, this information is usually ignored because of its limitation of memory capacity, computation power and analysis. We propose a novel method that detects landmarks of meaningful information for users by analyzing the log data in distributed modules to overcome the problems of mobile environment. The proposed method adopts Bayesian probabilistic approach to enhance the inference accuracy under the uncertain environments. The new cooperative modularization technique divides Bayesian network into modules to compute efficiently with limited resources. Experiments with artificial data and real data indicate that the result with artificial data is amount to about 84% precision rate and about 76% recall rate, and that including partial matching with real data is about 89% hitting rate. Key words :mobile device log, landmark extraction model, modular Bayesian network 1. 서론 모바일환경은여러가지면에서기존의컴퓨팅환경과다른특성을가진다. 먼저, 모바일디바이스는통화기록, SMS, 사진, MP3, GPS 등과같은다양한정보를다루고수집할수있다. 또한, 모바일디바이스는개인성이강한장비이므로개인의기호나성향에따라적응되어특화될수있다. 그리고, 모바일디바이스는사용 학생회원 : 연세대학교컴퓨터과학과 yellowg@sclab.yonsei.ac.kr 종신회원 : 연세대학교컴퓨터과학과교수 sbcho@sclab.yonsei.ac.kr 정회원 : 삼성종합기술원 CIL 전문연구원 john.lea@samsung.com 논문접수 : 2006년 9월 29일심사완료 : 2006년 12월 4일 자가항상휴대하기때문에사용자의일상정보를효과적으로수집하고분석하여사용자에게도움을줄수있다 [1]. 이러한모바일디바이스의특성은사용자편의를위한다양한서비스제공의가능성을열어주었고, 최근에는 Nokia 1) 등의기업과많은연구자들에게연구및개발의대상으로관심을받고있다. 특히, 최근인간중심의기술로서활발하게연구되고있는컨텍스트어웨어기술은모바일환경에서더욱많은활용가능성을가지고있다 [2,3]. 따라서, 지능형통화서비스 [4], 메시징서비스 [5], 모바일로그의분석과수집 관리 [1,6-11] 와같은다양한지능형서비스가연구되고있다. 하지만, 모바일디바이스는 PC에비해서적은메모리 1) Nokia LifeBlog 프로젝트, http://www.nokia.com/lifeblog
36 정보과학회논문지 : 컴퓨팅의실제제 13 권제 1 호 (2007.2) 용량, 적은 CPU 처리용량, 작은화면크기, 불편한입력인터페이스, 제한된배터리용량등의한계를가지고있으며, 변화가심한실세계환경에서작동되기때문에더욱능동적이고효과적인적응기능이요구되는점등이개발의어려운요인이다 [12]. 본논문에서는모바일환경에서수집된로그정보를효과적으로분석하고효율적으로고수준의컨텍스트및특이성 (Landmark, 특별히기억에남을정보 ) 을추출하기위한방법을제안한다. 제안하는방법은모바일환경에서발생하는다양한불확실성 (1 실생활의불규칙성, 2 사용자의도및감정의불확실성, 3 센서의불확실성, 4 인과관계의불확실성 ) 을효율적으로다루기위해베이지안 (Bayesian) 확률모델 [13] 을채택하였으며, 베이지안확률모델이모바일환경에서효과적으로동작할수있도록하기위해협력적모듈형베이지안네트워크 (Cooperative modular Bayesian network) 모델을제안한다. 최근로그정보를분석하여향상된서비스를제공하고자하는시도가활발하다. A. Krause 등은모바일디바이스에서수집된센서및로그정보를클러스터링하고사용자의기호를반영하는컨텍스트에부합하도록학습시켜사용자의상황예측및서비스제공을하였다 [6]. 이때컨텍스트에대한서비스선택방법으로베이지안네트워크 (BN) 를사용하였다. 하지만이연구에서는전통적인베이지안네트워크모델을이용하여좁은도메인의분류문제에만적용하고있다. 도메인이큰경우, 전통적인베이지안네트워크모델은높은복잡도의연산을요구하기때문에모바일디바이스에서는어렵다. E. Horvitz 등은베이지안네트워크기술을기반으로 PC의로그데이타에서학습된인간의인식활동모델을만들고이를통해랜드마크를발견하고추론하는방법을제안하였다. 하지만이방법은모델의크기가매우크고복잡하여용량및성능이제한된모바일환경에서그대로사용하기엔제약이많다. 따라서모바일환경에좀더최적화된방법이요구된다. 2003년에모바일환경 에서사용자에대한방해상황 (interruptability) 을나타내는컨텍스트를추론하는모델을개발하였으나, 비교적단순한상황에대해서 2개의 BN을사용한연구였고, 큰규모의컨텍스트추론에대해서는다루지않았다 [14]. 2. 모바일로그데이타분석및컨텍스트생성본장에서는일상생활속에서모바일디바이스에저장되는사용자정보를수집하는방법을정리하고컨텍스트를획득하는방법을제안한다. 컨텍스트는정보의빈도, 지속시간, 발생간격을통계적으로분석하고임팩트수치를계산하여구한다. 얻어진컨텍스트는사용자가하루동안경험한일들을추론하기위한증거로이용된다. 2.1 사용자정보수집표 1은모바일디바이스에서수집되는사용자정보의내용을설명한다. GPS 정보로부터사용자가방문한장소에대한정보를얻을수있으며, Call과 SMS 정보로부터사용자가통화한내역과빈도를구할수있다. 인터넷으로부터얻을수있는날씨정보는사용자가하루중에경험한기분이나상태에영향을미칠수있다. MP3 음악은사용자의감성에영향을주고사진을찍은내역은사용자가기억하고싶은일이있음을알수있다. 사진을본내역은사용자가즐겨보는사진이나그림에대한정보를제공해준다. 표 2는사용자정보의수집방법과주기를설명한다. 사용자정보는수집되는정보의종류에따라서수집주기가다르다. 사진보기나 MP3 듣기내역의경우에는이미지뷰어나 MP3 플레이어프로그램을이용할때마다수집된다. SMS와 Call, 사진찍은내역과날씨정보는하루에한번수집된다. GPS 위치정보와충전상태정보는매 1초마다수집된다. 2.2 컨텍스트생성수집된사용자정보가추론모델이나서비스에이용되기위해서는컨텍스트를생성할필요가있다. 특히 GPS 정보는모바일디바이스에저장된기록만으로는 로그종류 GPS Call SMS 사진보기사진날씨 MP3 충전상태 위도, 경도, 이동속도, 진행방향, 날짜, 시간 표 1 수집되는로그정보 얻을수있는정보 상대방전화번호, 송신 / 수신 / 부재여부, 통화시작 / 종료시간 상대방전화번호, 송신 / 수신여부, 발신 / 수신시간사진파일명, 사진보기시작한시간, 사진닫은시간사진파일명, 사진파일생성날짜 날씨, 시정 (km), 전운량 (%), 현재기온 ( C), 불쾌지수 (%), 체감온도 ( C), 강수량 (mm), 적설 (cm), 습도 (%), 풍향, 풍속 (m/s), 해면기압 (hpa) 노래제목, 시작시간, 종료시간, MP3가시작한위치현재충전량, 충전중인지여부, 현재시각
모바일디바이스상에서의특이성탐지를위한베이지안추론모델 37 표 2 로그수집방법과수집주기 로그종류 수집방법 수집주기 GPS GPS 모듈로부터수집 매 1초마다로그를남김 Call 저장된통화내역을수집 매 1일마다로그를남김 SMS 저장된 SMS 내역을수집 매 1일마다로그를남김 사진보기 이미지뷰어를사용하여수집 매수행시로그를남김 사진 사진파일생성내역수집 매 1일마다로그를남김 날씨 인터넷에서날씨정보를수집 매 1일마다로그를남김 MP3 MP3 플레이어로부터수집 매수행시로그를남김 충전상태 백그라운드프로그램으로수집 매 1초마다로그를남김 사용자의위치를판단할수없고기록되는정보량이많아추론모델이나서비스에서직접이용하기가어렵다. 따라서통계정보와임팩트를이용하여컨텍스트를생성하는방법을제안한다. 또한 GPS 정보로부터사용자의위치를분석하고필요한정보를추출하는방법을제안한다. (1) 통계적분석과임팩트분석로그정보에서빈번하게발생하거나오래지속되는사건, 혹은평소에거의발생하지않는사건이라면사용자에게의미있는일이될수있다. 따라서 하루동안발생한빈도 ( 횟수 ), 하루동안지속된시간의총량, 마지막발생후지난시간 에대해통계적분석을한다. 사용자에게의미있는일은단순히빈도나지속시간만으로판단하기는어렵고, 사건의집중도가사용자에게더욱의미있을가능성이높다. 임팩트는특정사건이발생한빈도에대한집중도를의미하는것이다. 표 3에서는임팩트가증가하는기준과감소하는기준을보여주고있다. 일정시간내로이벤트가연속적으로발생되면임팩트수치는점점증가하게된다. 즉, 임팩트수치로이벤트의빈도와집중도가높은시점을파악할수있다. (2) 위치분석그림 1은본논문에서사용된 GPS 위치정보분석과정이다. GPS 위치정보를도, 분, 초에서 X, Y 좌표로환산하고레이블링된장소인경우에는방문한장소의목록을생성한다. 이때, 연속된데이타인경우에는시작시간, 끝시간을합쳐서통합하여방문한전체시간이계산된다. 그림 1 GPS 정보를이용한사용자위치분석과정사용자가방문한장소들을레이블링하여위치컨텍스트를생성할때장소인식을위해다음과같은 2가지방식을사용하였다. 장소가넓은지역일경우에는다각형방식을, 좁은지역일경우에는중심점방식을사용하였다. 1다각형방식은지역을다각형으로표시하고사용자가그다각형의내부에있을경우그장소를방문한것으로판단한다. 넓은지역의장소판단에사용되었다. 2중심점방식은건물이나지역의중심으로부터의거리가오차허용범위이하일경우건물이나지역을방문한것으로판단한다. 좁은지역의장소판단에사용하였다. 중심점방식의지역인식을위해지역을다각형으로표시하고다각형을이루는점들 (x 1,y 1)~(x n,y n) 의좌표에서다각형의중심점 (x m, y m) 의좌표를수식 (1) 과같이계산한다. 중심점으로부터의거리가수식 (2) 의건물의반경 R보다작은경우에는방문한것으로판단한다. 이때, R은중심점에서다각형의한점까지의거리와 R err ( 건물에들어가기전에 GPS가끊기는경우를고려한오차허용범위 ) 를합하여계산한다. 본논문에서사용한 R err 값은 0.3초 (GPS 거리단위 ) 이다. x m = n i= 1 xi, n y m = n i= 1 yi n R = + (1) 2 2 ( xm x1 ) + ( ym + y1) Rerr (2) 다각형방식으로모든지역의장소인식이가능하지 표 3 임팩트수치의증감. 여기에서임팩트수치변화시간은로그데이타에따라다르게선택되었다. 종류 임팩트수치증가 임팩트수치감소 GPS If (GPS Event) Impact++ If (Impact>0 AND 매1시간 ) Impact-- Call If (Call Event) Impact++ If (Impact>0 AND 매1시간 ) Impact-- SMS If (SMS Event) Impact++ If (Impact>0 AND 매20분 ) Impact-- 사진보기 If ( 사진보기 ) Impact++ If (Impact>0 AND 매5분 ) Impact-- 사진 If ( 사진찍기 ) Impact++ If (Impact>0 AND 매30분 ) Impact-- MP3 If ( 음악듣기 ) Impact++ If (Impact>0 AND 매30분 ) Impact--
38 정보과학회논문지 : 컴퓨팅의실제제 13 권제 1 호 (2007.2) 만, 오차범위에대한고려가쉽지않기때문에면적이좁은장소의경우에는인식이잘되지않는다. 넓은지역에대해중심점방식을사용한경우에는거짓긍정 (False Positive) 오류가크게발생한다. 또한좁은지역에서다각형방식을사용한경우 GPS 좌표의오차를극복하지못하여인식률이떨어진다. 그림 2는실제사용자가방문한좁은장소에대한인식률을비교한결과이다. 중심점방식이대체적으로좋은성능을보였으며, 오차범위가 0.3초일때가장좋은결과를보였다. 그림 3 모바일로그에서의특이성추출과정 그림 2 좁은지역에서의오차허용범위 (x축, 단위초 ) 에따른위치판단의정확도 (y축) 비교실험에사용되는지역의종류를일반화하기위해다음과같은대분류, 소분류, 장소특성항목으로나누어서사용하였다. 대분류장소는소분류장소를포함할수있는넓은범위를의미한다. 소분류장소는대분류장소에포함되며장소특성을가지는항목이다. 이때, 대분류장소 (16개) 는 { 학교, 자연, 운동, 공연, 집, 전자상가, 유흥, 교통, 쇼핑, 외식, 관람, 휴식, 종교, 행사, 일터, 병원 } 이고, 소분류장소 (53개) 는 { 고등학교, 고등학교운동장, 대학교강의동, 도서관, 학교식당, 동아리방, 교문, 노천극장, 집, 사무실, 전철역, 공항, 기차역, 선착장, 병원, 백화점, 길거리농구장, 헬스클럽, 테니스장, 골프장, 운동장, 체육관, 아이스스케이트장안, 스키장, 농구경기장, 축구경기장, 야구경기장, 경마장, 실내수영장, 실외수영장, 절, 교회, 성당, 콘서트장, 연극 / 뮤지컬, 극장, 결혼식장, 묘지, 숲속, 공원, 동물원, 수족관, 박물관, 식물원, 유원지 / 놀이공원, 찜질방, 산정상, 목장, 항구, 해수욕장, 커피점, 패스트푸드점, 식당 } 이며, 장소특성은 { 실내, 실외 } 이다. 3. 모바일로그에서의특이성탐지모바일환경에서수집된로그를분석하여특이성을추출하는과정은그림 3과같다. 모바일디바이스에서수집된다양한로그는전처리를거쳐특이성추론모듈에의해특이성이결정된다. 이때, 패턴인식이나간단한논리규칙에의한특이성추론은 1차전처리모듈에서수행하고, 복잡한확률적추론은 BN에의한특이성추론모듈에서수행하였다. 이는규칙만으로도추출이가능한특이성의경우규칙모듈에서처리함으로써 BN 의복잡도를줄이고 BN에서증거정보로활용할수있도록하기위함이다. BN에의해추론된특이성을분석하고특이성증거로활용하기위해 2차전처리모듈이사용되었다. 이는제안하는협력적모듈형베이지안네트워크구조가 1차, 2차추론과정을거칠때 1차추론의결과를 2차추론의증거로사용하기때문에이를고려한구조이다. 베이지안네트워크는노드의연결관계를표현하는방향성비순환그래프 (DAG: directed acyclic graph) 형태이며, 이구조에따라정의된조건부확률테이블 (CPT: conditional probability table) 에의해적은비용으로많은확률관계를효율적으로표현및계산할수있는모델이다 [13-15]. 그림 4는실제로설계된 BN의예를보여주며, DAG 구조와노드이름, 상태이름, 추론된확률값을보여준다. 3.1 협력적모듈형베이지안네트워크본논문에서제안하는베이지안네트워크는기존의방법과다른점이크게두가지이다. 첫번째, 확률추론모델을분할된도메인에따라모듈화하여사용한다 ( 그림 5). 베이지안네트워크의특성상노드와연결의수가많아질수록더많은컴퓨팅성능을요구하게된다. 특히, 하나의노드에여러원인노드가연결될경우복잡도가 O(k N ) (k는상태의수, N은부모의수 ) 에비례하기때문에 BN이작을수록모바일환경에유리하다. 두번째, 모듈화된 BN에서의상호인과성을반영하기위해그림 6과같은 2단계의추론과정을거친다. 이때특이성증거를좀더정확히반영하기위해가상증거기술을사용하였다. 이방법은확률적인증거를반영하기위해가상노드를추가하여노드의확률값 (CPV: conditional probability value) 을통해증거의확률을적용하는방법이다 [17]. 가상증거기술은그림 7처럼주어진증거가확률적인특성을가진경우이를반영하기위해가상노드를자식노드로정의하여가변적인확률테이블을사용하는
모바일디바이스상에서의특이성탐지를위한베이지안추론모델 39 그림 4 외식지역관련특이성추론을위해설계된 외식지역행동 특이성추론 BN 그림 5 모듈화된베이지안네트워크. 그림에서점선은가상연결에의해연결된노드를표현한다. 가상연결은노드간의확률적인인과관계를반영하기위해 CPT 확률값을조정하여증거를반영한다. 그림 6 협력적모듈형베이지안네트워크추론과정. 괄호안의숫자는포함된 BN의수를의미한다. 점선은 2 단계추론과정을나타내며, 오른쪽그림은 1단계추론결과가 2단계에서여러 BN의증거로사용됨을보이고있다. 방법이다. 본논문에서는베이지안네트워크구조의원형을유지하기위해가장오른쪽형태의가상노드를제안하여사용하였다. 이방법은초기확률값을포기하 는대신확률추가되는노드없이가상증거를반영할수있는방법이며, 루트노드에서만사용이가능한방법이다.
40 정보과학회논문지 : 컴퓨팅의실제제 13 권제 1 호 (2007.2) 그림 7 가상증거기술. 주어진증거가확률적인값을가지고있을경우사용한다. Ver 2를제안하여사용하였다. 예를들어 BN 1 의구조가 {A B C} 이고 BN 2 의구조가 BN 1 의모듈화된구조인 {A B, B C} 인경우, 증거 A가주어졌다면, 제안하는가상증거기술과체인룰을적용하여노드 C에대한믿음 (belief) 을다음과같이계산할수있다 [13]. BN 1 s Bel(C) = P(A,C) = P(C B)P(B A)P(A) (3) BN 2 s Bel(B) = P(A,B) = P(B A)P(A) (4) BN 2 s Bel(C) = P(B,C) = P(C B) P(B) = P(C B) P(A,B) = P(C B) P(B A)P(A) (5) BN 2 s Bel(C) = BN 1 s Bel(C) (6) 이때, 가상증거기술의가정에의해 P(B) = Bel(B) 이다. 수식 (3~6) 을통해모듈화된가상증거기술을사용한 2개의 BN이통합된 1개의 BN과동일한추론결과를냄을알수있다. 3.2 특이성부가정보분석 BN 추론모듈에서추출되는특이성의확률값을통해특이성의신뢰도를알수있으며, 연결관계를통해특이성이추론된배경및인과관계를알수있다. 이때인과성의강도를구분짓고계산하기위해 NoisyOR 가중치를계산하여사용하였다. NoisyOR 가중치는설계및학습비용을줄이기위한베이지안확률테이블계산방법의하나인 NoisyOR BN 모델에서사용되는원인별조건부확률의연결강도 S i 를의미하며수식 (7) 과같이계산된다. S i = ( pi / 0.5) 1.0 (7) 여기서 p i 는원인 x i 가활성화된경우의조건부확률값을의미한다. pi = Pr( y x1, x2, L, xi, L, xn 1, xn ) (8) 3.3 복잡도비교실험에사용된 BN은총 39개로서, 장소별행동추론 BN(19개,{ 관람, 교통, 모임, 바쁨, 병원, 사진, 쇼핑, 연락, 외식, 운동, 유흥, 음악, 이동행동, 일터, 자연, 종교, 집, 학교, 휴식 }), 감정 상태추론 BN(13개,{ 놀람, 당황, 더움, 배고픔, 심심, 아픔, 우울, 짜증, 추움, 취함, 즐거움, 피곤, 화남 }), 주변상황추론 BN(5개, { 공간, 그룹상태, 날씨, 시간, 디바이스상태 }), 이벤트추론 BN(2 개,{ 기념일, 행사 }) 이다. 이 BN들은표 4에서보이는바와같이 638개의노드와 623개의링크, 4,205개의 CPV 로구성되어있다. 하나의 BN으로모델을구성한경우에는표에서와같이 462개의노드를가진다. 모듈화된 BN보다노드수가적은이유는중복된노드가없기때문이다. 하지만부모노드의수와 CPV의크기는증가하기때문에복잡도가크다. 즉, 모듈화된 BN은평균 16.6개의노드와 107.8개의 CPV를이용한추론연산이 39번수행되는데비해단일화된모델은 469개의노드와 4,869개의 CPV를가진추론연산이 1번수행되므로효율성이떨어진다. BN 연산복잡도가노드의수와 CPV의수에비례한다고가정하면, 복잡도 O'(NN NCPV) 는단일 BN 모델의경우 469 4,869=2,283,561인데비해모듈화된 BN의경우는 39 16.6 107.8=69,790이므로단일화된경우에대해약 3% 의복잡도만가지고약 33배의효율성을가진다. 실제모바일환경에서는메모리용량과계산성능의제약으로인해단일화된 BN의복잡도는더증가할가능 표 4 39개의모듈형베이지안네트워크와하나로모델링된 BN의구조정보. (MonoBN 하나의 BN으로설계된 monolithic Bayesian network, NN: 노드의수, NNR: 루트노드의수, NNI : 중간노드의수, NNL: 리프 (leaf) 노드의수, NL: 링크의수, NP avg: 평균부모의수, NS: 상태의수, NS avg: 평균상태의수, NCPV: CPV의수, CPT max: CPT의최대크기 ) NN NNR NNI NNL NL NPavg NS NSavg NCPV CPTmax 39 BNs 638 375 135 128 623 0.98 1,279 2.00 4,205 64 MonoBN 462 235 111 116 588 1.27 927 2.01 4.869 512
모바일디바이스상에서의특이성탐지를위한베이지안추론모델 41 성이높으므로모듈화된 BN이상대적으로훨씬유리하다. 4. 실험및결과사용하는로그데이타는 GPS, Call, SMS, 사진촬영, MP3 청취, 기기충전로그및웹에서수집된날씨정보에서추출된로그컨텍스트데이타이다. 그리고설계된 BN은총 39개의 BN을사용하였으며실험의객관성을위해실제모바일환경에서테스트하였다. 테스트에사용된기기는 HP의 Pocket PC인 ipaq 1940이며, 운영체제는 Pocket PC 2003, 테스트를위해사용된개발환경은 Microsoft embedded Visual C++ 4.00.1610.0이다. 4.1 사례분석제안하는특이성추론모델의성능을관찰하기위해간단한시나리오를설정하고실험을수행하였다. 실험에서사용된 25개의증거로그컨텍스트는 { 강의동, 레스토랑, 신촌, 자연지역, 집, 커피점, 평소가던곳, 학교지역, 학생회관, 2시간이내 : 외출, 낮, 식사시간, 아침식사시간, 아침식사전, 오전, 일광시간, 자기전2시간이내, 잘시간, 저녁식사시간, 저녁식사후, 점심식사시간, 디바이스사용없음, 사진많이찍음, 사진찍음, 야외활동성, 외출전, 이동중, 좋은날씨, 즐거움많은하루, 충전중, GPS잡힘 } 이다. 그림 8(a) 는실험에서사용된시나리오를보여준다. 실험에사용된 BN은 { 외식, 사진, 이동행동, 자연, 즐거움, 집 } 의 6개이다. 그림 8(b) 는시나리오에따라생성된하루분량의로그컨텍스트를이용해특이성을추론한결과이다. 그림을살펴보면해당시간에관련된특이성의확률이높아지는것을관찰할수있다. 예를들어, 7~9시에는 외출준비 와 샤워 특이성이, 12~13시와 17~19시에는 식사 특이성이, 13~14시와 20~21시에는 산책 특이성이, 14~15시에는 즐거운사진찍기 특이성이, 17~19시에는 외식 과 식사 ( 서양 ) 특이성의확률이높게나타나고있다. 그리고, 특이성을살펴보면하루중일부만확률값이나타나고있는데, 이것은관련증거가존재하지않는시간에는해당 BN이사용되지않기때문이다. 4.2 인공데이타에의한성능평가본특이성추출기의도메인은매우넓기때문에모든상황을고려한평가는어렵다. 따라서특이성의종류를골고루선택하여평가하기위해일상생활에서마주칠수있는상황을크게 4가지상황 ( 일상-한가함, 일상-바쁨, 비일상-한가함, 비일상-바쁨 ) 으로나누어서각상황을대표하는특이성을생성하였다. 그림 9는제시하는 그림 8 (a) 실험을위해구송된모바일디바이스를가진대학생의일상생활시나리오. (b) 11개의목표특이성에대한확률변화관찰결과. 표시된숫자는시각 4시 ~27시 ( 다음날 3시 ) 를의미한다. 관련된증거가주어지면확률값이높아진다. (A: 뿌듯함, B: 사진찍기 ( 풍경 ), C: 즐거운사진찍기, D: 산책, E: 차마시기, F: 외식, G: 식사 ( 서양식 ), H: 식사, I: 외출준비, J: 샤워, K: 수면 )
42 정보과학회논문지 : 컴퓨팅의실제제 13 권제 1 호 (2007.2) 그림 9 특이성분류및인공데이타특성설명. 로그데이타분석함수 (T: time, D: daily, In: interval, Im: impact, Ts: time-span, Tp: time-portion, P: priority, Fr: frequency) 를기준으로설명하였다. 기준으로특이성및인공데이타특성을분류한도표를보여준다. 베이지안네트워크를위한전처리를거치지않은인공데이타를직접생성하는것은어렵기때문에그림 9 에서의 4가지구분을따르되, 데이타는특이성의증거컨텍스트를기준으로생성하였다. 예를들어, 전화통화의 Instant Frequency를매시간대별로생성하는대신, Instant Frequency가높은시간대에 전화통화많음 컨텍스트를증거로정의하는방법이다. 생성된인공데이타에의해추출되는특이성은 일상, 바쁨, 비일상 표 5 일상, 바쁨, 비일상으로나눈특이성. 일상특이성의경우일부만표기하였다. 특이성종류 일상 (81 개 ) 바쁨 (6 개 ) 비일상 (25 개 ) 특이성 공부중, 교통체증, 기차이용, 노래, 농구, 더움, 등산, 만남, 머리손질, 모임, 물건찍기, 미사, 뿌듯, 산책, 샤워, 선박이용, 설거지, 설렘, 세면, 셀카찍기, 쇼핑, 수면, 수상스키, 수영,, 항공기이용, 행복, 헬스운동, 혼자공부, 화남, 화장, 황홀, 회식하기, 회의, 휴식 바쁨, 우산들고달리기, 즐거운통화, 즐거운 SMS, 짜증 SMS, 피곤한통화 결혼, 경마관람, 공연관람, 관람, 기념일, 농구경기관람, 매우낯선곳, 비일상지역, 선거, 성묘, 야구경기관람, 여행, 영화관람, 입학식, 장례, 제사, 졸업식, 차례, 축구경기관람, 축하문자받기, 축하문자보내기, 축하전화걸기, 축하전화받기, 휴대폰분실, 휴대폰잊음 과관련된경우로나누어정의하였다. 앞의네가지구분항목에따라나누면일상 / 한가 ={ 일상 }, 일상 / 바쁨 = { 일상 } { 바쁨 }, 비일상 / 한가 ={ 일상 } { 비일상 }, 비일상 / 바쁨 ={ 일상 } { 비일상 } { 바쁨 } 이다. 표 5는 일상, 바쁨, 비일상 에해당하는특이성을의미한다. 4가지분류에대해각각 30일분량의인공데이타를생성하고특이성추출성능을평가하였다. 이때각종류별로 2개의특이성이포함되도록하였으며, 비일상 / 바쁨 의경우에는 일상 특이성 1개, 비일상 특이성 1개로구성하였다. 표 6은전체적인실험결과통계를보여주고있으며, 표 7은각데이타에대한실험결과를보여준다. 이때, 기본장소인 집 관련특이성과주요특이성 표 6 실험결과통계. 각종류별로 2개의목표특이성을랜덤으로선택하여인공데이타를생성하였다. (TP: true positive error rate (%), FP: false positive rate (%), FN: false negative rate (%)) 종류 시간 목표특이성의수 TP FP FN 정확률 재현률 일상 / 한가함 30 days 60 46 14 14 0.767 0.767 비일상 / 한가함 30 days 58 43 10 15 0.811 0.741 일상 / 바쁨 30 days 55 41 2 14 0.953 0.745 비일상 / 바쁨 30 days 60 46 8 14 0.852 0.767 합계 120 days 233 176 34 57 0.838 0.755 표 7 실험결과뽑힌특이성 ( 데이타타입 A 일부 ). 타입 B, C, D는생략하였다. (OL: Number of Obtained Landmark, TP: True Positive, FP: False Positive, 데이타타입 : A ( 일상 / 한가 ), B ( 비일상 / 한가 ), C ( 일상 / 바쁨 ), D ( 비일상 / 바쁨 )) 데이타 목표특이성 OL TP FP 뽑힌주요특이성 A-60301 체육대회, 기차이용 45 2 2 체육대회, 기차이용, 전철이동, 고속버스이용, A-60302 선박이용, 기차이용 47 1 3 수영 ( 실외 ), 전철이동, 고속버스이용, 기차이용, A-60303 머리손질, 즐겁게음악듣기 19 1 0 머리손질, 화장, A-60304 교통체증, 스노우보드 42 1 0 스키, 스노우보드, A-60329 헬스운동, 수영 ( 실내 ) 26 2 0 헬스운동, 수영 ( 실내 ), A-60330 항공기이용, 뿌듯 35 1 0 수영 ( 실외 ), 항공기이용, 장거리 총합 60 866 46 14
모바일디바이스상에서의특이성탐지를위한베이지안추론모델 43 중요도수치가낮은특이성은주요특이성에서제외시켰다. 표 6의전체적인결과를보면, 일상 / 한가 의 FP 오류가높고정확률이낮은데, 이는 일상 특이성이다양하고다양한장소에서추출되기때문에상대적으로구분이어렵기때문이다. 예를들어, 선박이용 특이성은 바다 장소에서뽑히는데, 수영 특이성도같이잘못뽑힌다. 특이성종류가 일상 / 바쁨 인경우에는전화를많이하거나이동이많은등, 특징이상대적으로뚜렷하기에정확률이높았다. 재현률은전체적으로낮았는데, 모바일환경의로그만으로인식하기어려운특이성이거나 BN 확률테이블의튜닝부족으로인한것으로보인다. 4.3 실제수집데이타에의한성능평가제안하는특이성추출기의성능평가를위해여대생이실제스마트폰을가지고 27일동안일상생활및의무행동을하면서로그데이타를수집하였다. 입력된컨텍스트의수가많고적음은 GPS의연결상태에크게좌우되기때문에 GPS가수집되지않은날은실험에서제외하였다. 또한, 실험에서 GPS 데이타는환경에따라자주끊기고실제많은활동을했음에도누락된부분이많았기때문에거짓부정 (False Negative) 오류에대해서는평가하지않았다. 특이성의선택확률기준치는 66%, 특이성중요도기준치는 5.0으로두어초과하는결과에대해서만평가하였다. 실험에서 일치, 부분일치 를판단하기위해사용자들이매일기록한 활동일지 와실제맵상에서나타나는 GPS 이동정보가이용되었다. 표 8은실험결과이다. 실험결과를살펴보면완전일치된특이성 (R HIT) 은평균 35% 정도로낮았는데, 이는수집된데이타의부정확성과 활동일지 의내용만으로는정확한일치를판단 하기어렵기때문이다. 따라서, 본실험에서는여학생이이동한장소나기록된행동을바탕으로가능성이있는경우는넓은의미에서의일치 (R HIT') 까지확대하여평가하였다. 이경우일치율이평균 89.4% 로상당히높게나왔다. 특히학교에서활동이많은경우 GPS 데이타에의한컨텍스트정보가충분하였기때문에일치율이높게나왔다. 표 9는실제로얻어진특이성에대해 일치, 부분일치 를적용한내용을보여준다. 예를들어 3 월 2일의경우실험자는동아리방에서늦게까지연습을하였으나해당특이성이존재하지않으므로 늦게까지공부 특이성을 부분일치 로간주하였다. 5. 결론및토의본논문에서는모바일디바이스환경에서작동하기유리한특이성추론모델을제안하였다. 모바일환경에서효율적으로작동할수있도록모듈화된구조를제시하였으며, 모듈화된상태에서의유기적인연결을위해가상노드개념을이용해서확률증거연결을적용한 2 단계추론방식을소개하였다. 일상 / 비일상, 바쁨 / 한가함 을기준으로나누고생성한가상데이타를사용하여실제모바일디바이스에서수행한실험에서는의도했던특이성이잘추출됨을보였다. 실제사용자에의한데이타수집및평가도소개하였다. 수집된로그데이타를바탕으로사용자가작성한일지와추출된특이성을비교한결과비교적높은추출성공률을보였다. 하지만소규모의데이타에대한실험결과이기때문에, 향후더많은실험및추론모델의개선이필요할것이다. 또한, 제안하는가상증거기술은 1단계의확률증거는모듈화되기전과같은결과를보일수있지만, 여러단계를거치거나동시에전달되는증거의경우에 표 8 실제스마트폰을이용하여수집한로그데이타. 활동일지 를기록하지않은날, GPS 데이타가전혀수집되 지않은날, 서울시를벗어나활동한날은제외시킴. (N Con : 입력컨텍스트의수, N LM : 추출된특이성의수, N' LM : 하루동안중복된특이성과가중치가낮은특이성제외한특이성의수, N ERR : 불일치된특이성의수, R HIT : N HIT 에대한일치율, R HIT' : N HIT' 에대한일치율, R ERR : N ERR 에대한에러율 ) 날짜 N Con N LM N LM' N HIT N HIT' N ERR R HIT R HIT' R ERR 60224 116 72 13 3 10 0 23.1% 100.0% 0.0% 60227 167 49 15 4 11 0 26.7% 100.0% 0.0% 60228 64 50 8 3 4 1 37.5% 87.5% 12.5% 60302 202 128 18 8 10 0 44.4% 100.0% 0.0% 60304 102 53 7 1 5 1 14.3% 85.7% 14.3% 60306 86 56 12 5 3 4 41.7% 66.7% 33.3% 60308 114 92 12 3 7 2 25.0% 83.3% 16.7% 60309 103 45 7 4 2 1 57.1% 85.7% 14.3% 60315 128 76 13 4 9 0 30.8% 100.0% 0.0% 60317 46 45 8 3 3 2 37.5% 75.0% 25.0% 60321 67 40 10 4 4 2 40.0% 80.0% 20.0% 총11일 1195 706 123 42 68 13 34.1% 89.4% 10.6%
44 정보과학회논문지 : 컴퓨팅의실제제 13 권제 1 호 (2007.2) 표 9 실험자의 GPS 이동기록과 활동일지 를바탕으로일치여부판정결과이다. 부분일치는 활동일지 에는없으나방문장소및행동을기준으로가능성이높은경우이다. 날짜일치부분일치불일치 60224 식사 ( 한식 ), 모임, 쇼핑 공부중, 수업중, 수업시간, 바쁜시간, 짜증 SMS, 관람, 외식, 교통체증, 노래방, 댄스장 60227 공부중, 즐거운사진찍기, 모임, 쇼핑 수업시간, 바쁜시간, 짜증SMS, 음식찍기, 물건찍기, 풍경찍기, 관람, 식사 ( 한식 ), 외식, 노래방, 댄스장 - 60228 바쁜시간, 즐거운통화, 모임 수업시간, 짜증SMS, 관람, 공부중 쇼핑 60302 수업시간, 바쁜시간, 즐거운통화, 식사 ( 한식 ), 외식, 모임, 산책 짜증 SMS, 음식찍기, 물건찍기, 풍경찍기, 관람, 실망, 쇼핑, 노래방, 댄스장, 공부중, 늦게까지공부 60304 관람컴퓨터작업, 세면, 바쁜시간, 짜증 SMS, 교통체증수업시간 60306 모임, 짜증 SMS, 수업시간, 바쁜시간, 식사 ( 한식 ) 산책, 관람, 교통체증 - - 외식, 쇼핑, 노래방, 댄스장 60308 수업시간, 식사 ( 한식 ), 외식 짜증SMS, 바쁜시간, 교통체증, 모임, 쇼핑, 노래방, 댄스장 관람, 차마시기 60309 공부중, 모임, 수업시간, 관람, 모임 바쁜시간, 교통체증 쇼핑 60315 수업시간, 식사 ( 한식 ), 외식, 쇼핑 청소, 요리, 설거지, 바쁜시간, 관람, 모임, 노래방, 댄스장, 산책 - 60317 공부중, 산책, 수업시간 바쁜시간, 실망, 모임 쇼핑, 관람 60321 늦게까지공부, 수업시간, 식사 ( 한식 ), 쇼핑 바쁜시간, 모임, 노래방, 댄스장 관람, 외식 는같은결과를보이기어렵다. 따라서 BN의모듈화및가상증거기술에대한장단점분석과향상된방법에대한연구가필요하다. 그리고, 향후에는좀더넓은실제도메인에서제안하는방법을장기적으로적용한뒤이를평가및검증하는작업이필요할것이다. 참고문헌 [1] M. Raento, A. Oulasvirta, R. Petit, and H. Toivonen, "ContextPhone: A prototyping platform for context-aware mobile applications," IEEE Pervasive Computing, vol. 4, no. 2, pp. 51-59, 2005. [2] A. Oulasvirta, "Finding meaningful uses for context-aware technologies: The humanistic research strategy," Proc. Conf. Human Factors in Computing Systems, ACM Press, pp. 247-254, 2004. [3] G.D. Abowd and E.D. Mynatt, "Charting past, present, and future research in ubiquitous computing," ACM Trans. Computer-Human Interaction, vol. 7, no. 1, pp. 29-58, 2000. [4] A. Schmidt, A. Takaluoma, and J. Mntyjrvi, "Context-aware telephony over WAP," Personal Technologies, vol. 4, no. 4, pp. 225-229, 2000. [5] Y. Nakanishi, T. Tsuji, M. Ohyama, and K. Hakozaki, "Context aware messaging service: A dynamical messaging delivery using location information and schedule information," Journal of Personal Technologies, vol. 4, no. 4, pp. 221-224, 2000. [6] A. Krause, A. Smailagic, and D. P. Siewiorek, "Context-aware mobile computing: Learning context-dependent personal preferences from a wearable sensor array," IEEE Trans. on Mobile Computing, vol. 5, no. 2, pp. 113-127, 2006. [7] R. DeVaul, M. Sung, J. Gips, and A. Pentland, "MIThril 2003: Applications and Architecture," Proc of 7th IEEE Int. Symposium on Wearable Computers, pp. 4-11, 2003. [8] P. Zheng and L. M. Ni, "The rise of the smart phone," IEEE Distributed Systems Online, vol. 7, no. 3, 2006. [9] P. Korpipaa, J. Mantyjarvi, J. Kela, H. Keranen, and E.-J. Malm, "Managing context information in mobile devices," IEEE Pervasive Computing, vol. 2, No. 3, pp. 42-51, 2003. [10] J. Gemmell, L. Williams, K. Wood, R. Lueder, and G. Bell, "Pervasive capture and ensuing issues for a personal lifetime store," Proc. of the 1st ACM Workshop on Continuous Archival and Retrieval of Personal Experiences, pp. 48-55, Oct. 2004. [11] D.P. Siewiorek, A. Smailagic, J. Furakawa, A. Krause, N. Moraveji, K. Reiger, J. Shaffer, and F.L. Wong, "SenSay: A context-aware mobile phone," Proc. 7th Int. Symp. of Wearable Computers, pp. 248-249, Oct. 2003. [12] P. Dourish, "What we talk about when we talk about context," Personal and Ubiquitous Computing, vol. 8, no. 1, pp. 19-30, 2004. [13] K. B. Korb, and A. E. Nicholson, Bayesian Artificial Intelligence, Chapman & Hall/CRC, 2003. [14] E. Horvitz, P. Koch, R. Sarin, J. Apacible, and M. Subramani, "Bayesphone: Context-sensitive policies for inquiry and action in mobile devices," Proc. of the Conf. on User Modeling, pp. 251-260, 2005. [15] G. Cooper and E. Herskovits, "A Bayesian method for the induction of probabilistic networks from data," Machine Learning, vol. 9, pp. 309-347, 1992.
모바일디바이스상에서의특이성탐지를위한베이지안추론모델 45 [16] D. Heckerman, "A tutorial on learning with Bayesian networks," Learning in Graphical Models, pp. 301-354, Dordrecht: Kluwer, 1998. [17] E. Horvitz, S. Dumais, and P. Koch. "Learning predictive models of memory landmarks," CogSci 2004: 26th Annual Meeting of the Cognitive Science Society, pp. 1-6, 2004. [18] P. Korpipaa and J. Mantyjarvi, "An ontology for mobile device sensor-based context awareness," Proc. Context 03, Lecture Note in Artificial Intelligence, no. 2680, pp. 451-459, Springer-Verlag, 2003. 황금성 2001년 2월연세대학교컴퓨터과학과졸업 ( 학사 ). 2003년 2월연세대학교컴퓨터과학과졸업 ( 석사 ). 2004년 3월~현재연세대학교컴퓨터과학과박사과정재학중. 관심분야는진화알고리즘, 지능형에이전트, 베이지안네트워크 조성배 1988 년연세대학교전산과학과 ( 학사 ) 1990 년한국과학기술원전산학과 ( 석사 ) 1993 년한국과학기술원전산학과 ( 박사 ) 1993 년 ~1995 년일본 ATR 인간정보통신연구소객원연구원. 1998 년호주 Univ. of New South Wales 초청연구원. 1995 년 ~ 현재연세대학교컴퓨터과학과정교수. 관심분야는신경망, 패턴인식, 지능정보처리 이종호 1988년서울대학교심리학과, 계산통계학과부전공 ( 학사 ). 1991년서울대학교심리학과 ( 석사 ). 1995년포항공과대학교전산학과 ( 석사 ). 2004년서울대학교인지과학협동과정 ( 공학박사 ). 2004년~현재삼성종합기술원전문연구원. 관심분야는웹마이닝, 지식검색, 지능정보처리