스마트폰사용자를위한사용자맞춤형광고서비스모델 621 스마트폰사용자를위한사용자맞춤형광고서비스모델 (Personalized Advertisement Service Model for Smartphone Users) 박민영 권혁철 (Minyoung Park) (Hyuck-Chul Kwon) 요약본논문에서는스마트폰사용자의사용자프로파일에기반을둔사용자맞춤형광고서비스모델을제안한다. 먼저광고선택에영향을주는사용자정보를정의하고, 정보획득의방법에따라단순정보와고도정보로분류한다. 단순정보는스마트폰에서수집가능한다양한데이터로부터바로획득가능한정보이며, 고도정보는수집한데이터로부터추론을통해획득가능한정보이다. 사용자정보를바탕으로작성한사용자프로파일은광고콘텐츠와비교하여사용자맞춤광고를제공하는데이용된다. 본논문에서제안한사용자맞춤형광고서비스모델은다양한사용자정보를반영한사용자프로파일을통해현재국내에서서비스하고있는광고제공서비스보다사용자에게맞는광고를제공할수있을것으로기대한다. 키워드 : 사용자맞춤형광고서비스, 사용자프로파일, 사용자정보, 단순정보, 고도정보 Abstract This study suggests a user-specific advertising service model based on user's profile of smartphone user. Firstly, we define user information that affects the choices of advertisements, and classify both simple information and complex information according to the ways of achieving information. The simple information means that we can acquire directly from variety of data gathered from smart phones and complex information means that we make inferences from collected data. The user profile based on user's information is used to provide with customized advertisement model in comparison with advertisement contents. Finally, the customized advertisement model, suggested in this study, is expected to provide user with more customized advertisement services than currently being used services. Key words : User-specific Advertising Service, User Profile, User Information, Simple Information, Complex Information 이논문은부산대학교자유과제학술연구비 (2년) 에의하여연구되었음 이논문은제38회추계학술발표회에서 스마트폰사용자를위한사용자맞춤형광고서비스모델 의제목으로발표된논문을확장한것임 비회원 : 부산대학교컴퓨터공학과 lyku44@nate.com 종신회원 : 부산대학교컴퓨터공학과교수 hckwon@pusan.ac.kr (Corresponding author 임 ) 논문접수 : 2011년 12월 12일심사완료 : 2012년 5월 14일 CopyrightC2012 한국정보과학회ː개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회논문지 : 소프트웨어및응용제39권제8호 (2012.8) 1. 서론전통적인주요광고매체인신문, 라디오, TV 등이사용자에게전달하는광고는비차별적이고피드백의정도가약하며, 강제적인전달방식을띈단방향광고이다. 반면에인터넷, 모바일과같은온라인매체는사용자에게맞춘차별적인광고를전달할수있으며, 광고의수용이자발적이고사용자의피드백이즉각적으로이루어질수있는양방향광고제공이가능하다 [1]. 특히, 모바일광고가가지는다음의특징은모바일이주요한광고매체로자리매김하게하였다 - 1 광고에대한사용자의반응을즉각적으로확인할수있음 2 사용자의시간과위치를기준으로한차별화된광고제공 3 TV, 신문, 잡지등다른매체와결합한형태의새로운체험
622 정보과학회논문지 : 소프트웨어및응용제 39 권제 8 호 (2012.8) 제공 4 단말기에탑재된다양한센서를이용한사용자와의상호작용가능 5 단말기에기록된사용자의다양한정보를바탕으로한사용자맞춤광고가가능 [2]. 광고매체로서의모바일의위상은스마트폰의등장과함께급격히높아졌다. 스마트폰은휴대전화와개인휴대단말기 (personal digital assistant; PDA) 의장점을결합한것으로, 기본적인전화기능에이메일과인터넷접속등의데이터통신기능을통합한것이다. 가장큰특징은다양한응용프로그램을사용자가원하는대로설치하고추가또는삭제할수있다는점이다. 또한, 주변광센서, 근접센서, 가속계, 디지털나침반등다양한센서를포함하고있다. 스마트폰에설치한응용프로그램의사용이력과스마트폰센서를통해수집한정보는사용자프로파일을이용한사용자맞춤광고의질을높일수있었고, 이는모바일광고시장의성장에대해낙관적전망을보이게하였다. 사용자맞춤광고는사용자정보를바탕으로구성한사용자프로파일을이용하여사용자의관심을파악하고, 개개인의관심에맞는광고를제공함으로써광고의효과를높인다. 사용자맞춤광고서비스의품질은사용자프로파일에따라달라지며, 사용자프로파일은사용자정보에의존적이다. 따라서사용자프로파일구성을위해제공되는사용자정보가제한될수록사용자맞춤광고의질은낮아진다. 본논문은사용자맞춤광고에도움이되는사용자정보를정의하고, 스마트폰에서수집한데이터로부터사용자정보를추출하여최적의광고선정에활용하는사용자맞춤광고서비스모델을제안한다. 2장에서는기존모바일광고서비스와관련기술을살펴보고, 3장에서는본논문에서제안하는사용자프로파일구성방법에대해설명한다. 4장에서는 3장에서구성한사용자프로파일을활용하여사용자맞춤광고를선정하는방법에대해살펴보고, 5장에서전체사용자맞춤광고제공서비스의구조에대해설명한다. 마지막으로결론과앞으로연구에대해논한다. 2. 관련연구 2.1 모바일광고제공서비스국외상용모바일광고서비스중가장대표적인서비스는애플의아이애드 (iad) 와구글의애드몹 (Ad Mob) 이다 [3,4]. 아이애드는아이오에스포 (ios4) 운영체제를사용하는애플의모바일기기에서동작하는애플리케이션을통해서비스된다. 광고형태는아이애드를탑재한애플리케이션을실행하면화면상단이나하단에가로배너형태로광고를제공한다. 아이애드는사용자맞춤광고를위해사용자의앱스토어계정정보, 앱스토어 사용정보, 아이튠즈 (itunes), 아이폰 (iphone) 에서획득한정보를바탕으로사용자프로파일을구성한다. 구글의애드몹은안드로이드를비롯해아이오에스등많은스마트폰운영체제를지원한다. 광고형태는기존구글의검색광고플랫폼을기반으로모바일웹에검색광고를지원하며스마트폰에서실행되는애플리케이션에배너형태의광고도지원한다. 구글은사용자맞춤광고를위해구글제품등록과광고조사응답시사용자가입력한정보와구글웹사이트쿠키, 애드몹이동작하는모바일기기에서정보를바탕으로사용자프로파일을구성한다. 국내는이동통신사와포털사이트를중심으로다양한모바일광고서비스를제공한다. 이동통신사인 SK텔레콤의애드존 (Ad Zone), 포털업체인다음 (Daum) 의아담 (AD@m), 그리고전문광고업체인퓨처스트림네트웍스의카울리 (Cauly) 등이있다. 그러나이들대부분이극히일부의사용자정보만을바탕으로제한된사용자맞춤광고서비스를제공한다. 이는아이애드가애드몹이자사의스마트폰운영체제와사용자가입력한계정정보를바탕으로풍부한사용자정보를활용할수있지만, 국내는모바일광고서비스는사용자정보의획득에한계가있기때문이다. 2.2 사용자맞춤서비스사용자맞춤서비스는사용자프로파일에근거하여콘텐츠를선정하고, 사용자에게최적화한서비스를제공하는것이다. 즉, 사용자의특성에대한다양한통계적인분석과비교를통해사용자의특성을개별화할수있는지식및규칙을찾아내는과정이다. 대부분사용자맞춤서비스는사용자의개인정보가필요하다. 회원가입과정에서인적사항이나선호도에관한질문을통해정보를얻거나, 웹방문기록이나애플리케이션사용기록등사용자의활동과정에서얻은데이터를분석하여정보를얻는다. 사용자맞춤서비스는도서, 음악등추천서비스에활발히이용된다. 사용자의나이, 성별, 주소등인구통계학적정보로사용자프로파일을구성하고규칙화하여서비스하거나 [5,6], 사용자가미리입력한선호정보나이전에이용하였던서비스와특징이유사한서비스를추천하는방법 [7], 사용자와성향이비슷한사용자들이공통으로좋아하는서비스를추천하는방법 [8] 등이있다. 이들사용자맞춤서비스 ( 또는개인화추천기술 ) 는대부분사용자프로파일과콘텐츠프로파일을구성하고사용자간, 콘텐츠간, 그리고사용자와콘텐츠간유사도를계산하여최적의서비스를제공한다. 본논문에서는사용자가자발적으로제공하는정보가부족한상황에서사용자프로파일을구성하고사용자프로파일과광고콘텐츠간유사도계산시사용자정
스마트폰사용자를위한사용자맞춤형광고서비스모델 623 보에따른가중치를부여함으로써최적의사용자맞춤광고를선정하는광고서비스모델을제안한다. 3. 사용자프로파일구성 3.1 사용자정보정의및분류어떠한한개인에게제공할맞춤형광고를선택할때영향을줄수있는정보는매우다양하다. 가장대표적인예로그림 1과같이사용자맞춤형서비스에서가장먼저고려되어야하는사용자의신상정보를들수있다. 사용자의성별, 나이, 가족관계, 교우관계등사용자가누구인가에따라서비스의내용이달라져야하기때문이다. 그리고이와더불어중요한정보는사용자가어떤것을좋아하고, 어떤것을싫어하는지를표현한사용자선호정보가있다. 사용자선호정보는선호하는음식, 색깔, 음악, 운동, 영화, 책등세부적으로나타내기도하며, 취미, 여가활동등좀더넓은범위로나타내기도한다. 하지만모든사용자신상정보와사용자의선호정보를스마트폰에존재하는데이터에서추출및추론하는것은어려운일이다. 스마트폰에존재하는데이터로는문자메시지, 연락처, 일정, E-mail, 설치된애플리케이션정보, 여러장치및센서에서수집가능한데이터, 음악, 영상, 사진과같은콘텐츠들이있다. 본논문에서는스마트폰에존재하는데이터로부터추 그림 2 사용자정보정의출및추론가능한정보중광고선택에도움이될정보를그림 2와같이 3개카테고리 13개의정보로정의한다. 성별, 연령대, 직업, 결혼여부, 소비수준, 일정, E-mail 수신목록의개인정보, 위치, 시간, 날짜, 날씨의환경정보, 그리고선호애플리케이션카테고리, 선호음악장르의기타정보로분류한다. 앞서정의한정보를효과적으로추출및추론하고자표 1과같이스마트폰으로부터바로추출할수있는단순정보와단순정보를바탕으로추론과정이필요한고도정보로분류한다. 개인정보중인구통계학적정보 그림 1 사용자신상정보의예
624 정보과학회논문지 : 소프트웨어및응용제 39 권제 8 호 (2012.8) 표 1 사용자정보분류 구분 카테고리 정보종류 단순 개인정보 일정, E-mail 수신목록 정보 환경정보 위치, 날짜, 시간, 날씨 고도정보 개인정보 기타정보 성별, 연령대, 직업, 소비수준, 결혼여부 선호애플리케이션카테고리, 선호음악장르 는사용자의자발적인정보제공여부에따라바로단순정보나고도정보로분류될수있다. 본논문에서는사용자의자발적인정보제공이없는환경을가정하므로대부분개인정보를고도정보로분류한다. 또한, 사용자의스마트폰사용정보를통해추론해야하는선호애플리케이션카테고리, 선호음악장르정보역시고도정보로분류한다. 3.2 사용자정보추출및추론방법위치나날씨와같은단순정보는스마트폰에서추출하여사용자프로파일구성에이용할수있다. 표 2는단순정보의추출방법과그에따른가정을보여준다. 반면에고도정보는스마트폰에존재하는데이터와단순정보로부터추론과정을통해획득한다. 표 3은고도정보추론방법및가정을보여준다. 표 1에서단순정보로분류한정보이외에고도정보 로분류한성별, 연령대, 선호애플리케이션카테고리, 선호음악장르등정보의추론과정에사용되는문자메시지, 음악파일정보, 설치된애플리케이션정보등데이터들의수집역시필요하다. 표 3에서정의한방법으로성별, 직업, 결혼여부와같은고도정보를추론하려면추론의단서가되는용어사전이필요하다. 성별을추론하기위한사전은남성과여성으로구분하여일상생활에서사용되는호칭이나용어중에서성별에따라다르게사용되거나성별을구별할수있는호칭이나용어들로구성된다. 직업을추론하기위한사전은학생, 회사원, 의사, 금융인, 법조인, 언론인, 교육자, 농어민, 공직자, 엔지니어와같이총 11개의직업을구분할수있는용어를각직업에따라각각사전을구성한다. 그리고결혼여부를추론하기위한사전은일상생활에서결혼한사람이사용하는호칭을사전으로구성한다. 스마트폰에서수집한단순정보들을바탕으로표 3에서정의한추론방법을통해고도정보를추론하는과정은다음과같다. 그림 3은고도정보추론의간단한예로서스마트폰에서추출한연락처, 일정, 보낸메시지등여러단순정보를이용한고도정보추론과정을볼수있다. 연락 표 2 단순정보추출방법및가정 구분정보추출방법가정 개인정보 환경정보 일정 E-mail 수신목록 위치 사용자가일정관리애플리케이션에등록한일정을추출 사용자가등록한메일계정에서수신메일발신자의주소를추출 사용자스마트폰의 GPS 센서를사용해현재사용자의위치를추출 스마트폰의기본일정관리애플리케이션에등록된일정만추출한다고가정 사용자가특정회사나상품에관한메일을수신한다면그회사나상품에대한선호가있다고가정 위도, 경도, 주소데이터중시스템구현에따라하나를선택하여사용 날짜 사용자의모바일단말기에서현재날짜를추출 - 시간 사용자의모바일단말기에서현재시각을추출 - 날씨 기상청에서현재사용자위치의날씨를추출 사용자현재위치의주소를알고있다고가정 표 3 고도정보추론방법및가정 구분정보추론방법가정 개인정보 기타정보 성별 연락처에등록된호칭과문자메시지내용에포함된호칭과용어를분석하여추론 연령대 연락처에등록된사람들의생일정보를분석하여가장많은수의연령대를통해추론 사용자와동년배인사람들의연락처가많다고가정 직업 문자메시지와일정에사용된용어를분석하여추론 직업에따라다른용어를사용한다고가정 결혼여부 연락처에등록된호칭을분석하여결혼여부를추론 사용자의결혼여부는기본적으로미혼이라고가정 소비수준 선호애플리케이션카테고리 선호음악장르 문자메시지중신용카드대금청구메시지를분석하여추론 스마트폰에설치된애플리케이션정보와애플리케이션실행횟수를분석하여추론 스마트폰에있는 MP3 파일의태그정보를분석하여추론 - - - -
스마트폰사용자를위한사용자맞춤형광고서비스모델 625 그림 3 고도정보추론예처에등록된사람들의이름중언니, 오빠와같은호칭과보낸메시지에사용된오빠라는호칭을통해사용자의성별이여자임을추론한다. 사용자의일정에등록된과제, 기말고사라는용어와보낸메시지에사용된기말고사, 과제, 휴학으로부터사용자의직업이학생임을추론한다. 결혼여부는연락처에등록된이름중결혼한사람이사용하는호칭이없으므로미혼으로추론한다. 4. 사용자프로파일에기반을둔광고선택 4.1 광고의타겟팅전략명세 3장에서정의한추출및추론방법을통해구성한사용자프로파일에맞는광고를제공하기위해서는광고가사용자에게맞는광고인지판단하는기준이필요하다. 이를위해광고주가광고를등록할때단순히광고만을등록하는것이아니라광고와사용자프로파일과 비교할수있는광고의타겟팅전략을함께등록한다고가정한다. 광고의타겟팅전략은광고주가사용자정보중자신이등록할광고에영향을줄정보를선정하고그값들로이루어진다. 광고의타겟팅전략에서선정할수있는정보와그명세는표 4와같이 3장에서정의한사용자정보이며, 정보에따라몇가지세부적인정보로이루어져있다. 이러한광고의타겟팅전략은하나의정보만선택할수도있지만, 여러정보로선택될수가있다. 광고의타겟팅전략이여러정보로이루어져있을때, 더효과적인사용자맞춤형광고를제공하기위해서이들정보가각각광고에미치는영향력의차이를고려할필요가있다. 따라서하나의광고타겟팅전략을이루는정보들은광고에따라각각다른가중치값을두어각정보의영향력의차이를반영할수있도록한다. 그림 4는이렇게구성된광고타겟팅전략의예이다. 가방광고의경우가방의주요사용자의성별, 사용하는연령대, 가방의가격등이광고의타겟을정하는데많은영향을준다고볼수있다. 따라서각정보의값과가중치를위와같이구성할수있다. 비키니수영복의경우남성보다는여성을대상으로광고해야할것이고, 40~50대여성보다는 20~30대여성이주요타겟이기에그림 4의 2번광고와같이광고타겟팅전략을구성할수있다. 이러한광고타겟팅전략과사용자프로파일을비교하여최적의광고를선택한다. 4.2 광고선택방법기존사용자맞춤광고서비스에서는사용자프로파일의모든사용자정보를이용하여광고콘텐츠와유사도계산을하여최적의광고를선정한다. 그러나광고 표 4 광고타겟팅전략명세 정보 세부정보 설명 성별 - 광고 Targeting 대상의성별 연령대 - 광고 Targeting 대상의연령대 직업 - 광고 Targeting 대상의직업군 소비수준 - 광고 Targeting 대상의소비수준 결혼여부 - 광고 Targeting 대상의결혼여부 일정 일정키워드일정에따른적정광고시작일 광고 Targeting 대상의일정키워드 일정키워드가존재할때, 사용자가등록한일정의날짜를기준으로며칠전부터광고가노출되어야효과적인지를나타내는수치 ( 일정이후는고려하지않는다 ) 일정장소 일정키워드가존재할경우, 광고의노출효과가좋을것이라생각되는장소 ( 구단위까지의주소 ) E-mail 수신목록 - 광고 Targeting 대상이수신한메일주소 선호음악장르 - 광고 Targeting 대상의선호음악장르 위치 - 광고 Targeting 대상의현재위치 시간 적정광고시작시간적정광고종료시간 하루중광고가노출되었을때효과적인시간대의시작시간하루중광고가노출되었을때효과적인시간대의종료시간 적정광고시작날짜일년중광고가노출되었을때효과적인날짜의시작날짜날짜적정광고종료날짜일년중광고가노출되었을때효과적인날짜의종료날짜날씨 - 광고가노출되었을때효과적인날씨
626 정보과학회논문지 : 소프트웨어및응용제 39 권제 8 호 (2012.8) 이다. 가중치값을적용하지않고사용자정보와광고데이터사이의유사도를계산하면광고 A( 유사도 : 3/ (4+4-3) = 0.6) 가광고 B( 유사도 : 2/(4+4-2) = 0.33) 보다적합한광고가된다. 하지만가중치를적용하면그림 5 에서볼수있듯이광고 A의유사도는 0.33, 광고 B의유사도는 0.6이되므로광고 B가최적의광고로선택된다. 그림 4 광고타겟팅전략예 콘텐츠의성격에따라광고대상선정에영향을주는사용자정보는달라진다. 예를들어, 도서광고에서소설은사용자의직업과무관하지만, 특정전공서적은사용자의직업이큰영향을미친다. 본논문에서는사용자프로파일과광고콘텐츠간유사도계산시, 광고콘텐츠의종류에따라유사도계산에이용하는정보에서로다른가중치를부여함으로써광고마다서로다른사용자맞춤광고선정전략을세울수있도록한다. 즉, 광고콘텐츠마다사용자프로파일에사용되는정보로최적의광고대상자를규칙화한다. 그런다음사용자프로파일과광고선정규칙간유사도계산을통해최적의광고를선정한다. 유사도계산은다음의 Jaccard similarity를바탕으로이루어진다. 그림 5는스마트폰에서추출및추론과정을통해얻은사용자정보가 { 성별 = 여자, 연령대 =20대, 직업 = 학생, 결혼여부 = 미혼 } 이라고할때, 최적의광고를선택하는과정을보여준다. 광고 A는성별이남자, 연령대가 20 대, 직업이학생, 결혼여부가미혼인사용자를광고제공대상으로하고, 광고 B는성별이여자, 연령대가 20 대, 직업이회사원, 결혼여부가기혼인사용자를광고제공대상자로한다. 이때추출한사용자정보와광고 A 사이에값이일치하는것은연령대, 직업, 결혼여부이고, 광고 B 사이에값이일치하는것은성별, 연령대 5. 스마트폰용광고제공서비스구조 5.1 클라이언트구조클라이언트시스템은스마트폰 OS와애플리케이션사이에서동작하는미들웨어로스마트폰에서단순정보를추출하는기능, 추출한단순정보를바탕으로고도정보를추론하는기능, 이를서버로전송해주고서버로부터광고데이터를전송받는기능, 그리고광고를스마트폰에출력하는기능을수행한다. 클라이언트시스템은크게단순정보수집모듈, 고도정보추론모듈, 통신모듈, 광고출력모듈로구성된다. 단순정보수집모듈은단순정보로분류한일정, E-mail 수신목록, 사용자의현재위치, 현재날씨, 현재날짜및시간을비롯하여고도정보추론에사용되는데이터인문자메시지, 연락처, 음악파일정보, 설치된애플리케이션정보를수집하는모듈로구성된다. 고도정보추론모듈은단순정보수집모듈에서수집한내용을바탕으로고도정보로분류한성별, 연령대, 직업, 소비수준, 결혼여부, 선호음악장르, 선호애플리케이션카테고리를추론하는모듈로이루어진다. 클라이언트시스템은그림 6과같이스마트폰에서사용자의문자메시지. 일정, 연락처, 위치, 날씨, 시간등의데이터를수집하고, 이를활용하여사용자정보를추출및추론하고, 서버에서선택된사용자맞춤형광고를전송받아출력하는순서로동작한다. 그림 6 클라이언트구조및흐름 그림 5 광고선택예 5.2 서버구조서버시스템은스마트폰에아닌외부서버로클라이
스마트폰사용자를위한사용자맞춤형광고서비스모델 627 그림 7 서버구조및흐름 언트에서전송한사용자프로파일과광고타겟팅전략사이의유사도를측정하고, 랭킹을구해사용자프로파일에가장맞는광고를선택하는기능, 광고등록기능을수행한다. 그림 7은서버시스템의수행흐름을보여준다. 광고선택기능은클라이언트에서전송된사용자프로파일과광고타겟팅전략사이의유사도를측정하여유사도가값이가장큰광고를선택하여클라이언트로전송해주는순서로수행된다. 광고등록기능은광고주에게광고를등록할수있는양식을제공하고, 광고주는그양식에따라광고를등록하는순서로수행된다. 6. 실험및결과본논문에서제안한사용자맞춤형광고서비스모델의평가를위해서는베타테스터를통한테스트가가장적합하나, 사용자의개인적인데이터와정보에접근하기때문에베타테스터의모집이어렵기에공개적으로사용자가작성한텍스트가존재하는트위터를활용하여실험을수행하였다. 트위터와스마트폰사이의활용가능정보의차이때문에사용자프로파일구성방법중고도정보추론에서사용자의성별, 직업, 결혼여부추론부분을실험하였다. 테스트를위한사용자의프로파일은트위터를통해 10대~50대의남녀각각 15명으로총 30 명의프로필을구성하였으며, 사용자정보추론을위한사용자데이터는각각의사용자들이작성한트윗을 300 개를수집하여사용하였다. 먼저성별, 결혼여부, 직업추론을위한사전을수작업으로구성하였다. 성별추론을위하여남, 여를구분 할수있는호칭 97개를통해사전을구성하였으며, 직업추론을위해, 11개로분류한직업군중기타를제외한 10개직업에대하여각각 40~50개의용어로사전을구성하였다. 마지막으로결혼여부추론을위해결혼한사람이사용하는호칭 56개로구성하였다. 성별추론실험은사전을바탕으로수집한사용자의트윗에서성별을나타내는용어나호칭을추출하여그빈도를통해추론한다. 빈도가일정수치이상일경우전체추출한성별용어및호칭빈도의 70% 이상을차지하는성별을사용자의성별로판단하였다. 70% 이상을차지하는성별이없다면성별추론을보류한다. 실험결과는표 5와같이남자의경우 15명중 5명을정확하게추론하였으며, 여자의경우 15명중 6명을정확하게추론하였다. 전체적으로 30명중 11명의성별을정확하게추론하여 36.7% 정확도를보였다. 직업추론실험은사전을바탕으로수집한사용자의트윗에서분류한 11개직업과관련된용어를추출하여그빈도를통해추론한다. 전체빈도가일정수치이상일경우추출한직업관련용어빈도의 70% 이상을차지하는직업을사용자의직업으로추론하였다. 70% 이상을차지하는직업이없다면직업추론을보류한다. 표 5 성별추론결과및정확도구분남여전체추론일치 5 6 11 추론불일치 8 6 14 추론보류 2 3 5 정확도 33.3% 40.0% 36.7%
628 정보과학회논문지 : 소프트웨어및응용제 39 권제 8 호 (2012.8) 표 6 직업추론결과및정확도구분전체추론일치 7 추론불일치 4 추론보류 19 정확도 23.3% 실험결과는표 6과같이전체 30명중 7명의직업을정확하게추론하였으며, 4명의직업을추론한결과가불일치하였다. 추론이보류된사람은 19명으로, 전체적으로 30명중 7명의직업을정확하게추론하여 23.3% 정확도를보였다. 결혼여부추론실험은사전을바탕으로수집한사용자의트윗에서기혼자들이사용하는호칭을추출하여그빈도를통해추론한다. 기본적으로사용자의결혼여부를미혼으로가정하고, 전체호칭의빈도가일정수치이상일경우사용자의결혼여부를기혼으로판단하였다. 표 7 결혼여부추론결과및정확도구분전체추론일치 16 추론불일치 14 정확도 53.3% 실험결과는표 7과같이전체 30명중 16명의결혼여부를정확하게추론하였으며, 14명의결혼여부를추론한결과가불일치하였다. 전체적으로 30명중 16명의직업을정확하게추론하여 53.3% 정확도를보였다. 실험결과를보면성별, 직업, 결혼여부의추론정확도가그리높지않음을알수있는데, 이는트윗데이터와스마트폰의연락처호칭, 일정, 문자메시지데이터들이가지는차이때문이다. 트위터의경우여러대상에게자신이하고싶은말을적는경우가많으며, 일반적인정보공유와같은내용의글들이많다. 따라서성별, 결혼여부등의추론근거인호칭이잘등장하지않았으며, 직업과관련된용어를사용하기보다는일반적인용어의사용이높았기에추론정확도가낮게나왔다. 수작업으로구축한사전을보완하고자세종전자사전과표준국어대사전을참고하여관련어를확장하였다. 우리말과우리글을바탕으로하는언어정보응용기반구축을위해총 10년간걸쳐추진한 21세기세종계획 의결과물로서, 자연언어처리에필요한언어적 문법적정보를포함하고있다. 특히, 상위어, 하위어, 동의어, 그리고유의어정보는본연구에서수작업구축한사전의확장하는데유용하다. 한국어어휘의미망은워드넷 (WordNet) 을참조모델로하여구축한한국어어휘의미망으로서명사, 동사, 형용사그리고부사와분류사로구성되며, 약 13만개의신셋 (Synonym Set) 과약 15만개의어의를포함하고있다. 한국어어휘의미망도세종전자사전처럼상위어, 하위어, 동의어정보를포함하고있기때문에사전확장에사용하기쉽다. 세종전자사전과표준국어대사전을이용하여사전을확장한결과성별추론을위하여남, 여를구분할수있는호칭 152개를통해사전을구성하였으며, 직업추론을위해, 11개로분류한직업군중기타를제외한 10개직업에대하여각각 80개의용어로사전을구성하였다. 마지막으로결혼여부추론을위해결혼한사람이사용하는호칭 80개로구성하였다. 그러나정확한추론을위하여사전을좀더추가할필요가있기때문에통계기법을활용하여수작업으로구축한사전을좀더확장하였다. 즉, 수작업으로구축한사전에포함한용어와통계적으로유의미한관계를맺는용어를원시말뭉치로부터추출하여해당사전에추가하였다. 두어휘간의연관성을분석할수있는가장기본적인정보는두어휘의공기출현빈도를살펴보는것이다. 즉, 두어휘가얼마나자주나타났는지가두어휘사이의연관성을나타내는측도가될수있다. 그러나중의성어휘의의미와관계없이일반적으로많이나타나는어휘때문에빈도자체로는두어휘의연관성을판단하기어려우므로, 본논문에서는 -test를통해두어휘의연관성을분석한다. 독립성검정을위해다음과같은귀무가설과대립가설을설정하여야한다. 귀무가설 : 두어휘 ( ) 는서로관련이없다 ( 독립적이다 ). 대립가설 : 두어휘 ( ) 는서로관련이있다 ( 종속적이다 ). 두어휘의공기출현빈도를바탕으로 값이임계값이상이면귀무가설이기각되어, 두어휘는연관성이있다고판단할수있다. 본논문에서는유의수준 를 0.005로지정하여독립성검정을수행하였다. 통계정보를추출하기위해 21세기세종계획의성과물인 세종형태분석말뭉치 ( 약 500만어절 ) 를사용하였다. 통계정보를이용한관련어확장을통한추론사사전의최종크기는표 8과같다. 성별추론을위한사전과결혼추론을위한사전에 구분 표 8 추론사전확장결과 수작업구축 지식사전이용확장 통계정보이용확장 성별추론사전 97 개 152 개 170 개 직업추론사전 직업별 50 개 직업별 80 개 직업별 310 결혼추론사전 56 개 80 개 82 개
스마트폰사용자를위한사용자맞춤형광고서비스모델 629 표 9 추론사전의확장에따른추론결과비교 구분 기존수작업사전이용 추가확장사전이용 성별추론 36.7% 53.2% 직업추론 23.3% 61.4% 결혼추론 53.3% 59.2% 포함한용어와공기하는어휘는대부분일반용어가많아서통계정보를이용하여확장하는것에한계가있었다. 그러나직업추론사전에포함한용어는전문용어와공기하는어휘가많아통계정보를이용하여많은어휘가확장되었다. 표 9는수작업으로구축한사전과최종확장사전을이용하였을때의추론결과를비교한것이다. 대부분추론에서추가확장사전을이용하여정확도증가가있었으며, 특히직업추론은수작업사전과비교하여확장사전의규모가 6배이상으로커짐으로더정확한추론이이루어질수있었다. 앞서언급하였듯이기존사용자맞춤광고서비스에서는사용자프로파일의모든사용자정보를이용하여광고콘텐츠와유사도계산을하여최적의광고를선정한다. 그러나광고콘텐츠의성격에따라광고대상선정에영향을주는사용자정보는달라진다. 따라서성별이나직업그리고결혼여부의정보는광고주가남성이나여성혹은특정직업을가진사용자를대상으로광고전략을수립할때효과가있다. 예컨대, 여성용가방 이나 비키니수영복 은남성보다는여성사용자를잠재고객으로선정하지만, 전자사전 과같은제품은성별의구분없이 학생 을잠재고객으로선정하고광고전략을수립하는것이더효과적이다. 특히, 세세한광고전략을수립하기어려울때는성별, 직업등의정보만으로도일정수준이상의사용자맞춤형광고가가능할것으로기대된다. 이는남성과여성이선호하는상품이나서비스가다르고직업별로선호하는상품이나서비스가다르기때문이다. 한예로, 국내쇼핑몰사이트의대부분이남성과여성카테고리로구분하고있는것으로이러한이유때문이다. 7. 결론및향후연구 본논문에서는 스마트폰사용자를위한스마트폰용사용자맞춤형광고제공서비스모델 을제안하였다. 사용자정보를단순정보와고도정보로분류하여사용자정보를추출및추론함으로써사용자의자발적인정보제공여부가사용자프로파일에주는영향을최소화하였다. 또한, 사용자프로파일과광고콘텐츠간유사도계산시영향을미치는정보를달리하여광고콘텐 츠마다개별적인사용자맞춤광고제공전략을수립하도록하였다. 트위터를활용한사용자프로파일추론실험의결과가좋지않았지만, 트위터와달리스마트폰의문자메시지는사용자와문자메시지의대상간에좀더개인적인일들과관련하여주고받는글들이많으며, 연락처호칭의경우성별과결혼여부의근거인호칭이자주등장하며, 일정의경우사용자의직업과관련된일정이등록되기에트위터의트윗데이터를활용하여추론한결과보다좋은결과를나타낼것이다. 향후연구계획으로는문자메시지, 일정의코퍼스나온톨로지구축을통한고도정보추론방법을다양화하는방법, SMS, 메모등의텍스트데이터에서기업, 상품에대한사용자의감정을추출하여광고선택에활용하는방법, 사용자에게노출된광고에대한피드백을광고선택에활용하는방법등좀더사용자에게맞는광고를제공하는방법에대한연구가필요하다. 또한, 제안한광고서비스의단순정보추출, 고도정보추론, 광고선택과정에서고려하지못한개인정보보호방법에대한연구도진행되어야한다. 참고문헌 [1] 박진표, 김재영, 모바일광고의수용자반응에관한연구 : TAM( 기술수용모델 ) 을중심으로, 옥외광고학연구, 제 7 권, 제 4 호, pp.71-103, 2010. (in Korean) [ 2] 이시훈, 모. 바. 일. 광. 고. 연. 구. 경. 향. 과. 이. 론. 화. 커뮤니케이션이론, 제 6 권, 제 1 호, pp.6-49, 2010. (in Korean) [3] Apple, iad Network, Available from; http://developer.apple.com/support/resources/iadnetwork.html [Accessed 20/09 2011] [4] Google, AdMob, http://www.admob.com/home/about [Accessed 20/09 2011] [5] B. Krulwich, "Lifestyle Finder : Intelligent User Profiling Using Large-Scale Demographic Data," Artificial Intelligent Magazine, vol.18, no.2, pp.37-45, 1997. [6] M. J. Pazzani, "A Framework for Collaborative, Content-Based and Demographic Filtering," Artificial Intelligent Review, pp.394-408, 1999. [ 7 ] Balabanovic, Marko, and Yoav Shoham, "Fab: Content-based, Collaborative Recommendation," Communications of the ACM, vol.40, no.3, pp.66-72, 1997. [8] Michael O'Mahony, Neil Hurley, Nicholas Kushmerick, "Collaborative recommendation: A robustness analysis," ACM Transactions on Internet Technology, vol.4, no.4, pp.344-377, 2004.
630 정보과학회논문지 : 소프트웨어및응용제 39 권제 8 호 (2012.8) 박민영 2010 년부산대학교정보컴퓨터공학부학사. 2012 년부산대학교컴퓨터공학과석사. 2012 년 ~ 현재 LG 전자 HA 본부제어연구소. 관심분야는자연언어처리, 정보검색, 인공지능 권혁철 1982년서울대학교컴퓨터공학과학사 1984년서울대학교컴퓨터공학과석사 1987년서울대학교컴퓨터공학과박사 1992년~1993년 ( 미 )Stanford 대학 CSLI 방문교수. 1987년~현재부산대학교정보컴퓨터공학부, 인지과학협동과정교수관심분야는인간언어공학, 정보검색, 인공지능