Microsoft Word doc - PDF Free Download

理學碩士學位論文 CRM 을활용한온라인게임사의마케팅전략 Marketing strategy of Online Game Company using CRM 2007 年 8 月仁荷大學校大學院統計學科 ( 應用統計學專攻 ) 李先京

理學碩士學位論文 CRM 을활용한온라인게임사의마케팅전략 Marketing strategy of Online Game Company using CRM 2007 年 8 月指導敎授朴憲鎭 이論文을碩士學位論文으로提出함仁荷大學校大學院統計學科 ( 應用統計學專攻 ) 李先京

이論文을李先京의碩士學位論文으로認定함 2007 年 8 月主審副審委員

목 차 국문요약 i 영문요약 ii 제1장서론 1 제2장고객관계관리 2 2.1. CRM의정의 2 2.2. CRM의등장배경 4 2.3. CRM 시스템의분류 4 2.3.1. 운영적 (Operational) CRM 5 2.3.2. 분석적 (Analytical) CRM 5 2.3.3. 협업적 (Collaborative) CRM 6 제3장데이터마이닝의고찰 7 3.1. 데이터마이닝의이해 7 3.2. 데이터마이닝기법 9 3.2.1. 로지스틱회귀분석 (Logistic Regression) 9 3.2.2. 신경망 (Neural Networks) 11 3.2.3. 의사결정나무 (Decision Tree) 13 제4장실증분석 19 4.1. 자료의수집 19 4.2. 고객분류 20 4.3. 모형구축에사용할변수선택 21 제5장실증분석결과 24 5.1. 우수고객예측모형성능비교 24 5.2. 결과해석 27 제6장결론및향후과제 30 참고문헌 31

요 약 오늘날급속하게변화하는사회에서기업은다양하고지속적인변화를요구받고있다. 인터넷의발달로고객은손쉬운정보획득을통해의사결정의폭이더욱다양화되고있으며기업간의경쟁도갈수록치열해지고있다. 본연구에서는다양한고객들의욕구에적절히대응하면서안정적인수익을내기위하여국내온라인게임회사인 A사자료를이용하여로열티와수익성관점으로고객들을 4개의그룹으로나눈후, 각그룹별로어떠한성향을나타내고있는지, 어떻게하면고객들의로열티를증가시키고수익을올려서기업이안정적으로성장할수있는지를데이터마이닝기법을활용하여연구하였다. 연구결과, 로열티도낮고수익성도낮은그룹은가입기간이짧은고객들이대부분으로사이버머니충전을경험해보도록유도할필요가있다. 또한, 로열티는낮지만수익성이높은그룹은짧은시간게임을하더라도사이트에자주방문하도록유도할필요가있고로열티는높지만수익성이낮은그룹은아이템 Up-Selling 및여러게임에서마일리지를이용하도록유도할필요가있다. 그리고, 로열티도높고수익성도높은그룹은매출기여도가큰게임군사용을유도하면고객들의로열티를증가시키고수익을올릴수있는것으로확인되었다. i

Abstract These days, enterprises are required to change themselves variously and continuously in rapidly changing society. From information through internet, customer s decision making is getting diversified and business is getting competitive. Using data from an online game company 'A' and data mining techniques, we investigated twhat kinds of inclination the groups of customers have, how to increase customers' loyalty and how enterprises grow stably with appropriate response to customers' various demands. According to the result of research, it is verified that, in a group with low loyalty and low profit, most clients are new comers and, therefore, need to be induced to experience charging cyber money. Also, in a group with low loyalty and high profit, customers need to be induced to visit the company s website even if they don t play much time. In a group with high loyalty and less profit, customers need to be induced to use item up-selling and mileage. In a group with high loyalty and profit, customers need to be induced to use the group of games highly contributing to selling. With these kinds of campaigns, loyalty and profit can increase. ii

제 1장서론 정보화시대를살아가는우리들은인터넷을통한검색, e-메일등의기본적인이용에서부터전자상거래, 금융서비스등의식주를비롯한생활전반에이르는다양한서비스들을이용하면서많은부분에대한다양한정보를빠르게입수하고활용하고있다. 이제인터넷은우리생활속깊숙하게정치, 경제, 사회, 문화, 오락등다양한부분에걸쳐서영향을미치고있으며, 없어서는안될우리생활의필수품이되었다. PC통신시절 MUD 게임에서시작된온라인게임산업은지난 10여년동안이러한인터넷성장에힘입어매년폭발적인증가를보여왔다. 한국인터넷진흥원에서조사한 <2006년하반기정보화실태조사 > 에의하면전체인터넷이용자는주로 자료 / 정보획득 (87.6%), 이메일, 채팅등커뮤니케이션 (83.8%), 음악 / 게임등여가활동 (83.4%) 을위해인터넷을이용하는것으로나타났다. 또한인터넷이용자중 36.8% 가유료컨텐츠를이용하고, 유료컨텐츠이용자는주로 음악 (75.7%), 영화 / 방송 (42.5%), 온라인게임 (40.5%) 등의유료컨텐츠를이용하는것으로조사되었다. 특히만 3~5세의인터넷이용자는주로 교육 / 학습 (88.3%), 게임 / 오락 (87%) 을위해인터넷을이용하는것으로조사되었다. 이처럼인터넷성장에힘입어폭발적인증가세를보인온라인게임산업은이제포화상태에거의다다랐기때문에그동안게임시장에서의성장을목표로하던것을이제는우리에게진정한고객은누구인가를규명하고관리하여이들의가치를극대화하는것을중점적인목표로바꿔야할때가되었다. 본논문은총 6개의장으로구성되어있으며, 각장의내용을요약하면다음과같다. 제 1장은서론으로연구배경및연구목적에대하여기술하였다. 제 2장에서는 CRM의정의및배경, CRM 시스템종류를기술하였고, 제 3장에서는분석적 CRM 기법인데이터마이닝기법에대하여기술하였다. 제 4장에서는국내온라인게임회사인 A사자료를이용한실증분석을기술하였고, 제 5장에서는실증분석결과를요약하였으며, 마지막으로 6장에서는결론및향후과제에대하여기술하였다. 1

제 2장고객관계관리 (CRM) 2.1. CRM 의정의 CRM( 고객관계관리 : Customer Relationship Management) 이란 고객에대한광범위하고심층적인지식을바탕으로개개인에게적합한차별적인제품 / 서비스를제공함으로써고객과의관계를지속적으로강화해나가는마케팅 / 경영혁신활동 이라고할수있다. CRM은 1980년대등장한채널에서의고객관계유지를중시하는관계마케팅 (Relationship Marketing) 과고객만족 (CS), 데이터베이스마케팅 (DBM) 등이발전적으로진화하면서등장한마케팅개념으로, 90년대들어그이론적틀을갖추게되면서부터많은기업체에서고객관계마케팅의일환으로도입하게되었다. CRM은즉각적인반응에초점을맞춘데이터베이스마케팅이나기능적인면을강조하는기존의관계마케팅과는다른개념의, 일대일마케팅관점을강조하며차별적인마케팅활동을계획, 지원, 평가하는고객중심의전사적마케팅통합관리체계이다. CRM은다양한채널을통한고객과의커뮤니케이션으로부터수집된정보를기반으로고객과의관계를유지발전하는과정을말한다. 즉, 신규고객획득, 우수고객유지, 고객가치증진, 잠재고객활성화및평생고객확보를목표로고객분석을통해고객을이해하고이를통해고객과지속적인관계를유지함으로써고객가치를극대화하기위한일련의과정이라고할수있다. 이과정을통해궁극적으로기업이얻을수있는것은바로고객만족도의증가와직접마케팅비용의절감, 영업을위한정보지원, 보다효과적인마케팅, 고객확보및유지비용절감이다. 이러한과정들은최근의발달된 IT기술의발달과인터넷으로인해개별고객단위로고객의가치측정이가능해졌으며, 어떻게충성도높은고객과관계를구축하고이를지속적으로유지할것인가를이해하고가장효율적인방법을찾을수있는알수있게되었다. 이를통해기업내 외부의데이터를전체조직의관점에서통합시스템을구축하고이러한기반하에서기업에필수적인고객정보를데이터마이닝 (Data Mining) 을통한분석으로기업의의사결정을할수있도록정보를제공하는역할을한다. CRM은궁극적으로고객정보를데이터베이스화하여고객에게보다질높은 2

서비스를제공하고, 고객과의적극적인관계를구축할수있는수단으로활용함 으로써고객의평생가치 (LTV : Life Time Value) 를극대화하는데그목적이 있다. 이러한 CRM 에대한학계와업계의정의를정리하면 [ 표 2-1] 과같다. [ 표 2-1] 연구기관별 CRM의정의기관 CRM의정의가트너그룹신구고객획득, 기존고객유지및고객수익성을증대시키기위하여지속적인커뮤니케이션을통해고객행동을이해하고, 영향을주기위한광범위한접근 Meta Group 고객에관한지식을지속적으로듣고, 추출하고, 대응하는일련의프로세스들로서, CRM은기업이고객의 Needs, 기대치및행동을더잘이해하게하고이를통해사업기회나변화에기민하게대처할수있도록도와줌한국SW산업협기업이보유하고있는고객데이터를수집, 통합, 가공, 분석회하여고객개개인의특성에맞게마케팅활동을계획, 수행, 평가, 수정하는일련의과정 PC WEEK 영업, 마케팅, 고객서비스및고객지원영역에서고객관계관리와관련된비즈니스프로세스를자동화하고개선시키는데초점을두는솔루션 Ovum 기업이우수고객을지속적으로유지하는동시에신규고객을확보하고고객관련비용을최소화하여기업의경쟁력을향상시킴으로써기업가치를극대화하기위한경영개념 Andersen 지속적인성장을유지하기위하여가치있는고객을파악, 획 Consulting 득, 및유지하는일련의활동이며여기에는마케팅, 판매, 고개서비스등이포함된다. 따라서 CRM의구현은이들대고객관련활동들과관련된조직, 업무프로세스및 IT 인프라를고객가치위주로의재편을의미한다. NCR corp. 고객의획득, 유지및고객의수익성을개선하기위해서지속적이고적절한커뮤니케이션을통해고객의행동을이해하고고객의행동에영향을미칠수있도록하는전사적접근방법이다. 능률협회컨설팅고객과관련된기업의내 외부자료를분석, 통합및세분화하여고객특성에기초한마케팅활동을계획지원함으로써신규고객획득, 잠재고객의활성화, 우수고객을유지할수있 3

Sawaobori 도록고객을적극적으로관리 유지하여궁극적으로한번고객은평생고객이될수있도록고객의가치를극대화시키는전략이다. 기업이상품이나서비스를고객에게지속적으로구매하도록하기위해고객과의커뮤니케이션을최적화해가는마케팅적사고방법이다. 2.2. CRM 등장배경 기업의마케팅활동은시장개발, 경쟁의심화, 소비자욕구변화등의다양한시장환경변화에적응발전해왔다. 과거대량생산의제품중심마케팅활동을통해소비자는수동적구매자로인식되어오던것이 80년대들어소비자중심의마케팅활동으로전환되면서대중마케팅 (Mass Marketing), 표적마케팅 (Target Marketing), 틈새마케팅 (Niche Marketing) 등의일련의흐름을보여왔다. 다양한고객층을만족시키기에는역부족이었던것이데이터베이스마케팅 (Database Marketing) 방식을통해기업성과의혁신적인제고가가능하게되었다. 산업발전속도와맞물려개방화에따른외국기업의시장참여, 동종업계간의경쟁심화, 소비자욕구의변화추세가가속화됨에따라새로운시장상황하에서어떻게대처하는가가기업의최대현안으로부각되면서기존불특정다수를대상으로하는마케팅에서탈피일대일 (One-to-One) 마케팅의필요성이대두되었다. 한편 IT 기술의발전을 E-Business에관심이집중되면서신규고객확보, 유지, 관리문제로고객과의쌍방향의사소통이가능한솔루션을요구하게되었고, 개별마케팅 (Individual Marketing), 일대일마케팅 (One to One Marketing), 관계마케팅 (Relationship Marketing) 등의요소를기반으로 CRM이등장하게된것이다. 2.3. CRM 시스템의분류 CRM 에대한기본적인분류는주로메타그룹의 CRM 산업보고서 (The Customer Relationship Management Ecosystem 1999) 에대한분류기준을따 른다. CRM 은프로세스관점에따라운영적 (Operational) CRM, 분석적 4

(Analytical) CRM, 협업적 (Collaborative) CRM 으로분류할수있다. 2.3.1. 운영적 (Operational) CRM CRM의구체적인실행을지원하는시스템이다. 기존의 ERP(Enterprise Resource Planning : 전사적자원관리 ) 시스템이조직내부의관리효율화를담당하는시스템 (Back-end) 임에반하여, 운영적 CRM은조직과고객간의관계향상, 즉ERP 시스템의기능 ( 거래처리, 재무, 생산, 제고및인사관리 ) 중에서고객접촉과관련된기능을강화하여조직의전방위업무를지원하는시스템 (Front-end) 이다. 이것은주로영업과서비스를위한시스템이다. 1) 영업자동화시스템 (SFA : Sales Force Automation) 기존고객및잠재고객에대한정보를활용하여영업사원의효율향상및판매행위를지원하기위한시스템으로일반적으로 ERP의 Backoffice 부분과유기적인관계를가진다. 2) CTI(Computer Telephone Integration) 고객과의접촉을하기위한운영 CRM의경우에는전화사용이필수적이다. CTI는고객의구매이력데이터를축적하여고객의전화번호등을이용해자동적으로해동고객의데이터를오퍼레이터의화면에표시해줌으로써, 과거에구입한물건이나상담내용등을보면서원활하게전화서비스를할수있는전화와컴퓨터를통합하는시스템이므로이시스템은고객데이터베이스나고객정보와연계되어고객관리의효율성을높여준다. 3) 고객지원서비스시스템상품판매후대고객서비스를지원하기위한시스템으로서일반적으로서비스의관련담당자들이사용하는시스템으로유지 보수등 A/S 활동을지원한다 2.3.2. 분석적 (Analytical) CRM 분석적 CRM 은영업, 마케팅, 서비스측면에서고객정보를활용하기위해 5

고객데이터를추출, 분석하고고객의행동을예측하기위한시스템이다. 이를통해사업에필요한고객, 시장세분화, 고객프로파일링, 제품컨셉의발견, 캠페인관리, 이벤트계획, 프로모션계획등의기획및방법에대한아이디어가도출될수있다. 고객데이터의과학적인분석을위하여데이터마이닝기술이매우중요한이슈로부각되며, CRM의다른구성요소인운영적 CRM, 협업적 CRM과밀접하게연관되도록 Closed Loop을구성하여야한다. 1) 데이터웨어하우스와데이터마트고객에대한정보를보관하는 데이터저장고 로 CRM의각구성요소들은데이터웨어하우스로부터필요한정보를추출 갱신 추가하게되며특정목적을위한작은규모의데이터웨어하우스는데이터마트를의미한다. 2) 데이터마이닝데이터마이닝이란데이터와데이터의관계를찾아내거나숨겨진패턴을발견하여겉으로드러나지않는정보를발굴해내고, 좀더유용한정보를찾아비즈니스전략에활용하기위한기술을의미한다. 3) OLAP(On-Line Analytical Processing) OLAP은준비된데이터웨어하우스에서정보를얻어오기위한도구로서현업담당자들은 OLAP등을활용해질의어 (SQL) 의사용및전산실의도움없이도다차원정보에직접접근하여대화식으로정보를분석하고의사결정에활용할수있다. 2.3.3. 협업적 (Collaborative) CRM(e-CRM) CRM) 협업적 CRM이란고객과기업, 기업내의조직간의업무일원화와커뮤니케이션을목적으로상호작용을촉진시키며, 상호연관서비스를하는어플리케이션으로고객과의접점을관리, 지원하는시스템을말한다. 협업적 CRM은분석적 CRM과운영적 CRM 시스템의통합을의미한다. 이메일, 컨퍼런싱, 채팅, 포털등과같은협업인터페이스를제공하는애플리케이션이며, e-비즈니스환경에서각고객별로차별화된서비스를제공하는웹개인화서비스시스템이대표적인예이다. 6

제 3장데이터마이닝의고찰 3.1. 데이터마이닝의이해 데이터마이닝에대한정의는관련분야에따라조금씩다르기는하지만대체로두가지로종합할수있다. 첫째는기존의다른데이터분석방법에의해밝혀지지않은규칙이나관계를대용량의데이터베이스로부터찾아내는자동화된기법이다. 이는인간의참여를최소화하고인공지능분야에서개발한알고리즘을활용하여규칙과관계를기계적으로추출하는것으로기계적학습 (Machine Learning) 기법이라부르기도한다. 여기에서대표적으로사용되는알고리즘은신경망, 의사결정나무, 유전자알고리즘 (Genetic Algorithm) 등으로주로파산예측, 신용평가, 이탈고객특성파악등과같은분류적예측 (Classificatory Prediction) 모형개발에응용되어왔다. 이기법들은독립변수 ( 또는입력변수 ) 와목표변수 ( 또는반응변수 ) 간에존재하는규칙이나패턴을각각의알고리즘을이용하여찾아내는것인데유사한형태의데이터에응용하여그결과를분류해내는정확도 ( 정분류율 : Hit Ratio) 를기준으로규칙과패턴의가치에대한평가가주로이루어졌다. 두번째정의는규칙발견외에추정된또는밝혀진규칙과패턴에대한확인또는검정을데이터마이닝에포함시키는보다광의의정의라할수있다. 검정되지않은관계는가치있는규칙이라기보다는추정에가깝기때문에규칙에대한확인과검정과정이필요하게된다. 여기서는통계를기초로하는탐색적데이터분석, 회귀분석, 판별분석등을이용하여규칙의발견뿐아니라주요변수의선택, 변수와의관계분석을통해규칙의타당성을점검하는데초점을두게되며기계적인학습과는달리분석가의능력과인간적인학습이강조된다. 데이터마이닝에대한정의가다양한이유는데이터마이닝이혁신적으로새로이등장한방법이라기보다는과거 20~30년전부터여러분야에서사용되어왔기때문이다. 과거에비해달라진것은분석에사용될수있는데이터의양이크게증가하여과거에찾지못했던가치있는규칙과패턴을밝혀내는것이가능해졌다는것이다. 정보기술의발달, 특히데이터저장과분석기능의발달은실질적인데이터마이닝작업을가능하게하여가치있는규칙이추출될수있게하였을뿐아니라데이터의수집, 저장, 분석에서요구되는비용과시간을크게절감하여분석작업의경제성을높이는데도기여하게되었다. 실제현업에서주로사용되는데이터마이닝작업으로는예측모형 7

(Predictive Model), 군집화 (Clustering), 분류 (Classification) 등을들수있다. 예측모형은독립변수와목표변수간의관계를모형화하여목표변수의값을예측하는것으로고객의채무불이행가능성, 고객의해지가능성처럼고객의행동을미리예측하는데활용할수있다. 예를들어, 현재가입고객중해지 ( 이탈 ) 가능성이높은고객을분류해낼수있다면이들에대한특별우대프로그램등의제공을통해해지를사전에방지할수있어고객유지 (Customer Retention) 전략에유용하게쓰일수있다. 군집화는특정그룹에포함되는고객들의공통적인특징을설명할수있는변수를찾아그값에따라고객을그룹화하는과정을의미한다. 이는공통적인특징에따라고객층을세분화 (Segmentation) 함으로써타겟마케팅을가능하게한다. 예를들면, 신규고객확보 (Customer Acquisition) 를목적으로카탈로그를통한개별마케팅을준비할때반응을보일가능성이높은고객계층을찾는일에데이터마이닝을응용할수있다. 분류는새로운고객을이미특징이알려져있는계층 (Class) 에배정하는작업으로새로운고객에대한개별적인마케팅에사용된다. 이러한데이터마이닝작업에서사용되는변수는인구통계학적데이터, 고객의생활패턴과구매행태등으로주로고객에관한데이터를기초로고객의특성을분석해내는데응용되고있다. 최근데이터마이닝의중요성이강조되는이유는여러가지가있겠으나첫째, 방대한데이터베이스속에축적된많은양의데이터를보다효율적으로이용한다는점을들수있다. 둘째, 데이터마이닝알고리즘의발달과컴퓨터의용량및성능향상은양적으로증가되고복잡한형태를가진데이터의처리과정을보다쉽게처리할수있도록함으로써원하는정보를보다쉽게얻을수있는환경을제공한다는점이다. 셋째, 데이터마이닝기법은기존의전문가시스템이갖는한계점인지식획득의병목현상을유연하게극복할수있는대안으로자리잡고있다는점이다. 데이터마이닝이최근에더욱각광받는이유는인터넷이등장하였기때문이다. 즉, 인터넷과같은클라이언트 / 서버 (Client/Server) 구조하에서데이터마이닝엔진을서버에두고클라이언트들의접근기록을데이터베이스화하여사후분석한후그정보를이용하는것이다. 물론현재인터넷상의정보는너무도다양한형식으로구성되어있으므로모든고객정보를대상으로새로운패턴을추출하기에는다소무리이겠지만인터넷문서의표현양식의표준화및검색기술의발전은가까운장래에데이터마이닝의적용을가능하게할것으로보인다. 8

3.2. 데이터마이닝기법 일반적으로데이터분석기법들은크게세그룹으로분류하는데첫째는로지스틱회귀분석, 다변량판별분석 (Multivariate Discriminant Analysis) 등과같이전통적인통계기법이고, 둘째는의사결정나무, 의사결정규칙 (Decision Rules) 등과같은기계적학습 (Machine Learning) 기법이며, 셋째는역전파 (Backpropagation), 코호넨망 (Kohonen s Selforganizing Network) 등의신경망 (Neural Networks) 기법이다. 이들데이터마이닝기법중데이터와응용분야의특성에관계없이가장탁월한결과를제시하는기법은보고된바가없는이것은입력변수의성격 ( 예, 범주형또는연속형 ), 입력변수의수, 레코드의수, 변수간상관관계, 비선형성의존재여부, 데이터의정확도등데이터와관련된여러가지요인이기법의성능에영향을미치기때문이다. 특히 Berry와 Linoff(2000) 는많은경험적연구에서데이터와적용분야의특성에대한아무런사전조사없이데이터마이닝기법들을사용함으로써실망스러운결과를얻고있음을지적하고있다. 이러한의미에서이들기법을적용하기에앞서각그룹별대표적인기법들의장점과한계등을살펴보는것이연구의효율성및신뢰도의제고를위해필요하다. 분류화 (Classification) 를위해데이터마이닝에서자주사용되는기법은신경망 (Neural Network) 과의사결정나무 (Decision Tree) 이다. 신경망에대한문헌에서분류화에대해사용되어지는용어는감독학습 (Supervised Learning) 이다. 왜냐하면망구조는예측된결과와실제의결과를비교하면서학습을통해그모델을지속적으로조정하기때문이다. 이절에서는로지스틱회귀분석, 신경망그리고의사결정나무기법에대하여알아보기로한다. 3.2.1. 로지스틱회귀분석 (Logistic Regression) 로지스틱회귀분석은하나이상의입력변수들과명목형값을지닌목표변수의관계를함수로나타내며목표값의발생확률을산정한다. 이기법은데이터의동시통합 / 분석을통하여분류에영향을미치는주요변수들을선별하고이들의영향력을해석가능한수식으로제공하는능력을지니고있다. 특히연속형입력변수의목표변수 ( 즉, 분류 / 종속변수 ) 에의기여도에대한설명력은타기법들에비해월등하다. 반면, 데이터값들의정규분포, 각집단 ( 예, 정상, 비정상 ) 의균등공분산 (Covariance) 등의여러가지통계학적가정을요구하며, 데 9

이터에다수의범주형변수가포함되어있을때이들의처리과정에서발생할수있는치우침 (Bias) 등의한계를지니고있다. 성공, 실패등과같이반응범주의개수가이항 (Binary) 인반응변수를갖는범주형데이터들을독립변수들을이용하여설명하고자하는경우에사용하는모형중의하나가로지스틱모형이다. 예컨대고객해지방지 (Churn Management) 에서는반응변수는해지 / 서비스지속을나타내게되는데이경우반응범주의수는두개가되며이를설명하는데이용되는변수들로는나이, 직업등과같은인구통계적 (Demographic) 변수들이있을수있으며거래량, 서비스지속기간등과같은거래 (Transaction) 변수가될수있다. 로지스틱회귀모형에서반응변수는이항이지만설명변수들은나이와같은연속형이거나직업또는성별과같은이산형 (Discrete) 변수가될수있다. 이제설명변수를 x 라나타내고반응변수를 y 라하면, 반응변수 y 가두개의가능한범주중관심있는특정범주에해당하는값을가질수있다고하고이들을편의상성공인경우 1 로정의하고실패인경우는 0 으로나타내고자한다. 예를들어, 고객해지방지에서관심있는특성이해지라면 y 가 1 이되고서비스지속고객인경우는 y 가 0 이된다. 반응변수 y 가 1 이라는값을가질확률이라고할때선형로지스틱회귀모형을 η ( x ) = β + β x + L + β 0 1 1 n x n 라하면 exp( η( x)) p( x) = 1+ exp( η( x)) 로표현할수있다. 이때를선형예측 (Linear Prediction) 이라한다. 로짓 (Logit) 함수 g 를 g( x) = log 1 p p 로정의하면성공확률 p(x) 와선형예측 η(x) 는관계식 g( p( x)) = η( x) 10

을만족하는데이때로짓함수 g 는일종의반응변수와평균간의함수로서이를 연결함수 (Link Function) 라고부르고있다. 3.2.2. 신경망 (Neural Networks) 신경망은간단한계산능력을가진처리단위인뉴런 (Neuron) 또는노드 (Node) 들이서로복잡하게연결된컴퓨터시스템으로서외부에서주어진입력에대하여동적인반응을할수있다. 이러한특징은결국신경망을구성하고있는다수의뉴런간의상호연결성에기인한것이다. 뉴런은생체내의신경세포와비슷한것으로써가중치화된상호연결선으로서로연결되어있다. 가장일반적으로많이사용되고있는신경망모형은 Rumelhart 등이제안한다계층신경망모형으로서, 입력층 (Input Layer) 에서은닉층 (Hidden Layer), 은닉층에서출력층 (Output Layer) 으로각뉴런이서로연결되어있는것이특징이다. 각각의뉴런은주어진학습자료를학습하는학습기능과상호연결된또다른뉴런에그처리결과를보내는전달기능이있다. 특히전달기능을위하여사용되는전이함수 (Transfer Function) 는일반적으로 S자형함수인시그모이드 (Sigmoid) 함수를사용한다. 입력층은외부환경과상호반응하며외부입력을받아인공신경망에전달하는역할을한다. 또한출력층은주어진외부입력에대한적절한출력을내보내는역할을한다. 한편입력층과출력층사이의인공신경망층을은닉층이라고하며이는주어진입력으로부터특성을추출하여출력층으로보내는기능을한다. 은닉층의수와뉴런수는적용문제에따라달라지며따라서그타당성은실험을통해서확인하여야한다. 만약입력자료가특성추출이용이하지않은자료로구성되어있으면, 그러한입력자료로부터고차원의특성을추출하기위해서는여러개의은닉층이요구된다. 반면에, 입력자료가이미어느정도고차원의특성치를나타내고있으면, 하나또는두개정도의은닉층만있어도거의모든형태의문제해결공간을구성할수있다. 한편, 서로다른층의뉴런간에형성되는연결가중치 (Connection Weights) 는역전파학습과같은감독학습 (Supervised Learning) 에의해서결정되거나또는경쟁학습과같은비감독학습 (Unsupervised Learning) 에의해서결정된다. 특히, 역전파학습은신경망관련응용에있어서가장많이이용되고있는데, 그이유는역전파학습이갖는넓은응용력과높은일반화능력 (Generalization Effect) 으로서신경망의가장큰특징중의하나이다. 즉, 학습하지않은입력자료에대한근사 11

추론 (Approximation Reasoning) 을가능하게하는것을의미하며처음대하는입력자료에대하여올바른결과를낼수있는추론능력을의미한다. 이와같은다계층신경망을학습시키기위한대표적인학습방법으로역전파학습알고리즘 (Back Propagation Algorithm) 이있다. 이알고리즘의절차는다음과같은데먼저, 다계층신경망에서처리단위 j 의역학은다음과같이표현할수있다. o = f net ) 단, 이때, o j = j 처리단위의출력값 j net j = ( j N i= 1 w ij f () = 비선형전환함수 xi x i = 전단계 i 처리단위로부터의입력값 wij = 전단계 i 처리단위와 j 처리단위와의연결강도 N = j 처리단위와관련을가지는전단계처리단위의수 즉, 처리단위는전단계처리단위에서의출력을입력 ( x i ) 으로하여연결강도 에의한가중합 ( net ) 을비선형함수로전환하여다음단계의처리단위로출력하 j 는기능을한다. 예를들어 [ 그림 3-2] 의은닉층의처리단위는입력층의연결 된각처리단위들로부터그들의출력값을연결강도로곱하여받아들이고이들 의합을비선형전환하여출력층의처리단위로출력한다. [ 그림 3-1] 처리단위 j 의계산구조 입력 가중치 처리단위 출력 12

이와같은입력과출력이각층의처리단위에서이루어지고최종적으로출 력층에서계산값이구해진다. 이때사용되는것이 f ( net j 1 ) = (1 + e net j ) 와같은시그모이드함수인데이전환함수는 [-, + ] 의구간에서나타나는출력을 [0, 1] 구간으로제약하기위해사용된다. 한편, 이미언급한바와같이신경망이학습한다고표현하는것은모형의계산값이목표값에가깝도록연결강도를조정하는과정을의미한다. 즉, 위에서언급한다계층신경망의최종출력값이구해지면이값을제시된실제목표값과의오차를구한다. 그다음이오차를최소화하는방향으로각층에서의연결당도를조정하는것이다. 역전파학습알고리즘에서는입력과연결강도를이용해구한출력값과목표값의차이인오차를하위처리단위로되돌려보냄으로써오차를감소시키는방향으로연결강도를조정한다. 이와같은연결강도의조정을오차의크기로인정할수있을때까지앞에서설명한모든과정을반복함으로써학습이이루어진다. 3.2. 2.3. 의사결정나무 (Decision Tree) 의사결정나무는의사결정규칙 (Decision Rule) 을나무구조로도표화하여분류 (Classification) 와예측 (Prediction) 을수행하는분석방법으로분류또는예측의과정이나무구조에의한추론규칙 (Induction Rule) 에의해서표현되기때문에분석자가그과정을쉽게이해하고설명할수있다는장점을가지고있다. 의사결정나무는판별분석 (Discrimination Analysis) 또는회귀분석 (Regression Analysis) 등에서분석에필요한변수를찾아내고모형에포함되어야할교호효과를찾아내는데에사용될수도있으며, 그자체가분류또는예측모형으로사용될수도있다. Hunt, Marin, Stone에의해처음소개되었으며, 80년대중반 Quinlan이이를수정하고변형하여 ID3를발표한이후인공지능및기계학습의다양한분야에폭넓게사용되고있다. 일반적으로의사결정나무분석은다음과같은단계를거친다. 13

- 의사결정나무의형성분석의목적과자료구조에따라서적절한분리기준 (Split Criterion) 과정지규칙 (Stopping Rule) 을지정하여의사결정나무를얻는다. 분리를하기위해서는우선분리를위한후보세트가결정되어진후에분리기준이최적의것을결정하기위하여사용되어진다. 상황에따라분리의가치는분명하다. 만약자식마디에대한목표변수의분포가그것들의부모마디의분포와같다면분리에대한개선이이뤄지지않았다는것을의미한다. 반대로, 만약분리가순수한자식마디를만들어내면그분리는최적의분리일수있다. 분류를위한나무구조에서대표적인분리기준으로는 Chi- Squared Test(Kass, 1980), 지니지수 (Gini Index(Breiman et al, 1984)), 엔트로피지수 (Entropy Index(Quinlan, 1986)) 를들수있다. - 가지치기분류오류 (Classification Error) 를크게할위험 (Risk) 이높거나부적절한추론규칙을가지고있는가지 (Branch) 를제거한다. 의사결정나무는모든노드가순수해질때가지성장할수있다. 따라서최대의나무구조는분류나무 (Classification Tree) 에대한분석용데이터에대하여 100% 의정확성을제공한다. 그러나최대의나무구조는과적합 (Overfitting) 되어져서새로운변화가있는데이터에대해서는일반화되어지기힘들다. 이는단지소수의가지만을가지는작은나무 (Small Tree) 구조하에서도마찬가지결과를일으킨다. 나무구조의복잡성 (Complexity) 은잎 (Leaves) 과가지 (Splits) 의수그리고나무의깊이 (Depth) 에따라결정되는함수로서의사결정나무와같은비선형모델에있어서는결정적으로작용한다. 잘적합되어진나무는낮은편의 (Bias) 와낮은분산 (Variance) 을가진다. 모델의복잡성결정의일반적으로편의와분산사이의관계에서결정되어진다. - 타당성평가이익도표 (Gains Chart) 나위험도표 (Risk Chart) 또는검정용자료 (Test Data) 에의한교차타당성 (Cross Validation) 등을이용하여의사결정나무를평가한다. - 해석및예측 의사결정나무를해석하고분류및예측모형을설정한다. 14

1) 이산형목표변수에대한분리기준 이산형목표변수 (Target Variable) 에대한분리기준으로는카이제곱통계량, 지니지수, 엔트로피지수등이이용된다. 이러한분리기준으로형성된의사 결정나무를분류나무 (Classification Tree) 라고한다. - 카이제곱통계량 (Chi-Square Statistic) 목표변수와설명변수의관측도수로이루어진 며, 이때카이제곱통계량값은다음과같다. r c 분할표로부터계산되 x 2 ( E 2 ij ) f = ij i, j E ij 단, E ij = f i. f f... j 분리기준을카이제곱통계량으로한다는것은 p 값이가장작은설명변수 와그때의최적분리에의해서자식마디가형성되게한다는것을의미한다. - 지니지수 (Gini Index) 지니지수는 n 개의원소중에서임의로 2 개를추출하였을때, 2 개가서 로다른그룹에속해있을확률로, 다음과같이표현된다. G = c j= 1 P( j)(1 P( j)) = 1 c c 2 P( j) = 1 j= 1 j= 1 n j ( ) n 2 즉, 지니지수는각마디에서의불순도 (Impurity) 를재는측도인데, 이지 니지수를가장감소시키는설명변수와그변수의최적분리를자식마디로 선택한다. - 엔트로피지수 (Entropy Index) 지니지수와유사한분리기준으로, 다항분포 (Multinomial Distribution) 에서의우도비검정통계량 (Likelihood Ratio Test Statistic) 을사용하는것과같다. 15

E = c i= 1 P( i) log 2 P( i) 2) 연속형목표변수에대한분리기준 연속형목표변수에대한분리기준은 F 통계량, 분산의감소량 (Variance Reduction) 등이이용된다. 이러한분리기준으로형성된의사결정나무를회 귀나무 (Regression Tree) 라한다. - F 통계량 yij 를 i 번째설명변수의범주에속하는 j 번째관측개체의목표변수의값 이라고하고, yi 를 i 번째범주의평균, y 를전체평균이라고할때, F 통 계량은다음과같다. F r i i= 1 = r n i i= 1 j= 1 n ( y ( y i ij 2 y) /( r 1) 2 y ) /( n r) i 이통계량은자유도 ( r 1, n r) 인 F분포를따르며, F 통계량이매우작다는것은설명변수에따른목표변수의평균차이가유의하지않다는것을의미한다. - 분산의감소량 (Variance Reduction) 각마디의다양도 (Diversity) 를재는측도로다음과같은분산을고려할 수있다. V = 1 n n i= 1 ( y i y) 2 이상과같은분리기준, 정지규칙, 평가기준을어떻게지정하느냐에따라서 16

로다른의사결정나무가만들어질수있다. 대표적인의사결정나무알고리즘에는카이제곱통계량의 p값분리기준에기반한 CHAID, 지니지수 (Gini Index) 를가장감소시켜주는변수를선정해자식마디를형성하는 CART, 정보손익 (Information Gain) 에근거해나무모형을형성하는 ID3와 C4,5 등이있다. [ 표 3-1] 의사결정나무모형에사용되는알고리즘의비교알고리즘 CHAID C4.5 CART 기준입력변수에의한다중분할다중분할이진분할분리형식연속형목표변수처리불가처리가능처리가능나무구조생성시오류분류비용사사용안함사용사용용여부하나의범주로처하나의범주로처결측치처리결측치대체리리사전확률사용여사용안함사용안함사용부 지금까지의사결정나무를이용하여모형을구축하는개괄적인단계를설명 하였으며, 이기법이가지는장 단점은아래와같다. 의사결정나무의장점 - 분류나예측의근거를알려주기때문에이해하기가쉽다. - 모형구축시분류에영향을미치지않는속성들을자동으로제외시키기때문에데이터를구성하는입력변수의수가지나치게많은경우에도작업이용이하다. - 연속형이나명목형데이터값들을기록된그대로처리할수있기때문에지식발견프로세스중데이터의변환단계에서소요되는기간과노력을단축시킨다. - 어떠한입력변수들이분류에결정적인영향을주는가를쉽게파악할수있다. - 모형구축에소요되는시간이짧다. 17

의사결정나무의단점 - 나이나소득등과같은연속형데이터를처리하는능력이신경망이나통계기법에비해멀어지며결과적으로예측력도감소한다. 따라서데이터에다수의연속형변수가포함되어있을경우값들을그룹화하여이산형이나범주형값으로변환시킬필요가있는데, 그룹화하는과정에서발생하는치우침을배제할수없다. - 반응변수가주가나주택의가격등과같은연속형변수의형태를취하는경우에는적합하지않다. - 모형을구축하는데사용되는표본의크기에지나치게민감하다. 따라서보다정확한모형을만들기위해서는서로상이한값을갖는레코드들을가능한한많이포함하는데이터가요구된다. 18

제 4장실증분석 4.1. 자료의수집 본연구에서사용된데이터는국내온라인게임회사인 A사의고객데이터를활용하였다. 표본수는약 517만명으로 2006년 4월부터 2007년 3월까지 A사에서아이템을구매한고객이다. 이번연구에서사용할수있는변수들은 [ 표 4-1] 과같이총 61개변수로, 크게인구통계학적인변수와게임과관련된변수들로구성되어있다. 온라인산업의특성상인구통계학적인변수의대다수가미입력또는부정확한값인관계로이번연구에서는성별과연령만을고려하였다. 게임과관련된변수로는사이트이용관련변수, 게임이용관련변수, 사이버머니충전관련변수, 아이템및회원제구매관련변수, 마일리지관련변수, 기타변수들이있다. [ 표 4-1] 온라인게임회사 A사고객데이터베이스항목 대분류 중분류 변수명 인구통계 연령 연령 성별 성별 게임관련 사이트이용 사이트가입경과월, 사이트방문일수, 당월신규가 관련 입여부, 이용월 게임이용 게임일수, 게임판수, 이용게임종류수, 1회평균게임판수, 1군 ~ 10군의게임군별게임일수 / 게임판수 사이버머니충전관련 충전금액, 충전횟수, 충전수단종류수, 1회평균충전금액, 충전취소경험여부 구매관련 구매금액, 아이템구매금액, 아이템구매횟수, 아이템구매수량, 구매아이템종류수, 1회평균아이템구매금액, 1회평균아이템구매수량, 아이템구매취소경험여부, 회원제결제금액, 회원제결제횟수, 이용회원제종류수, 회원제결제수단종류수, 1회평균회원제결제금액, 회원제결제취소 경험여부 19

마일리지관 련 기타 마일리지적립액, 마일리지적립횟수, 1회평균마일리지적립액, 마일리지사용액, 마일리지사용횟수, 1회평균마일리지사용액, 마일리지를사용한게임종류수, 마일리지를사용하여교환한게임머니, 1회평균교환게임머니처벌횟수, 처벌종류수, 처벌여부, VIP여부 4.2. 고객분류 로열티와수익성관점에서고객을분류하기위하여로열티항목으로게임방문일수를, 수익성항목으로매출액 ( 아이템구매금액과회원제결제금액의합 ) 을선택하였다. 로열티항목과수익성항목을각각 50% 가되는지점을기준으로하여 4개의그룹으로나누었고, 각그룹번호는 [ 그림 4-1] 에서와같이하였다. [ 그림 4-1] 로열티항목과수익성항목을이용한고객분류 수익성 그룹 2 그룹 4 9,900 원 그룹 1 그룹 3 12 일로열티 각그룹을구분짓는기준값으로로열티항목의중앙값은게임일수 12 일, 수 익성항목의중앙값은매출액 9,900 원이었다. 각그룹별특성은 [ 표 4-2] 와같 다. 20

[ 표 4-2] 그룹별특징그룹특징그룹1 - 당월신규가입고객이타그룹보다많음 - 게임이용도가타그룹에비해굉장히낮음그룹2 - 여성의비율은상대적으로낮고, 성별이 Null인비율이높음 - 게임을이용하지않은고객들이존재하는유일한그룹임 - 2군게임을해본고객의비율이낮음 - 9군게임을해본고객의비율이그룹1, 그룹3보다높음그룹3 - 여성의비율이타그룹보다상대적으로높음 - 2군게임을해본고객의비율이그룹1, 그룹2보다높음 - 9군게임을해본고객의비율이그룹2, 그룹4보다낮음그룹4-2군게임을해본고객의비율이그룹1, 그룹2보다높음 - 9군게임을해본고객의비율이그룹1, 그룹3보다높음 - 게임판수및 1일평균게임판수관점에서타그룹보다게임이용도가높음 우수고객을그룹4에해당하는고객으로정의하고다음달에우수고객이될사람 (Target = 1) 을데이터마이닝기법을이용하여예측하였다. 다음달에우수고객이될사람의비율은전체적으로볼경우 21.6% 이고각그룹별로따로볼경우그룹1은 4.0%, 그룹2는 14.1%, 그룹3은 9.0%, 그룹4는 55.2% 였다. 4.3. 모형구축에사용할변수선택 각그룹별로어떠한변수들이우수고객예측모형구축에사용될것인가를판단하기위해서교차분석과상관분석, T-test 분석을실시하였다. 먼저연령그룹을포함한 7개의범주형변수들을대상으로목적변수와교차분석을실시하여유의수준 0.05에서유의하지않은변수들을제외시켰다. 다음으로 53개의연속형변수들을대상으로목적변수와 T-Test를실시하여유의수준 0.05에서유의하지않은변수들을제외시켰다. 다음으로각변수들간의상관분석을실시하여상관관계가 0.7 이상인변수들에대하여목적변수와의상관정도가상대적으로낮은변수들을제외시켰다. 이상의분석결과를바탕으로최종적으로남아있는변수들을사용하여우수고객예측모형구축에사용하였다. 그결과를정리하면 [ 표 4-3] 과같다. 21

[ 표 4-3] 모형구축에사용할변수그룹변수명그룹1 1회평균교환게임머니, 1회평균아이템구매수량, 처벌종류수, 구매금액, 충전금액, 충전횟수, 2군게임판수, 3군게임판수, 3군게임일수, 4군게임판수, 5군게임판수, 5군게임일수, 6군게임일수, 8군게임판수, 9군게임판수, 10군게임판수, 10군게임일수, 게임일수, 이용게임종류수, 사이트가입경과월, 마일리지적립액, 마일리지적립횟수, 마일리지사용액, 마일리지를사용한게임종류수, 회원제결제수단종류수, 게임판수, 아이템구매금액, 구매아이템종류수, 아이템구매횟수, 사이트방문일수, 연령, 처벌여부, 당월신규가입여부, 회원제결제취소경험여부, 아이템구매취소경험여부, 성별, VIP여부, 이용월그룹2 1회평균마일리지사용액, 1회평균회원제결제금액, 1회평균아이템구매금액, 1회평균아이템구매수량, 처벌횟수, 충전금액, 충전수단종류수, 충전횟수, 2군게임일수, 3군게임판수, 3군게임일수, 4군게임판수, 6군게임일수, 7군게임일수, 8군게임판수, 8 군게임일수, 9군게임일수, 10군게임판수, 10군게임일수, 게임일수, 이용게임종류수, 사이트가입경과월, 마일리지적립횟수, 마일리지를사용한게임종류수, 게임판수, 구매아이템종류수, 아이템구매횟수, 아이템구매수량, 사이트방문일수, 연령, 당월신규가입여부, 충전취소경험여부, 아이템구매취소경험여부, 성별, VIP여부, 이용월그룹3 1회평균게임판수, 1회평균마일리지사용액, 1회평균교환게임머니, 1회평균회원제결제금액, 1회평균아이템구매금액, 1회평균아이템구매수량, 처벌종류수, 구매금액, 충전금액, 충전수단종류수, 충전횟수, 2군게임일수, 4군게임판수, 5군게임판수, 8군게임일수, 9군게임판수, 9군게임일수, 10군게임판수, 10군게임일수, 이용게임종류수, 사이트가입경과월, 마일리지적립액, 마일리지적립횟수, 마일리지를사용한게임종류수, 마일리지를사용하여교환한게임머니, 구매아이템종류수, 아이템구매수량, 사이트방문일수, 연령, 처벌여부, 당월신규가입여부, 회원제결제취소경험여부, 아이템구매취소경험여부, 성별, VIP여부, 이용월 22

그룹 4 1회평균마일리지사용액, 1회평균아이템구매금액, 1회평균아이템구매수량, 처벌횟수, 구매금액, 충전수단종류수, 충전횟수, 2군게임판수, 3군게임판수, 3군게임일수, 4군게임일수, 5군게임일수, 6군게임일수, 8군게임일수, 9군게임일수, 10군게임판수, 10군게임일수, 게임일수, 이용게임종류수, 사이트가입경과월, 마일리지적립횟수, 마일리지를사용한게임종류수, 회원제결제금액, 회원제결제수단종류수, 게임판수, 구매아이템종류수, 아이템구매횟수, 연령, 처벌여부, 당월신규가입여부, 성별, VIP여부, 이용월 23

제 5장실증분석결과 5.1.1. 우수고객예측모형성능비교 3가지모형의예측력을비교하기위하여모형추정용 (Training) 데이터셋과모형검정용 (Validation) 데이터셋, 모형시험용 (Test) 데이터셋의비율을각각 40%, 30%, 30% 로나누어적합하였다. 의사결정나무, 로지스틱회귀분석, 신경망의세가지분석방법을각각이용한우수고객예측모형에서정확도를나타내는지표인오분류율과구축모형의성능을비교하기위한 ROC Chart를이용하여모델링기법별예측모형성능을비교하였다. 마지막으로 Lift Chart를이용하여전체집단에비해서해당등급에서예측력향상정도를비교하여최종모형을선정하였다. [ 표 5-1] 은그룹별모델링기법별데이터셋에서의오분류율을나타낸표이다. 그룹1 ~ 그룹4 모두의사결정나무의오분류율이가작장게나왔고, 그다음으로신경망, 로지스틱회귀분석의순서로오분류율이작게나왔다. [ 표 5-1] 그룹별오분류율 오분류율 TRAIN VALID TEST Tree 0.03972 0.04038 0.04069 그룹1 Reg 0.04003 0.04064 0.04086 Neural 0.03984 0.04048 0.04072 Tree 0.14103 0.14050 0.14078 그룹2 Reg 0.14230 0.14122 0.14196 Neural 0.14144 0.14074 0.14127 Tree 0.08675 0.08690 0.08674 그룹3 Reg 0.08951 0.08971 0.08913 Neural 0.08929 0.08940 0.08888 Tree 0.32017 0.32110 0.31996 그룹4 Reg 0.34085 0.34178 0.34094 Neural 0.33132 0.33169 0.33132 [ 그림 5-1] ~ [ 그림 5-4] 는각그룹별 ROC Chart 를나타낸것이다. 그룹 1 ~ 그룹 3 의경우신경망이로지스틱회귀분석보다모델성능이약간더좋고, 24

의사결정나무가다른모델링기법보다모델성능이다소떨어짐을확인할수 있다. 그룹 4 의경우세모델링기법이모두비슷한성능을나타내고있으며그 중의사결정나무가모델성능이약간더좋음을확인할수있다. [ 그림 5-1] 그룹 1 의 ROC Chart [ 그림 5-2] 그룹 2 의 ROC Chart [ 그림 5-3] 그룹 3 의 ROC Chart [ 그림 5-4] 그룹 4 의 ROC Chart [ 그림 5-5] ~ [ 그림 5-8] 는각그룹별 Lift Chart 를나타낸것이다. 그룹 1 ~ 그룹 3 의경우신경망이로지스틱회귀분석보다모델예측력이약간더좋고, 25

의사결정나무가다른모델링기법보다모델예측력이다소떨어짐을확인할수 있다. 그룹 4 의경우세모델링기법이모두비슷한예측력을나타내고있으며 상위 10% 등급에서신경망의예측력이가장높음을확인할수있다. [ 그림 5-5] 그룹 1 의 Lift Chart [ 그림 5-6] 그룹 2 의 Lift Chart [ 그림 5-7] 그룹 3 의 Lift Chart [ 그림 5-8] 그룹 4 의 Lift Chart 이상의세가지모형평가기준을토대로보았을때전반적으로신경망이가 장우수한성능을보였으나신경망의최대단점인분류나예측결과만을제공 26

하고, 어떻게그러한결과가나왔는가에대한이유를설명하지못하여우수고객예측모형기법에서신경망은제외하였다. 의사결정나무의경우오분류율은로지스틱회귀분석보다좋으나 ROC Chart와 Lift Chart에서로지스틱회귀분석보다안좋게나오고곡선자체도꺾임이심하여각그룹별우수고객예측모형기법으로로지스틱회귀분석을선택하였다. 5.2. 결과해석 [ 표 5-3] 은각그룹별로로지스틱회귀분석을통하여최종적으로선택된변수들이다. 그룹1에서는연령이 19세이상일수록, 1회평균아이템구매수가많을수록, 구매금액이클수록, 충전금액이클수록, 충전횟수가많을수록, 2/3/9군게임판수가많을수록, 게임일수가많을수록, 이용게임종류수가많을수록, 마일리지를사용한게임이많을수록, 당월신규가입고객일수록, VIP일수록우수고객으로전환되는데긍정적인영향을미치는것으로나타났다. 그룹2에서는연령이 19세이상일수록, 1회평균회원제결제금액이클수록, 충전횟수가많을수록, 2/3군게임일수가많을수록, 게임일수가많을수록, 이용게임종류수가많을수록, 가입경과월이길수록, 마일리지를사용한게임이많을수록, 기존가입고객일수록, 충전취소경험이없을수록, 게임판수가많을수록, 아이템구매수량이많을수록, VIP일수록, 사이트방문일수가많을수록우수고객으로전환되는데긍정적인영향을미치는것으로나타났다. 그룹3에서는연령이 19세이상일수록, 1회평균게임판수가많을수록, 1회평균마일리지사용액이많을수록, 1회평균교환게임머니가많을수록, 1회평균회원제결제금액이클수록, 1회평균아이템구매금액이클수록, 1회평균아이템구매수량이많을수록, 구매금액이클수록, 충전금액이클수록, 충전수단종류가많을수록, 9군게임일수가많을수록, 이용게임종류가많을수록, 마일리지를사용한게임이많을수록, 마일리지를사용하여교환한머니가많을수록, 기존가입고객일수록, 회원제결제취소경험이없을수록, 구매아이템종류수가많을수록, VIP일수록, 사이트방문일수가많을수록우수고객으로전환되는데긍정적인영향을미치는것으로나타났다. 그룹4에서는연령이 19세이상일수록, 처벌기록이없을수록, 구매금액이클수록, 충전횟수가많을수록, 2군게임판수가많을수록, 3/9군게임일수가많을수록, 게임일수가많을수록, 가입경과월이길수록, 마일리지를사용한게임이많 27

을수록, 기존가입고객일수록, 1회평균아이템구매금액이클수록, 5군게임일수가클수록, 이용게임종류수가많을수록, 마일리지적립횟수가많을수록, 기존가입고객일수록, 회원제결제수단종류수가많을수록, 게임판수가많을수록, VIP일수록우수고객으로전환되는데긍정적인영향을미치는것으로나타났다. [ 표 5-3] 그룹별최종선택변수그룹변수명그룹1 연령, 1회평균아이템구매수량, 처벌종류수, 처벌여부, 구매금액, 충전금액, 충전횟수, 2군게임판수, 3군게임판수, 3군게임일수, 6군게임일수, 9군게임판수, 10군게임일수, 게임일수, 이용게임종류수, 사이트가입경과월, 마일리지적립액, 마일리지적립횟수, 마일리지를사용한게임종류수, 이용월, 당월신규가입여부, 회원제결제수단종류수, 성별, 게임판수, 구매아이템종류수, 아이템구매횟수, VIP여부, 사이트방문일수그룹2 연령, 1회평균마일리지사용액, 1회평균회원제결제금액, 1회평균아이템구매금액, 처벌횟수, 충전수단종류수, 충전횟수, 2군게임일수, 3군게임일수, 4군게임일수, 6군게임일수, 10군게임일수, 게임일수, 이용게임종류수, 사이트가입경과월, 마일리지를사용한게임종류수, 이용월, 당월신규가입여부, 충전취소경험여부, 성별, 게임판수, 아이템구매횟수, 아이템구매수량, VIP여부, 사이트방문일수그룹3 연령, 1회평균게임판수, 1회평균마일리지사용액, 1회평균교환게임머니, 1회평균회원제결제금액, 1회평균아이템구매금액, 1회평균아이템구매수량, 구매금액, 충전금액, 충전수단종류수, 5군게임판수, 8군게임일수, 9군게임일수, 10군게임일수, 이용게임종류수, 사이트가입경과월, 마일리지적립액, 마일리지적립횟수, 마일리지를사용한게임종류수, 마일리지를사용하여교환한게임머니, 이용월, 당월신규가입여부, 회원제결제취소경험여부, 성별, 구매아이템종류수, 아이템구매수량, VIP여부, 사이트방문일수 28

그룹 4 연령, 1회평균마일리지사용액, 1회평균아이템구매금액, 1회평균아이템구매수량, 처벌횟수, 처벌여부, 구매금액, 충전수단종류수, 충전횟수, 2군게임판수, 3군게임일수, 5군게임일수, 8군게임일수, 9군게임일수, 게임일수, 사이트가입경과월, 마일리지적립횟수, 마일리지를사용한게임종류수, 이용월, 당월신규가입여부, 회원제결제금액, 회원제결제수단종류수, 성별, 게임판수, VIP여부 29

제 6장결론및향후과제 일반고객을우수고객으로전환하기위해서는전반적으로는사이트에가입한시점부터활동을꾸준히할수있도록유도를해야한다. 각그룹별로는그룹1 의경우가입기간이짧은고객들을대상으로사이버머니충전을경험해보도록유도하고, 그룹2의경우짧은시간게임을하더라도사이트에자주방문하도록유도하고, 그룹3의경우아이템 Up-Selling 몇여러게임에서마일리지를이용하도록유도하고, 그룹4의경우 2군 /3군/9군게임이용을활성화할수록일반고객을우수고객으로전환시킬가능성이조금더높아지는것으로나타났다. 분석에사용할수있는변수들이매우한정적이었기때문에예측력이좋은편은아니다. 향후운영계에만존재하고있는데이터를추가하여예측력을좀더향상시킨후실제마케팅부서에서각고객군별로특성에맞는프로모션을진행하여고객들의로열티를증가시키고수익을올릴필요성이있다. 30

참고문헌 [1] Berry and Linoff, 1997, Data Mining Techniques, New York : Join Wily & Sons, inc. [2] Arthur M. Hughes, Strategic Database Marketing, McGraw-Hill, 2000 [3] Arthur M. Hughes, The Complete Database Marketing, McGraw-Hill, 1996 [4] Anderson, E. W. C. Fornell & D. R. Lehmann, Customer Satisfaction, Market Share, and Profitability: Findings from Sweden, Journal of Marketing, 58(July), 1994 [5] Assael, H. Consumer Behavior and Marketing Action, 4th ed., PWS-Kent & Nelson, 1992 [6] 한국인터넷진흥원, 2006년하반기정보화실태조사, 2007 [7] 강현철외, SAS Enterprise Miner 4.0을이용한데이터마이닝 기능과사용법, 자유아카데미, 2001 [8] 강현철외, SAS Enterprise Miner 4.0을이용한데이터마이닝 방법론및활용, 자유아카데미, 2001 [9] 알렉스버슨외, CRM을위한데이터마이닝, 대청, 2000 31

감사의글 대학원에진학하자마자바로취업이되는바람에학업과일두마리토끼를쫓느라입학한지 4년이지난지금에서야대학원생활을마무리하게되었습니다. 가끔은너무힘이들어서학업을포기할까도생각했었지만그때마다학업에대한욕심때문에조금만더버텨보자는생각하나로지금까지견뎌왔고그런생각덕분에졸업을할수있게되었습니다. 비록힘은들었지만많은것을배우로얻은소중한시간이었습니다. 바쁘신중에도세심한부분까지신경써주시고많은가르침을주신박헌진교수님께정말감사드립니다. 부모님처럼따뜻하게대해주시는전홍석교수님, 따뜻한웃음으로큰가르침을주시는이재준교수님, 언제나멋지신황진수교수님, 늘변함없는모습으로세심한배려를해주셨던김진경교수님, 통계학의기초를잡아주신박진호교수님께깊이감사드립니다. 프로젝트내내학교에갈수있도록배려해주신신용원이사님, 허민수부장님, 학업과일때문에힘들어할때마다많은조언을해주신차정순부장님, 정신적인지주송미혜부장님, 늘한결같이제일을걱정해주시는황영호차장님, 임동욱차장님, 허현진과장님께도고마운마음을전합니다. 마지막까지조금이라도편하게논문을마무리할수있도록전폭적인지원을해준준혁오빠, 온갖궂은일을도맡아해준주성오빠, 늦깍이졸업생때문에이것저것챙겨주느라고생한희준씨, 바라만봐도어떤생각을하고있는지알아채고도와주는혜진이에게도고마운마음을전합니다. 살아가면서많은의지를하게되는언니들과동생, 우리집든든한울타리가되어준형부, 너무나사랑스러운조카들주이, 민이, 지우, 마지막으로지금까지저를키워주시고뒷바라지를해주신부모님께이논문을바칩니다. 소중한가르침과도움을주신많은분들의고마움을마음속깊이간직하며언제나열심히성실하게살아가겠습니다. 2007 년 7 월 이선경