인터넷쇼핑몰사이트의데이터마이닝기법 적용사례분석 정영수 1) 강경화2) 본논문은실제운영된소규모인터넷쇼핑몰사이트의 CRM 사례분석을시행한연구로서구체적으로는다음과같은네가지문제를분석하였다. 첫째, 웹로그파일의데이터를이용하여데이터마이닝과정에따른데이터정제, 데이터선택, 데이터변환등의효과적인데이터전처리 (pre-processing) 방법을제시하고실행하였다. 둘째, 전처리된웹로그데이터와구매데이터베이스를이용하여사이트의기본적통계분석을하였다. 셋째, 구매데이터베이스를활용하여상품간의연관관계를데이터마이닝기법을적용해분석하였다. 넷째, 분석결과를바탕으로보다체계적인고객관계관리를실행하기위한사이트의설계및운영방안을제시하였다. Ⅰ. 서론 1992년 WWW 서비스가첫선을보인이후네트워크의발전과인터넷이용자의 인구는급속도로증가하게되었다. 통계청자료에의하면 2003년한해동안의사이 버쇼핑몰거래액은 7조 548 억원규모이며, 2004년 5월말현재사이버쇼핑몰사업 체는 3,459 개로서, 사이버쇼핑몰의거래규모나업체숫자면에서꾸준한증가세를 보이고있다. 최기준등(2000) 은전자상거래에서의 무엇이든지 팔수있다는낙관적인분위 기를지적하면서전자상거래의기초가되는상품에대한분석을통해거래품목을 결정하는원칙이나틀을마련한다면전자상거래에서거래할수있는상품이더욱 많아질것으로보았다. 또한신규고객을획득하는데소요되는비용은기존고객을 유지하는데소요되는비용의 5 배에이르며, 고객유지율을 5% 향상시키면기업의이 윤을 85% 까지증가시킬수있는것으로조사되고있어서(Kalakota & Robinson, 1999) 인터넷쇼핑몰에서의고객관계관리(CRM; Customer Relationship Management) 의중요성이부각되고있다. 그러나대부분의소규모쇼핑몰들은여전히관리자나기획자의감에의해운영 되고있는사이트가대부분이고고객데이터에기반한과학적이고체계적인 CRM을 시행하지못하고있기때문에투자수익률(ROI) 에서많은이익을얻지못한채경영 악화를초래하기도한다. 본논문은데이터마이닝기법을이용한인터넷쇼핑몰사이 트의 CRM 사례분석에관한연구이며구체적으로는다음과같은네가지문제를다 1) 충남대학교경영학부부교수 2) 충남대학교경영대학원경영정보시스템전공석사과정졸업 687
루고자한다. 첫째, 웹로그파일의데이터를이용하여데이터마이닝과정에따른데 이터정제, 데이터선택, 데이터변환등의효과적인데이터전처리방법을제시하 고실행하고자한다. 둘째, 전처리된웹로그데이터와구매데이터베이스를이용하 여사이트의기본적통계분석을한다. 셋째, 구매데이터베이스를활용하여상품간의 연관관계를데이터마이닝기법을적용해분석한다. 네째, 분석결과를바탕으로보 다체계적인고객관계관리를실행하기위한 고자한다. 사이트의설계및운영방안을제시하 Ⅱ. 이론적배경 1. 고객관계관리 (CRM) 및 e-crm CRM 은고객의획득, 유지및고객의수익성을개선하기위해, 지속적이고적 절한커뮤니케이션을통해고객의행동을이해하고고객의행동에영향을미칠수 있도록하는전사적인접근방법이며, 전사적인관점에서통합된마케팅, 영업및고 객서비스전략을통해서개별고객의평생가치(Life Time Value: LTV) 를극대화하 는것이다. 이는기업중심적인사고에서 CRM의가장핵심적인개념인고객중심적 인사고를요구하는총체적경영활동으로이해되어야할것이다 (Kalakota & Robinson, 1999; Meta Group, 2000). 인터넷기술의발전과함께 CRM은 e-crm 이라는개념으로확장되었고 e-crm 은기존의오프라인과고객관계관리의개념이온라인인인터넷채널로발전 된것으로 적극적인마케팅활동 도구로써인식되기시작했다. 기존의오프라인중 심의 CRM을통해고객관리를한다는것은어려운일이며고객지원인력의증가로 고객관리를위한직 간접비용의증가는기업에게부담스럽기도하다. 또한기존 의 CRM은대부분일방적인커뮤니케이션인관계로 e-crm으로의이동은당연하다 고볼수있다. 웹사이트를비롯한 e채널은비교적적은비용으로세밀한고객행 동추출이가능하며자동화된고객지원시스템을통해서인력및비용을감소시킬 수도있다. 그리고지역과시간적인제약을탈피할수있으며무엇보다도쌍방향커 뮤니케이션수행이용이하다는장점이있다. 그러나 CRM과 e-crm은근본적으로 다른것은아니며본질은같다고볼수있다. e-business 환경하에서인터넷기술을 통한정보확보가용이하고고객과의관계가밀접해질수있는장점이있기때문에 CRM에서 e-crm 으로확산이가능해진것이라할수있다( 오재인외, 2001). < 그림 1> 은 e-crm 의일반적인시스템아키텍쳐이다. 인터넷콜센터에서수집되는정보 와광고등의마케팅활동에대한고객의응답정보, 그리고오프라인에서수집할수 있는거래정보와고객프로파일정보들이통합고객관리시스템과데이터웨어하우 스에모여진다. 그리고데이터마이닝과 OLAP 분석도구에의해서분석되고분석된 결과로고객서비스와캠페인을수행하게된다. 688
광고 System 제휴사고객정보시스템 Web Server Web Tracking System Weblog DB DW System OLAP 고객 Web E_mail E_mail System 추진 Engine Campaign System 통합고객관리시스템 Data Mart System OLAP Call CTI System Customer Service System Data Mining System Mining Billing System < 그림 1> e-crm 의구축단계와업무내용( 오재인등, 2001) 2. 데이터마이닝 데이터마이닝이란자동화되고지능을갖춘(automated and intelligent) 데이터베 이스분석기법이며, 대량의데이터로부터유용한지식을추출하여이해하기쉬운형 태로변환한후의사결정단계에적용하는모든과정을의미한다 (Berry & Linoff, 1997). 데이터마이닝은일반적으로 < 그림 2> 와같이데이터선택, 데이터정제, 데 이터변환, 데이터마이닝( 협의), 패턴평가, 지식표현의 6 단계로실행된다. 선택데이터베이스 정제목표데이터 변환정제된데이터 데이터마이닝변환된데이터 해석및평가패턴 지식 < 그림 2> 데이터마이닝과정 689
데이터선택, 데이터정제, 데이터변환등의데이터준비과정은반자동화된 많은시간을요구하는작업이다. 적용대상업무에따라차이는있으나, 실제로데이 터마이닝을수행하는데필요한테이블을연결하고양질의데이터를준비하는작업 은많게는전과정의 80% 이상의시간과노력을소비하기도한다. 데이터패턴을 추출하기위해서실제데이터마이닝알고리즘이적용되는단계는데이터마이닝전 과정중핵심단계로서일반적으로데이터마이닝이라고하면이단계를지칭하기도 하며협의의데이터마이닝이라고할수있다. 데이터마이닝하는작업의유형에따라 연관규칙, 군집화, 의사결정나무, 인공신경망, 유전자알고리즘, 사례기반추론등의 알고리즘이사용될수있으며하나이상의기법들이사용되기도한다. 다음에는본 연구에서사용될연관규칙탐사에관하여알아보기로한다. 대형할인점, 백화점또는인터넷쇼핑몰등의경우많은고객들이산상품거 래정보를모아두었다가이를분석하면마케팅활동에이용할수있는유용한정 보를얻을수있다. 연관성규칙은매장에서상품을진열하거나끼워팔기에이용가 능하며주로고객들의거래자료를분석하여상품들사이의연관성규칙을알아내 는방법을연관규칙탐사또는장바구니분석이라고한다. 연관규칙은보통 A B 로나타낸다. A B는어떤고객이 A 라는물건을사면 B 라는물건도산다는것을의미한다. 여기서, A는반드시하나의물건을가리키지 는않으며복수의물건도가능하지만, B 는대부분의경우하나의물건이다. 이러한 연관성규칙을마케팅활동에활용하기위해서는, 그규칙에관련된상품들이전체 고객중상당 % 를차지하는고객들의거래내역에서발견되어야하며( 지지도), 동 시에 A 상품을산고객중에서상당 % 의고객이 B 상품을샀어야한다( 신뢰도). 따라서연관성규칙을찾기위한알고리즘에서는사용자가미리정한지지도와신 뢰도의수치를입력할것을요구한다. 이렇게찾아낸연관규칙에대해다시향상 도값을계산하여그값이 1 보다큰연관규칙만을활용하게된다. 다음은지지도, 신뢰도그리고향상도에대한정의이다. 지지도(support): 연관성규칙 A B 의 support 가 x% 라는것은전체고객 중 x% 의고객이물건 A와 B 를함께구매했다는것을의미한다. 신뢰도(confidence): 연관성규칙 A B의 confidence 가 y% 라는것은 A을 산고객중에서 y% 의고객이 B 를샀다는것을의미한다. 향상도(lift): 연관성규칙 A B 의 lift 는 P(B A)/P(B) 로정의된다. 즉, A를 산고객중에서 B 를산고객의 % 를, 전체고객중에서 B 를산고객의 % 로나눈 값이다. 향상도가 1보다크면클수록품목간에양의상관관계가많으므로유용한 연관규칙이라고말할수있는데리프트대신개선도(Improvement) 라고도한다 (Berry & Linoff 1997). 3. 웹마이닝 (Web Mining-Advanced Web Traffic Analysis) 웹마이닝은로그파일에다른데이터를추가시켜분석하는것을의미한다( 김형 690
택 민옥길, 2001). 다른데이터란고객등록정보, 구매정보등전자상거래자료들을 말하며웹마이닝분석기법은온라인에서고객들의다양한반응정보가다양한패턴 으로이루어져있기때문에이러한패턴을발견하고패턴분석을통해가망고객을 발굴하고개별화된오퍼(Offer) 를제공하여고객대응을전개할수있도록하는작 업이다. 웹마이닝에서로그정보는웹의특성상지속적이고도비교적번번이데이터가 발생하여방대한데이터를처리하는데어려움이있어웹마이닝의장애요인이되기 도하지만, 실시간으로고객의웹사이트방문형태의정보와구매정보들이구축되 기때문에고객등록정보, 구매정보등의데이터베이스와연결하여능동적으로고객 대응을전개할수있는장점이있다. 웹마이닝에대한기존연구를고찰해보면웹데이터에서지식을추출하기위하 여규칙이나패턴을발견하는알고리즘을개발하는데중심을둔컴퓨터과학분야의 연구와이를이용하여전략적인의미를도출하려는응용분야의연구로나누어질수 있다. 웹데이터에서지식을추출하기위하여규칙이나패턴을찾아내기위한연구 의경우다양한알고리즘이사용되는데, 이중연관규칙분석을살펴보면, 기존의 데이터마이닝연구분야중에서가장활발한연구가진행된분야로써국내의연구로 는안현철 한인구(2002) 의상품간연관관계와에이전트의개념을적용한상품추천 시스템과황현숙 어윤양(2002) 의상품검색시스템의연구가있다. 반면이를이용하여전략적인의미를도출하려는응용분야연구도현재활발히 이루어지고있는데 Cooley 등(1999) 은웹사용자들의데이터를사용자, 컨텐츠, 구조 의세가지로분류하고이들을로짓함수를이용하여패턴을추출하였다. 또한이들 은웹데이터에서사용자의패턴을분석하고이를통하여일정한연관규칙과지식을 획득하는분석과정을제시하고, 웹사용자들의패턴을분석하는과정에서개인화와 사용자의특성에중점을두고차별화된웹페이지전략을제안하였다. 이분야의국 내연구로는임현성 이영재(2002) 의개인화상품추천시스템의효과성연구가있 다. Ⅲ.. CRM 개선을위한사례분석 1. 분석의개요 본논문의분석에사용된사이트의데이터마이닝기법을활용한분석은 < 그림 3> 과같은단계로진행된다. 먼저사례사이트의웹서버에텍스트형태로저장된 원시웹로그파일을분석이가능한형태로변환하기위한작업이필요하다. 본논문 에서는최근인터넷분야에서널리활용되고있으며각종툴이나소스가공개되어 있어비용의부담없이사용할수있는 Java언어를선택하여프로그래밍한후관계 형데이터베이스인 MS-SQL 2000 데이터베이스에웹로그파일을적재(loading) 하였 691
다. 다음으로데이터베이스에저장된웹로그파일을기본적통계분석을통해사례사이트의일반적현황을분석하였다. 마지막으로데이터베이스에저장된회원들의구매데이타를이용하여상품간연관규칙분석을실시한후결과를통해사례사이트의운영에관한개선점과 CRM 개선에관한사항들을검토해본후사이트운영에효율적인마케팅전략을도출해보고자하였다. 원시웹로그파일정리 -웹로그파일을데이터베이스로이동 기본적통계분석 - 웹로그파일, 구매데이터사용 연관성규칙분석 -구매데이터사용 결과해석 < 그림 3> 분석의단계 2. 사례 O 쇼핑몰사이트의개요 본논문에서는 2001/6/21/~2001/12/09 사이 Windows2000 OS 를사용하고, 웹 서버 Microsoft IIS5.0, 데이터베이스 MS_SQL 2000 환경에서실제운영되었던쇼핑 몰의웹로그파일과거래내역데이터를사용하였다. 사례사이트는다단계판매회사 인 A사의한사업자가운영하는사이트로서 A사의회원및일반비회원들이 O 쇼 핑몰사이트에회원가입후제품을구매할수있도록하였다. 분석시 O 쇼핑몰사 이트의회원수는 4955 명이며, 449 개의거래품목은도서, 오디오자료, 비디오자료, 기타잡화, 기타간행물등으로분류되어판매되고있었다. 꾸준한판매율을보이며 초기정착단계인점에비해안정적인사이트이긴하나고객에대한데이터베이스가 만들어져있다고하더라도내용면에서빈약하거나, 부실하고쇼핑몰관리자의고객 관계관리에대한개념적인이해가부족한상태이기때문에고객의요구를충족시켜 주면서수익을증가시켜주는판매전략은기대할수없는상황이었다. 쇼핑몰사이트의메인화면에나열되는추천상품도뚜렷한기준없이관리자의 주관하에디스플레이되어지고있었으며우량고객이나가입한후전혀구매를하 지않은회원들에대한관리없이주먹구구식으로운영되고있었다. 따라서본분 692
석에서고객의구매데이터들을활용한연관규칙분석을통해회원들이구매하는제품들의연관성을알아보고쇼핑몰사이트의수익률증가를위한효율적인사이트운영방법을모색해보고자하였다. 3. 사례쇼핑몰사이트의원시로그파일정리및변환과정 원시로그파일은 *.log 인텍스트형태로저장되어있고, 단지항목별로공백으로 구분되어있을뿐이어서분석의어려움이있다. 따라서텍스트형태의로그파일들은 공백을기준으로 Java 프로그램을활용하여 MS_SQL 데이터베이스로적재(loading) 시켜저장한후 SQL 쿼리를이용하여분석에필요한사항들을추출하고자하였다. *.log 형태의파일들을 MS_SQL 2000 데이터베이스로적재(loading) 시키기위한 Java 프로그램은부록에제시하였다. 부록의프로그램알고리즘을간단히설명하면 먼저서버에저장된텍스트형태의웹로그파일을첫째라인부터마지막라인까지 while문을이용하여읽어들여데이터베이스프로그램에 insert 시킨다. 이때확장자 가 jpg, gif, map, swf이포함되어있는라인은제외시켜가면서읽어들일수있는 구조로작성하였다. 원시웹로그파일은하나의필드마다공백으로만구분되어져있어서사용자가 날짜, 시간, IP 등해당필드만선택하여분석할때분석의어려움이있으므로데이 터베이스를활용하여필드별로구분하여저장시키면사용자가원하는필드만추출 하여분석할수있다. 예로사용자가웹로그데이터에서방문자들의 IP 주소만을필 요로한다면 select ip from 테이블명 을이용하여데이터를추출할수있게되는 것이다. 또한로그파일중 *.jpg, *.gif, *.map, *.swf 과같은파일은 html 파일이요 청되는경우 html 문서의태그에포함되어자동으로요청되므로위의확장자가포 함된부분은제외시키고그외의내용들만 SQL 쿼리를사용하여모두 MS_SQL 데 이터베이스에저장하였다. 이과정을거친후데이터베이스에저장된로그파일은총 290,458 개의레코드만남게되었다. < 그림 4> 는데이터베이스에저장되기전원시웹로그파일의일부이며 < 그림 5> 는 MS_SQL 데이터베이스에저장된로그데이터의일부이다. 693
< 그림 4> 원시웹로그파일 < 그림 5> MS_SQL 데이터베이스에저장된형태 4. 기본적통계분석 연관규칙분석에앞서본연구에서는제품구매데이터와웹로그데이터를통해 아래의사항들을기본적으로분석하여보았다. (1) 방문자분석 본사이트의회원은아이디가있으나비회원의경우 ID가없으므로 ID만가지 고는방문자를파악하기어렵다. 따라서방문자 1인당하나의 IP주소가저장된다는 가정하에 IP주소를가지고방문자분석을실시한결과 1일평균약 73명이방문하 는것으로조사되었다. 다음으로사이트오픈후회원의증가가있었는지를알아보기위해분석기간 동안 1 일사이트방문자를나타낸그래프를 < 그림 6> 과같이나타내보았다. 방문 자의증가가별로없어보이며이는쇼핑몰사이트의매출액증가를위한판매노력 694
이부진한것으로추측된다. 200 160 120 방문자 80 수 40 0 06-21 06-28 07-05 07-12 07-19 07-26 08-02 08-09 08-16 08-23 08-30 09-06 09-12 09-19 09-26 10-09 10-16 10-23 10-30 11-07 11-14 11-21 11-28 12-05 날짜 < 그림 6> 분석기간내 1일방문자수 (2) 구매빈도등구매현황분석 < 표 1> 쇼핑몰사이트의구매현황분석 전체회원 4955 1회이상구매회원 490 명 평균구매횟수 평균제품구입수량 제품 2 18 명 회 개 1회구입회원비율 58.8 % 전체회원중 1회이상구매한회원 가장많이판매된제품 최다금액구매회원 9.9 % i000000223(122 개) ID k5733 회원 평균구매회수등구매현황을분석한결과가 < 표 1> 에요약되어있다. 결과 를통해 ID가 i000000223인제품이가장많이판매되었음을알수있는데쇼핑몰운 영자는월별로통계를내어가장잘판매되는제품들을인기상품품목으로쇼핑몰 메인페이지에나열하여사용자들의눈에잘띄도록하게한후구매자들이원하는 제품을찾는검색시간의단축을제공하고이와관련하여상품간연관관계분석을통 해인기상품과의관련된상품으로의바로가기기능을추가하는것이사이트운영에 695
더욱효과적일것이다. 또한 k5733의 ID를가진회원의 1인당매출액이가장높음 을알수있다. 쇼핑몰운영자는높은매출을달성하는우수회원들에게각종이벤트 를제공하거나정기적인사이트소식을 E_mail을통해전달하여회원의사이트방 문을유도하고구매충성도를높여야할것이다. 구매비율로는전체구매고객의 58.8% 가분석기간동안단 1건만구매한경험이있으며구매경험이 1건이라도있는 고객의비중은전체회원의단 9.9% 에불과한것으로나타났다. (3) 신용카드활용분석 본사이트의회원들이주로사용하는결제수단은신용카드비율이 88.3% 로높았 는데인터넷의쇼핑비율이높아짐에따라카드번호의도용도문제시되고있는데 앞으로인터넷신용카드분야의결제수단에대한보안책의연구가병행되어야할것 이다. (4) 시간대별방문자현황 120 90 구매자 60 30 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 방문시간 < 그림 7> 시간별방문자분포 < 그림 7> 은인터넷쇼핑몰을찾는방문자의시간대별현황이다. 이메일마케팅 전문회사인버추얼다임의조사에따르면 E-mail 마케팅효과가가장높게나타나는 시간은오전 8~10시이며요일별로는금 목 수요일순으로 E-mail 마케팅효과가 높은것으로조사되었는데 ( 김형택 민옥길, 2001 에서재인용) 사례사이트의경우 6 개월간방문했던제품구매자의방문시간을분석한결과오후 12시를전후한오전 10시에서오후 13 시사이에많은방문이이루어지는것으로나타났다. 그외에오 전 1~2 시, 오후 18 시이후에는꾸준한방문분포를보이는것으로나타났다. 따라서 쇼핑몰운영자는구매자들이사이트를자주방문하는시간전에광고 E-mail을발 696
송하여회원들에게제품에대한정보를미리제공하여회원들의구매를유도할수 있을것이다. (5) 에러분석 로그파일중에는클라이언트의파일요청에대한상태정보가포함되어있다. < 표 2> 는사례사이트의상태코드를분석해본결과이다. 웹서버가클라이이언트가 요청한대로제대로전송하였을경우상태코드필드에는 200 이남게된다. 정상적인 코드 200이전체 84.92% 로이화영(2000) 의연구분석결과인약 90% 에못미치며 사이트가안정적이지못함을알수있다. 다음으로 302, 304, 404, 500의상태코드 순으로나타났는데 302(request가요구한데이터를발견하였으나실제다른 URL에 존재함) 에러는사이트의잦은구조개편으로초기에많이발생하였음을알수있다. 쇼핑몰운영자는정기적으로에러코드를분석하여사이트의에러율을낮추고안정 적인서비스를제공할수있는노력을하여야한다. < 표 2> 에러발생비율 5. 연관분석 본절에서는사례쇼핑몰사이트에서판매되는제품간의연관관계를알아보기 위해데이터마이닝기법중하나인연관규칙분석을실시하였다. 분석을위해서는상 용화된데이터마이닝소프트웨어들중하나인 SAS E-Miner3.0 을사용하였다. 연관 관계를관찰하고자하는제품의수가증가할수록, 분석을위해필요한계산의수는 기하급수적으로증가하므로본연구에서는모든제품간의연관성분석은지양하고 다음의두가지집중적인연관분석을실시하였다. 첫째, 관리자가상품특성별로분 류한도서, 오디오자료, 비디오자료, 기타잡화, 기타간행물제품카테고리내의제품 간의연관성분석을실시하였다. 둘째, 잘팔리는대표적인제품들을선택하여카테 697
고리간의구매연관성분석을실시하였다. 분석에는 [basket] 테이블에서구매자들의ID인 usereid와제품id인 productid 항 목을사용하였고분석툴인 SAS E_miner3.0에서데이터필드의 role( 역할) 은 [basket] 테이블의 field 항목의하나인 userid를 id로하고제품id를 target으로하여 분석하였다. 연관규칙분석을하기전에파라미터를지정해주어야하는데 support 와 confidence의파라미터를변형시켜가면서여러번의실행을해보아야만좋은 결과를얻을수있으므로이를따랐다. (1) 카테고리내의제품간연관성분석 아래의쿼리문은기타간행물카테고리의제품간연관성분석데이터를얻기위 해주문테이블과장바구니[basket] 테이블을조인한 MS SQL 쿼리문이다. SELECT b.orderid, a.smallid, a.userid, a.productid, a.pro_name FROM [basket] a,[ordertbl] b WHERE a.orderid =b.orderid AND a.smallid='s000000006' ORDER BY b.orderid, a.productid ASC 위의 SQL질의를통해얻은데이터를분석한결과기타간행물카테고리의지 지도(support), 신뢰도(confidence), 향상도(lift) 에서의미있는값들을얻은결과가 < 표 3> 에정리되어있다. 규칙의길이 2 로하고최소신뢰도(minimum confidence) 를 50으로하였을때의기타간행물카테고리의제품간연관분석을실시해본결과 다음과같은내용들을알수있었다. 지지도와신뢰도는확률이므로 0에서 1사이의 값을갖게되는데, 1 에가까울수록연관도가깊다고말할수있다. 1번항목의신뢰 도는 76.79% 로써이는 i000000297( 미국카달로그) 제품이구매되었을때 i000000403 ( 일본카달로그) 제품이추가로구매될확률이고, 지지도는 20.48% 로써 i000000297 제품을구입하면반드시 i000000403 제품을구입할확률이다. 또한향상 도값이 1 이상인것에대해서연관성이있다는결론을내릴수있는데향상도값 이 2.52 이므로구매자가 i000000297 제품을구매할때 i000000403 제품을구입할고 객의비율이전체고객의 i000000297 제품구입비율에비해 2.52 배임을알수있다. 따라서쇼핑몰운영자는 i000000297 제품옆에관련상품인 i000000403 제품으로바 로갈수있는버튼을만들어놓을때소비자들이 시상품검색을해야하는번거로움을줄여줄수있을것이다. i000000403 제품을찾기위해또다 698
. < 표 3> 기타간행물지지도, 신뢰도, 향상도 기타간행물분석과동일한방법으로하여도서, 오디오, 비디오, 기타잡화카테 고리제품내의연관성분석도실시하였는데, 지면관계상각카테고리별한제품 으로부터의대표적인연관관계만 < 표 4> 에정리하였다. 699
번호분류연관규칙지지도 (%) 신뢰도 (%) 1 도서 i000000332 2 오디오 i000000238 i000000333 12.96 83.05 i000000334 12.43 79.66 i000000237 13.05 91.38 i000000236 12.56 91.38 i000000231 7.88 55.17 i000000254 4.29 37.50 3 비디오 i000000251 i000000257 4.29 37.50 i000000359 4.29 37.50 4 기타잡화 i000000278 i000000296 6.32 63.65 i000000279 5.93 60.31 i000000366 10.95 65.71 5 기타간행물 i000000406 i000000297 10.48 62.86 i000000403 10.48 62.86 i000000368 10.00 60.00 i000000280 9.52 57.14 < 표 4> 대표적연관규칙분석결과 (2) 구매우선순위가높은제품의카테고리간연관관계분석 본사이트에서판매되는 400여가지의제품중잘판매되는 120 가지제품의 카테고리간연관관계분석을실시하였다. 이중가장많이판매된제품을 id로하 고카테고리를 target 으로하여연관분석을실시한결과도서, 오디오, 비디오, 항목 의연관성은전혀나타나지않고기타잡화와기타간행물사이에서신뢰도 (confidence) 35.90%, 30.43%, 지지도(support) 2.97, 향상도(lift) 3.68의의미있는두 가지연관성규칙이도출되었다. s000000005( 기타잡화) 의제품을사는고객은 s000000006( 기타간행물) 의제품을구입할확률이 35.9% 이다. < 표 5> 구매우선순위가높은제품의카테고리간연관관계 700
6. 분석결과의해석및적용방안 (1) 기본적통계분석결과의해석및적용방안 웹서버에저장된로그파일의분석은서버의운용능력검토및유지보수에대한 근거제공, 웹사이트디자인방법수정방안, 홍보전략수립, 전자상거래의마케팅전 략수립등에도움을준다 (Zaiane et al., 1998). 웹로그파일분석과고객구매데이터를이용하여실시한기본적통계분석에서 ID i000000223 인제품이가장많이판매되었고, ID가 k5733인회원이가장많은매 출을보였다. 구매방법에서도신용카드비율이 88.3% 로매우높았으며회원들의사 이트방문시간도오전 11~ 오후1 시전후가활발했음을알수있었다. 서버의운용능 력면에서도서버의에러코드분석결과 302에러가가장잦았는데사이트관리자는 이러한기본분석의결과를바탕으로더욱효율적인사이트운영을모색해보아야 한다. 첫째 월별로통계를내어가장잘판매되는제품들을인기상품품목으로쇼핑 몰메인페이지에나열하여구매자들의시야에잘띄도록한후구매자들이원하는 제품을찾는검색시간의단축을제공하고추가로이와관련한제품간연관관계분석 을실시해보아야한다. 둘째높은매출을달성하는우수회원들에게각종이벤트를제공하거나정기적 인사이트소식을 E_mail 을통해전달하여회원의사이트방문을유도하여야한다. 광고 E_mail은회원들이가장많이방문하는시간대인오전 11 시~ 오후 1시전에발 송하여회원들에게제품에대한정보를미리제공하는홍보전략을시도해본다. 홍 보전략이나마케팅면에서구매율이높은상위% 의우량고객에게는그렇지않은회 원보다특별할인율을더제시하여고객충성도를높일수있을것이다. 셋째웹서버관리자는주로발생하는에러의원인을밝히는대책을마련해야 할것이며, 정기적으로에러코드를분석하여사이트의에러율을낮추고안정적인서 비스를제공할수있는노력을하여야한다. (2) 연관분석결과의해석및적용방안 류창수 서용무(2001) 의연관분석결과에서평균지지도 3.6, 신뢰도 60.04% 를 나타내고있다. 이들의연구에서의수치가절대적인기준으로사용될수는없지만, 본연구의카테고리내의제품간연관분석의대표적결과를나타낸 < 표 4> 의평균 지지도 17.3, 신뢰도 61.34% 는어느정도의의가있다고하겠다. 연관분석결과를 바탕으로사이트관리자는웹사이트디자인방법수정방안에서도메인화면에서의 추천상품들도관리자의주관하에디스플레이하는것보다데이터마이닝기법인연 관분석을통해발견된규칙을활용해관련제품군이나판매에많은영향을미치는 701
제품을발견하여메인화면에서소비자들의시야에잘띄는위치에배치할수잇을 것이다. 또한관련제품에대한상세설명과함께바로찾아갈수있는구조로변경 하여상품탐색시간을줄이고이제품을구입하는회원에게마일리지점수를추가 하거나가격을할인하여구매자가 여야한다. 추후또다시제품구매를할수있도록유도하 한편구매우선순위가높은제품의카테고리간연관관계분석에서그동안연 관관계가적을것이라고판단되어기타로구성되었던기타잡화와기타간행물이기 타잡화를구입하는회원들은기타간행물을구입할확률이 35.9% 로나타났는데지지 도 1 이상은의미있는관계를가지고있음을앞서설명한바있다. 따라서사이트 관리자는그동안기타간행물과기타잡화항목으로분류하였던제품들간의관련성 을더욱자세히분석하여기타잡화와기타간행물의제품들중카테고리가잘못선 정된제품이있음을의심해볼수있으며구매자들이기타잡화의제품을기타간행 물에서찾는일이없도록카테고리의변경필요성이요구된다. Ⅳ. 결론 인터넷의발전은많은사용자들이매장에가지않고인터넷쇼핑몰사이트를 통해서많은상품을구매하게하고있다. 최근에는간단한식료품까지인터넷으로 주문하여배달해주는대형백화점의사이트들도늘어나는추세이다. 이러한시점에 서중 소규모의쇼핑몰운영자들도고객의요구를경영에적절히반영하여관리하 는것이필수라고하지않을수없다. 고객의요구반영뿐만아니라쇼핑몰운영에 있어고객분석과판매상품의분석이이루어지지않는다면머지않아구매자들은좀 더나은서비스와요구를충족시켜주는타업체로가버리게될것이다. 신규고객을 확보하는것보다기존고객을유지시키는것이비용적측면에서더저렴하다는 것은이미알려진사실이다. 고객유지를위해많은대형쇼핑몰업체들은이미 CRM 프로세스를마련하여고객확보에주력하고있는반면중 소사이트들은아직 기반조차마련하지못했거나이제도입을시도하고있다. 본연구에서는쇼핑몰서버를운영하여얻어지는웹로그데이터들을활용하여 초기투자비용이많은 CRM의구현을적용해보고자웹로그파일을 Java 프로그램 을활용하여데이터베이스에적재시키는과정을알고리즘으로구현해보았다. 데이 터베이스에적재된웹로그데이터와구매데이터들을기본적통계분석과아울러데 이터마이닝기법의하나인연관성규칙방법으로분석하여거래되는상품들간의관련 성을발견하고결과를통해쇼핑몰의효율적운영을위한방법들을제시하고자하 였다. 분석결과를통하여사이트내의상품배치, 탐색시간을줄일수있는방안, 홍보 E-mail 발송시간, 고객충성도를높일수있는방안, 에러코드분석에의한서 버의안정성강화권고, 제품카테고리의재분류필요성등에관하여논의하였다. 제시된운영방안은쇼핑몰사이트에서큰부담이없이적용가능하여체계적인고 702
객관계관리에일조를할수있다는데본연구의의의가있다고하겠다. 그러나본연구는다음과같은한계점을가지고있으므로연구결과의적용에 신중을기하여야할것이다. 첫째, 데이터의양적문제이다. 양질의데이터마이닝을수행하기위해서는대용 량의데이터와많은변수를필요로하는데본사이트의경우계획없이구성되어 수집된데이터들은이름, 아이디, 주소, 전화번호등으로양적으로는충분했으나실 제분석에필요한데이터가부족하여고객세분화에대한분석이거의어려웠다. 둘째, 데이터의질적문제인데웹상에서입력된데이터는결손값을가지는경 우가많아복잡한전처리과정이요구되므로많은시간을소비하여마이닝하여도 좋은결과를기대하기가힘들다. 사례사이트의경우회원들의데이터와구매데이터 에서많은결손값을가지고있어분석의정확도가떨어질수있으므로결과해석 에신중을요한다. 셋째, 본사이트의구매고객은다단계판매회사의회원이주류를이루나일부 비회원도포함되어있다. 회원이든비회원이든본사이트의제품을구매하는고객이 라는점에서동일시하여구분하지않고분석하였으나, 다단계회사의회원은일종의 독립된사업자로볼수있으므로비회원과다른구매성향을보일수도있다. 따라서 회원과비회원을구분한추가적인연구가요망되며, 본연구의결과적용에신중을 요한다. 넷째, 본연구의사례사이트는 2002년 4월경폐쇄되어본분석에서얻어진결 과들을실제적용하여결과를검증할수없었다는점이다. 따라서향후연구과제로이와비슷한소규모쇼핑몰사이트에서얻어지는데이 터들의충실도를높이기위한방법을모색하고, 사례사이트와구조가유사한쇼핑 몰사이트에연구결과를적용하여미치는영향을확인하는등중 소규모전자상거 래쇼핑몰사이트에본연구의결과들을실제적용할수있는방법을모색해나가야 할것이다. 703
참고문헌 김형택 민옥길, 효과적인인터넷마케팅을위한웹로그분석, 비비컴, 2001. 류창수 서용무, " 통계및데이터마이닝기법을이용한웹사이트분석", 한국데이타 베이스학회춘계학술대회, 2001, 6. pp. 369-379. 안현철 한인구, 데이터마이닝을활용한인터넷쇼핑몰의상품추천시스템개발, 한국경영정보학회춘계학술대회, 2002, 6., pp. 739-748 오재인 최재화 김홍기 권순범 손승희, 인터넷비즈니스- 전략, 모델, 마케팅, 백 오피스, 기술, 박영사, 2001. 이화영, 표준로그파일을이용한웹마이닝에관한연구, 한국과학기술원석사학위 논문, 2000, 2. 임현성 이영재, 웹로그분석을통해연관성규칙을활용한개인화상품추천의 효과성연구, 한국경영정보학회춘계학술대회, 2002, 6, pp. 749-759. 최기준 최재영 박은미, 전자상거래에서상품유형에관한연구, 한국경영정보학 회추계국제학술대회, 2000, 11, pp. 318-347. 황현숙 어윤양, 연관마이닝과고객선호도기반의인터넷상품검색시스템설 계및구현, 경영정보학연구, 2002, 3, 제12권제1호 pp. 1-16. Berry, J. and G. Linoff, Data Mining Techniques: For Marketing, Sales, and Customer Support, John Wiley & sons, 1997. Cooley, R., Tan, P.N., Srivasata, J., "Discovery of Interesting Usage Patterns from Web Data," Technical Report TR 99-022, University of Minnesota, 1999. Kalacota, R. and M. Robinson, e-business: Roadmap for success, Addison-Wesley, 1999. Meta Group, The Customer Relationship Management Esosystem, 2000. Zaiane, O.R., Xin, M. and Han, J., "Discovering Web Access Patterns and Trends by Applying OLAP and Data Mining Technology on Web Logs", IEEE ADL Proceedings, 1998, pp. 19-29. 704