CONTENTS 01. 시스템개요 02. 기초통계분석 03. 쇼핑명소선정모형개발 기획배경 시스템의예상작동과정 개요 외래관광객실태조사데이터 신한카드데이터 문제정의 문제범위설정 모형디자인 데이터정제과정 데이터정제결과 모형학습및평가 04. 스케줄러모형개발 문제정의 데이터수집및정제 최적스케줄계산 05. 결론및기대효과 프로젝트요약 기대효과
01. 시스템개요 - 기획배경 쇼핑관광객과쇼핑관광객이지출한총액이매년증가하고있으며, 이들은관광정보를얻으려인터넷을가장많이사용 쇼핑관광객의비중과쇼핑관광객이지출한총액은매년증가하는추세로, 국내관광산업에서쇼핑관광의중요성이더욱강조됨 ( 전해영, 2016) 46.9% 98.0억 US$ 36.6% 40.7억 US$ 2011 년 2015 년 전체외래관광객대비쇼핑관광객의비중 2011 년 2015 년 쇼핑관광객이관광중지출한총액 2014 년부터 2016 년까지외래관광객이관광정보를획득하는출처는다음과같음 ( 외래관광객실태조사데이터 ) 총 36,441 명의외래관광객중 16,334 명이관광정보를얻는데인터넷을사용 정보를얻지않고관광한외래관광객도 2,020 명이나됨 03
01. 시스템개요 - 기획배경 쇼핑관광객의대표적인불만사항은정보의부재와관련되어있으므로, 본프로젝트에서는적절한쇼핑정보를제공하는쇼핑경로추천시스템을개발 국내관광산업에서중요한역할을하는쇼핑관광을더욱활성화하려면쇼핑관광객의불만을해결해야함 쇼핑관광객의대표적인불만사항은언어소통불편, 안내표지판부족, 불편한교통등이있는데, 이들은정보의부재와관련된불만사항이라할수있음 ( 이은철, 2014) 표지판부족 언어소통불편 불편한교통 정보의부재 따라서본프로젝트에서는적절한쇼핑정보를웹혹은모바일로제공하는쇼핑경로추천시스템을개발 04
01. 시스템개요 - 시스템의예상작동과정 쇼핑경로추천시스템은국적, 성별및연령, 체류기간및쇼핑예산, 구매하려는상품군을바탕으로적절한쇼핑경로를추천 국적 쇼핑경로추천시스템 성별및연령 쇼핑명소선정모형 쇼핑명소 A B C D 선정모형 쇼핑경로추천 체류기간및쇼핑예산 구매하려는상품군 ( 선택 ) 쇼핑명소 A B C D 선정모형 선정된쇼핑명소 쇼핑명소선정 스케줄러모형 쇼핑명소경로선정 1. 쇼핑관광객이쇼핑경로추천시스템에국적, 성별, 연령, 예상체류기간, 쇼핑예산, 구매하려는상품군을입력. 여기서구매하려는상품군은입력하지않아도작동 2. 쇼핑명소선정모형은외래관광객의정보를바탕으로적절한쇼핑명소를선정하고이를스케줄러모형에전달 3. 스케줄러모형은대중교통을이용하여선정한명소들을최단시간에갈수있는스케줄과관련대중교통정보를외래관광객에게전달 05
02. 기초통계분석 - 개요 외래관광객실태조사데이터와신한카드데이터를분석하기전에알아야하는정보를획득하기위해기초통계분석을수행 경진대회에서제공된데이터중본프로젝트에서활용한데이터는외래관광객실태조사데이터와신한카드데이터임 ( 추가로수집한데이터는기초통계분석을수행하지않음 ) 외래관광객실태조사데이터를분석하기전에알아야하는정보는다음과같음 쇼핑관광객의인구통계학적특성 쇼핑관광객의주요방문지 쇼핑관광객의주요구매물품 쇼핑관광객의체류기간 쇼핑관광객의쇼핑만족도 신한카드데이터를분석하기전에알아야하는정보는다음과같음 쇼핑관광객이주로사용하는쇼핑업종 쇼핑관광객의업종별평균지출비용 쇼핑관광객의쇼핑시간대 06
02. 기초통계분석 - 외래관광객실태조사데이터 쇼핑관광객의국적은중국, 성별은여성, 연령대는 20 대가가장많았으며, 주요방문지로는명동, 동대문시장, 고궁, 남산 / 서울타워, 남대문시장이있음 쇼핑관광객의인구통계학적특성 (2014 년 ~ 2016 년 ) 3060 명 6760 명 2127 명 1699 명 4490 명 9156 명 일본중국대만태국 남성 여성 쇼핑관광객의국적분포 쇼핑관광객의성별분포 쇼핑관광객의연령분포 쇼핑관광객의주요방문지 (2014 년 ~ 2016 년, 중복포함 ) 쇼핑관광객 : 방한목적혹은여행동기가쇼핑인관광객 1 위. 명동 (12953 회방문 ) 2 위. 동대문시장 (10252 회방문 ) 3 위. 고궁 (6431 회방문 ) 4 위. 남산 / 서울타워 (6385 회방문 ) 5 위. 남대문시장 (4964 회방문 ) 07
02. 기초통계분석 - 외래관광객실태조사데이터 쇼핑관광객은주로향수 / 화장품, 의류를비롯한패션상품을많이사는것을확인하였으며, 쇼핑관광객의쇼핑만족도는평균 4.34 점으로높음을확인 쇼핑관광객의주요구매물품 (2014 년 ~ 2016 년, 중복포함 ) 1 위. 향수 / 화장품 (12042 회구매 ) 2 위. 의류 (8975 회구매 ) 3 위. 식료품 (7279 회구매 ) 4 위. 신발류 (3421 회구매 ) 5 위. 인삼 / 한약재 (2334 회구매 ) 쇼핑관광객의체류기간 : 평균 7.39 일, 표준편차 18.44 일로관광객에따라차이가매우큼 쇼핑관광객의쇼핑만족도분포 (2014 년 ~ 2016 년 ) 13 명 60 명 900 명 6943 명 5725 명 매우불만족 불만족 보통 만족 매우만족 08
02. 기초통계분석 - 신한카드데이터 쇼핑관광객은남녀기성복, 화장품, 백화점, 할인점 / 슈퍼마켓, 면세점등을주로오후 / 저녁시간대에방문함을확인 쇼핑관광객의주로사용하는쇼핑업종과평균지출비용 (2014 년 ~ 2016 년 ) 1 위. 남녀기성복 - 122532 회구매 - 평균 48353 원지출 2 위. 화장품 - 94745 회구매 - 평균 42648 원지출 3 위. 백화점 - 15773 회구매 - 평균 1047216 원지출 4 위. 할인점 / 슈퍼마켓 - 15115 회구매 - 평균 35091 원지출 5 위. 면세점 - 7721 회구매 - 평균 3262083 원지출 쇼핑관광객의쇼핑시간대 09
03. 쇼핑명소선정모형개발 - 문제정의 쇼핑명소선정모형은관광객의특성과구매하려는상품을바탕으로쇼핑명소와쇼핑업종을추천 쇼핑명소선정모형은관광객의국적, 성별, 연령, 체류기간, 쇼핑예산, 구매하려는상품 ( 선택 ) 을바탕으로쇼핑명소와쇼핑업종을추천 추천방법은이전에방한했던쇼핑관광객중쇼핑만족도가높은관광객의특성 ( 국적, 성별, 연령, 체류기간, 쇼핑예산 ) 과구매했던상품에따라방문했던쇼핑명소와쇼핑업종을추천 쇼핑명소 쇼핑업종 20 대일본여성 구매하려는상품 : 입력되지않음 화장품추천 2014 ~ 2016 년에방한한쇼핑관광객 만족한쇼핑관광객 30 대대만남성 구매하려는상품 : 의류, 신발류 특성분류 쇼핑경로 10
03. 쇼핑명소선정모형개발 - 문제범위설정 쇼핑명소선정모형을개발할때, 열곳의쇼핑명소, 다섯곳의쇼핑업종, 열개의상품을고려 고려하는쇼핑명소는쇼핑관광객이가장많이방문하는 15 곳의관광지가운데, 쇼핑과무관하거나신한카드데이터와매칭할수없는곳을제외한 10 곳의관광지 명동, 동대문시장, 남산 / 서울타워, 남대문시장, 신촌 / 홍대, 인사동, 잠실, 강남역, 북촌 / 삼청동, 이태원 고려하는쇼핑업종은쇼핑관광객이가장많이방문하는 5 곳의업종 남녀기성복매장, 화장품매장, 백화점, 할인점 / 슈퍼마켓, 면세점 고려하는상품은쇼핑관광객이가장많이구매하는상품가운데, 담배를제외한 10 개의품목 향수 / 화장품, 의류, 식료품, 신발류, 인삼 / 한약재, 피혁제품, 주류, 김치, 보석 / 액세서리, 전통민예품 정의한문제와문제범위에따라, 데이터를정제하고모형을디자인함 11
03. 쇼핑명소선정모형개발 - 모형디자인 쇼핑명소선정모형은베이지안네트워크모형을바탕으로개발하며, 이모형은총 30 개의확률변수를포함 관광객특성 상품종류 쇼핑명소 쇼핑업종 x 1 y 1 z 1 w 1 x 2 x 3 y 2 z 2 w 2 w 3 이모형은관광객특성이입력되었을때, 구매할가확률이높은상품종류, 방문할확률이높은쇼핑명소와쇼핑업종을찾도록디자인함 디자인한모형을바탕으로데이터를정제함 x 4 y 9 z 9 w 4 x 5 y 10 z 10 w 5 12
03. 쇼핑명소선정모형개발 - 데이터정제과정 쇼핑명소선정모형을개발하기위해, 외래관광객실태조사데이터를각각세단계를거쳐정제함 외래관광객실태조사데이터는다음과같은과정을거쳐정제함 원본데이터 레코드선택 선택된레코드로구성된데이터 변수선택 선택된변수와레코드로구성된데이터 명목변수생성 최종정제데이터 방한목적혹은여행동기가쇼핑 쇼핑만족도가 4 점이상 거주국이일본, 중국, 대만, 태국중하나 고려하는쇼핑명소중한군데이상방문 방문지변수를본프로젝트에서고려한각각의쇼핑명소를방문했는지를나타내는 10 개의변수로분할 ( 예 : 명동방문여부 ) 쇼핑품목변수를본프로젝트에서고려한각각의쇼핑품목을구입했는지를나타내는 10 개의변수로분할 ( 예 : 의류구매여부 ) 체류기간과쇼핑비용변수를명목화 성별및연령 거주국 방문지 체류기간 쇼핑품목 13
03. 쇼핑명소선정모형개발 - 데이터정제과정 쇼핑명소선정모형을개발하기위해, 신한카드데이터를세단계를거쳐정제함 신한카드데이터는다음과같은과정을거쳐정제함 원본데이터 레코드선택 선택된레코드로구성된데이터 변수선택 선택된변수와레코드로구성된데이터 지역매칭 최종정제데이터 거래지역이본프로젝트에서고려한쇼핑명소중하나 거래자의국적이일본, 중국, 대만, 태국중하나 업종이본프로젝트에서고려한쇼핑업종중하나 외래관광객실태조사에서쇼핑명소의지역명과신한카드데이터의지역을매칭함 국적 업종 지역 14
03. 쇼핑명소선정모형개발 - 데이터정제결과 정제한외래관광객실태조사데이터는다음과같이구성됨 구분변수설명값 x 1 관광객의국적 1: 일본, 2: 중국, 3: 대만, 4: 태국 x 2 관광객의성별 1: 남성, 2: 여성 관광객특성 x 3 관광객의연령 0: 15~ 20 세, 1: 21~ 30 세, 2: 31~ 40 세, 3: 41~ 50 세, 4: 51~ 60 세, 5: 61 세이상 x 4 체류기간 1: 1 ~ 3 일, 2: 4 ~ 6 일, 3: 7 일이상 x 5 쇼핑예산 1: 300 달러미만, 2: 300 달러 ~ 600 달러, 3: 600 달러 ~ 1200 달러, 4: 1200 달러이상 y 1 향수 / 화장품 y 2 의류 y 3 식료품 y 4 신발류 상품종류 y 5 y 6 인삼 / 한약재피혁제품 0: 구매하지않음, 1: 구매함 y 7 주류 y 8 김치 y 9 보석 / 액세서리 y 10 전통민예품 15
03. 쇼핑명소선정모형개발 - 데이터정제결과 정제한외래관광객실태조사데이터는다음과같이구성됨 ( 계속 ) 구분변수설명값 y 1 명동 y 2 동대문시장 y 3 남산서울타워 y 4 남대문시장 쇼핑명소 y 5 y 6 신촌홍대인사동 0: 방문하지않음, 1: 방문함 y 7 잠실 y 8 강남역 y 9 북촌 / 삼청동 y 10 이태원 16
03. 쇼핑명소선정모형개발 - 데이터정제결과 정제한신한카드데이터는다음과같이구성됨 구분변수설명값 w 1 남녀기성복매장 w 2 화장품매장 쇼핑업종 w 3 백화점 0: 방문하지않음, 1: 방문함 w 4 할인점 / 슈퍼마켓 w 5 면세점 y 1 명동 y 2 동대문시장 y 3 남산서울타워 y 4 남대문시장 쇼핑명소 y 5 y 6 신촌홍대인사동 0: 방문하지않음, 1: 방문함 y 7 잠실 y 8 강남역 y 9 북촌 / 삼청동 y 10 이태원 17
03. 쇼핑명소선정모형개발 - 모형학습및평가 베이지안네트워크의모형학습은각변수간조건부확률을추론하는것으로, 추론해야하는확률은총세종류임 고객의특성이주어졌을때특정상품 y j 를구매할확률인 Pr y j = y j x = x 은 N x=x, y j = y j + 0.5 N x = x + 1 으로추정 N x = x 는외래관광객실태조사데이터에서특성이 x인관광객의수를, N x = x, y j 인관광객가운데상품 y j 를구매한횟수를나타냄 = y j 는같은데이터에서특성이 x 고객이사려는물품을알때특정쇼핑명소 z k 를방문할확률인 Pr z k = z k y = y 은 N y=y, z k = z k + 0.5 N y = y + 1 으로추정 N y = y, z k = z k 는외래관광객실태조사데이터에서상품 y를구매한관광객가운데 ( 예 : y = (1, 1, 0, 0,, 0): 첫번째와두번째상품만구매함을나타냄 ), 쇼핑명소 z k 를방문한관광객의수를나타냄 고객이방문할쇼핑명소와고객의쇼핑예산을알때특정쇼핑업종 w l 을방문할확률인 Pr( w l = w l z = z, x 5 = x 5 ) 은 0 혹은 N z = z, w l = w l + 0.5 으로추정 N z = z + 1 0 으로추정하는경우 : 기초통계분석에서살펴보았듯이, 외래관광객이백화점과면세점을 1 회방문하면평균적으로 100 만원을넘게사용하므로, 쇼핑예산이 1200 달러미만인외래관광객에게는백화점과면세점을추천하지않음 N z = z 와 N z = z, w l = w l 은신한카드데이터에서쇼핑명소 z 내에서발생한총거래건수와그거래중쇼핑업종이 w l 에서발생한총거래건수를나타냄 모든확률은학습데이터 ( 전체데이터에서임의로 70% 를선택 ) 를바탕으로추정함 18
03. 쇼핑명소선정모형개발 - 모형학습및평가 앞서추론한확률을바탕으로추천을수행하며, 추천과정은크게네단계로구성됨 앞서추론한확률을바탕으로추천을수행하며, 추천과정을예시 ( 특성이 x = 2, 2, 2, 3, 1 이고구매할상품을입력하지않은쇼핑관광객 ) 를통해설명 1. 모든 j 에대해 Pr y j = 0 x = x 과 Pr y j = 1 x = x 비교 비교결과, y 1, y 6, y 8 만 Pr y j = 1 x = x > Pr y j = 0 x = x 을만족 따라서 y = (1, 0, 0, 0, 0, 1, 0, 1, 0, 0) 이라가정 2. 모든 k 에대해, Pr z k = 0 y = y 과 Pr z k = 1 y = y 을비교 비교결과, z 4, z 7, z 10 만 Pr z k = 1 y = y > Pr z k = 0 y = y 을만족 따라서 z = (0, 0, 0, 1, 0, 0, 1, 0, 0, 1) 이라가정하고 z 4, z 7, z 10 를쇼핑명소로추천 3. x 5 = 1 이므로 Pr w 3 = 1 z = z, x 5 = x 5 = Pr w 5 = 1 z = z, x 5 = x 5 = 0 4. 3 과 5 를제외한 l 에대해, Pr w l = 1 z = z, x 5 = x 5 와 Pr w l = 0 z = z, x 5 = x 5 을비교 w 1 와 w 2 만 Pr w l = 1 z = z, x 5 = x 5 > Pr w l = 0 z = z, x 5 = x 5 을만족 따라서 w 1 와 w 2 를쇼핑업종으로추천 19
03. 쇼핑명소선정모형개발 - 모형학습및평가 쇼핑명소선정모형이추천한쇼핑명소와쇼핑만족도가높은관광객이방문했던쇼핑명소가얼마나일치하는지를바탕으로이모형을평가하였음 쇼핑명소선정모형이추천한쇼핑명소와쇼핑만족도가높은관광객이방문했던쇼핑명소가얼마나일치하는지를바탕으로이모형을평가함 학습데이터 1. 학습 쇼핑명소선정모형 평가데이터 2. 외래관광객특성입력 3. 모든관광객에대해업종추천 z = 3. 이외래관광객과특성이똑같은실제쇼핑관광객이방문했던쇼핑명소가져오기 z 1 Ƹ, zƹ 2,, z 10 Ƹ z = z 1, z 2,, z 10 4. 일치도계산 C z, z = 1 σ i=1 10 2 z 1 z 1 Ƹ 10 위과정을평가데이터에있는모든레코드 ( 총 3,871 개 ) 에대해반복하여, 일치도의평균으로모형을평가 만약쇼핑명소선정모형에입력된특성과똑같은쇼핑관광객이평가데이터에없으면그관광객에대해일치도를계산하지않음. 만약두명이상의쇼핑관광객이있으면평균으로사용 ( 예 : 어떤사람은방문했고어떤사람은방문하지않았으면 0.5 회방문했다고가정 ) 어느상품을살것인지정보가입력되지않은경우 : 0.7421 어느상품을살것인지정보가입력된경우 : 0.8357 20
04. 스케줄러모형개발 - 문제정의 스케줄러모형은쇼핑명소들을최단시간으로갈수있는경로를도출하는것이며, 이문제는외판원문제의일종이라볼수있음 스케줄러모형은쇼핑명소선정모형이선정한쇼핑명소를최단시간으로갈수있는경로를도출함 쇼핑명소선정모형 스케줄러모형 S 선정된쇼핑명소집합 추천된쇼핑경로 위그림에서은선정된쇼핑명소를 S 은출발지 ( 인천공항 ) 를나타냄 이문제는외판원문제 (Traveling Salesperson Problem, TSP) 의일종이라볼수있음 TSP 는외판원이한도시에서출발해서다른도시들을각각한번씩방문하고다시처음의도시로돌아올때, 가장짧은경로를구하는문제 이문제는 NP-hard 문제라는것이증명되어있어, 휴리스틱 (heuristic) 한풀이가필요함 본프로젝트에서는대표적인메타휴리스틱알고리즘인유전알고리즘을이용하여최적쇼핑경로를계산 21
04. 스케줄러모형개발 - 데이터수집및정제 대중교통을이용하여한쇼핑명소에서다른쇼핑명소까지가는시간을네이버지도 API 를활용하여획득함 아래표는네이버지도 API 를활용하여획득한한쇼핑명소 ( 세로축 ) 에서다른쇼핑명소 ( 가로축 ) 까지대중교통을이용하여가는데가장적게걸리는시간 ( 분 ) 을나타냄 z 0 z 1 z 2 z 3 z 4 z 5 z 6 z 7 z 8 z 9 z 10 z 0 0 79 68 116 63 72 66 116 97 94 81 z 1 81 0 16 28 12 36 22 53 40 29 26 z 2 68 21 0 38 22 36 16 57 40 23 31 z 3 109 21 31 0 24 52 34 69 47 41 33 z 4 63 10 18 37 0 30 21 54 40 28 21 z 5 72 27 35 55 25 0 31 69 51 39 32 z 6 66 22 16 44 19 29 0 59 39 15 35 z 7 112 53 57 70 54 69 59 0 26 64 57 z 8 94 42 38 42 40 52 36 27 0 45 31 z 9 93 29 24 40 29 43 16 65 47 0 42 z 10 84 25 33 32 23 32 36 57 30 45 0 z 0 z 1 z 2 z 3 z 4 z 5 z 6 z 7 z 8 z 9 z 10 인천국제공항 명동 동대문시장 남산서울타워 남대문시장 신촌홍대 인사동 잠실 강남역 북촌 / 삼청동 이태원 버스나지하철경로에따라 z i 에서 z j 로가는시간과 z j 에서 z i 로가는시간이다를수있으므로, 대칭이아님 22
04. 스케줄러모형개발 - 최적스케줄계산 추천될수있는모든명소집합에대해최적스케줄을계산하고, 이를쇼핑관광객에게제공하는방법을도출 추천될수있는모든명소집합 ( 총 1,023 개 = 2 10 1 개 ) 에대해유전알고리즘을이용하여최적스케줄을계산 ( 예시 ) 추천된명소집합 = { 명동, 동대문시장, 남산서울타워, 홍대 / 신촌, 잠실, 강남역, 북촌 / 삼청동, 이태원 } 최적경로 : 인천국제공항 동대문시장 북촌 / 삼청동 남산서울타워 명동 잠실 강남역 이태원 홍대 / 신촌 인천국제공항 (366 분소요 ) 유전알고리즘을이용하여계산한스케줄과모든경로를비교하여계산한최적스케줄과 100% 일치하였는데, 이는고려하는쇼핑명소가많지않기때문이라판단 최적경로에대해다음과같은교통정보를제공 ( 예시 ) 최적경로 : 인천국제공항 남대문시장 명동 동대문시장 인천국제공항 1) 1 호선종로 5 가역승차, 2) 서울역에서공항철도로환승, 3) 인천국제공항역하차 인천국제공항 1) 인천국제공항역공항철도전철승차 2) 1 호선서울역하차 남대문시장 1) 간선 604 번버스승차 2) 명동입구정류장하차 명동 1) 간선 104 번버스승차 2) 종로 5 가정류장하차 동대문시장 23
05. 결론 - 프로젝트요약 추천될수있는모든명소집합에대해최적스케줄을계산하고, 이를쇼핑관광객에게제공하는방법을도출 쇼핑을목적으로방한하는외래관광객인쇼핑관광객이증가하고관련매출도확대되면서국내관광산업내쇼핑관광의중요성이높아짐 쇼핑관광객의대표적인불만사항은관련정보의부재와직접관련됨 본프로젝트에서는쇼핑관광을활성화하려는방안으로쇼핑경로추천시스템을제안하였음 이시스템은크게쇼핑명소선정모형과스케줄러모형으로구성 쇼핑명소선정모형 : 외래관광객의정보를바탕으로적절한쇼핑명소를선정하고이를스케줄러모형에전달 스케줄러모형 : 선정한명소들을최단시간에갈수있는스케줄을계산하여관련교통정보와함께외래관광객에게전달 24
05. 결론 - 기대효과 본프로젝트에서개발한쇼핑경로추천시스템은쇼핑관광객의불만사항을해결함으로써쇼핑관광을활성화하는데기여하리라기대 본프로젝트에서개발한쇼핑경로추천시스템은쇼핑관광객의불만사항을해결함으로써쇼핑관광을활성화하는데기여하리라기대 쇼핑경로추천시스템이입력값으로사용하는데이터는각각쇼핑관광객의정보와미리계산해둔최적경로이므로, 외래관광객이원하면언제든쉽게사용가능 특히, 쇼핑관광객의쇼핑만족도는 3 년내한국재방문의사와상관성이높기에 ( 상관관계 : 0.8431), 제안한시스템은신규쇼핑관광객유입뿐아니라기존쇼핑관광객의이탈도막을수있음 25
참고문헌 이은철 (2014), 대한상의, 한국방문중 일관광객쇼핑현황실태조사, NewsWire, 749085. 전해영 (2016), 방한쇼핑관광객의특징과시사점, 현대경제연구원 VIP 리포트, 16(23). 26