관광지추천시스템개발및체질개선방안수립 SA 211
CONTENTS 서론본론본론본론결론결론 프로젝트동기 여행객분류 - 데이터통합 (R programming) 여행객분류 - 동행자 / 여행경비별여행객재분류 (Clustering analysis) 만족도및방문수여행지분류 (BCG Matrix) 관광지추천시스템 (Visualizing, Matching, cost analysis) 관광지체질개선방안수립 (Logistic analysis) 1
서론 프로젝트동기 2
프로젝트동기 Simplification ( 단순화 ) 정부 지자체 관광상품 국내관광객 판매자 마케팅 상품개발보완 관광산업 소비자 의사결정 적합상품선정 관광지체질개선방안수립 선순환구조 맞춤형추천시스템개발 3
프로젝트동기 문제정의및변수설정 여행객분류 분류기준? 동행자유형여행경비 여행지분류 추천여행지? 분류기준? 방문수 만족도 방문수만족도 Matching Logistic regression 1. 맞춤형관광지추천시스템 2. 관광지체질개선방안수립 4
프로젝트동기 상위 20% 인기관광지 동행자 : 가족 동행자 : 친구 / 연인 < 충남내륙 > < 전남, 강원해안 > 5
프로젝트동기 동행자 : 친구연인 저소비군 ( 하위 20%) 고소비군 ( 상위 20%) < 대도시, 내륙 > < 전남강원해안, 제주, 부산집중 > 6
프로젝트동기 1. 맞춤형관광지추천시스템 친구들과 10 만원으로여행하고싶은데 가평이나인천은가봤고 국내에여행할색다른곳어디없을까? 서울, 20 대 한국의아름다운고장! 강원정선, 경북문경, 충북제천을추천합니다! 관광지추천시스템 7
본론 여행객분류데이터통합및재분류 (R programming) 8
여행객분류 - 데이터통합 (R programming) < 초기여행데이터 > 2010 2011 2012 2013 2014 q1 값 == 국내여행 1 PID 1.1 1.2 2.1 2.2 001 3 5 4 3 2010_a 2011_a 2012_a 2013_a 2014_a 여행별컬럼 row 화 (1 행 1 값 ) 2 PID 1.1 2.1 001 3 4 2010_b 2011_b 2012_b 2013_b 2014_b 001 5 3 9
여행객분류 - 데이터통합 (R programming) 2010_b 2011_b 2012_b 2013_b 2014_b 변수이름일치화 (2014 년도기준 ) 3 2010_c 2011_c 2012_c 2013_c 2014_c 필요변수추출 4 변수의상이함으로 2010 제외 2011_d 2012_d 2013_d 2014_d 10
여행객분류 - 데이터통합 (R programming) 2011_d 2012_d 2013_d 2014_d 응답자특성 ( 개인정보 ) merging 5 응답자특성 2011_e 2012_e 2013_e 2014_e 연도별데이터통합 6 최근 4 년 11
여행객분류 - 동행자유형 / 여행경비별여행객분류 (Clustering analysis) 동행자유형별집단재분류 7 최근 4 년통합데이터 친구 / 연인 이웃 / 아는사람 비동거가족 친척 가족 그외사람 여행경비클러스터링분석집단재분류 8 K-means method 표본크기고려 2~4 개집단분류.... < 여행객분류 > 총 19 개그룹 group1.1 group1.2 group1.3 group8.1 group8.2 group8.3 group8.4 친구 / 연인 _ 저소비군 친구 / 연인 _ 중소비군 친구 / 연인 _ 고소비군 가족 _ 저소비군 가족 _ 중소소비군 가족 _ 중고소비군 가족 _ 고소비군 12
본론 여행지분류 (BCG Matrix) 13
여행지분류 BCG Matrix 를활용한여행지분류 추천 1 순위관광지 유명한여행지보다잠재적성장가능성이높은 hidden place ( 현재여행방문수낮고, 만족도는높은여행지 ) ( 가평, 해운대, 경주가아닌강원도정선 or 충남보령등 ) 관광지도하나의비즈니스상품이다 X 축 : 방문수 ( 시장점유율 ), 기준 : 상위 20% ( 방문수점유 60.092%) Y 축 : 만족도 ( 잠재성장성 ), 기준 : 4 점 ( 만족 ) 지역1 <Group 1.1> 지역2 각집단별지역 1(QUESTION MARKS) 추천 Group 1.1( 친구 / 연인동반, 평균 10 만원여행경비 ) 인경우 1. 여행객이방문한여행지를 BCG Matrix 활용, 4 개지역으로분류 2. 적색지역 1 : 방문수 96.8 이하, 만족도 4 이상 2. 해당지역중적색계열 ( 지역 1) 추천 지역 3 지역 4 14
결론 관광지추천시스템 (Visualizing, Matching, cost analysis) 15
관광지추천시스템 < 여행객정보 > 여행정보누구와? 친구여행비용은? 100000 원 개인정보사는곳? 서울나이? 20 대 여행정보 ( 동행자, 비용 ) 개인정보 ( 나이, 지역 ).. <19 개여행객그룹 > group1.1 group1.2 group1.3 group8.1 group8.2 group8.3 group8.4 친구 / 연인 _ 저소비군 친구 / 연인 _ 중소비군 친구 / 연인 _ 고소비군.. 가족 _ 저소비군 가족 _ 중소소비군 가족 _ 중고소비군 가족 _ 고소비군 <4 개여행지그룹 > 지역1 지역2 지역3 지역4 만족도높고방문수낮은잠재유망관광지추천 / 홍보 16
관광지추천시스템 : 집단별추천여행지및전략도출 그룹 1.1 동행자 여행비용 친구 / 연인 저소비군 범위 : 148750 원이하대표값 : 100000 원 < 주요비용분석 > 숙박비교통비식비문화시설쇼핑비기타비용 0 원 20000 원 30000 원 20000 원 20000 원 10000 원 = 100000 원 총여행지분포 지역 1 여행지선별 개인정보활용최종추천지선정 서울, 20 대 여행객그룹 / 지역그룹 matching 여행객개인정보 matching 추천여행지도출 여행지전략수립 경기도가평에집중된서울 20 대여행객정선, 문경, 제천등지방분산화 해당지역은포지셔닝전략수립 강원정선군 경북문경시 충북제천시 17
결론 관광지체질개선방안수립 (Logistic analysis) 18
만족도분석을통한국내관광지체질개선방안수립 만족도분석의정의및특성파악 가정 : 전반적만족도는항목별만족도와관련되어있을것이다. 목표 : 모델링을통하여전반적만족도와항목별만족도간의관계를찾아내고이를이용해서 4 그룹으로나눈지역에대하여적용하여문제점을찾아냄 1. 변수설정및목적에맞는모델선정 국민여행실태조사데이터중변수 q6.6( 전반적만족도 ) 를 Target Variable 로설정 변수 q12.1~ q12.12( 항목별만족도 ) 를이용하여 Linear Modeling 2. Why Linear Modeling?? 각항목별만족도변수들이전반적만족도에어느정도영향을미치는지알수있다 이점을이용하여지역별, 변수별분석을시행할수있다. 3. 어떤 Linear Model 을사용할까?? 전반적만족도변수 q6.6 의특성을파악 상대적으로 4 에치우쳐있고 1,2 는거의없음 여행 이라는변수의특성을고려해보면만족도 1,2,3,4: 성공적여행이라보기어려움 5: 성공적여행으로생각 전반적만족도 0~4 를 class0, 5 를 class1 로설정 Binary Target 변수의분석에적합한 Logistic Regression 의방법을채택 19
만족도분석을통한국내관광지체질개선방안수립 - 모델링및결과 모델링 Process 모집단이 class0 35034 개, class1 8504 개로그비율이치우쳐있음 Class0 에서 8504 개의변수를임의추출을하여클래스별로데이터의크기차이가없도록맞춰줌 무응답 ( 잘모르겠음 =9) 의경우그값을 0으로설정해준후응답변수들을평균이 0이되도록처리 (Mean-centered Data) 한뒤에분석을시작 무응답 ( 데이터에서 9) 한경우결과에영향을미치지않도록하기위해무응답 =0 으로설정 평균을 0으로설정하여무응답데이터가있더라도영향을미치지않도록 R 의내장함수 glm 을이용하여 Logistic Regression class0 를 8504 개씩랜덤추출하여모델링하는과정을 100 회씩수행후평균정확도를계산 20
만족도분석을통한국내관광지체질개선방안수립 - 모델링및결과 모델링 Process 분석 1 모든변수들사용 평균예측률 : 0.7172 분석 2 응답률낮고분석1의결과에서가중치 (coefficient) 가작게나온변수제거 ( 쇼핑만족도, 문화유적만족도 ) 평균예측률 : 0.7177 분석 3 분석2의결과에서가중치 (coefficient) 가작게나온변수제거 ( 교통만족도 ) 평균예측률 : 0.7174 21
만족도분석을통한국내관광지체질개선방안수립 - 분석 회귀분석모델 Logit y = Constant +c1 X1 + c2 X2 + c3 X3 + c4 X4 +c5 X5 + c6 X6 + c7 X7 + c8 X8 + c9 X9 변수명 X1 X2 X3 X4 X5 실제의미자연경관교통숙박음식안내시설 가중치 (c) 1.22 0.09 0.14 0.24 0.28 변수명 X6 X7 X8 X9 Constant 실제의미 편의시설 친절성 프로그램 물가 Modeling 가중치 (c) 0.18 0.24 0.30-0.11-0.30 used mean centered data * Y 값이 0 이상일경우 1, 0 이하일경우 0 으로분류 22
만족도분석을통한국내관광지체질개선 - 분석 주의해야할변수와특이사항 X1. 자연경관 가장큰영향을미치는변수 X8. 체험프로그램 높지않은응답률 (30% 정도응답 ) 에도높은가중치를가짐 특정지역들에몰려있는경향 X9. 물가 다른변수들의가중치는 (+) 부호를가지는반면물가에대한가중치는 -0.11으로물가의만족도가증가할수록여행의만족도는감소하는것을의미 이는사람이많이몰리는관광지일수록물가가비싸고만족도가높은경향을보이는것때문으로분석 그외에도숙박시설, 편의시설등의만족도에복합적으로 물가 라는개념이포함되어있을것이라추정 23
만족도분석을통한국내관광지체질개선 - 분석 X1. 자연경관 정확도개선 정확도의개선을위해중복되는개념삭제및뜻이명료하지않은변수세분화 자연경관이라는변수의의미를보다정확하게 국립공원등자연경관의관리및보존상태 자연경관의아름다움등으로변수의의미를보다잘알수있도록세분화 X9. 물가 물가변수삭제 다른모든소비활동이포함된변수들은 ( 음식, 숙박, 편의시설등 ) 물가라는개념을잠재적으로포함하고있음. 따라서물가라는변수자체는제거하되각소비활동의만족도항을상세하게분류. Ex) 숙박시설 - 비용대비만족도, 숙박시설의접근편이 ( 예약등 ) 2 가지로나눔 24
만족도분석을통한국내관광지체질개선방안수립 - 분석 Grouping 지역 1 만족도는높지만잘알려지지않은집단 지역 2 만족도높으며잘알려진집단 분류기준 1. 만족도 : Class분류의기준이된종합만족도 4 2. 방문횟수 : 상위 20% 인유명관광지와그외지역으로분류 지역 3 만족도낮으며인기도낮음 지역 4 잘알려졌지만만족도는상대적낮은집단 집단별특성에맞춘관광체질개선전략선택!! 25
만족도분석을통한국내관광지체질개선방안수립 - 분석 Grouping: 그룹별지역들 ( 방문횟수 150 회이하지역들생략 ) 지역 1: 만족도 방문자 강원동해시 경남김해시 경북안동시 부산중구 전남보성군 충남서천군 강원삼척시 경남진주시 경북영덕군 서울송파구 전북고창군 충북보은군 강원영월군 경남창녕군 경북울릉군 서울중구 전북순창군 부산영도구 경기남양주시 경남하동군 경북울진군 울산울주군 충남금산군 경기수원시 경남함양군 경북청송군 전남목포시 충남서산시 지역 2: 만족도 방문자 강원강릉시 강원정선군 경기가평군 경북포항시 전남담양군 전북전주시 경남남해군 경남통영시 강원속초시 강원춘천시 경기양평군 부산해운대구 전남순천시 전북정읍시 경남사천시 경남합천군 강원양양군 강원평창군 경기용인시 서울종로구 전남여수시 제주서귀포시 경남산청군 경북경주시 강원인제군 강원홍천군 경남거제시 전남구례군 전북군산시 제주제주시 경남양산시 경북문경시 지역 3: 만족도 방문자 강원원주시 경기화성시 전남고흥군 전남장흥군 충남부여군 강원태백시 경북청도군 전남광양시 전남해남군 충남예산군 경기과천시 서울강남구 전남신안군 전북진안군 충북청원군 경기파주시 서울영등포구 전남영광군 충남당진시 충북충주시 지역 4: 만족도 방문자 경기포천시부산기장군전남완도군충북단양군인천중구 경남밀양시인천강화군충남보령시경남통합창원시충남아산시 26
만족도분석을통한국내관광지체질개선방안수립 - 결론 지역 1 : 발전잠재력이높은미래관광지찾기 X1 변수는가장큰가중치를가지는관광지의만족도가높은직접적원인이며그지역만의고유한자산으로생각 X1 변수가높은지역들을발전가능성이높은집단으로생각하여각도별로 1 개의지역들을선정 표본수가 100 이하인지역은제외 ( 만족도데이터의신뢰도차원 ) 경기연천 강원횡성 충북보은 인기 음식 편의 안내 : 0 ~20% : 20~40% : 40~60% : 60~80% : 80~100% % 는전국분위를의미 전북김제 전남진도 경북울릉 경남하동 충남청양 *group1 의 x1 변수값이높은각도별관광지 27
만족도분석을통한국내관광지체질개선 - 분석 지역 1 : 발전잠재력이높은미래관광지찾기 전남진도 인기 : 음식 : 편의 : 안내 : 훌륭한자연경관을가진섬 평가좋은향토음식 편의시설, 관광안내등의관광인프라가전반적으로부족 관광안내센터, 숙박업체설립지원등관광인프라에투자 인기가상대적으로적은지역을사람들에게여행지로써인식하도록지역광고등 섬 이라는점을활용한문화체험프로그램등관광자원개발 28
만족도분석을통한국내관광지체질개선방안수립 - 결론 지역 2 : 대한민국관광명소들! 더욱완벽하게! 각변수들에대해서가장만족도를저해시키는지역별원인탐색및조사하여문제점확인 만족도에가중치를곱하고평균값을빼주어정량적으로계산 자연경관 교통 숙박 음식 전북전주 -0.72 전북전주 -0.05 전북전주 -0.11 경북경주 -0.11 경남합천 -0.22 강원강릉 -0.01 경북문경 -0.05 전남담양 -0.10 충남태안 -0.19 전남여수 -0.01 전북부안 -0.05 경남통영 -0.09 경기양평 -0.11 경북문경 0 경기용인 -0.04 전북부안 -0.08 편의시설 시설친절도 프로그램 안내시설 전남담양 -0.09 전북전주 -0.08 전북전주 -0.26 전남담양 -0.19 강원평창 충남태안 경기가평 -0.05-0.02-0.01 전북부안 전북전주 경북경주 -0.08-0.07-0.04 전북부안 전북정읍 강원평창 -0.20-0.13-0.11 전북전주 전북부안 경북포항 -0.13-0.13-0.07 안내시설과시설의친절도개선필요 문화유적, 공원, 공공기물등정비 체험프로그램, 이벤트의질적향상 *Group2 의만족도변수에평균값을빼준후가중치를곱한값들 29
만족도분석을통한국내관광지체질개선방안수립 - 결론 지역 4 : 아쉬운인기관광지들 사람들이많이찾는유명관광지임에도불구하고만족도가상대적으로낮음 각지역별로문제점이하나씩은존재할것으로생각 지역별로분석하여문제점들찾기 충남아산시 프로그램 -0.27 자연경관 -0.26 음식 -0.12 부산기장군 안내시설 -0.08 음식 -0.06 편의시설 -0.05 아산시의관광구역에대해검색 : 지중해마을, 세계꽃박물관, 함상공원, 민속마을등 관광콘텐츠들의만족도가 상대적으로낮음. : 입장료가지나치게비싼지, 관리상태의 문제, 내용의부실등문제가있을수있음 *Group4 내에서도상대적만족도가낮은 3 지역 경남통합창원시 자연경관 -0.11 안내시설 -0.05 안내시설친절 -0.04 30
만족도분석을통한국내관광지체질개선 - 결론 지역 1 만족도는높지만잘알려지지않은지역 관광잠재력이높은지역을찾고부족한부분을개선 지역 2 만족도높고잘알려진관광지 집단내랭킹시스템을통해부족한지역의항목들을개선 지역 3 만족도낮고잘알려지지않은지역 관광잠재력낮고잘알려지지않음. 다른지역개발모색 지역 4 잘알려졌지만만족도낮은관광지 관광지별로문제가있을것으로추정 각지역별만족도랭킹을통해만족도저해요인을찾고개선 31
Thank You