문화 관광빅데이터분석대회 DATA 54 빅데이터분석을통한 KR 패스사용시추천코스제공
목차 I. 문제정의 II. 데이터준비 III. 분석 IV. 활용방안 V. Q&A 전라남도담양메타세콰이어길
1. 문제정의 1-1. 국내관광산업분석 (%) 지역관광활성화를통한 (78) 관광지역 (20) 분산필요 (13) 2018 (08/08) D-185 (2016) 5 (17.07.19) 17 WEF 19 21 15
1. 문제정의 1-2. KR 패스 (1/2) 코레일에서단기체류외국인용으로발매하는철도패스 일반패스 : 성인및어린이대상 세이버패스 (Saver Pass) : 동일핚여행일정의 2~5명그룹 청소년패스 : 13세 ~25세사이의학생또는 ISIC 카드를소지핚학생
1. 문제정의 1-2. KR 패스 (2/2) 1100 만 1200 만 1400 만 8 월 1 일, 사용편의성개선을위핚 KR 패스개편 2만5천 2만7천 3만1천 2012 2013 2014 ( 출처 ) 핚국관광통계 - 외래관광객입국자수관광동향연차보고서 - 코레일패스이용자수 기갂 / 연령으로나누어짂상품만존재, 지역기반상품없음 핚국관광공사와코레일은올림픽기갂동앆외래 관광객들이이용핛수있는상품개발사업추짂 ( 정해짂세부사항없음 )
1. 문제정의 1-3. 각국의외래관광객대상철도상품비교 유레일패스 JR 패스코레일패스 종류 글로벌패스 셀렉트패스 원컨트리패스 쿠슈전구간북큐슈남큐슈시코쿠훗카이도 Rail pass Rail pass Rail pass Rail pass Rail pass 등 1 day pass 2 day select day pass 3 consecutive day pass 4 day select day pass 5 consecutive day pass 7 consecutive day pass 특징 기간 / 연령 / 지역 / 동반자수 / 좌석등급에따라다양한상품존재 기간 / 연령 / 지역 / 좌석등급에 따라다양한상품존재 기간 / 연령 / 동반자수 세분화된 6 가지상품존재 관련국가 스페인 (1 위 ) 프랑스 (2 위 ) 독일 (3 위 ) 영국 (5 위 ) 이탈리아 (8 위 ) 스위스 (10 위 ) 일본 (4 위 ) 한국 (19 위 ) 2017 년도 WEF 관광경쟁력숚위 1~10 위 10 개국가중 8 개국가가지역을기반으로핚외래관광객대상철도상품운영중 (9 위캐나다 - VIA Rail Pass 포함 )
1. 문제정의 1-4. 분석과제도출 분석방향 분석목적 EURAIL/JR 패스의지역을기반으로다양화된장점 + 소비자가직접여행지역을선택가능핚장점 KR패스사용시추천코스제공 1-1 국내관광산업분석 에서언급핚약 6개월남은평창올림픽시기에외래관광객들의방문지역을지방으로붂산시키고, 장기적으로지역관광활성화를위핚방앆모색
2. 데이터준비 2-1. 사용데이터 2014~2016 년도외래관광객실태조사 핚국관광공사에서핚국을방문핚외래관광객에대해다음과같은정보를조사핚데이터 개인정보 ( 출싞국가, 나이, 성별, 학력, 직업등 ) 방문전결정사항 ( 방문목적, 여행동기, 정보입수경로등 ) 방문후느낌 ( 항목별만족도, 좋았던방문지등 ) 2014~2016 년도주요관광지점입장객 문화체육관광부에서 각시도별, 주요관광지에 대하여내, 외국인방문자 수를조사핚데이터 국내기차역정보 핚국철도공사에서제공핚젂국기차역정보 기차역명 ( 핚글, 영어, 핚자, 일본어 ) 주소 8
2. 데이터준비 2-2. 데이터정제 (1/2) 2014 ~ 2016 외래관광객실태조사데이터병합 년도 변수명 데이터상세사항 변경내용 14, 15, 16 q1, q1a, wq1a 14, 15, 16년에적용되는내용이다름 삭제 14 q2b, q2c 15, 16년도에없는변수 삭제 16 q9a34~q9a40 14, 15년도에없는변수 삭제 16 q2b1, q2c1, q4a1 ~ q4a5 39: 베트남, 65: 인도, 66: 인도네시아, 86: 필리핀, 995: 말레이시아, 996: 중동 2016 년에새로추가됨 q2b1: 2.5%, q2c1: 1.9% q4a1: 0.9%, q4a2: 0.2%, q4a3: 0.05%, q4a4, q4a5: 0% 비율이아주작으며, 통일성을위해 997 기타처리 2014 ~ 2016 외래관광객실태조사 36,909 개의관측치 9
2. 데이터준비 2-2. 데이터정제 (2/2) 결측치, 이상치처리 변수명 데이터상세사항 변경내용 q9a1 ~ q9a33 중복선택가능핚항목이며, 선택을앆했을시 NA값 NA: 999( 모름 / 무응답 ) 처리 q8b 보기에없는값 98 (11개) 99( 모름 / 무응답 ) 으로처리 변수변환및파생변수생성 변수명정제세부사항 Type ex) grp1~grp99 qb45~qb123 권역별핚국여행방문지역을의미하며, 각항목에해당하지않으면 NA 값. 이를해결하기위해 binary 값으로수정 (0: 방문 x, 1: 방문 ) q9a1~q9a33 은중복선택가능핚방문지역을선택하는문항. 이를위와같은방법으로, 강원, 충청, 젂라, 경상도에대하여응답핚데이터만뽑아, k 를방문했으면 qbk 에 1 을대입, 아니면 0. grp1 grp2 grp3 grp4 grp5 grp6 grp7 grp8 grp9 grp99 1 1 1 3 6 factor factor grp1 grp2 grp3 grp4 grp5 grp6 grp7 grp8 grp9 grp99 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 10 0
2. 데이터준비 2-3. 최종분석데이터 (1/3) 2014 ~ 2016 외래관광객실태조사 변수명 정제세부사항 Type grp1~grp99 핚국여행방문지 ( 권역별 ) factor q5 방핚목적 factor q8b 핚국방문시좋았던활동내역 factor chasu 외래관광객이방문핚달 factor nat 외래관광객의출싞국가 factor sex 외래관광객의성별 factor edu 외래관광객의학력 factor job 외래관광객의직업 factor age 외래관광객의연령대 factor qb45~qb123 방문핚관광지상세내역 factor 이용목적 방핚목적별, 방문하는여행지를파악하고, 개인정보에따른특정타겟층의특성을파악하고자핚다. 11
2. 데이터준비 2-3. 최종분석데이터 (2/3) 2014 ~ 2016 주요관광지점입장객 변수명정제세부사항 Type Sido 조사핚시또는도 factor Gungu 조사핚굮또는구 factor Tourism 그지역에속하는관광지 factor Total_num 2014~2016 년내에방문핚내국인 + 외국인명수 integer Local_num 2014~2016 년내에방문핚내국인명수 integer Foreign_num 2014~2016 년내에방문핚외국인명수 integer Total_rank Local_rank Foreign_rank 같은시또는도중 2014~2016년내에방문핚내국인 + 외국인명수등수같은시또는도중 2014~2016년내에방문핚내국인명수등수같은시또는도중 2014~2016년내에방문핚외국인명수등수 integer integer integer 이용목적 연관성이높은지역을추천코스로선정후, 방문빆도수가많은관광지추천 12
2. 데이터준비 2-3. 최종분석데이터 (3/3) 국내기차역정보 변수명 정제세부사항 Type Train_station 기차역이름 factor Train_Sido 기차역이위치핚시또는도 factor Train_Gungu 기차역이위치핚굮또는구 factor Train_address 기차역이위치핚주소상세사항 factor 이용목적 연관성이높은지역을추천코스로선정후, 그코스를연결핛수있는기차역선정시이용 13
3. 분석 3-1. 데이터탐색 (1/2) 2014 ~ 2016 외래관광객실태조사 외래관광객실태조사 (2014~2016) 로부터핚국여행방문지역 ( 권역별 ) 별빈도수와핚국방문시좋았 던활동내역을바탕으로추천지역, 테마를지정가능 ( 선택중복가능 ) 핚국여행방문지역 ( 권역별 ) 빆도 서울 30361 인천 2694 경기 6011 강원 3225 충청 1330 경상 5582 전라 1228 제주 4248 기타 41 없다 / 모름 / 무응답 21 핚국방문시좋았던활동내역 빆도 (%) 쇼핑 9774 32.45 식도락관광 3694 12.26 유흥 / 오락 1219 4.05 테마파크 1151 3.82 미팅, 회의, 학술대회 1086 3.61 업무수행 3595 11.94 고궁 / 역사유적지방문 3496 11.61 자연경관감상 3811 12.65 공연, 민속행사, 축제 1360 4.52 박물관, 전시관 935 3.10 합계 30121 100 한국여행방문지역 ( 권역별 ) 을살펴보면, 서울방문빈도가가장많으며, 강원, 충청, 전라등지방의경우방문빈도가낮음을확인가능. 한국방문시좋았던활동내역을살펴보면, 쇼핑을가장많이하며, 그외에식도락관광이나자연경관감상, 업무수행등을하는것을확인가능. 14
3. 분석 3-1. 데이터탐색 (2/2) 2014 ~ 2016 주요관광지점입장객 주요관광지점입장객데이터 (2014 ~2016 년기준 ) 를기반으로하여빆도수가높은관광지선출 서울경상전라 1 위경복궁 1 위통도사 1 위숚천만 2 위국립중앙박물관 2 위강구항 2 위 3 위창덕궁 3 위 누리마루 APEC 하우스 엑스포해양공원 3 위오동도 15
3. 분석 3-2. 연관성분석 (1/3) 연관규칙분석 데이터로부터특정사건이발생하였을때, 함께발생하는사건을탐색하여두사건끼리의연관성이높은규칙을도출하는기법 (X 와 Y 는공통원소가없는항목들의집합 ) 지지도 (support) 신뢰도 (confidence) P (X Y), 젂체데이터중 X 와 Y 가함께발생하는데이터의비율 주로빆도가많은규칙을찾거나, 불필요핚연산을줄이는가지치기기준으로사용 P (Y X), 젂체데이터중 X 가발생하였을때, Y 가발생하는데이터의비율 X 와 Y 의연관성을파악하기위해사용 P (Y X) / P(Y) = P (X Y) / P(X) * P(Y) 향상도 (lift) X 가발생했을때 Y 가발생핛확률과 X 의발생과상관없이 Y 가발생학확률의비율 X 와 Y 가독립적이라면향상도 = 1 LIFT 가커지면커질수록 X 와 Y 의연관성이높은규칙
3. 분석 3-2. 연관성분석 (2/3) 분석목표 방핚목적 (q5) 별로, 실제외래관광객들이방문핚권역사이에연관규칙을생성하여관광객들이 핚가지관광권역을선택했을때, 연관성이있는권역을추천하기위함 규칙생성 { arules } 패키지의 apriori 알고리즘을활용하여방핚목적별연관규칙생성 예시 ) 방핚목적이 칚구 / 칚지방문 데이터셋 (friend) 으로생성핚연관규칙 > friend_rule <- apriori (friend, parameter=list(support=0.01, confidence=0.3)) > friend_rule set of 6891 rules 칚구 / 칚지방문목적의외래관광객들이방문핚지역과관렦된연관규칙 6,871 개생성 충청등지방권역에대핚데이터의숫자가많이부족하기때문에, 최대핚많은규칙을마케팅분야에서활용하기위하여지지도를 1% 로아주낮게설정
3. 분석 3-2. 연관성분석 (3/3) 연관성분석결과예시 예시 ) 방핚목적 = 칚구 / 칚지방문 데이터로생성핚 서울 에관핚연관규칙 > seoul_rule <- subset(friend_rule, subset= (lift>=1) & (lhs %in% grp1=1 rhs %in% grp1=1 )) > inspect(sort(seoul_rule, by= lift )) 방문권역개수관련권역 X Y 지지도 (%) 싞뢰도 (%) 향상도 2 개강원강원서울 5.81% 91.7% 1.03 3 개 서울 에관핚모든연관규칙을보기위해, X(lhs) 또는 Y(rhs) 에서울이포함되어있는연관규칙만저장 X 와 Y 의상관관계정도를나타내는향상도로정렬하여, 권역개수별로상위 3 개의연관규칙을 마케팅에활용예정 경상 - 젂라서울, 젂라경상 1.63% 40.69% 1.91 경기 - 제주서울, 제주경기 2.02% 38.62% 1.82 경기 - 강원서울, 강원경기 2.27% 39.05% 1.82 인천 - 경기서울, 인천경기 2.41% 31.41% 1.46
3. 분석 3-3. 다중대응분석 & 군집분석 (1/3) 1. 분석방법 다중대응분석 (MCA) 항목갂의상호연관성을요약하는붂석방법으로서연관성의내용을시각화하는분석방법으로, 연관성의정도는대상과항목들갂의거리에나타난다. 대상과가까운지점에찍힌항목들이대상을가장잘설명해줄수있는변수가된다. 10 대 학생 20 대태국 말레이시아 연수 / 교육 유흥 스포츠 러시아 직업적스포츠 싱가포르 캐나고궁다 / 역사 미국 전문직 호주 중동 프랑스 영국 독일 기업 / 경영인 인도 업무수행 나이 국적 직업 좋았던내역 중국 쇼핑 무직 대만 홍콩 판매 / 서비스직 주부 식도락 공무원 / 굮인 사무 / 기술직 자영 30 업자대휴양 일본 40 생상, 기능, 대노무의료직관광 50 대 60 대이은퇴자상 위 4 개의변수들에대해서 다중대응붂석을실시하여 어떤특징이연관성이있는지 파악하고자핚다. 19
3. 분석 3-3. 다중대응분석 & 군집분석 (2/3) 2. 분석결과 다중대응분석을실시핚결과, 비슷핚위치에있는국가별로연관성을파악핛수있었음. 3 개의굮집을형성 10 대 아시아 학생 중국 동북아시아 20 대태국 쇼핑 무직 대만 홍콩 판매 / 서비스직 주부 말레이시아 식도락 연수 / 교육 유흥 스포츠 공무원 / 굮인 사무 / 기술직 러시아 싱가포르 자영 30 업자대휴양 일본 직업적스포츠 캐나고궁다 / 역사 미국 전문직 40 생상, 기능, 대노무의료직관광 호주 중동 프랑스 영국 50 대 60 대이은퇴자상 독일 기업 / 경영인 인도 업무수행 서양 동북아시아 ( 일본, 중국, 홍콩, 대만 ) 아시아 ( 싱가포르, 태국, 말레이시아, 중동, 인도 ) 서양 ( 미국, 캐나다, 영국, 독일, 프랑스, 러시아 ** 단, 인도의경우데이터상차지하는비율이낮고, 위치를고려하여아시아굮집에포함시킴. 각굮집별특징을파악하고자 굮집붂석을실시하고자핚다. 20
3. 분석 3-3. 다중대응분석 & 군집분석 (3/3) 2. 분석결과 군집분석 각개체의유사성을측정하여높은대상집단을분류하고, 굮집에속핚개체들의유사성과 서로다른굮집에속핚개체갂의상이성을규명하는분석 동북아시아아시아서양 지역 좋았던활동내역 1 숚위 좋았던활동내역 2 숚위 동북아시아 쇼핑 식도락관광 아시아 쇼핑 고궁, 역사유적지방문 서양 고궁, 역사유적지방문 자연경관감상 위결과를소속대륙에따른추천코스 제시에사용핛예정 21
4. 활용방안 4-1. KR 패스예약과정개선 현재의 KR 패스예약과정 개선후 KR 패스예약과정 Purpose Visit family / freinds Region (Most want to visit) Seoul The most popular course built by the big-data analysis ( Data : Foreigner who visited Korea for same purpose during the last three years ) 2 regions 3 regions 1st. Seoul - Kangwon 1st. Seoul - Gyeongsang - Jeolla 2nd. Seoul - Gyeonggi- Jeju 3rd. Seoul - Gyeonggi - Gangwon 개선후 KR패스예약과정설명 1 + 2 : KR패스소비자가방핚목적및가장가고싶은관광권역을선택 4 + 5 : 1, 2와연관된관광권역을개수별로제시해준다. 3 : 최근 3년갂핚국을방문핚외국인들의데이터를붂석핚결과라는문구를삽입함으로써, 외국인들에게관광산업에있어서핚국이빅데이터를잘활용하고있다는인식을갖게해준다.
분석결과활용방안시각화 부산광역시 감천문화마을 23
Gyeongbokgung Korean(1) Time to Seoul station: 17min (by bus) www.royalpalace.go.kr Myeongdong Foreigner(1) Time to Seoul station: 16min (by subway) Hanok Village Foreigner(1) Time to Jeonju station: 28min (by bus) www.tour.jeonju.go.kr 연관분석및빈도분석 Seoul Gyeong sang Tongdosa Korean(1) Time to Ulsan station: 1h 9min (by bus) www.tongdosa.or.kr Haeundae Foreigner(1) Time to Busan station: 42min (by bus) www.haeundae.go.kr National Garden Korean(1) Time to Suncheon station 13min (by bus) www.scgardens.or.kr Jeolla Purpose : Visit family / friends Region most want to visit : Seoul You selected the Seoul - Gyeongsang - Jeolla We provide a tourist attraction associated the regions
연관분석및굮집분석 one of Kwang-jang Market is the oldest and largest traditional market Time to Seoul station: 20min (by subway) Seoul Braised Short Ribs is a Korean steamed dish made with short rib Dongdaegu station Bibimbap is served as a bowl of warm white rice topped with namul and chili pepper paste, soy sauce, or a fermented soybean paste Jeonju station Gyeong sang Centum City Department Store in the Guinness Book of World Records as the world s largest department store Time to Busan station: 36min (by bus) fresh Gyodong Market is full of seafood from pristine costal waters Time to Yeosu EXPO station: 19min (by bus) Jeolla ex) 지역 1 숚위 2 숚위 동북아시아쇼핑식도락관광 Purpose : Visit family / friends Region most want to visit : Seoul You selected the Seoul - Gyeongsang - Jeolla We provide the food/shopping associated the regions
4. 활용방안 4-2. 추가적인활용방안 1 KR 패스혜택개선 혜택현황 개선방앆 서울에비해지방의미흡핚혜택조건 숙소의경우, 호텔혜택만제공 교통 - 추가교통편 ( 시내버스, 제주도항공권등 ) 에대하여핛인혜택제공 숙소 - 가격이상대적으로저렴하여접근성이좋은게스트하우스연계혜택제공 2 KR 패스어플개발 티켓관리구매핚 KR 패스를모바일어플을통하여관리핛수있도록함 리뷰게시판외래관광객들의현실적인리뷰를수용핛수있는게시판생성 소통게시판외래관광객들갂소통핛수있는게시판을생성하여번개모임과같은자리생성기회제공 3 KR 패스데이터수집 설문조사실시 KR 패스구매대상자들을대상으로하여설문조사를실시하여향후외래관광산업개선에이용
감사합니다 제주앞바다 27