PowerPoint 프레젠테이션

Similar documents

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


G Power

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

여행 숙박 업종 소비자 분석 및 검색광고_201507

Untitled-1

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

( 제 7 호 ) 대구경북개발연구원 ) 김상무 * 이환태 **. 서론 1. 연구의배경및목적 2. 연구의방법및범위. 이론적배경 1. 관광동기와관광유형 2. 관광지선택요인및선행연구 3. 관광만족요인과체계. 실증연구의분석 1. 인구통계적특성및관광유형 2.

<표 1-2-1> 시군별 성별 외국인 주민등록인구 ( ) (단위 : 명, %) 구분 2009년 2010년 외국인(계) 외국인(여) 외국인(남) 성비 외국인(계) 외국인(여) 외국인(남) 성비 전국 870, , , ,

05 ƯÁý

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

빅데이터_DAY key

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

<35B9DAC1F6BCF62CC0CCBFECC8C62CB7F9B5BFBCAE2E687770>

외국인투자유치성과평가기준개발

소식지수정본-1

열거형 교차형 전개형 상승형 외주형 회전형 도해패턴 계층형 구분형 확산형 합류형 대비형 상관형 (C) 2010, BENESO All Rights Reserved 2

ASETAOOOCRKG.hwp

<B3EDB4DC28B1E8BCAEC7F6292E687770>

2016 전라북도 관광객 실태조사


목차 제1절서론 1 1. 연구배경및목적 1 2. 이론적고찰 2 3. 연구내용및방법 10 제 2 절인구이동의요인분석 전국총이동규모의변동요인 지역별인구이동요인분석 22 제 3 절결론 요약 연구의한계 42 < 부록 > 45

시스템경영과 구조방정식모형분석

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

성인지통계

슬라이드 1

[ 목차 ] 응답자분포표... 1 [ 표 1] 최근 3년간한국방문횟수... 2 [ 표 2] 연평균해외여행횟수... 3 [ 표 3] 이번한국방문의주된이유... 4 [ 표 4-1] 여행지선정시고려요인 (1순위)... 5 [ 표 4-2] 여행지선정시고려요인 (2순위)...

2 Journal of Disaster Prevention

<4D F736F F F696E74202D EBCADBAF1BDBABDC3BCB3C0C720C0D4C1F6BCB1C1A4205BC8A3C8AF20B8F0B5E55D>

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

2013 국토조사연감 075 전국 대기오염도(SO2) 년 대기오염도(SO2) (ppm) 년 2012년

#(198~243)교과서한지7ok

statistics

2013지발-가을내지1004-4

- 2 -

untitled

지발홍보책_도비라목차_0125

1 제 26 장 사회간접자본의확충

임정연 이영민 1) 주저자, 숙명여자대학교인력개발정책학박사과정, 2) 교신저자, 숙명여자대학교여성 HRD 대학원부교수,


한국건설산업연구원연구위원 김 현 아 연구위원 허 윤 경 연구원 엄 근 용

사회통계포럼

손해보험 채널별 활용분석 123 다.세부 분석 손해보험 채널별 구성비 :성별 남성과 여성 모두 대면채널을 통한 가입이 90% 이상으로 월등히 높음. <표 Ⅱ-2> 손해보험 채널별 구성비 :성별 구 분 남성 여성 대면 직판 은행 0.2 1

PowerPoint 프레젠테이션

exp

ad hwp

92302 대한무역투자진흥공사 대한무역투자진흥공사

PowerPoint 프레젠테이션

김기남_ATDC2016_160620_[키노트].key

02-출판과-완성

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

adfasdfasfdasfasfadf

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

제1차 양성평등정책_내지_6차안

2020 나주도시기본계획 일부변경 보고서(2009).hwp

DBPIA-NURIMEDIA

¿ï¸²58È£

A 한국노동연구원 한국보건사회연구원 1998 년 한국사회과학자료원 2008년 2008년

- I - - II -

Sequences with Low Correlation

소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기


untitled

<C0FCC5EBBCF7B9DABDC3BCB320C0B0BCBAB9E6BEC820C3D6C1BEBAB8B0EDBCAD E687770>


한국정책학회학회보

☆국토2_6장( )

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

CC hwp

A Time Series and Spatial Analysis of Factors Affecting Housing Prices in Seoul Ha Yeon Hong* Joo Hyung Lee** 요약 주제어 ABSTRACT:This study recognizes th

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA



C# Programming Guide - Types

<C1F6BDC4B0E6BFB5BFACB1B83136B1C734C8A33132BFF92E706466>

abstract.dvi

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

src.xls

비선형으로의 확장

슬라이드 1


ISSN 제 3 호 치안정책연구 The Journal of Police Policies ( 제29권제3호 ) 치안정책연구소 POLICE SCIENCE INSTITUTE

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

슬라이드 1


untitled

에너지경제연구 제13권 제1호

DBPIA-NURIMEDIA

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

맘톡광고소개서

ad hwp

Transcription:

1 관광재방문율상위도시의특성을기반으로한지자체의지역별관광자원개발전략제언 - 토픽모델링및 SNA 분석을활용하여 - SA216

Contents 2 1. Problem Definition 1.1 Problem Recognition 1.2 Literature Review Problem & Objective 1.3 Problem & Objective 1.4 Overview 2. Data Analyzing Process 2.1 Decision Tree 2.2 Topic Modeling I 2.3 Social Network Analysis 2.4 Regression 2.5 Topic Modeling II 3. Result & Interpretation 3.1 Result Utilization 3.2 Tourism Strategies

1 현대관광산업의이슈 { 국내관광개발에대한문제인식 } 효과성및효율성부족지방자치단체의경쟁적인관광산업개발이효율적으로이루어지지못하고효과가없는부분이있다. 3 지역별특성과관광객의니즈가서로연결되지못하고, 대규모개발과민선자치장의정치적문제로변질되고있다. Ex) 대규모개발, 선심성공략 지역별관광자원강점파악부재 2 3 관광아이템차별화부재전국적으로유행이라하는트렌드에민감하게반응하여 따라하기방식 의관광개발이많다. Ex) 낚시관련축제 ( 송어, 빙어등 ) 4 관광산업을위한재정문제지자체의재정문제로효율적관광개발전략필요성이증가했으며재정문제에따른대안으로무수히시작된 PROJECT FINANCING이중도취소되는사례도많다. Leadership Theory 3. 리더십 DATA ANALYSIS 3조 지자체관광개발사업의문제점및대안, 한국문화관광연구원, 2010 조직행동론

TRAVEL & DATA Literature Review 4 이민재외 2, 지자체의관광자원브랜드자산이브랜드충성도에미치는영향에대한탐색적연구 : 지자체의관광자원브랜드를대상으로, 경희대학교, 2012 재방문과타인추천의사, 브랜드인지도, 관광지의이미지, 방문객의만족도 강인규, DEA 모형을활용한문화관광축제의효율성평가, 전남대학교, 2011 자료포괄분석, 축제평가법, 투입대비산출 박진영외 1, 경주지역관광객의관광동기와재방문객유치를위한방 안에관한연구, 대한관광경영학회, 2012 다중회귀분석, 재방문의사의영향관계, 재방문동기 조완섭외 3, SNS 데이터분석을통한스마트충북관광구축, 충북대학교, 2015 텍스트마이닝, 감정분석, 토픽모델링

TRAVEL & DATA 분석주제 Problem & Objective 5 관광재방문율상위도시의특성을알아보고 타지방자치단체에서도활용가능한 지역별관광자원개발전략제언

TRAVEL & DATA Overview 6 1 재방문율상위지역검색 Process 의사결정나무 2 상위지역속성파악 Topic Modeling & SNA 3 회귀분석속성별영향력파악 4 결과적용사례적용전략수립 미래유망관광테마선정 관광자원중요속성파악

TRAVEL & DATA Overview 7 1 Decision Tree 2 Topic Modeling 3 SNA 5 Topic Modeling 4 Regression 6 Clustering 개인특성분석 공통특성분석

8 DATA ANALYSING PROCESS Sample Explore Modify Model Assess

TRAVEL & DATA DATA ANALYSIS 9 1 의사결정나무 (Decision Tree) SAS E Miner 본인직접동기에의한관광을다녀온후재방문의사가높았던지역을탐색 * 본인동기를확인하기위해 개인 데이터를사용하였고전체과정의기간일관성을위해 2014 년으로기간을통일했다. 관광객의인구통계적정보를분류기준으로삼아, 재방문의사가높은세그먼트를분류한다. 이로부터선정된세그먼트를통하여주요관광지를선정 * 각세그먼트가가진인구통계적특성이비교적명확한집단이방문한관광지를중요하게여겼다. 국민여행실태조사 (2014) 데이터개별통합원시데이터가공데이터응답자특성여행기록부 분류기준으로선정된인구통계적속성 ( 변수 ) 을마케팅세그먼트에활용가능 개인 가구 방문지베이스 단위여행베이스

10 Decision Tree 의사결정나무 Exploring Sampling 응답자특성 + 여행기록지데이터중요변수목록 변수명변수설명변수역할변수유형 2014_ 개별 _ 여행기록부 _ 개인여행.sav 개인 데이터관측치가총 27,560 개 샘플링X 모든데이터를모델구축에사용 데이터분할X 2014 년 _ 개별 _Data 여행기록부개인용 _ 국내관광여행및해외여행 - 단위여행베이스 - 방문지베이스 응답자특성 _ 개인용 marry 미혼 / 결혼 / 사별 / 이혼여부 INPUT NOMINAL month 여행을다녀온월 INPUT NOMINAL inc1_1 연소득 INPUT INTERVAL sex 성별 INPUT BINARY school1 최종학력 INPUT NOMINAL school2 졸업여부 INPUT NOMINAL occ1 직업분류1 INPUT NOMINAL occ2 직업분류2 INPUT NOMINAL age 연령 INPUT INTERVAL ara_size 지역규모 ( 대도시, 중소도시, 읍 / 면 ) INPUT NOMINAL sr_type 조사구 ( 주택 ) 유형 ( 아파트, 일반주택 ) INPUT BINARY fac 가구내가구원수 INPUT ORDINAL count 몇번째여행인지표기 INPUT INTERVAL Bin_q_6_7 재방문의사 (5는 1) TARGET BINARY Q3 여행주목적 ( 여가, 친지방문등등 ) - NOMINAL Q6_1 여행한시 / 도및시 / 군 / 구 - NOMINAL Q6_7 재방문의향 (1~5점척도) - ORDINAL Type1 여행유형 ( 국내관광여행, 해외여행등 ) - NOMINAL

11 Decision Tree 의사결정나무 Exploring

12 Decision Tree 의사결정나무 Exploring 나이 혼인형태 지역규모 직업 연소득 재방문의향

13 Decision Tree 의사결정나무 데이터합치기 여행기록지데이터 + 응답자특성데이터 방문지시도속성 응답자특성 PID PSID 나이소득연봉직업 Modifying 이상치 & 결측치 응답데이터에서이상치를찾을수없음 * 일반적인이상치는발견되지않았고, 통계적인이상치를제거해야할이유가없음. 결측치없음 입력변수 인구통계적속성의일부속성제외 * 거주지 / 월평균소득 RAW DATA 필터링 여행기록부 PID PSID 방문지시도여행주목적재방문여행유형 여가 / 위락 / 휴가 1 or 0 국내 Type1 ( 여행유형 ) 을국내여행이라고응답한사람만 * 국내관광객에대한데이터만필요 Q3 ( 여행주목적 ) 을 1. 여가 / 위락 / 휴가로응답한사람만 * 관광과관련이없는조사자들을걸러냄 파생변수 재방문의사 (Binominal) - 5 점 1, 1~4 점 0 * 설문을긍정적으로응답하려는편향이조사에서흔히나타나므로, 5 점만재방문을확신

14 Decision Tree 의사결정나무 Modeling 목표변수 재방문의사 - Yes = 1, No = 0 분리규칙지정 유의수준 : 0.2 최대가지 : 3 개, 최대깊이 : 3 개 최소범주형크기 : 5 알고리즘 지니, 카이제곱, 엔트로피세가지알고리즘중에가장높은정확도를가진모형선택 지니

15 Decision Tree 의사결정나무 모델보기 타겟비율약 60% 이상, 충분한세그먼트구성원수를이루는 Leaf 에대해더관찰해보았다

Decision Tree 의사결정나무 Assessment 세그먼트의전체대비여행지점유율 초대형관광지는물론, 중 소도시의관광지에서관광객의재방문의사가높게나타남 16 인구통계적특성반영 재방문의사가 5 인관광객들만의방문지를보면, 보편적인초대형관광지가주를이룸 인구통계적특성을반영한재방문이높은관광지 (Leaf) 는보편적인대형관광지이기보다중소도시의내실있는관광지위주 중요하게선정된분류기준 나이, 연소득, 가구구성원수, 직업등유용한분리기준으로쓰인속성발견 변수명분리규칙개수중요도 % 관광지 3.32 제주서귀포시 3.08 강원속초시 3.05 부산해운대구 2.9 전남여수시 2.69 강원강릉시 % 관광지 52.8 전북 임실군 26.4 전남 곡성군 17.6 전남 보성군 7.06 강원 평창군 4.65 경기 안성시 5.58 충남 태안군 2.33 전남 여수시 5.2 부산 해운대구 5.2 경기 평택시 5.2 강원 원주시 5.2 강원 강릉시 5.2 강원 동해시 inc1_1 3개 1 age 2개 0.9741 school1 2개 0.8286 fac 1개 0.689 month 1개 0.4169 재방문율상위관광지선정 (5 개 ) 의사결정나무결과로나온세그먼트속성으로방문객을필터링하여그집단관광객이 2014 년동안가장많이방문한지역을계산

17 TRAVEL & DATA DATA ANALYSIS 2 텍스트마이닝 토픽모델링 I 개별관광지의핵심관광자원은? 토픽모델링이란? Decision Tree 에서 5 군데선정 { % 관광지 52.8 전북임실군 26.4 전남곡성군 7.06 강원평창군 5.58 충남태안군 5.2 강원강릉시 토픽모델링은 LDA(Latent Dirichlet Allocation) 알고리즘을이용한확률모델이다. 수집한각문서들은토픽들의집합으로이뤄져있다는가정에서출발한다. 토픽모델링은주어진문서가어떤토픽으로이뤄져있고, 각토픽이어떤키워드로구성되어있는지파악할수있는분석도구이다. 검색어수집검색어선정포스트수집토픽모델링

18 Text Mining 검색어선정 검색어수집경로 Java 이용하여각연관검색어별포스팅수추출 * OO 여행, OO 관광 * 해당검색어의중요도를반영하는수치 검색어마다의연관검색어 + 지도서비스의연관주요장소를모두수집 1 *2015 년 6 월현재검색엔진점유율 1 위인 NAVER 의 ' 연관검색어 ' 서비스를활용하여추가로검색할단어를선정하였다. 2 3

Text Mining 관광지별토픽모델링 2 태안여행 연관검색어포스트수 태안 204336 충남태안 18566 아이들과여행 4854 팜카밀레 3246 서산여행 2353 충남여행 1855 아이들과갈만한곳 1587 신진항 785 태안가볼만한곳 784 태안팜카밀레 460 태안 1박2일 298 태안여행코스 217 태안 2박3일 59 충남갈만한곳 26 태안자연휴양림 24 태안갈만한곳 10 태안오징어축제 0 충남당진아이들과놀러갈만한곳 0 태안관광 연관검색어포스트수 신두리사구 1982 관광레저형기업도시 841 태안신두리해안사구 766 태안관광레저도시 27 3 지도검색안면도꽃지해수욕장만리포해수욕장천리포수목원 검색어선정기준 포스트수가많은순으로나열후중요도에따라검색어선정 해당지역명은 1 차검색과동일한결과이므로제외 최대한중복되는결과가없도록적절한검색항목배제 다른관광지와겹치는검색어제외

Text Mining 관광지별토픽모델링

21 Text Mining 관광지별토픽모델링 크롤링 네이버블로그포스트 2014.01.01-2014.12.31 5 개관광지 10,311 개수집 토픽모델링 R(LDA 패키지 ) 토픽모델링실시 * 토픽개수 = 20 개 *α = 0.1 * β = 0.1 *iteration = 3000 토픽별단어의확률분포 토픽내에포함된단어를정렬함 전북임실 1,294 개전남곡성 1,351 개강원평창 2,513 개충남태안 2,182 개강원강릉 2,971 개 Topic1 Topic2 Topic9 Topic10 Topic19 Topic20 1 0.0223 0.0169 2 0.0173 0.0134 0.0300 0.0173 0.0212 0.0138 0.0173 0.0173 0.0138 0.0138 3 0.0152 0.0108 0.0192 0.0130 0.0130 0.0130 4 0.0133 0.0108 Topic1 Topic2 Topic9 Topic10 Topic19 Topic20 0.0177 0.0108 0.0108 0.0108 5 0.01271 0.0099 계곡 섬진강 청산 레일 장미순천 0.0127 0.0103 0.0103 0.0103 2 곡성천문대 완도곡성 곡성여수 6 0.0127 0.0099 0.0124 0.0097 0.0097 0.0097 3 이름곡성 바다바이크 기차부산 7 0.0108 0.0093 4 입구기차마을 0.0124 0.0095 서편제섬진강 0.0095 0.0095 기차마을박물관 8 0.01025 0.0091 전남 마을 0.0122 0.0095 여행모습 0.0095 0.0095 섬진강강원 9 0.00936 0.0091 도림 이야기 마을 예약 장미공원강원도 0.0119 0.0092 0.0092 0.0092 7 사찰음식 청산도의아이 레일섬진강 10 0.0093 0.0088 0.0099 0.0089 0.0089 0.0089 8 유명레일 왈츠엄마 마을구례 9 풍경지리산 코스날씨 축제유명 10 전라남도체험 도착풍경 사진전주

TRAVEL & DATA DATA ANALYSIS 22 3 사회연결망분석 (Social Network Analysis) 토픽모델링 I 결과를바탕으로 SNA 분석이란? 소셜네트워크분석 (SNA) 은기존의통계적분석으로접근할수없었던개체간 관계 와 상호작용 을계량적으로분석하여거시적, 미시적관계패턴을파악하는방법으로관계의형성 / 구조 / 변화를측정. 해석하기 단어쌍 (X,Y) 의 LIFT 를계산하여 SNA 분석 (Gephi) 연결정도중심성 (Degree Centrality) 을기준으로각노드들이연결됨각노드는 Degree 의크기가커질수록커짐노드간의관계가클수록화살표가굵어짐

Text Mining SNA 분석 검색어선정기준 토픽모델링 I 의결과를바탕으로 SNA 분석을진행 연관성매트릭스 23 다양성을높이기위해 20가지토픽에선정된단어를추상적인단어 / 관광장소이름등골고루사용관광관련논문을참조하여조사자의주관이적게개입되도록선정함선정된단어들의중복을최대한적게하기위해중복단어제거주요관광지와관련된속성들간의관계성을알아보고자함 30X30 모든키워드의 1:1 매칭 연관성 Topic1 Topic2 Topic9 Topic10 Topic19 Topic20 1 계곡 섬진강 청산 레일 장미 순천 2 곡성 천문대 완도 곡성 곡성 여수 3 이름 곡성 바다 바이크 기차 부산 4 입구 기차마을 서편제 섬진강 기차마을 박물관 5 전남 마을 여행 모습 섬진강 강원 6 도림 이야기 마을 예약 장미공원 강원도 7 사찰 음식 청산도의 아이 레일 섬진강 8 유명 레일 왈츠 엄마 마을 구례 9 풍경 지리산 코스 날씨 축제 유명 10 전라남도 체험 도착 풍경 사진 전주 중심성분석 중심성분석기준에는역동성과인기노드를찾는 Degree 법과독립성을가지고네트워크내정보흐름을쥐고있는핵심노드를찾는 Closeness 법외에 Betweeness, Eigenvector 법등이있음. 본과정에서는 Average Degree 법을사용 P(X)=X 단어의 Term Frequency( 단어빈출빈도 ) Lift = P(Y X)/P(Y) = P(X&Y)/(P(X)*P(Y)) 박자현외 1, 토픽모델링을활용한국내문헌정보학연구동향분석, 정보관리학회지 2013, 연세대학교문헌정보학과전희주외 1, 소셜네트워크분석을활용한생보사와손보사의대면 / 비대면채널의적합성비교, 한국데이터정보과학회지, 2014

24 Text Mining SNA 분석 지역별 SNA 결과 전북임실 충남태안 강원평창 강원강릉 전남곡성 전남임실북 W 필봉농악 0.00029 사선대 0.00027 옥정호 0.00022 강천사 0.00011 섬진강종주 0.00011 운암한려내장산물안개자연휴양림새만금절경남해치즈마을고인돌 4.6E-05 4.3E-05 3.7E-05 1.7E-05 1.6E-05 1.4E-05 1.4E-05 1.4E-05 1.2E-05 1.1E-05 충남태안 W 할아비바위 0.00016 백사장항 0.00013 팜카밀레 0.00013 신두리 7.9E-05 낙조 4.4E-05 백사장 3.1E-05 갯벌 2.9E-05 자연휴양림 2.1E-05 바다낚시 2.1E-05 사구 0.00002 대하 1.9E-05 해수욕장 1.8E-05 꽃게 1.6E-05 천연기념물 1.6E-05 레저형 1.4E-05 강원평창 W 대관령 2.4E-05 풍력발전기 2E-05 봉평 1.5E-05 백두대간 1.4E-05 목장 1.4E-05 연애소설 0.00001 숲길 9.2E-06 계곡 8.1E-06 메밀 8.1E-06 산행 7.5E-06 석탑 6.5E-06 동강 6.3E-06 텐트 5E-06 단풍 4.2E-06 캠핑 4.2E-06 강원강릉 W 오죽헌 4E-05 경포대 3.8E-05 주문진 2.2E-05 모래시계 1.4E-05 해돋이 1.2E-05 초당 1E-05 일출 9.6E-06 레일바이크 9.1E-06 모래사장 8.2E-06 수산시장 6.7E-06 게스트하우스 4.3E-06 바다 4.2E-06 조개 3.8E-06 기차 3.7E-06 해산물 3.5E-06 전남곡성 섬진강 원효대사 W 1.4E-05 1.3E-05 기차마을 1E-05 사찰 9.1E-06 지리산 8.4E-06 절경 7.5E-06 천문대 6.7E-06 기차 5.8E-06 산행 5.6E-06 장미공원 서편제문경해변숙소고요 5.5E-06 4.1E-06 3.4E-06 3.3E-06 3.1E-06 2.7E-06

25 Text Mining SNA 분석 SNA 결과해석하기 전북임실 전남임실 W 필봉농악 0.00029 사선대 0.00027 옥정호 0.00022 강천사 0.00011 섬진강종주 0.00011 운암 4.6E-05 한려 4.3E-05 내장산 3.7E-05 물안개 1.7E-05 자연휴양림 1.6E-05 새만금 1.4E-05 절경 1.4E-05 남해 1.4E-05 치즈마을 1.2E-05 고인돌 1.1E-05

26 Text Mining SNA 분석 SNA 결과해석하기 전북임실 강원전북평창임실 전남임실 W 필봉농악 0.00029 사선대 0.00027 옥정호 0.00022 강천사 0.00011 섬진강종주 0.00011 운암 4.6E-05 한려 4.3E-05 내장산 3.7E-05 물안개 1.7E-05 자연휴양림 1.6E-05 새만금 1.4E-05 절경 1.4E-05 남해 1.4E-05 치즈마을 1.2E-05 고인돌 1.1E-05 강원평창 W 대관령 2.4E-05 풍력발전기 2E-05 봉평 1.5E-05 백두대간 1.4E-05 목장 1.4E-05 연애소설 0.00001 숲길 9.2E-06 계곡 8.1E-06 메밀 8.1E-06 산행 7.5E-06 석탑 6.5E-06 동강 6.3E-06 텐트 5E-06 단풍 4.2E-06 캠핑 4.2E-06

TRAVEL & DATA DATA ANALYSIS 27 4 회귀분석 (Multiple Regression Analysis) 다른관광지의특성을개별모델에적용시킬수있을까? 관광지 5 군데의개별특성 / 전체적특성을각각밝혀냈을때, 이로부터구축된모델을다른관광지로부터도적용할수있는가? 개별관광지의강점 / 약점파악용이 효율적관광자원개발 지역의특색을잘살린관광자원개발

28 Regression 회귀분석 상위 15 개단어를중요하다고판단하여회귀분석전처리단계에이용 회귀분석을위한전처리단계 항목별만족도 _ 관광정보및안내시설 항목별만족도 _ 관광지물가 항목별만족도 _ 관광지편의시설 항목별만족도 _ 관광지혼잡도 항목별만족도 _ 교통 항목별만족도 _ 문화유산 항목별만족도 _ 쇼핑 항목별만족도 _ 숙박시설 항목별만족도 _ 식당및음식 항목별만족도 _ 자연경관 데이터전처리 SNA 에서확률순으로상위 15 개단어들을관찰. 항목별만족도설문의 12 개각응답지마다확률순으로나열된각단어를할당하고, 가장유의미한응답지 6 개를선정함 가구단위로움직이는관광에대한적용을위해 2014 년가구데이터 를활용 항목별만족도 _ 관광정보및안내시설항목별만족도 _ 관광지물가항목별만족도 _ 관광지편의시설항목별만족도 _ 관광지혼잡도항목별만족도 _ 교통항목별만족도 _ 문화유산항목별만족도 _ 쇼핑항목별만족도 _ 숙박시설항목별만족도 _ 식당및음식항목별만족도 _ 자연경관항목별만족도 _ 지역관광종사자의친절성항목별만족도 _ 체험프로그램 항목별만족도 _ 지역관광종사자의친절성 항목별만족도 _ 체험프로그램 관광지편의시설 문화유산 숙박시설 식당및음식 자연경관 체험프로그램

29 Regression 회귀분석 Sampling 도시별입력변수와반응변수 2014년가구응답데이터에서지역당설문건수가 30건이상인도시를우선선정 설문건수가 30건미만일경우통계적의미가하락될수있음총 51개도시선발 도시별입력변수와반응변수 요약통계량값예시 (q12_1) 6 개변수에대해도시별로요약통계량을계산 그중대표로하는값을입력변수로사용하기로결정 시군별설문응답의평균값을해당지역의대표값으로선정최빈값의경우 4값이다수를차지하여무의미함 반응변수생성하기 KOSIS 국가통계포털 2014 년시군구별관광지방문객수 데이터 선정된 51 개시에관한 2014 년총방문객수 결측전 Training Data set 일부 입력변수와 Join Training Data Set

30 Regression 회귀분석 Exploring 이상치 & 결측치 이상치 -- 응답보기값 9 를이상치로판단함결측치 -- 숙박시설 만결측치존재 이는당일여행의경우응답을하지않았기에발생하였음을추측할수있음 * 이상치와결측치를다른요약통계량값으로대치하기에해석상오류가있을것으로예상되어삭제하기로함 도시별로 결측치 와값 9 를제외한값들로요약통계량 대표값입력 51개행에대한도시별입력변수 그래프탐색

31 Regression 회귀분석 Modifying 탐색결과반응변수 traveler 값이정규성과차이가있음을알수있었다. 이에대한대응방안을고려하였다. 1. 발생횟수성격의현재반응변수를포아송분포를가정하고로그를취해파생변수를만들어반응변수로대치한다. 2. 지역별총인구수데이터를참조하여파생변수를만들어반응변수로대치한다. 3. 일반선형회귀가아닌일반화선형모델을사용하여 GLM 함수로모델을구축한다. 이는방안 1 의포아송분포가정과유사한방안이다. 반응변수 traveler 및시도해본파생변수

32 Regression 회귀분석 Modeling 회귀분석 반응변수와각각의입력변수는이론적으로양의상관관계를가지는것이일반적변수를모두 2014년기간으로선정하였고 51개도시는서로중복되지않음입력변수는초기 1~5 의선택지응답으로구성되어같은 Scale 을가지고있음반응변수에관한설명력을회귀분석을통해비교, 대조하게될것 회귀분석변수목록

33 Regression 회귀분석 Modeling 회귀분석 1. Enterprise Miner 선형회귀분석을활용하여아래 4 가지선형모델을최종후보로하여모델링을진행함 2. 반응변수 traveler, 모델옵션 GLM 일때설명력 (R-Square) 이높게나왔으며이후본모델에서최적화옵션기법을또달리하여가장설명력이높은회귀모델을추구 3. 전부후진제거기법을변수선택모델로선정하여진행하였으나, 선택한 6 개변수가모두포함되는방향을추구 EM 다이어그램 모델평가

34 Regression 회귀분석 Assess 결과 Log -- Enterprise Miner Analysis of Variance Sum of Source DF Squares Mean Square F Value Pr > F 해석하기 38.2% 의설명력을보였고 C(p) 값이 7 을보였다. 마케팅분야의일반적선호설명력값인 40% 를넘지않으나근사하며사회과학분야의선호값인 30% 는크게넘기고있음 결과분석에서 Condition Index 값을확인해보면다중공선성문제가다소있음을알수있음. 따라서예측을위한회귀식을구하기위해서는변수제거혹은주성분분석등추가행동이필요하나우리는입력변수간의영향력을상대적으로비교하기위함이므로문제를생략하고넘어가기로함 Model 6 1.6249656E14 2.708276E13 4.33 0.0017 Error 42 2.6283338E14 6.2579376E12 Corrected Total 48 4.2532994E14 Model Fit Statistics R-Square 0.3820 Adj R-Sq 0.2938 AIC 1450.2253 BIC 1454.5031 SBC 1463.4681 C(p) 7.0000 Analysis of Maximum Likelihood Estimates Standard Parameter DF Estimate Error t Value Pr > t Intercept 1-3652901 12960663-0.28 0.7794 q12_1 1 612970 2594175 0.24 0.8144 q12_11 1-7292916 2872874-2.54 0.0149 q12_2 1-1196633 2580261-0.46 0.6452 q12_4 1-237854 1748084-0.14 0.8924 q12_5 1-1713784 3361062-0.51 0.6128 q12_8 1 10800865 3163184 3.41 0.0014

35 Regression 회귀분석 Assess 중요성판별 Parameter Estimate Abs(esti) Rank Label_name Percent Intercept -3,652,901 3,652,901 3 자연경관 14.32% q12_1 612,970 612,970 6 쇼핑 2.40% q12_2-1,196,633 1,196,633 5 문화유산 4.69% q12_4-237,854 237,854 7 관광정보및안내시설 0.93% q12_5-1,713,784 1,713,784 4 식당및음식 6.72% q12_8 10,800,865 10,800,865 1 관광지편의시설 42.34% q12_11-7,292,916 7,292,916 2 체험프로그램 28.59% 최종모델결과의 Parameter 별 Estimate 값을가지고변수간중요성을판별하였다. 관광지편의시설 이가장높은중요도를보였으며 체험프로그램 과 자연경관 이뒤를이었다. 관광정보및안내시설 이가장낮은중요도를보였다. 결과해석및적용 위지표중정부와민간이투자를통해만족도를높이기효과적인부분은편의시설, 체험프로그램등이있다. 위결과에따르면두요인이모두주요한요인으로서전략적인관광투자요인으로서삼을수있음을알수있다. 다양한지역에서투자가이뤄지는쇼핑부문에서는예상보다적은중요도를보였다. 이는한정된자원에서선별적진흥전략을추구해야할경우쇼핑또는안내시설등은후순위로전략을정하는것이나을수있음을알려준다.

TRAVEL & DATA DATA ANALYSIS 36 5 텍스트마이닝 토픽모델링 II Latent Dirichlet Allocation & Word Clustering 전북임실 1,294 개 [ ] 전남곡성 1,351 개강원평창 2,513 개 충남태안 2,182 개강원강릉 2,971 개 10,311 개의 포스트 1 2 3 4 5 군데통합한 Data 새로운토픽 & 단어클러스터링 관광지선정 검색어선정 포스트수집 5 군데전체관련된키워드를바탕으로하여, 토픽모델링을재실시함. 토픽모델링 2 서로연관성이있는토픽이하나의클러스터로묶임. 각클러스터는해당하는관광자원의상위범주로묶임. 토픽모델링 1 + SNA

37 Text Mining 토픽모델링분석 앞서분석한 5 개도시의개별속성은이후진행할 SNA 및 RG 분석에서활용하여추가적인해석을진행함본과정을넘어가기앞서 5 개도시에대한공통적인속성을알아보고자추가토픽모델링과정을진행함 5군데통합데이터를이용하여토픽모델링을실시통합토픽모델링의파라미터는앞서개별로토픽모델링한파라미터와동일 * 토픽개수 = 10개 *α = 0.1, β = 0.1 *iteration = 3000

38 Text Mining 토픽모델링분석 클러스터링 (WEKA) 토픽모델링결과를바탕으로계층형클러스터링 (Hierachy Clustering) 진행 (WEKA) 클러스터링결과로나온 Tree 를바탕으로토픽들을 6개의군집으로분리토픽들의군집에나오는단어를바탕으로타이틀을부여 Tree 의가지의높이가낮을수록그룹화가먼저발생

Text Mining 토픽모델링분석 클러스터링결과및그룹타이틀 ( 여행테마 ) 6 개의그룹으로분류 39

40 Text Mining 토픽모델링분석 토픽의그룹별출현확률 35.00% 30.00% 32.09% 25.00% 20.00% 15.00% 10.00% 5.00% 21.86% 8.27% 14.57% 18.33% 4.88% 0.00% 다양한 문화, 역사탐방 기분전환여행 가족적인 체험활동여행 지역명 풍경여행 여행 분위기의여행

RESULT INTERPRETATION Strategy Example Reference 41

2010 년이후국내관광트렌드는단체관광객중심의대량관광에서국민복지차원의가족관광객중심으로변하고있음. 따라서가족단위의관광자원개발이중요! 1 42 1 Topic Modeling Regression 토픽모델링결과회귀분석결과 관광테마발견 2 변수의중요도차이발견 3 Tourism 1. 다양한풍경여행 2. 가족적인분위기의여행 3. 체험활동여행 토픽모델링의결과로각관광지마다특수한테마를부여 관광개발전략제안 분석최종결과 1. 관광지편의시설 2. 체험프로그램 3. 자연경관 항목별만족도를회귀분석하여, 투자대비산출효과가큰변수들발견 1. 가족적유대강화와교육적측면을위한체험중심의관광자원개 발 2. 어린자녀와함께하기에불편함이없는관광편의시설요인정비 3. 자연경관및연관된문화적측면의강화 지방의중소도시에서대규모자원투자가아니더라도지역환경기반의효율적인관광자원전략을통해관광매력도를높일수있음 1 윤정헌, 가족관광객의관광동기, 관광지선택속성및관광만족의영향관계, 관광레저연구, 2010

43 관광자원발굴및개발예시적용 : 전남목포 1. 보유관광자원조사및후보선정 자연환경 : 유달산, 갓바위, 삼학도 문학적측면 : 목포의눈물, 목포는항구다, 무료국악공연 교육적측면 : 자연사박물관, 해양문화재연구소 ( 해양분야 ), 목포근대역사관및근현대유적 ( 역사분야 ) 체험프로그램 : 도자기체험, 목공예체험, 갯벌생태체험 2. 전략 해양및근현대역사와관련된문화측면의강점을살릴수있는자원이상당히있음을확인하였다. 더불어성장이가능한각종체험프로그램이현재운영중임을알수있으나외부방문객들에게있어서다른관광자원들과연계되어홍보및활용되지않는것으로보였다. 체험및교육측면개발을통한관광지로서목포의차별화와강점강화를주목표로하며상대적으로빈약한관광지편의시설등에대한보완투자가이뤄지도록한다. 편의시설의수가부족하지는않으나숙박관련시설들이가족단위여행객들이사용하는데불편하지않도록정비및안내가필요하다. 3. 전략적용후예상결과 해양, 역사관련교육문화도시의이미지로높은관광매력도를키워나간다. 편의시설및체험프로그램의연계발전및홍보를통해가족단위여행의대표적상징을만들어나간다.

44 참고문헌 Problem Definition & Results 정광렬외 2, 지자체관광개발사업의문제점및대안, 한국문화관광연구원, 2010 이민재외 2, 지자체의관광자원브랜드자산이브랜드충성도에미치는영향에대한탐색적연구 : 지자체의관광자원브랜드를대상으로, 경희대학교, 2012 강인규, DEA 모형을활용한문화관광축제의효율성평가, 전남대학교, 2011 박진영외 1, 경주지역관광객의관광동기와재방문객유치를위한방안에관한연구, 대한관광경영학회, 2012 이영진외 1, 관광분야에서 SNS 빅데이터활용방법모색, 관광연구저널, 2014, 경희대학교 전효재, 스마트관광객과미래관광산업의육성, DIGIECO, 한국문화관광연구원 윤정헌, 가족관광객의관광동기, 관광지선택속성및관광만족의영향관계, 관광레저연구, 2010 Decision Tree & Regression 김성섭외 2, 의사결정나무분석방법을이용한방한일본인쇼핑관광객의상품구매활동연구, 대한관광경영학회, 2006 오영섭, 메디컬에스테틱관광과한류인식이관광이미지, 한국음식인식, 관광만족, 행동의도의영향관계, 한국조리학회지, 2010 Topic Modeling & SNA 박자현외 1, 토픽모델링을활용한국내문헌정보학연구동향분석, 정보관리학회지, 2013 David M.blei 외 2, Latent Dirichlet Allocation, Journal of Machine Learning Research 3, 2013 전희주외 1, 소셜네트워크분석을활용한생보사와손보사의대면 / 비대면채널의적합성비교, 한국데이터정보과학회지, 2014 전희주, 소셜네트워크분석을활용한통계학회논문집과응용통계연구공저자네트워크비교, 한국데이터정보과학회지, 2015 조완섭외 3, SNS 데이터분석을통한스마트충북관광구축, 충북대학교, 2015 - 참고도서 권정민, 빅데이터분석도구 R 프로그래밍, 에이콘출판, 2012 양병화, ' 다변량데이터분석법의이해 ', 커뮤니케이션북스, 2006 이종원, SAS 를이용한통계분석, 박영사, 2003 전치혁, ' 데이터마이닝기법과응용 ', 한나래아카데미, 2012 SAS, 'Enterprise Miner: 손쉽게따라하는 SAS 가이드 ', 자유아카데미, 2014 - 활용프로그램 : SAS Enterprise Guide 5.1, SAS Enterprise Miner 13.2,R programing, Java, Gephi 0.8.2, WEKA

Thank you! 45