다양한데이터의통합분석을통한공공정책의사결정지원 Data to Actionable Insight 하도훈 / Data 사업본부
#1. 빅데이터예측분석
I. 예측분석 빅데이터 Platform 을통해데이터학습을하고, 예측분석을한다 데이터수집을통해학습을하고예측을한다 소프트뱅크로봇페퍼 - 고객이어느시간에방문해어떤행동을하는지는물론연령, 성별등을고려해고객에게최적화되도록맞춤대응 포스코광양제철소 IoT 적용공장 스마트제철소 - 공장곳곳에 IoT 센서설치, 데이터기반공정관리, 근로자건강관리 중국알리바바타오바오앱 - 사용자가원하는상품을이미지만으로정확하게찾아내는앱 아마존결제예측배송 - 고객이이전에어떤상품구매했고, 얼마나오랜시간봤는지분석
I. 예측분석 다양해지는시민 Needs 와특징을반영할수있는형태의 DB 를공공정보와결합 지역기반 DB Single Layer DB Multi Layers DB 미국 AC-Nielsen: Claritas PRIZM - GIS + Census + Segment Data - 패널리서치기관인 AC-Nielsen 의 DB 서비스 미국 ACORN - A Classification of Residential Neighborhoods: 미국을 22 만개영역, 43 개타입으로구분하여판매 미국 AT&T, ACXIOM - 3 억명에달하는개별고객프로파일정보판매 - 미국 CRM 및마케팅정보의표준으로사용됨 : ORACLE 등
I. 예측분석 빅데이터를통한 360 고객분석 ( 사례 ) 조직발견해석 미국국세청 Nokia / Microsoft 항공회사 사기로의심되는세금환급요청서가적발된다. 국세청조사담당자들은예측분석을활용하여사기로의심되는세금환급요청서의순위를매겨서, 사기로의심되는탈세를찾아내었다. 휴대폰위치를통해서미래의사용자위치를예측하는콘테스트주최. 한사람이통화하는사회적접촉대상자를분석, 스위스의특정지역에거주하는사람들에대해서평균적으로그들이어디있게될것인지를하루전에 20 미터범위내에서예측 / GPS 데이터에근거한사람이몇년후에어디에있게될것인지예측 채식주의자는비행기를놓치는경우가더적다. 기내식으로채식을예약주문한항공기승객들은예약된항공편을놓치지않고탈가능성이높다. 순위를매김으로써조사건수를늘리지않고도 25 배나많은탈세를찾아낼수있다. 생활패턴에의해위치정보의군집알고리즘에서나오는위치정보를기반으로미래어디에있게될것인지를예측하게된다. 맞춤식또는특정한음식이고객을기다리고있다는사실을인지하고있는것은동기를부여하거나책임감을느끼게한다. 휴렛팩커드 승진은퇴사로이어질수있다. HP 의한조직에서는승진이그에상응하는충분한급여상승을수반하지않을경우직원들의퇴사리스크를높이는것으로나타났다. 금전상으로보상이뒤따르지않는책임의증가는부담의증가로인식된다. Orbitz 여행사 MAC 사용자들은상대적으로더비싼호텔을예약한다. 애플의매킨토시컴퓨터를스는오비츠이용자들은호텔방을예약할때윈도우사용자들보다최대 30% 까지더많은돈을지출한다. 매킨토시컴퓨터는대체로윈도우용보다더비싸므로, 사용자의컴퓨터운영체제가어떤것인가에따라선택옵션을다르게제시한다. 자동차보험회사 신용등급이낮을수록자동차사고가많이난다. 만약당신의신용등급이다른사람들보다높다면자동차보험회사는당신의보험료를낮추어줄것이다.. 개인재무를책임감있게관리하는사람들은자기삶의다른측면들에대해서도동일한책임감을가지고관리하는성향이있다. * 출처 : Predictive Analytics (Eric Sigel)
#2. 데이터확보 Data as a Service SKT Big Data
II. SKT Big Data : Big data Hub / Geovision Real Data 기반 유동인구, 카드매출정보, 부동산정보및 GIS 정보 등이융합구성 SKT Bigdata Hub 제휴 Geovision Data
II. Life-Style Segment DB Life Style 구성 Target 지역특성별 DB 추출 활동 (A) 관심 (I) 의견 (O) 인구통계 일 가족 자신 나이 취미 가정 사회적쟁점 기업체 사회적활동 직업 정치 소득 휴가 공동체 사업 직업 오락 기분전환 경제 가족규모 사교활동 패션 교육 거주지 지역사회활동 음식 기술생산 지리 쇼핑 선호채널 미래 도시규모 스포츠 성취 문화 생활주기 AIO(Activities, Interests & Opinions) 법활용 Life Style척도 1 통신사정보 + 위치정보활용산정 2 통신사정보 + 위치정보활용유추 3 제휴사정보 + 공공정보활용유추 4 Social 정보 + Survey정보활용유추 1 2 3 4. 나이 : 통신기본정보수집활용. 거주지 : 위치정보활용특정장소에체류시간활용. 생활주기 : 시간대별이동위치분석패턴으로활용. 가족규모 : 23:00~06:00 시특정지역에함께위치하는집단으로유추. 직업 / 일 : 업무시간대거주하는위치정보로유추 ex) 상주지역 / 생산직종등. 스포츠 : 주말활동시간대위치하는정보활용 ex) 골프장 / 야구경기장 / 축구장 POI 활용. 휴가 : 휴가기간때이동위치파악이용빈도등계산 ex) 자동로밍횟수, 캠핑장위치정보활용. 쇼핑 / 패션 : 카드사이용내역및맴버쉽이용내용활용. 선호채널 : 모바일, 온라인, 오프라인내역활용. 음식 : 카드사용내역활용. 소득 : 부동산거래내역자료활용. Survey : 만족도, 목적등의의견조사정보활용. Social : 온라인상의주장, 긍부정, 사회적쟁점의견정보활용
II. Multi-Layered DB
II. 지역분석 DB [ 유형범례 ( 예 )] SKT 유동인구 강남사당여의도 20 대 (A), 저녁시간 (C), 주중 / 주말혼합 (C) 상권이며, 심야및주말, 또는 30~40 대남성중심상권혼재 30~40 대남성 (D), 심야 (A), 주말 (C) 상권이며, 법인고객 (B) 과, 주중 (B) 이핵심인상권혼재 법인 (B), 점심 (B), 주중 (B) 상권이며, 20 대 (A), 점심 / 저녁혼합 (D), 주말 (A) 상권혼재 A B C D 20대법인 30~40대 3040 남성 시간 A B C D 저녁 ~ 심야점심 > 저녁점심 < 저녁점심 = 저녁 요일 A B C 주말 주중 혼합 4*4*3 = 42 지역을총 42 가지유형 ( 색깔 ) 로나눔 20 대 심야 주말 3040 남성 점심 혼합 20 대 저녁 혼합 3040 남성 심야 주말 법인 심야 주말 법인 심야 주중 20 대 점심 / 저녁 주말 법인 점심 주중 * Geovision BP : GIS United
II. 지역분석사례 * 분석 : SK 텔레콤지오비전 * 분석 : SK 텔레콤지오비전
#3. 데이터활용 Business Cases
경험과직관에따른분석의한계 + 외부데이터 & Life Style / Social 분석 4 차산업혁명시대에발맞춰데이터기반과학적행정구현
내 / 외부원천정보 정형 / 비정형융합 DB 빅데이터분석 Data Hub 최종사용자 : 내부현업부서 최종사용자 : Mobile
세상에완벽한데이터는없기때문에 차선의데이터로최선의가치를도출 하는것 1+2=3 인과관계가아닌 A 와 B 를결합하여 C 의연관관계패턴 을찾는것
내국인유입인구분석 외국인로밍인구분석
인천시입장객통계 : 8 만 6000 명 SKT 인구집계 : 8 만 1358 명 SKT 통신인구의경우휴대폰미소지자는제외된수치임 뉴스발표자료 SKT 분석자료 날짜 방문자 _ 총합 20160812 17,930 20160813 34,043 20160814 29,385 총합 81,358
특정상품의 Target 밀집지역분류 판매잠재력기반영업지원 반경 100m 110B 버스노선전체평가 - 거주인구 : 68,997 명, 직장인 : 27,316 명, 대학생수 :6 개대학 94,929 명등산로포함비율 : 10% 버스정류장 / 노선별광고효과분석 노출효과가가장높은상위 10 대버스노선 20 대대상노출효과가높은상위 10 개노선 * Geovision BP : BIZ-GIS
자영업자상권유용성 ( 사고율기준 ) 분석 국내은행구축및활용사례 상권 1 등급 (SKT 분류 ) 내자영업자의사고율 : 전체평균의절반수준 S 은행 특화상권관리시스템 : 2013~2017 년지속적운영중 신용보증재단중앙회검증결과 : 모형의 AR값 0.1이상향상가능 sampling 기존모형 SKT 모형 1 0.626 0.758 중간생략 10 0.619 0.724 평균 0.626 0.739 자영업자영업지원 CRM, 기간계등연계
중신용계층의금융서비스불이익해소필요 Telco Score 용요약정보제공 자체확보정보 CB 사제공정보 신청 / 심사 1 SKT 제공정보 융합신용평가모형 Cut-off CSS 2 - 지역정보 승인 - 개인정보 ( 이자율 / 한도액 ) 연체관리 마케팅 / 세일즈 3 4
CCTV 설치조건정의 민원지역대상우선순위부여
마산종합운동장 창원종합운동장 진해육군대학부지 구분 주거인구 직장인구 15 Min 412,540 189,407 30 Min 605,786 179,799 45 Min 462,112 162,003 60 Min 853,513 324,505 구분 주거인구 직장인구 15 Min 60,538 15,030 30 Min 510,673 247,052 45 Min 619,986 150,912 60 Min 555,502 265,495 구분 주거인구 직장인구 15 Min 70,778 11,798 30 Min 209,766 121,730 45 Min 833,425 234,118 60 Min 438,624 227,880
소상공인 (24 시편의점등 ) 에너지절감 S_ARIMA Gravity Model
사용자수요예측 AI TAXI TAXI 수요예측정밀분석 유동인구와승차정보의연관성 이용고객의 OD 분석 NTT 도코모 : 택시, 사용자수요예측 MIT : 인공지능택시합승 택시풀 기대효과 AI 를이용한수요예측결과
#4. 데이터미래 Data Driven
시민참여형지도작성서비스 응급구조가능시간지도 : 붉은색이 10 분이상걸리는지역 보스턴시에서시가보유하고있는데이터공개, 목적별로다양한방식으로데이터조회가 능, 시민들이지도를작성 / 공유할수있는기능제공 공공정보를제공하는방식 : 정보공개및시민참여형서비스 시정부내각부서에서정보를제공하고, 해당지도를이용하여정책을홍보하고정보를제공하는형태로운영 : 대시민정책및정보제공채널 각업종의업소및소유자비율 : 색이짙은곳이 보스턴주민소유율이높은지역
- 휴대폰데이터사용량을시공간적으로분석, Real Time으로인구이동파악, 도시 / 상권관리 - 기후 / 기온의변화에따른에너지사용량의변화파악 : 온도상승시에너지제어 - 우천시기상정보, GPS 위치정보등을이용일반차량, 택시이용현황분석, 정보제공 - 축제 / 행사 / 도로통제또는교통사고등이벤트발생시교통상황분석, 우회로제공 실행
뉴욕의주택가격현황지도 美미네아폴리스, 경전철건설에따른토지이용변화추이 (5 년간 ) 변동이심한시기등사용자가기간을선택해해당지역의정보조회 퀸즈지역의주택가격증감률변화차트
4 차산업혁명, 함께찾는데이터활용아이디어고객분석을통한산업분야별 Success Story 발굴 출점전략 Target Marketing 지방세 - 지역별가구별소득부실화사전예측 부동산 - 경매, 재테크, 투자, 담보대출신용 창업 - 상권분석, 입지분석, 경쟁분석 소상공인 - 신용평가, 출점전략, 상권분석 판매 - 구매경향예측, 채널반응율증대 광고 - 광고효과성분석, 광고타겟지역분석 상수도 - 누수신고다발지역분석, 위험지역군집화 보험 - 사망연령분석, 사고위험도분석 지자체 - 축제분석, CCTV 입지분석, 관광객분석 구급차 - 골든타임확보를위한구급차배치운영최적화 국세청 - 사기방지, 세금환급, 규제위반 범죄 - 범죄발생지역분석, 범죄환경분석 재난 - 원전사고, 쓰나미등대피동선, 피해지역예측 에너지소비 인프라개발과전력수요예측 일자리 - 맞춤형일자리추천, 구직자미스매칭해소 입지분석고객분석상권분석
감사합니다.