검색, 신르네상스 Big Data 진흙속에서숨은진주찾기! 2012 / 10/ 10 와이즈넛혁신기획실 강용성상무
Agenda 01. Large scaled data? Big Data! 02. 전략적의사결정을위한프레임워크 03. CASE STUDY
01. Large scaled data? Big Data!
" 기기와 사람이 생성한 컴퓨터 시스템 로그 파일, 전자금융거래, 웹검색 스트림, 이메일 메타데이터, 검색엔진 쿼리, 검색, 소셜네트워킹 활동 등에서 수집되는페이스북) 엄청난 양의등에서 데이터의 폭증, 최근 온라인 소셜 미디어 (트위터, 정보를 지칭 엄청난 양의" 비정형 데이터 및 기업내 정형 데이터가 쌓이고 있다. [source: Lucas Mearian Computerworld] " 온라인 인터넷 이용 환경의로그데이터, 발전은, 데이터의 폭발적페이스북, 증가를 필연적으로 이끌고 있다. 검색의 트위터, 블로그, 기업내부자료, 현재 매월 콘텐츠가 미래예측을 페이스북상에서위한 유통되고 CRM 등 300억 각각의개의 범주에는 어떤있다. 유의미한 정보가 있을지 이렇게 폭증하는 데이터를 가리켜 빅 데이터(Big Data)라 명명하며.. " 예측할 수 없다. [Mckinsey Global Institute(MGI), 2010] "하나 기존의혹은 관리두개의 분석 체계로는 어려운 막대한Large 데이터를Scaled 가리켜 Data 분석은 범주를감당하기 대상으로 진행된 빅 데이터(big data) 라고 부른다 " 적시성과 신뢰성의 결여로, 올바른 의사결정을 할 수 없다 [삼성경제연구소, 정보홍수 속에서 금맥(金脈)찾기-빅 데이터 분석과 활용 보고서 中, 2010] 4
1.2 Large Scaled Data 정보를제공하는것보다도그정보가가지고있는의미, 그정보가가지고있는가능성을통해 당신에게만필요한가치 를제공하기위한정보간유기적인연계가이루어지지못함. Information Analysis Dogma 미래예측 추세분석 분석 1 분석 2 분석 3 계획수립 로그정보 페이스북 CRM 로그정보 CRM 페이스북
1.3 Big Data 빅데이터란다량의데이터 (Large scaled data) 를말하는것이아닌, 미래의예측또는의사결정에추천을제시하기위한실효성있는통계, 트랜드, 패턴을제공하는다양한디지털데이터의합. 정형 / 반정형 / 비정형데이타 재해석가능한데이터 모델링을통한예측, 추천 Volume 많은양의데이터 ( 몇십 TB ~ 수 PB) Pattern Variety 기존관리분석체계로는관리하기어려운데이터 BigData Trend 예측 / 추천 Velocity statistics 이메일, 검색쿼리, SNS 등에서수집되는정보
1.4 What is Big Data? WEB SNS Data 고객평판분석, 여론모니터링, 리스크관리시스템 Machine to Machine (Sensing Data) 위치기반서비스, 재난정보서비스, 시설물관리, 국방사업, 통신사업 기타 금융거래정보, CRM 등 차세대금융서비스
1.5 Big Data Insight 빅데이터활용분야 금융권 ( 은행 / 카드 / 보험 / 증권 ) 유통 / Retail 의료 / 제약 제조 * 고객평판관리, 고객세분화를통한맞춤형마케팅 * 마케팅효과측정 * 소비자의견활용 * 복잡다양한상황의상품대출관리 * 로그데이터모니터링 * 위치기반활용실시간마케팅전개, 시간 - 예약등 * 프로세스개선, 데이터실험분야 * 딜러버리현황, 공정품질관리 * 내외부규제관리 * 프로세스개선및공정및품질관리 * 평판관리, 소비자의의견활용, 공정품질관리등
1.6 Big Data 로서의 SNS 기업들은일반적으로 3 가지영역에서 Social Media 를활용하고, 이는기업의전략적의사결정에중요한역할을합니다. Social Media 활용영역 Customer Relationship 1 고객불만 / 위기관리도구 2 입소문및여론형성도구 Operational Excellence 3 기업내소통및협업도구 4 기업내 Social Media 가이드라인 Innovation! 5 혁신적마케팅수단 6 신사업개발, 사업모델혁신수단 주 ) Deloitte Consulting, Web Strategy (2009)
02. 전략적의사결정을위한프레임워크
2.1 관리적관점에서전략적관점으로 관리적관점에서의사결정 전략적관점에서의사결정 원가정보 지식컨텐츠통계 월간매출 SNS 동향 Internal Structured data Internal Unstructured data WEB SNS Data CRM 인사 회계 영업 G/W KM/ECM Community
2.2 미래예측을위한통찰 정형데이터 (15%) 비정형데이터 (85%) SAS SPSS 레볼류션 R Data Mining Text Mining 검색 마이닝분석 합리적의사결정 12
2.3 Big Data Framework 리포팅 리포팅 대쉬보드리포트차트 & 그래프 분석 분석 실시간분석 배치분석 저장 저장구조 NO SQL DB RDBMS 검색 index 데이터통합 수집 데이터수집 로그수집기 DB 수집기웹로봇 Open API. Internal Structured Internal data Data Internal Unstructured data Web SNS Data 데이터소스 CRM 인사 회계 영업 KM/ECM G/W Community
2.4 Big Data Service Architecture Marketing Intelligence Business Intelligence SNS 분석감성분석 CRM 분석로그분석 M2M 센싱 빅데이터처리아키텍처 리포팅 저장 분석 수집 SNS 정보 비정형 Data 정형 CRM 웹로그 시스템로그 센싱정보
2.5 비정형데이터의분석사례 조직간주제연관도 주제클라우드 부서 Map 팀 Map 경영지원부 (150) 전략기획실 (350) 연구소 (120) 대법원, 특허청, TEA 소프트웨어 지출품의서 인력채용 서비스사업부 텍스트마이닝 추석상여 Ontology SF-1 검색광고 Semantic 조직개편 시맨틱 온톨로지 TEA 경영설명회 인센티브 검색솔루션사업부 (200) 서비스사업부 (140) ID 사업부 (30) 리더회의 Search Framework 조직별문서생산추이 문서분포도 1000 전사 800 600 400 검색솔루션사업부전략기획실연구소서비스사업부경영지원부 ID사업부 영업정보 11% 결제 2% 용어사전 1% 인물 1% 프로젝트 12% 시스템별 게시판 50% 대리 18% 사원 9% 직급별 차장 46% 200 메일 10% 0 지식창고 13% 과장 27%
2.5 비정형데이터의분석사례 TEAM Search 7 Search Visualization Prototype
2.5 비정형데이터의분석사례 TEAM Search
2.5 비정형데이터의분석사례 TEAM Search
03. E-Commerce 에서 Big Data
3.1 쇼핑몰 / 상품추천 쇼핑사이트를이용한유저가상품을비교하거나, 구매한상품과다른상품과의관련성을분석해쇼핑사이트에방문한고객에게추천상품제공
3.2 상품추천아키텍처 쇼핑사이트 A 추천상품리스트 Item 1 Item 2 Item 3 CRM Purchase Shopping Cart Web Log 사용자정보, 상품정보, 구매이력정보, 장바구니, 클릭정보등 Item 4 Item 5 사용자정보, 상품정보, 구매이력정보 쇼핑분야모델링 분석 해당쇼핑몰의자체정보를기반으로상품추천제공 쇼핑몰분석결과
3.3. 빅데이터관점상품추천 쇼핑사이트 A 추천상품리스트 Item 1 Item 2 Item 3 CRM Purchase Shopping Cart Web Log 전체쇼핑몰분석을통한추천 Item 4 Item 5 쇼핑사이트 B Item 1 Item 2 Purchase Shopping Cart 쇼핑분야모델링 Web Log 분석 해당쇼핑몰분석결과 쇼핑분야모델링 CRM
04. SNS 분석과활용
4.1 Opinion Mining ( 자연언어처리를통한집단지성 / 감성의발견 ) 인터넷상에존재하는소셜기반문서는 Sentiment 가포함된복수개의단어로이루어진의미패턴으로평균 3.2 개존재, 이를언어처리기술및의미기술을적용한분석시스템으로자동분석 수집문서 Document A 액정이작지만선명해서 산에서도통화잘되는데, 데이터요금은싸지않죠 분석모델 Anycall 통화품질 Show 악세서리 액정이선명하다, Positive 통화품질이우수하다, Positive 데이터요금비싸다, Negative 요금제디자인 A/S 단순키워드매칭이아닌, 의미패턴을 sentiment 와함께분석
25 4.2 화제어분석 화제어분석을통하여분석대상에대한최신이슈, 소비자관심사, 매치업경쟁사등의 인터넷구전트렌드를신속하게확인가능 화제어분석채널 / 기간설정 선택한분석대상에대한기간내화제어순위분석결과 좌측에서선택한화제어의일별건수추이및연관어분석결과 화제어 란소비자들이브랜드, 제품, 서비스, 인물등에대해이야기할때함께언급하는다양한차원 ( 이슈, 기능, 특징, 경쟁사등 ) 의키워드로함께많이언급될수록분석대상과의연관도가높음
26 4.3 Risk Alert 미리설정한구전위기키워드가포함된인터넷문서수집시, 문자메시지 (SMS) 와전자우편알림으로온라인구전위기에신속하게대응가능 설정위기키워드 설정위기키워드포함문서수집현황 위기키워드설정및알람발송현황
27 4.4 트위터분석서비스 * 키워드분석 ; 200 만명의국내 ( 한글사용 ) 트위터이용자들의트윗을전수, 수집관심대상 ( 들 ) 에대해트위터상에서얼마나많이이야기되고재인용, 확산되고있는지를트래킹하여언급된트윗, 리트윗된트윗정보를기간별조회제공 기간별각아이템별로설정된관심키워드가언급된트윗수 각아이템별로설정된관심키워드가언급된트윗수의추이
28 4.5 키워드트윗현황리포트 트위터에서고객이모니터링하는각아이템 (ex. H 카드, S 카드등 ) 별설정키워드가언급된비율및트윗분석
29 4.6 연관어분석 관심대상 ( 들 ) 에대해서언급한트윗을분석하여관심대상에대해서많이언급되는연관어를추출하여분석, 연관어가포함된트윗정보를기간별조회제공
05. Case Study ( 해외 / 기타사례 )
5.1 美 LA 경찰, ` 범죄예측시스템 ` 도입 미국캘리포니아주산타크루즈경찰청은범죄를미리예측할수있는소프트웨어를공동개발, 실제업무에활용. 산타클라라대학교의수학자조지모셜이설계한이소프트웨어는범죄분야와범죄가일어날장소등예측. 모셜박사는지진예측방정식등을이용해절도범죄가일어날수있는지역및패턴등공식화. 그결과첫번째범죄현장의 600 피트 ( 약 0.2 km ) 범위내또다시범죄가발생할수있다는예측패턴발견 로스앤젤레스의범죄기록테스트결과, 이프로그램은범죄가일어날수있는구역을 25% 예측
5.2 미국신시내티동물원 방문객구매패턴추적으로새로운수익원창출 본동물원은정부보조금이줄면서수익모델을찾기위해 6 개월여에걸쳐입장객을대상으로조사 조사데이터분석결과, 관람객대부분이입장료외엔돈을쓰지않음. 유료입장정책폐기 식음료와상품판매를늘리는데집중. 아이스크림가게매출이가장더운한낮이아닌해질무렵에가장높다는걸알아내운영시간을두시간연장. 3 개월뒤투자대비수익률 (ROI) 100% 1 년뒤엔 400% 까지상승
결어 김춘수시인 (1922~2004)
감사합니다. 혁신기획실강용성상무 E-Mail: scott@wisenut.co.kr