Social Media와 Unstructured Data를 활용한 Text Analytics 사례 구방본 부장 SAS Korea
NYSE: 1 TB of new trade data per day Facebook: 20+ TB compressed per day. 10 billion photos ~ 2.5 PB of data and growth is accelerating!
Quiz
Big Data & Unstructured data Structured Data Semi-Structured Data Image/Multi Media Data Unstructured Data => Text Data in E-mail in Web in SNS in DB in Doc
Unstructured 데이터 분석? Unstructured Data Refined Information People 관심사항, 성향, 취향, 영향력, 위치, 연령대, 네트웍망 내 위치 HeonSh????: 사람 많지는 안았나요? RT @lh???: 하루 휴가라 우리 가족 롯데월 드를 다녀왔습니다. 삼바 리오 축제 엄청 좋았습니다. 삼성카드 자유이용권 50% 할인, 롯데카드 입장권 무료. 15,000원에 우리 식구 입... http://dw.am/l4qwi 수집 분류 Contents 관심 주제(브랜드, 서비 스, 상품, 품질, ), 긍/ 부정, 매체, 작성일 분석 (정성/정량) Relation 소속 그룹, 구성원, 그룹 성향, 관계 강도 Search KM, 검색
텍스트 분석 고도화 사례 A사의 TA 고도화 Text 분 석 수준 Precision 1단계-VOC + 고급 분석/ Global Lang 2단계-VOC - 대분류만 자동분류 3단계-VOC - Global Language - 대/중/소 자동 분류 - 리스크 스코어링 - Hot Issue Alert - 유의어 기반 분류 - 긍/부정어 사전 기반 - 현업 수작업 유도 - 세부 제품레벨 집계 2005 2008 2012 Time
Unstructured data 분석의 Pain Precision Insight Globalization
SAS Text Analytics Framework Business Analysis for Structured Data Business Analytics Data Mining Media Portal Data Quality Text Analysis for Unstructured Data Data Integration 30 Language Content Categorization Text Summarization Text Mining Sentiment Analysis Conversation Center Crawler Business Analysis for Social Network Social Network Analysis Media Workbench
Text Analytics Case Study Mobile, High-Tech Automobile Election
Mobile Hot Risk Issue Alert TA 마이닝 신상품 출시 후 품질 조기 경보 수많은 VOC 중 Hot Risk 도출 Top 20 Risk Alert 리스크 확산 방지 제품 및 회사에 대한 이미지 지속
Automobile Hot Issue/ 리콜 Alert XXX 자동차 사상 최대의 리콜 사태로 창사 이래 가장 큰 위기 직면 니혼게이자이신문, 2010 리콜사태 이전 기업 이미지가 100이었다면 리콜 후 50으로 떨어졌 다 세계일보, 2010 신차 출시 후 품질 모니터링 리스크 확산 조기 방지 리콜 이슈 조기 경보 품질 조기 경보 체제
Case. 선거 SNS분석을 통한 후보자 강/약점 분석
투표 2일전 당시 매스컴 및 타 분석 업체에서 온라인상 두 후보의 지지도가 박빙으로 가고 있다고 함 그러나 SAS의 분석결과는 확연하게 드러남
트위터 총량 비교 일평균 나: 17340건 박: 19230건 나경원 VVIP 피부과 논란 박근혜 나경원 지지 표명 단일 후보 확정 100분 토론 신지호 음주방송 논란 서울 시장 후보 등록, 재산 신고 KBS1 후보토론 박원순 병역 의혹 제기 MBC 100분 토론 공식 선거운동 시작 나경원 사학재단 이사 재임, 정치 후원금 의혹 나경원 가짜 트윗 논란 나경원 딸 편지 가짜 해명 박원순 학력 위조 의혹 제기 TV 토론 시작 박원순 천안함 발언 중앙선거관리위원회 SNS 가이드라인 발표; 나경원 2캐럿 다이아반지 재산 허위 신고, 부친 학교 회계장부 논란 안철수 박원순 지지 공식 선언
후보별 지지 트위터리안 추이분석 일평균 나: 1209명 박: 2377명
후보별 안티 트위터리안 추이분석 일평균 나: 818명 박: 411명
유권자 관심영역 호감도 분석
선거 - SNS분석을 통한 후보자 분석 동아일보 11.10.27
총선 공천 트위터 여론 분석 조선일보 12.3.13 구분 방법 해석 실제 현상 사안에 대한 긍정적인 글을 찾을래야 찾기 힘들 정도로 부정적 글이 많음 검색 기반의 텍스트 분석 S W SAS 문장의 문법과 의미 기반의 텍스트 분석 사람이 직접 육안으로 읽어 서 내용 파악 단어 기반으로 내용 파악 ( 민주당 과 좋다 가 등장 하면 민주당에 대한 긍정으 로 해석) 주어와 서술어 관계, 이중 부정 표현 등을 고려하여 내용 파악 부정적인 글이 훨씬 많네? 라는 느낌 긍정 46%, 부정 49% 로 판정 긍정 13%, 부정 87% 로 판정
Why SAS Text Analytics
솔루션 선정시 고려사항 텍스트 분류 정확도 - 자동 분류의 정확도 - 분류 체계 4 Level 이상 사용자 편의성 - 자연어 처리 룰 UI - 동의어 연관어 - 불용어 처리 84%, 92.5%, 84.5% Insight & 분석 고도화 - 세부 원인 분석 - 고급 분석 확장 타 부서로 확산 - 툴/패키지 형태 - 템플릿 공유
SAS Text Analytics in SAS Analytics SAS Text Analytics SAS Analytics Data Visualization Information Organization and Access Predictive Modeling, Discover Trends and Patterns Statistics Forecasting & Econometrics Data Mining Quality Improvement SAS Enterprise Content Categorization SAS Text Summarization SAS Sentiment Analysis SAS Text Miner Operations Research Text Analytics Model Management
텍스트 분석 엔진의 신뢰도 기존 SAS 문장예시 집 근처에 있는 대리점 판매 점원이 삼성전자 3D TV 를 보여 주면서 정말 자세히 설명을 해주더라구요~ 처음 본 3D TV라 그런지 정말 실감나고 신기했어요, 그런데 가격 은 착하지 않더라구요. 매칭 방법 단어 및 시멘틱 매칭 유의어, 긍/부정 사전 긍/부정 빈도수 언어 패턴 매칭(Linguistic) 주부 + 부사부 + 술부 문장 문맥 의미에 따른 분류 표현 논리구조 연산 결과 예시 기타로 분류(긍부정 빈도 유사) 자세한 분류 불가능 삼성전자, TV, 판매원, 가격 무엇이 긍부정 인지 분석 어려움 (단어 매칭의 한계) 삼성전자 대리점 접근 편의성 판매원에 대한 매우 만족 제품에 대한 만족 가격에 대한 불만
언어별 다양한 의미 표현을 정확하게 분류 Case: Case: 소나타 소나타 실내 실내 디자인 디자인 긍정의 긍정의 여러 여러 가지 가지 표현 표현 (영문) (영문) - - Sonata s Sonata s interior interior design design is is good good O O - - Sonata s Sonata s interior interior design design is is not not bad bad O O - - I like I like Sonata s Sonata s interior interior design design O O - - I don t I don t like like Sonata s Sonata s interior interior design design X X - - I don t I don t think think Sonata s Sonata s interior interior design design is is good good X X 위 Case의 표현 패턴에 대한 룰 Case: 한글 긍정의 여러 표현 - 실내 디자인이 좋다 O - 실내 디자인이 나쁘지 않다 O - 실내 디자인이 좋지 않다 X 만족 컨셉 부정어 컨셉 불만 컨셉 의견 컨셉
SAS TA엔진 분석결과 정확도는? 타사 사례
Language Support English German Spanish Italian French Portuguese Dutch Greek Swedish Finnish Norwegian Danish Russian Czech Slovak Polish Hungarian Romanian Turkish Arabic Farsi (in development) Hebrew Chinese Japanese Korean Thai Indonesian Vietnamese Bulgarian More languages under development No third party licensing.
Summary Copyright 2010, SAS Institute Inc. All rights reserved. 29
SAS Text Analytics Framework Data Source 데이터 통합 분석 영역 사용자 영역 Structured Data Analysis 1. Precision Business Analytics Data Mining 웹포탈/대시보드 Data Integration Unstructured Data Analysis Text Summarization Content Categorization Text Miner 2. 통합 분석(TA+마이닝) Sentiment Analysis 분석 보고서 Crawler (IR Studio) 예측/시뮬레이션 분석 30 Global Languages Support 3. Global Language Support Network Analysis Network Analysis
구방본 bang-bon.goo@sas.com 02-2191-7122 SAS Korea