빅데이터 비즈니스 전략 세미나 비정형 빅데이터의 가치와 서비스 활용 방안 2012.10.31 최광선 본부장 솔트룩스 전략사업본부
목차 비정형 빅데이터의 거버넌스 비정형 빅데이터 분석 사례 비정형 빅데이터 분석 방법 소셜 빅데이터 분석의 어려움 활용 서비스 소개 2
비정형 빅데이터의 거버넌스 3
데이터 IDC s Digital Universe Study, sponsored by EMC, June 2011; Booz & Company analysis 4
비정형 데이터 Text Documents Web Pages and Social Contents Media Formats : Audio, Video, Images Office Software Data Formats Dataversity, 2012 http://www.slideshare.net/dataversity/unstructured-data-and-the-enterprise 5
단 1분 동안에 6
Big Data 전 세계 이메일 계정 수 : 29억 개 1 분당 이메일 송신 수 : 1.68억 개 페이스 북 회원 수 : 7억 vs. 7백만 게시글 : 1분당 70만개 댓글 : 1분당 50만개 유튜브 업로드 : 1분당 35시간 분량, 600개의 동영상 페이스 북 이미지 업로드 수 : 1일 1억장 [http://en.wikipedia.org/wiki/unstructured_data] 7
비정형 데이터 Dataversity, 2012 http://www.slideshare.net/dataversity/unstructured-data-and-the-enterprise 8
비정형 데이터 Dataversity, 2012 http://www.slideshare.net/dataversity/unstructured-data-and-the-enterprise 9
비정형 데이터 Dataversity, 2012 http://www.slideshare.net/dataversity/unstructured-data-and-the-enterprise 10
데이터 거버넌스 http://www.dataversity.net/the-difference-between-data-governance-data-management/ 11
[IN2] TM 플랫폼은 시맨틱 검색/마이닝을 통해 비정형 빅데이터 거버넌스 제공 시맨틱 검색 엔진 [IN2]Discovery 2 [IN2]SSAMZIE 소셜서치 & 마이닝 엔진 [IN2]DOR 클라우드 지원 통합 검색 엔진 하이브리드 자동분류 엔진 [IN2]HBC [IN2]SearchBox 사내 검색 포털 (Appliance) 12
기존 시스템 수준 빅데이터 비즈니스 전략 세미나 [IN2]플랫폼의 빅데이터 지능화를 통한 올바른 의사 결정 지원 의사결정 미래에 대한 이해와 대응 방안 제시가 가능한가? 기존 지식을 통해 새로운 지식 생산이 가능한가? 세상이 어떻게 변화해 가고 무엇이 핵심인가? 정보간의 상관 관계와 전문가 찾을 방법은? Level 5 예측성 Level 4 분석성 [IN2]SSAMZIE [IN2]Discovery 2 연관 정보의 발견과 재활용 방안은? Level 3 발견성 숨겨진 정보를 정확히 검색하려면? 원하는 정보를 빠르게 찾는 방법은? Level 2 접근성 [IN2]SearchBox 빅데이터의 체계적 관리 방안은? 보관을 좀더 구조적으로 할 수 있을까? 문서 손실을 방지할 수 있을까? Level 1 관리성 Level 0 저장성 [IN2]HBC [IN2]DOR 13
비정형 빅데이터 분석 및 활용 사례 (소셜 빅데이터 중심) 14
소셜 빅데이터 분석 사례 15
소셜 빅데이터 분석 사례 16
소셜 빅데이터 분석 사례 17
소셜 빅데이터 분석 사례 18
소셜 빅데이터 분석 사례 19
소셜 빅데이터 분석 사례 20
소셜 빅데이터 분석 사례 21
소셜 빅데이터 분석 사례 22
비정형 정보 분석 방법 23
이야기! 언제 어디서 상황분석 시계열분석 타임라인 누구에게로 상황 네트워크 분석 경로 누구로부터 누가 이야기 어디를 통해(채널) 어떻게 언어분석 내용 크기 얼마나 많이 (양) 무엇에 대해서 왜 추이 / 동향 분석 얼마나 자주 (빈도) 청취 24
트위터 : 140자 속에 숨겨진 이야기 25
SNS 데이터의 종류별 특징 * 분석의 묘미 26
비정형 정보 분석 절차 콘텐츠 수집 콘텐츠 저장 메타데이터 추출 / 어노테이션 키워드 및 토픽 추출 콘텐츠 분류 크롤링 Open API 대용량 분산 저장소 데이터 모델 Wrapping Parsing NLP, ML 언어자원 텍소노미 ML (SVM) 콘텐츠 및 메타데이터 색인 분석 대상 데이터 선택 (검색 및 질의) 연역적 추론 / 귀납적 추론 네트워크 분석 / 트렌드 분석 개체 프로파일링 대용량 분산 색인 색인 모델 센싱 / 예측 연합 및 융합 랭킹 모델 시각화 / 사용자 상호작용 추론 모델 추론 규칙 분석 알고리즘 통계 모델 개체 프로파일 모델 프로파일링 알고리즘 센싱 / 예측 모델 센싱 / 예측 알고리즘 통계 모델 UX 모델 시각화 알고리즘 상호작용 알고리즘 27
비정형 정보 분석 예시 비정형 정보 내용 분석 (예시) [Saltlux] 28
비정형 정보 분석 예시 비정형 정보의 구조화 (예시) [Saltlux] 29
비정형 정보 분석 예시 정형 정보와 비정형 정보의 연결 (예시) [Saltlux] 30
소셜 빅데이터 분석의 어려움 31
소셜 빅데이터 분석의 어려움 (실험) 집중해 주세요! ^^ 32
비정형 빅데이터 분석 시 고려사항 33
분석 품질 관리 요소 분석 목적 선정 비정형 텍스트 빅데이터로 부터 분석할 수 있는 주제인가? 분석 대상 출처의 선정 분석 목적에 적합한 출처인가? 분석 대상 범위의 선정 분석 대상 데이터의 선정 분석 방법의 선정 분석하고자 하는 관심 대상은? 분석 대상에 대한 관련 데이터의 선택 기준은? 어떤 분석 기법을 사용할 것인가? 확보/ 공급 언어 자원 분석의 수행 자동화된 분석 품질의 유지와 향상을 위해 할일은? 분석 결과의 해석 분석 결과를 비즈니스에 어떻게 활용할 것인가? 34
분석 목적 선정 무엇을 관찰하고 싶은가? 예) 정치인에 대해서 사람들이 정치인에 대해 궁금해 하는 것? 유명한 정치인은? 각각의 채널(트위터, 블로그)에서 스타는 누구일까? 내가 좋아하는 정치인과 싫어하는 정치인의 비교? 정치인에 대해 주로 이야기하는 이슈는? 사람들이 어떻게 이야기하고 있는지? 제품과 브랜드의 경우는? 35
분석 대상 출처의 선정 어떤 미디어(여론의 출처)를 선택할 것인가? Push Media vs. Feedback Media 여론의 절대적 규모 여론의 신뢰도 여론의 분포 공적 미디어 vs. 사적 미디어 프라이버시 분석 대상 소셜 미디어 블로그 카페 트위터 미투데이 페이스북 카카오톡 라인 36
분석 대상(범위)의 선정 분석하고자 하는 대상(범위)의 선정 전체 인물 vs. 관심 인물 전체 제품 vs. 관심 제품 전체 사건 vs. 관심 사건 전체 기간 vs. 관심 기간 전체 지역 vs. 관심 지역 품질관리의 비용대비 효과를 고려 37
분석 대상 데이터 확보/공급 기업 내 데이터 인쇄물 텍스트 입력 (자동/수동 검수) 디지털 파일 텍스트 추출 외부 데이터 웹 수집(크롤링) 정보 구조 해석(Wrapping) 텍스트 추출 Open API (개방형 API) 정보 해석 텍스트 추출 데이터 공급 계약 정보 해석 텍스트 추출 38
분석 대상 데이터 확보/공급 39
분석 대상 데이터 확보/공급 품질확보를 위한 고려사항 분석대상을 모두 포함하는 가? 범위: 대상, 기간 분석 필요시점에 확보/공급이 가능한가? 적시성 : 분석된 결과가 적시에 제공되어 활용될 수 있는가? 분석이 가능한 형태로 제공되는가? 표준 텍스트 형태 일부 PDF의 경우 한글 추출이 불가능함 40
분석 대상 데이터 선택 검색 기술을 활용 분석 대상 데이터의 일관성과 공정성 확보 동일한 조건에서 분석 대상 데이터 선택 가비지 데이터 제거를 위한 조건식 부여 의원 OR 의원님 OR 후보 OR 한나라 OR 당선 OR 재선 OR 공약 OR 투표 OR 진보 OR 보수 OR 정부 OR 지지율 OR 당론 OR 시민 OR 친박 OR 친이 OR 보선 OR 재보선 OR 민주노동당 OR 야당 OR 여당 OR 비례대표 OR 지역구 OR 국회위원 OR 국회 OR 정치 OR 선거 OR 민심 OR 정당 OR 민주 OR 무소속 OR 자유선진당 OR 미래희망연대 OR 통합진보당 OR 창조한국당 OR 민주통합당 OR 한나라당 OR 새누리 가수, 자동차, 탑기어, 노래, 음악, 레이서, 쉐보레, 뮤지션 국회의원을 검색하기 위한 검색식의 예 (가수 김태원) 41
분석 방법의 선정 관심도 분석 소셜 미디어 상의 노출 시간 변화와 정보량 변동에 따른 정규화 대상 미디어 별 가중치 설정 긍정/부정 분석 (호감/비호감 분석) 연관 주제 42
분석 결과의 해석 지수화의 한계 매일 변화되는 모습, 즉 동적인 변화가 적음 사용자에게 흥미를 주기에는 어려움 스토리의 발견 지수의 트렌드 연관 주제 및 정보 분석가의 분석 관점과 목적 43
언어자원의 품질 텍스트 분석(검색과 마이닝) 형태소 분석, 특성추출, 자동 군집, 자동 분류, 자동 요약, 토픽 연관성 분석, 개체명 분석, 감성(평판) 분석 언어 자원 텍스트 분석의 품질의 핵심 기본 언어자원 말뭉치 (코퍼스, Corpus), 기계사전, 형태소 사전, 구문 분석 사전, 시소러스 사전, 대역어 사전 관리 대상 언어자원 이형태어 사전, 개체명 사전(인물, 사건, 지역 ), 감성어 사전, 감성 분류 규칙 44
언어자원의 품질 45
언어자원의 품질 46
언어자원의 품질 47
언어자원의 품질 언제 관리해야 하는가? 시스템 구축 시점 vs. 시스템 운영시점 누가 관리해야 하는가? 시스템 개발팀 vs. 분석 전문가 그룹 vs. 시스템 운영팀 얼마나 관리해야 하는가? 분석 목적과 대상을 고려하여 시기와 범위를 결정 어떻게 관리해야 하는가? 엔진 수준 vs. 관리 시스템 수준 vs. 사용자 시스템 수준 48
전통적인 분석 vs. 빅데이터 분석 전통적인 분석 Business : 질문이 무엇인지를 결정 IT : 질문에 맞도록 데이터를 구조화 함 예 : 월간 영업 보고, 수익성 분석, 고객 조자 빅데이터 분석 IT : 창의적 발견이 가능한 플랫폼을 제공 Business : 어떤 질문이 가능할 지 탐구하고 탐색함 예 : 브랜드 감성, 제품 전략, 최대 자산가치 활용, 위험 예방 Infotec 2012, Jeff Zakrzewski, Vice President Sogeti USA 49
비정형 정보 분석 아키텍처 빅데이터 분석 플랫폼 심층 분석 서비스 기대 효과 소셜 데이터 기업 데이터 금융 데이터 통신 데이터 안보 데이터 의료 데이터 생산 데이터 언어 자원 확보/ 공급 분석 서비스 응용 및 시각화 분석 워크플로우 시스템 분석 서비스 컴포넌트 트랜드, 분류, 군집, 사회망, 인물, 감성 분석 기술 인프라 자연어처리, 기계학습, 통계, 시맨틱/추론 데이터 수집/통합/관리 인프라 분산, 병렬처리 인프라 하둡, NoSQL(HBASE, mongodb, ) 클라우드 컴퓨팅 인프라 도메인 특화된 분석 모델 사회, 시장 트랜드 분석 고객, 시민 목소리 분석 제품, 서비스 평판 분석 경쟁자 모니터링, 분석 사업 리스크 감지, 분석 부정 사용자, 비리 감지 생산 시스템 모니터링 실시간 마케팅 최적화 경쟁 전략 최적화 동적 비용 최적화 신 사업, 정책 발굴 위험 조기 감지 사전 대응 생산 시스템 최적화 * 품질유지와 개선을 위해서는 지속적 관리가 필요함 [Saltlux] 50
11.05 11.07 11.09 11.11 12.01 빅데이터 비즈니스 전략 세미나 소셜 빅데이터 분석 인프라 수집/분석 클라우드 규모 : 약 500 CPU Cores, 1,800 GB Ram, 230TB HDD 수집 및 저장 클라우드 서버 약 80대 (7개의 랙 사용) 분석 클라우드 서버 약 30대 (3개의 랙 사용) 전체 약 110대 (가정용 PC의 약 200~300배 컴퓨팅 파워) 원시 소셜 데이터 : 총 3억 건, 약 1.7 TB (2012월 8월 현재) 수집 속도 : 200만 건 / 일 이상 수집 방식 : 하이브리드 방식 (웹수집 + 오픈API) 저장 구조 : 클라우드 (NoSQL + 분산파일시스템) + 데이터 3중화 남서울대학교 IDC 미디어 수집 건수 용량 뉴 스 1,931,536 27 GB 블로그 58,499,109 1,500 GB 트위터 197,301,148 160 GB 미투데이 42,321,834 30 GB 200,000 150,000 100,000 50,000 0 전체 뉴스 총 계 300,053,627 1,717 GB 51
활용 서비스 소개 52
지니어스(Ziny.us) 53
지니어스(Ziny.us) 보는 즐거움 모으는 즐거움 나누는 즐거움 54
스마트 큐레이션 직관 과 통찰 비용 과 생산성 논 리 감 성 대용량 처리 이 성 창 조 인간과 로봇의 협력을 통한 감성 소통 서비스 반복적 업무 스마트 큐레이션 55
스마트 큐레이션 아티클 출판 아티클 학습 관심 콘텐츠 제시 56
감사합니다. 최광선 / 솔트룩스 전략사업본부 kschoi@saltlux.com 57