NIA 빅 데이터 세미나 빅 데이터 개요 2012.02.21 솔트룩스 이경일
이 경 일 Tony LEE 주식회사 솔트룩스 대표이사 사장 KM/ECM 협의회, 회장 인하대 정보통신공학부, 겸임부교수 STI International, Board Member 컴퓨터지능소사이어티, 이사 ISO TC37, 전문위원 KICT, 초빙 연구위원 지경부 WBS 외, 기획/자문 위원 휴먼테크논문대상, 삼성전자(1995) 신SW상품대상, 지경부장관(95,03,10) 사회공헌대상, 벤처협회(1999) 대한민국SW대상, 대통령(2010) 대한민국 포장산업훈장, 대통령(2011) 2
빅 데이터 세상 Communicating Knowledge 3
웹 도대체 무슨 일이 있었지? 2000 2005 2010 2015 2020 더 웹 (The Web) 웹 2.0 (Social Web) 모바일 & 데이터의 웹 사물 웹? 정 보 사 람 빅 데이터 지 능 화? 검 색 소셜네트워크 분 석 예 측? 데이터 수집 세상의 이해 최 적 화 4
진정한 혁신 > 낭비 하도록 만들기 Social Media Smart Phone (matthew Komorwski, 2010) 1 1억 5
인류가 가진 데이터 1.8 ZETTA bytes 6
어떤 종류의 데이터가 있는가? King of Data : Linking Open Data 공개된 공공/학술 데이터 + 소셜 미디어 데이터 + 민간/기업 보유 데이터 + 비공개 정부 데이터 7
It s too Huge, Fast and Heterogeneous Big Data Issues (3V) to understand and utilize them. + 1V : Value 8
그런데 크기가 문제인가? YES, 하지만 크기 자체만의 문제는 아니다. VS. 파편화가 더 큰 문제이다. 9
해 아래 새로운 것은 없다. 너무 많고 파편화된 데이터 세상을 이해하기가 점점 힘들어짐 정보/서비스 버블 너무 많은 콘텐트/서비스 엄청난 생성/유통 속도 저품질의 콘텐트 난립 검색 접근성의 확보 관련성에 따라 콘텐트의 노출 순서를 조정 랭킹, 기계적 내용 분석 통제할 수 없는 콘텐트 소셜 버블 난립하는 소셜 서비스 소셜 과부하와 스트레스 정리되지 않는 파편들 3 Bubbles 소셜 큐레이션 인간+기계 관심과 가치부여 사람(전문가)에 의한 일관된 콘텐트 품질의 거버넌스 취합,군집,필터링,부가정보 열정, 전문성 기반한 품질 확보 필터 버블 알고리즘에 의한 획일화 개인화에 따른 단절 인간미 없는 서비스 협력 분석 서비스의 진화 새로운 가치 생태계 소비자가 곧 전문가(프로츄어), 사용자 중심의 서비스 혁명 사람과 기계(알고리즘)의 협력 상황기반 개인 맞춤형 서비스 10
매킨지가 빅 데이터 가치에 대해 말하기를 300조 원 빅 데이터를 활용한 미국 헬스케어 1년 잠재 매출, 스페인 1년 총 헬스케어 매출의 두 배에 해당 빅 데이터를 활용한 EU의 공공 부문 잠재 매출, 그리스 GDP보다 큰 규모로 발전 전망 380조 원 600조 원 모바일 사용자의 개인 위치 정보를 활용한 소비자 잉여 발생과 기업의 이익 상승 효과 빅 데이터 활용을 통해 유통, 소매 부문의 영업 마진 및 운영 이익 증대 기대 60 % 150만 명 미국 내에서 필요한 빅 데이터에 익숙한 관리자와 분석 전문가가, 새로운 고용 증대 요소 11
비정형 빅 데이터 분석 기술 Communicating Knowledge 12
비정형 빅 데이터 분석 플랫폼 빅 데이터 분석 플랫폼 심층 분석 서비스 기대 효과 분석 서비스 응용 및 시각화 소셜 데이터 분석 워크플로우 시스템 사회, 시장 트랜드 분석 실시간 마케팅 최적화 기업 데이터 분석 서비스 컴포넌트 트랜드, 분류, 군집, 사회망, 인물, 감성 고객, 시민 목소리 분석 경쟁 전략 최적화 금융 데이터 통신 데이터 분석 기술 인프라 자연어처리, 기계학습, 통계, 시맨틱/추론 제품, 서비스 평판 분석 경쟁자 모니터링, 분석 동적 비용 최적화 안보 데이터 데이터 수집/통합/관리 인프라 사업 리스크 감지, 분석 신 사업, 정책 발굴 의료 데이터 분산, 병렬처리 인프라 하둡, NoSQL(HBASE, mongodb, ) 부정 사용자, 비리 감지 위험 조기 감지 사전 대응 클라우드 컴퓨팅 인프라 13
비정형 빅 데이터 분석 기술 Semantics Visualization Statistics (R) Machine Learning Text Mining Cloud, NoSQL NLP IR (Search) Crawling 14
소셜 미디어 분석? 누가, 누구에게, 무엇을, 왜 말했는지, 그리고 어떻게 확대 되고, 어떤 영향을 주었는지? [Laswell] Studying about 사람 + 네트워크 + 메시지(콘텐트) 사람 네트워크 메시지 : identifying user, understanding preference, behavior, intention : understanding network structure, finding hub, maven, sub-network, path, life-cycle : understanding trends, hot issues, influences 15
소셜 미디어 분석 프로세스 이해하기 Crawling Data model Wrapping NLP, ML Taxonomy Open API Cloud tech Parsing Lang re-src ML(SVM..) Content Collection Content Archiving Meta-data Extraction/ Annotation Keyword & Topic Extraction Content Classification Idx model Federation Models Algorithm User Model Cloud tech Ranking Rules Statistics Algo/Stat. Content & Meta-data Indexing Searching & Querying (Selection) Induction & Deduction Network & Trend Analysis User Profiling (behav. prof.) S/F-Model UX Model Algo./Stat. Algorithm Sensing & Forecasting Visualization & Interaction It s so complicate and sophisticate process 16
when BigData met AI 17
빅 데이터가 인공지능(AI)을 만났을 때 Apple Siri (iphone 4S) IBM Watson (Jeopardy) Google Voice Translator 18
빅 데이터 기반 스마트 정부 구현 Communicating Knowledge 19
20
21
22
23
24
25
26
27
빅 데이터 분석 사례 Communicating Knowledge 28
빅 데이터 분석 응용 사례 실시간성 1s 금융, 통신 부정 사용 감지 모바일 서비스 개인화 1m 도시 관제, 재난 대응 의료, 헬스케어 서비스 1h 1d 소셜 미디어 분석 (트랜드, 감성, 이슈 분석 외) 고객, 시민 목소리 (VOC) 분석 국방, 보안 관제 / ediscovery 1w 공공 정책 발굴, 관리 기술, 학술 정보 분석 정형 반정형 비정형 비정형성 29
빅 데이터 분석 응용 사례 도시 관제 질병 예방 공공 데이터 범죄 예방 국방, 안보 국가 정책 최적화 의료 정책 분석 복지 서비스 금융 사고 방지 고객 목소리 분석 서비스 개인화 e-discovery 사업 전략 최적화 기업 위험 관리 사회 이슈 분석 마케팅 최적화 기업 데이터 기업 평판 분석 소셜 데이터 30
빅 데이터 5단계 사업 모델 2단계 3단계 4단계 5단계 1단계 31
통신 빅 데이터 : 개인화, 맞춤 추천 32
하이브리드 시맨틱 분석 기술 적용 33
스마트 시티 빅 데이터 : 매설물 관리 Sensor Monitoring Leakage Detection Discover Leakage Area Infer Leakage Pipe Link Automatic Alert Recom. Detour Path 34
스마트 시티 빅 데이터 : 교통 최적화 Milano City Sensor Map Data: Traffic Flow and Speed Prediction (Milano) Traffic data from Milano (Italy) Data ranging from Mar. 07 to July 09 5 min. sampling rate for flow & speed Traffic flow & speed from 209 sensors that are able to classify vehicles, and 757 non classifying sensors Weather data provided from http://www.ilmeteo.it 1 hour sampling rate for weather data Sensors Crossroads Street Categories (multi-colored) 35
국방/안보 빅 데이터 : 정보 분석 36 36
기업 빅 데이터 : e-discovery 37
학술 빅 데이터 : 전문가 추천 38
기술 빅 데이터 : 트랜드 센싱 39
고객 빅 데이터 : 고객 목소리 분석(VOC) 40
소셜 빅 데이터 : 트랜드, 평판 분석 41
소셜 빅 데이터 : 트랜드, 평판 분석 TrueStory.co.kr 42
미국 헬스케어 시장에서만 연 300조원의 빅 데이터 산업 성장 예상 43
맺 음 말 44