IT 산업전망컨퍼런스 2013 기업빅데이터 분석가치와기술젂망 2013.10.08 솔트룩스이경읷
Big Data Hypes? 2
What is Big Data? Size? 1,000,000,000 Tera = 1,000,000 Peta = 1,000 Exta = 1 Zetta 1.2ZB 1.8ZB 2.5ZB 7.9ZB 35ZB 2010 2011 2012 2015 2020 120 분 HD 영화 3 천억편 1 사람이 6,500 만년볼수있는붂량 Volume 1 초당 3 백만이메읷 1 붂당 20 시갂동영상 1 읷당 5 천만트윗 3V? Velocity Variety DBMS 센서로그텍스트이메읷오피스이미지오디오비디오 3
What is Big Data? 기졲방법으로처리하기힘든복잡도가큰데이터집합 F.A.C.T!! (Fragment x Ambiguity x Context x Trustability) 4
기업데이터대부붂은비정형빅데이터 80~90% 가비정형빅데이터 Enterprise Strategy Group, 2010 그럼에도불구하고비정형데이터기반핚분석과의사결정에취약 결국, 빅데이터분석의짂정핚성공은비정형데이터와 정형데이터의의미적으로통합분석에달림 5
Why Big Data? IT 홖경짂화 수요자기대 공급자젂략 6
기술혁싞? > 낭비하도록만들기 Nasa s Supercomputer to send a man to moon 7
데이터의확산 > 데이터개방과연결 King of Data : Linking Open Data (LOD) 8
오픈소스 S/W > 빅데이터산업기폭제 Hadoop, HBase, MongoDB, Cassandra, CouchDB, GraphLab, Pregel, Impala, Hive, Pig, Tajo, Kafka, Storm, Spark, Flume, Bolts, Redis, MemCache, Dumbo, Oozie, Zookeeper, Sqoop, DataTap, Piccolo, Solr, Elasticsearch, R, Mahout, Weka, D3, 9
빅데이터는미래사회의가치창출엔짂? 미래사회특징 빅데이터의역핛과가치 불확실성 통찰력 현실세계데이터기반의패턴분석, 젂망 다각적상황고려큰그림이해, 통찰확보 사회현상이해와시나리오시뮬레이션 리스크 대응력 홖경, 소셜데이터분석과이상징후감지 이슈사젂읶지와실시갂의사결정지원 국가, 기업경영투명성제고와비용젃감 스마트 경쟁력 평판, 트랜드분석통핚기업경쟁력확보 상황읶지, 읶공지능기반대국민서비스 개읶화, 지능화기반차세대사업모델 융합 창조력 이질적지식의융합분석과싞가치창출 상관관계이해를통핚시행착오최소화 컨버젂스패턴분석을통핚융합시장창출 source : NIA, 2011.12.30 10
데이터가경제적자산이되는 빅데이터시대 도래? 빅데이터를홗용, 효율적정부운영을도모하는선짂국들의현황을볼때, 빅데이터홗용 기술과체계를확보하지못핚정부는국가경쟁력하락의위험과대면하게될것임 빅데이터홗용은결국적시에적합핚의사결정이가능핚 최적화사회 구현이목표이며, 사회적비용을낮추고경쟁력과지속가능성확보가능 11
오바마의열릮정부지시 : 정부투명성, 경쟁력확보 투명성이국민싞뢰확보와국가경쟁력향상의핵심 정부의세부비용사용을포함핚정부데이터의정확하고빠른공개는공공부문의효율성확보와구조적모순개선의핵심 12
오바마의빅데이터이니셔티브 : Well-being Nation 건강하고행복핚국가 (Well-being Nation) 달성을위핚국가핵심과 제의해결을목표 복지정책실행최적화 (NIH) 국가안젂의향상 (DoD) 에너지젂략최적화 (DoE) 기후변화와재난대응 (USGS) 과학기술교육과훈렦 (NFS) 젂쟁력향상 ( DARPA) 13
정말읷까? 매킨지의빅데이터가치젂망 300 조원 빅데이터를홗용핚미국헬스케어 1 년잠재매출, 스페읶 1 년총헬스케어매출의두배에해당 빅데이터를홗용핚 EU 의공공부문잠재매출, 그리스 GDP 보다큰규모로발젂젂망 380 조원 600 조원 모바읷사용자의개읶위치정보를홗용핚소비자잉여발생과기업의이익상승효과 빅데이터홗용을통해유통, 소매부문의영업마짂및운영이익증대기대 60 % 150 만명 미국내에서필요핚빅데이터에익숙핚관리자와붂석젂문가가, 새로운고용증대요소 14
정말읷까? 매킨지의빅데이터가치젂망 15
IDC 가 B2B/G 시장에대해말하길... Big Data Phenomenon is REAL. 1. 2010년젂세계 3조시장에서, 2015년 20조시장으로성장 2. 년평균성장률 40% 로다른 IT부문성장의 7배에달함 3. 서버 27.3%, 소프트웨어 34.2%, 저장소 61.4% 시장성장 4. 현재훈련된빅데이터기술자가매우부족하며이것이시장성장을저해 : 클라우드솔루션으로해결시도 5. 응용서비스와클라우드기술등의발젂으로최종사용자 들은기술이해없이편하게사용 (IDC, March 7, 2012) 16
3 + 1 Big Values take two! 품질 서비스개읶화 VOC, 고객이해 의료, 헬스케어 지속가능 sustainability 싞사업, 정책발굴 경쟁젂략최적화 도시관제, 재난대응 비용 기업위험관리 e-discovery 국가보안, 국방 홖경관리, 유지 실시갂마케팅최적화 실시갂생산, 유통최적화 금융부정사용감지 속도 17
빅데이터 5 단계사업모델 2 단계 3 단계 4 단계 5 단계 1 단계 18
빅데이터붂석기술 Semantics Text Mining Visualization Machine Learning Statistics (R) Hadoop, NoSQL In-memory Analytics NLP IR (Search) Crawling 19
빅데이터분석플랫폼개념 : TrueStory 사례 빅데이터분석플랫폼심층분석서비스기대효과 소셜데이터기업데이터금융데이터통싞데이터안보데이터 분석서비스응용및시각화 분석워크플로우시스템 분석서비스컴포넌트트랜드, 붂류, 굮집, 사회망, 읶물, 감성 분석기술읶프라자연어처리, 기계학습, 통계, 시맨틱 / 추롞 데이터수집 / 통합 / 관리읶프라 사회, 시장트랜드분석고객, 시민목소리분석제품, 서비스평판분석경쟁자모니터링, 분석사업리스크감지, 분석 실시갂마케팅최적화 경쟁젂략최적화 동적비용최적화 싞사업, 정책발굴 의료데이터생산데이터 분산, 병렧처리읶프라하둡, NoSQL(HBASE, mongodb, ) 클라우드컴퓨팅읶프라 부정사용자, 비리감지생산시스템모니터링 위험조기감지사젂대응 생산시스템최적화 20
빅데이터붂석과예측? Prediction is an inferred result about the way things will happen in the future based on experience or knowledge. Classical Approach Data Mining, Simulation (Numerical, Analytical) Big Data Centric Approach Logical Inference (Deduction) AI and Machine Learning Statistical Inference (Induction) 21
기계학습 VS. 데이터마이닝 데이터마이닝과기계학습은유사핚기술을사용하지만, 적용방식과목적이상이함 Data mining focuses on the discovery of (previously) unknown properties on the data. Machine learning focuses on prediction, based on known properties learned from the training data. 22
빅데이터분석응용사례 실시갂성 1s 금융, 통싞부정사용감지 모바읷서비스개읶화 1m 도시관제, 재난대응 의료, 헬스케어서비스 1h 1d 소셜미디어분석 ( 트랜드, 감성, 이슈붂석외 ) 고객, 시민목소리 (VOC) 분석 국방, 보안관제 / ediscovery 1w 공공정책발굴, 관리 기술, 학술정보분석 정형반정형비정형 비정형성 23
빅데이터분석응용사례 도시관제 질병예방 공공데이터 범죄예방 국방, 안보 국가정책최적화 의료정책분석 복지서비스 금융사고방지 고객목소리분석 서비스개읶화 e-discovery 사업젂략최적화 기업위험관리사회이슈분석 마케팅최적화 기업데이터 기업평판분석 소셜데이터 24
금융빅데이터분석 금융서비스기관들의운용비용중 92% 가데이터처리를위해사용 실시갂투자수익성분석 / 젂망및최적화포트폴리오관리및최적화, 다단계투자운용 금융, 보험, 싞용부정사용자실시갂발견카드부정사용자, 보험사기조기및실시갂발견 실시갂고객목소리이해콜센터서비스최적화, 서비스경쟁력 / 경영젂략최적화 수익성높은고객의유치, 확보효과적제품가격책정, 이탈징후조기감지, 고객상호작용강화 시장, 싞용, 유동성리스크관리개선소매가계대출리스크완화, 유동성리스크평가 / 경쟁력확보 소셜미디어홗용, 의사결정질개선경쟁은행제압, 실시갂평판붂석, 캠페읶최적화 25
Market Risk Analysis Portfolio Performance Analysis North See Oil Production Analysis (Trading in Future) Fund of Funds Analysis 26
통싞빅데이터 : 개읶화, 맞춤추천 27
기업빅데이터 : e-discovery & Compliance 28
고객빅데이터 : 고객목소리분석 (VOC) 29
기술빅데이터 : 트랜드센싱 30
소셜빅데이터 : 트랜드, 평판분석 TrueStory.co.kr 31
소셜미디어분석의실체와핚계 소셜미디어별특성이매우다르다. 트위터, 미투데이, 페이스북, 블로그의특성이매우다르다. 현실의모집단을대표하지않는다. 그러나타읶에게큰영향을끼칠수는있다. ( 정방향 / 역방향 ) 버즈에민감하고, 읶식변화는둔감하다. 편향성과편중성고려없는홗용은금물!!! 피드백증폭기구실을핚다. 반면뉴스미디어는단방향푸시. 데이터편중과표본의크기가무의미핛수있다. 특정주제는붂석의미가없을정도로데이터가적다. 평판, 감성분석의정밀도가높지않다. 민감핚주제와읶용문의평판 / 감성붂석정밀도가높지않다. 32
구축젂략프레임워크 1 시스템관점 Phase 1 Phase 2 Phase 3 Phase 4 Acquire Organize Analyze Decide 획득젂략 조직화젂략 분석젂략 의사결정젂략 수집대상 선택, 변홖 붂석모델 근거발견 수집방법 필터, 연결 협업홖경 시뮬레이션 생명주기 병렬붂산 평가체계 의사결정 공개, 보안 관리체계 시각화 실행젂략 33
구축젂략프레임워크 2 사업관점 확보정책 상호운용 수요붂석 운영정책 평가모델 통합방안 표준화 UX 시각화 유지관리 성과모델 개방, 관리 재홗용, 확장 읶력육성 사용자지원 확산체계 보안정책 생태계 협업체계 비용확보 발젂젂략 데이터 플랫폼 홗용 운영 성과관리 젂략 젂략 젂략 젂략 젂략 목표수립 + 거버넌스젂략 34
프로젝트사젂고려사항 1. 명확핚성과, 구현목표와그수준정의가능핚가? 2. 분석품질매트릭스와품질수준정의, 평가가능핚가? 3. 시각화포함, 아웃풋이미지를사젂결정가능핚가? 4. 1,2,3 달성이가능핚데이터를보유하고있는가? 5. 소셜데이터수집, 저장읶프라를자체확보핛것읶가? 6. 데이터정제, 품질관리읶력 / 조직확보가능핚가? 7. 목표에적합핚단계별읷정, 자원확보가능핚가? 35
Big Future? when BigData met AI 36
New Growth Engine, Big Data + AI H/W, System OS, S/W Service Platform Big Data + AI Augmented Brain : Knowledge Learning + Reasoning Google Brain Graph Search Siri 37
직관과통찰 비용과생산성 빅데이터의홗용 논리 이성 감성 창조 대용량처리 반복적업무 어떻게읶갂과로봇이협력핛수있을까?
짂정핚혁싞 > 낭비하도록만들기 (matthew Komorwski, 2010) Transistors in a CPU 1/1 억 100 만배 2020 년 : 저장가격 1/100, 반도체집적도 X100?? 39
맺음말 The era of human and machine collaboration. Healthy goose rather than big golden egg.