새로운눈, 빅데이터 성균관대학교소프트웨어대학 김문현 ICT 산업전망컨퍼런스 2017, 2016.10.26 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 1
Big Data Volume, Velocity, Variety So What? PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 2
목차 기술적배경 산업별빅데이터활용사례 Big Data 10대핵심기술 성공적빅데이터기술도입을위한 5가지전략 결론 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 3
기술적배경 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 4
Data to Knowledge to Action by Tom Mitchell, CMU, Computing Community Consortium,2010 다양한데이터스트림 방대한데이터의저장및검색 연산능력과메모리용량의급진적증가 강력한기계학습과추론기능 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 5
NELL(Never Ending Language Learner) 프로젝트 Jan. 2010 ~ T. Mitchell, CMU 비구조화된웹페이지로부터구조화된정보를추출하는기계학습시스템 관계형데이터베이스형태의지식베이스자동구축 초기온톨로지카테고리 ( 인물, 스포츠팀, 감정, ) 관계 playsonteam(athlete, sportsteam), playsinstrument(musician, instrument) 5 억개의 web page 입력 새로운카테고리와관계추출 추출된카테고리 추출된관계 http://rtw.ml.cmu.edu/rtw/kbbrowser/pred:olympics http://rtw.ml.cmu.edu/rtw/kbbrowser/pred:athleteplaysforteam PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 6
Eugene Goostman 2014 년 6 월 7 일 Eugene Goostman, a 13-year-old Ukrainian boy PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 7
Prescriptive Analytics of Data Value chain of transformations Harvard Professor, Michael Porter PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 8
Prescriptive Analytics of Data 빅데이터의출현 수학, 기계학습, 비즈니스규칙, 통계분야에서계산, 과학적진보 기업의 89 % 는데이터분석전략이없는기업들은시장에서경쟁력을잃을것으로예상 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 9
Why Big Data and AI Need Each Other -- and You Need Them Both H.O. Maycotte, Forbes, 2014 2020 년 44 zettabytes, IDC McKinsey Global Institute: 2018 년부터인간데이터분석가들이부족함. That s where AI comes in. PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 10
산업별빅데이터활용사례 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 11
분야별빅데이터의가치 McKinsey Global Inst. PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 12
전자상거래 A 사 예측적분석 개인화추천 가격최적화 타켓마케팅 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 13
전자상거래 A 사의개인화추천 10%-30% 추가이익 추천알고리즘 고객의구매내력 browsing 내력친구의영향특정제품의트렌드제품의소셜미디어에서의호응유사구매내력을갖는고개의구매실적 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 14
전자상거래 A 사의동적가격최적화 평균적으로 25% 이익상승 10 분간격으로실시간가격책정웹사이트에서고객의활동제품의제고경쟁사의가격구매내력제품의기대마진 베스트셀링제품은많은할인, 대중적이지않은제품은많은마진 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 15
전자상거래 A 사의공급망최적화 CapGemini - 미국고객의 89% 는 on-time order 에문제가있으면타사로변경 제조사, 제고수요등의실시간추적에의해당일, 혹은다음날배송전략 고객과제조사의위치에최적인창고선택 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 16
전자상거래 A 사의예측전략 고객이제품을실제구매하기전예측하여제고확보 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 17
전자상거래 B 사 고객과판매사는 1-2 개의카테고리에서검색 사용자가효율적으로검색의범위를넓히거나, 집중할수있도록함. -> 온라인상에서의경험을최대화 고객행동, 트랜섹션, 고객데이터, 제품데이터제품의피드백, 검색데이터, 제품의 sentiment 분석 질의어의번역서비스 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 18
전자상거래 C 사 텍스트분석, 기계학습, 동의어마이닝등을통한최적의검색 의미에의한검색기능의추가 온라인고객의 10% 에서 15% 가추가로구매완료함 수조달러이익 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 19
파이낸스및보험 일관적인보상을위한투자결정 최상의보상을위한거래알고리즘 방대한누적데이터를활용한수학적모델 실시간뉴스, 소셜미디어, 주가데이터등의구조화혹은비구조화된 데이터등을반영한거래알고리즘 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 20
파이낸스및보험 보험 텍스트데이터분석에의해, 최고의이익을얻을수있음. 유럽의보험회사 : 사기성보험청구로연간 80 억 -120 억유로의손실 Accenture, 2013 Medicare 의사기방지시스템 : 청구자의패턴분석. 2 억달러절약 여러청구건에서유사한패턴검출 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 21
파이낸스및보험 상품, 절차에대한자동오피니언마이닝, sentiment 분석 (positive, negative, neutral) A 사 : 고객들의과거트랜섹션을분석하여, 115 개의변수를추출한후계약해지를예측하는모델개발 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 22
Health Care PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 23
Health Care 저렴하고작은센서들로부터환자의방대한데이터축적 데이터축적속도는의사들의데이터분석에의한의사결정능력을초월함. by Ghavami, Peter K., Ph.D., UNIVERSITY OF WASHINGTON PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 24
Health Care Merck-Medco Mail 로의료보험제공자에게의약품판매 Blue Cross: Tera byte data 분석 질병과약품간의은닉된관계파악 환자체질에따라효과적인약품추천 고객은 10-15% 처방비용절감 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 25
Health Care 예측진단모델 - 상담, sign, 증상 워싱턴 DC 응급부서 퇴원후환자선별적 care 재입원율최소화 IT A 사와 B 사협업 스마트폰, 워치사용자들의실시간활동, 생체데이터를분석가능하게하는플랫폼개발 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 26
Smart Grid PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 27
Smart Grid 미국 : 2010 에서 2015 년사이스마트 meter 500% 증가 65 백만대. Smarter sensors metering solutions energy management systems 12-22% 에너지사용절감가능 10 조에서수백조달러절감효과 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 28
Smart Grid 부하예측 지능형전력생산 증거기반의전력관리 센서네트워크, 개인별사용패턴 전력이저렴한시간대로업무분산 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 29
예측유지보수 (Predictive Maintenance ) 분석 SW 는실제고장이전에미리고장의패턴감지 예비부품준비할시간확보 가동중지의피해를최소화하도록생산계획수정 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 30
예측유지보수 투자대비 10배의보상 유지보수비용의 20-25% 감소 고장의 70-75% 감소 휴지기의 35-45% 감소 생산성 20-25% 증대 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 31
예측유지보수 A 사 예측차량유지보수 벤처회사에 1.8 억달러투자 차량의 DTC (diagnostic trouble codes), odometer, 차량속도, 엔진온도등의데이터로부터고장예측 데이터와고장간의관계를추론하는기계학습알고리즘 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 32
B 사 예측유지보수 각트럭에 1000 개의센서부착, 트럭위치, 속도, 고장횟수, 정지시간, 지속운행거리, 수리예측 엔진과부품의건전성측정 고장예측 수리사전계획, 수리시간단축 운송소요시간의최소화를위한수리센터예약 엔지니어는사전에문제점과수리방법파악 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 33
치안및국방 Los Angeles 와 Santa Cruz 경찰 500 제곱피트당사고발생지역예측소프트웨어사용. LA 지역의절도범죄발생률 33% 감소 강력범죄발생률 21% 감소 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 34
치안및국방 VIRAT (Video and Image Retrieval and Analysis Tool ):DARPA 방대한양의비디오를관심주제로쉽게검색할수있는데이터베이스구축 운영자에게경보발생 Single Person: Digging, loitering, throwing, exploding/burning, carrying, shooting, running, kicking, smoking Person-to-Person: Following, meeting, gathering, moving as a group, dispersing, exchanging objects, kicking, carrying an object together PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 35
VIRAT PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 36
Business 텍스트데이터분석 비즈니스의강력한도구 마케팅 : 고객의견, social media 분석, churn 분석, 마켓연구, 설문분석 비즈니스개발및운영 : 문서분류, 인적자원, 경력자유지 법규준수감시 : 사기검출, risk 분석, e- 발견, 보장분석 고객서비스 : 제품및서비스에대한의견분석, 품질개선, brand 및평판관리 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 37
Business 빅텍스트데이터 비구조화된단어기반의데이터 E-mail 과전화메시지 Email and phone messages Online 뉴스및블로그 news and blogs Social media 게시물 Call center 메모 설문조사및피드백문서 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 38
Business ROSS 인공지능변호사, 2016 년 5 월 의뢰사건과유사한수십년간의과거사건검색, 인간변호사에게 제공 변호필요시 80% 는변호사도움받지못함 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 39
Business Telephone company 오후 3 시에서 6 시사이에긴통화가많은가구 청소년이주된모바일폰고객 오전 9 시에서오후 5 사이에과도한전화사용 고객에게 저가의업무용통화서비스 제안전화선및기능추가제안 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 40
Business Fast food Drive-through 차선에카메라설치하여학습후디지털메뉴판에표시할음식결정 차선이길면, 신속요리되는음식아니면, 요리시간이길며수익성이높은음식 Voice mining 데이터마이닝과언어기술을사용한음성분석기술로, 고객이계좌를폐쇄할확률산출. 각음성통화에서감정, 통화길이, 스트레스등의특징사용 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 41
Image Mining UBS Investment Research : 주차장의위성사진분석, 주차장의혼잡도측정 차분기수익예측, Walmart 위성사진분석, 옥수수생산량예측 2010 년러시아의밀농사가흉작임을경고 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 42
스포츠 신경망의감독학습방식으로축구선수의기량평가 호주축구리그의선수 draft 에활용 U18 선수기량평가. scouter 도움. John McCullagh Faculty of Education, La Trobe University, Australia International Journal of Sports Science and Engineering Vol. 04 (2010) PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 43
스포츠 선수등급 등급수준 8 Elite AFL player 7 Very good AFL player 6 Good AFL player 5 Plays a majority of games in the seniors ( 80%) and is regarded in the top 22 in the team 4 Just outside of the top 22 in the team. Plays < 80% of games in the seniors 3 Plays a majority of games in the reserves. Not thought of as a regular senior AFL player at this stage 2 Unlikely to become a regular AFL player. Minimal or no AFL games 1 Drafted but no impact 0 Not drafted PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW
스포츠 학습데이터 선수 398 명 선수별 58 개의속성 body composition, flexibility, anaerobic and aerobic power, visual tests, TAIS (Test of Attentional and Interpersonal style), psycho-motor tests, skill assessments and subjective assessments on strengths, weaknesses and personal attributes. PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW
Baseball Data Mining 통계데이터와지구우승간의관계추론 2010, 2011 정규시즌데이터사용 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 46
Baseball Data Mining 타자통계 Name Description AB R H 2B 3B HR RBI SB CS BB SO SF HBP At Bats Runs Hits Doubles Triples Home Runs Runs Batted In Stolen Bases Caught Stealing Base on Balls Strikeouts Sacrifice Flies Hit by pitch PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW
Baseball Data Mining 투수통계 Name Description W L H BFP R HR WP IPOUTS SHO BB SO ER HBP Wins Losses Hits Allowed Batters Faced Runs Allowed Home Runs Allowed Wild Pitches Outs Pitched Shutouts Base on Balls Strikeouts Earned Runs Batters Hit by Pitch PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW
Baseball Data Mining PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 49
경기승부예측 100Yards.com : football BetSmart : football MLB Predictor : baseball XTREME F1: F1 CricWeb.com : Cricket PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 50
Entertainment 2011, Netflix 1 억불의투자결정, House of Cards 데이터분석 영국판 House of Cards 는큰성공 David Fincher 감독의 The Social Network 관객동원에성공 영국판 House of Cards 의관객은 Kevin Spacey 출연영화와 David Fincher 감독의영화를선호함 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 51
Entertainment Ram Leera 영화의성공확률 73% 로예측 상영도시결정, Social 데이터분석 Barfi, Ek Tha Tiger 영화의 Social 데이터분석 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 52
교통 도로정체 유럽의 GDP 의 1 퍼센트손실 이스라엘 : Tel Aviv 와 Ben Guiron 공항간의 13-mile 고속도로 도로상의통행량에따른통행료징수 도로상의자동차수, 차량간의평균거리등을측정 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 53
교통 각비행기에적합한항로배정 미국 : 공항에서의비행기지연은 6 조달러경제적인손실 공항에서의거리, 속도, 각비행기의기능에기반한최단항로계산 Queuing 방식대신, 각자곡선항로를따라공항에신속히진입 Brasília International Airport 에최초도입 착륙비행기당평균 7.5분단축, 77 gallon 절약 향후 10대공항에추가도입예정 북미공항에적용할경우, 16-59 % 수용능력증가예측 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 54
Big data 핵심기술 Which technologies are most in demand and promise the most growth potential? Maturity and trajectory of 22 technologies across the entire data life cycle Forbes, March, 2016 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 55
핵심기술의라이프사이클 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 56
10 대빅데이터기술 Predictive analytics: 비즈니스능률향상과 risk 감소의목적으로, 빅데이터를분석하여 예측모델을발견, 평가, 최적화, 사용하기위한소프트웨어및하드 웨어 solution. PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 57
10 대빅데이터기술 NoSQL databases: key-value, document, graph databases Search and knowledge discovery: 파일시스템, 데이터베이스, 스트림, API 등의다중소스에저장된구조화, 비구조화데이터들로부터정보의추출, 혹은새로운사실의발견을위한도구및기술 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 58
10 대빅데이터기술 Stream analytics: 다중의이질적인실시간데이터들의필터링, 취합, 분석을위한소프트웨어. In-memory data fabric: DRAM, Flash, SSD 등에데이터를분산하여대량의데이터를 처리하고 low-latency 접근기술 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 59
10 대빅데이터기술 Distributed file stores: 중복성과성능을위해데이터를다수의노드에저장하는컴퓨터네트워크 Data virtualization: Hadoop 과같은빅데이터소스로부터정보를실시간으로전달 하는기술 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 60
10 대빅데이터기술 Data integration Amazon Elastic MapReduce (EMR), Apache Hive, Apache Pig, Apache Spark, MapReduce, Couchbase, Hadoop, and MongoDB 등의 solution 등의데이터를통합하기위한도구 Data preparation Data quality PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 61
10 대빅데이터기술 Predictive analytics 유일한기술 다음시기까지 >10 years 오랜기간동안성장기에머무름으로써비즈니스의고부가가치 를보장하는기술 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 62
성공적빅데이터기술도입을위한 5 가지전략 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 63
1. Get support from the corporate culture. 기업의상위층을설득하라. 기존의분석에의한레포트를포함하되, 더많은수식과더많은 체크포인트, 더많은데이터를사용한빅데이터분석레포트를 작성하라. PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 64
2. Start at the top, work the bottom, and meet in the middle 실무층을이해하기위해기존사용되는레포트를분석하라. 상위경영층과파일작업자가동시에사용하는분야의레포트를 작성하여, 기업이슈의중간지점에서논의할수있도록하고, 즉시 도움이될수있는분석을찾아라 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 65
3. Confirm and handle the truth 레포트는가끔씩회사의문제점, 절차상의문제, 문제부서를 드러냄 가장큰도전은새로운빅데이터분석레포트가이상의문제점을 지적할때. PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 66
4. Start by thinking of the answer or outcome 답이나결과물을먼저생각하는것이최상이다. 데이터량, 데이터유형, 비교 point, 분석수식등의결과물을먼저 생각함으로써, 분석이시작되기전에가정과장점들이먼저논의 될수있다. 문제의전문가와비즈니스절차를이해하는비즈니스영역의 전문가와협의하라. PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 67
5. Build an analytics narrative 결과물을파이차트, 막대그래프, 그래픽으로표현하여, 빅데이터 분석과정을명확하게설명하라. 분석의가치, 데이터의가치, 분석의의미쉽게이해 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 68
결론 Global 경쟁가능한 SW 기술 창의성 : 도메인고유의응용기술 다양성 : 데이터, 적용기술 정확성 : 전통적 sw 와의차별성 PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 69
Big Data = Big Chance PROF. MOON-HYUN KIM, SKKU, AILAB, COLLEGE OF SW 70