빅데이터이해와활용사례 2015.09 조완섭충북대학교경영정보학과대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3258 010-2487-3691 June 2011
충북대학교빅데이터소개 2012.03 2013.09 2015.05 비즈니스데이터융합학과설립미래부빅데이터석사과정사업 (4 개학과, 교수 7, 석박사 50 여명 ) - 청주시교통빅데이터분석사업 ( 청주시청 ) - 제조빅데이터사업 ( 산자부 ) - 다양한 SNS 분석활용사업 ( 충북도청등 ) 빅데이터생활형서비스센터설립 ( 미래부대학 IT 연구센터사업 ) 한국빅데이터서비스학회 ( 학술대회 10 여회 ) 2015-09-10 2
충북대학교빅데이터소개 조완섭 (wscho@chungbuk.ac.kr) 2015-09-10 3
목차 개요 빅데이터활용 데이터과학자 빅데이터기술 오픈소스플랫폼 국내동향 결론 빅데이터버거넌스 2015-09-10
개요 빅데이터시대의도래 전세계데이터는매년 40% 증가 세계는 2010 년 zettabyte 시대에돌입 1 Zettabyte : 美의회도서관정보 (235TB, 11/4 기준 ) 의 4 백만배, 16GB ipad 로축구장넓이로쌓아도대기권높이두배 Global information created and available storage (Exabytes) 빅데이터활용으로년간 미국의료분야에서 $3,300 억가치생산 유럽공공분야에서 2,500 억절감효과 Information Created Available Storage 2018 년까지미국에서만년간 Source: IDC (2011) 분석전문가 14~19 만명, 데이터기반관리자 150 만명추가수요 ( 출처 ) McKinsey (2011,05), Big Data: The next frontier for innovation, competition, and productivity 2015-09-10 5
빅데이터란? 개요 기존컴퓨팅기술로는저장, 관리, 분석이불가능할정도로큰데이터집합과관련기술, 인력등을포괄하는의미 IT 기술에서출발했으나사회, 문화, 정치등삶전체의이슈, 혁신패러다임으로부각 (Economist, Gartner, McKinsey, NYT) 빅데이터의특징 : 3Vs 시대에따라다른기준 2015-09-10 6
개요 빅데이터는생성원천은? 생체정보 비즈니스데이터 Tesco : 매달 15 억건이상의고객관련데이터를수집 Social Data 동영상 YouTube, CC 카메라의료장비등 사물인터넷 (IoT) / M2M 2014 년 500 억개무선단말기 (Ericsson) 2015-09-10 7
빅데이터효과 빅데이터 - 효과와전망 인류가직면한의료, 환경, 식량, 에너지등의분야에서해결방안제시 2015-09-10 8
빅데이터 - 효과와전망 빅데이터의효과 - 산업분야별경제적효과 스페인의료비의 2 배 그리스 GDP 규모 2015-09-10 9
빅데이터시장 빅데이터글로벌시장전망 세부분야별시장전망 2015-09-10 10
빅데이터 - 활용사례 KBS 보도자료 빅데이터, 세상을바꾸다 http://news.kbs.co.kr/economic/2012/02/01/2428163.html 관련동영상 병원미숙아실의각종의료장비에서생성되는스트림빅데이터 초당 10,000 건의데이터발생 실시간통합, 분석을통하여응급상황조기예측 (2시간전 =>24시간전 ) 미숙아사망률의획기적인감소, 의사와간호사노동감소 2015-09-10 11
빅데이터 - 활용사례 Google 의무인자동차개발 http://news.kbs.co.kr/world/2012/05/09/2473444.html 관련동영상 실시간운전의사결정 센서 : 실시간주변정보 StreetView 자동차운행관련데이터가실시간으로수집, 통합분석 => 운전의사결정 초당 1GB 데이터생성 => 년간차량당 2PB 생성 2020년까지도로에활성화된연결차량센서는 1억 5,200만개 ; 이들센서는차량의진단과위치추적, UX(User Experience) 데이터수집, ADAS 데이터수집 2015-09-10 12
빅데이터 - 활용사례 2015-09-10 13
빅데이터 - 활용사례 자동차운영체제는? 안드로이드 2015-09-10 14
Google Glass 빅데이터 - 활용사례 http://www.youtube.com/watch?v=t2uwki9jk_8 http://www.youtube.com/watch?v=chix5ywj_0y 구글글라스체험단모집 ( 미국 ) 엄청난데이터가생성될것임 (lifelog data) 지금으로서는응용분야를가늠하기조차어려운상황 스마트폰, 디카대체? 사람들의생활모습은? Big Data 2015-09-10 15
빅데이터기반제조업첨단화 - 반도체 ( 출처 ) 빅데이터와제조부문적용사례 ( 이씨마이너 ) 발표자료, 2012 : S 반도체사례 2015-09-10 16
동작 전조기 의미화및어노테이션 공정식별 신호검출 릴레이접점검출 영상 비디오 불량전조 전조영상 동기화타임이벤트 배출시간 설비 I/O검출 측정기 측정값 ( 불량 ) 측정프로그램 조작방법 / 순서 / 평가기준 PLC, CNC 검사 / 측정작업시간작업일지재료평가 / 특징 비디오온도레이져 진동 컨소시엄 (ETRI- 충북대학교, 산자부사업, 3 년 ) 17
현금 => 통장 => 카드 => 스마트폰 ( 클릭몇번으로 ) 은행지점 =>ATM 기기 => 스마트폰결제 => 송금, 외환거래, 대출, 투자, 보험, 증권. 상품개발, 부정방지, 신용평가, 마케팅등 4 대금융업무가빅데이터활용으로빠르고정확하게처리가능 컨소시엄 18
앱하나로관제없이더빠르고정확하게택시호출 기존콜택시 관제센터 1 분마다택시위치정보전송으로탑승위치부정확 단골택시 5 초마다위치정보전송함으로써정확도개선 승객호출 기사수락 택시오는모습이지도에보인다 컨소시엄 19
택시수요공급분석 교통약자지원 택시운행경로추천 택시서비스경쟁 안심귀가 무관제콜택시 단골택시 빅데이터분석 외국인서비스 클라우드시스템 동경아마존클라우드활용 컨소시엄 20
심야시간대 8 개월평균 빨간색 - 현재택시공급초과지역 컨소시엄 21
빅데이터활용사례 교통 ( 대중교통, 청주시 ) 과학적의사결정 풍부한교통데이터활용연구 편리한교통서비스 활용 수집 ( 매일새벽 4 시 ) 분석인프라 대학 빅데이터전문가양성 기업 빅데이터전문기업육성 2015-09-10 22
빅데이터활용사례 교통 ( 대중교통, 청주시 ) 활용데이터 - 교통카드 노선별정류장별승객수 / 환승객수 / 하차수 134 개노선 2012 개정류장 승객수가많은정류장순서대로 - 시설 / 환경개선 - 마케팅연계 ( 광고등 ) 2015-09-10 23
빅데이터활용사례 교통 ( 대중교통, 청주시 ) 노선별평균운행시간분석을통한기준운행시간조정 노선명기준운행시간첨두실제운행시간비첨두실제운행시간 OK! 배차간격조정제안 탄력적배차제안 711 84분 88분 82분 513 68분 61분 57분 823 126분 144분 150분 115 70분 104분 85분 30-1 89분 66분 75분 160 140 120 100 노선운영, 배차간격을탄력적으로? 기준시간확대 기준시간확대 기준시간축소 80 60 40 20 0 기준시간 첨두 비첨두 기준시간 첨두 비첨두 기준시간 첨두 711 번 513 번 823 번 115 번 30-1 번 비첨두 기준시간 첨두 비첨두 기준시간 첨두 비첨두 2015-09-10 24
빅데이터활용사례 교통 ( 대중교통, 청주시 ) 요일시간날씨이벤트 요일별 / 시간대별 / 날씨별 / 이벤트별혼잡구간 활용데이터 - ATMS 혼잡구간에교통경찰배치네비게이션업체등과연계서비스 2015-09-10 25
빅데이터활용사례 교통 ( 대중교통, 청주시 ) 요일별 / 시간대별 / 날씨별 / 이벤트별최대승객환승정류장 n 개는? 환승보조금을최소화하도록노선개편월별 / 요일별 / 시간대별탄력적노선운영 2015-09-10 26
충북관광분석 350 개관광지별이슈, 연관, 감성분석 청남대는자연경관, 산책, 트래킹등자연경관에대한긍정적인의견이높았으며, 전반적으로시설관리는잘되어있으나, 매표소안내에대한불만과여름에는햇볕을피할곳이없다는부정적인의견이나타났음. 관광교통및정보에관한부정적인의견이많았으며, 특히사전예약제시행으로불편하다는의견이있었음. 매표소에서청남대까지이동수단 ( 셔틀버스 ) 과주차장확충이필요한것으로보임. 2015-09-10 27
스마트치안 시흥시어린이시설현황, 범죄발생지역분석 KBS 9 시뉴스중국 CCTV 소개 2015-09-10 28
스마트치안 순찰지역탄력적인추천, CCTV 사각지대분석 2015-09-10 29
빅데이터 Project Data Lifecycle - 처리과정 Visualization 자연어처리 Mining 직관적의사결정지원 Data Sources Stream Data Hadoop MapReduce Hive 2015-09-10 30
빅데이터 Project 빅데이터사업수행과활용절차 품질관리 ( 수명관리메타데이터관리 ) 보안관리프라이버시관리 데이터소스 데이터거버넌스와지속적모니터링 데이터수집 데이터저장관리 데이터분석 데이터활용 / 업무혁신 데이터소스선정수집계획수립수집방법 / 주기데이터수집시행 데이터전처리분산저장관리 다차원분석데이터마이닝통계분석 관련부서업무적용지속적업무개선성과평가 -> 인센티브 2015-09-10 충북대조완섭 (wscho@cbnu.ac.kr) 31
데이터과학자 데이터분석을통해가치 (data product) 를창출하는전문가 데이터의다양한소스를찾아데이터를추출하고, 크고복잡한데이터를구조화 / 단순화하여분석이가능하게만들며, 이상한데이터를실시간으로탐지해내고, 적절한통계적모델링을통하여예측을수행하며, 인사이트를발견한후시각화하여비즈니스의방향을제시함 2015-09-10 32
데이터과학자 데이터과학자에대한언론전망 2012 년최고의신규유망직종 (CNN) 데이터과학자는그들은구하기도힘들고, 고용하려면비싸고, 과학 -IT- 분석능력을겸비한사람은찾기어렵다 (HBR, 2012) 최근기업들은머리는수학 / 통계지식으로, 손은컴퓨터해커수준으로, 눈은예술적안목을가진사람 (data scientist) 을찾는데애를먹고있음 (NPR, November 30, 2011) 2015-09-10 충북대조완섭 (wscho@cbnu.ac.kr) 33
데이터과학자 데이터과학자수요 향후 3-5 년이내에 미국은 18 만명의분석전문가, 150 만명의데이터기반관리자필요할것으로예상 ( 맥킨지 2011 년보고서 ) 영국은 50,000 여명이필요할것으로예측 우리나라는 2017 년까지약 11,000 명의빅데이터전문인력이필요할것으로예상 (KISDI Premium Report (14-10) 빅데이터 2.0 시대, 주요이슈와정책적시사점 ) 신규취업자중에서데이터과학자의비율 데이터과학자의 job trends 2015-09-10 34
데이터과학자 - 역량 Data Scientist Venn Diagram 데이터과학자는 IT 기술 (hacking skills), 수학및통계지식현장업무지식 (business, science 등 ) 을모두갖추어야한다. 두가지만갖추면기존과학자나기계학습혹은위험한사람 (danger zone) 이된다. The skills needed for data scientists 출처 : http://www.dataists.com/2010/09/the-data-science-venn-diagram/ 2015-09-10 35
데이터과학자 - 기업의분석지능 분석지능 (AQ ㆍ Analysis Quotient) 빅데이터를수집, 저장하고이로부터통찰력을얻으며, 미래상황까지예측하는능력 기업의 AQ 의 4 단계 첫째단계의기업은이제막데이터분석에관심을갖기시작한회사 둘째단계는어느정도데이터를활용하지만비즈니스와연계하지는못하는기업들 셋째단계는과거데이터를분석할수는있어도미래를예측하지는못하는기업들 네째단계기업들은과거와현재, 미래를예측할수있는데이터를모두분석하고활용해성과를창출하는회사 AQ 가높은기업일수록리스크관리와혁신능력도뛰어남 조직에서데이터과학자육성, 채용필요 2015-09-10 충북대조완섭 (wscho@cbnu.ac.kr) 36
데이터과학자 - 기업의분석지능 직관을능가하는분석 (MIT, CEO 3000 명설문결과 ) Top-Performing 회사가그렇지않은회사에비해서 5 배이상의분석능력을갖고있음 2015-09-10 [MIT Sloan Management Review] Big Data, Analytics and the Path From Insights to Value 충북대조완섭 (wscho@cbnu.ac.kr) 37
데이터과학자 교육프로그램 데이터과학자양성프로그램 ( 미국 50 여개대학교 ) School Program Offline Online Degrees Stevens Institute of Technology Business Intelligence & Analytics http://www.stevens.edu/sit/graduate/master-of-sciencebusiness-intelligence-and-analytics.cfm Yes Yes M.S. CMU Data Science Yes? Certificate North Carolina State University Northwestern University Stanford University University of Cincinnati Analytics http://analytics.ncsu.edu/?page_id=1799 The Master of Science in Analytics http://www.analytics.northwestern.edu/ Data Mining http://scpd.stanford.edu/ Business Analytics http://business.uc.edu/departments/obais/oba.html Some Courses Oxford University Data and Systems Analysis? Yes University of California San Diego University of Washington University of San Francisco RUTGERS, The State University of New Jersey Syracuse University Johns Hopkins University Data Mining http://extension.ucsd.edu/programs/index.cfm?vaction=ce rtdetail&vcertificateid=128&vstudyareaid=14 Data Science http://www.pce.uw.edu/certificates/data-science.html Analytics http://www.usfca.edu/management/analytics/program/ Professional Science Master s degree in Analytics http://www.business.rutgers.edu/msis/academic-programs/ug-bait Certificate of Advanced Studies in Data Science http://ischool.syr.edu/academics/graduate/datascience/index.aspx/index.aspx Institute for Data Intensive Engineering and Science 2012Yes 년 3월 No M.S. 충북대학교 No/Yes Yes/No M.S. 비즈니스데이터융합학과 조완섭 (wscho@chungbuk.ac.kr) 2015-09-10 38 Yes Grad Certificate ( 미래부지원데이터과학자양성석사과정 Yes ) No M.S. Undergrad Adv. Diploma No Yes Grad Certificate Yes Yes Certificate Yes No M.S. Yes? M.S. Yes? Grad Certificate
오픈소스기반의 빅데이터기술
목차 개요 빅데이터기술 클라우드컴퓨팅 Hadoop & Databases 데이터분석기술 다차원분석 통계분석 : R 데이터마이닝 빅데이터시각화기술 2015-09-10 40
개요 빅데이터 - 새로운 IT 기술과분석기술이요구됨 기존방식으로처리하기엔데이터규모가크고컴퓨팅파워가부족하기때문 신사업창출비즈니스지능화, 최적화마이닝, R-통계분석고도분석기술 SW 기술 (SW 인프라 ) Cloud Computing (HW인프라) 41 2015-09-10 41
Big Data 관련기술 ( 요약 ) 2015-09-10 42
Big Data Platform - IBM 보안과프라이버시 정보정책관리 Data Profile 작성 IBM Hadoop 배포판 충북대학교 43
Big Data Platform Oracle 충북대학교 44
Big Data Platform SAP 충북대학교 45
Big Data Platform SAP SAP BusinessObjects 클라우드상의 Hadoop 과 HANA 인스턴스에대해연합쿼리를작성할수있음 SAP Smart Meter Analytics 엄청난양의공공요금 M2M 데이터를분석하고 HANA 에서실행함 충북대학교 46
MS 사 MS SQL : DBMS Big Data Platform Microsoft SQL Server Integration Services (SSIS ) : ETL 툴 Microsoft SQL Server Parallel Data Warehouse 용쌍방향 Hadoop 커넥터발표 Microsoft SQL Server Reporting Services (SSRS) : 분석툴 Microsoft 의 Hive Open Database Connectivity (ODBC) 드라이버는 Microsoft SQL Server Analysis Services (SSAS), PowerPivot, Power View 의사용자들이 Hadoop 데이터와상호작용할수있도록지원함 또한 Microsoft 의엑셀용 Hive 추가기능은사용자들이스프레드시트환경에서 Hadoop 과상호작용할수있게지원함 => Power BI 충북대학교 47
빅데이터기술 2015-09-10 48
빅데이터기술 빅데이터표준 시스템관리기술 빅데이터전송기술 클라우드핵심 SW(open) 2015-09-10 49
Big Data 관련기술 ( 요약 ) 2015-09-10 50
클라우드컴퓨팅 Cloud Computing Platform User Interface User Interface 자원관리 분산데이터베이스 분산파일시스템 User Interface 클러스터관리 부하분산 분산컴퓨팅 User Interface 프로비저닝 ( 동적자원할당 ) User Interface User Interface 2015-09-10 51
Hadoop 연결된여러컴퓨터에데이터를분산하여저장, 처리한후, 통합하여최종결과를생성하는고성능컴퓨팅기술 Hadoop 분산파일시스템 (HDFS : Hadoop Distributed File System) 파일을적당한크기로나눠서각노드에분산저장함 데이타유실이나부하분산을위해각블록의복사본 (Replication) 을유지함 MapReduce 프레임워크 Map함수는데이터를여러개의데이터조각으로나눠서여러대의컴퓨터에서분산처리함 Reduce함수각노드가계산한결과를하나로통합함 2015-09-10 52
Hadoop Hadoop 과구글파일시스템 MapReduce : 분산데이터처리시스템 HBASE : 분산데이터베이스 HDFS : 분산파일시스템 분산컴퓨터들 구글파일시스템 2015-09-10 53
Hadoop MapReduce 를활용한단어출현횟수 counting 2015-09-10 54
Hadoop MapReduce 기술 컬러사각형개수 counting 2015-09-10 55
ETL 도구 ETL (Extraction, Transformation, and Loading) 다양한데이터소스로부터데이터를추출하여정제 ( 표준화 ) 하여통합하고데이터베이스에로딩하는도구 2015-09-10 56
ETL 도구 조완섭 (wscho@chungbuk.ac.kr) 2015-09-10 57
기존 database systems 데이터베이스시스템 Database System 사용자 / 프로그래머 응용프로그램 / 질의 실세계정보 DBMS 질의 / 프로그램을수행하는 SW + 디스크를접근하는 SW 메타데이타 + 데이타베이스 tables 데이터공유일치성보장보안, 권한관리등그러나, 정형화된데이터관리용빅데이터? 2015-09-10 58
NoSQL (Not Only SQL) Big Data 용 DBMS 기존의 RDBMS 는빅데이터처리에적합하지않음 NoSQL 은빅데이터처리에는유용하지만 RDBMS 에서제공하는데이터의일관성과유효성은보장하지않음 (Read only, 분석용으로적합 ) 20 개이상의 NoSQL 제품이보급됨 BigTable, Dynamo, Cassandra, CouchDB, MongoDB, Hbase, Riak, Voldemort 등 Oracle NoSQL DB2.0 출시 (2012.01) 2015-09-10 59
다차원분석 Data Warehouse(DW), OLAP DW : 의사결정용데이터베이스 OLAP (On-line Analytical Processing) 은 data warehouse 상에서온라인다차원분석처리를지원하는도구 일반사원업무지원 최고경영자의사결정지원 DBMS OLAP 외부 업무용 DB 재무인사 ETL Extraction Transformation Loading (Integration) 데이터웨어하우스 2015-09-10 60
다차원분석 - 사례 매출액 $500 억 다차원분석 년도별매출액은? 2003 년분기별매출액은? 2003 년 1 분기월별매출액은? 도시별매출액은? North/South 지역별매출액은? Dallas 지역의 Product E 에대한 2003 년분기별매출액은? 도시별로 2003 년월별매출액은? 제품별, 년도별매출액은? ( 수많은분석 ) 25M 30M 20M 11M 21M Roll-up Drill-down North 2050 South Cube 수백개 cubes 2015-09-10 61
다차원분석 Hive(http://hadoop.apache.org/hive/) Data warehouse system 으로 Hadoop compatible file systems 에저장된 large datasets 에대하여간편한 data summarization, ad-hoc queries, analysis 기능을제공함 (OLAP) SQL-like 언어로하둡상에서맵리듀스처리를간단하게작성, 실행할수있는툴 Open source (Apache License), ANSI SQL 지원 Facebook 의 Main Data Warehousing System 으로활용됨 Pig(http://hadoop.apache.org/pig/) 스크립트언어형태로 MapReduce 프로그램을개발할수있는플랫폼으로현재 Hadoop 의서브프로젝트 Cascading 과유사하게고수준의처리를위한쉬운문법을제공하며스크립트형태이기때문에빠른프로그래밍및피드백이가능함 (Yahoo 에서주도적으로개발 ) 2015-09-10 62
다차원분석 배치분석 : Script language 2015-09-10 63
다차원분석 - 실시간 Streaming data processing ETL, Storing, Processing, Mining, Alarming In-Memory database systems ESPER 하드디스크에저장하지않고바로메모리상에서분석함으로써실시간분석결과를도출함 Spark In-Memory based multidimensional analysis system Hive 보다빠른속도로빅데이터다차원분석을지원함 2015-09-10 64
R 언어 R 언어 SAS, SPSS 의대안으로급성장 데이터를다루고분석하는데특화된언어 통계분석 ( 마이닝 ) 및시각화를위한언어혹은개발환경으로오픈소스임 수천가지라이브러리를사용하여기본적인통계분석기법부터모델링, 최신데이터마이닝기법까지구현 / 개선이가능 다양한분야에적용가능한마이닝기법들을제공함 마케팅, 금융, CRM( 고객관리 ), 생명공학및의학, GIS, Stream Data 등 Java, C/C++, Python 등다른프로그래밍언어와의연결용이 빅데이터분석이필요한조직에서대용량데이터통계분석과데이터마이닝을위한솔루션으로정착되고있음 예 : 약 30 라인으로 SNS (Twitter) 분석에서시각화까지구현할수있음 2015-09-10 65
R 언어 Example : R 을사용한트위터팔로워분석과결과 : 단 20 여 line 으로결과생성! library(twitter) library(konlp) library(wordcloud) library(tm) gogamza <- getuser("gogamza") gogamza.followers <- gogamza$getfollowers() # 팔로워들의자기소개를벡터에적재한다. followerdesc <- c() for(i in gogamza.followers){ followerdesc <- append(followerdesc, i$description) } # 쓸모없는문자들을제거한다. followerdesc <- gsub("\n","", followerdesc) followerdesc <- gsub("\r", "", followerdesc) nouns <- Map(extractNoun, followerdesc) wordsvec <- unlist(nouns, use.name=f) # 쓸모없는문자들을제거한다. 특히영문자의경우 tm 의 stopwords 를활용한다. wordsvec <- wordsvec[-which(wordsvec %in% stopwords("english"))] wordsvec <- gsub("[[:punct:]]","", wordsvec) wordsvec <- Filter(function(x){nchar(x)>=2}, wordsvec) wordcount <- table(wordsvec) pal <- brewer.pal(8,"dark2") wordcloud(names(wordcount),freq=wordcount,scale=c(4,0.5),min.freq=10, random.order=t,rot.per=.1,colors=pal) 조완섭 (wscho@chungbuk.ac.kr) 2015-09-10 66
RHive RHive = R + Hive select * from foo; KRUG (Korean R Users Group) GNU 의철학에입각하여, R 을한국어사용자가올바르고쉽게사용될수있도록문서를번역하고지식과기술을공유하는사용자모임 ; 2007 년 1 월부터공식적으로활동 2015-09-10 67
데이터마이닝 빅데이터 마이닝 데이터로부터체계적이고자동적으로 ( 통계학에서패턴인식에이르는다양한계량기법을사용하여 ) 규칙이나패턴을찾아내는기술 데이터마이닝기법은통계학에서발전한탐색적자료분석, 가설검정, 다변량분석, 시계열분석, 일반선형모형등의방법론과데이터베이스측면에서발전한 OLAP ( 온라인분석처리 : On-Line Analytic Processing), 인공지능진영에서발전한 SOM(Self Organizing Maps), 신경망, 전문가시스템등의기술적인방법론이사용됨 빅데이터마이닝 빅데이터의특징인 대용량, 비정형, 실시간 마이닝이가능하도록기존의기법들을확장함 IoT/M2M 등의보편화로 Stream Data Mining 기술의필요성증대 2015-09-10 68
빅데이터 - 마이닝 데이터마이닝기술의종류 분류 (Classification) 일정한데이터집단에대한특성정의를기준으로분류함 예 : 경쟁자에게로이탈한고객들을분류함 군집화 (Clustering) 어떤특성을공유하는데이터그룹을찾음. 군집화는미리정의된특성에대한정보를갖지않는다는점에서분류와구분됨 ( 예 : 유사행동집단의구분 ) 연관관계 (Association) 관련이있는 ( 동시에발생하는 ) 데이터들을찾아냄 예 : 장바구니에서함께구매되는상품들 2015-09-10 69
빅데이터 - 마이닝 데이터마이닝기술의종류 ( 계속 ) 순차패턴 (Sequencing) 순차적으로발생하는데이터들을찾아냄 예 : 비디오대여순서정보 예측 (Forecasting) 대용량데이터집합내의패턴을기반으로미래를예측 예 : 수요예측 텍스트마이닝 자연어처리기술을기반으로텍스트의의미를자동으로파악함 예 : SNS 기반의고객감성분석 2015-09-10 70
정의 텍스트마이닝 텍스트기반의데이터 ( 문서 ) 로부터새로운정보를발견하는기술 다음과같은자연어처리기술도필요함 형태소분석기술 (morpheme processing technique) 구문분석기술 (syntactic processing technique) 문맥처리기술 (context processing technique) 의미처리기술 (semantic processing technique) 문장합성기술 (sentence generation technique) 관련분야 Data Mining : 데이터로부터새로운패턴이나지식발견 Web Mining : 웹상의데이터를분석하여지식을발견하는기술 Statistics : 통계학 Information Retrieval : 정보검색 Computational Linguistic & NLP : 자연언어분석및활용학문 2015-09-10 71
텍스트마이닝 응용분야 SNS 분석 갤럭시 3 화면이넓어짱이다 iphone4 무게가가벼워좋아. 갤럭시 3/ 화면 / 넓다 / 좋다 화면이크다 45% 디자인이예쁘다 25% 크기가작다 15% 화질이좋다 15% 긍정 부정 갤럭시3 30,599 1,500 iphone4 56,456 3,500 수집필터링 구어체전처리 형태소분석 개체명인식 구문분석 감성분석관계분석 이슈탐지모니터링 긍부정분석 게시판게시판게시판 소스데이터 사전 ( 개체명, 감성단어 ), 동의어 테러, 범죄, 재난 조기예측에응용됨 갤럭시 3 iphone4 갤 3 아폰 4 화면밧데리무게화질 2015-09-10 72 제품 T 속성 T Dictionary 좋다넓다크다작다짱이다 감성단어 T
시각화란? 빅데이터시각화 (visualization) 방대한양의자료를분석해서한눈에볼수있도록도표나차트등으로정리하는것 시각화자체가분석의한 시각화의효과 데이터로부터정보를습득하는시간의절감으로즉각적인상황판단이가능해짐 자료를습득하는사람의흥미유발과빠른확산촉진 자료를기억하는데기여함 뉴욕타임스 ( 유권자분석 ) http://www.nytimes.com/interactive/2012/11/11/sundayreview/counties-moving.html?_r=0 2015-09-10 73
시각화의예 시각화의예 나플레옹군이러시아원정에서완패하고모스크바로부터프랑스로복귀하는이동경로별로그들이겪은추위와병사감소를한눈에시각화 ( 샤를미나르, 1861 제작 ) 2015-09-10 74
시각화의예 2015-09-10 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 ) 75
시각화도구 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 ) 2015-09-10 76
시각화도구 * 출처 : 빅데이터를위한데이터시각화 ( 이지선 ) 2015-09-10 77
시각화도구들 시각화도구 엑셀, CVS/JSON, 구글차트 API, Flot, Rapheal, D3 (Data- Driven Documents), Visual.ly, NodeBo, R, Weka, Gephi 매핑 ( 지도 ) 도구 Modest Maps, Leaflet, Polymaps, OpenLayers, Kartograph, CartoDB 2015-09-10 78
국내동향 경기도, CCTV 위치선정에빅데이터분석결과활용 조완섭 (wscho@chungbuk.ac.kr) 2015-09-10 79
국내동향 경쟁률 7.1 : 1 충청북도 => 의생명빅데이터공공행정, 과학기술빅데이터로특화 경상남도 => 제조빅데이터 ( 독일 Industry 4.0) 조완섭 (wscho@chungbuk.ac.kr) 2015-09-10 80
조완섭 (wscho@chungbuk.ac.kr) 2015-09-10 81
국내동향 해외직구, 직방, 앱택시,. Online-2-Offline 소비자와공급자사이의중간산업의역할? 조완섭 (wscho@chungbuk.ac.kr) 2015-09-10 82
기관및지역별공개데이터수 국내동향 2015-09-10 83
2015-09-10 84
국내동향 시흥경찰서스마트치안시스템활용 2015-09-10 85
빅데이터의효과 2015-09-10 86
결론 빅데이터가성공하려면? 데이터기반조직문화형성 직관보다데이터기반의과학적의사결정중시문화가필요 CEO 의지가가장중요한관건임 조직의분석지능제고 빅데이터시대에분석지능이높은조직 ( 기업, 국가 ) 일수록혁신능력과리스크관리능력이우수함 (MIT Report) - 데이터과학자 작은업무에서라도빅데이터분석을시작! ( 가장확실한교육 ) 분석결과가업무혁신으로연결되어야함 작은데이터부터빅데이터까지모두고려하여가치창출 업무혁신으로연결되지않는빅데이터는의미가없음 2015-09-10 87
결론 지속가능한빅데이터가되려면? 빅데이터의활용과함께데이터거버넌스가구축되어야! 빅데이터거버넌스는데이터의품질보장, 프라이버시보호, 데이터수명관리, 전담조직과규정정립, 데이터소유권과관리권명확화등을통하여빅데이터가적시에필요한사람에게제공되도록체계를확립하는것 빅데이터거버넌스가확립되지못하면 - 품질이낮은데이터를중요한의사결정에사용함으로써심각한문제를야기 - 개인프라이버시관련데이터로인해빅브라더의우려가현실화 - 폭증하는데이터에대한메타데이터 & 수명관리소홀로인한 IT 비용급증 - 데이터관련문제를전담하고책임지는조직과인력이없다면빅데이터효과는일회성에그칠것임 2015-09-10 88