Big Data Analytics BK21+ Kick-off Meeting Jong Uk, Lee eastwest9@korea.ac.kr 2013. 10. 21
Section I) Data! Section Ⅱ) Big Data! Section Ⅲ) Big Data Technology Section Ⅳ) Big Data Use Case and Proposal Section Ⅴ) Conclusion
Section I) Data! Four Takeoff Technologies Smaller faster mobile devices Cloud computing Communication availability EVERYWHERE Turning data into information - business intelligence
1) Paradigm Shift Capital People Data Data are becoming the new raw material of business: an economic input almost on a par with capital and labor. -The Economist, 2010 Data will separate the winners and losers in every single industry. -IBM CEO Ginni Rometty, 2012 4
2) Importance of Data Target Marketing: Diaper-Beer 25~35 years, first baby, last night, Management by Data: New Criteria, New Algorithm to create new Value Predictive Asset Management: Reduce downtime to improve Productivity & save operation cost 5
3) Data Sources Social Networks Images Blogs Chat Rooms Product Review Sites Web Pages Data Sources Unstructured Videos Music Sensors Call Data Records Email Log Files Documents Machine Generated 80 Vs. 20 Structured: RDMS, ERP/CRM, EDW, 6
4) Example of Data Production LHC(Large Hadron Collider): 대형강입자충돌가속기 40 TB/s Boeing Jet Engine 10 TB/30min/Engine Operation Social Networks Facebook: 60~70TB/day Walmart Transaction 1M customer Transactions/Hour, DB Size: 2.5PB (2013). Sensing as a service and big data 7
5) Big-bang of Data 2010 년제타바이트시대진입 1ZB: 미의회도서관 4 백만배 2009 년 0.8 ZB 2010 년 1.2 ZB 2020 년 35 ZB 44 배 Sensor/M2 Smart Mobil Device 증가 증가 Multimedia Contents 증가 Data Collection 증가 데이터빅뱅 SNS 급격확산 Trent Nouveau, 2010. Digital Data to Earth: You have run out of memory. http://www.tgdaily.com/hardware-features/49611-digital-data-to-earth-you-have-run-out-of-memory 8
Section Ⅱ) Big Data! Cox, M., & Ellsworth, E. 1997 Application-controlled demand paging for out-of-core visualization Proceedings of the 8th conference on Visualization 97. IEEE Computer Society Press Visualization provides an interesting challenge for computer systems: data sets are generally quite large, taxing the capacities of main memory, local disk, and even remote disk. We call this the problem of big data. When data sets do not fit in main memory (in core), or when they do not fit even on local disk, the most common solution is to acquire more resources.
1) Big Data 정의 현재시스템으로처리가능한범위를넘어서는데이터 규모적정의 일반적인데이터베이스 SW 가저장, 관리, 분석할수있는범위를초과하는 규모의데이터 (Mckinsey, 11) 기술적정의 다양한종류의대규모데이터로부터저렴한비용으로가치를추출하고, 데이터의 초고속수집, 발굴, 분석을지원하도록고안된차세대기술및아키텍처 (IDC, 11) 산업적정의 디지털공간의폭발적으로증대되는無 ( 비정형데이터 ) 에서有 ( 유효한지식 ) 를 생성하는 빅데이터 산업 10
2) 왜 Big Data 인가? 과학기술의변화에따른 Data 를바라보는관점! [1 세대 R&D] 경험적관찰의기록 자연현상을관찰하여기록 / 분류 / 목록화하고탐구하는것이과학기술연구 [2 세대 R&D] 데이터는새로운이론의근간 데이터관찰결과를바탕으로데이터를설명할수있는이론을도출 [3 세대 R&D] 데이터로가설 / 이론 / 현상을증명 도출된이론과모델을컴퓨터시물레이션을통해입증 [4 세대 R&D] 새로운발견 방대한데이터를분석 / 융합하여새로운과학적발견을시도 Data-Intensive Science(DIS) 의본격화 11
3) Big Data 접근법 12
4) 왜 Big Data 가중요한가? 신속히분석하여새로운통찰력을얻음 [1] 활용되지않던데이터의의미있는활용 이전에는보이지않던또는찾기어려웠던것을찾을수있다 [2] 사실에기반한결정을가능케함 심증이아닌분석결과를활용 [3] 새로운접근전략, mind-set 을요구함 IT 기술의활용을재점검할시기 13
5) 현재 Big Data 에대한관심도 Hype Cycle for Emerging Technologies, Gartner, 2013 http://www.gartner.com/newsroom/id/2575515 14
Section Ⅲ) Big Data Technology
1) Big Data 기술특성 3V: Volume, Variety, Velocity(Complexity, Value) 규모 (Volume): 대규모분석 양의변화가질의변화를견인 규모증가에따른분석 / 예측정확성향상 예 ) 자동번역 : IBM( 수백만 ) Vs. 구글 ( 수억 ) 다양성 (Variety): 복합분석 다양한데이터의복합분석 다양한정보융합을통한새로운가치창출예 ) CRM과 SNS의결합 (TESCO) 예 ) 고객정보, 위치정보, 모바일결합 ( 스타벅스 +Placecast+O2) 속도 (Velocity): 실시간분석 유효한분석 / 예측결과를적시에제공하는실시간분석 / 예측파이프라인 예 ) 블랙아웃없는스마트그리드 (IBM/ 스페인 ) 16
2) Big Data 기술배경 1) SW/ 컴퓨팅기반기술의지속적발전 2) 정보처리 SW 기술의지능화를통해탄생된데이터자원화기술 고급분석, 복합분석 인공지능, 기계학습 데이터관리 SW 분산 / 병렬처리 클라우드컴퓨팅 고성능컴퓨팅 ( 시스템 SW) 데이터웨어하우징및마이닝기술의보편화 자연어처리, 인공지능등지능형 SW의등장 다양한비정형데이터처리기술 (NoSQL) 등장 Hadoop, MapReduce 등분산처리기술발전 CPU의개수가 1개가아닌여러개장착됨 가상화등컴퓨팅자원활용기술의성숙 컴퓨팅자원의서비스화를통한비용절감 무어의법칙, 황의법칙등에따른컴퓨팅성능발전 리눅스 OS, 클러스터시스템등시스템 SW 고도화 컴퓨팅지능컴퓨팅규모컴퓨팅성능 17
3) Handling of Big Data Knowledge acquisition step 1 단계 2 단계 3 단계 4 단계 데이터 데이터 데이터 지식 수집 저장, 관리 처리, 분석 취득, 전달 분산데이터수집 분산데이터 데이터처리 인터페이스 정형, 비정형데이터 저장및관리 통계, CEP 시각화 데이터마이닝 데이터통합 Data Mining Methods Predictive( 예측, 결정 ): Classification, Regression, Time Series Analysis, Prediction Descriptive( 묘사 ): Clustering, Association Rules, Summarization, Sequence Discovery 18
4) Big Data Open source platform JMS Queue Real-time Feeds 분산 코디네이션 Flat Files (ZooKeeper) 노드간정보공유 Hadoop Adapter Hadoop API 관리및 모니터링 (Ambari) 하둡클러스터 관리, 모니터링 Operational Data Store Hadoop Eco-system HBase 비정형 데이터베이스 (Hbase, Cassandra) Aged Data Hbase BulkLoader HDFS 분산파일시스템 (Hadoop Distributed File System) (HDFS) 정형데이터수집 (Sqoop) 기계학습 Data Warehouse (R, Mahout) Hive 데이터플로우 Java API (Pig) 메타데이터관리 (HCatalog) 분산데이터처리 (MapReduce) 데이터직렬화 HQL/ JCBC (Avro) SQL 스타일지원 JCBC/ Sqoop Map/ Reduce 비정형데이터수집 (Chukwa) (Hive) Analytics Data Mart 수집저장관리처리분석표현 19
Section Ⅳ) Big Data Case Study http://www.briansolis.com/wp-content/uploads/2012/12/shutterstock_114480370.jpg
1) Big Data 활용계획 - FBI 종합 DNA 색인시스템 - 싱가포르 RAHS (Risk Assessment & Horizon Scanning) 빅데이터분석, Saltlux, 2012 21
2) CASE STUDY: 해외구축사례 Manufacturing, Telecom, Finance, Service 22
3) CASE STUDY: 국내사례 KT: 가입자분석시스템 CDR( 가입자통화위치, 대상, 시간등로그데이터 ) 국내기업 IT 환경에서빅데이터기술적용사례소개, NEXR 23
Section Ⅴ) Conclusion Brain Korea 21 + 과학벨트에서생성되는대량의데이터 ( 중이온가속기 ) 를 대상으로전송 / 처리 / 저장및분석과관련된소프트웨어플랫폼 및알고리즘관련기술을연구개발 2017 년중이온가속도기설치완료예정
Heavy Ion Accelerator 중이온가속기란? 수소에서우라늄까지다양한원소들을높은에너지로가속시켜다른원자의핵에충돌시키는과정등을통해원자이하크기인펨토미터 (1천조분의 1미터 ) 세계를연구하는거대과학장비이다. 희귀동위원소를생성하는중이온가속기는핵과학 ( 우주의원소및별의진화규명, 핵구조및핵력의본질규명, 핵과학이론연구 ), 원자및분자과학 ( 정밀질량측정및레이저분광 ), 물성과학 ( 물성의화학적 전자기적성질규명 ), 의생명과학 ( 생체계의생화학적반응 ) 등을연구함으로써다양한기초과학분야에이용및응용될수있다. LHC(Large Hadron Collider): particle Accelerator ( 강입자가속기 ) 40 TB/s 25
Brain Korea 21+ BK21+ 빅데이터 : 각연구실에서어떻게접근할것인가? 26
Brain Korea 21+ 어떤부분을공략할것인가! 1 차 : 모든연구실참여 플랫폼설계및빅데이터처리환경연구및구축. 2 차 : 개별연구실에맞는부분에대한연구. ex) 분산환경에서속도향상을위한병렬처리 3 차 : 실제중이온가속기가구축되었을때. ex) 실제중이온가속기에서생성된데이터처리및분석환경제공 1 단계 2 단계 3 단계 4 단계 데이터 데이터 데이터 지식 수집 저장, 관리 처리, 분석 취득, 전달 분산데이터수집 분산데이터 데이터처리 인터페이스 정형, 비정형데이터 저장및관리 통계, CEP 시각화 데이터마이닝 데이터통합 27
감사합니다! Thank You!
Reference - 빅데이터동향과전망, ETRI 황승구 - 빅데이터그리고과학기술 R&D, KISTI 성원경 - 빅데이터활용과관련기술고찰, 김정숙, 한국콘텐츠학회, no. 10, vol. 1, 2012. - 빅데이터연구동향과시사점, 최규헌, 정보통신산업진흥원, 주간기술동향, 2012. - 빅데이터기술과주요이슈, 안창원, 황승구, 정보과학회지, 2012. - 빅데이터어낼리틱스와공공데이터활용, 이만재, 정보과학회지, 2012. - 공공분야에서의빅데이터활용을위한지식자산 (Knowledge) 구축, 이강용외 4인, 정보과학회지, 2012. - 빅데이터분석, Saltlux, 2012 - 빅데이터를활용한스마트정부구현 ( 안 ), 이각범 - 국내기업 IT 환경에서빅데이터기술적용사례소개, 한재선, NEXR 2012. - 빅데이터활용가치및국내외적용사례 www.bicdata.com - 빅데이터로진화하는세상 : Big Data 글로벌선진사례, 한국정보화진흥원, 윤미영, 권정은, 2012 - http://www.gartner.com/ - Yang, J., Gu, Y., Bao, Y., & Yu, G. (2012). Scalable complex event processing on top of mapreduce. In Web Technologies and Applications (pp. 529-536). Springer Berlin Heidelberg. - Zaslavsky, A., Perera, C., & Georgakopoulos, D. (2013). Sensing as a service and big data. arxiv preprint arxiv:1301.0159. 29