사례로보는 Big Data 프로젝트의 Success Factor 한지수이사 한국이엠씨컴퓨터시스템즈 1
목차 Big Data는무엇인가? BI/DW와 Big Data의차이점? Big Data프로젝트의목표 Big Data 프로젝트수행의 3가지어려움 Big Data 프로젝트사례와시사점 Key Success Factor Big Data 수행을위한조직 Big Data 수행을위한 Technology Big Data 프로젝트수행단계 Best partner for Big Data 2
Big Data 는무엇인가? 비즈니스가치 Big Data 향상된 Insight 제공 사내 + 사외 ( 정형, 비정형 ) Smart 의사결정 Data 기반사고혁신 사내 ( 정형 ) 기존데이터 Volume Various Velocity Business 경쟁력제고 사내 사내 + 사외 (Web, SNS 등 ) 데이터 정형 정형 + 비정형 ( 문서, 메일, 이미지, 동영상, 로그등 ) 3
BI/DW 와 Big Data 의차이점? Big Data Analytics (Data Science) Interpretation based Why it happened? What we will do? 데이터유형 분석기법 대규모 data set 정형 / 비정형 Data, File, 음성 / 이미지 / 텍스트등 최적화모델 / 통계학적분석 / 예측분석모델 / Forecasting / Early Warning 등 ANALYSIS Fact based What happened? Past TIME What will happen? Future 일반적질문데이터유형 어떤결과가나올것인지?(What-if simulation) 우리비즈니스에최적화된시나리오는무엇인지? 향후에어떤일이발생할것인지? Business Intelligence 비교적소규모의 data set 정형 Data, 전통적 RDBMS 소스 Business Intelligence 분석기법 집약적대시보드 / 스탠다드 ad hoc 리포팅 / Alerts / 정형 Query 등 Big Data Analytics 일반적질문 지난분기에발생한일은? 왜발생했는지? 과거실적및영업이익은? 4
Big Data 의프로젝트의목표 생산 / 품질향상 고객중심의 R&D 계정계데이터흐름에대한분석 고객중심의이니셔티브 제조회사의목표 금융회사의목표 마케팅분석의고도화 고도의 AS 정보제공 Strong Analysis 병렬처리프로세싱 * Source: the Saïd Business School at the University of Oxford 5
Big Data 프로젝트수행의 3 가지어려움 1 왜 Big Data 를도입해야하나? 회사의비즈니스와 Align 하여 무엇 을 왜 분석해야하는지목표가명확하지않다 무엇을예측 할것인가?, 무엇을최적화 할것인가에대한막연한목표 2 IT 부서주도의기술구현프로젝트 업무현장의 Insight 를반영하기어렵고, 분석의효과로서목적하는바가분명하지않다 기존의시스템으로부터 어떤데이터 를 어떠한방식 으로수집할것인지확실치않다 3 매우다양한분석요구사항과시스템연계 분석데이터를요구하는조직마다매우 다양한원천데이터 와 다양한분석기법 을요구 6
Big Data 프로젝트사례와시사점 (1/3) 왜 Big Data 를도입해야하나? > 추진과제선정프로젝트의선행 Challenging Questions Cases Key Findings C 증권 < 월별주가예측리포트 > 조직차원의분석목표와분석대상을정의하였는가? 주가예측정확도향상 1) 95 개주가종목의예측이가능한 K-Index 지표개발 대상 Biz-Case 핵심과제를도출하였는가? 2) 통계경제지표, SNS, 블로그등내 / 외부통합데이터분석플랫폼구축 3) 13 년 Big Data Award 우수상수상 적합한주제 / 목표 C 레벨의스폰서쉽을확보하였는가? P 제조 빅데이터기반생산관리시스템 < 생산관리시스템품질관리 > 분석데이터의식별 투자효과에대한분석과예측이가능한가? 전직원공모 (358 개 ) 부서별토론 / 임원토론 현업부서장 ( 우선순위 : 35 개 ) 선행과제 20 개추출 선행과제실행으로 Big Data 선경험으로향후시행착오를줄이고자함 추진과제고도화 13 년 : 20 여개의 Pilot 과제 14 년 : 기수행 7 개과제검증및개선 7
Big Data 프로젝트사례와시사점 (2/3) IT 부서주도의기술구현프로젝트 > 회사전체의 Big Data 수준향상 Challenging Questions Cases Key Findings 현업분석가, Biz 전문가가함께참여하였는가? 데이터분석인력 (Scientist) 는육성및확보하였는가? Biz-Case 에적합하게적용할분석모델은수립하였는가? D 중공업 Pilot 을통한주제분석및사전교육 1. 과제별현업전문가, 분석전문가및 Data Scientist 양성 C 물류 현실성있는분석모델개발 1. 실무진과의참여와검증을통해물동량예측을위한모델개발 H 중공업 Pilot 과제수행 기본교육 (1 주 ) 심화교육 (2 주 ) 분석가활용 조직의빅데이터역량향상을위한데이터분석가양성 적합한과제와분석모델적용 조직전사수준의빅데이터수준진단은되어있는가? 빅데이터수준진단및과제선정 1. 빅데이터조직수준을진단 2. 전체업무중 25 개를빅데이터분석과제로선정, 최우선과제 4 개정의 H 사 8
Big Data 프로젝트사례와시사점 (3/3) 매우다양한분석요구사항과시스템연계 > BIG DATA ON CLOUD Challenging Questions Cases Key Findings S 제조 추가요구사항수렴이용이한확장구조인가? 안정적으로대용량을지원하는플랫폼인가? 구현목표 공정품질관제체계 Big Data 기반자동분석체계 다양한분석및결과 Feed Back 품질추적체계고도화 최적의솔루션구축 산재된데이터통합및연계방안은검토되었는가? 안정적인운영 / 확산 각분석환경에유연한대응은가능한가? Cloud 환경적용 9
Key success factor 1 적합한주제 / 목표 수행조직과역할 (Master Plan) 2 3 4 분석데이터의식별역량향상을위한데이터분석가양성적합한과제와분석모델적용 적용 Technology (Implementation) 철저한사전준비와검증을통한 Big Data 프로젝트수행 5 최적의솔루션구축 6 안정적인운영 / 확산 10
Big Data 수행을위한조직 People Role & Responsibility Business Biz Expert ( 업무담당자 ) Data Scientist ( 분석가 ) Big Data Coordinator 주제 / 과제정의 업무통찰력 / 분석수행 우선순위, 키워드정의 분석방법론적용 목적과효과 Data Data Architect Solution Architect Big Data Consultant 필요데이터식별 / 확보 원천 / 목표데이터정의 데이터논리 / 물리모델설계 속성데이터정의 데이터관리및활용체계수립 Data 수집과관리 Technology DB Administrator Hadoop Administrator HW/SW/NW Engineer Solution Specialist 아키텍처총괄적설계, 관리 데이터기술적관리, 처리 서버, NW, 스토리지기술지원 관련소프트웨어기술지원 제품별유지보수 Solutions 11
Data Ingestion & ETL Big Data 수행을위한 technology 기업의 Value Chain 에서생성되는모든데이터의저장 데이터원천데이터수집 Big Data Lake Analytic on Demand 분석 UI 소셜데이터 Aster SpringXD GemFire Greenplum DB Cloud Architecture Analytics Mobile 데이터 SmartTV 데이터 생산설비데이터 시스템데이터 Enterprise DW Extract Flume Crawler ETL CEP SQL- Fire GP Loader Load GP Loader Staging GPHDFS protocol Staging 4 EDW In-DB Scoring Greenplum & Hadoop Interface Hadoop 전처리 Hadoop In-DB Scoring HAWQ Analytic Mart 결과 GPFDIST protocol 8 GPHDFS protocol Visual Analytics High- Performance Analytics Adatper DB SandBox Hadoop SandBox Big Data 시각화, 모바일 예측모델 12
Big Data 프로젝트수행단계 Master Plan 수립 점진적추진 : 과제우선순위 선택과집중 시작이반 : 신속한추진전략과 Roadmap Pilot 수행 백문이불여일견 : Pilot 을통해실제체험 강력한 Sponsorship 확보 : C 레벨의의지 전문가양성 소수정예 : 전문가를양성하고전담조직구성 역량내재화 : 외부전문업체를활용하여기술내재화 Implementation 전사프로젝트 : 최고효율과최대성과를획득 뛰어난 Partnership : 성공확률극대화 13
Best partner for big data Solution 과경험을보유한 Big Data 프로젝트의최고의파트너는 EMC Big Data 위한최적의플랫폼 Big Data 전용솔루션 Big Data 를위한맞춤형서비스 1. 적합한주제 / 목표 2. 분석데이터의식별 Data Scientist 교육 Big Data Planning 3. 역량향상을위한데이터분석가양성 Big Data 분석 4. 적합한과제와분석모델적용 Big Data Architecting 대용량 HDFS DB/HD 5. 최적의솔루션구축 백업 Big Data Implementation 6. 안정적인운영 / 확산 Big Data 구축 관리자동화 BigData 를구현하기위한 Converged Infra, Storage, Virtualization Big Data 를효과적으로저장, 관리, 분석위한최적의제품및솔루션 Big Data 를통한비즈니스가치창출을위한최적의프로페셔널서비스제공 14