PlatformDay2009-Hadoop_OSBI-YoungwooKim

Similar documents
Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤


ETL_project_best_practice1.ppt

RUCK2015_Gruter_public

Basic Template

DBMS & SQL Server Installation Database Laboratory

DW 개요.PDF

Intra_DW_Ch4.PDF

빅데이터_DAY key

김기남_ATDC2016_160620_[키노트].key

[Brochure] KOR_TunA

Portal_9iAS.ppt [읽기 전용]

빅데이터분산컴퓨팅-5-수정

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

슬라이드 1

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

슬라이드 1

<4D F736F F D20C1A4B3E2BFACC0E5BFA120B4EBBAF1C7D120C0CEB7C220BFEEBFB520C0FCB7AB5F >

dbms_snu.PDF

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

Oracle Database 10g: Self-Managing Database DB TSC

슬라이드 1

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

J2EE & Web Services iSeminar

슬라이드 1


I I-1 I-2 I-3 I-4 I-5 I-6 GIS II II-1 II-2 II-3 III III-1 III-2 III-3 III-4 III-5 III-6 IV GIS IV-1 IV-2 (Complement) IV-3 IV-4 V References * 2012.

Session3. 한국마이크로소프트(전사적 데이터 통합 컨퍼런스).ppt

초보자를 위한 분산 캐시 활용 전략

PowerPoint 프레젠테이션

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

FileMaker ODBC 및 JDBC 가이드

ecorp-프로젝트제안서작성실무(양식3)

Microsoft PowerPoint - Smart CRM v4.0_TM 소개_ pptx

BSC Discussion 1

歯목차45호.PDF

untitled

슬라이드 1

Cache_cny.ppt [읽기 전용]

Oracle9i Real Application Clusters

FileMaker 15 ODBC 및 JDBC 설명서

MySQL-Ch05

PowerPoint 프레젠테이션

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

서현수

15_3oracle

PowerPoint 프레젠테이션

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

NoSQL

Data Industry White Paper

Spring Boot/JDBC JdbcTemplate/CRUD 예제

PowerPoint 프레젠테이션

결과보고서

Oracle Apps Day_SEM

Slide 1

Analyst Briefing

10.ppt

E-BI Day Presentation

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

CRM Fair 2004

PowerPoint 프레젠테이션

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

비식별화 기술 활용 안내서-최종수정.indd

PowerPoint Presentation

最即時的Sybase ASE Server資料庫診斷工具

Ubiqutious Pubilc Access Reference Model

<30332DB1E2C8B9C6AFC1FD28B7F9C0E7C8AB D E687770>

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

Service-Oriented Architecture Copyright Tmax Soft 2005

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

歯CRM개괄_허순영.PDF

슬라이드 1

Master presentation template three line maximum — First Lastname Job Title

I. - II. DW ETT Best Practice

Intro to AWS Cloud-중앙대

PCServerMgmt7

Agenda

untitled

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

슬라이드 1

aws

No Slide Title

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

목 차

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

_LG히다찌 브로슈어

Spotlight on Oracle V10.x 트라이얼프로그램설치가이드 DELL SOFTWARE KOREA

Beyond Relational SQL Server, Windows Server 에디션비교 씨앤토트 SW 기술팀장세원

플랫폼을말하다 2

PowerPoint Presentation

슬라이드 제목 없음

IBM Business Intelligence Solution Seminar 2005 Choose the Right Data Integration Solution ; Best Practices on EII/EAI/ETL IBM DB2 Technical Sales BI

PowerPoint Presentation

5장 SQL 언어 Part II


solution map_....

Microsoft SQL Server 2005 포켓 컨설턴트 관리자용

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

Transcription:

Hadoop 과오픈소스소프트웨어를이용한비지니스인텔리전스플랫폼구축 (Building Business Intelligence Platform Using Hadoop and OpenSource Tools) PlatFromDay2009 2009. 6. 12 김영우 warwithin@daumcorp.com 다음커뮤니케이션

프리젠테이션개요 비즈니스인텔리전스그리고데이터웨어하우스 비즈니스인텔리전스 데이터웨어하우스 대규모데이터분석과데이터웨어하우징 MapReduce vs. DBMS 왜 Hadoop인가? 문제와해결방법에대한고민 Hadoop을이용한 MapReduce Hadoop 기반데이터웨어하우징솔루션 동기 Hive CloudBase 오픈소스를활용한비즈니스인텔리전스아키텍처 Lessons Learned! 2

비즈니스인텔리전스와데이터웨어하우스 비지니스인텔리전스 (Business Intelligence) Business Intelligence is the process of gathering data, turning that data into information, and sharing that information such that it is useful for increasing top-line efficiency and bottom-line value 3

비즈니스인텔리전스와데이터웨어하우스 데이터웨어하우스 (Data Warehouse) Reporting Single Source of Truth Clean Source Data 4

대규모데이터분석과데이터웨어하우징 MapReduce vs. DBMS Row-oriented DBMS vs. Column-oriented DBMS MapReduce vs. DBMS A Comparison of Approaches to Large-Scale Data Analysis: MapReduce vs. DBMS Benchmarks MapReduce on MPP DBMS Aster Database Greenplum 5

대규모데이터분석과데이터웨어하우징 MapReduce vs. DBMS 6

대규모데이터분석과데이터웨어하우징 왜 Hadoop 인가? 문제와해결방법에대한고민 문제 데이터, 데이터그리고데이터 Scale Up vs. Scale Out 비용 고가용성, 확장성그리고안정성 해결방법? Hadoop! HDFS + MapReduce Framework 확장성 유연성 저비용 성능 오픈소스 7

대규모데이터분석과데이터웨어하우징 Hadoop 을이용한 MapReduce Hadoop MapReduce API Hadoop Streaming Pig Yahoo!, 전체 Hadoop MapReduce 작업의 30% Cascading Java 이외프로그래밍언어를위한 MapReduce 툴킷 데이터웨어하우징프레임워크 Hive CloudBase 8

대규모데이터분석과데이터웨어하우징 Hadoop MapReduce 활용사례 http://wiki.apache.org/hadoop/poweredby 데이터분석 검색인덱싱 데이터마이닝 광고최적화 개인화 로그분석 통계, 집계 Global Information Platforms Evolving the Data Warehouse, Jeff Hammerbacher (Cloudera) 9

동기 "Big Data: Viewpoints from the Facebook Data Team", Yahoo 2008 HackHouse, Jeff Hammerbacher (facebook) 사용자는 Java나다른언어로 Map Reduce 작업을직접개발 비정형질의처리에대한유연성 사용자는 SQL에익숙하다! 개발된 BI/ 리포팅시스템과통합및연동 DBMS에서제공하는스키마 추상화된프레임워크 10

Hive Hive is a data warehouse infrastructure built on top of Hadoop that provides tools to enable easy data summarization, adhoc querying and analysis of large datasets data stored in Hadoop files. Facebook Hadoop Sub Project 11

Hive 컴포넌트 Mgmt. Web UI Browsing Hive CLI Queries DDL Map Reduce HDFS Thrift API Parser Planner Execution Hive QL MetaStore Thrift SerDe Jute JSON.. 12

Hive 주요기능 기본 SQL SELECT FROM WHERE FROM 절의서브쿼리 ANSI JOIN ( 현재 equi-join 만지원 ) 다중테이블 INSERT 다중 GROUP BY 샘플링 파티셔닝 Pluggable Map-reduce scripts using TRANSFORM MetaStore 시스템카탈로그 SQL 백엔드 (Derby, MySQL ) JDBC Driver Hive Web Interface 13

Facebook 의 Hive/Hadoop 활용 데이터집계 예 : 일별 / 주별노출 / 클릭수집계 고객 ( 사용자 ) 분석 비정형분석 데이터마이닝 스팸판별 사용자생산컨텐츠에대한패턴분석 애플리케이션 API 사용패턴분석 광고최적화 Lexicon http://wiki.apache.org/hadoop/hive/presentations 14

Hadoop Statistics @ facebook 610 노드 (1000노드로확장예정 ) 2.5 PB ( 압축후, 400 TB) 매일 15 TB 데이터유입 매일 4000 개의작업, 55 TB 데이터엑세스 매일 15 TB 중간데이터생성 15

Facebook 의데이터웨어하우스구성 Web Servers Scribe Servers Filers Oracle RAC Hive on Hadoop Cluster Federated MySQL 16

Hive 로드맵 BI 플랫폼통합 JDBC/ODBC Columnar 스토리지 (HIVE-352) 통계수집및비용기반쿼리옵티마이저 JOIN 알고리즘개선 인덱스 (HIVE-417) 압축 SQL 지원추가 고급기능 : Cube, Frequent Item Sets Sqoop ( SQL-to-Hadoop ) http://www.cloudera.com/blog/2009/06/01/introducing-sqoop/ http://wiki.apache.org/hadoop/hive/roadmap 17

CloudBase High-performance Data Warehouse System for Terabyte and Petabyte scale analytics Hadoop의 Map Reduce 아키텍처기반으로개발 (Java) Business.com 오픈소스, GPL v2 http://cloudbase.sourceforge.net 18

CloudBase 주요기능 질의언어로 ANSI SQL 지원 데이터타입과 SQL NULL 지원 JDBC 드라이버 DBLINK를통한 RDBMS로데이터연동 문자함수, 날짜 / 시간함수, NULL 처리함수지원 집계함수지원 SUM, COUNT, MAX, MIN, AVG, BCAT LIKE 구문에서정규표현식지원 서브쿼리, 뷰 (VIEWS) 지원 TOP n, ORDER BY, GROUP BY, HAVING 구문지원 테이블인덱싱지원 사용자정의함수 (UDF), 사용자정의타입 (UDT) 지원 19

CloudBase 아키텍처 외부외부클라이언트클라이언트 ( 예 (.. Squirrel, Squirrel, BI BI 애플리케이션애플리케이션,, Web Web UI) UI) CloudBase CloudBaseJDBC Driver Driver RDBMS CloudBase Server 로컬파일 Client Request Dispatcher Parser Job Engine Meta Data Manager Meta 데이터 (XML 파일 ) Hadoop Cluster Map Reduce HDFS 20

CloudBase 최적화 테이블인덱싱 해쉬인덱스 Join 알고리즘구현 Semi Join과비슷함 Inner Join, Outer (left, right, full) Join ORDER BY 구현 질의를최적의 Map Reduce 작업으로변환 SQL을 MapReduce로변환 21

CloudBase on EC2 CloudBase on Amazon s Elastic Compute Cloud (EC2) cluster. Public AMI http://cloudbase.sourceforge.net/index.html#ec2 22

Business.com 의 CloudBase 활용 원본로그파싱 (ETL) 및분석리포팅시스템연동 비정형질의시스템제공 주간, 월간리포트생성 23

CloudBase Scalability Benchmark @ Business.com UserSessions 테이블 40GB 데이터 1억 7천 7백만로우 Business.com 프로덕션데이터베이스에서질의실행 위와동일한질의를 CloudBase(Amazon EC2 cluster) 에서실행 24

CloudBase Scalability Query RDBMS 4 Nodes 8 Nodes 16 Nodes 32 Nodes 64 Nodes select distinct( dateid) from table 7 sec 17 min 10 min 5 min 2 min 1 min 23 sec 17 sec 28 sec select sum(bdcrev) as rev from table where lcase(referingengineword) like 13 min 38 sec 26 min 14 min 7 min 53 sec 3 min 19 sec 2 min 3 sec '%business%card% and geographyid = 332 select * from table where lcase(referingengineword) like 13 min 13 sec 20 min 11 min 6 min 34 sec 2 min 27 sec 1 min 26 sec '%xybtq%' select dateid, sum( bdcrev) as bdcrev from table group by dateid 14 min 8 sec 27 min 14 min 8 min 10 sec 3 min 25 sec 2 min 9 sec select userid, count( userid) as cnt_userid 37 min 52 min 33 min 22 min 17 min 14 min from table group by userid order by cnt_userid 57 sec 11 sec 36 sec 25

CloudBase 로드맵 성능 개발자, 사용자를위한커뮤니티구축 라이선스 26

오픈소스를활용한비즈니스인텔리전스아키텍처 Hadoop RDBMS MySQL, PostgreSQL MonetDB, LucidDB CUBRID ETL/EAI Pentaho Data Integration (Kettle) Talend Open Studio (TOS) BI/OLAP/ 리포팅 In-House Apps BIRT, JasperSoft, Pentaho, Palo 데이터마이닝 27

로그분석 쇼핑검색리포팅및의사결정지원 광고최적화 쇼핑개인화 Hadoop CloudBase Pentaho Data Integration (Kettle) Oracle Java/Flex Pig 28

Lessons Learned! Keep It Simple! 로그 Size Matters! The Unreasonable Effectiveness of Data, Google PoC, 테스트그리고성능평가 비용 문제를해결하기위한최선의선택 Data Integration (EAI, ETL) 리포팅, 시각화, 비즈니스성능관리, 데이터분석 데이터품질 Garbage in, garbage out! 버그, 패치그리고워크어라운드 커뮤니티, 블로그, 포럼, JIRA, 메일링리스트 29

Lessons Learned! 협업 데이터아키텍트, 개발자, 비지니스사용자, 데이터분석가, 오프소스! 시스템관리 시스템설정관리 성능모니터링 / 관리 기술 과 전략 의문제 씹을수있는만큼만물어라! 역시, 어려운문제! 30

참고문헌 Hadoop, http://hadoop.apache.org/ Hive, http://hadoop.apache.org/hive/ CloudBase, http://cloudbase.sourceforge.net Pig, http://hadoop.apache.org/pig/ Clarise Z. Doval Santos and Joseph A. di Paolantonio, "The Economics of BI: How to Drive Cost Effective Strategies, Campus Technology 2007 Presentations About Hive, http://wiki.apache.org/hadoop/hive/presentations Trandeep Singh, CloudBase, Business.com Jeff Hammerbacher, Global Information Platforms Evolving the Data Warehouse, Cloudera Kun Tong, Web scale data mining using PIG, 2nd Hadoop in China Salon DBMS2, http://www.dbms2.com/ BI의비즈니스가치증대를위한데이터통합플랫폼, 한국인포매티카 31

피드백? 질문? 아이디어? 32

감사합니다