: Hadoop 출간 은 출판 분 2013 년 10 월 3 윤 퍼플 주 울 종 종 1 1번 윤 2013 본 전부 반 부를 재 권 동를 셔 면 OpenWithNet 총 상 술 워크 (2006 년) : Hadoop 세만 NoSQL 웹 분

Similar documents
분야의 컨설팅과 교육, 그리고 분야별 전문가 모임을 통해 지속적인 상호 발 오늘날의 빅데이터 물결은 2004년 Google의 논문이 발단이 된 Hadoop 프로젝트로부터 시작되었다. 그러나 이러한 빅데이터 기술이 갑자기 생겨난 것은 아니다. 전을 꾀하고 있습니다. 야의

빅 데이터

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

- 2 -

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

DW 개요.PDF

Red Dot Award: Communication Design 에 참 하기 결정해 주셔서 기쁩니다. "성공을 위한 안내서"는 등 절 에 대해 안내 니다. 지체 말고 언 든지 연 해 주 오. Red Dot 은 등 절 또는 등 후 절 를 기꺼 와드 겠습니다. 01 Int

김기남_ATDC2016_160620_[키노트].key

춤추는시민을기록하다_최종본 웹용

Woosuk Bus Line uide Map 선 선0 향0 쌈 니 머 센 빌 할 센 가월 각 호 초 6 뒷 인후 중 태 메 호남 천 호 출발 6:20 센 빌 2 가월 생 프라 뒷 오 태 메 암 흥 천 롯데 궁 선02 향02 선03 프라향 선04 독카센

SMART Podium 500 시리즈 대화형 펜 디스플레이 사용자 설명서

Intra_DW_Ch4.PDF

Ubiqutious Pubilc Access Reference Model

빅데이터_DAY key


ETL_project_best_practice1.ppt

歯목차45호.PDF

안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정] 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규

고객 센터 사용자 가이드

Basic Template

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

ecorp-프로젝트제안서작성실무(양식3)

untitled

Portal_9iAS.ppt [읽기 전용]

CRM Fair 2004

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

AVG Internet Security User Manual

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

Oracle Apps Day_SEM

PowerPoint 프레젠테이션

AVG AntiVirus User Manual

AVG Internet Security User Manual


I. - II. DW ETT Best Practice

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

33 래미안신반포팰리스 59 문 * 웅 입주자격소득초과 34 래미안신반포팰리스 59 송 * 호 입주자격소득초과 35 래미안신반포팰리스 59 나 * 하 입주자격소득초과 36 래미안신반포팰리스 59 최 * 재 입주자격소득초

비식별화 기술 활용 안내서-최종수정.indd

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

AVG AntiVirus 2015 User Manual

1217 WebTrafMon II

Integ

리포트_03.PDF

AVG PC TuneUp 2015 User Manual

AVG Internet Security 2015 User Manual

<BFACB1B85F D333728BCDBC5C2B9CE295FC3D6C1BEC8AEC1A45FC0CEBCE2BFEB B8F1C2F7BCF6C1A42E687770>

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

NoSQL

Chap7.PDF

슬라이드 1

AVG Performance User Manual

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

AVG Protection User Manual

RUCK2015_Gruter_public

PowerPoint 프레젠테이션

2017 1

Service-Oriented Architecture Copyright Tmax Soft 2005

2017 1

PlatformDay2009-Hadoop_OSBI-YoungwooKim

MS-SQL SERVER 대비 기능

歯부장

My Document


Microsoft Word - 조병호

08SW

< E5FBBEABEF7C1DFBAD0B7F9BAB02C5FC1B6C1F7C7FCC5C25FB9D75FB5BFBAB05FBBE7BEF7C3BCBCF65FA1A4C1BEBBE7C0DABCF62E786C73>

다중 한것은 Mahout 터 닝알 즘몇 를 현 다는것외 들을 현 Hadoop 의 MapReduce 프 워크와결 을 다는것 다. 계산 많은 닝은 컴퓨터의큰메 와연산기 을 만 Mahout 는최대한 MapReduce 기 을활용 터분 다용 졌다.. Mahout 의설 Mahou

<%DOC NAME%> (User Manual)

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

고객 지향적인 IT 투자와 운영이 요구되는 시대! 2014년 현재 유통, 서비스 업계의 정보화 화두는 BYOD 수용과 고객의 마음을 읽는 분석 입니다. Market Overview _ Cross Industry 의 정보화 동향 유통과 서비스 업계의 IT 환경은 발 빠르

³»Áö_10-6

dbms_snu.PDF

1 [2]2018개방실험-학생2기[ 고2]-8월18일 ( 오전 )-MBL활용화학실험 수일고등학교 윤 상 2 [2]2018개방실험-학생2기[ 고2]-8월18일 ( 오전 )-MBL활용화학실험 구성고등학교 류 우 3 [2]2018개방실험-학생2기[

[한반도]한국의 ICT 현주소(송부)

41호-소비자문제연구(최종추가수정0507).hwp

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

슬라이드 1

초보자를 위한 분산 캐시 활용 전략

AVG Network edition (User Manual)

슬라이드 1

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

IBM Business Intelligence Solution Seminar 2005 Choose the Right Data Integration Solution ; Best Practices on EII/EAI/ETL IBM DB2 Technical Sales BI

CONTENTS CONTENTS CONTENT 1. SSD & HDD 비교 2. SSD 서버 & HDD 서버 비교 3. LSD SSD 서버 & HDD 서버 비교 4. LSD SSD 서버 & 글로벌 SSD 서버 비교 2

E-BI Day Presentation

PCServerMgmt7

15_3oracle

<30332DB1E2C8B9C6AFC1FD28B7F9C0E7C8AB D E687770>

Microsoft Word - 김완석.doc


PowerPoint 프레젠테이션

ºñ»óÀå±â¾÷ ¿ì¸®»çÁÖÁ¦µµ °³¼±¹æ¾È.hwp

歯CRM개괄_허순영.PDF

RED HAT JBoss Data Grid (JDG)? KANGWUK HEO Middleware Solu6on Architect Service Team, Red Hat Korea 1

세계 비지니스 정보


sdf

Oracle9i Real Application Clusters

Voice Portal using Oracle 9i AS Wireless

Transcription:

빅 데이 Hadoop과 분석법(Analytics) 지은이 윤형

: Hadoop 출간 은 출판 분 2013 년 10 월 3 윤 퍼플 주 울 종 종 1 1번 www.kyobobook.co.kr 윤 2013 본 전부 반 부를 재 권 동를 셔 면 OpenWithNet 총 상 술 워크 (2006 년) : Hadoop 세만 NoSQL 웹 분 (2013 년) 세 인넷 (근간) 반 2 론 MongoDB (근간)

목차 차... 3 I. 배경... 11 1 데이 물결... 11 (1) 데이 도래... 11 (2) 데이 징... 12 2. 슈퍼컴퓨팅 술과 분산컴퓨팅 술... 15 (1) 슈퍼컴퓨팅 (HPC )술... 15 (2) 분산컴퓨팅과 분산파일 템... 17 3. BI와 데이베이... 22 (1) BI (Business Intelligence)... 22 (2) 규 데이베이와 NoSQL DB... 26 4. Google과 Apache 프... 34 (1) Google 데이... 34 (2) Apache 데이 프... 37 II. Hadoop... 39 3

1. Hadoop 요... 39 (1) Hadoop 배경... 39 (2) Hadoop version... 41 (3) 징... 44 2. Hadoop 아키텍... 49 (1) 개요... 49 (2) Hadoop 리 흐름도... 55 3. Hadoop 능요소 HDFS와 MapReduce... 57 (1) HDFS (Hadoop Distributed File System)... 57 (2) MapReduce... 68 4. Hadoop 설치운 과 프 그래밍... 93 (1) Hadoop 설치와 운... 93 (2) Hadoop 프 그래밍... 97 (3) 결론... 99 5. Hadoop과 관련된 프 (Hadoop 생태계)... 102 (1) Pig... 103 (2) Hive... 105 4

(3) Hbase... 109 (4) ZooKeeper... 112 (5) Sqoop... 115 (6) Flume... 117 (7) 능별 주요 Hadoop 관련 프... 118 III. 분 이론... 120 1. 개요... 120 (1) Analytics 개념... 120 (2) 예측분, BI, 데이마이닝 교... 122 (3) 데이 분 위 통계이론 초... 126 (4) 예측분 (5) 2. (Predictive Analytics)... 129 종 Analytics 활... 131 델링과 데이 전 리... 134 (1) 데이 전 리 문 (2)... 134 델링 ( 델개발)... 142 (3) 계 습... 144 3. 주요 분... 145 5

(1) OLAP 분 (DW/OLAP)... 145 (2) 개념 술과 데이 이산화 및 개념계층 생성... 150 (3) 데이 상호관련성 분... 154 (4) 분류 (Classification)... 172 (5) 군집 이론... 211 (6) 예측이론... 241 (7) 사결정 리(Decision Tree)... 246 (8) 림 데이 (data stream) 분 (9) 계열 및 순차데이에 분 (10) 이상치 분 4. Analytics 도... 249... 253 (Outlier Analysis)... 257... 262 (1) 상 분 도... 262 (2) 오픈소... 262 IV. 데이 분 실 예... 268 1. Mahout를 이 군집 분... 268 (1) 개요... 268 (2) Mahout에 군집화 능... 271 6

2. 병렬형 빈발패턴 알고리즘... 281 (1) FP-Growth 알고리즘... 281 (2) 병렬형 FP-Growth 알고리즘... 283 3. R MapReduce에 적 계열 데이분 4. Social CRM과 Social 네 워크 분... 289... 292 (1) 배경 전통적 (분 ) CRM... 292 (2) Social CRM... 295 (3) 소셜 네 워크 분... 298 5. 얼굴인 (보안)과 Hadoop... 302 (1) 사례: 미 보톤 마라톤 폭발 사건... 302 (2) 얼굴인 (face recognition)... 302 (3) HIPI... 305 (4) 덧붙이 말 Minority Report?... 308 5. 부정 탐지와 MapReduce... 313 6. 리밍 이 R과 Hadoop 혼... 320 (1) R 이 map 능만 (2) R Map과 Reduce 현... 320 두에 적 경우... 324 7

V. 데이 적 방 론... 328 데이 성 1. 델... 328 데이 분 (1) IDB 성 델... 328 (2) Sprenger 데이 성 (3). 실 간 예측분 2. 프 3. 델... 331 프레임워크... 334 방 론... 336 (1) 데이 주요 프 세... 336 (2) 데이 프 데이 방 론... 336 맵... 338 (2) 보완관계 Hadoop과 DW... 338 (3) HadoopETL/전 리 능 (4) Hadoop ETL 능 (5) Cloud 이... 338 이... 339 데이 분... 339 4. Hadoop과 데이웨어 우... 341 (1) 문... 341 (2) 양자 교... 341 (3) 공존 전략 최소 Hadoop DW... 346 8

(4) Hadoop DW 적 패턴... 349 (5) Hadoop DW개발동향 SQL on Hadoop... 351 (6) 결론 - 보충논... 352 5. 클라우 컴퓨팅과 데이... 354 (1) 개요... 354 (2) Cloud (3) VI. 데이 플랫폼 데이 분... 354 클라우... 355 데이 결론에 신 여... 357 부 : r 사... 362 1. 개요... 362 (1) 징... 362 (2) 설치와 작업환경... 363 2. 본능 실습... 365 (1) 첫 걸음... 365 (2) R에 데이... 370 (3) r에 그래프 이... 374 9

(4) r 주요 명령어... 375 3. r 프 그래밍... 378 (1) Loop과 vectorization... 378 (2) R 에 프 그램 작성... 381 (3) R에 작성... 383 필자 소개... 387 10

I. 배경 데이 물결 1 (1) 생되 2012 년 생 되 증 2011 년 준 양 8TB (Terabyte)를 넘 Facebook 략 640TB 에 커 인 른다 디 현재 털 1 bit = binary digit 8 bits = 1 byte 1000 bytes = 1 Kilobyte 1000 Kilobytes = 1 Megabyte 1000 Megabytes = 1 Gigabyte 1000 Gigabytes = 1 Terabyte 1000 Terabytes = 1 Petabyte 1000 Petabytes = 1 Exabyte 1000 Exabytes = 1 Zettabyte 11 1 단위를 통 할 Twitter 만 100TB 를 넘 끝 현상 관련된 끝 알

1000 Zettabytes = 1 Yottabyte 1000 Yottabyte = 1 Brontobyte 1000 Brontobyte = 1 Geobyte 2012 년 준 최 Volume Velocity Variety,실 간분 된 중 까? 표현 와 증 께 증되 표 닝 동 상, 예 전 상 등 Complexity 위 3V와 전반 예상된 증 빨! (unstructured) 턴인 만 따져도 되 양만 문 현상 흔히 다음 V3C 존 문(全文)검, 파 것 단순히 양 메 징 문 쌓 증 오늘날 순 (2) 만 카카오 8 천만 건 1 40GB 면 께 실 간 증 12 공 게 되 커 면

날 갈 던 클 현상은 살 든, 존, 분 되 세상 되 웹 (sensor web) (GB) ~ 되 께 든, CCTV, 중교통 되 표현되 센 버 름(data stream) 분 현상은 앞 편 및 간 통신 될 것 (Big Data) 페 (TB) 중 되거 온 인 공간 오늘날 길거 (Internet of Things) 등 1 동안 재탄생 동상 존 항은 및 센 움 되 (Peta Bytes) ~ 중 (Exa Bytes) 분산 (Semi-Structured 및 (Structured) Unstructured) 안 인 (주 관계 Flat Schema No Schema 델) 체계 1 델 된 Interrupt 체계 Sensor web, 교환, 란 다단 상 종 센 를 인넷 말 프 워크를 interface 와 통신 프 콜 규 통신 케 통 히 OGC (Open Geospatial Consortium: http://www.opengeospatial.org/) Enablement) 관계 써 13 SWE (Sensor Web 련 웹 다른 센 워크 간

선되 장큰 다 징은 걸쳐 된 것인 것 론 전 체계 근본 변 를 상인 결 분 올것 몇 히 신 단 거 실현되 간~ 면 게 운 세상 예 다 신상품 통 를 통 던것 던것 온변 통 오늘날 두 언 통 방 떤 것은 30 년 전 월 운 인별 안상 종 프 세 단 은 춤 진단은 료 험 실 간 를 술 변 컨, 를 통 간 단 분 실현 등은 단순히 산술 원 넘 존 전산 된것 다 거 꾸 생 못 침, 14 선 상 던 것들 생활양,, 게 까 향주게

2. 슈퍼컴퓨팅 술과 분산컴퓨팅 술 (1) 슈퍼컴퓨팅 (HPC )술. HPC와 분산컴퓨팅 흔히 쉽 만실 면 것 동안 것 전, 중 탄생 것 생, HPC (High CDC Seymour Cray 슈퍼컴퓨 전 거듭 20 세 슈퍼컴퓨 (MPP: massively parallel supercomputer) 되 MPP 란 병렬컴퓨를 말 것들 며 PC 슈퍼컴퓨 되 천~ 거 컴퓨 클 프 세 를장 분 할 거듭 게 규 두를 많은 분 와 같은 전 못 던 뮬 션등 컴퓨를 밀결 : (loosely-coupled) 컴퓨팅 (Grid Computing): 연결 규 표 인 HPC 두 (tightly- 컴퓨를 느 MPP (Massively Parallel Processing)술: 슨 게결 병렬 클 를 coupled) 들 만 슈퍼컴퓨팅은 다음 된 술 재탄생 슈퍼컴퓨 Performance Computing) 1960 년 운 술 분산 컴퓨팅 현방 술 다음 2 전 인 원 를들 향 주 병렬 분산 컴퓨팅 (Distributed Computing) 술 (Parallel Computing) 술 15 컴퓨를

편 슈퍼컴퓨 위 프 싸 만 밍 상 부, 슈퍼컴퓨 필 프 램 같은 오픈 같은 솔 분할 진 켜 뒤 체 션 들상 간 때문 듯 되 브 클 중 다른 만큼 병렬 습 며 를 술 되 16 인 것은 다음 (Data Aggregation) 인 분산파 표 장 거 볼 술 응 커 면 컴퓨 Beowulf 와 방 술 HDFS 할 분산 프 세싱 를전 되 다음 슈퍼컴퓨. 슈퍼컴퓨 간 코딩 거 존 HPC 슈퍼컴퓨 PVM(Parallel Virtual 메 활 던 슈퍼컴퓨 를 다 위 위 MPI(Message Passing Interface) Machine) 등 관 같 규 힘들 므 표 인 Hadoop 템 본 되 Lustre파

템 할 같은 존 병렬 파 템 손쉽게 게 설계되 (Data Analytics) 슈퍼컴퓨 분 분 델링 델 분 결 전문 표현 히동 들 론 분 델 량 되 (Data Visualization) 분 되 연산 중 외 분 힘들 따 표현(Dynamic visualization) 통 체와 쉽게 연산 다 원 결 를 인간 되 (2) 분산컴퓨팅 분산파 템. 분산컴퓨팅 분산 컴퓨팅(Distributed Computing) 연결 상 말 넓은 템 안 협 게 밀결 효율 컴퓨팅 연결 병렬컴퓨팅까 인 은 scalability) 2 원 키 키 위 방 (Vertical scalability)와 것 (scalability)와 다 (High Availability) 선 컴퓨 컴퓨를 써 컴퓨팅 분산컴퓨팅 분산컴퓨팅 본 란 평 (Horizontal 다음 방 컴퓨 17 히 것 말

연산 메 다 디크, 설 거 것 통신연결 I/O CPU 디크 컨 롤 (HDC) 등 증 교체 은 통신 선 면 Non-blocking I/O와 병렬 프 밍 동 I/O를 델 재설계 (예: 메 전 방 선 (MPI: Message Passing Interface), blocking/buffering 등) 선 위 Event Scale-up 프 램 되만 할 장 방 후부 컴퓨 (Node) 상 Peer-to-Peer 델 를 Scale-out 인 선 필 결 템 변 양 질 다음 방 진 단 HPC 게 된다 단 평 평 2 표현되며 반면 컴퓨 평 반면 면 반 면 것 컴퓨팅 델 등 Master-Slave 표현 할 인 다 존 투 를 다 장 예컨 컴퓨를 몇 동. 장 분산컴퓨팅 통 장 주 다음 위 2중 와 Failover 본 통 예방 18 같은 방 동원 및 밸런싱

. 분산 파 파 템 만들 진 란 프 체 파 운 통블 체 효율 통파 장, 관 단위 관 부 운 환 전 연장선 상 컴퓨 할 때 않 념 (transparency) 및 동 편 느끼 (반면 체 템은 분산환 할 위 장 및 전송 ) (block)단위 템은 컴퓨 분산 파 파 체 웨 며 오늘날 원 를 틸 위 께 템 되 파 전 템,다 위 종 투명 ( 등) 및 캐싱 (caching) 술 통 안 선 편 파 템 장방 념 까 분산컴퓨팅 존재 전 최근 분산파 것 찬 템 프 디 콜 Lustre 병렬 주 분산파 되 브를 방 템 규 클 컴퓨팅 며 GPL v2 센 따른 오픈 다) Linux와 cluster를 중 SMB를 반 재 분산파 인 분산파 템 (오픈 살펴본 님). 술 반 19 크 템 GFS (Google File System) GFS Google GFS 킨 프 DFS (Distributed File System) 크 프 컴퓨 명칭 며 오늘날 부분 슈퍼컴퓨 같 된 최 워크 mount 및 상 템 표 인 것은 다음 Luster( 평 NFS (Network File System) 1980년 분산 파 와 되 때문

GFS Google 은 당 연결 부 검 필연 scale-out 방 히 별 컴퓨 장 같은 항 설 털 벤 때문 예 되 컴퓨 량 파 된것 체 장 를 원할 것. 실 원 파 등 량 규 streaming 항 템 선 및 효율 결 위 파 (Append) ( 히 streaming read 다음 설계상 원 ) 되 3 길 파 단위 (64MB) 파 본(replicate) 센 Google 않며 NAS 를 거 3 클 할 것. GPU 장 되 다 장 당 부 다음 히 웹페 2 웨 따 Write-once, read-many 및 PC 를 2 들 컴퓨 된 규 와 같은 관 규 Google 은 만 컴퓨 므 활 버 부분 CPU 당 4 core 버당메 않 버들은 크 크 반 Ethernet 위 만 않다 연결되 Stream 뒷부분 (III. 분 세히 살펴 봄. 20 3.주 분 (9)

Master-Slave 방 통 컴퓨 전체 메 를 관 caching 은 파 템 관련 않 class 상 snapshot, append 등 custom API 뒤 되 듯 체계를 손쉽게 GFS 술은 상당부분 Hadoop 파 술 근간 되 21 써 템

3. BI와 데이베이 (1) BI (Business Intelligence). BI 출현 전 결 및최 후 BI 전략 원 중 할 원 념 같 설명 BSC Balanced Scorecard. 균 부프 단 표 VBM 습 (재, 장) 관 표 를 결 벗 준 평 중 준 Gartner H. Dresner 를 계상 관련 안. 22, 표를 와 장 것. Value-based Management. "business intelligence" 4 재 들 간 관. 표 실현 위 세, 출 던 것 분류할 솔 션 전략 름 주 결 다4. BI 를 다음 전 전 1989 년 BI 연 전략 BI 4 원 DSS (Decision Support System) 컴퓨 중간관 것 전. 출, 본 중 률(ROIC) 관 말 념 괄

솔 션 설명 ABC Activity Based Costing. 활동준 원 간 를 투 원 준 품 히 원 분 원 ERP, 변환되 써 를분 말다 ERP, CRM, SCM (Supply Chain Management) 등 솔 CRM 공 BI 운 계산 방. BI 장 전환 On-line Analytical Processing. 다양 OLAP 존 템 계산. 션 신 장 BI 것 Extraction-Translation-Loading. ETL 위 인프 전산 템 웨 를 출 재 것. 변환 후 를통 종 /변환 후 Data Warehouse. 다양 운 DW 템 출, 장 (repository)를 말다 전 털. 인넷 Portal BI 종 BI 다양 위 와 관련 념 주 필. DW/OLAP 다양 를 은곳 넓은 할 것은 웹 념 만 OLTP 상 OLAP 은 외부 를 상 (,반 히 웨 와 OLAP 분 (Analytics) OLAP (Online Analytical Processing)은 OLTP 념 응되 되) 거 종분 23 것 원 면

것 분 종, 것 OLTP 표 OLAP 간 (Operational) 템 원천 중 거 Data Warehouse 와 다양 원 프 징 전 부문별 Data Mart 거 를 다양 템 출, 변환 결 세 상 면 종 된다 세부 항 (snapshot) (Multi-dimensional) 최종 상 신 짧 단순 질 델링 (Query) 상 되 batch 표준 및 갱신 질 통상 선 위 간 주 크 교 되 질 빠른 응 교 간 반되 상 및 크 긴 원 음( 거 필 등 위 를 다 월~.( 준 통계 많은 준 ) 많은 양 부분 archive) DB 설계 많은 DB 블 다 원 델링 통 cube 설계 규 원 실 간 를위 필 재. 24 신 당 재를 실

5 분 웨 것 때 된 (OLAP OLTP 다 DB 듯 후 전 히 현상은 원분 규 당 BI 와 밀 를 험 반면 ) 되 관련 두 블+ 뒤 V. 교 장 semi- structure Bulk (key, value) 단순 상 히 들 진 블 Dimension 만 게 되 되 면 와 DW 를 Cube 설계 = Fact 게 관련 반 히밀 DW 후 분 단계 항 5 은 (atomic, structured) 징 델 템 Data Warehouse 것 를 주된 검 DW/OLAP 를 곳 위 Cube 설계를 및 주된 활 징 든 OLTP 블 뒤 위 존 DW 방 론 Hadoop DW 현상 세히 살펴본 25 장

(2) 규. 규 본 와 NoSQL DB 주 (Large Database) 면 오늘날 Small database 와 big database 않 존 존재 것은 증 만운 버 것 따 1~2 명 DBA 10 만 record 10 만 ~1000 만 방 체 1000 만 코 최 규 Partitioning 분할 를 은 다음 설명 DB 같 버 다양 6 분할 분할 분산 징 블별 분할 운 ~ > 40GB Vertical Partitioning 버 10GB ~ 40GB 샤딩 (Sharding)은 람 DBA 코 6 운 No Partitions 별 실 DBA <10 GB? 다 훨씬 큰 규 를 상 메인 메 존재 버를 방 현 큰변 거 26 간단 필 면, 전체 템 샤딩 필

규 규 관 분산 클 술 환 동원 간 consistency 별 관계 최근 장 크며 index 체를 써앞 된 를위 언 평 장 관 같 HBase Cassandra Vertica CloudTran Key 반 Key 반 SQL 반 OLTP NoSQL NoSQL 다, 다, Tool 부 Tool 부 술 귀 오픈 오픈 상(HP) 상 단 께 델 훨씬 완 슈 할 것은 다음 장 다 HyperTable 빠름 체 체 술 오픈 항 NoSQL (Range)반 Partitioning 운 류를 총괄 Table 크 때 커질 버를 분 - 를 분할 방 선 중 예 방 Key Hash Hash 반 Partitioning 따 계산 버를 선 27 Hash 념은

. NoSQL DBMS 를 중 (atomic) 않은 많 NoSQL pair 중 존 관계 안 부분 Key 와 큰 징 된 중 NoSQL 응되 Value 다 되 큰 반향 를 관 때문, (Key, Value) 진 key-value pair란? 연관 key-value pair (KVP)란 때 key 별된 름(name) 변 면 value 현되 다음 같 름 value country 민 별 value key 인것 다 표 (lookup table), 넓게 면프 진 말 예컨 key 당되 술된 상황 key 진2 종 key-value pair 예를 들 쉬 램 상 할 블 (hash 든변 와 것. 울 city 2013 년 year 체 주 Key-value pair 흔히 참 table) 등 통 표 방 다음 같 은솔 션 따 다르 만 MongoDB 및 Python 표현 { "country" : "민 ", "city" : " 울", "year" : 2013 } 28

Java 것 방, Map 실 (동 )를 표 인 것은 Map 킨 HashMap ( 동 면 된 예컨 다음 같 ) HashTable 면 된 Map map = new HashMap(); map.put("country", "민 "); map.put("city", " 울"); map.put("year", 2013); 쉬 블 (hash table) 편 (Key, Value) pair 동 것 중 (key, value) pair 선 만들 쉬 진 Hash 블 싱 key 를 장 은 최 장 관 위 만들 며 때 bucket 당될 value 를 므 key-value pair 를 분 29 key 를 란 key value pair 당 key-value pair 를 bucket 블 당 bucket 뒤 쉬 현되 때문 key key 설계 원 위 블 동 원 표(lookup table) 위 hash bucket 부동 를 쉬 란 key 를 효율 종 참 블은 원 할때 게 된 hash 것 블

NoSQL DBMS 량 히 며프 외 방 밍 를 체 현방 따 다음 같 월 장 SQL 름붙 진 게되 종류 분류할 델: key/value lookup 방 표 Amazon Dynamo 를 관 Column Families: Google BigTable 논문 key를 종 HBase, Cassandra 문 표 프 표준 따 되 체를 (serializing) 를 술 인를 장 (예 CouchDB, : 반 다른 장 거 것 된 : semi-structured 프 론 거 며 Neo4j 등 람 할 JSON (JavaScript Object Notation)은 장 게 예 JSON ) 문 설계된 연결 킴 써 row/column 7 MongoDB 7 hybrid (Document) 중 를 들 된 것 attribute (column) column은 SQL 까 4 key-value store NoSQL (Query)다 Not Only SQL 장되면 NoSQL 은 최근 존 관계 념 및 컴퓨 두 교환 표준 JavaScript 언 떤 컴퓨 언 워크 상 문 간략 30 전송 변 XML 체

표 인 Hadoop Google BigTable 상당부분 HBase 장근 솔 할 뒤 션 설명할 예 품별 장단 방 BigTable 것 HBase 며 Cassandra Dynamo 혼 (HBase 등 NoSQL ) 징 다음 표 HBase Cassandra Vertica MongoDB HyperTable 장 Key 반 Key 반 Closed- Document- HBase NoSQL, NoSQL, source, oriented., Amazon SQL 표준, Cloudera 원 원,, 질 31 full-index 공 상 다 든. 오픈 빠름,

장단 HBase Cassandra Vertica MongoDB HyperTable 단 다, tool 다, tool 부, 단순 부,단순 queries queries 벤 존 솔 션 면 은 까다 됨 움. HDFS 와 SQL 반 검 appl. 것 권장 주 별 뜻 relational 것 게 ACID8 준 들상 면 간 관계를 relation 란 규 블 상 간 관계를 ) DB 종 Table 만들 (RDB 교 SQL 관계 않음 안 장 템 완벽 존, 완전 분산 질 SQL 문 SQL 란 선언문 (high-level declarative language) 질 9 다음 몇 된 단계를 거쳐 된 8 Atomicity (All or Nothing), Consistency (referential integrity 문 ), Isolation 및 Durability 를 9 위 SQL Hadoop 은 장 듈 며 transaction 상 완 면 되 때문 32. 검증 설 주 신규 후 Arbitrary 침 된 SQL Hadoop

질사항 수동입력 Query parsing Query 분 Query 최적화 Query 실행 결과출력 런 규 RDB (normalization) 규 반면 XML, JSON 같은 반면 다른 방 체 방 인위 를 프 표현 프 결 설 ( 게 concurrency 런 중 때문 편, 관계 DB 와 때 를 순 질 것 ) 실 SQL 훨씬 다양 33 던 통 램 <key, value> 램 변 철 히준 실 계 ( 게 까 NoSQL)은 를 표현할 선되 며

4. Google과 Apache 프 (1) Google BC (원 전) 빗 술 AD (원 후) 전단계별 인넷 분 컴퓨 (BC: Before Computer) 거 분 Google 등장 할 10 인넷 설. 론 깊, 컴퓨 전 후 (AC: After Computer) 전 (BI: Before Internet) Internet) 것 후 (PI: Post 설명 중 히검 인 Google 은 웹 상 든 방 프 워크를 11 Google 연 않 GFS 10 통 계 술및 1994 년)를 점 11 편 론 글 되 프 론 Google 든 품 방 프 방 만 부 MapReduce 워크를 되던 인넷 상 본 ( 통. 히검 뿐만 Maps 은단 PageRank 알 광 등 Game 즘 론 활 할 다 34 선 Google 컨 은

듈 (stack) 략 GFS: MapReduce: MyDQL gateway: BigTable: Sawzall: 인 은 다음 같 장 규 (ingest) 공 메인 언 (DSL: domain specific language) Evenflow (왼 ): Evenflow ( 운 ): 케쥴링 Dremel (오른 ): Columnar storage + 메 Dremel (왼 ): End user Chubby: 템 Google 다 등재되 은 관련 프 질(query) 워크를 종 참 름 란히 오픈 전세계 인넷 들결 프 workloads 연결 35 며 상당 인참 를 델 Apache

Sqoop 종 SQL to Hadoop 를 Hadoop import Pig Dataflow 향 Hive SQL반 Oozie Hadoop job 프 웨 JDBC 진 Cloudera 언 인 Pig Latin 컴파 웨 Facebook 워크플 Yahoo 36 /coordination..

상 든 Apache 프 결 프 거 프 거 참 를중 연결되 인 Hadoop 및 진 될예 12 며 와 관련된 주 Hadoop 프 중 위 근 예컨 다음 Hadoop Fatigue 를 거 줄 운프 13 따 를 Apache 념할 것은 관련 프 20 다 전 후 논 주 다만 순간 되 면 진 워크를 은 Hadoop 12 관 안되거 공통 게된것 Hadoop MapReduce, HDFS, HBase 등 만 전체 만 프 프 프 웨 할 다양 표 주 프 (2) Apache 현재 은 를 효율 등재 오픈 반인 Apache 오픈 웨 전체 것 중 인 전체 균 논를 살펴 볼 것. http://www.bytemining.com/2011/08/hadoop-fatigue-alternativesto-hadoop/ 편 다른 표 ECL 체언 프 반 프 HPCC Systems 를 들 밍 델 통 ( http://hpccsystems.com 참 13 Apache 프 절 를 거쳐 본 프 프 근거 선 된 등재된 최근 프 를 ) 후 Incubation 프 웨 되 후 중 인 tajo incubation (http://tajo.incubator.apache.org/ ) 37 된

Hadoop 중 MapReduce 를 밀 게 연결되 살펴 면 (core) 므 다음 장 HDFS 와 HBase, Pig, Hive 등 들 38 와같