PowerPoint 프레젠테이션

Similar documents
Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

PowerPoint 프레젠테이션

RUCK2015_Gruter_public

빅데이터_DAY key

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

1217 WebTrafMon II

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

PowerPoint 프레젠테이션

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

ETL_project_best_practice1.ppt

Apache Ivy

PCServerMgmt7

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

슬라이드 1

PlatformDay2009-Hadoop_OSBI-YoungwooKim

Data Industry White Paper

PowerPoint 프레젠테이션

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

[Brochure] KOR_TunA

Microsoft PowerPoint - Smart CRM v4.0_TM 소개_ pptx

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

TTA Journal No.157_서체변경.indd

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

슬라이드 1

PowerPoint 프레젠테이션

슬라이드 1

Cloud Friendly System Architecture

NCS : ERP(SAP) ERP(SAP) SW IT,. SW IT 01., 05., 06., 08., 15., , 05. SW IT,,,, SAP HR,,, 4,,, SAP ABAP HR SCHEMA, BSP,

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

PowerPoint 프레젠테이션

장기계획-내지4차

Interstage5 SOAP서비스 설정 가이드

플랫폼을말하다 2

빅데이터분산컴퓨팅-5-수정

김기남_ATDC2016_160620_[키노트].key

PowerPoint 프레젠테이션

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

다중 한것은 Mahout 터 닝알 즘몇 를 현 다는것외 들을 현 Hadoop 의 MapReduce 프 워크와결 을 다는것 다. 계산 많은 닝은 컴퓨터의큰메 와연산기 을 만 Mahout 는최대한 MapReduce 기 을활용 터분 다용 졌다.. Mahout 의설 Mahou

슬라이드 1

¿ÀǼҽº°¡À̵å1 -new

Oracle Database 10g: Self-Managing Database DB TSC

vm-웨어-01장

서현수

The Self-Managing Database : Automatic Health Monitoring and Alerting

CRM Fair 2004

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

PowerPoint 프레젠테이션

Portal_9iAS.ppt [읽기 전용]

슬라이드 1

사회통계포럼

놀이동산미아찾기시스템

PowerPoint 프레젠테이션

MAX+plus II Getting Started - 무작정따라하기

Intra_DW_Ch4.PDF

슬라이드 1

표준프레임워크로 구성된 컨텐츠를 솔루션에 적용하는 것에 문제가 없는지 확인

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

컴퓨터과학과 교육목표 컴퓨터과학과의 컴퓨터과학 프로그램은 해당분야 에서 학문적 기술을 창의적으로 연구하고 산업적 기술을 주도적으로 개발하는 우수한 인력을 양성 함과 동시에 직업적 도덕적 책임의식을 갖는 IT인 육성을 교육목표로 한다. 1. 전공 기본 지식을 체계적으로

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록


1. 자바프로그램기초 및개발환경 2 장 & 3 장. 자바개발도구 충남대학교 컴퓨터공학과

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

PowerPoint 프레젠테이션


슬라이드 1

03여준현과장_삼성SDS.PDF

13 Who am I? R&D, Product Development Manager / Smart Worker Visualization SW SW KAIST Software Engineering Computer Engineering 3

비식별화 기술 활용 안내서-최종수정.indd

Special Theme _ 모바일웹과 스마트폰 본 고에서는 모바일웹에서의 단말 API인 W3C DAP (Device API and Policy) 의 표준 개발 현황에 대해서 살펴보고 관 련하여 개발 중인 사례를 통하여 이해를 돕고자 한다. 2. 웹 애플리케이션과 네이

Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

품질검증분야 Stack 통합 Test 결과보고서 [ The Bug Genie ]

PowerPoint Presentation

소프트웨어 정의 스토리지

Basic Template

Level 학습 성과 내용 1수준 (이해) 1. 기본적인 Unix 이용법(명령어 또는 tool 활용)을 습득한다. 2. Unix 운영체계 설치을 익힌다. 모듈 학습성과 2수준 (응용) 1. Unix 가상화 및 이중화 개념을 이해한다. 2. 하드디스크의 논리적 구성 능력

歯이시홍).PDF

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

Intro to Servlet, EJB, JSP, WS

Slide 1

untitled

MOD360: Microsoft Virtualization 360A Panel Discussion on Microsoft’s Virtualization Strategy

Install stm32cubemx and st-link utility

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

PowerPoint Presentation

consulting

スライド タイトルなし

슬라이드 1

Transcription:

2014 한국소프트웨어아키텍트대회 빅데이터플랫폼 SW 아키텍처 OCE Flamingo/Realtime Stream PM 김병곤클라우다인대표 fharenheit@gmail.com

Big Data Platform Mission Apache Hadoop EcoSystem & Commercial Big Data Platform Support Vanilla Hadoop, Cloudera CDH, Pivotal HD, Hortonworks HDP Pivotal HAWQ, Business Intelligence, Data Source Log & Metadata Management Job Monitoring & Tracking Workflow Management Job Management Auto Provisioning Analysis Program Visualization

Big Data Platform Mission

Big Data Platform 주요이슈 너무많은오픈소스 개별오픈소스의기능 / 비기능적특징 배포판별서로다른버전과호환성이슈 상용빅데이터 SW 와오픈소스 SW 의조합이슈 데이터를처리 / 분석하는다양한모듈을지원이슈 지속적으로업데이트하는오픈소스의통합이슈 데이터거버넌스 로그데이터의활용을위한기능제공의한계 전사조직에빅데이터확산을위한플랫폼의역할정의이슈

Flamingo In Open Cloud Engine

Flamingo In Open Cloud Engine Apache License v2.0 (Server) + GPL v3 (Web UI) 다수의 Hadoop Cluster 지원 방화벽밖에서 Hadoop EcoSystem 및 Infra 를활용 기작성한 MapReduce 를재활용극대화를위한프레임워크내장 워크플로우구성을위한그래프프레임워크개발 Hadoop 1/Hadoop 2 모니터링및 MapReduce Job 추적 다양한데이터처리플로우를구성하는워크플로우디자이너및다양한데이터처리 / 분석프로그램제공 HDFS 등의파일시스템관리, Audit, 권한관리 Hive Metastore 연계및데이터베이스 / 테이블관리

Workflow Designer 다양한분석모듈을탑재할수있도록설계 ( 예 ; Mahout) UI 를통해미리제공하는분석및처리모듈을드래그앤드롭으로처리 데이터분석 / 처리모듈 ( 누구나추가가능 ) 각모듈별설정 워크플로우목록 전통적인분석도구의 UI 와 Apache Hadoop 을결합하여데이터분석및처리플로우를구성

Workflow Designer :: 주요이슈 데이터프로세싱을위한워크플로우디자인 각노드간의존성관리 다양한 MapReduce 의파라미터처리 hadoop jar test.jar wordcount input in.txt output out.txt hadoop jar test.jar wordcount input.txt output.txt 스케줄러에등록한워크플로우가실행할때경로처리 복잡한워크플로우의해석및실행 ( 예 ; 분기처리 ) 워크플로우스케줄링시변수값변경 기개발한 MapReduce 의 UI 화를통해재사용하기위한통합방안

Workflow Designer : Sample 현장에서필요하다면다수의노드로구성할수있는워크플로우를실제로구현하여사용함.

Workflow Designer MapReduce 개발자마다모두파라미터처리가틀리고표준화되어있지않음 이러한다양한 MapReduce 를빠르게어떻게통합할것인가?

Workflow Designer 대부분의 UI 컴포넌트는재사용가능하도록설계하여컴포넌트형태로제공 MapReduce Module 과 UI 통합을위한프레임워크개발을통해빠르게추가 재사용컴포넌트 UI 구성

Workflow Designer 모듈의아이콘도메타데이터를통해서정의하여별도코드작성을최소화하고 관련기능을통합프레임워크로위임하고사용자는메타데이터만으로핸들링

Workflow Designer :: 현재 분류내용주요출력결과 MapReduce 처리내용 수치데이터기초통계 합계, 평균 (4 종 ) 분산, 표준편차최대 / 최소 / 중앙값 데이터의분할및분할데이터의통계산출 분할산출된통계의합산및최종통계산출 수치 / 범주데이터기초통계분석 범주데이터기초통계 수치데이터확신도기반합계 발생빈도, 발생비율 확신도 (Certainty Factor) 기반합계 데이터의속성값별빈도수산출 빈도에대한전체데이터대비비율산출 데이터의분할및분할데이터의확신도산출 분할산출된통계의합산및최종확신도산출 전처리 수치데이터 Min/Max 기반정규화 Min/Max 정규화값 데이터의 Min/Max 수치산출 Min/Max 값기반데이터정규화 유사 / 상관분석 이진벡터데이터기반 수치벡터데이터기반 문자열데이터기반 Hamming, Jaccard/Tanimoto, Dice Euclidean, Manhattan, Cosine, Pearson Hamming, Edit(Levenshtein) 데이터의속성별분해레코드생성 분해된속성별데이터레코드를이용한유사 / 상관수치계산 Clustering K-Means, EM 데이터최근접할당 ( 거리 / 확률빌도 ) 군집별할당데이터를이용한군집중심정보갱신 ( 거리평균 / 데이터분포 ) 마이닝기계학습 Classification ID3 의사결정트리의분류노드선택을위한속성별정보량계산 Recommendation Collaborative Filtering Item/Use based Recommendation 사용자및아이템간상관계수도출 아이템속성별이진유사도계산 사용자별추천아이템생성 공통 Hadoop EcoSystem Program MapReduce, Hive, Pig, Java, Python, Bash

Workflow Designer :: 계획 분류내용주요출력결과예정일정 전처리 MapReduce ETL Grep, Filter, Encrypt, Group By, Remove 등등 형태소분석한글형태소분석 완료 Flamingo 1.3 에서지원 Clustering Canopy Flamingo 1.4 에서지원 마이닝기계학습 Classification Logistic Regression, Random Forest Naïve Bayes Flamingo 1.4 에서지원 Graph Apache Giraph, GraphBuilder Flamingo 1.4 에서지원 공통 Hadoop EcoSystem Program Sqoop Flamingo 1.2에서지원 Apache Spark & Shark Flamingo 1.4에서지원 PL/Java Flamingo 1.4에서지원 R Statistics Flamingo 1.3에서지원 Commercial SQL On Hadoop Pivotal HAWQ Flamingo 1.5 에서지원 Input Format Binary File Format Flamingo 1.3 에서지원 기타 File Format PDF Text Extractor Flamingo 1.3 에서지원 Excel Text Processor 현재적용완료 Framework 비정형처리 Apache UIMA Framework 현재적용완료 Log 처리 Apache Web Server Access Log To CSV 현재적용완료

HDFS File System Browser 빅데이터플랫폼의주요기능중핵심은로그및데이터를다루는것 인프라에직접접근하지않고통제된환경에서로그및데이터에접근 로그및데이터를저장하기위한다양한기능필요 로그및데이터핸들링시행위모니터링

HDFS File System Browser :: 주요이슈 하나의디렉토리에수없이많은파일및디렉토리 아주많이존재하는경우 UI 표현의문제발생 ( 예 ; 20 만개 ) 대용량파일의업로드및다운로드그리고통제 사용자의등급별접근제어및표시여부 특정등급의사용하는사용자는해당경로의디렉토리 / 파일이보이지않아야함 파일의내용표시 압축파일, 사용자만의 Writable 을사용한바이너리파일은표시가어려움 Object Storage 가백엔드인경우파일처리레이어의추상화가매우어려움 ( 파일방식자체가상이 )

HDFS File System Browser 파일시스템에서 Hive DB, Table 을생성하고바로조회및통계처리가능

HDFS File System Browser 디렉토리를 Hive DB 와 Table 로전환 브라우저에서는 Hive DB 와 Table 경로를다른아이콘으로표시하여확인

HDFS File System Browser 파일시스템브라우저의모든활동을모니터링

Hive Editor & Metastore Browser

Hive Editor & Metastore Browser :: 주요이슈 다양한배포판간호환성 Protocol Buffer, Thrift 호환성은동일배포판도버전에따라서매우상이 배포판에따라서관련기능이커스터마이징되어있어서연계어려움 Hive QL 처리시장시간실행하는 Hive QL 의경우웹세션종료문제 Hive 에서제공하는 SERDE 지원문제 Hive QL 을실행하는 Hive Server ½ 의접근방식의차이와호환성 Managed/External Table 과 Complex Data Type 지원 Table Partitioning 지원

Hive Editor & Metastore Browser :: 사례 TYPE="IPINSIDE" TIME="2014-03-20 17:40:37 ID="guest0899349" MAC="AA-BB-01-18-68-68 NAT_IP="10.24.104.104" NAT_IP_NATION="USA" PROXY_USE="Y" VPN_USE="Y" REMOTE_USE="Y" PROXY_IP="192.24.104.104" PROXY_IP_NATION="USA" VPN_IP="192.24.104.104" VPN_IP_NATION="USA" SVC_CODE="SVC_CODE_089 349" HDD_DISK="HDD_DISK_0899 49" CPU_INFO="CPU_INFO_0899 49" USE_OS_NATION="USA" MESG="mesg... time[13952 4830] rnd[875899349] unq[5 000000]

Expression Language 로그수집은보통 YYYY MM DD HH 등과같이일정한주기를가지며데이터처리또한일정한주기를가짐 동적인값들을얻고자할때 Workflow Designer 에서활용 예 ) 오늘날짜 : dateformat( yyyymmdd ) dateformat( yyyy-mm-dd ) 워크플로우가실행할때특정한값들은해당시간으로대체되어야하는경우가발생 예 ) 오늘실행하는워크플로우는어제날짜의디렉토리에기록 ( 일배치 ) 제공하는 Expression Language dateformat( DATE FORMAT ) dateformat( yyyymmddhhmmss ) hostname, escapestring, yesterday, tommorow month, day, hour, minute, day( yyyymmdd, -1) :: 어제날짜 (20131111) trim, concat 등등

Expression Language 입력필드에 ${EL} 형식으로입력하는경우동적으로해석하여값이변경됨.

Job & Workflow Monitoring 워크플로우는다수노드로구성되며각노드는 MapReduce Job 으로실행가능 관리자및사용자는자신의 MapReduce Job, Workflow 의진행상태를확인하기를원함

Job & Workflow Monitoring :: 이슈 Workflow 가실행하는 Job 을추적할수없음 Pig Latin/Hive QL은다수의 Hadoop Job을생성 워크플로우가얼마나많은자원을사용했는지파악이매우어려움 Hadoop 의 Job Tracker, History Server 를외부에공개하는데보안상이슈가있음 Job Tracker, History Server 를별도 API 로추출하는데상당한한계가있고, 정보도완전히수집되지않음

Job & Workflow Monitoring MapReduce Job Configuration 검색및다운로드기능 데이터검증을위한 MapReduced 의 Counter 정보 MapReduce 의처리현황그래프

Job & Workflow Monitoring 워크플로우디자이너에서설계한워크플로우의동작상태모니터링 MapReduce, Pig, Hive Job 의완벽한로그보기

Job & Workflow Monitoring Hadoop Job 모니터링에서도반대로추적이모두가능해야함.

Job & Workflow Monitoring Resource Manager 상태정보 등록되어있는배치작업현황

Job Scheduling 작성한워크플로우는운영시배치스케줄링필요 스케줄링작업이증가하는경우노드증가시스케줄러용량도증가 Cron Expression 기반스케줄링요구 워크플로우작성시워크플로우변수를스케줄링시점에서변경하여적용 ( 예 ; HR 부서코드 ) 배치작업의생명주기관리

Job Scheduling 엔진의메모리상태 작업스케줄링현황 등록되어있는배치작업현황

Job Scheduling Cron Expression 을 100% 지원

Flamingo Project Spring IO Spring Framework 4, Spring Boot 1, Spring Web MVC Web Rich UI Framework Sencha ExtJS 4 (GPL v3) Persistence : MyBATIS Hadoop EcoSystem : Hadoop 1.x & 2.x MySQL5.1 or higher JDK 1.7 Hadoop Distribution Vanilla Hadoop Cloudra CDH Pivotal HD (With HAWQ)

유사프로젝트 : HUE

결론 데이터를다루는사용자의행위를이해하고과거에사용했던도구를철저하게분석하여 Hadoop 에최적화 UI 기술이절대적으로필요하며인프라 SW 에대한이해도도높아야함 빠르게변하는오픈소스에대한지속적인지원이필요하므로전담개발인력이계속유지되어야함 배포판별호환성문제가심각하고배포판이많으므로검증작업은배포판이릴리즈될때마다즉시수행

Flamingo Project 관련사이트 Source Forge ( 다운로드 ) http://www.sourceforge.net/projects/hadoop-manager 위키 ( 설명서및각종기술자료 ) http://wiki.opencloudengine.org/pages/viewpage.action?pageid=819205 이슈관리 ( 버그및신규기능 ) http://jira.opencloudengine.org 빌드서버 http://build.opencloudengine.org 구글그룹스 : flamingo-project-kr@googlegroups.com Facebook : https://www.facebook.com/groups/flamingo.workflow

Flamingo Project 의미래 Big Data On Cloud :: OpenStack + Flamingo Big Data All In One Package Apache Hadoop PaaS (Platform as a Service)