공개 SW 솔루션설치 & 활용가이드 응용 SW > BI/OLAP 제대로배워보자 How to Use Open Source Software Open Source Software Installation & Application Guide
CONTENTS 1. 개요 2. 기능요약 3. 실행환경 4. 설치및실행 5. 기능소개 6. 활용예제 7. FAQ 8. 용어정리
1. 개요 소개 주요기능 다양한데이터배포위한엔터프라이즈급오픈소스기반데이터통합및분석플랫폼 빅데이터통합, 데이터웨어하우징, 워크플로우통합, 데이터과학적용, 데이터탐색, 데이터시각화, 보고서및대쉬보드포함한분석플랫폼 다양한데이터소스들추출, 변환및적재할수있는데이터통합기능과머신러닝기반의 Advanced Analytics Business Intelligence 및시각화 스케줄링통한모델자동업데이트및챔피언쉽모델챌린지기능으로최적화모델선정 대분류 응용 SW 소분류 BI/OLAP 라이선스형태 Apache License V2.0 사전설치솔루션 N/A 실행하드웨어 특징 보안취약점 개발회사 / 커뮤니티 공식홈페이지 서버플랫폼 : Window, 리눅스등 CPU : 4 Core 이상, 램 8GB 이상 20GB 이상의디스크공간 ( 최소 10GB) 버전 8.1 (2018 년 10 월기준 ) 오픈소스기반 (Enterprise Edition 의경우라이선스비용발생 ) 데이터수집부터추출, 변형, 적재, 분석, 시각화까지원스탑으로수행가능한분석플랫폼 한글화지원 취약점 ID : CVE-2015-6940 심각도 : 5.0 MEDIUM(V2) 취약점설명 : Pentaho 버전 5.2.x GA BA Suite 및 PDI 는구성파일에대한인증되지않은액세스허용 대응방안 : 사용중인 DI 및 BI 플랫폼버전에해당하는.jar 파일업데이트 참고경로 : https://www.securityfocus.com/archive/1/536477/100/0/threaded Hitachi Vantara / Pentaho Community https://www.hitachivantara.com/go/pentaho.html - 3 -
2. 기능요약 Pentaho PDI 의주요기능 Feature \ Version 8.1 Feature \ Version 8.1 DI-Server (Merged Pentaho Server) Enterprise Deployment - Content-Repository CE - Job Restartability EE - Version control CE - Transactional Job Execution EE - User/Role Security CE - Load Balancing (Transformations) EE - Database Security CE - Worker Nodes scale out EE - Purge Utility CE - DI-Scheduling EE Data Science Pack (Data Mining) R Script Executor EE Innovation & Big Data Weka Forecasting EE - Data Services CE Weka Scoring EE - Carte on YARN EE Arff Output EE - SDR (Automodelling, Publish) CE - Data Explorer EE Special topics (job entries and steps) - Agile BI CE Monitoring & Auditing - JMS Support CE - PDI Operations Mart EE - IBM MQ Support -- - SNMP Monitoring EE - Splunk Support EE - SAP Hana Bulk Loader EE Security & Big Data -MQTT CE - AES Password Support EE - Kerberos Support for Hadoop EE - Sentry Support for Hadoop EE - Hadoop HA Support EE - Ranger Support for HDP EE - Knox Security EE - Google BigQuery/Cloud Storage EE - 4 -
2. 기능요약 Pentaho PBA 의주요기능 Feature \ Version 8.1 Analyzer General Analyzer Functionality Mondrian OLAP Engine Geo Plugin Analyzer JavaScript APIs Schema Workbench Aggregation Designer EE CE EE EE CE CE Dashboards Dashboard Designer Ctools - CDE/CDF EE CE Reporting Interactive Reporting (browser based) Report Designer (pixel perfect / desktop) Reporting Engine Pentaho Metadata Editor EE CE CE CE Plattform Administration & Auditing Audit Reporting (Operations Mart) Pentaho User Console Data Source Wizard Data Source Model Editor Migration Tool JDBC Distribution Utility EE CE CE EE EE EE - 5 -
3. 실행환경 제품명 Pentaho DI Pentaho BA Version Pentaho Enterprise Edition 제품용도데이터추출, 변형, 적재도구데이터분석도구 서버플랫폼 Windows Server 2008 R2&2012, CentOS 6&7, RedHat Enterprise 6&7, Ubuntu Server 14.04 LTS & 16.04 LTS, Suse Linux 11(SP3+) 메타데이터 DB MySQL 5.6/5.7, Oracle 11.2&12.1, PostgreSQL 9.4 & 9.5+, MSSQL 2012&2014 클라이언트플랫폼 Windows 7&10, Ubuntu Desktop 12.04&14.04, OSX 10.10&10.11, ios 8.x Web Browser Safari 9.x & 10.x, Chrome 53 & 54, Internet Explorer11, Firefox 48 & 49 Security Active Directory, LDAP, RDBMS, CAS, Integrated Microsoft Windows Authentication JVM Oracle Java 8 한글화지원 HW 최소사양 메뉴, 메시지, 데이터처리등한글화지원 CPU(4Core), Mem(8GB), HDD(20GB) - 6 -
4. 설치및실행 세부목차 4.1 설치파일다운로드 4.2 실행 4.3 설치 - 7 -
4. 설치및실행 4.1 설치파일다운로드 (CE 버전 ) https://sourceforge.net/projects/pentaho/ 접속후, Download 클릭 - 8 -
4. 설치및실행 4.1 설치파일다운로드 (EE 버전 ) https://www.hitachivantara.com/en-us/products/big-data-integration-analytics/pentahotrial-download.html 접속후, DOWNLOAD FREE TRIAL 클릭 - 9 -
4. 설치및실행 4.2 설치 (1/5) 사용자의요구하는기능에따라 CE 혹은 EE 버전설치하여사용 (4~5page 참고 ) 개인정보입력후 SUBMIT 버튼클릭 다운로드받은파일경로로이동하여 Pentaho 8.1 설치파일실행후, 예 (Y) 클릭, 확인클릭 - 10 -
4. 설치및실행 4.2 설치 (2/5) Next 클릭 Accept 선택후 Next 클릭 - 11 -
4. 설치및실행 4.2 설치 (3/5) Keep it simple. Give me everything 선택후, Next 클릭 설치경로설정후, Next 클릭 (Default 경로 : C:\Pentaho) - 12 -
4. 설치및실행 4.2 설치 (4/5) Pentaho 설치시함께설치되는 Postgres 에대한비밀번호설정한후, Next 클릭 설치준비가끝나면, Next 클릭 - 13 -
4. 설치및실행 4.2 설치 (5/5) 설치약 10-20 분소요 PUC 와 PDI 바로실행하는경우체크박스선택한후, Finish 클릭 - 14 -
4. 설치및실행 4.3 실행 (1/2) PDI(Pentaho Data Integration) Client 실행 : 시작 모든앱 Pentaho Enterprise Edition Data Integration 클릭 (Windows 10 기준 ) - 15 -
4. 설치및실행 4.3 실행 (2/2) PUC(Pentaho User Console) 실행 : 웹브라우저에서 http://localhost:8080 입력후, 로그인창에 admin/password 입력후, Login 클릭 - 16 -
5. 기능소개 세부목차 5.1 PDI Step 활용 5.2 데이터 Input 5.3 Step 연결및실행 5.4 실행결과확인 5.5 DB에저장 5.6 Machine learning - 17 -
5. 기능소개 5.1 PDI Step 활용 Pentaho Data Integration 열기 Pentaho Data Integration Trasformation 생성 : 파일 새로만들기 Transformation 파일저장 - 하나의 Transformation 에전체 work 담기보다는필요에따라분리하여 Transformation 구성 - 18 -
5. 기능소개 5.2 데이터 Input Pentaho Data Integration Step 활용 : 디자인시트에서원하는 Step 선택후드래그 Step 클릭하여파일경로설정등원하는셋팅값입력 - 19 -
5. 기능소개 5.3 Step 연결및실행 Hop 연결 : Step 간의호프연결하여워크플로우설정 Transformation 실행 - 20 -
5. 기능소개 5.4 실행결과확인 실행결과확인 : 로깅 & Preview data 통하여실행결과및 Transformation 내용확인 - 21 -
5. 기능소개 5.5 DB 에저장 DB 에저장 : Table output > 새로만들기 > Databse Connection 입력 > 테스트 > 확인 - 22 -
5. 기능소개 5.5 DB 에저장 DB 에저장 : Table output > 새로만들기 > Databse Connection 입력 > 테스트 > 확인 - 23 -
5. 기능소개 5.6 Machine learning (PMI) Machine learning step 활용하여데이터분석에활용 Pentaho 머신러닝구현 workflow 데이터 Input 변수선정 모형학습 (ML 모델 ) 학습모형저장및업데이트 - 24 -
5. 기능소개 5.6 Machine learning (Data Science Pack) R, Python, Weka 등의오픈소스스크립트 Step 에플러그인하여분석에활용 Pentaho 시계열예측 workflow 데이터 Input 시계열분석실시 모델예측결과통합 분석 DB 저장 - 25 -
6. 활용예제 세부목차 6.1 서울시공기질데이터활용 6.2 서울시공기질데이터처리 - 26 -
6. 활용예제 6.1 서울시공기질데이터활용 서울시공기질공공데이터활용하여미세먼지분석할수있음 1 2 7 8-1 8-2 8-3 10-4 3 4 10-1 10-2 10-3 9-4 12 5 6 9-1 9-2 9-3 11-27 -
6. 활용예제 6.2 서울시공기질데이터처리및등급구분 (1/2) 서울시공기질데이터분석프로세스 (Step명칭및상세설명 ) 1 Data Input : 공공데이터포털서울시공기질데이터를 CSV로다운받은경로설정 2 Select Value : 필요변수선정 (PM10,PM20 등원하는공기질지표선정 ) 3 Sort rows : 데이터를 Station Code 오름차순으로정렬 4 Table Input : 좌표데이터테이블을 DB에서가져온다. 5 Merge Join : Station Code로 Inner Join (Data Input 과 Table Input) 6 Select Value : Merge Join 후중복변수및불필요변수제거 (Address 등 ) 7 Fomula : 시간데이터를년 / 월 / 일 / 시간으로분할 8 Filter rows : 미세먼지지수를필터링 ( 좋음 / 보통 / 나쁨 / 매우나쁨분류 ) 9 Add constant rows : 미세먼지지수등급부여 ( 이산화-좋음 / 보통 / 나쁨 / 매우나쁨, 등급으로표현하기위함 ) 10 Merge Join : Filter rows 와 Add constant rows Inner Join ( 미세먼지지수와등급을통합 ) 11 Select Value : 중복변수제거와메타변수정의 12 Table output : DB에테이블저장 7 9-28 -
6. 활용예제 6.2 서울시공기질데이터처리및등급구분 (2/2) 필요에따라데이터처리 / 병합 / 생성 / 구분하여원하는데이터분석결과도출 중복제거및필요데이터생성 데이터등급구분 ( 좋음 / 보통 / 나쁨 ) 결과저장및분석결과활용 - 29 -
7. FAQ Q A Windows 환경에서 Spoon.bat 시작하면아무일도일어나지않습니다. 문제어떻게분석할수있습니까? Spoon.bat 파일편집하고 1) 마지막줄 "start javaw" "java" 로바꾸십시오 2) 다음줄에 "pause" 추가하십시오 3) 다시저장하고다시시도하십시오. 그런다음오류메시지가표시되며다음질문통해이분석할수있습니다. Q 매뉴얼에서행타입이섞이지않을수도있다는것읽었습니다. 그게무슨뜻입니까? A 행들이섞이지않는다는것은단일홉을통해전송되는모든행이동일한구조, 즉동일한필드이름, 유형, 필드순서이어야한다는것을의미합니다. 따라서조건이행에대해 true이면추가필드를추가하고, 그렇지않으면추가정보를추가하려는경우 ( 조건에따라다른유형의행을얻을것이므로 ) 작동하지않습니다. " 안전모드사용 " 을켜면런타임에이를명시적으로확인할수있습니다. - 30 -
8. 용어정리 용어 Pentaho BI Platform Project Pentaho BI Platform Pentaho BI Server Action Sequence Editor XMI 설명 플랫폼하부구조에서서비스들의전달에초점맞춘오픈소스프로젝트. Pentaho 의 end-user 통합과데이터통합기능들제공. Pentaho BI Platform 프로젝트는보안, 통합, APIs, 스케쥴링, 워크플로우와같은기능들제공 End-user reporting, analysis, back-end 보안갖는 Dashboard 기능, integration, scheduling, 워크플로우기능들지원해주는컴포넌트들과 API 들그리고애플리케이션들가리킴 호스트애플리케이션서버내에서운영하는 J2EE 애플리케이션이며사용자요청에대한서비스제공한다. 이용어는어떻게또는어디에배포된다는것고려하는게아니라플랫폼의서버부분참조하기위해사용됨. Action Sequence(Pentaho BI Platform 내에서동작하는스크립트 ) 만들수있도록해주는이클립스플러그인 AXMl Metadata Interchang: XMI 는 XML 통해메타데이터교환하기위한 OMG 표준임 - 31 -
Open Source Software Installation & Application Guide 이저작물은크리에이티브커먼즈 [ 저작자표시 비영리 동일조건변경허락 2. 0 대한민국라이선스 ] 에따라이용하실수있습니다.