빅데이터분석활용센터 분석활용인프라매뉴얼
목 차 1 분석활용인프라 1. 개요 1.1 개요 1 2. 메뉴구조도 2.1 메뉴구조도 2 3.1 플라밍고로그인 3 3.2 데스크탑화면 8 3.3 대시보드 9 3.4 워크플로우디자이너 13 3.5 파일시스템브라우저 27 3.6 Apache Hive 편집기 42 3.7 Apache Pig 편집기 48 3.8 BI Matrix 52 3.9 Mdp 53 3.10 R Studio 58 3.11 Visual 59
1. 개요 1.1 개요 1) 플라밍고는웹브라우저에서빅데이터분석을하는도구이며, 빅데이터분석가들이터미널환경에서수고스럽게작업하던환경을개선했다. 2) 편리하게플라밍고를사용하는사용법및각종분석도구에대한설명을기술했다.
2. 메뉴구조도 2.1 메뉴구조도
3.1 플라밍고로그인 1) 빅데이터전략센터에로그인한다음분석활용인프라를예약한다.
3.1 플라밍고로그인 2) 관리자승인후 실행 버튼을클릭하여분석활용인프라를사용한다.
3.1 플라밍고로그인 3) 플라밍고화면
3.2 데스크탑화면 1) 데스크탑바탕화면의실행아이콘
3.2 데스크탑화면 2) 시작메뉴
3.2 데스크탑화면 3) 작업표시줄
3.3 대시보드 1) 워크플로우이력
3.3 대시보드 2) 실행중인워크플로우
3.4 워크플로우디자이너 1) 워크플로우작성 - 컴포넌트 를끌어다 워크플로우디자이너 의 캔버스 에놓는다. - "Start 노드와 컴포넌트 를연결하고, 컴포넌트 와 End" 노드를연결하여작업흐름을완성한다. - 워크플로우이름 을입력한다. - 컴포넌트를더블클릭하여필수정보를입력한다.
3.4 워크플로우디자이너 1) 워크플로우작성
3.4 워크플로우디자이너 1) 워크플로우작성
3.4 워크플로우디자이너 2) 워크플로우저장
3.4 워크플로우디자이너 2) 워크플로우저장 - 워크플로우를저장할폴더를선택하고확인을눌러좌측트리에워크플로우를저장한다.
3.4 워크플로우디자이너 3) 워크플로우실행
3.4 워크플로우디자이너 3) 워크플로우실행 - 워크플로우 실행 버튼을클릭하고, 예 를클릭한다. - 워크플로우실행성공메시지
3.4 워크플로우디자이너 3) 워크플로우실행 - 워크플로우실행결과를 대시보드 에서확인한다.
3.4 워크플로우디자이너 4) 워크플로우불러오기 - 좌측트리에서워크플로우를더블클릭하여워크플로우를불러온다.
3.4 워크플로우디자이너 5) 워크플로우 XML 보기 - XML 보기 를클릭하여저장한 XML 을확인한다.
3.4 워크플로우디자이너 6) 워크플로우복사 - 복사 를클릭하여복사할경로를지정한후복사를한다.
3.4 워크플로우디자이너 6) 워크플로우복사 - 복사한워크플로우는트리에서주황색이며, 저장하면파란색으로변한다.
3.4 워크플로우디자이너 7) 워크플로우삭제 - 트리에서마우스오른쪽버튼을클릭하고 삭제 를선택한다.
3.4 워크플로우디자이너 8) 워크플로우이름변경 - 트리에서마우스오른쪽버튼을클릭하고 이름변경 을선택한다.
3.4 워크플로우디자이너 9) 워크플로우변수설정 - 캔버스 우측의워크플로우변수에서 Key-Value 를등록하면 ${Key} 값이 value 의값으로치환된다.
3.4 워크플로우디자이너 10) 워크플로우알고리즘설명 - 워크플로우디자이너 우측상단의? 를클릭한다.
3.5 파일시스템브라우저 1) 디렉토리생성 - 디렉토리생성 버튼을클릭하고, 입력필드에 디렉토리명 을입력한다.
3.5 파일시스템브라우저 2) 디렉토리복사 - 디렉토리복사 버튼을클릭하고, 복사할디렉토리를선택한다.
3.5 파일시스템브라우저 3) 디렉토리이동 - 디렉토리이동 버튼을클릭하고, 이동할디렉토리를선택한다.
3.5 파일시스템브라우저 4) 디렉토리이름변경 - 디렉토리이름변경 버튼을클릭하고, 변경할이름을입력한다.
3.5 파일시스템브라우저 5) 디렉토리삭제 - 디렉토리삭제 버튼을클릭하고, 예 를클릭한다.
3.5 파일시스템브라우저 6) Hive 데이터베이스생성 - Hive 데이터베이스생성 버튼을클릭하고, 필수입력필드를채운다.
3.5 파일시스템브라우저 6) Hive 데이터베이스생성 - 데이터베이스아이콘으로변한다.
3.5 파일시스템브라우저 7) Hive 테이블생성 - Hive 테이블생성 버튼을클릭한다.
3.5 파일시스템브라우저 8) 파일복사 - 그리드에서 복사 버튼을클릭한다.
3.5 파일시스템브라우저 9) 파일이동 - 그리드에서 이동 버튼을클릭한다.
3.5 파일시스템브라우저 10) 파일이름변경 - 그리드에서 이름변경 버튼을클릭한다.
3.5 파일시스템브라우저 11) 파일삭제 - 그리드에서 삭제 버튼을클릭한다.
3.5 파일시스템브라우저 12) 파일업로드 - 그리드에서 업로드 버튼을클릭한다.
3.5 파일시스템브라우저 13) 파일다운로드 - 그리드에서 다운로드 버튼을클릭한다.
3.5 파일시스템브라우저 14) 파일보기 - 그리드에서 파일보기 버튼을클릭한다.
3.6 Apache Hive 편집기 1) Hive 테이블추가 - 좌측트리에서 테이블추가 버튼을클릭한다.
3.6 Apache Hive 편집기 2) Hive 데이터베이스추가 - 좌측트리에서 데이터베이스추가 버튼을클릭한다.
3.6 Apache Hive 편집기 3) Hive 쿼리작성 - 우측편집기에서 Hive 쿼리를작성하고, Hive 쿼리이름 을입력하고 저장 버튼을클릭한다.
3.6 Apache Hive 편집기 4) Hive 쿼리실행 - 편집기우측상단의 실행 버튼을클릭한다.
3.6 Apache Hive 편집기 5) Hive 이력 - 이력 탭에는쿼리실행정보및실행결과가나타난다.
3.6 Apache Hive 편집기 6) Hive 쿼리이력 - Hive 쿼리 탭에는저정한쿼리가나타난다.
3.7 Apache Pig 편집기 1) Pig 쿼리작성 - 편집기에서 Pig Script 를작성한다.
3.7 Apache Pig 편집기 2) Pig 쿼리실행 - 편집기에서 실행 버튼을클릭하고, 실행정보창이나타난다.
3.7 Apache Pig 편집기 3) Pig 이력 - 이력 탭에는쿼리실행정보및실행결과가나타난다.
3.7 Apache Pig 편집기 4) Pig 쿼리이력 - Pig Latin 스크립트 탭에는저장한스크립트가나타난다.
3.8 BI Matrix 1) BI Matrix - 데스크탑에서 BIMatrix 아이콘을클릭하여창의띄운다. - 참조 : http://www.bimatrix.co.kr/product/matrix01.html
3.9 Mdp 1) Mdp - MDP 스크립트작성법은사용자홈폴더의 /mdp/mdp-설명서.txt 파일로작성되어있다. MDP 는원본자료에서일부필드를변형하여새로운데이터를생성하는 ETL 툴입니다. (ETL, Extract-Transform-Load) 샘플예제는 mdp_demo.ats 라는파일로서 local FS 에수집된 PDS 1 개월데이터를 ETL 로정제하여 HDFS 로드하는코드입니다. 주의 : 파일내에있는계정폴더 (/home/demo02) 명을자기계정에맞게수정해줘야합니다. 자기 ID 가 userid-7 이면 /home/userid-7 로수정해줘야합니다. 예제파일 : /home/demo02/mdp/mdp_demo.ats 로컬파일 : /home/demo02/mdp/pos_raw_201201.txt ( 입력파일 ) 출력파일 : hdfs: /home/demo02/pds/pos_cleaned_data_201201.txt ( 출력파일 ) 결과적으로생긴하둡의파일은다음명령어로볼수있습니다. $ hadoop fs -cat /home/demo02/pds/pos_cleaned_data_201201.txt more ( 파일브라우저로 HDFS 디렉토리에서볼수있습니다.) 입력파일은다음명령어로볼수있습니다. $ cat /home/demo02/mdp/pos_raw_201201.txt more ( 파일브라우저로로컬디렉토리에서볼수있습니다.)
3.9 Mdp 2) Mdp 쿼리작성
3.9 Mdp 2) Mdp 쿼리저장 - 저장 또는 다른이름으로저장 버튼을클릭한다.
3.9 Mdp 3) Mdp 쿼리실행 - 실행 버튼을클릭한다.
3.9 Mdp 4) Mdp 작업히스토리
3.10 R Studio 1) R Code 작성및실행
3.10 R Studio 2) R Hdfs // rhdfs를사용하기위한 Dependency Library import library( rjava, lib.loc= /usr/lib64/r/library ); // rhdfs 를사용하기위한 Library import library( rhdfs, lib.loc= /usr/lib64/r/library ); // hdfs 초기화 hdfs.init(); // list 명령 hdfs.ls( / ); // local fs 에서 hdfs 로파일복사 hdfs.get( /home/admin/test.csv, /home/admin, srcfs=hdfs.defaults( fs )); // hdfs 에서 local fs 로파일복사 hdfs.put( /home/admin/test.java, /home/admin, dstfs=hdfs.defaults( fs ));
3.10 R Studio 3) R Hive // RHvie 를사용하기위한 Library import library("rhive ); // rhive 초기화 rhive.init(); // 분석활용인프라 rhive.connect(host= 192.168.3.1, port=10000, hiveserver2=true, defaultfs= hdfs://192.168.3.1:8020 ); // 교육실습인프라 rhive.connect(host= 192.168.1.35, port=10000, hiveserver2=true, defaultfs= hdfs://192.168.1.35:8020 ); // databases 보기 rhive.show.databases(); // database 사용 rhive.use.database( test1 ); // tables 보기 rhive.show.tables(); // rows counting 쿼리실행 rhive.query( select count(*) from product );
3.11 Visual 1) Visualazation 은빅데이터분석자료를차트로표시해준다. 차트를보려면아래의 4 가지단계를거쳐야한다. 1 단계 데이터셋선택 영역에서입력파일을선택한다. 2 단계 데이터셋조회 영역에서데이터셋의포멧을결정해야한다. 3 단계 차트선택 영역에서 40가지시각화차트중에서선택한다. 4 단계 시각화항목 / 속성 에서 x축/y축 등의표시할속성을입력한다.
3.11 Visual 2) 1 단계 데이터셋선택 영역에서입력파일을선택한다. /home/{userid}/chart 폴더에는차트샘플이있다.
3.11 Visual 3) 2 단계 데이터셋조회 영역에서데이터셋의포멧을결정해야한다. 입력파일의실제값을확인하고구분자를결정한다.
3.11 Visual 4) 3 단계 차트선택 영역에서 40 가지시각화차트중에서선택한다. 차트의모양을보고원하는차트를선택한다.
3.11 Visual 5) 4 단계 시각화항목 / 속성 에서 x 축 /y 축 등의표시할속성을입력한다. 차트에최적화된색상및레이블명등을지정한다.
3.11 Visual 6) 차트종류
3.11 Visual 6) 차트종류
3.11 Visual 6) 차트종류
3.11 Visual 6) 차트종류
3.11 Visual 6) 차트종류
3.11 Visual 6) 차트종류 - TREE MAP
3.11 Visual 6) 차트종류 - ZOOMABLE PARTITION LAYOUT
3.11 Visual 6) 차트종류 - WORD CLOUD
3.11 Visual 6) 차트종류