ucloud daisy 서비스가이드 1 / 23

문서버전및이력 버전일자이력사항 1.0 2016.11. 최초배포 목차 1. ucloud daisy 서비스소개...3 서비스개요...3 2. ucloud daisy 서비스신청, 사용하기...4 상품신청방법...4 daisy web 접속...5 3. Daisy web...6 초기화면 로그인, 회원가입...6 Dash Board: HDFS 상태및최근사용한 HiveQL 정보표시...7 Data Query...8 Workflow... 13 User Management... 19 4. FAQ... 21 2 / 23

1. ucloud daisy 서비스소개 서비스개요 - ucloud daisy는분산환경에서대량의데이터를효율적, 안정적으로수집, 저장, 리포팅, 관리할수있는프레임워크서비스. - Hadoop 에정의된스키마를기반으로, ad-hoc 쿼리및 shell script 를생성, 수행결과를 다운로드할수있음. 정형 / 비정형로그데이터수집및 DB 데이터자동화, 실시간수집 분석및추천을위해편리한웹기반의 Data Query Editor 및 WorkFlow 를제공. 3 / 23

2. ucloud daisy 서비스신청, 사용하기 상품신청방법 - 클라우드콘솔 > ucloud daisy > 클러스터리스트 > 클러스터생성 클릭 - 클러스터명입력후중복확인 > 위치선택 > 마스터서버선택 > 생성할데이터서버 수선택 > 데이터서버선택 > 신청 - 생성된클러스터확인 ( 상태가 사용 이되면 Daisy URL 확인가능 ) 4 / 23

daisy web 접속 - 생성된클라우드선택 > 하단상세정보의 Daisy URL 로접속 5 / 23

3. Daisy web 초기화면 로그인, 회원가입 - 로그인 : 사용자이메일과패스워드를입력하여로그인인증 - 회원가입 : 신규회원으로가입하면관리자의승인절차를거쳐회원으로등록 개인정보입력 : 사용자필수 / 추가정보입력 권한선택 ( 사용자- 일반사용자로 HDFS Editing 기능사용, 관리자- HDFS Editing 기능을포함, 회원관리 ;/ 시스템관리가능 ) 6 / 23

Dash Board: HDFS 상태및최근사용한 HiveQL 정보표시 - HDFS 현황 Hadoop 파일시스템의상태를조회합니다. configured Capacity: 전체 HDFS량 DFS Used: 사용중인 HDFS량 Non DFS Used: Non HDFS량 DFS Remaining: 사용가능 HDFS량 DFS Used%: 사용중인 HDFS 비율 DFS Remaining%: 사용가능 HDFS 비율 Block Pool Used: 사용중인 Block Pool량 Block Pool Used%: 사용중인 Block Pool 비율 Live Nodes: 가용 Data node 수 Dead Nodes: 비가용 Data node 수 Decommissioning Nodes: 탈퇴한 Data node 수 - Job History 사용자가최근사용한 Job 리스트를조회 - Immediate job list 사용자가즉시수행한작업에대한정보를조회 즉시수행결과는일주일간보관 / 다운로드가능하며, 일주일후자동폐기 - 결과파일다운로드 사용자쿼리결과에대한파일다운로드를제공, CSV 포맷을지원 7 / 23

Data Query > Hive Editor - 데이터분석을위한 SQL 기반분석서비스로, 쿼리를통해사용자분석결과를조회 - Database 선택, 테이블생성 / 삭제 / 쿼리관련환경설정가능 다운로드 : Table 선택 > 다운로드버튼클릭 업로드 : 업로드할대상테이블선택 > 업로드버튼클릭 > 조건확인 > Overwrite ( 테이블삭제후적용 ) / Append( 데이터추가 ) 선택 > 임포트파일업로드 - 쿼리수행 Hive Editor 창을통해사용자쿼리편집, Autocomplete word 기능제공 블록설정이된경우는블록내용만처리. 블록설정이없는경우전체메시지처리 사용자쿼리에대한결과를그리드형태로제공 쿼리결과가 5,000라인이상일경우파일다운로드를통해확인가능 - 결과조회 최근쿼리 : 쿼리문구클릭시새창으로쿼리실행 결과 : 실행쿼리결과 차트 : 실행쿼리결과를차트로생성 8 / 23

로그 : 실행로그 ( 항상최신로그로갱신 ) Pivot: 피벗테이블생성 - Job 등록 완성된쿼리문에대하여빈번한사용이나주기적인실행이필요한경우 JOB으로쿼리등록 Make job 클릭 > Job 정보입력 > Execute 클릭 새로등록된 Job은 DATA Query>Job Management 페이지에서확인가능 9 / 23

Data Query > Job Management - 사용자가등록한 JOB( 쿼리 ) 을관리, Workflow 생성및즉시수행지원 - Job list: 사용자가등록한 Job 리스트를조회 - Job 삭제 삭제를원하는 Job을선택삭제 이미 Workflow에서등록사용중인 Job을삭제할경우, Job이삭제되더라도 Workflow 에등록된 Job은삭제되지않음 - Make Project Workflow에서수행할 Project를생성 여러개의 Job을선택하여 Flow lane을구성하여 Project를생성 Make Project 버튼클릭 > 프로젝트이름입력 > Job 선택 > Job 순서변경 > 생성 - Execute ( 즉시수행 ) Job을즉시수행 Job은 background에서수행, 결과다운로드가능 - Draw Project: Make Project 와유사기능으로, 사용자편의를위해 Drag&Drop 기능을 제공하여손쉬운 workflow Project 생성을지원 10 / 23

- Immediate Execution List ( 수행중인리스트 ): 사용자가요청한즉시수행쿼리결과를 파일다운로드 Data Query > Data Import - RDBMS 형식의데이터를분석가능한형식으로전송 - RDBMS -> HDFS: RDBMS 형식의데이터를 HDFS로전송 환경설정 (IP, Port, Username, Password) 입력 > Test Connection 클릭 > 연결확인후 Next 클릭 > Job Description 입력 > 원본 Database 및 Table 선택 > Column 선택 ( 전체및원하는 Column 선택가능 ) > Where 조건설정 ( 옵션 ) > 최종저장할 HDFS 파일경로입력 11 / 23

- RDBMS -> HIVE: RDBMS 형식의데이터를 HIVE로전송. 환경설정 (IP, Port, Username, Password) 입력 > Test Connection 클릭 > 연결확인후 Next 클릭 > Job Description 입력 > Hive Table 설정 (New Table: 원본 MySQL의테이블스키마를분석해자동 Hive Table을생성 / Exist Table: Hive의생성된테이블에데이터를적재 * 적재할데이터스키마와동일한구조여야가능 ) > 원본 Database 및 Table 선택 > Column 선택 ( 전체및원하는 Column 선택가능 ) > Where 조건설정 ( 옵션 ) > 저장할 Hive Database 선택 > 저장할 Hive Table명입력 - 처리진행확인및결과 status: 현재의작업상태확인 : Running -> Success / Fail Result: 작업성공시결과확인 HDFS인경우파일브라우저로확인가능 HIVE인경우자동으로쿼리를동작할수있는 Hive Editor로이동 - View Schedule: 작업스케줄확인 12 / 23

Workflow > Projects - 사용자가생성한 Workflow Projects 를관리 - Projects: Data Query>Job Management 에서사용자가생성한 Workflow Project 조회 - Quick Search: Project명과 Project 상세내용검색 - Create Project: Data Query를거치지않고파일업로드를통해 Workflow Project 등록 - Projects 조회 : 프로젝트명을클릭하여 Project 조회 Flows: 상세 Project 조회로각 Job에대한순서확인, 상세 Job 수행내역조회 Permissions: Project의권한조회 Project logs: Project의생성로그조회 Delete Project: 선택된 Project 삭제 Upload: Project에서수행할 Job파일을등록 Workflow > Schedule / Execute - Schedule 작업등록 (1) Workflow Project를수행할주기지정, 지정된주기에따라예약작업수행등록 Project 조회 > Execute Flow 클릭 > Schedule 클릭 > Time/Date/Recurrence 설정 - Executing 작업등록 (2) Workflow Project를즉시수행 Project 조회 > Execute Flow 클릭 > Execute 클릭 13 / 23

Workflow > Project 수행 - Graph - Running Job (1) Workflow Project에등록된 Job의 Flow( 순서 ) 순으로 Job이수행되며화면에서는현재수행중인단계의 Job 상태를표현 진행중인 Job 은파란색으로표시 Job이완료되어성공일경우, 녹색으로표시 - 처리단계확인 (2) 현재의진행상태를 flow lane으로조회 진행중이거나완료된단계의다이어그램을클릭하여상세상태조회가능 - Job List (3) 그리드형태의 Job 수행내역을조회 각 Job의 Flow단계처리시간 ( 수행시간, 시작시간, 종료시간 ) 을조회 hive job 로그조회가가능 - Flow log (4) 각 Job 단계의처리로그를조회 14 / 23

Workflow > Project 수행 Job list - 예약수행중인 Project의 Job lane을조회 - Set SLA 등록된예약작업에대한서비스레벨을정의 각작업의 Success/Finish에대해 Email 발송이나프로세스 Kill 등의작업을수행하도록정의 15 / 23

Workflow > Executor - Executing Flows 현재서버에서수행중인 Project 조회 수행이완료된 Project는 Workflow>History 에서조회가능 - Workflow Graph 현재의진행상태를 flow lane으로조회 진행중이거나완료된단계의다이어그램을클릭하여상세상태조회가능 16 / 23

Workflow > History - Workflow 수행내역조회 - Execution ID / Flow Workflow에의해수행된 Project 상세조회 Flow Lane이조회되며, 각 Job에대한상세수행내역조회가가능 - Project 수행된 Project 조회 - Status 각 Job의수행결과를표시 Running/Success/Failed의상태가조회 17 / 23

Workflow > HDFS - Hadoop 파일시스템 (HDFS) 을탐색하는기능 - 파일시스템브라우저로디렉토리이동및파일리스트조회 / 파일보기기능제공 - Linux 시스템과유사한파일시스템형태 - 사용자권한에따라조회가능여부달라짐 18 / 23

User Management > User Information Modify - 관리자기능으로사용자삭제및정보수정기능제공 - 관리자권한이동 : 우측상단사용자이메일을클릭하여관리자기능으로이동 - 사용자리스트 : 전체사용자조회 - 사용자검색 : 사용자아이디및이름검색 - 사용자삭제 : 선택된사용자삭제. 영구삭제되어복원불가 - 사용자수정 : 사용자의권한 (User/Admin) 수정 User Management > Join Approve - 가입승인을요청한사용자에대한승인처리 19 / 23

User Management > User Register - 가입승인절차없이관리자가직접사용자등록 - 사용자정보입력 ( 이메일 / 비밀번호 / 이름 / 전화번호 ) > 사용자권한선택 > Join 클릭 - 사용자권한 User: 일반사용자로 HDFS Editing 기능사용 Admin: HDFS Editing 기능을포함, 회원관리및시스템설정관리 User Management > Preference - Daisy Web 환경구성 - HDFS 환경설정 Hadoop IP: hadoop 서버 IP - HIVE 환경설정 hive URL: hive서버 URL Hive ID: hive서버사용자아이디 Hive Password: hive서버사용자패스워드 - Spark 환경설정 ( 향후지원예정 ) Spark URL: Spark서버 URL Spark ID: Spark서버사용자아이디 Spark Password: Spark서버사용자패스워드 - 모니터링환경설정 ( 향후지원예정 ) Monitoring URL: 모니터링서버 URL - Workflow 환경설정 Workflow URL: Workflow서버 URL - 로컬파일시스템경로 File Path: 임시파일적재경로 File Maintain: 즉시수행결과파일보관주기 20 / 23

4. FAQ [Hive Editor 관련 ] Q: DATA QUERY>hive editor 에서이전에사용한쿼리를다시사용할경우 A: DATA QUERY>hive editor 의 최근쿼리 를클릭하여이전에사용한쿼리를다시사용할수있습니다. 최근쿼리 사용자가최근에사용한 30개의쿼리를리스트로보여줍니다 Q: DATA QUERY>hive editor 에서사용할 hive query 문법에대한도움말이없나요? A: Apache Hive 홈페이지참고 https://cwiki.apache.org/confluence/display/hive/tutorial Q: DATA QUERY>hive editor 에서 Database 테이블목록이조회되지않을경우 A: hiveserver에접속하지못하여정보를얻어오지못하는문제입니다. Preference 에서 hive ip, hive id, hive password에대한정보가맞게설정되어있는지확인합니다. 접속정보가일치하여도테이블목록이조회되지않는다면, hive 서비스가정상적으로이루어지고있는지확인합니다. Q: DATA QUERY>hive editor 에서쿼리편집결과가하단그리드에나타나지않을경우 A: 대용량데이터에대한쿼리시, 처리시간이장기화될수있습니다. 너무많은데이터를조회할경우에는에디터수행과별도로즉시수행을통해결과를다운로드합니다. 대용량데이터에대한쿼리결과가아니며쿼리결과가나타나지않을경우 hive서비스가정상적으로이루어지고있는지확인합니다 Q: DATA QUERY>hive editor 에서쿼리가실패일경우 A: DATA QUERY>hive editor 의 로그 를조회하여자신의쿼리에러내역을확인합니다. 로그조회를통해사용자쿼리의오류를찾아낼수있습니다. [Dashboard 관련 ] 21 / 23

Q: 메인대시보드에서 HDFS 상태가조회되지않을경우 A: Hadoop WebHDFS에접속하지못하여정보를얻어오지못하는문제입니다. Preference 에서 Hadoop IP정보가 Hadoop WebHDFS 주소와동일한지확인합니다. 주소가동일하여도 HDFS상태정보가조회되지않는다면, Hadoop 서비스가정상적으로동작되는지확인합니다. Q: 메인대시보드에서즉시수행결과파일이다운로드되지않을경우 A: 서버배치수행결과경로가존재하지않아서결과파일이생성되지않는문제입니다. Preference 에서 File Path 항목이서버경로에맞게설정되어있는지확인합니다. [Workflow 관련 ] Q: DATA QUERY>Job Management 에서생성한 Project가 Workflow > Project 에나타나지않을경우 A: Workflow 엔진과연동이되지않아정상적인 Workflow Project 생성되지않았습니다. Preference 의 workflow URL이정상적으로기입되어있는지확인합니다. 접속정보가일치하여도 Project 가생성되지않는다면, workflow engine 서비스가정상적으로이루어지고있는지확인합니다. Q: Workflow 에서 project 수행결과가실패로나올경우 A: Job workflow 수행로그를통해어느단계에서쿼리의오류가발생했는지확인이가능합니다. 정상적인쿼리에서수행결과가실패할경우, 실제작업을수행하는 hive 서버의이상을확인합니다 22 / 23

[ 장애현상에대한대응 ] Q: 쿼리에대해결과가종료되지않는경우 A: 대용량데이터에대한쿼리시, 처리시간이장기화될수있습니다. 중간에작업을중지할경우, Dashboard 페이지 에서 Yarn Application 작업을 Kill 해중지시켜주시면됩니다. Q: 대용량쿼리로인해웹접속이불가능한경우 A: 대용량데이터에대한쿼리시, 처리시간이장기화될수있습니다. 만약지속적으로반응이없을경우, 유클라우드포털에서 Daisy 클러스터를재부팅을진행해주세요, 이후쿼리에대한로그를확인을통해오류를찾아낼수있습니다. 23 / 23