슬라이드 1

Similar documents
학습목차 2.1 다차원배열이란 차원배열의주소와값의참조

Cloud Friendly System Architecture

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

Microsoft Word - src.doc

5-03-Â÷¼¼´ëÀ¥Iš

Microsoft PowerPoint - chap06-2pointer.ppt

歯MW-1000AP_Manual_Kor_HJS.PDF

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

Ä¡¿ì³»ÁöÃÖÁ¾

빅데이터_DAY key

<B3EDB4DC28B1E8BCAEC7F6292E687770>

Á¾ÇÕ7-1¼öÁ¤

7-2¼öÁ¤

5-5-Â÷¼¼µ¥¸ð¹ÙÀϼöÁ¤

1-1-4GÀ̵¿Åë½Å-º¸°í¼Ł

ㅇ ㅇ

마닝

목차 윈도우드라이버 1. 매뉴얼안내 운영체제 (OS) 환경 윈도우드라이버준비 윈도우드라이버설치 Windows XP/Server 2003 에서설치 Serial 또는 Parallel 포트의경우.

슬라이드 1

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Samsung SDS Enterprise Cloud Networking CDN Load Balancer WAN

슬라이드 1


<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

4-03-³×Æ®¿öÅ©{½Ã½ºÅÛº¸¾È

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

Microsoft PowerPoint - ch07 - 포인터 pm0415

슬라이드 1

Slide 1

Microsoft PowerPoint - 6.pptx

Microsoft PowerPoint - 3주차.pptx

C O N T E N T S 1. FDI NEWS 2. GOVERNMENT POLICIES 3. ECONOMY & BUSINESS 4. FDI STATISTICS 5. FDI FOCUS

< 목차 > Ⅰ. 개요 3 Ⅱ. 실시간스팸차단리스트 (RBL) ( 간편설정 ) 4 1. 메일서버 (Exchange Server 2007) 설정변경 4 2. 스팸차단테스트 10

슬라이드 1

I (34 ) 1. (10 ) 1-1. (2 ) 1-2. (1 ) 1-3. (2 ) 1-4. (2 ) 1-5. (1 ) 1-6. (2 ) 2. (8 ) 2-1. (3 ) 2-2. (5 ) 3. (3 ) 3-1. (1 ) 3-2. (2 ) 4. (6 ) 4-1. (2 )

Microsoft PowerPoint - ch09 - 연결형리스트, Stack, Queue와 응용 pm0100

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1

Contents SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM FIP 13 FIP

SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM 13 : (IoT), 4.0,,,,,, CEO. 13 : ( ) ~ 11 1 ( ) : 310

< C0DAC0B2C5BDB1B820BFEEBFB520B8DEB4BABEF32D33C2F720C6EDC1FD2E687770>

PowerPoint Presentation

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤


PowerPoint 프레젠테이션

항목

Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용

<312D342920C1A4C3A5C3CAC1A12DC1B6BFCFBCB72DC6EDC1FD2E687770>

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

범정부서비스참조모형 2.0 (Service Reference Model 2.0)

슬라이드 1

제 1 호 지방자치단체녹색정보화추진동향 제 2 호 전자정부성과관리를위한평가동향 제 3 호 외국모바일전자정부추진동향 제 4 호 업무용 PC 가상화 제 5 호 증강현실구현기술현황 제 6 호 Web 기술의진화와공공서비스 제 7 호 ICT 를통한일자리창출방안 제 8 호 스마트

[로플랫]표준상품소개서_(1.042)

PowerPoint 프레젠테이션

WhaTap Labs Templete

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

IT.,...,, IoT( ),,.,. 99%,,, IoT 90%. 95%..., (PIPA). 디지털트랜스포메이션은데이터보안에대한새로운접근방식필요 멀티클라우드사용으로인해추가적인리스크발생 높은수준의도입률로복잡성가중 95% 는민감데이터에디지털트랜스포메이션기술을사용하고있음

초보자를 위한 분산 캐시 활용 전략

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

서현수

PowerPoint 프레젠테이션

1. 배경및필요성 연구배경 국민맞춤형정부 3.0 실현을위한핵심전략으로서빅데이터활용 데이터기반의미래트랜드분석및과학적인국가미래전략수립을내용으로하는 정부3.0 추진기본계획 에서는 2013 년까지빅데이터기반시스템을구축하고 2017 년까지치안 재난재해 교통안전등 6 개분야 21

Microsoft PowerPoint - 1주차.pptx

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

PowerPoint Presentation

슬라이드 1

e-commerce 란? ( 협의 ) 전자상거래란인터넷상에홈페이지로개설된상점을통해실시간으로상품을거래하는것 ( 광의 ) 소비자와의거래뿐만아니라거래와관련된공급자, 금융기관, 정부기관, 운송기관등과같이거래에관련되는모든기관과의관련행위를포함 출처 : 두산백과 광의 협의 - 1

- 2 -


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

5월전체 :7 PM 페이지14 NO.3 Acrobat PDFWriter 제 40회 발명의날 기념식 격려사 존경하는 발명인 여러분! 연구개발의 효율성을 높이고 중복투자도 방지할 것입니다. 우리는 지금 거센 도전에 직면해 있습니다. 뿐만 아니라 전국 26

<BBEAC0E7BAB8C7E8C1A6B5B52E687770>

2018 데이터산업백서 2018 Data Industry White Paper

C O N T E N T S 목 차 요약 / 1 Ⅰ. 태국자동차산업현황 2 1. 개관 5 2. 태국자동차생산 판매 수출입현황 우리나라의대태국자동차 부품수출현황 Ⅱ. 태국자동차산업밸류체인현황 개관 완성차브랜드현황 협력업체 ( 부

±Ù·Î½Ã°£ ´ÜÃà°ü·Ã ¹ýÁ¦µµ Á¤ºñ¹æ¾È.hwp

외국인투자유치성과평가기준개발

김기남_ATDC2016_160620_[키노트].key

Microsoft PowerPoint - CoolMessenger_제안서_라이트_200508

Slide 1

Install stm32cubemx and st-link utility

을개발했다 [2]. 대우조선해양은빅데이터를활용하는스마트서비스시범사업으로선박신수요예측플랫폼및선박 MRO(Maintenance, Repair & Operation) 서비스를추진했다 [3]. 삼성중공업은선내 육상에서선박운항상태를감시 분석 관리가능한 SAMS(Ship Admi

SANsymphony-V

- 2 -

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

IT & Future Strategy 는 21 세기한국사회의주요패러다임변화를분석하고이를토대로미래정보사회의주요이슈를전망, IT 를통한해결방안을모색하기위해 NIA 에서기획 발간하는보고서입니다. NIA 의승인없이본보고서의무단전재나복제를금하며, 내용에대한문의나제안은아래연락처로


DBMS & SQL Server Installation Database Laboratory

04 특집


비식별화 기술 활용 안내서-최종수정.indd

PowerPoint Presentation

PowerPoint 프레젠테이션

슬라이드 1

자율주행 및 지뢰탐지 HRI, 원격제어, 인지, 항공우주 물체인식, HRI 물체조작, 우주탐사 헬스케어, 센서 지능로봇 기술 물체인식, 센서, 조작 원격제어 인지, HRI, 자율주행 자율주행 [ 1] 1 로봇 제조, 공 자 인, 지 작 서 스, 인서 스, 지,,, 인자

1-표지 및 목차 & 1-서론 (최종보고서안).hwp

Atlassian Solution Conference Seoul 2017

Transcription:

제 5 장 빅데이터프로젝트가이드라인 2015.06 조완섭충북대학교경영정보학과대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3258 010-2487-3691 본자료는 빅데이터업무절차및기술활용매뉴얼 (Ver 1.0), NIA, 2014.03 을참고하여정리한것임

배경및개요 데이터수집 데이터저장관리 보안관리 품질관리 데이터분석 가시화 목차 분석결과의활용과서비스 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 2

빅데이터시대로의진입 2011 년맥킨지보고서 배경 빅데이터가 ICT 분야의새로운패러다임, 신성장동력 정부3.0으로공공분야빅데이터관심증대 IT 기업들은빅데이터로의사업확장 비IT기업들도빅데이터활용비즈니스혁신에관심 선진국, 글로벌기업위주로빅데이터경쟁심화 미국, 영국, 일본, 싱가폴 중국핀테크기업 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 3

배경 우리나라는선진국에비하여빅데이터경쟁력하락 정부및공공기관, 지자체노력에도불구하고 2015 년 OpenData Barometer 국제지표 17 위하락 (2014 년 12 위 ) 빅데이터구축및활용경험이일천하고, 마땅한지침서나전문가도부족한상황 거버넌스구축없이활용만강조되는분위기 데이터를소홀이하는문화 데이터분석기반의과학적의사결정문화미흡 조직의데이터분석역량이미흡 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 4

개요 빅데이터활용지침서 (Nia, 2014) 공공과민간에서빅데이터를활용하고자하는실무자들이알아야할단계별업무절차및관련기술소개 빅데이터프로젝트수행시고려사항 빅데이터를활용한서비스기획 (rfp 작성 ) 분석플랫폼의구축과운영 사업관리 데이터활용업무혁신방안 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 5

개요 빅데이터사업수행의수행과활용절차 품질관리 ( 수명관리메타데이터관리 ) 보안관리프라이버시관리 데이터소스 데이터거버넌스와지속적모니터링 데이터수집 데이터저장관리 데이터분석 데이터활용 / 업무혁신 데이터소스선정수집계획수립수집방법 / 주기데이터수집시행 데이터전처리분산저장관리 다차원분석데이터마이닝통계분석 관련부서업무적용지속적업무개선성과평가 -> 인센티브 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 6

정의 1. 데이터수집 조직내부 외부의다양한데이터를일괄 실시간으로수집하는과정 ( 기술, 업무 ) 절차 데이터소스선정 목록작성 분석목적에따라데이터소스를선정하되수집가능여부등을점검한후세부목록작성 세부계획수립 수집계획서작성 데이터소스별로데이터소유기관파악 - 내부데이터 / 외부데이터구분 - 데이터소유권 / 개인정보확인소스별데이터유형과특징파악 - 종류, 포멧, 품질, 비용등수집기술과수집주기선정 수집시행 로그모니터링 사전테스트 => 수집진행 => 유출방지 ; 업무지침 - 장애점검 / 품질향상을위해관련로그기록확보 ( 데이터출처, 수집방식, 장애발생로그, 시간등데이터수집상황을저장하고모니터링함 ); 보안정책 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 7

1. 데이터수집 데이터유형 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 8

데이터수집주기 1. 데이터수집 배치 ( 간격은?) 수집과 ( 준 ) 실시간수집으로구분하여적절한수집기술선택 데이터의종류와크기, 데이터발생빈도주기, 분석주기, 시스템및네트워크부하정도등을고려하여기술선택 일정기간샘플데이터수집필요 데이터량을점검한후에수집주기와서버용량결정 스트림데이터의실시간수집 (IoT) 데이터폭증에대비해야함 중복데이터필터링기술활용 ( 예 : 방의온도센서 ) 인메모리처리기술활용필요 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 9

데이터수집기술 1. 데이터수집 Web Robot ( URL List => 데이터수집 ) 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 10

1. 데이터수집 데이터수집기술 Arriving machine data is processed at rates of up to 1 million records/second/cpu core ( 종류 : SQLstream, ETL for IMDG), TeraStream for Hadoop 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 11

1. 데이터수집 빅데이터유형에따른수집기술 수집기술의선택 배치 실시간 정형반정형비정형 정형반정형비정형 도구 기술도구 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 12

1. 데이터수집 실시간데이터수집의필요성증대 핀테크재난안전의료, 헬스 추천 실시간분석과대응 분산고속처리 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 13

1. 데이터수집 60 초동안에발생하는 events 출처 : http://gizmodo.com/how-much-happens-on-the-internet-every-60-seconds-950463150 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 14

1. 데이터수집 사전테스트 수집계획에따라수집주기와기술을적용, 사전테스트진행 네트워크트래픽문제, 데이터누락여부, 정확성 ( 원본과수집된데이터비교 ), 보안성등을점검하여필요시수집방법보완변경 데이터수집시행 수집을진행하되향후장애점검등을위해관련로그기록을확보함 수집당시상황을정보 : 데이터의출처, 수집방식, 장애발생여부와시스템로그, 시간등의정보 데이터의수집후처리 데이터수집후저장된데이터에대한외부인접근방지및유출시대처방안등과관련된업무지침마련 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 15

1. 데이터수집 데이터수집기술활용시고려사항 Crawling, FTP, OpenAPI, 실시간 streaming, Log aggregator, RDB aggregator 등 빅데이터업무절차및기술활용매뉴얼 (NIA) 정보설정기능 수집에이전트기능 Collector 기능 기타기능 매뉴얼의주요내용 각수집기술별로고려할사항을정리함 Page 11 ~ 17 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 16

1. 데이터수집 빅데이터수집시주의사항 빅데이터수집시에는데이터의질, 수집기술, 데이터보안및개인정보보호문제등다양한부분을고려해야함 ; 전문가의조언필요 데이터수집활동은분석결과의질을좌우하는중요한과정임 ; 분석에필요한데이터항목들을반드시포함해야하고, 품질도원하는수준으로확보하는것이중요함 수집기술은다양한데이터소스로부터다양한유형의데이터를수집하기위해확장성, 안정성, 실시간성및유연성을확보해야함 ( 도구사용으로체계화 ) 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 17

정의 2. 데이터저장관리 데이터전처리, 분산저장, 보안및품질관리등을수행하는단계 업무절차 데이터전처리 - 데이터필터링, 오류수정, 변환과통합 분산저장 - 데이터를한대혹은여러대의서버에저장하는과정 - 빅데이터의경우분산저장방식필요 (Hadoop 등 ) - 실시간데이터의경우인메모리방식필요 보안및품질관리 - 수집데이터의품질기준마련 ( 통합시유의 ) - 보안침해가능성분석및대처 - 개인정보보호필요성검토 ( 수준결정 ) - 관련법제도및지침서활용 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 18

전처리기술 2. 데이터저장관리 - 전처리 ( 예 : 센서의경우동일한값출력 => 압축 ) 단축할수 * 평활화 : 데이터에포함된잡음제거를위해추세를벗어나는데이터를적절한값으로변환함 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 19

결측치처리방법 2. 데이터저장 - 정제 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 20

잡음의처리방법 2. 데이터저장 - 정제 회귀값 잡음발생원인 : 센서의작동실패, 데이터입력오류, 데이터전송문제, 기술적인한계, 데이터속성값의부정확성등 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 21

2. 데이터저장 - 축소 불필요한데이터축소 => 분석효율성제고 ( 고유특성은유지 ) 단계적회귀분석 (stepwise regression) - 독립변수를하나씩추가 / 삭제하면서최적의모형을만들어나감 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 22

2. 데이터저장 전처리 / 후처리 데이터전처리관련기술활용시고려사항 데이터전처리 데이터필터링기술활용시고려사항 데이터유형변환시 데이터정제시 데이터후처리 데이터통합시 데이터변환시 데이터축소시 Page 23~26 참고 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 23

빅데이터저장 2. 데이터저장 - 분산저장 수집된데이터는한대의컴퓨터에저장하거나 ( 작은경우 ) 혹은여러대의컴퓨터 ( 클라우드 ) 에분산저장함 실시간처리가필요한경우에는메인메모리에저장함 Big Data 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 24

2. 데이터저장 - 분산저장 데이터저장계획수립 데이터유형에따른저장방식선정 RDB, NoSQL, 분산파일시스템, IMDG 등 데이터수집량에따라저장공간산정 RDB 는제조업체문의 ; scale-up / scale-out 확장성확인 NoSQL 은 scale-out 방식으로 peta-byte 이상까지확장 ( 복제고려 ) 계획서에는데이터유형에따른수집주기, 저장방식, 보관주기, 벡업방식, 저장공간확장방안등을세부적으로명시 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 25

데이터저장기술 2. 데이터저장 - 분산저장 최대 Terabyte 씩확장가능 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 26

2. 데이터저장 - 분산저장 인메모리데이터그리드 - 분산된서버의메인메모리에데이터저장 - 다수의컴퓨터로고속병렬처리 ( 고성능실시간처리 ) - 필요한경우하드디스크 DB 와연동및동기화 IMDG 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 27

2. 데이터저장 - 분산저장 저장공간의확장방식 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 28

2. 데이터저장 시험운영및모니터링 구축및시험운영 계획에따라 DB 를구축하고운영에필요한주요기능을테스트함 시행및모니터링 주기적으로데이터저장관련에러, 여유공간등을실시간으로모니터링하고문제발생시대응체계마련 RDB 의경우인덱스공간을감안하여여유공간확보 NoSQL,,Hadoop 의경우복제파일운영고려 저장공간이일정수준이상사용된경우미리 scale-out 방안강구 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 29