제 5 장 빅데이터프로젝트가이드라인 2015.06 조완섭충북대학교경영정보학과대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3258 010-2487-3691 본자료는 빅데이터업무절차및기술활용매뉴얼 (Ver 1.0), NIA, 2014.03 을참고하여정리한것임
배경및개요 데이터수집 데이터저장관리 보안관리 품질관리 데이터분석 가시화 목차 분석결과의활용과서비스 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 2
빅데이터시대로의진입 2011 년맥킨지보고서 배경 빅데이터가 ICT 분야의새로운패러다임, 신성장동력 정부3.0으로공공분야빅데이터관심증대 IT 기업들은빅데이터로의사업확장 비IT기업들도빅데이터활용비즈니스혁신에관심 선진국, 글로벌기업위주로빅데이터경쟁심화 미국, 영국, 일본, 싱가폴 중국핀테크기업 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 3
배경 우리나라는선진국에비하여빅데이터경쟁력하락 정부및공공기관, 지자체노력에도불구하고 2015 년 OpenData Barometer 국제지표 17 위하락 (2014 년 12 위 ) 빅데이터구축및활용경험이일천하고, 마땅한지침서나전문가도부족한상황 거버넌스구축없이활용만강조되는분위기 데이터를소홀이하는문화 데이터분석기반의과학적의사결정문화미흡 조직의데이터분석역량이미흡 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 4
개요 빅데이터활용지침서 (Nia, 2014) 공공과민간에서빅데이터를활용하고자하는실무자들이알아야할단계별업무절차및관련기술소개 빅데이터프로젝트수행시고려사항 빅데이터를활용한서비스기획 (rfp 작성 ) 분석플랫폼의구축과운영 사업관리 데이터활용업무혁신방안 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 5
개요 빅데이터사업수행의수행과활용절차 품질관리 ( 수명관리메타데이터관리 ) 보안관리프라이버시관리 데이터소스 데이터거버넌스와지속적모니터링 데이터수집 데이터저장관리 데이터분석 데이터활용 / 업무혁신 데이터소스선정수집계획수립수집방법 / 주기데이터수집시행 데이터전처리분산저장관리 다차원분석데이터마이닝통계분석 관련부서업무적용지속적업무개선성과평가 -> 인센티브 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 6
정의 1. 데이터수집 조직내부 외부의다양한데이터를일괄 실시간으로수집하는과정 ( 기술, 업무 ) 절차 데이터소스선정 목록작성 분석목적에따라데이터소스를선정하되수집가능여부등을점검한후세부목록작성 세부계획수립 수집계획서작성 데이터소스별로데이터소유기관파악 - 내부데이터 / 외부데이터구분 - 데이터소유권 / 개인정보확인소스별데이터유형과특징파악 - 종류, 포멧, 품질, 비용등수집기술과수집주기선정 수집시행 로그모니터링 사전테스트 => 수집진행 => 유출방지 ; 업무지침 - 장애점검 / 품질향상을위해관련로그기록확보 ( 데이터출처, 수집방식, 장애발생로그, 시간등데이터수집상황을저장하고모니터링함 ); 보안정책 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 7
1. 데이터수집 데이터유형 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 8
데이터수집주기 1. 데이터수집 배치 ( 간격은?) 수집과 ( 준 ) 실시간수집으로구분하여적절한수집기술선택 데이터의종류와크기, 데이터발생빈도주기, 분석주기, 시스템및네트워크부하정도등을고려하여기술선택 일정기간샘플데이터수집필요 데이터량을점검한후에수집주기와서버용량결정 스트림데이터의실시간수집 (IoT) 데이터폭증에대비해야함 중복데이터필터링기술활용 ( 예 : 방의온도센서 ) 인메모리처리기술활용필요 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 9
데이터수집기술 1. 데이터수집 Web Robot ( URL List => 데이터수집 ) 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 10
1. 데이터수집 데이터수집기술 Arriving machine data is processed at rates of up to 1 million records/second/cpu core ( 종류 : SQLstream, ETL for IMDG), TeraStream for Hadoop 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 11
1. 데이터수집 빅데이터유형에따른수집기술 수집기술의선택 배치 실시간 정형반정형비정형 정형반정형비정형 도구 기술도구 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 12
1. 데이터수집 실시간데이터수집의필요성증대 핀테크재난안전의료, 헬스 추천 실시간분석과대응 분산고속처리 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 13
1. 데이터수집 60 초동안에발생하는 events 출처 : http://gizmodo.com/how-much-happens-on-the-internet-every-60-seconds-950463150 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 14
1. 데이터수집 사전테스트 수집계획에따라수집주기와기술을적용, 사전테스트진행 네트워크트래픽문제, 데이터누락여부, 정확성 ( 원본과수집된데이터비교 ), 보안성등을점검하여필요시수집방법보완변경 데이터수집시행 수집을진행하되향후장애점검등을위해관련로그기록을확보함 수집당시상황을정보 : 데이터의출처, 수집방식, 장애발생여부와시스템로그, 시간등의정보 데이터의수집후처리 데이터수집후저장된데이터에대한외부인접근방지및유출시대처방안등과관련된업무지침마련 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 15
1. 데이터수집 데이터수집기술활용시고려사항 Crawling, FTP, OpenAPI, 실시간 streaming, Log aggregator, RDB aggregator 등 빅데이터업무절차및기술활용매뉴얼 (NIA) 정보설정기능 수집에이전트기능 Collector 기능 기타기능 매뉴얼의주요내용 각수집기술별로고려할사항을정리함 Page 11 ~ 17 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 16
1. 데이터수집 빅데이터수집시주의사항 빅데이터수집시에는데이터의질, 수집기술, 데이터보안및개인정보보호문제등다양한부분을고려해야함 ; 전문가의조언필요 데이터수집활동은분석결과의질을좌우하는중요한과정임 ; 분석에필요한데이터항목들을반드시포함해야하고, 품질도원하는수준으로확보하는것이중요함 수집기술은다양한데이터소스로부터다양한유형의데이터를수집하기위해확장성, 안정성, 실시간성및유연성을확보해야함 ( 도구사용으로체계화 ) 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 17
정의 2. 데이터저장관리 데이터전처리, 분산저장, 보안및품질관리등을수행하는단계 업무절차 데이터전처리 - 데이터필터링, 오류수정, 변환과통합 분산저장 - 데이터를한대혹은여러대의서버에저장하는과정 - 빅데이터의경우분산저장방식필요 (Hadoop 등 ) - 실시간데이터의경우인메모리방식필요 보안및품질관리 - 수집데이터의품질기준마련 ( 통합시유의 ) - 보안침해가능성분석및대처 - 개인정보보호필요성검토 ( 수준결정 ) - 관련법제도및지침서활용 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 18
전처리기술 2. 데이터저장관리 - 전처리 ( 예 : 센서의경우동일한값출력 => 압축 ) 단축할수 * 평활화 : 데이터에포함된잡음제거를위해추세를벗어나는데이터를적절한값으로변환함 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 19
결측치처리방법 2. 데이터저장 - 정제 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 20
잡음의처리방법 2. 데이터저장 - 정제 회귀값 잡음발생원인 : 센서의작동실패, 데이터입력오류, 데이터전송문제, 기술적인한계, 데이터속성값의부정확성등 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 21
2. 데이터저장 - 축소 불필요한데이터축소 => 분석효율성제고 ( 고유특성은유지 ) 단계적회귀분석 (stepwise regression) - 독립변수를하나씩추가 / 삭제하면서최적의모형을만들어나감 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 22
2. 데이터저장 전처리 / 후처리 데이터전처리관련기술활용시고려사항 데이터전처리 데이터필터링기술활용시고려사항 데이터유형변환시 데이터정제시 데이터후처리 데이터통합시 데이터변환시 데이터축소시 Page 23~26 참고 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 23
빅데이터저장 2. 데이터저장 - 분산저장 수집된데이터는한대의컴퓨터에저장하거나 ( 작은경우 ) 혹은여러대의컴퓨터 ( 클라우드 ) 에분산저장함 실시간처리가필요한경우에는메인메모리에저장함 Big Data 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 24
2. 데이터저장 - 분산저장 데이터저장계획수립 데이터유형에따른저장방식선정 RDB, NoSQL, 분산파일시스템, IMDG 등 데이터수집량에따라저장공간산정 RDB 는제조업체문의 ; scale-up / scale-out 확장성확인 NoSQL 은 scale-out 방식으로 peta-byte 이상까지확장 ( 복제고려 ) 계획서에는데이터유형에따른수집주기, 저장방식, 보관주기, 벡업방식, 저장공간확장방안등을세부적으로명시 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 25
데이터저장기술 2. 데이터저장 - 분산저장 최대 Terabyte 씩확장가능 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 26
2. 데이터저장 - 분산저장 인메모리데이터그리드 - 분산된서버의메인메모리에데이터저장 - 다수의컴퓨터로고속병렬처리 ( 고성능실시간처리 ) - 필요한경우하드디스크 DB 와연동및동기화 IMDG 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 27
2. 데이터저장 - 분산저장 저장공간의확장방식 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 28
2. 데이터저장 시험운영및모니터링 구축및시험운영 계획에따라 DB 를구축하고운영에필요한주요기능을테스트함 시행및모니터링 주기적으로데이터저장관련에러, 여유공간등을실시간으로모니터링하고문제발생시대응체계마련 RDB 의경우인덱스공간을감안하여여유공간확보 NoSQL,,Hadoop 의경우복제파일운영고려 저장공간이일정수준이상사용된경우미리 scale-out 방안강구 2015-07-23 Wan-Sup Cho (wscho@cbnu.ac.kr) 29