IT & Future Strategy 는 21 세기한국사회의주요패러다임변화를분석하고이를토대로미래정보사회의주요이슈를전망, IT 를통한해결방안을모색하기위해 NIA 에서기획 발간하는보고서입니다. NIA 의승인없이본보고서의무단전재나복제를금하며, 내용에대한문의나제안은아래연락처로

Similar documents

ㅇ ㅇ

consulting

암호내지

[Brochure] KOR_TunA


4±Ç_DMB_3Â÷ º¹»ç

wtu05_ÃÖÁ¾

장애인건강관리사업

Windows 8에서 BioStar 1 설치하기

Cloud Friendly System Architecture

행정학석사학위논문 공공기관기관장의전문성이 조직의성과에미치는영향 년 월 서울대학교행정대학원 행정학과행정학전공 유진아

로거 자료실

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

슬라이드 1

ISO/IEC 의온톨로지와메타데이터 표준화동향 한국과학기술정보연구원 김장원

< C617720BBF3B4E3BBE7B7CAC1FD20C1A632B1C72E687770>

Semantic Search and Data Interoperability for GeoWeb

슬라이드 제목 없음

2018 데이터산업백서 2018 Data Industry White Paper

<C3E6B3B2B1B3C0B C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>

슬라이드 1

2002report hwp

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

수출및수입액현황 (2016) 6억 1,284 만달러억 1 7,045 만달러 4억 4,240 만달러 2015 년대비 15.4 % 증가 2015 년대비 11.1 % 증가 2015 년대비 1.3 % 증가 수출액 수출입차액 수입액 지역별수출액 ( 비중 ) 일본 4,129만달러

Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용

[ 목차 ]

맘톡광고소개서

Art & Technology #5: 3D 프린팅 - Art World | 현대자동차

810 & 는 소기업 및 지사 애 플리케이션용으로 설계되었으며, 독립 실행형 장치로 구성하거 나 HA(고가용성)로 구성할 수 있습니다. 810은 표준 운영 체제를 실행하는 범용 서버에 비해 가격 프리미엄이 거의 또는 전혀 없기 때문에 화이트박스 장벽 을

슬라이드 1

Cisco FirePOWER 호환성 가이드

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

02-01 데이터베이스의필요성 데이터베이스의정의와특성

04 특집

Microsoft PowerPoint - chap01-C언어개요.pptx

Samsung SDS Enterprise Cloud Networking CDN Load Balancer WAN


라우터

목 차 주요내용요약 1 Ⅰ. 서론 3 Ⅱ. 스마트그리드산업동향 6 1. 특징 2. 시장동향및전망 Ⅲ. 주요국별스마트그리드산업정책 17 Ⅳ. 미국의스마트그리드산업동향 스마트그리드산업구조 2. 스마트그리드가치사슬 3. 스마트그리드보급현황 Ⅴ. 미국의스마트그리드정

법학박사학위논문 실손의료보험연구 2018 년 8 월 서울대학교대학원 법과대학보험법전공 박성민

hwp


PDF_Compass_32호-v3.pdf

98 자료 개발 집필 지침

Microsoft Word - src.doc


1

ㅣ특집ㅣ국가교통정책선진화를위한빅데이터활용 1 교통분야의 빅데이터활용활성화방향 엄진기 한국철도기술연구원책임연구원 최근사회전반에걸쳐빅데이터 (Big Data) 에대한관심이증가하면서빅데이터의활용방법및사례에대한내용들이인터넷이나매스컴을통해지속

제 1 호 지방자치단체녹색정보화추진동향 제 2 호 전자정부성과관리를위한평가동향 제 3 호 외국모바일전자정부추진동향 제 4 호 업무용 PC 가상화 제 5 호 증강현실구현기술현황 제 6 호 Web 기술의진화와공공서비스 제 7 호 ICT 를통한일자리창출방안 제 8 호 스마트

농림축산식품부장관귀하 본보고서를 미생물을활용한친환경작물보호제및비료의제형화와현장적용매뉴 얼개발 ( 개발기간 : ~ ) 과제의최종보고서로제출합니다 주관연구기관명 : 고려바이오주식회사 ( 대표자 ) 김영권 (

Windows Server 2012

Microsoft PowerPoint - 3장-MS SQL Server.ppt [호환 모드]

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

<B8D3B8AEB8BB5F20B8F1C2F72E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Slide 1

View Licenses and Services (customer)

요약 1 요약 제 1 장사업의개요및조사방법

SIGIL 완벽입문

PowerPoint 프레젠테이션

맘톡어플 & 맘톡 SNS 광 고 소 개 서 I n d e x 서비스소개 - 특징 - 어플 & SNS 통계수치

C O N T E N T 목 차 요약 / 4 Ⅰ. 서론 Ⅱ. 주요국별대형유통망현황 / Ⅲ. 시사점및진출방안 ( 첨부 ) 국가별주요수입업체

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

문학석사학위논문 존밀링턴싱과이효석의 세계주의비교 로컬 을중심으로 년 월 서울대학교대학원 협동과정비교문학 이유경

위탁연구 기능경기시스템선진화방안

2014 년도사업계획적정성재검토보고서 차세대바이오그린 21 사업

< C0DAC0B2C5BDB1B820BFEEBFB520B8DEB4BABEF32D33C2F720C6EDC1FD2E687770>

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

RHEV 2.2 인증서 만료 확인 및 갱신

Network Security - Wired Sniffing 실습 ICNS Lab. Kyung Hee University

IT.,...,, IoT( ),,.,. 99%,,, IoT 90%. 95%..., (PIPA). 디지털트랜스포메이션은데이터보안에대한새로운접근방식필요 멀티클라우드사용으로인해추가적인리스크발생 높은수준의도입률로복잡성가중 95% 는민감데이터에디지털트랜스포메이션기술을사용하고있음


5th-KOR-SANGFOR NGAF(CC)

<B3EDB4DC28B1E8BCAEC7F6292E687770>

<464B4949B8AEC6F7C6AE2DC0AFBAF1C4F5C5CDBDBABBEABEF7C8AD28C3D6C1BE5FBCD5BFACB1B8BFF8BCF6C1A4292E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

FOCUS Ⅰ. 서론 지금은바야흐로빅데이터 (BigData) 시대라해도과언이아니다 년전세계디지털정보생산량은약 1.8ZB( 제타바이트 ) 라고한다. 1.8ZB 는 2000 억개이상의고화질 (HD) 영화를 4700 만년동안시청할수있는정도의엄청난정보량을뜻한다. 이

데이터자격시험소개 한국데이터베이스진흥원은산업수요에부응하는인재양성을위해기업의데이터에관한모든구조를체계화하여설계하는능력을검정하는데이터아키텍처 (Data Architecture) 자격시험과데이터베이스개발의필수언어인 SQL(Structured Query Language) 활용능

Visual Studio online Limited preview 간략하게살펴보기

마닝

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

PowerPoint Presentation

사업별평가결과종합 일반회계 산림자원정보화 직접수행 보통 산림과학기술정보화 직접수행 보통

슬라이드 1

슬라이드 1

슬라이드 제목 없음

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

목차 Ⅰ 시험개요 1 Ⅱ 건전지품질비교시험결과요약 4 Ⅲ 건전지종합평가표 8 Ⅳ 시험결과조치계획 9 [ ]

2

TTA Journal No.157_서체변경.indd


2 PX-8000과 RM-8000/LM-8000등의 관련 제품은 시스템의 간편한 설치와 쉬운 운영에 대한 고급 기술을 제공합니다. 또한 뛰어난 확장성으로 사용자가 요구하는 시스템을 손쉽게 구현할 수 있습니다. 메인컨트롤러인 PX-8000의 BGM입력소스를 8개의 로컬지

1. 배경및필요성 연구배경 국민맞춤형정부 3.0 실현을위한핵심전략으로서빅데이터활용 데이터기반의미래트랜드분석및과학적인국가미래전략수립을내용으로하는 정부3.0 추진기본계획 에서는 2013 년까지빅데이터기반시스템을구축하고 2017 년까지치안 재난재해 교통안전등 6 개분야 21

About

3월2일자.hwp

i

H3250_Wi-Fi_E.book

Transcription:

IT & Future Strategy 빅데이터시대의데이터자원확보와품질관리방안 제 호 목 차 빅데이터시대 데이터자원의범위와가치 빅데이터자원확보를위한요건과방법 빅데이터자원의품질관리 결론및제언

IT & Future Strategy 는 21 세기한국사회의주요패러다임변화를분석하고이를토대로미래정보사회의주요이슈를전망, IT 를통한해결방안을모색하기위해 NIA 에서기획 발간하는보고서입니다. NIA 의승인없이본보고서의무단전재나복제를금하며, 내용에대한문의나제안은아래연락처로해주시기바랍니다. 발행인 : 김성태 작성 : 한국정보화진흥원국가정보화기획단정보화전략연구부 빅데이터전략연구센터 김정미책임연구원 (02-2131-0474, kimjm@nia.or.kr) 보고서온라인서비스 - www.nia.or.kr, www.itglobal.or.kr, www.bigdataforum.or.kr

요약 일상화된 서비스는데이터생성 소비환경을기업 정부등 조직의업무중심에서일반사용자의생활중심으로변화 소통중심의개인화서비스 송전관등사회기반서비스 웹서버 응용프로그램등인터넷서비스는관계데이터 센서데이터 기계 데이터 응용프로그램데이터등비정형데이터를대량으로생성 빅데이터의개념은 특징을갖는비정형데이터에서출발하여현재는 조직의업무특성과입장에따라다양한시각과이해가존재 기업중심의전통적데이터와새롭게관심을받고있는 데이터등 모든데이터는빅데이터자원으로서새로운가치를창출 조직별시각에따른빅데이터개념의확대 빅데이터는기존의데이터생산자 가공자 소비자간의관계와 생성주체 유형 저장방식 데이터흐름을변화시키면서새로운빅데이터가치사슬을형성 생산자로서개인의역할 전문적인데이터수집 가공자의등장 외부 데이터의흐름등은새로운가치사슬을형성 빅데이터자원의분류 컴퓨터생산데이터 사람생산데이터 관계데이터 어플리케이션서버로그 웹사이트 게임등 센서데이터 날씨 물 스마트그리드등 이미지 비디오 트래픽 보안카메라등 트위터 블로그 이메일 사진 게시판글등 페이스북 링크드인등 정형반정형비정형웹문서 메타데이터 센서데이터 공정콘트롤데이터 콜상세데이터등이미지등 에저장된구조적데이터 소셜데이터 문서 오디오 비디오 동영상 데이터기업데이터이산데이터 관계형 에저장하기어려운 특성을갖는데이터 등과같이주로관계형데이터베이스에저장된데이터 스프레드시트 파일데이터베이스 이메일 데이터등개별적으로관리되는데이터

빅데이터자원의원활한확보를위해공개데이터의확대 제도적 요건 정보환경적요건등의기반구축이필수적 공공정보등조직의공개데이터는빅데이터자원의중요한소스 데이터자원의소유권 개인프라이버시보호제도는데이터 수집 공유가자유로운빅데이터환경에중요한요소 빅데이터자원확보를위해레거시시스템과의연계를고려한빅데이 터의검색 수집 저장등이가능한빅데이터플랫폼으로의전환필요 빅데이터자원확보 단계 검색및수집 조직외부에존재하는무한한데이터중에서조직이필요로하는데이터를발견하는것이중요하며이를위한검색방법은진화중 데이터수집은수집한데이터를저장하거나분석하기위해데이터를변환하거나통합하는작업이중요 빅데이터자원확보 단계 저장 대용량 비정형 실시간성 특징을수용하면서저장단가의절감 자료저장 인출속도의향상 저장신뢰도 안정성을보장하는저장방식필요 빅데이터자원의확보를위해레거시저장시스템과 데이터저장 시스템전반에걸쳐데이터를접근 처리할수있는통합환경구축필요 빅데이터검색 수집저장을위한정보통합환경

빅데이터는 대량의데이터 세밀한수준의데이터 소유자가불 분명한데이터 특성으로인해다른접근방식의품질관리가필요 모든개별데이터에대한타당성보장보다는빅데이터개념및특성측면에서관리되어야할항목과수준에대해품질을정의 품질관리에영향을미치는빅데이터특징과품질관리접근방법 대량의데이터 미세하고정밀한데이터 데이터소유자불분명 빅데이터특징 수작업으로수집되기보다는기계 프로그램등에의해수집되는대량의데이터 클릭스트림 미터값등기계 센서 프로그램등에서생산되는데이터로기존데이터보다훨씬미세한데이터 누가언제어디서데이터를생산한것인지에대한관리 감독이불가능한조직외부의데이터 품질관리접근방법 혹시발생할지모르는데이터사용자의오류는무시 데이터수집과정의타당성을방해하는예외상황을탐지하는수준으로품질기준정의 장치고장으로인한데이터손실 장치의비정상적상황으로인한비정상적수치등 개별데이터에대한타당성검증은경우에따라불필요 개별레코드에대한의미보다데이터전체가나타내는의미를중심으로품질기준정의 목적이나통제없이생산된데이터에대한데이터품질기준을정의하기위한다른방법필요 빅데이터품질관리는데이터의사용목적 데이터의재사용여부 일관성유지여부에따라정확성 완전성 적시성 일관성에대한 별도의품질전략을수립 데이터품질요소 정확성 완전성 적시성 일관성 빅데이터품질요소와품질전략 데이터품질전략 데이터사용목적에따라데이터정확성의기준을다르게적용 사용자가접속한사이트와이동지점을분석하는클릭스트림분석과부정이나사기를탐지하는경우데이터의품질수준은다름 필요한데이터의완전한확보보다는필요한데이터를식별하는수준으로적용가능 소멸성이강한데이터에대해어느정도의품질기준을적용할것인지결정 웹로그데이터 트윗데이터 위치데이터등은하루 몇시간 몇분동안만타당성을가짐 동일한데이터라할지라도사용목적에따라달라지는데이터수집기준때문에데이터의미가달라질수있음 빅데이터품질관리는 정확성 보다는 충분성 개념 하에서조직의비즈니스영역및목적에따라수행하는것이바람직

1 Ⅰ 빅데이터시대 데이터자원의범위와가치 데이터생산환경의변화 업무 효율성중심의전통적정보서비스는고객정보 거래정보등의정형화된데이터가정부 기업등조직을중심으로생성 소비 신뢰성높은핵심데이터의증가량에맞춰저장 분석 관리할 수있는고비용의전통적플랫폼을조직내부에구축 그러나 통신 정보기술의발달로모바일환경기반의다양한 서비스가일상화되면서데이터가생성되고소비되는원천환경이변화 빅데이터의등장 데이터생성주체 일상생활속에이미보편화된다양한서비스는 대량의데이터를생성하는새로운주체로부각 소통중심의개인화서비스 는비디오스트림 이미지 오디오 소셜네트워크등의비정형데이터를주로개인이생성 클릭스트림 인터넷사용자가웹서핑을하는동안방문한사이트목록 사회적소통중심의개인화서비스 블로그 커뮤니티 페이스북 유튜브 트위터 링크드인등

2 송전관등사회기반서비스 웹서버 응용프로그램등인터넷 서비스는센서데이터 기계데이터 응용프로그램데이터등을생성 데이터생산플랫폼 조직내외부의다양한서비스환경은새로운 부가가치를창출하는데이터를생산 관리하는새로운환경 구글등인터넷서비스기업 포털등의데이터플랫폼은위치정보 이전검색정보 개인기호등다양한문맥정보를생성 관리 이동통신회사 디바이스회사등이통신및제조중심에서애플리케이션 데이터원천 서비스를확대하면서비정형데이터가생성되는새로운플랫폼을보유 변화된데이터생산환경 전통적데이터 전통적정보서비스 빅데이터 일상화된정보서비스 목적업무 효율성사회적소통 자기표현 사회기반서비스 생성주체 데이터유형 데이터특징 데이터보유 데이터플랫폼 정부 기업등조직 정형데이터 조직내부데이터 고객정보 거래정보둥 주로비공개데이터 데이터증가량관리가능 신뢰성높은핵심데이터 정부 기업등대부분조직 정형데이터를생산 저장 분석 처리할수있는전통적플랫폼 분산 중앙집중처리 개인 시스템등 비정형데이터 비디오스트림 이미지 오디오 소셜네트워크등의사용자데이터 센서데이터 응용프로그램데이터등 조직외부데이터 일부공개데이터 기하급수적양적증가 데이터비중높음 문맥정보등다양한데이터 인터넷서비스기업 구글 아마존등 포털 네이버 다음등 이동통신회사 등 디바이스생산회사 애플 삼성전자등 비정형의대량데이터를생산 저장 분석 처리할수있는새로운플랫폼 대용량비정형데이터분산병렬처리

3 빅데이터개념에대한다양한시각과이해 초기빅데이터는인터넷기업 포털등에서주로사용자들이 생산하는비정형의정확성이낮은대량데이터를의미 구글 아마존 페이스북 트위터등의기업에서생산되는데이터는 특성으로인해기존일반기업의데이터와다름 특성이다른데이터를저장 분석하기위해개발된분산병렬 처리플랫폼은역으로빅데이터가생산되는플랫폼 이동통신회사 디바이스생산회사등은전형적인인터넷기업은 아니지만 특징을가진데이터가대량생산 대량의통신트랜잭션데이터 삼성전자 애플등의어플리케이션 데이터등은일반사용자들이생성하는또다른빅데이터 기업내부데이터의관리에집중하던일반기업은기업외부데이터 자원에대한인식이변화하면서빅데이터활용기업으로변화를시도 마케팅 기업경영등의전략수립을기업내부정보뿐만아니라 데이터 센서데이터등기업외부정보수집을통해수행 정부 공공부문은행정정보 공공정보 민간정보가연계 공유되어 목적에맞는최적의데이터분석이가능한환경으로추진 조직고유의데이터와외부조직의데이터를종합분석할수 있도록데이터의공개개념을포함 조직별시각에따른빅데이터개념의확대 볼륨 속도 다양성

4 빅데이터시대의다양한데이터자원 기업을중심으로관리되던전통적데이터와새롭게관심을받고있는 데이터등모든데이터는빅데이터자원 빅데이터는데이터생성주체 데이터의유형 저장방식에따라 다양하게분류가능 생성주체에따라어플리케이션 센서등이생성한컴퓨터생산데이터 사람이트위터 블로그등에올린데이터 개체간의관계데이터등이존재 유형에따라 에저장된정형 웹문서와같은반정형 오디오 비디오등비정형데이터가존재 저장방식에따라관계형 에저장된기업내부데이터 관계형 에저장이어려운 데이터 별도의포맷으로저장된개별데이터가존재 빅데이터자원의분류 컴퓨터생산데이터사람생산데이터관계데이터 생성주체 유형 저장방식 어플리케이션서버로그 웹사이트 게임등 센서데이터 날씨 물 스마트그리드등 이미지 비디오 트래픽 보안카메라등 트위터 블로그 이메일 사진 게시판글등 페이스북 링크드인등 정형반정형비정형 에저장된구조적데이터 웹문서 메타데이터 센서데이터 공정콘트롤데이터 콜상세 소셜데이터 문서 오디오 비디오 동영상 이미지등 데이터등 데이터 기업데이터 이산데이터 관계형 에저장하기어려운 특성을갖는데이터 등과같이주로관계형데이터베이스에저장된데이터 스프레드시트 파일데이터베이스 이메일 데이터등개별적으로관리되는데이터 빅데이터라이프사이클관리, SKC&C 심탁길 의자료를재구성

5 빅데이터등장은새로운데이터가치사슬을형성 기존의데이터가치사슬은데이터생산자 데이터수집 가공자 데이터소비자가기업 정부등조직으로모두동일 조직이자체적으로생산한데이터를조직의목적에맞게분석 가공하여조직스스로가활용 빅데이터가치사슬은기존의데이터가치사슬과 데이터가치 사슬이복합적으로연결되어새로운데이터분석시장을형성 생산자와소비자로서개인 데이터수집 가공자로서생산과관련없는기업 데이터를위한새로운솔루션은 데이터가치사슬을형성 기업은기존데이터와함께개인등이생산한외부 데이터를수집 새로운 솔루션으로분석한결과를개인에게제공하는빅데이터가치사슬형성 빅데이터가치사슬 빅데이터와한국시장, http://www.jaso.co.kr/453 의자료를재구성

6 II 빅데이터자원확보를위한요건과방법 빅데이터자원확보를위한요건 범위요건 빅데이터자원확보를위한중요한소스 공개데이터 빅데이터자원의확보는조직내외부의다양한여러시스템과연동하여 로그 공개데이터등을배치혹은실시간으로가져오는작업 빅데이터자원는조직의내부경계를넘어외부에걸쳐존재 하며 공유방식의진화에따라단계적으로확보 데이터자원확보를위한단계적방법 빅데이터활용을위한 3 대요소 : 자원, 기술, 인력, 정지선, 한국정보화진흥원에서인용 정부 공공 기업등의데이터공개는무한한가능성을지닌데이터 자원을활용할수있는토대를마련 미국뉴욕시는시정부데이터의접근성확대와시민서비스의 혁신적개선을위한 데이터공개법안 을승인

7 는 개회원국에서생산하는모든공공정보와데이터를의무적으로 공개하고자유롭게사용할수있도록하는 공공정보개방전략 을발표 EU 는공공데이터를공공기관에서생산 수집하는모든정보로지리데이 터, 통계, 기상데이터, 공개연구데이터, 디지털도서관의도서등으로정의 하고, 상업적 / 비상업적사용규칙, 요금, 데이터형태등을제정 영국비즈니스혁신및기술부 는공공정보공개에관해조언을 제공할 데이터전략위원회 를신설 정부차원의데이터공개포털 프랑스 국가및공공행정의모든정보를공개 광범위한재이용을위한 오픈데이터포털 네덜란드 정부조직의모든정보를접근할수있는 개방데이터포털 벨기에 공공부문의정보를공개 재이용할수있는 공공정보개방포털 타이페이 교통 행정 정치 공공안전 교육 문화 예술 건강 환경 주택등에대한데이터공개포털 공개데이터포털과같은데이터공개및공유체계의구축은빅데이터의수집과활용을효과적으로쉽게지원하는방안 빅데이터분석의전처리과정을줄이고데이터의품질을보장하는수단으로공개데이터의표준포맷필요 공개데이터포맷과품질조건을만족하는데이터는공유라이센스를부여하여데이터자원에대한신뢰성보장 빅데이터자원의단계적확보를위해데이터접근에대한법제도적요건과정보환경적요건에대한고려필요 빅데이터수집은공개데이터를대상으로하며최적화된데이터분석을위해공개데이터의확대를위한제도적장치필요 각조직의정보환경은빅데이터를접근 저장 분석할수있는 구조와플랫폼으로변화가필요

8 제도적요건 빅데이터자원확보기반구축을위한데이터 자원의소유권과개인프라이버시보호제도필요 데이터생성환경과이용환경이달라지는빅데이터환경은데이터수집및활용시소유권에대한이해와해석필요 대기에서수집가능한센서 주파수등의데이터는생성주체가 인지하지못하는상황에서수집 활용가능 트위터 블로그등에공개된사용자창작데이터가인터넷 서비스기업에게넘어가이용되는상황발생 의개인데이터소유권및프라이버시소송패소 년독일소비자센터총연맹 이 의운용법에대한문제제기및법정에고소 의피소내용 에업로드된개인의창작데이터 사진 음악등 가창작자의의도와 다른목적으로이용됨 개인컨텐츠사용권을 이취득함으로인해독일및유럽의 데이터보호법을위반하는결과초래 의 친구검색 기능은전자메일의주소목록에등록되어있는 연락처를이용하여온라인상의친구를찾아가도록구현 개인의프라이버시를침해하는결과초래 독일지방재판소가 년 월 일 의서비스규약변경을판결 데이터소유권인정 에업로드된개인창작데이터의소유권은 개인임에도불구하고 으로옮겨져창작자의의도와는다른목적 으로이용되는실정 창작자가데이터관리권한소유 프라이버시보장 의 친구검색 기능은사용자의동의나명시없이 전자메일의주소록에있는연락처를임의로가져와친구를검색 사용자에게 전자메일주소록이사용된다는점을명확하게통지

9 앱등을통해자신도모르는사이개인정보가수집 분석되는 사회적해킹환경을방지할수있는제도적방안필요 개인정보의사회적해킹은프라이버시침해 의도하지않은 상업적활용등다양한부작용발생 공개하지않은개인정보도찾아지는사회적해킹시대 연구목적 학부생이 회원사이의인맥정보를이용해본인이공개하지않은성 정체성 동성애자 을파악 대학은본인의동의없이개인의은밀한프라이버시를알아내려는행위가법적으로논란의소지가있어윤리위윈회에회부 연구진행조건 연구에사용된데이터를절대공개하지않는조건으로진행 연구내용 인적사항 학력등공개된개인정보 친구관계등의인맥정보를활용 동성애자임을밝힌회원과나머지회원간의인맥관계를분석하여링크의연 관성을수학적으로분석하여공식을추출하고 이를타집단에접목하여인 맥교류평균치가다를경우동성애자로추정 데이터공개확대및이용활성화를위한개인프라이버시보호방안필요 미국연방통상위원회 는 년 월에소비자데이터를처리하는 기업에게소비자의프라이버시보호를위한프레임워크를제안 미연방통상위원회의소비자프라이버시보호 대권고사항 기업은상품개발의모든단계에서소비자프라이버시 보호방안을적용 소비자데이터의합리적인보호 제한된수집 수집한개인정보의보관 데이터의정확성을높이기위한합리적인절차마련등을포함 기업은소비자에게 어떤정보를누구와공유할지선택할수있는옵션을제공 소비자들이스스로온라인활동추적을제어할수있는추적금지기능포함 기업은소비자정보의수집및사용에대한세부정보를 공개하고 소비자에게수집된자신의데이터에접근할수있는권한부여

10 정보환경적요건 빅데이터자원확보능력을갖추기위한 기업정보환경의빅데이터플랫폼으로의전환필요 빅데이터를수집 분석하고자하는조직은빅데이터자원의특성을 저비용으로수용할수있는분산병렬처리환경으로변화필요 구글등전형적인빅데이터기업은주로 데이터가생산되는 업무로인해정보환경구성초기부터빅데이터플랫폼 으로구성 이동통신사 디바이스제조사등은기존의레거시데이터와 축척되는 데이터를모두처리할수있는플랫폼으로변화 일반기업은레거시시스템을중심으로하되조직외부에서생성된 기업과관련된 데이터를수집 분석할수있는플랫폼필요 정부 공공영역은여러레거시데이터를공동활용할수있는 정보환경의구축과 데이터처리플랫폼을함께고려 조직유형별빅데이터플랫폼의모습 조직유형빅데이터플랫폼의모습기업예 인터넷서비스기업 포털이동통신회사 디바이스제조사 일반기업 정부 공공 확장가능한저비용의분산병렬처리플랫 폼 플랫폼 대규모투자가필요한고비용플랫폼에서저비용의분산병렬처리방식으로전환 레거시플 랫폼 플랫폼 기반에서외부데이터를접근할수있는 으로전환 레거시플랫폼 외부클라우드상의 플랫폼 정부 공공부문내레거시데이터의공동활용이가능한 환경 레거시플랫폼연계 공공 플랫폼 구글 아마존 페이스북 트위터등 애플 삼성전자등 코카콜라 월마트등 유럽 미국등에서공공부문데이터공개추진 전형적인빅데이터기업을제외한대부분의일반기업은기존레거시 시스템과의연계를고려한빅데이터플랫폼구축방안을고민 빅데이터플랫폼 빅데이터 레거시데이터 데이터 의수집 저장 분석을저비용으로수행할수있는정보시스템환경 필요에따라외부클라우드상에구축가능

11 빅데이터자원확보과정과방법 빅데이터자원확보 단계 검색과수집 빅데이터자원의확보관점에서데이터소스는위치 미디어 유형 상태에따라구별하는것이편리 빅데이터자원확보관점에서의데이터소스의구분 위치미디어상태내부외부텍스트오디오비디오이미지 아날로그디지털 조직외부에존재하는무한한데이터중에서조직이필요로하는데이터를발견하는것이중요하며이를위한검색방법은진화중 소셜검색 사람에의해 데이터가많이생산되는소셜네 트워크서비스를대상으로필요한빅데이터자원을발견 의미분석검색 형태소분석등을통한자연어검색 텍스트의미분 석을통한시맨틱검색등은의미에적합한빅데이터자원을발견 인공지능검색 경험치 사실 규칙등을이용하여경험하지못한새로운 내용을검색하는추론검색은미래예측관련빅데이터자원을발견 검색의진화단계 검색, Big data 에서 Big Insight 로기업, 미래를발견하다 ( 와이즈넛, 2012.2) 에서인용 빅데이터검색은조직외부의소셜데이터뿐만아니라조직내부의다양한형태와방식으로저장된데이터검색이중요 데이터를저장하는 뿐만아니라 이메일등다양한 백엔드시스템의데이터를접근 처리할수있는검색플랫폼필요

12 데이터수집은분산된다양한데이터소스로부터필요로하는데이터를수동혹은자동으로수집하는과정 조직내부에분산된정형데이터의수집과조직외부에흩어진비정형데이터의수집모두고려 데이터의수집은주로툴 프로그래밍에의해자동으로이루어지고 로그수집기 크롤링 센싱등의방법이가능 빅데이터자동수집방법 로그수집기 크롤링 센싱 조직내부에존재하는웹서버의로그수집 웹로그 트랜잭션로그 클릭로그 의로그데이터등을수집 주로웹로봇을이용하여조직외부에존재하는소셜데이터등과같은인터넷에공개되어있는자료를수집 각종센서를통해데이터를수집 데이터의생산 공유 참여환경인웹 을구현하는기술로필요한데이터를프로그래밍을통해수집 로그를수집하는오픈소스솔루션에는 등이 있으며끊임없이들어오는데이터를연속적으로처리가능 로그수집을위한오픈소스솔루션 분산된서버에서발생하는데이터를중앙집중서버로전송하는방식으로로그저장을위해다양한저장소를활용가능 설치및구성이용이 에서채택 분산된서버에서발생하는데이터를수집하는방식으로로그수집대상 데이터전송프로토콜 데이터저장소등을커스터마이징가능 로그데이터는 등에저장가능 에서채택 분산된서버에서발생하는데이터를 에안전하고중복없이저장 중복제거는 작업으로처리 에서채택 출처 그루터 기술을활용한 를위한아키텍처및기술

13 데이터수집과정은수집한데이터를저장하거나분석하기위해데이터를변환하거나통합하는작업을포함 데이터의변환및통합은레거시데이터간통합 비정형데이터의 정형화 레거시데이터와비정형데이터간의통합측면을고려 비정형데이터는데이터를수집하는과정에서구조적형태로전환되어저장 빅데이터를효과적으로분석하기위해서레거시데이터와수집한비정형데이터간의통합방안이반드시필요 비정형 정형 레거시데이터와비정형데이터간의통합 빅데이터수집을위한변환및통합 메인프레임 파일등으로부터데이터를추출하여목표하는저장소의데이터형태로변형한후목표저장소 에저장 비정형데이터는비구조적데이터저장소에저장하거나어느정도구조적인형태로변형하여저장 등오픈소스솔루션 데이터를분석하기위해서는수집된정형의레거시데이터와비정형데이터간의통합이필요 와 간의데이터를연결해주는기능으로 데이터를 으로로드하는도구 빅데이터수집시스템은다양한데이터소스로부터다양한형태의 데이터를수집하기위해확장성 안정성 실시간성 유연성을확보 빅데이터를수집하기위한수집시스템의요건 확장성 데이터수집대상이되는서버대수를무한히확장가능 안정성 수집된데이터가유실되지않고안정적으로저장 실시간성 수집된데이터를실시간으로반영 유연성 다양한포맷의데이터를지원 출처 빅데이터라이프사이클관리 심탁길

14 빅데이터자원확보 단계 저장 빅데이터자원은 대용량 비정형 실시간성 이라는특징을수용할 수있는저장방식이필요 기존데이터는행과열의정형데이터로구성된테이블들이키로결합되어저장되는방식으로다양한데이터유형의빅데이터저장에는부적합 빅데이터저장은대량의데이터를파일형태로저장할수있는기술과 비정형데이터를정형화된데이터형태로저장하는기술이중요 대용량데이터를저장하기위한다양한접근방식 접근방식설명제품 분산파일시스템 병렬 네트워크구성저장시스템 클라우드파일저장시스템 컴퓨터네트워크를통해공유하는여러호스트컴퓨터의파일에접근할수있게하는파일시스템 데이터모델을단순화해서분산의기본개념을쉽게정의하고 요건을완화하거나제약하는형태의새로운저장시스템을통칭 다수의마이크로프로세서를사용하여여러디스크에대한질의 갱신 입출력등의데이터베이스처리를동시에수행하는데이터베이스시스템 서로다른종류의데이터저장장치를하나의데이터서버에연결하여총괄적으로데이터를저장 관리 클라우드컴퓨팅환경에서가상화기술을활용한분산파일시스템 등의분산파일시스템은수집된비구조적데이 터의원본을안정적으로저장하는대용량파일저장소 HDFS 는파일을고정크기의블록으로나누어저장하고 NoSQL 은수집한 데이터를 Key-Value 형식으로분산해서저장

15 은비구조적원본데이터에대해실시간저장 조회처리를 하기위한트랜잭션데이터를저장하는구조적저장소 빅데이터자원저장관련하여저장단가의절감 자료저장 인출속도의향상 저장신뢰도 안정성의보장등은중요한이슈 빅데이터를저장하기위한분산스토리지요건 저비용 범용 서버 디스크둥저비용장비사용 고확장 적어도수 수백 이상의데이터저장가능 고가용 데이터 중복제를통해언제나가용할수있는데이터안정성보장 고성능 대규모 처리와처리성능의선형적확장이가능 출처 빅데이터라이프사이클관리 심탁길 빅데이터검색 수집 저장의과정은레거시저장시스템과 데이터저장 시스템전반에걸쳐데이터를접근 처리할수있는통합환경에서수행 조직시스템전반에대해콘텐츠인덱스유지 관리 데이터스키마 및구조에상관없이검색 수집 저장 편집할수있는환경구축 빅데이터검색 수집저장을위한정보통합환경

16 III 빅데이터자원의품질관리 신뢰성확보를위한데이터자원의품질정의 데이터품질은사용자관점에서사용목적에적합한데이터인가에따라결정하는것이바람직 사용자관점에서의데이터품질속성을분석하여내재성 접 근성 상황성 표현성측면에서데이터품질유형을구분 기존레거시데이터는아래 가지품질유형을모두만족할 경우데이터의품질이보장 데이터품질유형및세부품질요소 데이터품질유형 내재적품질 접근성품질 상황적품질 표현적품질 데이터품질요소 정확성 객관성 진정성등데이터자체의우수성 접근성 접근보안성등데이터에접근할수있는환경적우수성 연관성 초시간성 완전성 데이터양등사용자가목적하는상황에적합성 해석력 간결성 용이성 일관성등데이터표현의명확성 신뢰할수있는정보시스템을위한데이터품질향상전략, 박성혁 에서재구성 데이터품질은데이터생산자 데이터가공자 데이터소비자간의 데이터가치사슬단계에서형성되기도함 시스템 등으로부터수집한원천데이터는모형개발 통계적데 이터처리과정등의분석과정에서데이터품질의변화발생가능 데이터가공단계중어느단계에서품질문제가발생했는가에따라데이터신뢰도에미치는영향이결정

17 데이터품질관리에영향을미치는빅데이터특성 빅데이터는기존의데이터와다른몇가지특징으로인해데이터품질관리측면에서다른방식의접근이필요 대량의데이터 세밀한수준의데이터 소유자가불분명한 데이터 특성으로인해기존의품질기준의적용은불가능 모든개별데이터에대한타당성보장보다는빅데이터개념및특성측면에서관리되어야할항목과수준에대해품질을정의 품질관리에영향을미치는빅데이터특징과품질관리접근방법 빅데이터특징 품질관리접근방법 대량의데이터 수작업으로수집되기보다는기계 프로그램등에의해수집되는대량의데이터 혹시발생할지모르는데이터사용자의오류는무시 데이터수집과정의타당성을방해하는예외상황을탐지하는수준으로품질기준정의 장치고장으로인한데이터손실 장치의비정상적상황으로인한비정상적수치등 미세하고정밀한데이터 클릭스트림 미터값등기계 센서 프로그램등에서생산되는데이터로기존데이터보다훨씬미세한데이터 개별데이터에대한타당성검증은경우에따라불필요 개별레코드에대한의미보다데이터전체가나타내는의미를중심으로품질기준정의 데이터소유자불분명 누가언제어디서데이터를생산한것인지에대한관리 감독이불가능한조직외부의데이터 목적이나통제없이생산된데이터에대한데이터품질기준을정의하기위한다른방법필요 Data Quality for Big Data : Principles Remain, But Tactics Change, 가트너, 2011 의내용을재구성 클릭스트림 인터넷사용자가웹서핑을하는동안방문한사이트목록

18 충분성 개념의빅데이터품질관리전략 빅데이터품질관리는기존데이터품질요소인정확성 완전성 적시성 일관성측면에서다른방식의품질전략이필요 정확성 완전성 적시성 일관성에대한품질전략은데이터의사용목적 데이터의재사용여부 일관성유지여부에따라수립 빅데이터품질요소와품질전략 데이터품질요소 정확성 완전성 적시성 일관성 데이터품질전략 데이터사용목적에따라데이터정확성의기준을다르게적용 사용자가접속한사이트와이동지점을분석하는클릭스트림분석과부정이나사기를탐지하는경우데이터의품질수준은다름 필요한데이터의완전한확보보다는필요한데이터를식별하는수준으로적용가능 소멸성이강한데이터에대해어느정도의품질기준을적용할것인지결정 웹로그데이터 트윗데이터 위치데이터등은하루 몇시간 몇분동안만타당성을가짐 동일한데이터라할지라도사용목적에따라달라지는데이터수집기준때문에데이터의미가달라질수있음 Data Quality for Big Data : Principles Remain, But Tactics Change, 가트너, 2011 의내용을재구성 빅데이터품질은 정확성 보다는 충분성 개념 하에서조직의비즈니스영역및목적에따라관리하는것이바람직 소유하지않은외부데이터를활용하고자할경우내부적으로데이터신뢰성에대한기준수립필요 관심있는속성이나관계를식별하는기술을사용하여데이터품질과관련된데이터영역을제한하는전략도가능

19 IV 결론및제언 빅데이터자원의활용촉진및가치극대화를위한원활한데이터확보환경구축필요 원활한빅데이터자원확보환경을구축하기위해서는우선정부 공공부문의데이터공개및수집을위한체계구축필요 행정정보 공공정보를공개하고 필요한조직및개인이접근하여데이터를수집할수있는 공공정보데이터허브 구축 공공정보데이터허브는분산된공개데이터시스템을연계하거나다양한시스템적접근방법을제공하여데이터공개채널을제공 데이터공개활성화를위한데이터공개가이드라인제정필요 데이터등급제도를마련하여국가기밀 개인정보등정보성격에 맞는데이터등급을부여함으로써공개데이터를관리 공개데이터의공익적 개인적 상업적활용에대한지침마련 공공정보개방현황 세금 병무 교육 법무등정부가보유한행정정보는 행정정보공동이용센터 를중심으로행정기관간에만공동활용중 부처 지자체 공공기관 연구소등이보유한공공정보 프로그램 데이터 는 공공정보활용지원센터 를통해필요한기관 기업 개인에게제공 개기관의 건에대한공공정보가개방되고있으며주로문화 유산 특허 생물다양성분야의데이터비중이높음 데이터공개에대한인식및제도적환경미비로공공부문데이터중극히일부데이터만공개되고있는상황 기업은기업의업무특성과기존의정보환경을고려하여빅데 이터를확보하기위한구체적인전략을수립해야할시점

20 빅데이터활용결과의정확성및신뢰성향상을위해 빅데이터품질관리체계구축필요 기업의정형데이터 공공기관이보유한공공정보등은개별정보 에대한품질관리를통해데이터의중복성 불일치성등을관리 공공정보품질관리제도현황 공공정보품질관리관련근거법 국가정보화기본법제 조 제 조 제 조 국가정보화기본법시행령제 조 제 조 공공기관의데이터베이스품질관리지침 데이터베이스품질관리계획의수립 품질오류신고접수및처리 데이터베이스표준화 연계데이터품질관리 품질관리지원센터등을규정 공공정보품질관리매뉴얼 국가및기관차원의데이터품질관리체계 데이터품질진단및개선절차와단계별주요활동을기술하고 데이터품질관리수준체크리스트 데이터품질지표별체크리스트 지표별품질기준및진단방법등을제공 다양한데이터소스를활용하는빅데이터는각데이터의특성을고려한종합적인빅데이터품질관리가이드라인마련필요 기존품질관리지침에따라관리되는고품질데이터는빅데이터자원으로그대로활용가능하나 데이터는그특성상기존데이터와다른품질기준 품질관리 프로세스 품질전략의수립이필요 빅데이터자원의품질을보장하고활용을극대화하기위한빅데이터자원품질인증방안연구필요 빅데이터품질관리가이드라인을준수한데이터에대한 빅데이터 품질라이센스 와데이터공개가이드라인을준수한공개데이터에 대한 데이터공유라이센스 부여방안검토필요

21 참고자료 빅데이터를위한플랫폼들 클라우드플랫폼개발랩이규재 빅데이터를이해하기위한 효성 클라우드사업부주창오 빅데이터시대의인간정보필터 큐레이션 삼성경제연구소채승병 빅데이터라이프사이클관리 심탁길 빅데이터검색 분석기술 정지선 가치창출엔진 빅데이터의새로운가능성과대응전략 정지선 성공적인빅데이터활용을위한 대요소 자원 기술 인력 검색 에서 로기업 미래를발견하다 와이즈넛 기술을활용한 를위한아키텍처및기술 그루터 가트너 가 트너

22 2012 년도 IT & Future Strategy 보고서 제1호 (2012. 3), 실리콘벨리가전망하는 IT분야현재와미래 제2호 (2012. 4), 선진국의데이터기반국가미래전략추진현황과시사점 제3호 (2012. 4), 성공적인빅데이터활용을위한 3대요소 : 자원, 기술, 인력 제4호 (2012. 4), 빅데이터시대 : 에코시스템을둘러싼시장경쟁과전략분석 제5호 (2012. 5), 빅데이터시대의데이터자원확보와품질관리방안 1. 본보고서는정보통신진흥기금으로수행한정보통신연구개발사업의연구결과입니다. 2. 본보고서의내용을발표할때는반드시정보통신연구개발사업의연구결과임을밝혀야합니다. 3. 본보고서의내용은한국정보화진흥원의공식견해와다를수있습니다. 4. 본보고서내용에대해무단전재를금하며, 가공 인용할때는출처를밝혀주시기바랍니다.