충북대학교 제 10 장 빅데이터거버넌스 2015.04 조완섭 충북대학교경영정보학과대학원비즈니스데이터융합학과 wscho@chungbuk.ac.kr 043-261-3636, 3258
배경 목차 IT 거버넌스와데이터거버넌스 빅데이터거버넌스 필요성과사례 빅데이터거버넌스프레임웍 빅데이터유형 빅데이터거버넌스요소 결론 2
IT 거버넌스 IT 거버넌스정의 IT 활용에서바람직한행동을지원하기위하여의사결정및책임소재를기술한 Framework( 가트너 ) IT 가조직의전략과목표에부합되게운영되도록하는 IT 관리체계 비즈니스 전산실 IT 거버넌스의중점영역 3
IT 거버넌스 - 배경 전산실역할변화와 IT 거버넌스의중요성 70 ~ 80 년대 90 년대, 2000 년대, 2010 년대 빅데이터 밀폐된전산실일부업무만지원 ( 연산위주 ) 전문가가관리통제 ITG 중요! ERP, CRM, SCM, BI e-business, Mobile RFID, Cloud, IoT Big Data, SNS. 4 오픈된 ( 네트워크로연결된 ) 데이터센터조직의주요 / 수많은업무가 IT 에의존수많은사람이인터넷, 모바일로직접접속 ITG 가중요해짐! 전산실을넘어 CEO ( 전사적 ) 문제! 2015-07-23 조완섭 (wscho@chungbuk.ac.kr)
( 빅 ) 데이터거버넌스 HW/SW 만잘관리하면 (ITG) ( 빅 ) 데이터는자동으로관리되는가? 빅데이터기존데이터 크고, 비정형적이고작고,, 빠른고특성, 느린 (3Vs) 특성 정보시스템 (HW, SW, 정보화규정 ) : ITG 정수장, 파이프빅데이터 (HW), 규정과거버넌스매뉴얼 (SW) 데이터품질관리, 프라이버시, 수명관리, 메타데이터, 조직과규정등 5
( 빅 ) 데이터거버넌스 ( 빅 ) 데이터거버넌스의정의와필요성 전사차원에서보유하고있는데이터에대한관리체계 데이터에대한품질과표준, 프라이버시, 메타데이터, 수명관리등의관리체계를수립하고, 관련조직과규정을정립하며, 이를자동화하는 ( 시스템구축 ) 데이터관점에서의 IT 관리체계 빅데이터의세가지특징 (3Vs) 으로데이터거버넌스가더욱중요해짐 IT 관리체계가데이터관리체계를보장하지못함 ; 데이터관리체계가완비되지못하면 IT 가복잡, 위험해짐 ( 자동화 + 사람 + 규정 ) ( 빅 ) 데이터거버넌스의목적 고품질데이터를확보하여안전하고효과적인관리를통해데이터가필요한사람에게적시에공급되고, 기업의다양한가치창출에기여하는것 ( 인체의혈액 ) 6
( 빅 ) 데이터거버넌스 Big Data Quality Privacy Lifecycle MDM Standard Organization Rules 7
빅데이터거버넌스 필요성과사례 시설관리용스마트미터기 < 데이터수명관리와암호화 M2M 데이터소스 IT 비용증대 엄청난데이터생성 데이터분석 통합정제 검침비용절감자원활용최적화 전기, 수도, 가스 smart meter 사회혼란야기프라이버시침해 8
빅데이터거버넌스 필요성과사례 통신업체개인위치정보활용 < 데이터암호화 부서간갈등 ( 청주시, 경기도 ) 마케팅부서 네트워크관리팀 유선비즈니스부서 ( 평판리스크 ) 개인정보보호부서 ( 규제리스크 ) 개인위치정보 빅데이터거버넌스위원회에서조정! 새로운서비스로인한이득이평판및규제리스크를능가하는지점검한후결정함 ( 안전성강화, 개인 / 개별부서부담완화 ) 9
빅데이터거버넌스 필요성과사례 금융기관개인정보유출 <- 암호화, 수명관리 ( 과거고객정보 ) 빅데이터활용으로산업경쟁력을높이면서도프라이버시를보장하는기술 / 산업육성 10
빅데이터거버넌스 필요성과사례 의료분야 < 법적문제발생 : 데이터품질, 데이터수명관리, 프라이버시 M2M 데이터 첨단의료기기에서생성하는대용량타임시리즈데이터분석으로증세가나타나기 24 시간전에예측가능비즈니스혁신, 그러나 데이터통합과분석 데이터품질문제 데이터수명관리 프라이버시문제 그러나환자가움직이면읽을수없는불안한정보선형혹은회귀분석기법으로데이터를보정 11
빅데이터거버넌스 필요성과사례 의료분야 <- 빅데이터활용데이터품질제고 의사소견서환자퇴원정보건강검진정보간호원 Note SNS 등 정제보완된자료 : 환자의상세한흡연정보 ( 흡연기간, 빈도, 약물, 기타관련정보 ) 정확도향상 (85%) 환자데이터 초기자료 : 흡연 (25%, y/n), 약물에관한단순기록 퇴원환자재입원예측모델 (20,000 명의환자,150 개의변수 ) 문제환자집중관리재입원비율낮춤 정확도가낮음!! 12
빅데이터거버넌스 필요성과사례 인사분야 < 프라이버시문제 기업의인사부서에는이러한규제를감안한채용규정정립 미국 : 많은주에서채용시 SNS 활용금지법제정, 통과독일 : 채용에서 Facebook 활용금지 채용지원자의나이, 결혼유무, 종교, 피부색, 사진, 성적지향성, 친구등개인정보로넘치고있음 SNS 데이터 13
빅데이터거버넌스 필요성과사례 시설관리 ( 예방정비 ) 분야 <- 표준화와수명관리 철도예방정비 => 고장감소 => 정시도착비율증대 그러나데이터표준화와수명주기관리가중요 M2M 데이터 분석 고장예측 A- 이벤트발생후 1 시간이내에 B- 이벤트가발생하면 10 분이내브레이크고장 (90%) 1,000 개가넘는기계, 전자적이벤트가매순간발생운영이벤트 ( 문열림, 브래이크 ) 경고이벤트 ( 전압주파수, 공기압축기 ) 오류이벤트 ( 집전장치고장, 역변환기 ) 데이터수집과통합 - 이기종열차의경우센서데이터표준화필요 - 철도안전성관련규정에따른빅데이터의수명주기관리 2015-07-23 조완섭 (wscho@chungbuk.ac.kr) 14
빅데이터거버넌스 필요성과사례 과학기술분야 < 데이터품질 ( 표준화 ) 리스크, 재난, 의료등다양한빅데이터분야에서복잡하고, 방대하며, 실시간으로발생하는데이터를오해하거나잘못적용하여오판을일으킨다면? : 빅데이터거버넌스의중요성 화성탐사선 폭발 9 개월간의항해 3 억 3000 만달러손실우주산업후퇴 1999 년예정된궤도보다 170km 아래에진입, 폭발원인 : 미국 - 영국과학자들이 ( 복잡한수식에서 ) 수치단위를 newton 대신에 pound 로사용 15
빅데이터거버넌스프레임웍 기존데이터거버넌스 빅데이터거버넌스 빅데이터거버넌스는 기존데이터거버넌스에빅데이터특징 (3Vs) 을반영하여확장 3Vs 의특징으로빅데이터거버넌스의중요성이증대 Organization Meta Data Privacy Data Quality Biz. Process Integration Master Data Integration Info. Lifecycle Management 다양성과복잡도증가 ( 데이터종류와출처등의정보 ) 데이터과학자빅데이터유형별 Stewardship 지정, 규정 / 법규제정등 빅데이터의 privacy 문제는더욱심각하고 ( 빅브라더 ), 품질은훨씬열악함 빅데이터분석결과가비즈니스최적화 ( 지능화, 개인화 ) 실현 ; 비즈니스이익과규제준수및관리비용최적화실현 데이터가폭증할때보관 & 폐기정책문제가더욱중요 ; 비용과규제준수모두고려해야함 MDM 과의연계를통하여빅데이터분석의 Insight 가치향상 ; Social data + 고객 master data => 고객성향분석의정확도향상! 랜트카운행패턴을센서데이터로받아서보험고객 master data 개선! 16
Industries 빅데이터거버넌스프레임웍 BDG 는산업 / 데이터유형 / 거버넌스이슈세가지측면에서관리되어야함 Healthcare Utilities Retail Telco Insurance Customer Service IT Sentiment Analysis Facebook Royalty Program Customer Chun Analytics Investigate Claims VOC Web & Social IT Log Analysis IT Log Analysis IT Log IT Log Analysis Patient Analysis IT Log Claims Monitoring Analysis IT Analytics Log IT Log Analysis Smart Analysis IT Log Parts MetersAnalysis IT Log Desc. IT Log Analysis IT Log RFID Analysis Tags Analysis IT Log IT Log Analysis Locationbased Analysis IT LogCustomer Analysis IT Log Services profiles IT Log Analysis Vehicle Analysis IT LogCustomer Telematics Analysis IT profiles Log IT Log Analysis Analysis IT Log Analysis IT Log IT Analysis Log Analysis M2M & IoT Transaction Data Big Data Types Genetic Testing Facial Recognition Underwriting Bio Metrics Electronic Medical Records Call Quality Assurance Human Generated Information Lifecycle Mgt. Master Data Integration Biz. Process Integration Data Quality/standard Privacy Metadata Organization/regulation 17
웹과소셜미디어 빅데이터유형 SNS(Facebook, Twitter, Blog 등 ) 과클릭스트림데이터 프라이버시침해방지필요 웹과소셜데이터를마스터데이터및비즈니스프로세스 ( 예 : 고객충성도프로그램 ) 와통합하면가치증대 ; 그러나, BDG 에서규제나판례등을참고하여통합지침마련 쿠키정보 ( 특히제 3 의기관의쿠키 ) 를사용하여사용자를추적하거나그들의웹상호작용정보를개별적으로분석하는것에관해서도적절한지침을마련해야함 웹과소셜미디어에대한메타데이터관리필요 예 : 클릭스트림분석에서두사이트가 unique visitors" 라는용어를서로다르게정의 (site1 에서는 1 개월동안유일함을, site 2 에서는 1 주동안유일함 ) => 통합하면문제발생 민원, 블로그분석시용어정의문제 18
M2M 데이터 빅데이터유형 기계 ( 센서 ) 가발생시키는데이터 속도, 온도, 압력, 플로우 (flow), 염분함유량, 소음등다양한센서가개발되어활용됨 (2014 년 500 억개무선단말기 (Ericsson)) BDG 에서는 M2M 데이터관련정책수립필요 예를들어, 개인의프로파일을생성하여프라이버시를침해할가능성이있는위치정보와 RFID 데이터의활용에관한규정필요 거대한 M2M 데이터의수명관리정책필요 습기가많은환경이거나혼잡도가지역의경우 RFID 읽기빈도에관한규정필요 ( 데이터품질관리 ) 수초만에청주시를관통하는차량이동데이터 => 실제불가능한데이터는버리거나보정필요 M2M 데이터에대한사이버공격대비책 : 원격감시제어시스템 SCADA(Supervisory Control and Data Acquisition) 보안 19
빅트랜잭션데이터 빅데이터유형 헬스케어클레임, 통신 CDRs, 시설요금청구서레코드등업무상발생하는비즈니스데이터 통신사의경우거대한 CDRs 데이터를축적하고있음 TESCO 사는매달 15 억건이상의고객관련데이터를수집 빅트랜잭션데이터에도반구조화 (semi-structured) 혹은비구조화 (unstructured) 형식이증가하고있음 기존데이터거버넌스확장필요 기존의메타데이터, 데이터품질, 프라이버시, 정보수명주기관리등이빅데이터의 3Vs 로인한영향을고려하여확장 - 범죄수사를위해특정지역에서일정기간동안의 CDR data 활용? - 법원영장? 재난안전의시급성? 20
생체정보 빅데이터유형 개인의해부학적혹은행동양식특징에근거한개인식별이가능한정보 해부학적정보란개인의신체적인특성으로부터생성되는데이터로써지문, 홍체, 망막, 얼굴, 손의모양, 귀의모양, 음성패턴, DNA, 특별한경우몸의냄새등이있음 행동양식의특징에근거한데이터로는필기체, 키보드타이핑분석등이있음 BDG 정립이필요함 기술발전으로다양한생체정보가개발, 활용되고있음 비즈니스기회인동시에개인데이터의축적및유지, 프라이버시침해라는거버넌스문제를야기함 축적된생체정보가해킹되어사용된다면? 웨어러블디바이스에서생성되는건강데이터가보험회사로가면? 21
사람이생성한데이터 빅데이터유형 정보화사회에서사람의일상활동결과로많은데이터가생성되고있음 콜센터데이터, 음성녹음, 이메일, 문서, 조사, 전자의료기록정보, 정문차량출입기록등 프라이버시문제 민감한데이터도포함되어있음 - 예를들어, 콜센터녹음데이터에포함된주민등록번호나전화번호등 품질관리문제 이들중에는구조화된데이터의품질을높이거나 MDM 과통합되어활용되면가치가높아지는데이터도있음 ( 퇴직자이메일 ) 수명관리문제 규제나스토리지비용을감안하여대규모로축적되는사람이생성한데이터의보유기한에관한정책필요 22
조직 ( 사람 ), 제도 빅데이터거버넌스요소 데이터거버넌스조직에빅데이터관련조직과인력추가 예를들어, 데이터거버넌스위원회는데이터과학자와같은빅데이터전문가를찾아위원으로임명해야함 빅데이터유형별로관리자를임명 (steward) SNS 데이터는누가관리? ( 고객부서 ) 센서데이터, RFID 데이터? ( 기계성격을잘아는전문가?) 마지막으로데이터거버넌스프로그램에서는기존관리자에게 ( 빅데이터활용으로인한 ) 추가적인책임을할당해야함 예를들어, 기존고객데이터관리자에게마스터데이터리파지토리안에서고객의페이스북, 트위트계정에대한관리책임을부과함 빅데이터는여러분야에서일하는방식의변화를초래 관련부서의책임자가참여하는거버넌스위원회구성과권한부여 빅데이터결과가조직에스며들어변화를이끌어내야! 23
사례 - 경기도조례 경기도빅데이터활용에관한조례안 빅데이터를활용한지역발전정책수립과시행 빅데이터를행정에접목하기위한활용기반구축과실태조사 데이터산업생태계조성에필요한빅데이터전문인력양성 빅데이터활용에따른개인 법인 단체의비밀보호등에관한사항을규정 빅데이터위원회구성 정보화기획관을빅데이터책임관으로지정하고 5 년마다빅데이터활용에관한기본계획을수립 시행하도록함 빅데이터의활용과관련된사항을심의하기위해빅데이터위원회를두고관련사업추진을위해빅데이터센터를설치할수있도록함 지난 1 월빅데이터관련정책토론회에서남경필도지사는 경기도에흩어져있는데이터를한곳으로모아누구나쉽게활용할수있도록개방하겠다 라며데이터에기반을둔 과학적도정구현, 투명한도정, 데이터생태계조성, 활용문화확산등 4 대정책목표를밝힌바있다. 경기도는 빅데이터활용에관한조례제정으로남경필경기도지사의핵심공약인 빅파이 (Big-Fi, Bigdata Free Information) 프로젝트 를본격추진할방침이다. 경기도관계자는 지난해말부터도민생활과밀접한안전, 교통, 주거등의분야에서빅데이터시범사업을준비하고있다 라며 조례시행을계기로관련사업을본격적으로추진할것 이라고말했다 24
캘리포니아데이터거버넌스위원회 25
변화관리필요성 변화관리 빅데이터로인한개선모델의도입및정착과정에서생성되는여러변화요인 ( 갈등과저항 ) 을미리파악하여개선모델이업무에서구현될수있도록지원하는체계적인활동 관광정책수립 현행 ( 수동 ) 1 년에한번설문조사 향후 ( 자동 ) 온라인설문조사와 SNS/ 블로그분석 현행 ( 수동 ) 1 년에한번승객조사 교통정책수립 향후 ( 자동, 세밀하게 ) 월별 / 요일별 / 시간대별 / 정류장별상세분석 통계청업무?.. 관습, 저항교육, 위원회필요 26
메타데이터 빅데이터거버넌스요소 빅데이터는다양성으로인해기존의메타데이터보다훨씬풍부한메타데이터관리가요구됨 Meta data for Big Data? Knowing what we have? False discoveries 방지 27
메타데이터 기존엔트프라이즈메타데이터에빅데이터관련메타데이터통합필요 다양한빅데이터소스에관한정보관리 어디서생성되어, 어떤변환, 통합과정을거쳐 Hadoop 의어느곳에저장되어관리되는가? 데이터추출주기는? 빅데이터용어들을비즈니스사전에등록 예를들어, 클릭스트림분석에서 unique visitor, 매출액 ( 세전? 세후?) 등에관한정의를비즈니스사전에추가 Hadoop 의기술적메타데이터를통합 데이터흐름관리자, 변경영향분석관리자등을빅데이터환경에적합하게확장함 메타데이터표준화준수 : 빅데이터? 28
프라이버시 빅데이터거버넌스요소 민감한데이터를식별하고, 이를활용하기위한정책수립 빅브라더 방지 이러한정책은빅데이터타입과산업및나라에따라다른규제를가지므로글로벌한이해가필요 유럽과미국은서로다른입장 소셜미디어와위치정보의사용에관한가이드라인을빅데이터거버넌스에서제정해야함 최근각국에서개인프라이버시보호법을강화하는추세 빅데이터에포함된민감한데이터에관하여기술적, 제도적안전장치를마련해야함 빅데이터활용 프라이버시보호 HIPASS 번호, 차량번호 프라이버시 다르게관리 29
데이터품질 빅데이터거버넌스요소 조직의데이터에관하여품질측정, 품질개선, 품질인증과무결성보장등의규정을정하는것 빅데이터가중요한의사결정에사용될수록품질관리가더욱중요한이슈로부각 빅데이터의경우크기와속도및다양성때문에기존데이터품질과는다른접근이필요함 경우에따라품질보장보다는실시간성의보장이중요 반구조화혹은비구조화된데이터의경우품질보장에한계 추세를보는경우원시데이터의정확도는어느정도무시할수도 교통카드정보관리회사 BIMS 관리회사 ATMS 정보관리회사 - 서로다른정류장코드사용 - 데이터품질관리 ( 버스기사탓 ) - 하차정보확보방안 - 10 초에청주시내관통 빅데이터기술영역을벗어남 => 위원회 30
빅데이터거버넌스요소 비즈니스프로세스통합 빅데이터분석결과가관련업무개선으로연결되어야 보험청구데이터의일관성확보 => 청구분석업무개선최적화 시추시설센서데이터수명관리 => 사고시책임소재를가리는핵심증거자료 ( 위험관리업무 ) 페이스북프로파일활용을위한고객동의절차확립 => 고객충성도프로그램개선과지속적활용 교통데이터분석 => 노선선정, 배차간격, 공사효과분석등에활용 1 회성반짝효과지양, 지속적인개선을통한업무최적화 CEO 의관심과의지 내부분석역량강화필수 31
빅데이터거버넌스요소 빅데이터결과가관련업무를혁신시켜야함 BD 거버넌스위원회구성 교통빅데이터분석시스템 교육를통한변화동참 32
빅데이터거버넌스요소 마스터데이터통합 ( 풍요 ) 빅데이터를마스터데이터에통합 => 가치가치증진 예를들어, 소매업자들은소셜미디어정보를고객마케팅에활용하는문제를고민 이경우소셜데이터와고객마스터데이터의통합함으로써가치를증진시킬수있음 ( 불특정다수의의견에서고객의의견 ) 통합과정에서데이터품질이중요함 적절한데이터관리권정책수립 페이스북상의 "Susie Smith" 가고객마스터의 "Susan Smith" 와동일인인지를검정해서통합 33
정보수명주기관리 빅데이터거버넌스요소 규제혹은비즈니스요구사항을분석하여데이터종류별로보관및폐기정책을수립해야함 IT 부서는보수적으로데이터수명주기를관리하며이는비용증대는물론위험성을가중시키게됨 : 명확한수명관리정책필요 기록유지나전자증거 (e-discovery) 를대비하여빅데이터의저장소에관한위치정보관리도필요 운영시스템성능보장을위해서도수명주기관리가중요 응용의성능을보장하고저장비용을적절한수준으로관리하기위한베스트프렉티스, 도구, 아카이빙및압축정책등을모색 생성 수집저장 분석가시화 활용 보관폐기 정책 34
빅데이터거버넌스요소 데이터소유권 / 관리권명확화 공공데이터는법으로개방의무화, 그러나품질이나최신성등의측면에서관리필요 공공성이있는데이터 ( 교통카드 ) 의소유, 관리권모호 공공데이터 ( 공공데이터의제공및이용활성화에관한법률 ) ( 위탁관리업체보유데이터 공개? 품질관리 ( 표준화 )? 지자체공공기관의품질개선노력? 35
결론 빅데이터가성공하려면? 데이터기반조직문화형성 직관보다데이터기반의과학적의사결정중시문화가필요 CEO 의지가가장중요한관건임 조직의분석지능을높여야함 빅데이터시대에분석지능이높은조직 ( 기업, 국가 ) 일수록혁신능력과리스크관리능력이우수함 (MIT, 3000 명 CEO 조사결과 ) 조직내데이터과학자양성이중요함 ( 재교육필요성 ) 작은업무에서라도빅데이터분석을시작해보자! 작은데이터부터빅데이터까지모두고려 빅 / 스몰데이터구분보다전체를관리하고, 분석하여가치창출 각분야별로구축, 운영, 최적화, 가치창출이선순환되어야함 36
결론 지속가능한빅데이터가되려면? 빅데이터의활용과함께데이터거버넌스가구축되어야! 빅데이터거버넌스는데이터의품질보장, 프라이버시보호, 데이터수명관리, 전담조직과규정정립, 데이터소유권과관리권명확화등을통하여빅데이터가적시에필요한사람에게제공되도록체계를확립하는것 빅데이터거버넌스가확립되지못하면 - 품질이낮은데이터를중요한의사결정에사용함으로써심각한문제를야기 - 개인프라이버시관련데이터로인해빅브라더의우려가현실화 - 폭증하는데이터에대한메타데이터 & 수명관리소홀로인한 IT 비용급증 - 데이터관련문제를전담하고책임지는조직과인력이없다면빅데이터효과는일회성에그칠것임 37