FOCUS Ⅰ. 서론 지금은바야흐로빅데이터 (BigData) 시대라해도과언이아니다 년전세계디지털정보생산량은약 1.8ZB( 제타바이트 ) 라고한다. 1.8ZB 는 2000 억개이상의고화질 (HD) 영화를 4700 만년동안시청할수있는정도의엄청난정보량을뜻한다. 이

Similar documents
[ 목차 ]

[Brochure] KOR_TunA

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

Windows 8에서 BioStar 1 설치하기

개인정보수집 제공동의서작성가이드라인 업무처리에필요한개인정보파악 처리하고자하는업무에꼭필요한최소한의개인정보는어떤것들이있는지파악합니다 고유식별정보나민감정보는일반개인정보와구분하여처리하여야하므로처리하고자하는개인정보중에고유식별정보나민감정보가있는지확인해야합니다 개인정보의보유기간확인

Cloud Friendly System Architecture

PowerPoint Presentation


빅데이터_DAY key

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

항목

Microsoft Word - src.doc

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

Microsoft PowerPoint - 6.pptx

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

TTA Journal No.157_서체변경.indd

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

Samsung SDS Enterprise Cloud Networking CDN Load Balancer WAN

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

PowerPoint Template

소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

문서의 제목 나눔고딕B, 54pt

<4D F736F F F696E74202D20332DC1F6B9DDC1A4BAB8BDC3BDBAC5DB>

게시판 스팸 실시간 차단 시스템

프랑스 (Loi n du 6 janvier 1978 relative a l'informatique, aux fichiers et aux libertes L'Assemblee nationale et le Senat ont adopte) 독일 (Bundesdat

암호내지

SIGIL 완벽입문

슬라이드 1

[ 나이스평가정보 ( 주 ) 귀중 ] 나이스평가정보 ( 주 )( 이하 회사 ) 는 SK텔레콤 ( 주 ) 의업무를대행하여휴대폰본인확인서비스를제공함에있어고객으로부터개인정보를수집하고이용하기위해 정보통신망이용촉진및정보보호에관한법률 에따라서다음과같이본인의동의를받습니다. 1. 개

쉽게 풀어쓴 C 프로그래밊

표준프레임워크로 구성된 컨텐츠를 솔루션에 적용하는 것에 문제가 없는지 확인

C# Programming Guide - Types

EDB 분석보고서 (04.06) ~ Exploit-DB( 에공개된별로분류한정보입니다. Directory Traversal users-x.php 4.0 -support-x.php 4.0 time-

슬라이드 1

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

Web Scraper in 30 Minutes 강철

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

PowerPoint Template

초보자를 위한 분산 캐시 활용 전략

<30332DB1E2C8B9C6AFC1FD28B7F9C0E7C8AB D E687770>

PowerPoint 프레젠테이션

1. 제품 개요 AhnLab Policy Center 4.6 for Windows(이하 TOE)는 관리대상 클라이언트 시스템에 설치된 안랩의 안티바이러스 제품인 V3 제품군에 대해 보안정책 설정 및 모니터링 등의 기능을 제공하여 관리대상 클라이언트 시스템에 설치된 V3

041~084 ¹®È�Çö»óÀбâ

PowerPoint 프레젠테이션


<C3E6B3B2B1B3C0B C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>

DBMS & SQL Server Installation Database Laboratory

PowerPoint 프레젠테이션

Spotlight on Oracle V10.x 트라이얼프로그램설치가이드 DELL SOFTWARE KOREA

160322_ADOP 상품 소개서_1.0

Cover Story 빅데이터플랫폼 Big Data 시대의엔터프라이즈인프라스트럭처 ORACLE KOREA MAGAZINE Spring 개요빅데이터를처리하는기술의가장중심기술은아파치하둡기술일것이다. 하둡기술은데이터를취득하고이를구조화시키고분석을하는일련의과정에

Visual Studio online Limited preview 간략하게살펴보기

Microsoft Word - ijungbo1_13_02

adfasdfasfdasfasfadf

로거 자료실

USC HIPAA AUTHORIZATION FOR

목차 1. 시스템요구사항 암호및힌트설정 ( 윈도우 ) JetFlash Vault 시작하기 ( 윈도우 ) JetFlash Vault 옵션 ( 윈도우 )... 9 JetFlash Vault 설정... 9 JetFlash Vault

< B1E8C7F6C1D65FC7CFB5D3B1E2B9DDBAF2B5A5C0CCC5CDB1E2B9FDB8A6C0CCBFEBC7D128BCF6C1A4292E687770>

[ 2014 Capstone Design2 ] 지도교수 Twitter 분석시스템 < 졸업작품계획서 > 컴퓨터공학부 지도교수 민덕기교수님 T 박미관 김의명 제출일자

Straight Through Communication

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

IP 심화 라우팅프로토콜적용시 라우팅테이블에서 이니셜이있는네트워크를설정하는것 : onnected 직접연결된네트워크를의미한다. 그러므로라우팅은 나는이런네트워크와연결되어있다. 를직접연결된라우터들에게알려주는것 1>en 1#conf t 1(config)#router rip 1

중요문서 개인정보처리방침 제정 : 최근개정 : 제1조 ( 목적 ) 신한아이타스 ( 이하 회사 라한다 ) 는개인정보보호법제30조에따라정보주체의개인정보를보호하고이와관련한고충을신속하고원활하게처리할수있도록하기위하여다음과같이개인정보처리방침

PowerPoint 프레젠테이션

PowerPoint Template

2 노드

Microsoft Word - PLC제어응용-2차시.doc

슬라이드 1

Microsoft PowerPoint - chap01-C언어개요.pptx

wtu05_ÃÖÁ¾

ICT À¶ÇÕÃÖÁ¾

경우 1) 80GB( 원본 ) => 2TB( 복사본 ), 원본 80GB 는 MBR 로디스크초기화하고 NTFS 로포맷한경우 복사본 HDD 도 MBR 로디스크초기화되고 80GB 만큼포맷되고나머지영역 (80GB~ 나머지부분 ) 은할당되지않음 으로나온다. A. Window P

<4D F736F F F696E74202D20332E20BAF2B5A5C0CCC5CD FBAB8BEC8C0CEC5DAB8AEC0FCBDBA5F FC1B6B0A1BFF85F76312E332

0. 들어가기 전

빅데이터분산컴퓨팅-5-수정

슬라이드 제목 없음


3월2일자.hwp

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

<4D F736F F F696E74202D20B5A5C0CCC5CDBAA3C0CCBDBA5F3130C1D6C2F75F32C2F7BDC32E >

Microsoft SQL Server 그림 1, 2, 3은 Microsoft SQL Server 데이터베이스소프트웨어의대표적인멀티플렉싱시나리오와라이선싱요구사항을나타냅니다. ( 참고 : Windows Server와 Exchange Server CAL 요구사항은해당서버에대

Microsoft PowerPoint 웹 연동 기술.pptx

특허청구의 범위 청구항 1 삭제 청구항 2 단일 개의 운영체제를 갖는 클라이언트 단말에 있어서, 제1 운영체제와, 상기 제1 운영체제 하에서 사용되는 파일을 저장하는 메모리; 및 상기 메모리에 저장된 파일을 운영체제 제공장치로 전송하고 상기 메모리를 포맷하며, 상기 운

미쓰리 파워포인트

슬라이드 1

Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

김기남_ATDC2016_160620_[키노트].key

내지(교사용) 4-6부

PowerPoint 프레젠테이션

Tablespace On-Offline 테이블스페이스 온라인/오프라인

ICT EXPERT INTERVIEW ITS/ ICT? 차량과 인프라 간 통신(V2I) Nomadic 단말 통신(V2P) 차량 간 통신(V2V) IVN IVN [ 1] ITS/ ICT TTA Journal Vol.160 l 9

SBR-100S User Manual

Portal_9iAS.ppt [읽기 전용]

슬라이드 1

기본소득문답2

Transcription:

FOCUS 4 빅데이터환경에서개인정보보호를위한기술 FOCUS 이재식 * 최근세계각국에서는보건 의료, 공공부문, 유통, 마케팅, 제조업등다양한분야에서빅데이터를활용하여서비스를제공하기위하여노력하고있다. 하지만, 빅데이터를활용할때간과할수없는부분은바로개인정보와프라이버시문제이다. 빅데이터분석과정에서이용될수개인정보는안전하게이용되어야한다. 왜냐하면, 빅데이터를활용하여다양한분석을하게되면기존에알수없었던사용자개개인의성향이분석될수도있고, 이러한정보는곧개인정보이자개인의프라이버시가될수있기때문이다. 이러한정보를활용하여서비스제공자는기존에제공할수없었던개개인에특화된맞춤형서비스를제공할수있지만, 반대로이러한정보가오 남용될경우서비스이용자의프라이버시를침해하는양날의검이될수있다. 이에본고는빅데이터환경에서개인정보를활용할때발생할수있는개인정보침해에대한필요조치를살펴보고, 그에따라필요한개인정보보호기술들을제안한다. Ⅰ. 서론 Ⅱ. 빅데이터개요및분석절차 1. 빅데이터개요 2. 빅데이터분석절차 Ⅲ. 빅데이터환경에서필요한개인정보보호기술 1. 개인정보보호를위해필요한조치 2. 개인정보보호기술 Ⅳ. 결론 본고는한국인터넷진흥원이성신여자대학교산학협력단에위탁한 빅데이터기반개인정보보호기술수요분석보고서 를 참조하여작성되었습니다. Internet & Security Focus 2013 3 월호 79

FOCUS Ⅰ. 서론 지금은바야흐로빅데이터 (BigData) 시대라해도과언이아니다. 2011 년전세계디지털정보생산량은약 1.8ZB( 제타바이트 ) 라고한다. 1.8ZB 는 2000 억개이상의고화질 (HD) 영화를 4700 만년동안시청할수있는정도의엄청난정보량을뜻한다. 이처럼전세계적으로생산되는수많은데이터를활용 분석하여가치있는정보를추출하는것을빅데이터기술이라할수있다. 2012 년가트너의융합기술에대한 Hype Cycle 1) 을살펴보면빅데이터기술은 [ 그림 1] 과같이발생기 (Technology Trigger) 2) 를지나버블기 (Peak of Inflated Expectations) 3) 에접어든기술로나타나고있어, 빅데이터와관련된기술의관심이고조된상태임을알수있다. [ 그림 1] Hype Cycle for Emerging Technologies, 2012 1) Hype Cycle : 시장조사기관가트너 (Gartner) 가기술들의발전단계를설명하기위해개발한방법론으로, 시간의경과에따른기술의성숙도 (x축 ) 와업계에회자되는가시성 (y축 ) 을이용해기술의진화를설명하고있으며, 1995 년최초로선보인이후매년분야별 Hype Cycle 을발표하고있음 2) 발생기 (Technology Trigger) : 기술의잠재성으로발생하는기술상품이며, 미디어에서관심을보이지만종종상품성이떨어져보이거나, 상품화되지못할수있는영역 3) 버블기 (Peak of Inflated Expectations) : 초기다수의성공스토리들이발표가되나많은기업들이참여하지는않는영역으로관심고조기 80 Internet & Security Focus 2013 3 월호

활용영역 보건 의료 < 표 1> 빅데이터 5 대활용영역 내용 의약품연구개발관련데이터, 임상데이터, 의료비청구와비용관련데이터, 환자행태및감정관련데이터를활용 FOCUS 공공부문유통부문제조업위치기반서비스 국민, 국토, 경제, 사회, 문화등다양한분야에대해축적된데이터를활용 마케팅, 상품기획, 영업, 공급망관리, 새로운비즈니스모델개발에활용 공급망관리의수요예측및공급계획을위해활용생산과정에서검출되는센서데이터를활용판매후내장된센서를통한검출데이터활용 이용자위치기반의내비게이션, 위치기반소셜네트워크서비스등에활용고속도로통행료징수, 구조요청자위치찾기등의공공서비스에활용 Ⅱ. 빅데이터개요및분석절차 1. 빅데이터개요빅데이터란? 대용량데이터를활용 분석하여가치있는정보를추출하고, 생성된지식을바탕으로능동적으로대응하거나변화를예측하기위한정보화기술을의미한다. 4) 그외에도기술적, 규모적, 방법적인빅데이터정의를살펴보면다음과같다. - ( 기술적정의 ) 다양한종류의대규모데이터로부터저렴한비용으로가치를추출하고, 데이터의초고속수집, 발굴, 분석을지원하도록고안된차세대기술및아키텍처 (IDC, 2011) - ( 규모적정의 ) 일반적인데이터베이스 SW가저장, 관리, 분석할수있는범위를초과하는규모의데이터 ( 매킨지, 2011) - ( 방법적정의 ) 빅데이터는당초수십- 수천테라바이트에달하는거대한데이터집합자체만을지칭하였으나, 점차관련도구, 플랫폼, 분석기법까지포괄하는용어로변화 ( 삼성경제연구소, 2010) 또한, 빅데이터는크기 (Volume), 속도 (Velocity), 다양성 (Variety) 의 3V 의특징을가지고있으며, 최근에는가치 (Value) 라는키워드를추가하여 4V 의특징을가지고있다고이야기한다. [ 그림 2] 는 이러한빅데이터의특징을보여준다. 4) 빅데이터를활용한스마트정부구현, 국가정보화전략위원회, 2011 년 11 월. Internet & Security Focus 2013 3 월호 81

FOCUS 크기 (Volume) 는물리적인크기뿐만아니라개념적인범위까지대규모인데이터를의미하는 것으로, 과거의데이터크기에비하여상대적으로처리가어려울정도의양을의미한다. [ 그림 2] 빅데이터의특징 속도 (Velocity) 는데이터가생성되는속도및데이터를처리하는속도를의미한다. 다양성 (Variety) 은과거의정형화된데이터에비하여비정형화된데이터까지포함한데이터형식및데이터를수집하는공간이내부뿐만아니라외부의데이터까지를의미한다. 그리고이러한특징을바탕으로도출된결과를가치 (Value) 라고할수있다. 이와같은 3V(Volume, Velocity, Variety) 의 3가지특징을바탕으로하둡 (Hadoop) 및데이터웨어하우스 (DW) 응용과같은인프라를바탕으로, 고성능 BI(Business Intelligence) 와외부데이터분석등의분석플랫폼을활용하여, 텍스트기반의비정형데이터를포함한분석이이루어질때비로소가치 (Value) 있는정보를생성할수있을것이다. 2. 빅데이터분석절차빅데이터를활용하여분석하고, 결과를도출하는분석과정은크게 5가지단계로나누어볼수있다. 첫번째단계는, 분석대상이되는데이터를수집하는단계이다. 두번째단계는, 수집된데이터를저장하고관리하는단계이다. 세번째단계는저장된데이터의처리및분석하는단계이고, 네번째단계는분석된결과를가시화하고의미를도출하여이용하는단계이다. 마지막다섯번째단계는저장된데이터를폐기하는단계이다. 이번절에서는 빅데이터기반개인정보보호기술수요분석보고서 5) 를참조하여, 각단계별세부기술에관하여설명한다. 5) 한국인터넷진흥원 (2012) 빅데이터기반개인정보보호기술수요분석, 성신여자대학교산학협력단, 2012.12. 82 Internet & Security Focus 2013 3 월호

빅데이터의분석절차를살펴봄으로써, 각단계별로발생할수있는개인정보보호와관련된이슈 및필요기술을도출할수있다. FOCUS 1) 데이터수집단계빅데이터분석절차의첫번째단계는, 분석대상이되는데이터를수집하는단계이다. 데이터수집을위한방법은매우다양하고, 광범위하다. 따라서본고에서는데이터수집시수집하는주체의능동성여부에따라서데이터수집을두가지형태로분류한다. 즉, 수집되는데이터를능동적으로입력받는형태의수집과수동적으로모으는형태의수집이다. 능동적데이터수집의대표적인예로로그데이터등을들수있으며, 수동적데이터수집의예로웹크롤러를들수있다. (1) 능동적데이터수집 능동적데이터수집 이란데이터를가지고있는주체가데이터수집을원하는주체에게능동적으로데이터를전달하는데이터수집방법이다. 예를들어, 생산설비에있어서생산과관련된데이터를남기게되는데이러한형태로데이터를제공받는것을능동적데이터수집으로볼수있다. 또한통계적분석을위한설문조사를통한데이터수집도설문에참여한참여주체가능동적으로데이터를작성한능동적데이터수집으로볼수있다. 1 대량의로그기록수집대량의로그를기록하고수집하는기술로 Chukwa, Scribe, Flume 등을들수있다. Chukwa 는분산되어있는노드들의로그데이터를수집하고, 수집된데이터를저장하며분석하기위해만들어진오픈소스프로젝트이다. Chukwa 가수집하는로그는모니터링로그, 응용프로그램로그, Hadoop 로그등다양한데이터를수집하며, 테라바이트단위이상의로그데이터를모니터링하기위하여개발되었다. [ 그림 3] 은 Chukwa 의처리과정을나타낸다. [ 그림 3] Chukwa 처리과정 Internet & Security Focus 2013 3 월호 83

FOCUS Chukwa 는데이터를제공하는각각의시스템으로부터로그를수집하여 Chukwa Agent 를통하여 Chukwa Collector 로보내지고, 최종적으로 HDFS 파일시스템에로그를저장한다. Chukwa Agent 는초단위로동작하며, 100 개의 Agent 들로부터전송된로그데이터를하나의 Chukwa Collector 에집결되어처리한다. 처음모아진데이터는별도의파싱이나수정을하지않고단순히정렬하고그룹화한다. 그리고두번째로로그파일들을파싱하여 Key-Velue 쌍으로이루어진 Chukwa Records 를생성하고 MapRecude 를이용하여분석한다. 그리고사용자는 HICC(Hadoop Infrastructure Care Center) 라는웹-포탈인터페이스를통하여초단위로생성되는파일이나블록수와같은 HDFS 의상태를실시간으로모니터링할수있다. Scribe 는 Facebook 에서개발된대규모의서버로부터실시간으로스트리밍로그데이터수집을위한애플리케이션이다. Scribe 는네트워크와시스템의장애를위해고안된것으로, 확장성과신뢰성을목표로두고있다. Facebook 에서는수천대규모로설치, 운영되고있고있으며하루에 100 억개의메시지를수집하고있다. [ 그림 4] 는 Scribe 의구조를보여준다. [ 그림 4] Scribe 구조하나의중앙 Scribe 서버와여러대의 Local Scribe 서버구조로구성되어있으며 Scribe 서버는시스템의모든노드들위에서동작한다. 만약중앙 Scribe 서버가동작하지못하면, Local Scribe 서버가 Local Disk 에있는파일에메시지를작성하고, 중앙 Scribe 서버가복구되었을때다시메시지를전송하여메시지의손실을방지한다. 중앙 Scribe 서버는분산파일시스템같은마지막목적지의파일에메시지를작성하거나, 다른층의 Scribe 서버로메시지를전송한다. 이때, Scribe 는메시지저장을위해 Store 라는개념을사용하여여러가지타입의 Store 를제공하고, 이를이용하면 HDFS에도메시지를저장할수있다. 로그기록은파일에도할수있고, HDFS에실시간으로도할수있다. Flume 은커다란규모의분산데이터를수집하고효율적으로전송하는시스템으로클러스터환경에서신뢰성있는로깅뿐만아니라안정적인확장성을제공한다. Flume 의주된사용처는로깅시스템이며, 다양한시스템으로부터수집되고모아지는데이터를하둡같은중앙처리저장 84 Internet & Security Focus 2013 3 월호

시스템에저장해주는역할을한다. Flume 의주된설계목적은신뢰성, 가용성, 관리성, 그리고확장성으로 [ 그림 5] 와같이 3-tier 구조로되어있다. 첫번째 tier 는 agent-tier 로에이전트노드는일반적으로로그를생산하는시스템에설치되며데이터의초기시작점으로설정되어데이터를 collect-tier 로보낸다. 두번째 tier 인 collect-tier 는분산된데이터흐름에이전트로부터데이터를수집하고, 이를세번째 tier 인저장소영역 HDFS 노드에전송한다. FOCUS [ 그림 5] Flume 의구조 2 RSS 와같은구독형태의데이터수집 RSS(Really Simple Syndication) 는다양한웹사이트의콘텐츠를요약하고상호공유할수있도록만든 XML 기반의간단한콘텐츠배급프로토콜이다. RSS 는뉴스나공지사항과같이콘텐츠가자주갱신되는웹사이트의정보를이용자들에게실시간으로쉽고빠르게제공하기위해만들어진포맷이다. RSS 제공자는 RSS 피드 (feed) 의형태를통하여, 콘텐츠를배포하고, 이용자는 RSS 리더프로그램을이용하여 RSS 채널을등록하고원하는 RSS 피드를읽을수있다. RSS 의네트워크는 [ 그림 6] 과같이 3개의주요한컴포넌트로구성이되어있다. 첫번째는컨텐츠제공자 (Content Provider) 로서각제공뉴스정보과자신의정보에관한 RSS 파일을제공한다. 두번째는다양한경로를통해 RSS 정보를읽거나수집하는콘텐츠수집자 (Content Aggregator) 로서인덱스를수집하고그인덱스를통해화제가되는특정뉴스의헤드라인을수집하고제공한다. 세번째는 Internet & Security Focus 2013 3 월호 85

FOCUS 콘텐츠를보여주는헤드라인뷰어 (Headline Viewer) 로서이용자는 RSS 리더프로그램을통하여 콘텐츠를제공받고읽을수있다. [ 그림 6] RSS 네트워크구조 3 정보생산주체로부터의직접적인데이터수집마지막수집방법으로정보생산주체로부터직접데이터를수집받는방법이다. 기존에운영중인서비스시스템의데이터베이스를활용하는방법, 시스템설비상에서발생하는각종로그정보를모으는방법, 웹사이트홈페이지를통하여설문조사와같이사용자로부터직접데이터를수집하는방법등이여기에해당한다. 정보생산주체로부터직접적인데이터수집의장점은수집되는데이터가명확히정의되어있어활용이쉽다는것이다. 왜냐하면기존에운영중인데이터베이스에저장된데이터를활용한다는것은이미데이터와관련된정보구조를가지고데이터를이미확보하였기때문이다. 또한, 설문조사와같이신규로데이터를수집하는경우는조사항목을미리설정하여데이터를수집받기때문이다. 직접적인데이터수집시장점은, 수집정보의동의에있어서명확히사용자의동의를받을수있다는점이다. (2) 수동적데이터수집 수동적데이터수집 이란데이터를소유하고있는주체가데이터수집을원하는주체에게수동적으로데이터를전달하는데이터수집방법이다. 예를들어, 웹로봇이나웹크롤러등과같이웹페이지에게시되어있는정보를수집하는수집기법을수동적데이터수집으로볼수있다. 86 Internet & Security Focus 2013 3 월호

1 웹로봇 (Web Robot) 웹로봇 (Web Robot) 은웹문서를돌아다니면서필요한정보를수집하고이를색인해정리하는기능을수행하며주로검색엔진에서사용되고있다. 검색엔진에서사용하는웹로봇은전세계의웹문서를돌아다니면서관련된정보들을자신의데이터베이스에색인해둔것들을검색한다. 웹로봇은지정된 URL 리스트에서시작하여웹문서를수집하고, 수집된웹문서에포함된 URL 들을추출하여새롭게발견된 URL 에대한웹문서수집과정을반복하는소프트웨어이다. 일반적으로웹로봇은 [ 그림 7] 과같이수집기와분류기, 데이터처리기로나눌수있다. 수집기는정해진웹페이지에서정보를수집하거, 중복 URL 을방지하기위하여데이터베이스를가지고있다. 또한필요에따라수집된정보의분류를위한인덱스를생성하거나요약문을생성하는모듈을포함할수있다. 분류기는규칙, 확률또는학습기반으로문서를분류하며, 좀더정확한분류를위해관리자또는전문가가개입할수있도록분류승인모듈을갖는다. 데이터처리기는분류된정보를사용자의요구에따라메일링서비스하거나데이터베이스테이블에업로드하는기능을수행한다. FOCUS [ 그림 7] 일반적인웹로봇구조 2 웹크롤러 (Web Crawler) 웹크롤러 (Web Crawler) 는조직적, 자동화된방법으로월드와이드웹 (World Wide Web) 을 탐색하는컴퓨터프로그램이다. 대체로방문한사이트의모든페이지복사본을생성하는데 Internet & Security Focus 2013 3 월호 87

FOCUS 사용되며, 검색엔진은이렇게생성된페이지의보다빠른검색을위하여인덱싱을수행한다. 또한웹크롤러는링크체크나 HTML 코드검증과같은웹사이트의자동유지관리작업을위해사용되기도하며, 자동이메일수집과같은웹페이지의특정형태의정보를수집하는데도사용된다. 웹크롤러는최초의탐색을위하여, 시드 (seed) 라고불리는 URL리스트를이용하여탐색을시작하며, 페이지내에존재하는모든하이퍼링크를인식하여 URL리스트를갱신하고, 갱신된 URL 리스트는재귀적으로다시방문한다. 웹서버를순회하며각홈페이지에있는텍스트정보, 수치정보, 사실정보, 그림정보, 멀티미디어정보등수많은정보를수집하며, 자동으로웹페이지의내용을분석하고그안의포함되어있는 URL들을추출한후그 URL들로하나씩이동하면서정보를수집한다. 2) 데이터저장및관리단계빅데이터분석절차의두번째단계는, 수집된데이터를저장하고관리하는단계이다. 기존에사용되던데이터저장방식은, 정형화된데이터를저장하는형태가주를이루었다. 하지만, 빅데이터환경에서는정형화되지않은비정형데이터를저장할수있어야하며, 대량의데이터가저장되야하므로기존의데이터저장 관리기술이외의새로운기술을필요로한다. (1) 대용량분산파일시스템빅데이터환경에서생산되는데이터는그규모와크기가방대하기때문에기존의파일시스템체계를그대로사용할경우많은시간과높은처리비용을필요로한다. 따라서대용량의데이터를분석하기위해두대이상의컴퓨터를이용하여적절히작업을분배하고다시조합하며, 일부작업에문제가생겼을경우문제가발생된부분만재처리가가능한분산컴퓨팅환경을요구한다. 이를지원하는가장대표적이며널리알려진도구가아파치 (Apache) 의하둡 (Hadoop) 이다. 하둡은대용량의데이터를처리하기위해대규모의컴퓨터클러스터에서동작하는분산애플리케이션개발을위한자바오픈소스프레임워크이다. (2) HDFS(Hadoop Distributed File System) HDFS 는아파치하둡프로젝트의분산파일시스템으로, 처음에는아파치넛치웹검색엔진프로젝트를위한하부구조로만들어졌었다. HDFS 은여러개의노드에걸쳐큰파일을저장하며, 단일호스트에서 RAID 스토리지를이용하지않고안정성을달성하고있지만, 여러개의호스트에데이터를복사하는단점을가지고있다. 기본적으로 HDFS 파일시스템은 3개의노드 (2개는같은 88 Internet & Security Focus 2013 3 월호

랙, 1개는다른랙 ) 에데이터를저장한다. 파일시스템은데이터노드들의클러스터를통해서구축되며, 각각의서버들은데이터블럭을네트워크를통해서제공한다. HDFS는 HTTP 프로토콜을통해서웹브라우저나다른클라이언트를통해서모든컨텐츠에대해접근할수있고, 데이터노드들은복사본을옮기거나데이터의복제를위해데이터의재밸런싱작업을한다. FOCUS (3) 인- 데이터베이스 (In-Database) 인-데이터베이스는데이터베이스내에분석을직접수행할수있는기능을포함하고있다. 따라서분석의시점이데이터베이스와분석소프트웨어의분리로인한데이터의처리및프로세스등의여러단계를거치지않고보다신속하게데이터를분석할수있도록지원할수있다. 또한인-데이터베이스방식은자동화된마이닝프로세스와실시간혹은실시간에근접한기능을지원하는분석을가능하게한다. 이러한기능을지원하는대표적인인-데이터베이스는테라데이터 (Teradata), IBM 네티자 (Netezza), 그린플럼 (Greenplum), 애스터데이터시스템 (Aster Data Systems) 등과같은주요데이터웨어하우징벤더들에의해지원된다. (4) 인- 메모리 (In-Memory) 인-메모리기술은데이터를보다빠르게접근하고처리하여, 신뢰성높고효율적인의사결정을도와주는기술이다. 전통적인비즈니스인텔리전스기술은디스크와같은공간에저장된데이터를대상으로로딩하고처리를하지만, 인-메모리기술은디스크대신메모리를이용하여색인을만들고데이터를처리하기때문에데이터모형을만들고질의를분석하며다양한관점의분석을처리하는데소요되는시간을줄일수있다. 인-메모리기술의장점은물론디스크와같은일반적인데이터베이스에접속하지않아도되기때문에데이터베이스서버의부담을줄일수있으며, 메모리기반으로처리되기때문에처리속도가상대적으로빠르다는것이다. (5) NoSQL 분산데이터베이스가운데대용량의비정형데이터를데이블구조가아닌다른형태로저장하고처리하기위한기술로 NoSQL 이각광을받고있다. NoSQL 은 Not-Only SQL, 혹은 No SQL을의미하며, 전통적인관계형데이터베이스와다르게설계된비관계형데이터베이스를의미한다. 관계형데이터베이스의경우모든노드가같은시간에같은데이터를보여주는일관성과일부노드가다운되어도다른노드에영향을주지않아야하는유효성에중점을두고있는반면, NoSQL 기술은네트워크전송중일부데이터를손실하더라도시스템이정상동작을 Internet & Security Focus 2013 3 월호 89

FOCUS 하는분산가능성에중점을두고일관성과유효성은보장하지않는다. 이러한특성으로 NoSQL 데이터베이스들은기존의관계형데이터베이스에비해특수한목적에따라보다빠른처리가 가능하여, 대용량의데이터를분산시켜저장하고실시간으로처리할수있는기능을제공한다. (6) 구글파일시스템 (GFS) 구글파일시스템은급속히늘어나는구글의데이터처리를위하여설계된대용량분산파일시스템이다. 구글파일시스템은크게마스터 (Master), 청크서버 (Chunk Server), 클라이언트 (Client) 로구성된다. 마스터는구글파일시스템전체를관리하며, 청크서버는물리적인하드디스크에실제입출력을처리하고, 클라이언트는파일을읽고쓰는동작을요청하는어플리케이션이다. 구글파일시스템의동작과정을살펴보면, 우선클라이언트는마스터에게파일의읽기 / 쓰기를요청한다. 요청을받은마스터는클라이언트와제일가까운청크서버의정보를클라이언트에게전달해주고, 클라이언트는전달받은정보를바탕으로청크서버와직접통신하며파일의읽기 / 쓰기를실행한다. 청크서버가고장날경우, 마스터는고장나지않은청크서버를이용하여파일의읽기 / 쓰기를실행할수있으며, 마스터서버가고장나는경우, 별도의외부장비가마스터서버의고장유무를체크하여, 다른서버가마스터서버의기능을대체하게된다. 이러한방식으로무정지기능 (Failuer Tolerance) 을구현하고있다. 3) 데이터처리및분석단계빅데이터를분석하기위한기법들은통계학과전산학, 특히기계학습 / 데이터마이닝분야에서이미사용되던기법들이며, 이분석기법들의알고리즘을대규모데이터처리에맞도록개선하여빅데이터처리에적용시키고있다. 최근소셜미디어등비정형데이터의증가로인해, 다양한분석기법들가운데텍스트 / 오피니언마이닝, 소셜네트워크분석, 군집분석등이주목을받고있다. 빅데이터의분석기법들은테라바이트또는페타바이트규모의데이터에적용되고있으며, 이러한엄청난규모의빅데이터분석 ( 처리 ) 을수행하고데이터를저장, 관리하기위해서는이에맞는인프라기술을필요로한다. (1) 텍스트마이닝 (Text Mining) 텍스트마이닝 (Text Mining) 이란자연어로구성된비정형텍스트데이터에서패턴또는관계를추출하여가치와의미있는정보를찾아내는마이닝기법으로, 사람들이말하는언어를이해할수있는자연어처리 (Natural Language Processing) 기술에기반한기술이다. 90 Internet & Security Focus 2013 3 월호

(2) 맵리듀스 (MapReduce) 맵리듀스 (Map Reduce) 는구글이분산컴퓨팅을지원하기위한목적으로제작하여, 2004 년발표한소프트웨어프레임워크이다. 이프레임워크는페타바이트 (PB) 이상의대용량데이터를신뢰할수없는컴퓨터로구성된클러스터환경에서병렬로처리하기위해개발되었다. 맵리듀스는맵단계와리듀스단계로처리과정을나누어작업한다. 맵 (map) 은흩어져있는데이터를연관성있는데이터끼리분류로묶는작업이며, 리듀스 (Reduce) 는맵작업후, 중복데이터를제거하고원하는데이터를추출하는작업이다. 대표적맵리듀스프레임워크중가장주목을받는것이아파치 (Apache) 의하둡 (Hadoop) 기술이다. FOCUS (3) 빅쿼리 (Big Query) 구글 `빅쿼리 ' 는빅데이터를클라우드상에서신속하게분석해주는서비스다. 이용자가구글클라우드스토리지에분석하고자하는데이터를업로드하면웹브라우저를통해해당데이터가분석된다. 따라서기업은별도인프라를구축하지않고도데이터를분석할수있다. 빅쿼리는초당수십억단위행 (rows) 데이터를다룰수있으며, 데이터탐색범위를테라바이트규모까지확장할수있다. 빅쿼리인프라를사용해기업들은자체서버와솔루션을구축하지않고도데이터를저장하고, 이를분석하는프로그램역시빅쿼리를통해개발해서비스를운영할수있다. (4) PPDM(Private Preserving Data Mining) PPDM이란프라이버시보존형데이터마이닝을뜻하며데이터소유자의프라이버시를침해하지않으면서도데이터에함축적으로들어있는지식이나패턴을찾아내는기술을말한다. 데이터마이닝 (data mining) 은많은양의데이터에함축적으로들어있는지식이나패턴을찾아내는기술이다. 데이터마이닝은 1983 년 IBM Almaden 연구소를중심으로 Quest 데이터마이닝프로젝트가시작된이후로활발하게연구가진행되고있다. 데이터를모으고이를여러가지방법으로분석하는과정에서프라이버시와관련된문제는자연스럽게대두된다. 특히, 데이터마이닝이전자상거래나마케팅과같은분야에주로활용되면서, 개인프라이버시침해이외에도경쟁회사들사이에이윤추구를위해협력하는경우개별회사가수집한정보의노출이문제시되었다. 데이터소유자의프라이버시를침해하지않으면서유용한정보를추출하는것은정보를공유하는것과프라이버시를유지하고자하는것의취사선택 (trade-off) 에대한문제로볼수있으며, 이를해결하고자프라이버시보존형데이터마이닝 (PPDM) 에대한연구가시작되었다. Internet & Security Focus 2013 3 월호 91

FOCUS 4) 데이터분석결과가시화및이용단계빅데이터분석가시화기술은비전문가가데이터분석을수행할수있는환경을제공하는분석도구기술과분석결과를함축적으로표시하고직관적인정보를제공하는인포그래픽스기술로구성된다. 대표적인분석도구기술의예로 R이있으며, 인포그래픽스기술로 InVis(An Interactive Visualization Framework for Massive Data supporting Multiple Users) 가있다. 오픈소스프로젝트 R은통계계산및시각화를위한언어및개발환경을제공한다. R 언어와개발환경을이용하면기본적인통계기법부터모델링, 최신데이터마이닝기법까지구현과개선이가능하다. 이렇게구현한결과는그래프등으로시각화할수있다. InVis 는대용량데이터의실시간가시화를위해고안된새로운가시화시스템으로, 병렬처리의효율을높이고사용자의접근성을높인인터페이스를제공한다. 또한유연한컴퓨팅자원할당이가능하며다중사용자에대해서도가시화서비스를제공한다. InVis 시스템은대용량데이터의효과적인가시화를위한인터페이스인 IVI(InVis Integrated Visualization Interface) 와데이터가공및가시화오브젝트인폴리곤의생성을담당하는 IVE(InVis Visualization Engine) 로나누어진다. 빅데이터시각화기술은데이터분석결과를시각적으로표현해주는기술로 Facebook 사용자의활동을정보의흐름과빈도로표시해주는 Facebook Transction 이나위키피디아의문서변화를보여주는 History Flow 등이있다. 5) 데이터폐기단계데이터폐기단계에서는데이터분석을위해이용된데이터를삭제하는단계이다. 개인정보와같은데이터는다른법령에서명시하고있지않는한이용목적을달성후지체없이파기해야한다. 이와같이데이터폐기를위해물리적으로하드디스크등을파기하는솔루션등이있으며, 소프트웨어적으로는여러번덮어쓰기 (OverWritting) 등의기술이사용되고있다. 하지만, 데이터폐기를위한방법들은데이터를저장하고있는물리적 / 논리적공간전체를폐기하는방법으로일부의데이터만삭제가어려워, HDFS 와같이데이터를여러곳에복제하여분산저장하는환경에서모든데이터의폐기가제대로이루어졌는지검증하기란어려울수있다. 92 Internet & Security Focus 2013 3 월호

Ⅲ. 빅데이터환경에서필요한개인정보보호기술 1. 개인정보보호를위해필요한조치빅데이터환경에서필요한개인정보보호기술을도출하기위하여, 빅데이터분석의각단계별발생할수있는개인정보의침해가능성을예방하기위한조치를살펴보면다음과같다. FOCUS 1) 데이터수집단계 (1) 능동적데이터수집 1 수집되는데이터에대한동의능동적데이터수집을통해데이터를확보하는경우, 데이터를생성하는주체에사전에동의를받고데이터를수집하여야한다. 상대적으로수동적데이터수집에비하여, 능동적데이터수집의경우데이터생성주체의동의를받기가수월하다. 이는데이터를수집시, 데이터생성주체가데이터수집여부의인지를쉽게할수있기때문이다. 예를들어, 설문조사와같은경우, 설문에응하는사용자로부터해당설문데이터를수집한다는동의를받고설문조사결과를수집할수있다. 또한, 대량의로그기록을수집하는시스템과같이, 내부적으로이용되는데이터에대한수집은데이터의소유권이데이터를수집하는주체에있어내부적인정책에따라수집에대한동의가용의하다. 그리고이미보유하고있는데이터에대한활용도일종의데이터수집이라할수있다. 하지만, 이때이미보유하고있던데이터를활용하기위한동의를사전에미리받아야하며, 이용목적으로동의된데이터를이용목적에맞게사용해야만한다. RSS와같은구독형태로데이터를수집하는경우, 데이터를제공하는제공자는이미오픈된형태로데이터를제공한다. 따라서별도의동의없이해당데이터를수집하여이용할수있다. RSS 를수집하는데이터의예로, 신문방송과같은언론데이터또는블로그등과같은웹출판물형태의데이터가될수있다. 2 수집되는데이터의접근통제능동적데이터수집에있어서, 내부적인시스템로그와같은데이터는외부로유출되지말아야하며, 내부적으로만이용할수있도록해야한다. 따라서, 생성되는데이터에대한접근통제가이루어져야하며, 권한이부여된시스템만해당데이터를수집하고저장할수있도록해야한다. 또한, 설문조사와같은형태로이루어진특정사용자로부터입력받은데이터또한설문결과가입력되는단계에서, 지정된시스템으로만해당데이터가저장되어야한다. Internet & Security Focus 2013 3 월호 93

FOCUS (2) 수동적데이터수집 1 수집되는데이터에대한동의수동적데이터수집의경우, 일반적으로자동화된시스템을통하여데이터를수집한다. 인터넷상에존재하는다양한데이터중데이터의소유자가인지하고, 데이터를공개하는경우도있지만, 그렇지않는경우도존재한다. 이러한경우, 해당데이터소유자로부터수집되는데이터에대한동의를받고데이터를활용해야하지만, 수집과정이자동으로이루어져데이터소유자에게수집에대한동의를별도로받기는어렵다. 이때, 수집후해당데이터소유주에게데이터를수집하여이용한다는고지를취할수있다. 하지만, 수집되는데이터가개인정보등을포함한민감한정보일경우법적인이슈가존재할수있으므로, 수집주체는수집되는데이터에따라주의를기울여서수집해야한다. 수동적데이터수집의대표적인영역으로, 소셜네트워크서비스영역에서의데이터수집을들수있다. 페이스북과같은소셜네트워크서비스영역의데이터는서비스이용자에따라공개 비공개의설정을할수있다. 따라서공개된데이터에한하여데이터를수집해야한다. 하지만, 공개된영역에서의데이터수집이라할지라도, 서비스이용자의민감정보등이포함되어개인의사생활을침해할수있는경우법적인사항을고려하여데이터를수집해야한다. 2 수집되는데이터의접근통제수동적데이터수집의경우, 수집되는데이터는이미외부에서접근가능하도록오픈된상태의데이터를수집한다. 하지만일부웹페이지의경우 Robot.txt" 파일을통하여웹봇 (Web Robot) 등으로부터데이터수집을거부할수있다. 이때, 해당데이터는수집되지말아야하지만악의적인수집자는이를무시하고해당데이터를수집할수있다. 따라서, 수집을명확히거부하려는데이터제공자는데이터에대한접근통제를통하여자동화된웹봇이데이터를수집하는것을원천적으로차단해야한다. 2) 데이터저장및관리단계 1 데이터의안전한저장및관리데이터수집단계를통하여수집된데이터는안전하게저장되어야한다. 이는저장되는데이터가외부의시스템침입등에의하여불법적으로유출되었을경우에대비하기위함이다. 즉, 데이터에대한암호화조치등을취하여데이터가유출되었을경우도해당데이터의안전성을확보해야한다. 또한데이터를저장하고있는시스템에대한접근권한을설정하는등접근에대한 94 Internet & Security Focus 2013 3 월호

통제가마련되어있어야한다. 이는논리적인시스템접근통제뿐만아니라물리적인시스템의 접근통제를포함하여야한다. FOCUS 2 데이터필터링및등급분류데이터수집단계를통하여수집된데이터는그종류에따라서필터링되어저장되거나또는데이터의등급별로분류하여별도관리하여야한다. 또한, 빅데이터환경에서수집되는데이터는기존의정형화된데이터이외에도정형화되지않은비정형화된데이터들이존재한다. 따라서이러한비정형된데이터들도저장하고, 처리가능한형태로변형되어저장되어야한다. 만약수집되는데이터중개인정보의신상과관련된민감한정보라던지혹은불필요하게과도한개인정보가수집되는경우일정부분의데이터를마스킹처리하여식별불가능하도록저장하는등개인정보에대한필터링처리후데이터를저장하여야한다. 예를들어, 데이터수집중주민등록번호와같은고유식별정보가수집되었을경우, 해당정보중나이에해당하는태어난년도의정보와성별에해당하는정보만을이용하고나머지정보는저장하지않을수있다. 그리고수집되는정보중개인정보에해당하는부분을일정기준에따라등급을분류하여, 등급별로처리기준을수립하고안전하게저장및관리하여야한다. 3) 데이터처리및분석단계 1 익명화된데이터처리및분석데이터처리에있어서, 이미수집된데이터를이용하거나또는외부의데이터를이용하여데이터를처리및분석할수있다. 이미수집된데이터의경우데이터수집의주체가데이터의소유주이기때문에데이터수집시적법한절차에따라데이터를수집하였다면, 이를빅데이터솔루션을이용하여처리하고분석하면된다. 하지만외부의데이터를이용할경우, 해당데이터에대한이용에있어서개인정보등이포함된경우프라이버시를침해할가능성이존재한다. 예를들어, 통계적인목적으로특정지역의건강정보를이용한다고하자. 이때, 건강과관련된통계적수치만을이용해야하지만, 제공되는데이터를개별적인것으로본다면각데이터별로개인에대한신상정보가함께저장되어있다. 따라서, 데이터를처리및분석하는주체가악의적인경우해당개인정보는쉽게유출될수있다. 이처럼제공되는데이터에개인적인정보가포함되었을경우해당정보에대한익명화과정을거처데이터에존재하는개인정보를제거한형태의처리및분석과정이필요하다. Internet & Security Focus 2013 3 월호 95

FOCUS 2 암호화된데이터의처리데이터처리과정에서유출될수있는개인정보를근본적으로해결하기위하여저장되는데이터를모두암호화하고, 암호화된형태로데이터를처리한다면데이터처리과정의투명성을보장할수있을것이다. 즉, 데이터소유주인이용자만이알고있는암호키값을이용하여수집되는데이터를암호화한다면, 그외의주체는해당정보를알수없을것이다. 하지만, 암호화된데이터는일반적으로복호화되기전까지해당데이터를이용하여어떠한처리과정을거칠수없다. 이는암호화된데이터는복호화되기전까지의미를알기어렵기때문이다. 3 이용목적외의처리및분석데이터를저장하고있는주체는데이터수집시법적절차에의하여동의를받았던이용목적이외의데이터처리및분석을해서는안된다. 즉, 마케팅이나기타다른목적으로수집된데이터의분석이이루어지면안된다. 또한, 프라이버시를침해하지않는목적으로분석이이루어졌다고해도, 분석된결과가프라이버시를침해할수도있다. 이는빅데이터환경에서는어떠한데이터가개별적인데이터상태에서는프라이버시를침해하지않을지라도, 분석된결과와결합될경우데이터가프라이버시를침해할수도있기때문이다. 4) 데이터분석결과가시화및이용단계 1 개인정보를침해할수있는정보의생성빅데이터분석을통하여, 분석된결과는개인정보를침해할수있는민감한정보를포함할수있다. 이러한경우, 해당정보를이용하여개인에서비스를제공하게되면문제가될수있다. 최근미국에서는빅데이터분석을통하여, 고등학생에게출산용품을권장하는광고를한사례가있었다. 6) 이처럼빅데이터분석을통하여기존에알수없었던새로운사실을알게된경우해당정보는개인정보를침해할수있다. 2 분석된정보의무단이용데이터를분석하여도출된결과는, 데이터분석을위해수집된데이터로부터도출된결과이다. 따라서도출된데이터결과를데이터수집시동의받은목적외에사용하거나제공되어서는안된다. 빅데이터기반개인정보보호기술수요분석보고서 에따르면, 정보의무단이용은크게 3가지로 6) 매일경제, [Trend] 허리케인올때맥주쌓아둔월마트, 왜?, 2013.02.15 96 Internet & Security Focus 2013 3 월호

분류할수있다. 7) 첫째개인정보보호정책에명시되지않은위탁사업자나제 3서비스제공자에게개인정보를제공하는경우이다. 개인정보보호정책은서비스를제공받는모든서비스이용자가자신의개인정보의수집, 저장및관리, 이용및제공에대한사항을세부적으로확인하는장치이므로개인정보보호정책에는서비스사업자가관리하는모든서비스제공자, 위탁사업자와제공개인정보항목및목적, 기간등이반드시포함되어야하며, 개인정보는개인정보보호정책을준수하여제공되어야한다. 둘째, 개인정보보호정책에명시되지않은개인정보항목을제공하는경우이다. 개인정보보호정책에명시된위탁사업자또는제 3서비스제공자라하더라도모든개인정보항목을제공하여서는안되며, 반드시제공항목에해당하는개인정보만을제공하여야한다. 셋째, 온라인또는오프라인으로개인정보를제 3자에게양도하는등불법적거래의경우이다. 서비스사업자는서비스이용자의중요한개인정보를포함하고있으므로, 저장된개인정보의이용및제공은반드시접근권한을가진담당자에의해서만합법적으로수행되어야한다. FOCUS 5) 데이터폐기단계 1 데이터폐기에대한확인수집된데이터는이용목적을달성하면지체없이파기해야한다. 하지만이용목적달성후에도해당데이터가파기되었는지이용자입장에서는알기어렵다. 만약이용목적달성후에도해당데이터가파기되지않고계속존재한다면, 이러한정보는잠재적인유출위험이존재한다고볼수있으며, 관련된법안에도위배된사항이다. 따라서, 데이터의폐기에대한객관적인모니터링및확인이필요하다. 2 완전한데이터폐기빅데이터환경에서저장되는데이터는여러곳에분산되어저장될수있으며, 저장되는데이터또한여러곳에복제되어저장될수있다. 따라서데이터폐기시, 기존의폐기방식을통하여폐기하는경우완벽하게폐기되지않을수있다. 또한일반적인삭제명령등을통한데이터폐기는데이터를완벽히삭제하지않는다. 따라서논리적으로안전한방법을통하여데이터를폐기해야하며, 또는물리적인방법으로복구불가능하도록폐기하여야한다. 잊혀질권리등과같은이슈가부각되고있는가운데, 데이터폐기의중요성은더욱강조되고있다. 7) 한국인터넷진흥원 (2012) 빅데이터기반개인정보보호기술수요분석, 성신여자대학교산학협력단, 2012.12. Internet & Security Focus 2013 3 월호 97

FOCUS 2. 개인정보보호기술 1) 데이터수집단계데이터수집단계에서필요한개인정보보호기술은수집되는데이터에대한동의와관련된기술과이에대한법률적위반사항을검토할수있는기술이다. 또한웹봇및웹크롤러등에의해자동으로수집되는것을막기위한데이터수집에대한거부기술도필요하다. 1 데이터수집시동의관련기술데이터를수집할경우, 수집되는데이터에개인정보가포함되어있는경우해당데이터의주체로부터동의를받아야한다. 특히, 수동적데이터수집의경우동의를받는과정이능동적데이터수집에비해매우어렵다. 따라서이를도와줄수있는기술이필요하다. 또한수집되는데이터가개인정보가아닌일반적인정보및개인을식별할수없는통계적인정보인경우해당데이터에대한주체가명확하지않아별도의동의를받지않아도된다. 따라서, 수집되는정보가개인정보인지아닌지판별할수있는기술도필요하다. 이러한기술을통하여데이터를수집하는주체는, 데이터수집시동의에대한부담을줄일수있을것으로기대한다. 2 데이터수집시법률적위반사항검토기술개인정보와관련된내용을수집시관계법령에따라데이터를수집해야한다. 예를들어, 개인정보보호법이적용되는경우, 개인정보의수집 이용목적, 수집하려는개인정보의항목, 개인정보의보유및이용기간, 동의를거부할권리가있다는사실및동의거부에따른불이익이있는경우에는그불이익의내용등을명시하고동의를받아야한다. 또한개인정보와민감정보를분리해서별도의동의를받아야한다. 이처럼법률에대한지식이없는사람도, 데이터수집시, 수집과정에대해서법률적인위반사항에대한자동화된검토기술이존재한다면데이터수집에대하여자동화된형태로매우편리하게데이터를모을수있을것이다. 3 데이터수집거부기술웹사이트에서제공하는정보는웹로봇또는웹크롤러등과같은자동화된데이터수집시스템을통하여수집될수있다. 이러한자동화된수집을방지하고자로봇배제표준이생겨났으나, 이규약은권고안으로반드시지켜야하는것은아니다. 그러므로로봇배제표준을적용한다하더라도웹사이트에서제공되는데이터가수집될수있어, 웹사이트에서제공되는데이터의수집을거부하기위한기술개발이필요하다. 즉, 정상적인사용자에대하여는데이터를제공하지만로봇과같이 98 Internet & Security Focus 2013 3 월호

자동으로대량의데이터를가져가는형태에대해서는차단하는기술이필요하다. 2) 데이터저장및관리단계데이터를저장및관리하는단계에서필요한개인정보보호기술은데이터암호화기술및접근통제기술, 그리고데이터필터링및등급분류기술이다. FOCUS 1 데이터암호화기술저장되는데이터를보호하기위해서는데이터암호화기술이필요하다. 이는데이터베이스서버의자료유출로부터데이터의기밀성을유지할수있도록도와주기때문이다. 데이터암호화기술은암 복호화를처리하는물리적인위치에따라 API 방식, Plug-In 방식, 하드웨어방식으로나누어진다. API 방식은데이터베이스솔루션외부의어플리케이션에서데이터의암 복호화가수행되어데이터베이스서버에부하가발생하지않는장점을가진다. Plug-In방식은데이터베이스서버에제품이설치되어암 복호화가수행되는구조로, 기존의데이터베이스어플리케이션의수정이거의발생하지않는장점이있으나, 데이터베이스자체에부하가발생하는단점이있다. 하드웨어방식은별도의서버외부에암호화장비를설치하여시스템의과부하를감소시키는방식이다. 하지만, 빅데이터환경에서 HDFS 와같은방식의데이터저장은데이터의복제및분산이일어나기존의데이터암호화기술을적용하기어려울수있다. 따라서, 빅데이터환경에맞는데이터암호화기술이필요하다. 2 데이터접근통제기술데이터가저장된데이터베이스에대한접근통제기술이필요하다. 데이터가저장되어있는공간인데이터베이스는일반적인서버시스템과크게다르지않기때문이다. 따라서, 데이터에대한접근통제기술은일종의시스템접근통제기술로볼수있다. 시스템접근통제를위한기술로는침입탐지시스템, 침입차단시스템, VPN 등과같은네트워크기반의기술들이있다. 또한, 데이터에접근하는사용자인증과권한에대한계정관리를위한기술도필요하다. 3 데이터필터링및등급분류기술저장되는데이터에따라등급을분류하고이에맞춰데이터를관리하는기술이필요하다. 데이터의분류는필터링에의하여자동으로수행될수있다. 또한, 개인정보에자동으로비식별성을추가하여, 법적인이슈가없도록만들어주는필터링기술도필요하다. Internet & Security Focus 2013 3 월호 99

FOCUS 3) 데이터처리및분석단계 데이터처리및분석단계에서필요한개인정보보호기술은익명화된데이터처리기술및 암호화된데이터처리기술이다. 1 익명화된데이터처리기술 PPDM 과같은프라이버시를보호하며데이터를처리및분석하는기술이필요하다. 대표적인프라이버시보호분석기술로 K-익명성, L-다양성, 차분프라이버시등의익명화된방식으로데이터를처리하는기술이있다. K-익명성 (K-anonymity) 기술은데이터베이스의연관성을줄이기위해제안된방법으로, 데이터와관련된개인의프라이버시를보호하는것이주된목적이다. K-익명성은 K값을정하여, K 값에따라데이터의익명성을보장하는방식이다. 예를들어 K 값이 3인경우 3개의데이터는동일한형태로취급되어구분이불가능하다. K값이커질수록익명성은높아지나, K 값이무한대라면, 결국데이터베이스의모든내용의구분이불가능할것이다. 반대로 K 값이 1이라면, 기존의데이터베이스와동일한형태로모든값의구별이가능하다. 결국, 분석되는데이터의성격에따라서 K 값을정하여이용해야할것이다. 몇몇경우 K-익명성을이용하여데이터를분석할때, 데이터간의구분이쉽지않은경우가발생한다. 이때이용할수있는기술이 L-다양성 (L-diversity) 기술이다. 즉, K-익명성기술과 L-다양성기술을이용하여, 데이터베이스의특정데이터의익명성을구현하여통계적인정보만제공할수있다. 2 암호화된데이터처리기술암호화된데이터처리기술로, 순서보존암호및연산보존암호와같은기술이필요하다. 순서보존암호는암호화가된상태의데이터도검색및정렬이용의하여, 데이터의처리가가능하도록하는기술이다. 이를위하여평문집합을일정구간 (Bucket) 으로분할하고, 평문을 Bucket 구간에해당하는데이터로변환하여별도의테이블에저장한다. 이를이용하면 Bucket 자체로평문의내용은알수없지만데이터의처리는가능해진다. 연산보존암호 (Homomorphic Encryption) 는암호화가된상태에서도연산이가능한암호화방식으로 4세대암호기술 로도불린다. 연산보존암호는 2011 년 MIT가선정한 10대미래유망기술의하나로정보를최소로노출하면서연산이가능한기술이다. [ 그림 8] 과같이가트너의프라이버시보호기술 Hype Cycle 에따르면연산보존암호는노출최소화기술 (Limited Disclosure Technology) 의한종류로아직기술발생기 (Technology Trigger) 에머물러있으며, 최소 10년이상더연구가되어야할 100 Internet & Security Focus 2013 3 월호

기술분야로알려져있다. 국내에서도연산보존암호기술에대한활발한연구가이루어지고 있으며, 올해세계 3 대암호학술대회인 EuriCrypt 2013 에서관련기술에대한발표가될 예정이다. 8) FOCUS [ 그림 8] Hype cycle for Privacy, 2012 4) 데이터분석결과가시화및이용단계 1 이용자동의와관련된기술빅데이터분석을통하여도출된결과는개인정보를침해할수있는정보일수있다. 따라서, 도출된결과를이용하여어떠한서비스를제공하려할때, 서비스를제공받길원하는이용자에게사전에미리서비스이용에대한범위를설정하고해당범위안에속하는경우데이터분석결과와연관된정보를이용하여서비스를제공해야한다. 이러한제공을위하여빅데이터분석을통해도출될영역을미리예측하는기술이필요하다. 또한사전에이용자동의를받지못한경우, 사후에동의를받기위한기술이필요하다. 이때중요한점은, 동의를받는행위자체가이용자의프라이버시를침해할수있기때문에이러한사항도고려해야할수있는기술이여야한다는것이다. 8) 매일경제, 서울대천정희교수팀 4 세대암호기술 국내서개발 ( 암호해제하지않고도연산 검색가능 ). 2013.1.27 Internet & Security Focus 2013 3 월호 101

FOCUS 2 분석정보의이용모니터링기술빅데이터분석을통하여도출된결과의이용에대한모니터링기술이필요하다. 이러한기술은해당정보가안전하게사용되는지확인가능하여, 개인정보침해를사전에예방할수있기때문이다. 하지만모든정보에대하여모니터링을하는것은불가능할수있다. 따라서, 특정기준점을설정하여, 그에해당하는정보는서비스이용자들에게해당정보의이용내역에대한고지등을통하거나또는해당정보의이용과정을투명하게공개하는등정보에대한모니터링을제공하여데이터처리과정의투명성을제공할수있다. 5) 데이터폐기단계 1 데이터폐기모니터링기술수집된데이터는이용목적을달성하면지체없이파기해야한다. 하지만이용목적달성후에도해당데이터가파기되었는지이용자입장에서는알기어렵다. 만약이용목적달성후에도해당데이터가파기되지않고계속존재한다면, 이러한정보는잠재적인유출위험이존재한다고볼수있으며, 관련된법안에도위배된사항이다. 따라서, 데이터의폐기에대한모니터링및확인기술이필요하다. 2 분산환경에서완전한데이터폐기기술빅데이터환경에서저장되는데이터는여러곳에분산되어저장될수있으며, 저장되는데이터또한여러곳에복제되어저장될수있다. 따라서데이터폐기시, 기존의폐기방식을통하여폐기하는경우완벽하게폐기되지않을수있다. 또한일반적인삭제명령등을통한데이터폐기는데이터를완벽히삭제하지않는다. 그러므로논리적으로안전한방법을통하여분산된환경에서의완벽한데이터를폐기하는기술이필요하다. Ⅳ. 결론 빅데이터를바라보는관점은빅데이터를활용하는이해관계자에따라다를수있다. 하지만, 빅데이터도결국은사람을위한기술중하나일것이다. 개인정보보호법의입법목적은 개인정보를보호함으로써, 개인의존엄과가치를구현한다는데있다. 빅데이터의활용에 102 Internet & Security Focus 2013 3 월호

있어서도개인정보보호법의입법목적과같이개인의존엄과가치를구현하고자한다면, 빅데이터를활용하는이해관계자는반드시개인정보를안전하게처리해야할것이다. 이에본 고에서는빅데이터환경에서필요한개인정보보호기술을도출하고자, 빅데이터의분석절차를 FOCUS 총 5단계로나누고, 각단계별관련기술을살펴보았다. 그리고단계별로발생할수있는개인정보를침해할수있는이슈및이를해결하기위한조치를살펴보고, 그에따라필요한개인정보보호기술을제안하였다. 제안된기술을기술의성숙도, 필요도, 난이도에따라상 / 중 / 하로구분하면 [ 표 2] 와같이정리될수있다. 9) < 표 2> 빅데이터기반개인정보보호필요기술의기술성숙도 / 기술필요도 / 기술난이도 데이터처리단계 필요기술 기술성숙도 ( 상 / 중 / 하 ) 기술필요도 ( 상 / 중 / 하 ) 기술난이도 ( 상 / 중 / 하 ) 데이터수집단계 데이터저장및관리단계 데이터처리및분석단계 데이터분석결과가시화및이용단계 데이터폐기단계 데이터수집시동의관련기술 중 상 하 데이터수집시법률적위반사항검토기술 하 중 상 데이터수집거부기술 하 상 상 데이터암호화기술 상 상 중 데이터접근통제기술 상 상 하 데이터필터링및등급분류기술 하 중 하 익명화된데이터처리기술 중 상 상 암호화된데이터처리기술 하 상 상 이용자동의와관련된기술 하 상 상 분석정보의이용모니터링기술 하 중 상 데이터폐기모니터링기술 하 중 상 분산환경에서완전한데이터폐기기술 하 상 중 대부분의빅데이터관련기술은기술성숙도가 하 로낮음을알수있다. 기존의데이터암호화및접근통제와같은기술등은비교적기술이많이성숙되어있으나, 그외의빅데이터환경에서필요한데이터의이용에대한동의및모니터링등많은기술의연구가필요해보인다. 특히기술필요도측면에서살펴보면, 데이터의모니터링을제외한대부분의기술들이빅데이터환경에서매우필요한기술로볼수있다. 기술의난이도측면에서는데이터의이용과관련하여법적인이슈사항 ( 법률위반여부확인및수집된데이터의처리등 ) 과관련된기술은난이도가높다고할수있다. [ 표 2] 를통하여기술의난이도가낮고, 필요도가높은기술인 데이터수집시동의관련기술, 데이터접근통제기술, 데이터필터링및등급분류기술 등은단기적인연구를통하여 9) 본고에서제시한 < 표 2> 의기술성숙도 / 기술필요도 / 기술난이도는본고를집필하기위해조사한자료를토대로작성된필자의 주관적인견해임을알려드립니다. Internet & Security Focus 2013 3 월호 103

FOCUS 기술을빠르게개발하여적용할수있어보인다. 또한기술의성숙도가낮고필요도가높으며기술의난이도도상대적으로높은 데이터수집거부기술, 암호화된데이터처리기술, 이용자동의와관련된기술, 분산환경에서완전한데이터폐기기술 과같은기술은중장기적인관점에서꾸준한연구가필요해보인다. 본고에서제안한기술중 데이터수집시법률적위반사항검토기술 과같이법률적사항과관련된기술은기술을통해도출된결과가반드시법률적사항에적합하다고확신하기힘들수도있다. 하지만, 본고에서언급한개인정보보호를위해필요한기술들에대한관심과연구가지속적으로이루어지고, 중장기적인관점에서의기술개발및단기적관점에서의기술개발과그결과의적용등빅데이터와관련된개인정보보호기술을꾸준히연구하고개발한다면, 빅데이터환경에서제공되는서비스가개인정보에보다안전한형태로제공될수있을것이라기대한다. 참고문헌 김형중, 통계적익명성을위한 Privacy 보호기술. NIA Privacy Issues. 2012.6.20 국가정보화전략위원회, 빅데이터를활용한스마트정부구현 ( 안 ) 손상영, 빅데이터 온라인마케팅과프라이버시보호, 정보통신정책연구원. 2013.1.31 원호섭, 서울대천정희교수팀 4세대암호기술 국내서개발. 매일경제. 2013.1.27 한국정보화진흥원, 신가치창출엔진, 빅데이터의새로운가능성과대응전략. 2011.12.30 한국인터넷진흥원, 인터넷 & 시큐리티이슈 2월호. 2012.2 한국인터넷진흥원, 빅데이터기반개인정보보호기술수요분석. 성신여자대학교산학협력단. 2012.12 빅데이터연구반, 빅데이터시대준비를위한개인정보보호법제화방향연구. 개인정보보호법제정비연구포럼. 2012.11.21 Fay Chang Jeffrey Dean Sanjay Ghemawat Wilson C. Hsieh Deborah A. Wallach Mike Burrows Tushar Chandra Andrew Fikes Robert E. Gruber, Bigtable: ACM Transactions on Computer Systems, 26(2). 2008.6 Carsten Casper, Hype Cycle for Privacy, 2012. Gartner. 2012.7.25 Hung LeHong, Jackie Fenn, Hype Cycle for Emerging Technologies, 2012. Gartner. 2012.7.31 Cloudera, Flume User Guide, (2013.2.12 검색 ), <http://archive.cloudera.com/cdh/3/flume/userguide> 104 Internet & Security Focus 2013 3 월호