목차 Ⅰ 개요 1 배경 6 2 목적및활용방법 7 Ⅱ 빅데이터활용단계별개인정보비식별화처리 1 개요 10 2 ( 수집 저장단계 ) 개인정보점검및검토 11 3 ( 분석단계 ) 개인정보비식별화처리 14 4 ( 활용단계 ) 재식별여부등사후관리 20 5 개인정보처리관련유관제도 2

Similar documents
비식별화 기술 활용 안내서-최종수정.indd

목 차 Ⅰ 개요 1 배경 6 2 목적 및 활용방법 7 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 1 개요 10 2 (수집 저장 단계) 개인정보 점검 및 검토 11 3 (분석 단계) 개인정보 비식별화 처리 14 4 (활용 단계) 재식별 여부 등 사후관리 20 5 개

슬라이드 1

[ 목차 ]

프랑스 (Loi n du 6 janvier 1978 relative a l'informatique, aux fichiers et aux libertes L'Assemblee nationale et le Senat ont adopte) 독일 (Bundesdat

목 차 Ⅰ

< DC1A6C1D6C1BEC7D5BBE7C8B8BAB9C1F6B0FCBBE7BEF7BAB8B0EDBCADC7A5C1F62E696E6464>

내지(교사용) 4-6부

배경 구분 주요내용 2014 년 5 월유럽사법재판소는 잊혀질권리 를인정하는판결로, 구글의 과도한개인정보수집이개인인권과충돌한다는논란촉발 2014 년초프랑스 스페인은구글의개인정보수집정책이사생활보 호규정에위반한다며, 각각벌금 15 만 90만유로부과 구글 아동포르노사진을전송한

개인정보처리방침_성동청소년수련관.hwp

[11하예타] 교외선 인쇄본_ver3.hwp

중요문서 개인정보처리방침 제정 : 최근개정 : 제1조 ( 목적 ) 신한아이타스 ( 이하 회사 라한다 ) 는개인정보보호법제30조에따라정보주체의개인정보를보호하고이와관련한고충을신속하고원활하게처리할수있도록하기위하여다음과같이개인정보처리방침



05 ƯÁý

개인정보수집 제공동의서작성가이드라인 업무처리에필요한개인정보파악 처리하고자하는업무에꼭필요한최소한의개인정보는어떤것들이있는지파악합니다 고유식별정보나민감정보는일반개인정보와구분하여처리하여야하므로처리하고자하는개인정보중에고유식별정보나민감정보가있는지확인해야합니다 개인정보의보유기간확인


C O N T E N T S 목 차 요약 / 3 Ⅰ. 브라질소비시장동향및특성 경제현황 2. 소비시장의특성 Ⅱ. 브라질소비시장히트상품분석 최근히트상품 년소비시장, 이런상품을주목하라! Ⅲ. 우리기업의 4P 진출전략

Àϻ꺴¿ø 10³â»ç Á¦3Æí

USC HIPAA AUTHORIZATION FOR

2015


목차 Ⅰ. 추진배경 1 Ⅱ. 개인정보수집원칙 2 Ⅲ. 개인정보처리자조치요령 3 1. 필요최소한개인정보수집 3 2. 정보주체의실질적동의권보장 8 3. 고유식별정보및민감정보처리제한 12 < 참고 > 개인정보수집이용동의서 ( 예시 )

보도자료 2014 년국내총 R&D 투자는 63 조 7,341 억원, 전년대비 7.48% 증가 - GDP 대비 4.29% 세계최고수준 연구개발투자강국입증 - (, ) ( ) 16. OECD (Frascati Manual) 48,381 (,, ), 20


Microsoft PowerPoint - 6.pptx

암호내지

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>


슬라이드 1

[ 나이스평가정보 ( 주 ) 귀중 ] 나이스평가정보 ( 주 )( 이하 회사 ) 는 SK텔레콤 ( 주 ) 의업무를대행하여휴대폰본인확인서비스를제공함에있어고객으로부터개인정보를수집하고이용하기위해 정보통신망이용촉진및정보보호에관한법률 에따라서다음과같이본인의동의를받습니다. 1. 개

지도임자_1204_출판(최종).hwp

학교교과교습학원 ( 예능계열 ) 및평생직업교육학원의시설 설비및교구기준적정성연구 A Study on the Curriculum, Facilities, and Equipment Analysis in Private Academy and It's Developmental Ta

<B1DDC0B6B1E2B0FCB0FAC0CEC5CDB3DDB0B3C0CEC1A4BAB82E687770>

(120629)_세포배양_불활화_인플루엔자_백신_평가_가이드라인.hwp



전기차보급활성화포럼 전기차보급정책방향ㅣ 211

[10상예타]_광주도시철도2호선 건설사업_인쇄본_ hwp


G lobal M arket Report 중국지역 수출유망품목및진출방안

hwp

09³»Áö

hwp

Zentralanweisung

빅데이터, IoT( 사물인터넷 ) 등새로운 IT 기술과융합산업의출현은 세계최고수준의 IT강국으로자리매김한우리나라에게또다른도약의기회가되고있으나, 한편으로그러한기술활용과정에서발생할수있는개인정보침해우려는신산업발전과개인정보의보호를동시에조화롭게모색해야하는과제를제기하고있습니다.

( 단위 : 가수, %) 응답수,,-,,-,,-,,-,, 만원이상 무응답 평균 ( 만원 ) 자녀상태 < 유 자 녀 > 미 취 학 초 등 학 생 중 학 생 고 등 학 생 대 학 생 대 학 원 생 군 복 무 직 장 인 무 직 < 무 자 녀 >,,.,.,.,.,.,.,.,.

PowerPoint 프레젠테이션

- 2 -

해외유학생보험3단팜플렛1104

< FC0FCB8C15FC3D6C1BEBABB2E687770>

장애인건강관리사업


<4D F736F F D205B46696E616C5DB0B3C0CEC1A4BAB8C3B3B8AEB9E6C4A75FC1F7BFF8BFEB5F E30332E3239>

어린이집영상정보처리기기 설치 운영가이드라인 보건복지부 - 1 -

ICT À¶ÇÕÃÖÁ¾


제4장

발간등록번호대한민국의새로운중심 행복도시세종 2015 년기준 사업체조사보고서 Report of The Census on Establishments

동서울대학교개인정보처리방침 동서울대학교 이하본교 는개인정보보호법제 조에따라정보주체의개인정보 를보호하고이와관련한고충을신속하고원활하게처리할수있도록하기위하여 다음과같이개인정보처리지침을수립 공개합니다 제 조 개인정보의처리목적 본교는다음의목적을위하여개인정보를처리합니다 처리하고있

_서울특별시_강서구_자활기금_설치_및_운용_조례_일부개정조례안[1].hwp

별첨 1 홈페이지용필기시험장소및접수번호확인안내 ( 연구, 학부, 전수 ) 1 부 2020 년도일본문부과학성국비유학생 ( 연구, 학부, 전수 ) 선발필기시험장소및접수번호확인안내 * 주 : 일본정부 ( 문부과학성 ) 장학금유학생및일한고등교육유학생교류사업유학생및연구유학생은편

슬라이드 1

2-A. 필수개인 ( 신용 ) 정보수집 이용 제공동의서 ( 여신금융거래 ) ( 주 ) 신한저축은행귀중 신한저축은행과의여신 ( 금융 ) 거래와관련하여신한저축은행이본인의개인 ( 신용 ) 정보를수집 이용하거나제 3 자에게제공하고자하는경우에는 개인정보보호법 제 15 조제 1

PowerPoint 프레젠테이션

1 - 서울특별시강서구누리소통망서비스 (SNS) 관리및 운영에관한조례제정안 검토보고서 1. 회부경위 가. 의안번호 : 나. 제출자 : 서울특별시강서구청장다. 제출일 : 2017 년 5월 2일라. 회부일자 : 2017 년 5월 8일 2. 제안이유 인터넷,

450 공기업 2 총괄요약표 평가범주 지표명 비계량계량합계 가중치등급가중치득점 ( 점 ) 가중치득점 1. 리더십 5 B 책임경영 3 B 리더십 책임경영 3. 국민평가 ( 고객만족도, 브랜드 )

ë–¼ì‹€ìž’ë£„ì§‚ì‹Ÿì€Ł210x297(77p).pdf

목 차 Ⅰ. 감염병현황과기본전략 1 1. 기본계획수립배경 2 2. 감염병발생현황 3 3. 정책환경및문제점 4 4. 정책추진방향 6 5. 비전과목표, 주요과제 성과지표 15 Ⅱ. 감염병별맞춤형대응 수인성 식품매개및접촉전파감염병 예방접종대상

동국대학교불교병원통합의료정보시스템구축


개인정보취급방침 제정 개정 개정 베스타스자산운용 ( 주 )( 이하 " 회사 " 이라한다 ) 는개인정보보호법제 30 조에따라정보주체의개인 정보를보호하고이와관련한고충을신속하고원활하게처리할수있도록하기위하여다음과 같이

회사가추론할수있는개인정보또는정보주체를아는를통해얻은개인정보를 처리하기도합니다. 3) 회사는정보주체가제공한개인정보를상기의목적범위내에서이용하여야합니다. 다만, 다음의경우에는예외적으로목적범위를초과하여이용할수있습니다. 1 정보주체로부터별도의동의를받는경우 2 법률에특별한규정이있는

120330(00)(1~4).indd

핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

메뉴얼41페이지-2

< C617720BBF3B4E3BBE7B7CAC1FD20C1A632B1C72E687770>

이동전화요금체계개선방안(인쇄본).hwp

e01.PDF

< 차례 > Ⅰ. 조사개요 1 Ⅱ. 통계의작성목적및이용 6 Ⅲ. 조사설계 12 Ⅳ. 자료수집 50 Ⅴ. 행정자료활용 87 Ⅵ. 자료처리 91 Ⅶ. 통계추정및분석 99 Ⅷ. 통계공표관리및이용자서비스 115 Ⅸ. 통계기반및개선 132 Ⅹ. 참고문헌 141

3 삭제요구 4 처리정지요구 2. 제 3 조 1 항에따른권리행사는회사에대해개인정보보호법시행규칙별지제 8 호서식에 따라서면, 전자우편, 모사전송 (FAX) 등을통하여하실수있으며회사는이에대해지체없이 조치합니다. 3. 정보주체가심각한개인정보의오류등에대한정정또는삭제를요구한경우

Jkafm093.hwp

핵 심 교 양 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 교양학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (

범정부서비스참조모형 2.0 (Service Reference Model 2.0)

[ 별지제3 호서식] ( 앞쪽) 2016년제2 차 ( 정기ㆍ임시) 노사협의회회의록 회의일시 ( 월) 10:00 ~ 11:30 회의장소본관 11층제2회의실 안건 1 임금피크대상자의명예퇴직허용및정년잔여기간산정기준변경 ㅇ임금피크제대상자근로조건악화및건강상

210 법학논고제 50 집 ( )

C O N T E N T S 목 차 요약 / 1 Ⅰ. 유럽온라인유통시장현황및진출확대방안 3 1. 유럽개관 Ⅱ. 동유럽국가별온라인유통시장현황및진출확대방안 폴란드 2. 헝가리 3. 체코 4. 오스트리아 5. 크로아티아 6.


2019 학년도교육대학원 신입생모집요강 부산대학교교육대학원

¿©¼ººÎÃÖÁ¾¼öÁ¤(0108).hwp

윈도우시스템프로그래밍

슬라이드 1


제 2 편채권총론 제1장채권의목적 제2장채권의효력 제3장채권의양도와채무인수 제4장채권의소멸 제5장수인의채권자및채무자

A 한국노동연구원 한국보건사회연구원 1998 년 한국사회과학자료원 2008년 2008년


목 차 Ⅰ. 사업개요 5 1. 사업배경및목적 5 2. 사업내용 8 Ⅱ. 국내목재산업트렌드분석및미래시장예측 9 1. 국내외산업동향 9 2. 국내목재산업트렌드분석및미래시장예측 목재제품의종류 국내목재산업현황 목재산업트렌드분석및미래시

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

<BBEAC0E7BAB8C7E8C1A6B5B52E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Transcription:

빅데이터활용을위한개인정보비식별화사례집

목차 Ⅰ 개요 1 배경 6 2 목적및활용방법 7 Ⅱ 빅데이터활용단계별개인정보비식별화처리 1 개요 10 2 ( 수집 저장단계 ) 개인정보점검및검토 11 3 ( 분석단계 ) 개인정보비식별화처리 14 4 ( 활용단계 ) 재식별여부등사후관리 20 5 개인정보처리관련유관제도 22 작성및문의미래창조과학부양현철사무관한국정보화진흥원신신애부장, 김진철수석, 정영수책임, 김근은수석케이론소프트김배현박사문의 (cckim@nia.or.kr, 02-2131-0216) 자문 Ⅲ 비식별화처리사례 1 국민건강주의예보서비스 28 2 보건의료빅데이터활용서비스 32 3 빅데이터기반의약품안전성조기경보서비스 36 4 점포평가서비스 40 5 빅데이터분석을통한심야버스노선정책지원 44 고환경변호사 ( 광장 ), 박영우팀장 (KISA), 최광선본부장 ( 솔트룩스 ), 최현길대표 ( 메인라인 ), 최재영교수 ( 성균관대 ), 홍순필교수 ( 성신여대 ), 장홍성팀장 (SKT), 최재원이사 ( 다음소프트 ), 조기행부장 ( 코리아크레딧뷰로 )

Ⅰ 개요 1_ 배경 2_ 목적 및 활용방법 04 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅰ 개요 _ 05

Ⅰ 개요 1 배경 빅데이터가 ICT 분야의 새로운 패러다임이자 신 성장동력으로 부상 - 스마트폰 SNS 사물인터넷(IoT) 확산 등에 따른 데이터 폭증이 배경 미국, 영국 등 해외에서는 빅데이터 활용을 위하여 개인정보 비식별화 지침* 을 마련하여 활용 중 * 미국의 개인정보 비식별화 가이드라인(FTC, 12.3), 의료정보 비식별화 가이드라인(OCR, 12.11), 영국의 개인정보 비식별화 규약(ICO, 12.12) Ⅰ 개요 2 목적 및 활용방법 (목적) 공공 민간에서 빅데이터 활용 시 참고할 수 있도록 개인정보 처리 와 관련한 조치사항과 주요 분야별 비식별화 사례를 제시 (활용방법) 빅데이터 활용 시, 데이터 수집 분석 이용 단계별 조치사항을 확인하고 개인정보 비식별화를 수행 - 비식별화 사례들을 우선 참조하고 개인 식별 요소의 제거 요령에 따라 개인정보 비식별화를 진행 - 국내는 안전한 빅데이터 활용을 위하여 개인정보보호 법령의 준수 요구 현행 개인정보보호 법령상에서 빅데이터 활용을 지원할 수 있도록 개인정 보를 비식별화 하여 활용한 다양한 사례의 발굴 필요 06 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅰ 개요 _ 07

Ⅰ Ⅱ 빅데이터 활용 단계별 개요 개인정보 비식별화 처리 1. 배경 2. 목적 및 활용방법 1_ 개요 2_ (수집 저장 단계) 개인정보 점검 및 검토 3_ (분석 단계) 개인정보 비식별화 처리 4_ (활용 단계) 재식별 여부 등 사후관리 5_ 개인정보 처리 관련 유관 제도

Ⅱ 빅데이터활용단계별개인정보비식별화처리 Ⅱ 빅데이터활용단계별개인정보비식별화처리 1 개요 2 < 수집 저장단계 > 개인정보점검및검토 1) 조치내용 ( 빅 ) 데이터분석전보유데이터중에개인정보포함여부확인 불포함시데이터분석실시 수집 저장단계 > 개인정보점검및검토 포함시 분석단계 > 비식별화처리 활용단계 > 사후관리 보유개인정보의수집 이용목적과분석하고자하는목적이일치하는지검토 일치하는경우분석 활용 개인정보포함여부확인 불포함시 분석목적을달성할수있는한도에서비식별화처리 재식별화여부점검 / 모니터링 개인정보를포함하거나보유개인정보의수집 이용목적과분석목적이불일치하는경우동의또는비식별화처리실시 빅데이터분석실시 분석결과새로운개인정보생성시개인정보보호관계법령에따라처리 ( 파기, 동의 법령근거등에따라이용또는비식별화조치후이용 ) 1 개인정보 란살아있는개인에관한정보로서성명, 주민등록번호및영상등을통하여개인을 알아볼수있는정보 ( 해당정보만으로는특정개인을알아볼수없더라도다른정보와쉽게결합 하여알아볼수있는것을포함 ) 를말한다. 2 분석 이란자료를다양한방법을통해가공함으로써새로운정보를생성하는일련의행위를말한다. 3 비식별화 란개인정보의일부또는전부를삭제하거나다른정보로대체함으로써다른정보와 쉽게결합하여도특정개인을식별하기어렵도록하는일련의조치를말한다. 4 재식별화 란비식별화된정보가다른정보와의연계 ( 매칭 ) 등을통해특정개인을알아볼수있는 개인정보가되는것을말한다. 추가비식별화등보완조치 개인정보란? ( 개념 ) 살아있는개인에관한정보로서성명, 주민등록번호및영상등을통하여개인을알아볼수있는정보 ( 해당정보만으로는특정개인을알아볼수없더라도다른정보와쉽게결합하여알아볼수있는것을포함 ) - ( 개인에관한정보 ) 법률상의개인정보는 자연인 ( 自然人 ) 에관한정보 만해당하며법인 ( 法人 ) 이나단체의정보는법률에따라보호되는개인정보의범위에서제외 1) 개인정보보호법 제15조, 제16조, 제17조, 제18조, 제20조, 제23조, 제101조 와안전행정부의 공공정보개방 공유에따른개인정보보호지침 의 III. 개인정보처리단계별준수사항참고 10 빅데이터활용시개인정보비식별화조치사례집 Ⅱ 빅데이터활용단계별개인정보비식별화처리 _ 11

- ( 생존하는개인에관한정보 ) 법률상의개인정보는 생존하는 자연인에관한정보만해당하므로이미사망하였거나민법에의한실종신고등관계법령에의해사망한것으로간주되는자에관한정보는법률상의개인정보가아님 - ( 생존하는특정개인을알아볼수있는정보 ) 법률상의개인정보에해당되기위해서는그정보로 특정개인을알아볼 ( 식별할 ) 수있어야하며, 해당정보만으로는특정개인을식별할수없다하더라도 다른정보와쉽게결합 하여식별가능하다면개인정보에해당 개인정보의예시 일반정보 : 이름, 전화번호, 주소, 생년월일, 출생지, 성별등 고유식별정보 : 주민등록번호, 운전면허번호, 여권번호, 외국인등록번호 민감정보 : 사상 신념, 노동조합 정당의가입 탈퇴, 정치적견해, 건강, 성생활등에관한정보, 유전정보, 범죄경력정보 보유개인정보의수집 이용목적이란? 빅데이터분석전보유데이터에개인정보가포함되어있는경우정보주체의동의가있거나법률상구체적근거가있을때에만수집 이용목적범위내에서분석가능. 단, 정보주체의동의가없거나법률상구체적근거가없는경우비식별화조치필요 ( 정보주체로부터직접수집한경우 ) 수집당시사용된근거법령, 동의내용에명시되어있는수집 이용목적 - 단, 고유식별정보와민감정보는법령상구체적근거가있거나정보주체의별도동의를얻어야수집ㆍ이용가능 ( 제3자로부터제공받은경우 ) 제3자로부터제공받을당시사용된근거법령또는동의내용에명시되어있는개인정보를제공받은자의개인정보이용목적 - 개인정보의제공은제 3 자에게그개인정보에대한지배관리권등이 이전되는결과를초래하므로개인정보수집 이용관련규정보다더욱 엄격한요건이적용 ( 인터넷등공개된출처에서수집한경우 ) 공개목적이명확한경우에는해당정보의공개목적에따라분석가능 * 예시 : 정보주체가별도이용목적을제한하여공개한경우공개한목적내에서분석가능 - 공개목적이불명확한경우 : 공개된정황에비추어사회통념에위배되지않는범위 * 단, 비식별화하여수집 이용하는것을우선으로하여야함 12 빅데이터활용시개인정보비식별화조치사례집 Ⅱ 빅데이터활용단계별개인정보비식별화처리 _ 13

3 Ⅱ 빅데이터활용단계별개인정보비식별화처리 < 분석단계 > 개인정보비식별화처리 2) 삭제후남아있는정보의추가가공 ( 삭제 변환등 ) 등을통해제공받는자가보유한정보및인터넷 언론등에공개되어있는정보와쉽게결합하여개인을식별할수없도록조치 - 전문지식을 * 보유한다양한분야의전문가들로하여금간접개인식별정보및기타데이터를통한재식별가능성검토할것을권고 * 해당분야의전문가로서재식별가능여부에대해합리적인검토가가능한전문가도포함 조치내용 보유개인정보의분석을위한동의등이곤란한경우 분석목적을달성할수있는한도에서비식별화처리후분석 비식별화란? 빅데이터분석등을위하여비식별화된정보를활용하는경우에는접근통제, 관련정보의추가이용제한등비식별화처리전에보유한개인관련정보를활용 연계하여개인을식별할수없도록내부규정등을보완하여야함 * 비식별화된정보를비식별화처리전에습득한개인관련정보와매칭하여사용하는경우개인정보의목적외이용에해당될수있음 정보에포함되어있는개인정보의일부또는전부를삭제하거나다른정보로대체함으로써다른정보와결합하여도특정개인을식별하기어렵도록하는일련의조치 - 원칙적으로그자체로개인을식별할수있는정보는삭제 ( 또는개인을식별할수있는정보의삭제처리대신다른정보로대체 ) 그자체로개인을식별할수있는정보예시 1 쉽게개인을식별할수있는정보 ( 이름, 전화번호, 주소, 생년월일, 사진등 ) 2 고유식별정보 ( 주민등록번호, 운전면허번호, 외국인등록번호, 여권번호 ) 3 생체정보 ( 지문, 홍채, DNA 정보등 ) 4 기관, 단체등의이용자계정 ( 등록번호, 계좌번호, 이메일주소등 ) 2) 안전행정부의 공공정보개방 공유에따른개인정보보호지침 의 IV. 비식별화조치방법참고 14 빅데이터활용시개인정보비식별화조치사례집 Ⅱ 빅데이터활용단계별개인정보비식별화처리 _ 15

개인식별요소제거요령 ( 예시 ) 처리기법 주요내용 참고 1 개인식별요소제거를위한참고알고리즘 1 가명처리 (pseudonymisation) 2 총계처리 (Aggregation) 3 데이터값삭제 (Data Reduction) 4 범주화 (Data Suppression) 5 데이터마스킹 (data masking) 개인정보중주요식별요소를다른값으로대체하여개인식별을곤란하게함 ( 예 ) 홍길동, 35세, 서울거주, 한국대재학 임꺽정, 30대서울거주, 국제대재학 * 다른값으로대체하는일정한규칙이노출되어역으로개인을쉽게식별할수있어서는안된다. 데이터의총합값을보임으로서개별데이터의값을보이지않도록함 ( 예 ) 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm 물리학과학생키합 : 660cm, 평균키 165cm * 단, 특정속성을지닌개인으로구성된단체의속성정보를공개하는것은그집단에속한개인의정보를공개하는것과마찬가지결과가나타나므로그러한정보는비식별화처리로볼수없음 ( 예 > 에이즈환자집단임을공개하면서특정인물 갑 이그집단에속함을알수있도록표시하는것은 갑 이에이즈환자임을공개하는것과마찬가지임 ) 데이터공유 개방목적에따라데이터세트에구성된값중에필요없는값또는개인식별에중요한값을삭제 ( 예 ) 홍길동, 35세, 서울거주, 한국대졸업 35세, 서울거주 ( 예 ) 주민등록번호 901206-1234567 90년대생, 남자 ( 예 ) 개인과관련된날짜정보 ( 자격취득일자, 합격일등 ) 는연단위로처리 ( 예 ) 연예인 정치인등의가족정보 ( 관계정보 ), 판례및보도등에따라공개되어있는사건과관련되어있음을알수있는정보데이터의값을범주의값으로변환하여명확한값을감춤 ( 예 ) 홍길동, 35세 홍씨, 30-40세공개된정보등과결합하여개인을식별하는데기여할확률이높은주요개인식별자가보이지않도록처리하여개인을식별하지못하도록함 ( 예 ) 홍길동, 35세, 서울거주, 한국대재학 홍 **, 35세, 서울거주, ** 대학재학 * 남아있는정보그자체로개인을식별할수없어야하며인터넷등에공개되어있는정보등과결합하였을경우에도개인을식별할수없어야한다. 가명처리 (Pseudonymisation) 시계열데이터마이닝 (k-익명화) 동일한속성값을가지는데이터를 k개이상으로유지하여데이터를공개하는방법으로서지정된속성이가질수있는값을 k개이상으로유지하여프라이버시누출을방지 부분그래프익명화소셜네트워크데이터의구조적특성중하나인부분그래프에의한프라이버시노출을방지하기위한익명화기법으로익명화를위해서그래프수정을통해특정부분그래프가전체그래프에서 k개이상존재하게만드는기법 차수익명화 k-차수익명화를만족하는그래프는각정점에대해해당정점과같은차수를가진정점이최소 k-1개이상존재하는그래프로원본그래프를 k-차수익명화그래프로만들기위해간선을추가 / 삭제함 부분그래프 + 차수익명화부분그래프와차수를동시에배경지식으로가지고있을때, 프라이버시노출을막기위한익명화기법 매크로기법- 셀값감추기방법 (suppression) 민감식별항목의셀값노출방지를위한대표적인방법으로민감한셀의행과열의주변값도동시에감추는기법 (suppression) 이다. 여기서부수적으로감추어지는셀을보조셀감추기 (complementary suppression) 라하며, 이셀은인위적으로선정 휴리스틱익명화 (heuristic anonymization) 준식별자에해당하는값들을몇가지정해진규칙혹은사람의판단에따라가공하여자세한개인정보를숨기는방법 16 빅데이터활용시개인정보비식별화조치사례집 Ⅱ 빅데이터활용단계별개인정보비식별화처리 _ 17

교환 (swapping) 방법추출된표본레코드에대하여이루어지며, 미리정해진변수 ( 항목 ) 들의집합에대하여데이터베이스의레코드와연계하여교환총계처리 (Aggregation) 프라이버시모델알고리즘을통해수학적으로프라이버시안정성을보장하도록데이터를가공하는방법으로 k-anonymity 등과같은것들이여기에속함. 이방법들은단순히프라이버시를만족시켜줄뿐만아니라데이터의변형을최소화하기때문에데이터의유용성면에서도큰피해 (penalty) 가발생하지않음 마이크로기법표본에대한식별값과타표본의식별값의합으로기존식별값에대체하여식별정보를희석하는기법. 예를들면 Alpha 과 Gamma 를 AlpGam 라는새로운표본값을만드는과정. 이는또한세분 (Depth) 의정도를조정할수도있음. 표본, 식별자 (identifier) 제거, 지역세분화정도제한방법등이있음데이터값삭제 (Data Reduction) 식별자 (identifier) 제거원시데이터에서개인식별항목을단순제거하는방법 준식별자제거를통한단순익명화단순익명화방법은식별자뿐만아니라잠재적으로개인을식별할수있는준식별자를모두제거함으로써프라이버시침해위험을줄이는방법범주화 (Data Suppression) 범위방법 (data range) 개인식별정보에대한수치데이터를임의의수기준의범위 (range) 로설정하는기법 랜덤올림방법 (random rounding) 개인식별정보에대한수치데이터를임의의수기준으로올림 (round up) 또는절사 (round down) 하는기법 제어올림방법 (controlled rounding) 랜덤올림방법에서행과열의합이일치하지않는단점을해결하기위해행과열이맞지않는것을제어하여일치시키는기법 정점 / 간선클러스터링기법 (Vertex/edge clustering) 간선추가 / 삭제기법과다른접근방식의간선클러스터링기법을사용하여간선에포함된내용 (label) 정보를익명화하고, 정점들을클러스터링하는기법은간선의추가 / 삭제없이그래프를익명화하는기법 세분정도제한방법 (subdivide level controlling) 개인정보중단일항목으로개인식별이될수있는항목을민감 (sensitive) 항목또는높은시각 (high visibility) 항목이라한다. 이와같은민감한항목은상한 (top), 하한 (bottom) 코딩, 구간재코딩 (recoding into intervals) 방법을이용하여정보노출위험을줄일수있는기법데이터마스킹 (Data masking) 임의잡음추가 (adding random noise) 소득과같은민감개인식별항목에대한새로운익명화방법으로임의의숫자, 즉임의잡음추가 (adding random noise) 를더하거나곱하여식별정보노출을방지하는기법 공백 (blank) 과대체 (impute) 공백과대체 (blank and impute) 방법은마이크로데이터파일로부터소수의레코드를선택한후, 선택된항목을공백으로바꾼후에대체법 (imputation) 을적용하여공백부분을채우는기법 18 빅데이터활용시개인정보비식별화조치사례집 Ⅱ 빅데이터활용단계별개인정보비식별화처리 _ 19

4 Ⅱ 빅데이터활용단계별개인정보비식별화처리 < 활용단계 > 재식별여부등사후관리 참고 : 재식별가능성이높은정보 ( 예시 ) 소수집단에관한정보 (90대이상연령자, 도서산간거주자, 희귀질병감염자정보등 ) 연속하여공개되는패널데이터등 ( 분기별공개하는환자진료및처방에따른회복관련정보등 ) 링크정보를가지고있는집단에게정보를공유 개방하는경우 ( 자동차번호별소유자를알고있는처리자에게자동차번호를제공하는경우등 ) 집단과그구성원이알려져있는경우로서동일속성을가진집단에관한정보 조치내용 빅데이터분석완료후 분석에사용한비식별화처리자료가기술발전또는관련정보의추가공개등의환경변화에따라재식별화가가능한지정기점검 비식별화자료가불필요한경우파기 ( 사후검토의개념 ) 시간의경과에따라데이터분석기술의진화및관련공개정보가누적되어재식별위험이증가할수있으므로비식별화기법및재식별가능성에관한주기적모니터링실시 - 재식별이되는경우추가비식별화등의보완조치및향후의비식별화처리기법개선시반영 생성되거나재식별화된개인정보의관리철저 - 빅데이터분석등의과정에서불필요한개인정보가새로생성되거나비식별화처리된정보가재식별화된경우에는지체없이 ( 통상 5일이내 ) 그개인정보를삭제하거나비식별화처리 - 비식별화자료가불필요하거나더이상활용도가없는데이터는폐기 20 빅데이터활용시개인정보비식별화조치사례집 Ⅱ 빅데이터활용단계별개인정보비식별화처리 _ 21

5 Ⅱ 빅데이터활용단계별개인정보비식별화처리 개인정보처리관련유관제도 - 의료관련민감한개인정보는 HHS( 보건사회부 ) 가제시한별도가이드라인에서구체적으로비식별화요구 비식별화가필요한 18개개인식별자정의 : 이름, 주소, 날짜정보 ( 생일, 자격취득일등 ), 전화번호, 팩스번호, 이메일주소, 사회보장번호, 의료기록번호, 건강보험번호, IP주소, 생체정보, 얼굴사진등 해외현황 미국, 영국은개인정보비식별화지침을마련하여업계에보다명확한개인정보보호기준제시 기본방향 : 비식별개인정보처리시개인식별성항목을자율규제원칙 3) 하에재식별방지를위한사후관리강조 미국의 FTC( 개인정보의비식별화가이드라인, 12.3) 는특정한소비자, 컴퓨터및기타개인을식별할수있는장치들과연관될수있는것 (Reasonable linkability) 을보호대상으로규정 영국의 IOC( 개인정보식별화규약, 12.12) 도미국과마찬가지로개인식별항목을업계에서자율판단하도록규정 1 개인정보비식별화를위한데이터마스킹, Pseudonymisation, Aggregation, Derived data items&banding 등방법제시 2 재식별에대해서는최소한의검증 ( motivated intruder test')* 를거친후비식별데이터의사용제한및접근통제를통해철저한사후관리를강조 Motivated intruder test : 상대적으로비전문가가재식별에성공할수있는지판별하여식별위험의최소한의기준을정함 3 비식별데이터의민감도에따라재식별위험도가다르므로데이터에따라차등의공개옵션을고려하고민감한데이터공개시사용제한및접근통제등 safeguard 마련권고 1 특정개인을추론할수있는데이터의삭제, 수정, noise 추가, 통계적샘플링, 총계처리등적절한방법을사용하여비식별조치하고, 2 개인정보주체에게재식별하지않을것을공개적으로약속하도록하고제3자에게비식별화데이터제공시에도계약상에재식별방지를요구하도록권고 3) 사업자가분석목적에따라서개인정보에대한비식별화항목및범위를결정하되재식별에대한책 임을가짐 22 빅데이터활용시개인정보비식별화조치사례집 Ⅱ 빅데이터활용단계별개인정보비식별화처리 _ 23

국내 현황 국내의 경우( 공공정보 개방 공유에 따른 개인정보 보호 지침, 13.9), 공공부문에 적용되는 지침으로 개인식별 가능한 요소를 정하여 삭제하고 주기적인 모니터링으로 재식별 가능성을 완화 데이터 수집 분석 : 법령 근거 또는 정보주체 동의에 의해 수집 이용하고, 개인 식별 가능한 정보는 삭제 또는 비식별화 후 분석(빅데이터 등) - 비식별화 해야 할 개인정보의 범위는 그 자체로 개인식별이 가능한 정보 를 열거하여 우선 삭제 또는 비식별화 권고 그 자체로 개인을 식별할 수 있는 정보 : ① 쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진 등), ② 고유식별정보(주민등록번호, 운전면허번호 등), ③ 생체정보(지문, 홍채, DNA 정보 등), ④ 기관, 단체 등의 이용자 계정(등록번호, 계좌번호, 이메일 주소 등) - 재식별의 경우, 데이터를 제공받은 자가 보유하고 있거나 공개되어 있는 정보와 결합하였을 때 재식별 가능성에 대해 사후 모니터링 수행 권고 <국가별 개인정보 수집시 고지의무 사항> 한국 EU 미국. 수집이용 목적. 처리자와 대리인의 신원. 포괄적 고지의무. 수집하는 개인정보 항목. 처리목적 규정 없음. 보유 및 이용기간. 수령인 또는 그범주. 동의거부권 및 동의 (제공시) 거부시 불이익. 동의의 강제성 여부 일본. 이용목적 및 거부시 불이익. 정보접근권 및 정정 요구권 24 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 _ 25

Ⅲ 비식별화 처리 사례 1_ 국민건강 주의 예보 서비스 2_ 보건의료 빅데이터 활용 서비스 3_ 빅데이터 기반 의약품 안전성 조기경보 서비스 4_ 점포 평가 서비스 5_ 빅데이터 분석을 통한 심야버스 노선정책 지원

1 Ⅲ 비식별화처리사례 국민건강주의예보서비스 개발내용 활용데이터 - 국민건강보험공단 : 국민건강정보 ( 진료내역데이터 ) - 다음소프트 : SNS 데이터 ( 트위터, 카페 ) 시범사업개요 주관 / 참여기관 ( 주관기관 ) 국민건강보험공단 ( 참여기관 ) 다음소프트 주요내용 - 주요유행성질병에대한건강보험정보와소셜미디어정보를융합하여 질병예측모델개발 - 주요유행성질병에대한지역별, 연령별진료동향, 위험동향, 소셜동향 기관 ( 국민건강정보 ) 민간 (SNS 데이터 ) 등종합정보제공 위 예 시스 정형데이터연계 / 정확화 정형데이터동향분석 비정형데이터동향분석 정형데이터분석 / 마이닝 질병위험예측분석 국민 주의예보서비스 주요질병위험모니터링 지역별 / 연령별질병위험분석 조 감위 도위 (3 단계 ) 지 별위 도 분석 질병관련진료동향분석 질병관련소 동향분석 3 가추세 분석기법 - 비정형빅데이터분석 : 자연어처리기술을이용한텍스트마이닝기법사용 - 정형데이터분석 : 통계분석, 기계학습기술을이용한데이터마이닝기법사용 - 분석결과시각화 : 자바스크립트기반시각화툴을이용하여웹상에구현 텍스트마이닝을위한지식구축인력과예측모델튜닝을위한통계전문가운용 서비스내용 - 주요유행성질병의위험도와동향을한눈에파악할수있는대시보드서비스제공 - 지역별주요유행성질병위험도정보, 지역내질병관련진료동향및연령별진료현황정보제공 - 주요유행성질병진료현황, 과거진료통계, 질병동향및고위험지역정보제공 - 민간소셜데이터에발현된주요유행성질병관련키워드의동향, 연관키워드 / 문서, 질병에대한관심도, 인식상태, 주요내용을직관적으로파악할수있게제공 비정형데이터수집 / 필터링 비정형데이터분석 / 마이닝 연 별 1 감소추세 기대효과 - 주요감염병유행을예측하여관련기관과국민개개인이유행에대비하 고예방할수있도록지원함으로써국민건강증진및사회적편익극대화 28 빅데이터활용시개인정보비식별화조치사례집 Ⅲ 비식별화처리사례 _ 29

비식별화대상및방법 구체적사례 비식별화조치필요정보 - 개인정보 : 주민등록번호, 연령, 주소, 요양기관기호 - 사생활정보 : 소득, 민감상병 비식별화를위한처리기법 처리기법 가명처리 총계처리 삭제 범주화 마스킹 기타 적용여부 국민건강보험공단에서수집 분석의대상이되는정보는개인정보및민감한사생활정보를포함하고있는경우가많아고의적 우발적개인정보유출을방지하기위한방안이필요했다. 이에수집 분석대상에포함된개인정보를텍스트마이닝, 패턴매칭기술을통해검증및대체문자로치환하고있다. 계좌번호, 성명, 이메일, 전화번호, 주민등록번호, 주소, 휴대전화번호등의개인식별정보를탐지및치환하며탐지가능한개인식별정보를추가 수정 삭제할수있는기능을제공한다. 적용예시 1 가명처리 : ( 식별번호대체 ) - 요양기관기호 (8자리) 요양기관대체번호 (6자리) 예 ) 31100678( 일산병원 ) 123456 2 삭제 : ( 전부또는일부삭제 ) - 주민등록번호 (13자리) 삭제예 ) 110011-1479712 - 주소 16개시도예 ) 11110( 서울특별시종로구삼봉로 43) 11( 서울특별시 ) 3 범주화 : ( 그룹화 ) - 연령 (0 80세이상) 18개층 (5세단위구간 ) 예 ) 53세 12(50~54세구간 ) - 소득 보험료분위 ( 전체대상자 ( 세대 ) 를 20분위균등분할 ) 예 ) 보험료 103,530원 14분위 4 마스킹 : ( 특수문자대체 ) - 공단에서규정한민감상병의주상병, 부상병코드 1) 상병기호의대분류만표시 : 예 ) A**** (A : 특정감염및기생충성질환, 콜레라 ) 2) 전체상병기호표시하지않음 : 예 ) **** (D : 남성생식기관의양성신생물 ) 30 빅데이터활용시개인정보비식별화조치사례집 Ⅲ 비식별화처리사례 _ 31

2 Ⅲ 비식별화처리사례 보건의료빅데이터활용서비스 개발내용 활용데이터 - 검색데이터, SNS 데이터, 입 / 퇴원기록, 병원경영자료, 실시간환자심전도 / 심박수, 진료데이터, 국과수마약류관련 DB, SNS 데이터 시범사업개요 주관 / 참여기관 ( 주관기관 ) 서울아산병원 ( 참여기관 ) 한국전자통신연구원, 한국마이크로소프트 ( 유 ), ( 주 ) 테크아이, 주요내용 켐아이넷 ( 주 ), 한국쌔스소프트웨어 ( 유 ) - 보건의료질향상및비용절감을위한보건의료빅데이터활용서비스 개발 Source ayer Data ub ayera Analytics ayer Service ayer User ayer 내부정보 OCS EMR PACS ERP MIS 내부정보 Porta (Daum) SNS (Twitter) 질병관리본부 국과수 Data 저장 / 처리영역 별 data 저장 시나리 / 를관리 adoop / Mapreduce 적용고려 Data 관리영역 Metadata 관리 데이터품질관리 향상관리 ( 모델링결과포함 ) 데이터마이닝 / 파 비정형분석 정형분석 실시간통계 모니터링 예측모델링 Performance 관리 인플루 자유행예측서비스 심실부정 예측서비스 입원병상배정최적화서비스 신종마약류인지 / 감시서비스 일반인터넷사용자 환자 데이터분석가 / 기관 스 어제공자 / 기관 공공기관 분석기법 - 비정형 / 정형빅데이터분석 : 데이터크롤링 / 필터링기법, 자연어처리기법활용한텍스트마이닝기법, 통계분석및기계학습기술을이용한데이터마이닝및모델링기법, 패턴분석 / 비교및인공신경회로망알고리즘사용 - 분석결과시각화 : MS Windows Azure 활용 서비스내용 - 인플루엔자현황및예측동향웹서비스형태로제공 - 입원병상배정최적화모델병원내시스템에구축 / 활용 - 심실부정맥예측모델개발후대시보드형태로병원내시스템에구축 / 활용 - 마약류인지현황제공, 위험등급별분류후관련정보제공, 출현현황뉴스레터제공 기대효과 - 공중보건분야 : 전염병발생및불법약물전파와같은긴박한순간에미리대비하고, 빠른의사결정을도움으로써의료대응와관련한사회적비용대폭절감 32 빅데이터활용시개인정보비식별화조치사례집 Ⅲ 비식별화처리사례 _ 33

비식별화대상및방법 비식별화조치필요정보 - 개인정보 : 성명, 시 / 군 / 구보다작은단위의지역정보 ( 읍 / 면 / 동이하상세주소 ), 전화번호 ( 자택, 직장, 이동전화, Fax 모두포함 ), 이메일주소, 주민등록번호, 외국인등록번호, 여권번호, 등록번호, 건강보험증번호, 은행계좌번호, 자격 / 면허번호, 차량번호, 바이오정보 ( 지문, 얼굴, 홍체, 정맥, 음성, 필적등 ), 유전자정보, 홈페이지회원 ID, 사번, 비밀번호 비식별화를위한처리기법 처리기법가명처리총계처리삭제범주화마스킹기타 적용예시 1 가명처리 : ( 등록번호대체 ) - 환자등록번호 (8자리) 임의로생성된번호 (8자리) 예 ) 11111111 92429988 2 삭제 : ( 테이블컬럼 ) - 성명 삭제예 ) 홍길동 - 주소 삭제예 ) 서울특별시송파구풍납2동 388-1 3 마스킹 : ( 특수문자대체 ) - 주소예 ) 서울특별시송파구풍납2동 388-1 ***** *** **** ***** - 각종연락처예 ) 전화 : 010-111-1111 전화 : ***-***-**** 적용여부 구체적사례 1 본기관에서는개인식별정보를내부적으로정의하기위해 HIPAA, ISO/ TS 25237:2008을검토하여최종적으로 20가지개인식별정보를정의하였고, 이에대해익명화를실시함 2 의료정보는영어와한글이혼용되고있으며, 다양한약어와전문용어들이많기때문에일반적인자연언어처리방법을적용하기어려움. 본기관에서는구조화된정보는테이블내컬럼정보를삭제하고, 비구조화된정보는 regular expression rule을작성하여 text 정보중개인식별정보들이있으면 masking 처리함 3 더불어, 조합을통해개인식별이가능한 quasi identifier도방지하기위해서 5명미만의개인의료정보는제공하지않음 34 빅데이터활용시개인정보비식별화조치사례집 Ⅲ 비식별화처리사례 _ 35

3 Ⅲ 비식별화처리사례 빅데이터기반의약품안전성조기경보서비스 개발내용 활용데이터 - 와이즈넛 : SNS ( 블로그, 지식인, 카페, 트위터 ), 뉴스 ( 웹 ), 문헌 ( 웹 ) 데이터 - 아주대학교병원 : EMR( 전자의무기록 ) 시범사업개요 주관 / 참여기관 ( 주관기관 ) 에스지에이 ( 주 ) ( 참여기관 ) 한국의약품안전관리원, ( 주 ) 와이즈넛 주요내용 - 빅데이터에서의약품부작용및오남용사례를수집및분석 - 의약품부작용가능성을병원의무정보를기반으로확인하여조기인지 - 의약품오남용사례를파악하여조기대응을위한정보제공 분석기법 - 비정형빅데이터분석 : 자연어처리기술을이용한텍스트마이닝기법사용 - 정형데이터분석 : 통계분석과 OLAP 기술을이용한데이터마이닝기법사용 - 부작용검증분석 : 코호트기반연구방법, 환자 / 대조군비교알고리즘사용 - 분석결과시각화 : Spotfire를이용한웹기반의 Drill-Down 분석화면제공 adoop ig Data 수집 / 저장분석조기경보 분석마트 ( 부작용 / 남용 ) 실마리정보 저장 Te t Mining 키 드분석 상관분석 의무정보 (EMR) ADR 분석 진 진 조기경보정보 모니터링 서버 보고서생성 시각화 (Spotfire) 분석도구 (R) 일반이용자 전문이용자 서비스내용 - 의약품부작용검증을위해추출된실마리정보제공 - 의약품부작용에대한검증결과제공 - 의약품오남용사례및분석결과제공 - 오남용사례에대한지역별, 성별등의다면분석결과를시각적으로제공 - 빅데이터에서수집된정보와시스템결과를상세분석할수있는전문가분석환경제공 기대효과 - 빅데이터를활용, 국민복지와건강을위협하는의약품부작용및오남용을조기에발견하여, 선제적대응을통한 안전한사회 구현에기여 36 빅데이터활용시개인정보비식별화조치사례집 Ⅲ 비식별화처리사례 _ 37

비식별화대상및방법 구체적사례 비식별화조치필요정보 - 개인정보 : 나이, 생년월일 - 사생활정보 : 아이디, 진단명, 약처방날짜, 진단검사날짜, 검사수행날짜 비식별화를위한처리기법 처리기법 가명처리 총계처리 삭제 범주화 마스킹 기타 적용여부 에스지에이에서수집 분석의대상이되는정보는개인정보및민감한사생활정보를포함하고있는자료가많아고의적 우발적인개인정보유출을방지하기위한방안이필요하다. 이에수집 분석대상에포함된개인정보를랜덤키생성, 패턴매칭기술을통해대체문자로치환및쉬프트처리, 민감데이터삭제처리를하고있다. 적용예시 1 가명처리 : ( 식별번호대체 ) - 환자아이디를고유아이디로생성하여문자형식으로저장하여개인식별을곤란하게함예 ) 환자아이디 (6자리) -> 고유아이디생성 (36자리) 0001012 -> E214F58E-9E3F-44B7-B3A3-9854BF439216 - 날짜데이터를환자별랜덤숫자 90 ~ 90 사이의랜덤숫자를발생하여식별이곤란하게함예 ) 날짜 : 랜덤숫자처리 20101010 -> 20110118 2 삭제 : ( 민감데이터삭제 ) - 환자의진단명중민감한정보를삭제하여사생활정보의식별을곤란하게함성명, 에이즈감염, 비정상적인염색체이상, 낙태등삭제 ( 민감데이터삭제 ) 예 ) 진단명 : AIDS -> 해당자료삭제진단코드 : B20* -> B20으로시작하는코드삭제 3 범주화 : ( 그룹화 ) - 80세이상나이를 80으로고정하여명확한나이를감춤. 예 ) 나이 : 80이상 -> 80으로고정 86세 -> 80세 38 빅데이터활용시개인정보비식별화조치사례집 Ⅲ 비식별화처리사례 _ 39

4 점포평가서비스 시범사업개요 Ⅲ 비식별화처리사례 개발내용 활용데이터 - 비씨카드 : 월 2억건씩누적되는카드거래데이터중서울지역 2억건 (3년치) - 한국감정원 : 부동산임대시세및건축물대장데이터 - 소상공인진흥원 : 월 300만건씩누적되는소상공인상가정보 ( 점포명, 업종, 주소, 전화번호 ) 총 1억건 (3년치) - 인문사회지리데이터 : 인구, 가구세대, 36만블럭 주관 / 참여기관 ( 주관기관 ) 오픈메이트 ( 참여기관 ) 비씨카드, 한국감정원 주요내용 - 약 1 억건의상가업소데이터, 6 억건이상의카드사용트래픽데이터기반 분석 - 동일지점의최근 3 년간점포개폐업이력추적 - 점포별추정매출 / 입지평가 / 상권평가 서비스이용대 과거점포이력분석 점포주소 상권 과거 분석 상권분석및평가 IS 기반분석 예비 업자 점포중개인 ( 부동산 ) 업 트 정부정책수 자 Input ( 가 점, 거, 회원 ) 업종추천 분석정보 서비스 성 매출예측 모형, 지수 한국 정원 ( 부동산 ) 임대시세추정 미래예 EB Service 운영 자비용분석 빅데이터분석 소상공인진 원 ( 상가 ) 수익예측 분석기법 - 텍스트마이닝, 지오코딩 : 월단위로단절된업소이력을추적 - 통계분석 : 다중회기분석, huff확률모형, 상권 / 업종평가모형, 입지진단모형 - 공간분석 : 공간가중회기, 보간법 서비스내용 - 점포별수년간의개폐업이력을추적하고, 업종변화별로해당점포의매출추정 - 창업자가어떤업종으로창업하면가장높은매출을낼수있을지, 어떤업종일때영업기간이짧고폐업율이높았는지, 점포의입지는어떤수준인지등창업결정을위한지표정보제공 - 임대시세, 추정매출, 점포진단평점등입지상권분석에필요한기초정보제공 기대효과 - 입지특성에맞지않는부적절한업종의개업을예방하여창업실패율감소 - 경험적, 계약우선의점포거래관행에서데이터를기반한과학적인창업컨설팅유도 40 빅데이터활용시개인정보비식별화조치사례집 Ⅲ 비식별화처리사례 _ 41

비식별화대상및방법 구체적사례 비식별화조치필요정보 - 개인정보 : 개별상가업소매출 비식별화를위한처리기법 처리기법 가명처리 총계처리 삭제 범주화 마스킹 기타 적용여부 상가업소의매출정보는창업자에게매우중요한정보이나개별업소의매출을개인정보및세원노출에대한법적규제로인해제공되지못하고있음. 이에대해카드사에서는개별업소에대한매출을보정한 ( 현금비율, 타사카드비율반영 ) 추정값으로산정한뒤지역별, 업종별유형화, 업종그루핑 ( 업종분류 ), 지역단위별 5개단위이하업소매출제거등을통해통계화한뒤정보서비스로제공하고있음 적용예시 1 가명처리 : ( 식별번호대체 ) 업소명 -> 업소ID 김가네김밥 : 업소명 -> 업소ID B3231123_23 2 총계처리 : ( 총합집계 ) 추정매출액 = 원시매출액 * 추정현금비율 * 카드사시장점유비 (MS) 지역별업종추정평균매출액 = ( 업소별추정매출액 )/ 업소수매출범위로환산 : 5314000원 추정매출 5,000천원 6,000천원 (3. 범주 / 범위화기법과혼용 ) 3 범주화 : ( 그룹핑 ) 300만개업소 -> 1,500개업종으로그루핑할수있도록유형화김가네깁밥 -> 음식 > 분식김밥천국 -> 음식 > 분식 4 마스킹 : ( 특수문자대체 ) 업소전화번호가핸드폰번호일경우마스킹처리 010-4333-1234 -> 010-****-**** 42 빅데이터활용시개인정보비식별화조치사례집 Ⅲ 비식별화처리사례 _ 43

5 Ⅲ 비식별화처리사례 빅데이터분석을통한심야버스노선정책지원 개발내용 활용데이터 - KT : CDR(call detail record) 데이터 유동인구파악고객통계데이터 목적지및이용대상파악 - 서울특별시 : 공공데이터 최적정류소위치선정 시범사업개요 주관 / 참여기관 ( 주관기관 ) KT ( 참여기관 ) 서울특별시 주요내용 - KT: 서울시가보유하고있는데이터와분석기술을활용, 심야시간대서 울시민들이활용하게될심야버스노선수립지원 유 인 버스 선, 정 장 도로정보 빅데이터시범 D inux Ent orade 가 화서버 서버 스 리지 ase ap ( 서 시지도 ) 빅데이터시범 AP indows 서버 Arc S SP/ D 분석 과 Visualization 분석기법 - 블록단위공간분석 : 유동인구파악 일정크기분할, 상권 구수기반분할 - 거리기반알고리즘적용 정류소와의거리, 유동인구빈도별가중치부여를통해통행량높은정류장추적 서비스내용 - KT의위치정보기반유동인구데이터와서울시공공교통데이터를융합하여시민들에게최적의심야버스혜택제공 1일 1억건이상의 CDR데이터를통계분석하여심야시간 (24:00-05:00) 서울시유동인구가많은지역분석 서울시가보유하고있는버스정류장위치, 도로정보등교통정보데이터활용하여버스경로선정 기대효과 - 효율적노선서비스의제공으로서울시민들에게심야최적의교통서비스제공 - 상대적으로소득이낮은심야경제활동인구에게경제적으로기여 - 범죄에취약한심야및새벽시간대심야버스운행으로범죄예방효과 44 빅데이터활용시개인정보비식별화조치사례집 Ⅲ 비식별화처리사례 _ 45

비식별화대상및방법 비식별화조치필요정보 - 개인정보 : 연령, 청구지주소 비식별화를위한처리기법 처리기법가명처리총계처리삭제범주화마스킹기타 적용여부 구체적사례 KT 와서울시의사업에서고객의개인정보라고할수있는데이터는 KT 내부에서제거한후에그외의데이터를분석에활용 적용예시 1 삭제 : ( 일부삭제 ) - 개인정보 ( 성명등 ) 삭제예 ) 홍길동 2 범주화 : ( 헥사곤형태가공및통계처리 ) - 개인정보에가까운데이터인연령대같은경우특정지역 (1km 핵사곤형태 ) 으로가공및통계처리함, 개인을식별하는분석이아니기때문에통계처리로충분함예 ) 핵사곤 A : 연령 10대 1000명연령 20대 500명연령 30대 2000명... - 청구지주소의경우우편번호단위를핵사곤에매핑후지역별통계로보기때문에개인의집위치를파악하지않음예 ) 핵사곤 A 에속하는우편번호 : 690-022 120-200 => 200명 200-120 46 빅데이터활용시개인정보비식별화조치사례집

빅데이터활용을위한개인정보비식별화사례집 발행일 2014 년 5 월 1 일 발행처 427-140 경기도과천시관문로 47, 4 동 www.msip.go.kr 무교청사 : 100-775 서울특별시중구청계천로 ( 무교동 77번지 ) 14 NIA빌딩등촌청사 : 157-715 서울특별시강서구공항대로 489 ( 등촌동 ) www.nia.or.kr 편집 디자인 ( 주 ) 아이디어스토리지