목 차 Ⅰ 개요 1 배경 6 2 목적 및 활용방법 7 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 1 개요 10 2 (수집 저장 단계) 개인정보 점검 및 검토 11 3 (분석 단계) 개인정보 비식별화 처리 14 4 (활용 단계) 재식별 여부 등 사후관리 20 5 개



Similar documents
비식별화 기술 활용 안내서-최종수정.indd

목차 Ⅰ 개요 1 배경 6 2 목적및활용방법 7 Ⅱ 빅데이터활용단계별개인정보비식별화처리 1 개요 10 2 ( 수집 저장단계 ) 개인정보점검및검토 11 3 ( 분석단계 ) 개인정보비식별화처리 14 4 ( 활용단계 ) 재식별여부등사후관리 20 5 개인정보처리관련유관제도 2

내지(교사용) 4-6부

< DC1A6C1D6C1BEC7D5BBE7C8B8BAB9C1F6B0FCBBE7BEF7BAB8B0EDBCADC7A5C1F62E696E6464>

05 ƯÁý

슬라이드 1

개인정보처리방침_성동청소년수련관.hwp

USC HIPAA AUTHORIZATION FOR

암호내지

<B1DDC0B6B1E2B0FCB0FAC0CEC5CDB3DDB0B3C0CEC1A4BAB82E687770>

Àϻ꺴¿ø 10³â»ç Á¦3Æí


[ 목차 ]



04 Çмú_±â¼ú±â»ç


- 2 -

08질병-건강하게-10.7

( 단위 : 가수, %) 응답수,,-,,-,,-,,-,, 만원이상 무응답 평균 ( 만원 ) 자녀상태 < 유 자 녀 > 미 취 학 초 등 학 생 중 학 생 고 등 학 생 대 학 생 대 학 원 생 군 복 무 직 장 인 무 직 < 무 자 녀 >,,.,.,.,.,.,.,.,.

09³»Áö

<C3E6B3B2B1B3C0B C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>

안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정] 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규


회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

<4D F736F F D205B46696E616C5DB0B3C0CEC1A4BAB8C3B3B8AEB9E6C4A75FC1F7BFF8BFEB5F E30332E3239>

슬라이드 1

현안과과제_8.14 임시공휴일 지정의 경제적 파급 영향_ hwp

<B1B9C8B8C0D4B9FDC1B6BBE7C3B3BAB85F BB0DCBFEFC8A35B315D2E706466>


온습도 판넬미터(JTH-05) 사양서V1.0

hwp

중요문서 개인정보처리방침 제정 : 최근개정 : 제1조 ( 목적 ) 신한아이타스 ( 이하 회사 라한다 ) 는개인정보보호법제30조에따라정보주체의개인정보를보호하고이와관련한고충을신속하고원활하게처리할수있도록하기위하여다음과같이개인정보처리방침

프랑스 (Loi n du 6 janvier 1978 relative a l'informatique, aux fichiers et aux libertes L'Assemblee nationale et le Senat ont adopte) 독일 (Bundesdat

슬라이드 1

성인지통계

< FC0FCB8C15FC3D6C1BEBABB2E687770>

진단, 표시・광고법 시행 1년


2015


(120629)_세포배양_불활화_인플루엔자_백신_평가_가이드라인.hwp

³»Áö_10-6

메뉴얼41페이지-2

Jkafm093.hwp

병원이왜내지최종본1

歯이

[Brochure] KOR_TunA

연구노트

개인정보수집 제공동의서작성가이드라인 업무처리에필요한개인정보파악 처리하고자하는업무에꼭필요한최소한의개인정보는어떤것들이있는지파악합니다 고유식별정보나민감정보는일반개인정보와구분하여처리하여야하므로처리하고자하는개인정보중에고유식별정보나민감정보가있는지확인해야합니다 개인정보의보유기간확인

배경 구분 주요내용 2014 년 5 월유럽사법재판소는 잊혀질권리 를인정하는판결로, 구글의 과도한개인정보수집이개인인권과충돌한다는논란촉발 2014 년초프랑스 스페인은구글의개인정보수집정책이사생활보 호규정에위반한다며, 각각벌금 15 만 90만유로부과 구글 아동포르노사진을전송한

CC hwp

해외유학생보험3단팜플렛1104

¾Æµ¿ÇÐ´ë º»¹®.hwp

목 차 Ⅰ

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

2016년 신호등 4월호 내지A.indd


춤추는시민을기록하다_최종본 웹용

60

View Licenses and Services (customer)

XSS Attack - Real-World XSS Attacks, Chaining XSS and Other Attacks, Payloads for XSS Attacks


wtu05_ÃÖÁ¾

어린이집영상정보처리기기 설치 운영가이드라인 보건복지부 - 1 -

C O N T E N T S 목 차 요약 / 3 Ⅰ. 브라질소비시장동향및특성 경제현황 2. 소비시장의특성 Ⅱ. 브라질소비시장히트상품분석 최근히트상품 년소비시장, 이런상품을주목하라! Ⅲ. 우리기업의 4P 진출전략

사진 24 _ 종루지 전경(서북에서) 사진 25 _ 종루지 남측기단(동에서) 사진 26 _ 종루지 북측기단(서에서) 사진 27 _ 종루지 1차 건물지 초석 적심석 사진 28 _ 종루지 중심 방형적심 유 사진 29 _ 종루지 동측 계단석 <경루지> 위 치 탑지의 남북중심

[11하예타] 교외선 인쇄본_ver3.hwp

선진사례집(0529)

포유6월c03逞풚

ch3.hwp

개인정보 비식별화에 대한 적정성 자율평가 안내서


2-A. 필수개인 ( 신용 ) 정보수집 이용 제공동의서 ( 여신금융거래 ) ( 주 ) 신한저축은행귀중 신한저축은행과의여신 ( 금융 ) 거래와관련하여신한저축은행이본인의개인 ( 신용 ) 정보를수집 이용하거나제 3 자에게제공하고자하는경우에는 개인정보보호법 제 15 조제 1

와플-4년-2호-본문-15.ps

Microsoft PowerPoint - 6.pptx

제 2 편채권총론 제1장채권의목적 제2장채권의효력 제3장채권의양도와채무인수 제4장채권의소멸 제5장수인의채권자및채무자

개인정보보호의 이해 및 안전한 관리 - 개인PC 및 스마트폰 개인정보보호-

2 Journal of Disaster Prevention

450 공기업 2 총괄요약표 평가범주 지표명 비계량계량합계 가중치등급가중치득점 ( 점 ) 가중치득점 1. 리더십 5 B 책임경영 3 B 리더십 책임경영 3. 국민평가 ( 고객만족도, 브랜드 )

1. 상고이유 제1점에 대하여 구 도시 및 주거환경정비법( 법률 제9444호로 개정되기 전의 것, 이하 구 도시정비법 이라 한다) 제4조 제1항, 제3항은 시 도지사 또는 대도시의 시장이 정비구 역을 지정하거나 대통령령이 정하는 경미한 사항을 제외한

< C7D0B3E2B5B520B9FDC7D0C0FBBCBABDC3C7E820C3DFB8AEB3EDC1F528C8A6BCF6C7FC292E687770>

01-02Àå_»ç·ÊÁýb74öÁ¤š


슬라이드 1

hwp


해외금융계좌내지뉴

ad hwp

11민락초신문4호


에너지절약_수정

Zentralanweisung

<31392E20C6EDC1FD2DC3D6B4EBBCB1B4D42E687770>

98 자료 개발 집필 지침

[10상예타]_광주도시철도2호선 건설사업_인쇄본_ hwp

hwp

G lobal M arket Report 중국지역 수출유망품목및진출방안

33 래미안신반포팰리스 59 문 * 웅 입주자격소득초과 34 래미안신반포팰리스 59 송 * 호 입주자격소득초과 35 래미안신반포팰리스 59 나 * 하 입주자격소득초과 36 래미안신반포팰리스 59 최 * 재 입주자격소득초

Untitled-1

Transcription:

빅데이터 활용을 위한 개인정보 비식별화 사례집

목 차 Ⅰ 개요 1 배경 6 2 목적 및 활용방법 7 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 1 개요 10 2 (수집 저장 단계) 개인정보 점검 및 검토 11 3 (분석 단계) 개인정보 비식별화 처리 14 4 (활용 단계) 재식별 여부 등 사후관리 20 5 개인정보 처리 관련 유관 제도 22 작성 및 문의 미래창조과학부 양현철 사무관 한국정보화진흥원 신신애 부장, 김진철 수석, 정영수 책임, 김근은 수석 케이론 김배현 박사 문의 (cckim@nia.or.kr, 02-2131-0216) 자문 Ⅲ 비식별화 처리 사례 1 국민건강 주의 예보 서비스 28 2 보건의료 빅데이터 활용 서비스 32 3 빅데이터 기반 의약품 안전성 조기경보 서비스 36 4 점포 평가 서비스 40 5 빅데이터 분석을 통한 심야버스 노선정책 지원 44 고경환 변호사(광장), 박영우 팀장(KISA), 최광선 본부장(솔트룩스), 최현길 대표(메인라인), 최재영 교수(성균관대), 홍순필 교수(성신여대), 장홍성 팀장(SKT), 최재원 이사(다음소프트), 조기행 부장(코리아크레딧뷰로)

Ⅰ 개요 1_ 배경 2_ 목적 및 활용방법 04 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅰ 개요 _ 05

Ⅰ 개요 1 배경 빅데이터가 ICT 분야의 새로운 패러다임이자 신 성장동력으로 부상 - 스마트폰 SNS 사물인터넷(IoT) 확산 등에 따른 데이터 폭증이 배경 미국, 영국 등 해외에서는 빅데이터 활용을 위하여 개인정보 비식별화 지침* 을 마련하여 활용 중 * 미국의 개인정보 비식별화 가이드라인(FTC, 12.3), 의료정보 비식별화 가이드라인(OCR, 12.11), 영국의 개인정보 비식별화 규약(ICO, 12.12) Ⅰ 개요 2 목적 및 활용방법 (목적) 공공 민간에서 빅데이터 활용 시 참고할 수 있도록 개인정보 처리 와 관련한 조치사항과 주요 분야별 비식별화 사례를 제시 (활용방법) 빅데이터 활용 시, 데이터 수집 분석 이용 단계별 조치사항을 확인하고 개인정보 비식별화를 수행 - 비식별화 사례들을 우선 참조하고 개인 식별 요소의 제거 요령에 따라 개인정보 비식별화를 진행 - 국내는 안전한 빅데이터 활용을 위하여 개인정보보호 법령의 준수 요구 현행 개인정보보호 법령상에서 빅데이터 활용을 지원할 수 있도록 개인정 보를 비식별화 하여 활용한 다양한 사례의 발굴 필요 06 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅰ 개요 _ 07

Ⅰ Ⅱ 빅데이터 활용 단계별 개요 개인정보 비식별화 처리 1. 배경 2. 목적 및 활용방법 1_ 개요 2_ (수집 저장 단계) 개인정보 점검 및 검토 3_ (분석 단계) 개인정보 비식별화 처리 4_ (활용 단계) 재식별 여부 등 사후관리 5_ 개인정보 처리 관련 유관 제도

Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 1 개요 2 <수집 저장 단계> 개인정보 점검 및 검토 1) 조치내용 (빅)데이터 분석 전 보유 데이터 중에 개인정보 포함여부 확인 불포함 시 데이터 분석 실시 수집 저장 단계> 개인정보 점검 및 검토 포함시 분석 단계> 비식별화 처리 활용 단계> 사후 관리 보유 개인정보의 수집 이용 목적과 분석하고자 하는 목적이 일치하는지 검토 일치하는 경우 분석 활용 개인정보 포함 여부 확인 불포함시 분석 목적을 달성할 수 있는 한도에서 비식별화 처리 재식별화 여부 점검/모니터링 개인정보를 포함하거나 보유 개인정보의 수집 이용 목적과 분석 목적이 불일치하는 경우 동의 또는 비식별화 처리 실시 빅데이터 분석 실시 분석결과 새로운 개인정보 생성시 개인정보보호 관계법령에 따라 처리 (파기, 동의 법령 근거 등에 따라 이용 또는 비식별화 조치 후 이용) 1 개인정보 란 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보(해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합 하여 알아볼 수 있는 것을 포함)를 말한다. 2 분석 이란 자료를 다양한 방법을 통해 가공함으로써 새로운 정보를 생성하는 일련의 행위를 말한다. 3 비식별화 란 개인정보의 일부 또는 전부를 삭제하거나 다른 정보로 대체함으로써 다른 정보와 쉽게 결합하여도 특정 개인을 식별하기 어렵도록 하는 일련의 조치를 말한다. 4 재식별화 란 비식별화된 정보가 다른 정보와의 연계(매칭) 등을 통해 특정 개인을 알아볼 수 있는 개인정보가 되는 것을 말한다. 추가 비식별화 등 보완조치 개인정보란? (개념) 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보(해당 정보만으로는 특정 개인을 알아 볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함) - (개인에 관한 정보) 법률상의 개인정보는 자연인( 自 然 人 )에 관한 정보 만 해당하며 법인( 法 人 )이나 단체의 정보는 법률에 따라 보호되는 개인정 보의 범위에서 제외 1) 개인정보보호법 제15조, 제16조, 제17조, 제18조, 제20조, 제23조, 제101조 와 안전행정부의 공공정보 개방 공유에 따른 개인정보 보호지침 의 III. 개인정보 처리 단계별 준수사항 참고 10 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 _ 11

- (생존하는 개인에 관한 정보) 법률상의 개인정보는 생존하는 자연인에 관한 정보만 해당하므로 이미 사망하였거나 민법에 의한 실종신고 등 관계 법령에 의해 사망한 것으로 간주되는 자에 관한 정보는 법률상의 개인 정보가 아님 - (생존하는 특정 개인을 알아볼 수 있는 정보) 법률상의 개인정보에 해당되기 위해서는 그 정보로 특정 개인을 알아볼(식별할) 수 있어야 하며, 해당 정보만으로는 특정 개인을 식별할 수 없다 하더라도 다른 정보와 쉽게 결합 하여 식별 가능하다면 개인정보에 해당 개인정보의 예시 일반정보 : 이름, 전화번호, 주소, 생년월일, 출생지, 성별 등 고유식별정보 : 주민등록번호, 운전면허번호, 여권번호, 외국인 등록번호 민감정보 : 사상 신념, 노동조합 정당의 가입 탈퇴, 정치적 견해, 건강, 성생활 등에 관한 정보, 유전정보, 범죄경력정보 보유 개인정보의 수집 이용 목적이란? 빅데이터 분석 전 보유 데이터에 개인정보가 포함되어 있는 경우 정보주 체의 동의가 있거나 법률상 구체적 근거가 있을 때에만 수집 이용목적 범위 내에서 분석 가능. 단, 정보주체의 동의가 없거나 법률상 구체적 근 거가 없는 경우 비식별화 조치 필요 (정보주체로부터 직접 수집한 경우) 수집 당시 사용된 근거 법령, 동의 내용에 명시되어 있는 수집 이용 목적 - 단, 고유식별정보와 민감정보는 법령상 구체적 근거가 있거나 정보주체 의 별도 동의를 얻어야 수집ㆍ이용 가능 (제3자로부터 제공받은 경우) 제3자로부터 제공받을 당시 사용된 근거 법령 또 는 동의 내용에 명시되어 있는 개인정보를 제공받은 자의 개인정보 이용 목적 - 개인정보의 제공은 제3자에게 그 개인정보에 대한 지배 관리권 등이 이전되는 결과를 초래하므로 개인정보 수집 이용 관련 규정보다 더욱 엄격한 요건이 적용 (인터넷 등 공개된 출처에서 수집한 경우) 공개 목적이 명확한 경우에는 해당 정보의 공개목적에 따라 분석 가능 * 예시 : 정보주체가 별도 이용 목적을 제한하여 공개한 경우 공개한 목적 내에서 분석 가능 - 공개 목적이 불명확한 경우 : 공개된 정황에 비추어 사회통념에 위배되 지 않는 범위 * 단, 비식별화하여 수집 이용하는 것을 우선으로 하여야 함 12 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 _ 13

3 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 <분석 단계> 개인정보 비식별화 처리 2) 삭제 후 남아있는 정보의 추가 가공(삭제 변환 등) 등을 통해 제공받는 자가 보유한 정보 및 인터넷 언론 등에 공개되어 있는 정보와 쉽게 결합 하여 개인을 식별할 수 없도록 조치 - 전문 지식을* 보유한 다양한 분야의 전문가들로 하여금 간접 개인식별 정보 및 기타 데이터를 통한 재식별 가능성 검토할 것을 권고 * 해당 분야의 전문가로서 재식별 가능 여부에 대해 합리적인 검토가 가능한 전문가도 포함 조치내용 보유 개인정보의 분석을 위한 동의 등이 곤란한 경우 분석 목적을 달성할 수 있는 한도에서 비식별화 처리 후 분석 비식별화란? 빅데이터 분석 등을 위하여 비식별화된 정보를 활용하는 경우에는 접근통제, 관련 정보의 추가 이용 제한 등 비식별화 처리 전에 보유한 개인관련 정보를 활용 연계하여 개인을 식별할 수 없도록 내부 규정 등을 보완하여야 함 * 비식별화된 정보를 비식별화 처리 전에 습득한 개인관련 정보와 매칭하여 사용하는 경우 개인정보의 목적 외 이용에 해당될 수 있음 정보에 포함되어 있는 개인정보의 일부 또는 전부를 삭제하거나 다른 정보 로 대체함으로써 다른 정보와 결합하여도 특정 개인을 식별하기 어렵도록 하는 일련의 조치 - 원칙적으로 그 자체로 개인을 식별할 수 있는 정보는 삭제(또는 개인을 식별할 수 있는 정보의 삭제처리 대신 다른 정보로 대체) 그 자체로 개인을 식별할 수 있는 정보 예시 1 쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진 등) 2 고유식별정보(주민등록번호, 운전면허번호, 외국인등록번호, 여권번호) 3 생체정보(지문, 홍채, DNA 정보 등) 4 기관, 단체 등의 이용자 계정(등록번호, 계좌번호, 이메일 주소 등) 2) 안전행정부의 공공정보 개방 공유에 따른 개인정보 보호지침 의 IV. 비식별화 조치 방법 참고 14 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 _ 15

개인 식별 요소 제거 요령(예시) 처리기법 주요내용 참고 1 개인식별요소 제거를 위한 참고 알고리즘 1 가명처리 (pseudonymisation) 2 총계처리 (Aggregation) 3 데이터 값 삭제 (Data Reduction) 4 범주화 (Data Suppression) 5 데이터 마스킹 (data masking) 개인정보 중 주요 식별요소를 다른 값으로 대체하여 개인식별을 곤란하게 함 (예) 홍길동, 35세, 서울 거주, 한국대 재학 임꺽정, 30대 서울 거주, 국제대 재학 * 다른 값으로 대체하는 일정한 규칙이 노출되어 역으로 개인을 쉽게 식별할 수 있어서는 안된다. 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함 (예) 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm 물리학과 학생 키 합 : 660cm, 평균키 165cm * 단, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 그 집단에 속한 개인의 정보를 공개하는 것과 마찬가지 결과가 나타나므로 그러한 정보는 비식별 화 처리로 볼 수 없음 (예> 에이즈 환자 집단임을 공개하면서 특정인물 갑 이 그 집단에 속함을 알 수 있도록 표시하는 것은 갑 이 에이즈 환자임을 공개하는 것과 마찬가지임) 데이터 공유 개방 목적에 따라 데이터 세트에 구성된 값 중에 필요 없는 값 또는 개인식 별에 중요한 값을 삭제 (예) 홍길동, 35세, 서울 거주, 한국대 졸업 35세, 서울 거주 (예) 주민등록번호 901206-1234567 90년대 생, 남자 (예) 개인과 관련된 날짜 정보(자격 취득일자, 합격일 등)는 연단위로 처리 (예) 연예인 정치인 등의 가족 정보(관계정보), 판례 및 보도 등에 따라 공개되어 있는 사건과 관련되어 있음을 알 수 있는 정보 데이터의 값을 범주의 값으로 변환하여 명확한 값을 감춤 (예) 홍길동, 35세 홍씨, 30-40세 공개된 정보 등과 결합하여 개인을 식별하는 데 기여할 확률이 높은 주요 개인식별자가 보이지 않도록 처리하여 개인을 식별하지 못하도록 함 (예) 홍길동, 35세, 서울 거주, 한국대 재학 홍**, 35세, 서울 거주, **대학 재학 * 남아 있는 정보 그 자체로 개인을 식별할 수 없어야 하며 인터넷 등에 공개되어있는 정보 등과 결합하였을 경우에도 개인을 식별할 수 없어야 한다. 가명처리 (Pseudonymisation) 시계열 데이터 마이닝 (k-익명화) 동일한 속성 값을 가지는 데이터를 k개 이상으로 유지하여 데이터를 공개하 는 방법으로서 지정된 속성이 가질 수 있는 값을 k개 이상으로 유지하여 프라 이버시 누출을 방지 부분그래프 익명화 소셜네트워크 데이터의 구조적 특성 중 하나인 부분 그래프에 의한 프라이버시 노출을 방지하기 위한 익명화 기법으로 익명화를 위해서 그래프 수정을 통해 특정 부분 그래프가 전체 그래프에서 k개 이상 존재하게 만드는 기법 차수 익명화 k-차수 익명화를 만족 하는 그래프는 각 정점에 대해 해당 정점과 같은 차수 를 가진 정점이 최소 k-1개 이상 존재하는 그래프로 원본 그래프를 k-차수 익명화 그래프로 만들기 위해 간선을 추가/삭제함 부분 그래프 + 차수 익명화 부분 그래프와 차수를 동시에 배경 지식으로 가지고 있을 때, 프라이버시 노출을 막기 위한 익명화 기법 매크로 기법- 셀 값 감추기 방법 (suppression) 민감 식별항목의 셀 값 노출방지를 위한 대표적인 방법으로 민감한 셀의 행과 열의 주변 값도 동시에 감추는 기법(suppression)이다. 여기서 부수적으로 감추어지는 셀을 보조 셀 감추기(complementary suppression)라 하며, 이 셀은 인위적으로 선정 휴리스틱익명화 (heuristic anonymization) 준식별자에 해당하는 값들을 몇 가지 정해진 규칙 혹은 사람의 판단에 따라 가공하여 자세한 개인 정보를 숨기는 방법 16 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 _ 17

교환(swapping) 방법 추출된 표본 레코드에 대하여 이루어지며, 미리 정해진 변수(항목)들의 집합 에 대하여 데이터베이스의 레코드와 연계하여 교환 총계처리 (Aggregation) 프라이버시 모델 알고리즘을 통해 수학적으로 프라이버시 안정성을 보장하도록 데이터를 가공 하는 방법으로 k-anonymity 등과 같은 것들이 여기에 속함. 이 방법들은 단순히 프라이버시를 만족시켜줄 뿐만 아니라 데이터의 변형을 최소화하기 때문에 데이터의 유용성 면에서도 큰 피해(penalty)가 발생하지 않음 마이크로기법 표본에 대한 식별 값과 타 표본의 식별값의 합으로 기존 식별값에 대체하여 식별 정보를 희석하는 기법. 예를들면 Alpha 과 Gamma 를 AlpGam 라는 새로운 표본값을 만드는 과정. 이는 또한 세분(Depth)의 정도를 조정할 수도 있음. 표본, 식별자(identifier) 제거, 지역 세분화정도 제한 방법 등이 있음 데이터 값 삭제 (Data Reduction) 식별자(identifier) 제거 원시 데이터에서 개인식별 항목을 단순 제거하는 방법 준식별자 제거를 통한 단순 익명화 단순 익명화 방법은 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 준식별자를 모두 제거함으로써 프라이버시 침해 위험을 줄이는 방법 범주화 (Data Suppression) 범위 방법(data range) 랜덤 올림 방법(random rounding) 개인식별 정보에 대한 수치데이터를 임의의 수 기준으로 올림(round up) 또는 절사(round down)하는 기법 제어 올림 방법(controlled rounding) 랜덤 올림 방법에서 행과 열의 합이 일치하지 않는 단점을 해결하기 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법 정점/간선 클러스터링 기법(Vertex/edge clustering) 간선 추가/삭제 기법과 다른 접근 방식의 간선 클러스터링 기법을 사용하 여 간선에 포함된 내용(label) 정보를 익명화하고, 정점들을 클러스터링하는 기법은 간선의 추가/삭제 없이 그래프를 익명화하는 기법 세분정도 제한 방법(subdivide level controlling) 개인정보 중 단일 항목으로 개인식별이 될 수 있는 항목을 민감(sensitive) 항목 또는 높은 시각(high visibility) 항목이라 한다. 이와 같은 민감한 항목 은 상한(top), 하한(bottom) 코딩, 구간 재코딩(recoding into intervals) 방법을 이용하여 정보노출 위험을 줄일 수 있는 기법 데이터 마스킹 (Data masking) 임의 잡음 추가(adding random noise) 소득과 같은 민감 개인식별 항목에 대한 새로운 익명화 방법으로 임의의 숫자, 즉 임의 잡음 추가(adding random noise)를 더하거나 곱하여 식별정보 노출을 방지하는 기법 공백(blank)과 대체(impute) 공백과 대체(blank and impute) 방법은 마이크로 데이터 파일로부터 소수의 레코드를 선택한 후, 선택된 항목을 공백으로 바꾼 후에 대체법 (imputation)을 적용하여 공백부분을 채우는 기법 개인식별 정보에 대한 수치데이터를 임의의 수 기준의 범위(range)로 설정하는 기법 18 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 _ 19

4 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 <활용 단계> 재식별 여부 등 사후관리 참고 : 재식별 가능성이 높은 정보(예시) 소수 집단에 관한 정보(90대 이상 연령자, 도서산간 거주자, 희귀질병감염자 정보 등) 연속하여 공개되는 패널 데이터 등(분기별 공개하는 환자진료 및 처방에 따른 회복 관련 정보 등) 링크정보를 가지고 있는 집단에게 정보를 공유 개방하는 경우(자동차 번호별소유자를 알고 있는 처리자에게 자동차 번호를 제공하는 경우 등) 집단과 그 구성원이 알려져 있는 경우로서 동일 속성을 가진 집단에 관한 정보 조치내용 빅데이터 분석 완료 후 분석에 사용한 비식별화 처리 자료가 기술발전 또는 관련 정보의 추가 공개 등의 환경변화에 따라 재식별화가 가능한지 정기 점검 비식별화 자료가 불필요한 경우 파기 (사후검토의 개념) 시간의 경과에 따라 데이터 분석기술의 진화 및 관련 공개정보가 누적되어 재식별 위험이 증가할 수 있으므로 비식별화 기법 및 재식별 가능성에 관한 주기적 모니터링 실시 - 재식별이 되는 경우 추가 비식별화 등의 보완 조치 및 향후의 비식별화 처리 기법 개선 시 반영 생성되거나 재식별화된 개인정보의 관리 철저 - 빅데이터 분석 등의 과정에서 불필요한 개인정보가 새로 생성되거나 비식별화 처리된 정보가 재식별화된 경우에는 지체없이(통상 5일이내) 그 개인정보를 삭제하거나 비식별화 처리 - 비식별화 자료가 불필요하거나 더 이상 활용도가 없는 데이터는 폐기 20 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 _ 21

5 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 개인정보 처리 관련 유관 제도 - 의료관련 민감한 개인정보는 HHS(보건사회부)가 제시한 별도 가이드라 인에서 구체적으로 비식별화 요구 비식별화가 필요한 18개 개인식별자 정의 : 이름, 주소, 날짜정보(생일, 자격취득일 등), 전화번 호, 팩스번호, 이메일주소, 사회보장번호, 의료기록번호, 건강보험번호, IP주소, 생체정보, 얼굴 사진 등 해외 현황 미국, 영국은 개인정보 비식별화 지침을 마련하여 업계에 보다 명확한 개인정보보호 기준 제시 기본방향 : 비식별 개인정보 처리시 개인식별성 항목을 자율규제 원칙 3) 하에 재식별 방지를 위 한 사후관리 강조 미국의 FTC(개인정보의 비식별화 가이드라인, 12.3)는 특정한 소비자, 컴퓨터 및 기타 개인을 식별할 수 있는 장치들과 연관될 수 있는 것 (Reasonable linkability)을 보호 대상으로 규정 영국의 IOC(개인정보 식별화 규약, 12.12)도 미국과 마찬가지로 개인 식별 항목을 업계에서 자율 판단하도록 규정 1 개인정보 비식별화를 위한 데이터 마스킹, Pseudonymisation, Aggregation, Derived data items&banding 등 방법 제시 2 재식별에 대해서는 최소한의 검증( motivated intruder test')*를 거친 후 비식별 데이터의 사용제한 및 접근 통제를 통해 철저한 사후관리를 강조 Motivated intruder test : 상대적으로 비전문가가 재식별에 성공할 수 있는지 판별하여 식 별 위험의 최소한의 기준을 정함 3 비식별 데이터의 민감도에 따라 재식별 위험도가 다르므로 데이터에 따라 차등의 공개 옵션을 고려하고 민감한 데이터 공개 시 사용제한 및 접근통제 등 safeguard 마련 권고 1 특정 개인을 추론할 수 있는 데이터의 삭제, 수정, noise 추가, 통계적 샘플링, 총계처리 등 적절한 방법을 사용하여 비식별 조치하고, 2 개인정보 주체에게 재식별하지 않을 것을 공개적으로 약속하도록 하고 제3자에게 비식별화 데이터 제공 시에도 계약상에 재식별 방지를 요구하도록 권고 3) 사업자가 분석 목적에 따라서 개인정보에 대한 비식별화 항목 및 범위를 결정하되 재식별에 대한 책 임을 가짐 22 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 _ 23

국내 현황 국내의 경우( 공공정보 개방 공유에 따른 개인정보 보호 지침, 13.9), 공공부문에 적용되는 지침으로 개인식별 가능한 요소를 정하여 삭제하고 주기적인 모니터링으로 재식별 가능성을 완화 데이터 수집 분석 : 법령 근거 또는 정보주체 동의에 의해 수집 이용하고, 개인 식별 가능한 정보는 삭제 또는 비식별화 후 분석(빅데이터 등) - 비식별화 해야 할 개인정보의 범위는 그 자체로 개인식별이 가능한 정보 를 열거하여 우선 삭제 또는 비식별화 권고 그 자체로 개인을 식별할 수 있는 정보 : ① 쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진 등), ② 고유식별정보(주민등록번호, 운전면허번호 등), ③ 생체정보(지문, 홍채, DNA 정보 등), ④ 기관, 단체 등의 이용자 계정(등록번호, 계좌번호, 이메일 주소 등) - 재식별의 경우, 데이터를 제공받은 자가 보유하고 있거나 공개되어 있는 정보와 결합하였을 때 재식별 가능성에 대해 사후 모니터링 수행 권고 <국가별 개인정보 수집시 고지의무 사항> 한국 EU 미국. 수집이용 목적. 처리자와 대리인의 신원. 포괄적 고지의무. 수집하는 개인정보 항목. 처리목적 규정 없음. 보유 및 이용기간. 수령인 또는 그범주. 동의거부권 및 동의 (제공시) 거부시 불이익. 동의의 강제성 여부 일본. 이용목적 및 거부시 불이익. 정보접근권 및 정정 요구권 24 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅱ 빅데이터 활용 단계별 개인정보 비식별화 처리 _ 25

Ⅲ 비식별화 처리 사례 1_ 국민건강 주의 예보 서비스 2_ 보건의료 빅데이터 활용 서비스 3_ 빅데이터 기반 의약품 안전성 조기경보 서비스 4_ 점포 평가 서비스 5_ 빅데이터 분석을 통한 심야버스 노선정책 지원

1 Ⅲ 비식별화 처리 사례 국민건강 주의 예보 서비스 개발 내용 활용데이터 - 국민건강보험공단 : 국민건강정보(진료내역 데이터) - 다음소프트 : SNS 데이터(트위터, 카페) 시범사업 개요 주관/참여기관 (주관기관) 국민건강보험공단 주요내용 (참여기관) 다음소프트 - 주요 유행성 질병에 대한 건강보험 정보와 소셜미디어 정보를 융합하여 질병 예측모델 개발 - 주요 유행성 질병에 대한 지역별, 연령별 진료동향, 위험동향, 소셜동향 기관 (국민건강정보) 민간 (SNS 데이터) 등 종합정보 제공 위 예 시스 정형 데이터 연계/정확화 정형 데이터 동향 분석 비정형 데이터 동향 분석 정형 데이터 분석/마이닝 질병 위험 예측 분석 국민 주의예보 서비스 주요 질병 위험 모니터링 지역별/연령별 질병 위험 분석 조 감 위 도 위 (3단계) 지 별 위 도 분석 질병 관련 진료 동향 분석 질병 관련 소 동향 분석 3 가추세 분석기법 - 비정형 빅데이터 분석 : 자연어처리기술을 이용한 텍스트마이닝 기법 사용 - 정형 데이터 분석 : 통계분석, 기계학습 기술을 이용한 데이터마이닝 기법 사용 - 분석 결과 시각화 : 자바스크립트 기반 시각화툴을 이용하여 웹상에 구현 텍스트마이닝을 위한 지식구축 인력과 예측모델 튜닝을 위한 통계 전문가 운용 서비스 내용 - 주요 유행성 질병의 위험도와 동향을 한눈에 파악할 수 있는 대시보드 서비스 제공 - 지역별 주요 유행성 질병 위험도 정보, 지역 내 질병 관련 진료 동향 및 연령별 진료 현황정보 제공 - 주요 유행성 질병 진료현황, 과거 진료통계, 질병 동향 및 고위험 지역 정보 제공 - 민간 소셜 데이터에 발현된 주요 유행성 질병 관련 키워드의 동향, 연관 키워드/문서, 질병에 대한 관심도, 인식 상태, 주요 내용을 직관적으로 파악할 수 있게 제공 비정형 데이터 수집/필터링 비정형 데이터 분석/마이닝 연 별 1 감소추세 기대효과 - 주요 감염병 유행을 예측하여 관련 기관과 국민 개개인이 유행에 대비하 고 예방할 수 있도록 지원함으로써 국민건강 증진 및 사회적 편익 극대화 28 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅲ 비식별화 처리 사례 _ 29

비식별화 대상 및 방법 구체적 사례 비식별화 조치 필요 정보 - 개인정보 : 주민등록번호, 연령, 주소, 요양기관기호 - 사생활정보 : 소득, 민감상병 비식별화를 위한 처리 기법 처리기법 가명처리 총계처리 삭제 범주화 마스킹 기타 적용여부 국민건강보험공단에서 수집 분석의 대상이 되는 정보는 개인정보 및 민감 한 사생활정보를 포함하고 있는 경우가 많아 고의적 우발적 개인정보 유출 을 방지하기 위한 방안이 필요했다. 이에 수집 분석 대상에 포함된 개인정보 를 텍스트마이닝, 패턴매칭 기술을 통해 검증 및 대체문자로 치환하고 있다. 계좌번호, 성명, 이메일, 전화번호, 주민등록번호, 주소, 휴대전화번호 등 의 개인식별정보를 탐지 및 치환하며 탐지 가능한 개인식별정보를 추가 수정 삭제할 수 있는 기능을 제공한다. 적용 예시 1 가명처리 : (식별번호 대체) - 요양기관기호(8자리) 요양기관대체번호(6자리) 예) 31100678(일산병원) 123456 2 삭제 : (전부 또는 일부삭제) - 주민등록번호(13자리) 삭제 예) 110011-1479712 - 주소 16개 시도 예) 11110(서울특별시 종로구 삼봉로 43) 11(서울특별시) 3 범주화 : (그룹화) - 연령(0 80세이상) 18개층(5세 단위 구간) 예) 53세 12(50~54세 구간) - 소득 보험료분위(전체 대상자(세대)를 20분위 균등분할) 예) 보험료 103,530원 14분위 4 마스킹 : (특수문자 대체) - 공단에서 규정한 민감상병의 주상병, 부상병코드 1) 상병기호의 대분류만 표시 : 예) A**** (A : 특정감염 및 기생충성 질환, 콜레라) 2) 전체 상병기호 표시하지 않음 : 예) **** (D : 남성 생식기관의 양성 신생물) 30 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅲ 비식별화 처리 사례 _ 31

2 Ⅲ 비식별화 처리 사례 보건의료 빅데이터 활용 서비스 개발 내용 활용데이터 - 검색 데이터, SNS 데이터, 입/퇴원 기록, 병원 경영자료, 실시간 환자 심전도/심박수, 진료 데이터, 국과수 마약류 관련 DB, SNS 데이터 시범사업 개요 주관/참여기관 (주관기관) 서울아산병원 (참여기관) 한국전자통신연구원, 한국마이크로소프트(유), (주)테크아이, 주요내용 켐아이넷(주), 한국쌔스소프트웨어(유) - 보건의료 질 향상 및 비용 절감을 위한 보건의료 빅데이터 활용 서비스 개발 Source ayer Data ub ayera Analytics ayer Service ayer User ayer 내부정보 OCS EMR PACS ERP MIS 내부정보 Porta (Daum) SNS (Twitter) 질병관리본부 국과수 Data 저장/처리 영역 별 data 저장 시나리 / 를 관리 adoop / Mapreduce 적용 고려 Data 관리 영역 Metadata 관리 데이터 품질 관리 향상관리 (모델링 결과 포함) 데이터 마이닝 / 파 비정형 분석 정형 분석 실시간 통계 모니터링 예측 모델링 Performance 관리 인플루 자 유행 예측 서비스 심실부정 예측 서비스 입원 병상 배정 최적화 서비스 신종 마약류 인지/감시 서비스 일반 인터넷 사용자 환자 데이터 분석가 /기관 스 어 제공자/기관 공공기관 분석기법 - 비정형/정형 빅데이터 분석: 데이터 크롤링/필터링 기법, 자연어처리 기법 활용한 텍스트 마이닝 기법, 통계분석 및 기계학습 기술을 이용 한 데이터 마이닝 및 모델링 기법, 패턴 분석/비교 및 인공신경회로망 알고리즘 사용 - 분석 결과 시각화: MS Windows Azure 활용 서비스 내용 - 인플루엔자 현황 및 예측 동향 웹서비스 형태로 제공 - 입원 병상 배정 최적화 모델 병원 내 시스템에 구축/활용 - 심실부정맥 예측 모델 개발 후 대시보드 형태로 병원 내 시스템에 구축/ 활용 - 마약류 인지 현황 제공, 위험등급별 분류 후 관련정보 제공, 출현현황 뉴스레터 제공 기대효과 - 공중보건 분야: 전염병 발생 및 불법 약물 전파와 같은 긴박한 순간에 미리 대비하고, 빠른 의사결정을 도움으로써 의료대응와 관련한 사회적 비용 대폭 절감 32 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅲ 비식별화 처리 사례 _ 33

비식별화 대상 및 방법 비식별화 조치 필요 정보 - 개인정보 : 성명, 시/군/구 보다 작은 단위의 지역정보 (읍/면/동 이하 상세주소), 전화번호 (자택, 직장, 이동전화, Fax 모두 포함), 이메일주 소, 주민등록번호, 외국인등록번호, 여권번호, 등록번호, 건강보험증번 호, 은행계좌번호, 자격/면허번호, 차량번호, 바이오정보 (지문, 얼굴, 홍체, 정맥, 음성, 필적 등), 유전자정보, 홈페이지 회원 ID, 사번, 비밀 번호 비식별화를 위한 처리 기법 처리기법 가명처리 총계처리 삭제 범주화 마스킹 기타 적용 예시 1 가명처리 : (등록번호 대체) - 환자등록번호 (8자리) 임의로 생성된 번호 (8자리) 예) 11111111 92429988 2 삭제 : (테이블 컬럼) - 성명 삭제 예) 홍길동 - 주소 삭제 예) 서울특별시 송파구 풍납2동 388-1 3 마스킹 : (특수문자 대체) - 주소 예) 서울특별시 송파구 풍납2동 388-1 ***** *** **** ***** - 각종 연락처 예) 전화: 010-111-1111 전화: ***-***-**** 적용여부 구체적 사례 1 본 기관에서는 개인식별 정보를 내부적으로 정의하기 위해 HIPAA, ISO/ TS 25237:2008을 검토하여 최종적으로 20가지 개인식별정보를 정의하였 고, 이에 대해 익명화를 실시함 2 의료정보는 영어와 한글이 혼용되고 있으며, 다양한 약어와 전문용어들이 많기 때문에 일반적인 자연언어처리 방법을 적용하기 어려움. 본 기관에 서는 구조화된 정보는 테이블 내 컬럼 정보를 삭제하고, 비구조화된 정보 는 regular expression rule을 작성하여 text 정보 중 개인식별정보들이 있으면 masking 처리함 3 더불어, 조합을 통해 개인식별이 가능한 quasi identifier도 방지하기 위해 서 5명 미만의 개인 의료 정보는 제공하지 않음 34 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅲ 비식별화 처리 사례 _ 35

3 Ⅲ 비식별화 처리 사례 빅데이터 기반 의약품 안전성 조기경보 서비스 개발 내용 활용데이터 - 와이즈넛 : SNS (블로그, 지식인, 카페, 트위터), 뉴스(웹), 문헌(웹) 데이터 - 아주대학교병원 : EMR(전자의무기록) 시범사업 개요 주관/참여기관 (주관기관) 에스지에이(주) (참여기관) 한국의약품안전관리원, (주)와이즈넛 주요내용 - 빅데이터에서 의약품 부작용 및 오남용 사례를 수집 및 분석 - 의약품 부작용 가능성을 병원 의무정보를 기반으로 확인하여 조기 인지 - 의약품 오남용 사례를 파악하여 조기 대응을 위한 정보 제공 분석기법 - 비정형 빅데이터 분석 : 자연어처리기술을 이용한 텍스트마이닝 기법 사용 - 정형 데이터 분석 : 통계분석과 OLAP 기술을 이용한 데이터마이닝 기법 사용 - 부작용 검증분석: 코호트 기반 연구방법, 환자/대조군 비교 알고리즘 사용 - 분석 결과 시각화 : Spotfire를 이용한 웹기반의 Drill-Down 분석화면 제공 adoop ig Data 수집/저장 분석 조기경보 분석마트 (부작용/ 남용) 실마리정보 저 장 Te t Mining 키 드분석 상관분석 의무정보(EMR) ADR 분석 진 진 조기경보 정보 모니터링 서버 보고서 생성 시각화 (Spotfire) 분석도구 (R) 일반 이용자 전문 이용자 서비스 내용 - 의약품 부작용 검증을 위해 추출된 실마리정보 제공 - 의약품 부작용에 대한 검증 결과 제공 - 의약품 오남용 사례 및 분석결과 제공 - 오남용 사례에 대한 지역별, 성별 등의 다면 분석결과를 시각적으로 제공 - 빅데이터에서 수집된 정보와 시스템 결과를 상세 분석할 수 있는 전문가 분석환경 제공 기대효과 - 빅데이터를 활용, 국민복지와 건강을 위협하는 의약품 부작용 및 오남 용을 조기에 발견하여, 선제적 대응을 통한 안전한 사회 구현에 기여 36 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅲ 비식별화 처리 사례 _ 37

비식별화 대상 및 방법 구체적 사례 비식별화 조치 필요 정보 - 개인정보 : 나이, 생년월일 - 사생활정보 : 아이디, 진단명, 약처방 날짜, 진단검사 날짜, 검사수행날짜 비식별화를 위한 처리 기법 처리기법 가명처리 총계처리 삭제 범주화 마스킹 기타 적용여부 에스지에이에서 수집 분석의 대상이 되는 정보는 개인정보 및 민감한 사생활 정보를 포함하고 있는 자료가 많아 고의적 우발적인 개인정보 유출을 방지 하기 위한 방안이 필요하다. 이에 수집 분석 대상에 포함된 개인정보를 랜덤키 생성, 패턴매칭 기술을 통해 대체문자로 치환 및 쉬프트 처리, 민감 데이터 삭제처리를 하고 있다. 적용 예시 1 가명 처리 : (식별번호 대체) - 환자 아이디를 고유 아이디로 생성하여 문자 형식으로 저장하여 개인식별을 곤란하게 함 예) 환자 아이디(6자리) -> 고유 아이디 생성(36자리) 0001012 -> E214F58E-9E3F-44B7-B3A3-9854BF439216 - 날짜 데이터를 환자별 랜덤 숫자 90 ~ 90 사이의 랜덤 숫자를 발생하여 식별이 곤란하게 함 예) 날짜 : 랜덤 숫자 처리 20101010 -> 20110118 2 삭제 : (민감데이터 삭제) - 환자의 진단명중 민감한 정보를 삭제하여 사생활 정보의 식별을 곤란하게 함 성명, 에이즈 감염, 비정상적인 염색체 이상, 낙태 등 삭제(민감데이터 삭제) 예) 진단명 : AIDS -> 해당 자료 삭제 진단코드 : B20* -> B20으로 시작하는 코드 삭제 3 범주화 : (그룹화) - 80세 이상 나이를 80으로 고정하여 명확한 나이를 감춤. 예) 나이 : 80이상 -> 80으로 고정 86세 -> 80세 38 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅲ 비식별화 처리 사례 _ 39

4 점포 평가 서비스 시범사업 개요 Ⅲ 비식별화 처리 사례 개발 내용 활용데이터 - 비씨카드 : 월 2억건씩 누적되는 카드거래 데이터 중 서울지역 2억건(3년치) - 한국감정원 : 부동산 임대시세 및 건축물 대장 데이터 - 소상공인진흥원 : 월 300만건씩 누적되는 소상공인 상가정보(점포명, 업종, 주소, 전화번호) 총 1억건(3년치) - 인문사회지리데이터 : 인구, 가구세대, 36만 블럭 주관/참여기관 (주관기관) 오픈메이트 주요내용 (참여기관) 비씨카드, 한국감정원 - 약 1억건의 상가업소데이터, 6억건 이상의 카드사용 트래픽 데이터 기반 분석 - 동일지점의 최근 3년간 점포 개폐업 이력 추적 - 점포별 추정 매출/입지평가/상권평가 서비스 이용대 과거 점포이력 분석 점포주소 상권 과거 분석 상권분석 및 평가 IS기반 분석 예비 업자 점포중개인(부동산) 업 트 정부정책 수 자 Input (가 점, 거, 회원) 업종 추천 분석정보 서비스 성 매출 예측 모형, 지수 한국 정원 (부동산) 임대 시세 추정 미래예 EB Service 운영 자 비용분석 빅데이터 분석 소상공인 진 원 (상가) 수익 예측 분석기법 - 텍스트마이닝, 지오코딩 : 월단위로 단절된 업소이력을 추적 - 통계분석 : 다중회기분석, huff확률모형, 상권/업종평가모형, 입지진단모형 - 공간분석 : 공간가중회기, 보간법 서비스 내용 - 점포별 수년간의 개 폐업 이력을 추적하고, 업종변화별로 해당 점포의 매출 추정 - 창업자가 어떤 업종으로 창업하면 가장 높은 매출을 낼 수 있을지, 어 떤 업종일 때 영업기간이 짧고 폐업율이 높았는지, 점포의 입지는 어떤 수준인지 등 창업결정을 위한 지표정보 제공 - 임대시세, 추정매출, 점포진단평점 등 입지상권분석에 필요한 기초정보 제공 기대효과 - 입지특성에 맞지 않는 부적절한 업종의 개업을 예방하여 창업 실패율 감소 - 경험적, 계약우선의 점포거래 관행에서 데이터를 기반한 과학적인 창업 컨설팅 유도 40 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅲ 비식별화 처리 사례 _ 41

비식별화 대상 및 방법 구체적 사례 비식별화 조치 필요 정보 - 개인정보 : 개별 상가업소 매출 비식별화를 위한 처리 기법 처리기법 가명처리 총계처리 삭제 범주화 마스킹 기타 적용여부 상가업소의 매출정보는 창업자에게 매우 중요한 정보이나 개별업소의 매출 을 개인정보 및 세원 노출에 대한 법적규제로 인해 제공되지 못하고 있음. 이에 대해 카드사에서는 개별업소에 대한 매출을 보정한(현금비율, 타사카드 비율 반영) 추정값으로 산정한 뒤 지역별, 업종별 유형화, 업종 그루핑(업종 분류), 지역단위별 5개 단위 이하 업소매출 제거 등을 통해 통계화 한 뒤 정보 서비스로 제공하고 있음 적용 예시 1 가명처리 : (식별번호 대체) 업소명 -> 업소ID 김가네김밥 : 업소명 -> 업소ID B3231123_23 2 총계처리 : (총합 집계) 추정매출액 = 원시매출액 * 추정현금비율 * 카드사시장점유비(MS) 지역별업종추정평균매출액 = (업소별추정매출액)/업소수 매출범위로 환산 : 5314000원 추정매출 5,000천원 6,000천원 (3. 범주/범위화 기법과 혼용) 3 범주화 : (그룹핑) 300만개 업소 -> 1,500개 업종으로 그루핑할 수 있도록 유형화 김가네깁밥 -> 음식>분식 김밥천국 -> 음식>분식 4 마스킹 : (특수문자 대체) 업소전화번호가 핸드폰 번호일 경우 마스킹처리 010-4333-1234 -> 010-****-**** 42 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅲ 비식별화 처리 사례 _ 43

5 Ⅲ 비식별화 처리 사례 빅데이터 분석을 통한 심야버스 노선정책 지원 개발 내용 활용데이터 - KT : CDR(call detail record) 데이터 유동인구파악 고객 통계데이터 목적지 및 이용대상 파악 - 서울특별시 : 공공 데이터 최적 정류소 위치 선정 시범사업 개요 주관/참여기관 (주관기관) KT 주요내용 (참여기관) 서울특별시 - KT: 서울시가 보유하고 있는 데이터와 분석기술을 활용, 심야시간대 서 울 시민들이 활용하게 될 심야버스 노선 수립 지원 유 인 버스 선, 정 장 도로정보 빅데이터 시범 D inux Ent orade 가 화서버 서버 스 리지 ase ap (서 시지도 ) 빅데이터 시범 AP indows 서버 Arc S SP/ D 분석 과 Visualization 분석기법 - 블록 단위 공간분석 : 유동인구 파악 일정 크기 분할, 상권 구수 기반 분할 - 거리 기반 알고리즘 적용 정류소와의 거리, 유동인구 빈도별 가중치 부여를 통해 통행량 높은 정류장 추적 서비스 내용 - KT의 위치정보기반 유동인구 데이터와 서울시 공공 교통 데이터를 융합하여 시민들에게 최적의 심야버스 혜택 제공 1일 1억건 이상의 CDR데이터를 통계 분석하여 심야시간(24:00-05:00) 서울시 유동인구가 많은 지역 분석 서울시가 보유 하고 있는 버스 정류장 위치, 도로정보 등 교통정보 데이터 활용하여 버스 경로 선정 기대효과 - 효율적 노선서비스의 제공으로 서울 시민들에게 심야 최적의 교통서비스 제공 - 상대적으로 소득이 낮은 심야 경제 활동인구에게 경제적으로 기여 - 범죄에 취약한 심야 및 새벽시간대 심야버스 운행으로 범죄 예방 효과 44 빅데이터 활용 시 개인정보 비식별화 조치 사례집 Ⅲ 비식별화 처리 사례 _ 45

비식별화 대상 및 방법 비식별화 조치 필요 정보 - 개인정보 : 연령, 청구지 주소 비식별화를 위한 처리 기법 처리기법 가명처리 총계처리 삭제 범주화 마스킹 기타 적용여부 구체적 사례 KT와 서울시의 사업에서 고객의 개인 정보라고 할 수 있는 데이터는 KT 내부에서 제거한 후에 그 외의 데이터를 분석에 활용 적용 예시 1 삭제 : (일부 삭제) - 개인정보(성명 등) 삭제 예) 홍길동 2 범주화 : (헥사곤 형태 가공 및 통계처리) - 개인 정보에 가까운 데이터인 연령대 같은 경우 특정 지역(1km 핵사곤형태)으로 가공 및 통계 처리함, 개인을 식별하는 분석이 아니기 때문에 통계처리로 충분함 예) 핵사곤 A : 연령 10대 1000명 연령 20대 500명 연령 30대 2000명... - 청구지 주소의 경우 우편번호 단위를 핵사곤에 매핑 후 지역별 통계로 보기 때문에 개인의 집 위치를 파악하지 않음 예) 핵사곤 A 에 속하는 우편번호 : 690-022 120-200 => 200명 200-120 46 빅데이터 활용 시 개인정보 비식별화 조치 사례집

빅데이터 활용을 위한 개인정보 비식별화 사례집 발행일 2014년 5월 1일 발행처 427-140 경기도 과천시 관문로 47, 4동 www.msip.go.kr 무교청사 : 100-775 서울특별시 중구 청계천로 (무교동 77번지) 14 NIA빌딩 등촌청사 : 157-715 서울특별시 강서구 공항대로 489 (등촌동) www.nia.or.kr 편집 디자인 (주)아이디어스토리지