빅데이터활용식의약품등사고 위해예측기반구축정보화전략계획 (ISP) 주관연구기관주관연구책임자 기관명 소재지 기관장 N2M 서울 김형진 성명 소속및부서 전공 김상목 전략담당 공공정책 총연구기간 2015. 8. 28. 2015. 12. 29.(4개월 ) 총연구개발비 56,400 천원 연구년차 연구기간 연구개발비 1차년도 2015. 8. 28. 2015. 12. 29. 56,400 천원 2015 년도빅데이터활용식의약품등사고 위해예측기반구축정보화전략계획 (ISP) 과제의연구결과보고서를제출합니다. 2015 년 12 월 29 일 주관연구책임자 : 김상목 ( 서명또는인 ) 주관연구기관장 : 김형진 ( 서명또는인 ) 식품의약품안전처장귀하
뒷면 측면 빅데이터 활용 식의약품 등 사고 위해 예측기반 구축 정보화전략계획 ( I S P )
제출문 식품의약품안전처장귀하 이보고서를 빅데이터활용식의약품등사고 위해예측기반구축정보화전략계획 (ISP)(N2M/ 김상목 ) 연구기관의최종보고서로제출합니다. 2015 년 12 월 29 일 총괄연구기관 : N2M 주관연구책임자 : 김상목
빅데이터활용식의약품등사고 위해예측기반구축정보화전략계획 (ISP) 최종보고서 2015. 12. 29
연구책임자의견 연구의범위 본사업에서는첫째식의약빅데이터를활용하여식품 의약품등사고 위해의예측기반을구축하기위한환경및현황분석을실시하고선진해외사례조사를통해유사개발사례및최신기술동향을조사하였다. 둘째, 실제예측기반을구축하기위해식의약품등생산 수입 판매 소비단계자료전체현황을조사하고식품 의약품등사고 위해를예측하기위한식의약품등사고 위해예측최적화데이터기반구축방안을제시하였다. 셋째식의약품등사고 위해예측을위한식품, 의약품, 의료기기, 화장품분야의위기대응매뉴얼상의시나리오를참조하여빅데이터분석및활용방안을제시하였다. 마지막으로향후 3년간빅데이터활용중장기계획을수립하여제시하였다. 연구의한계점 본연구는식품의약품안전처및관계기관의데이터에대한자세한현황과구축 할시스템의구체적인사양을파악하는데한계가있었음을밝힌다. 인용시주의사항 본사업의내용을인용할경우에는반드시식품의약품안전처의동의를얻어야 한다. 주관부서연락처식품의약품안전처정보화통계담당관실 ( 043-719-1619)
목차제1장사업개요 1 1. 사업개요 1 1.1 사업명 1 1.2 주관기관및사업자 1 1.3 사업예산 1 1.4 사업기간 1 2. 사업목적 1 3. 사업범위 1 4. 사업추진체계 2 제 2 장업무환경및현황분석 3 1. 업무환경분석 3 1.1. 환경분석서 3 1.2. 환경분석종합 12 2. 정보기술환경분석 13 2.1 빅데이터개념정립 13 2.2 빅데이터주요구성요소 14 2.3 식품의약품안전처정보시스템현황정보 61 2.4 정부기관데이터현황 67 2.5 사고 위해예측을위한생산, 수입, 판매, 소비단계별데이터현황조사 83 3. 빅데이터활용식의약품등안전관리선진해외사례조사 101 3.1 선진해외사례조사개요 101 3.2 선진해외사례시사점 115 4. 업무환경및현황분석종합 119 4.1 주요현안 119 4.2 핵심성공요소 (CSF) 도출 120 4.3 주요정보화요구사항 (CIR) 도출 121 제 3 장빅데이터기반구축업무설계 122 1. 주제별클러스터분류방안수립및후보군도출 122 1.1 사고 위해예측을위한주제별클러스터분류방안 122 1.2 사고 위해예측을위한주제별클러스터후보군도출 127 2. 데이터연계 분석등빅데이터기반구축을위한업무설계 131 3. 빅데이터활용과제에대한프로세스설계 135
제4장식의약품등사고 위해예측을위한최적화된데이터기반구축 139 1. 사고 위해전조포착및관련정보서비스구성요소도출 139 1.1 사고 위해예측을위한전조포착지표의설정 139 1.2 사고 위해예측을위한서비스구성요소도출 141 2. 주제별클러스터분류방안수립및후보군최적화 143 2.1 사고 위해예측을위한데이터클러스터의분류및후보군최적화 143 2.2 사고 위해예측을위한주제별클러스터후보군최적화방향성 147 3. 학술데이터및웹기반 SNS 키워드검색방안 155 4. 사고 위해분석데이터구조설계및표준화방안 158 4.1 사고 위해분석데이터정의 158 4.2 데이터표준화방안 159 5. 서비스업무설계및운영방안 164 5.1 예측기반서비스활용을위한업무설계 164 5.2 식의약품등사고 위해예측분석시나리오구성 165 5.3 사고 위해예측을위한데이터마이닝분석방안 166 5.4 빅데이터를활용한사고 위해예측기반분석모델 168 5.5 위기대응활용을위한정보제공방안 174 5.6 예측기반서비스운영방안 176 제 5 장사고위해예측기반시스템구축및이행전략 183 1. 식의약품등위해관리정보화비전및전략 183 1.1 정보화비전및추진목표도출 183 1.2 사고 위해예측기반시스템구축과제 183 2. 사고 위해예측을위한목표시스템 185 2.1 사고 위해예측시스템서비스구성도 185 2.2 사고 위해예측빅데이터플랫폼구축방안 186 2.3 G-클라우드활용방안 211 2.4 빅데이터백업방안 216 3. 사고위해예측시스템관리방안 218 3.1 운영관리조직도 218 3.2 정보보안및개인정보보호방안 219 3.3 법제도개선사항 221 4. 이행계획수립 227 4.1 이행계획수립개요 227 4.2 이행계획수립전략 227 4.3 이행과제정의 228 4.4 우선순위평가 230
4.5 단계별이행로드맵 231 4.6 사업추진조직및추진일정 231 4.7 소요예산및자원계획 232 4.8 기대효과 239 표목차 [ 표 2-1] 임상시험계획승인현황 5 [ 표 2-2] 식품등수입현황 8 [ 표 2-3] 연도별의약품수입현황 8 [ 표 2-4] 의료기기산업수입현황 9 [ 표 2-5] 마약류원료물질수입승인건수 9 [ 표 2-6] 2013년산업별사업체수, 종사자수 10 [ 표 2-7] SWOT 분석 12 [ 표 2-8] 데이터수집주요활동 15 [ 표 2-9] 데이터수집기술 15 [ 표 2-10] 데이터유형에따른수집기술 16 [ 표 2-11] 수집관련솔루션 16 [ 표 2-12] 크롤링수집기술고려사항 17 [ 표 2-13] Open API 수집기술고려사항 17 [ 표 2-14] Log Aggregator 수집기술고려사항 18 [ 표 2-15] RDB Aggregator 수집기술고려사항 18 [ 표 2-16] 방식에따른데이터처리기술 22 [ 표 2-17] 처리구분따른데이터처리기술 22 [ 표 2-18] 데이터처리기술고려사항 23 [ 표 2-19] 데이터처리기술도입시고려사항 25 [ 표 2-20] 빅데이터저장기술 34 [ 표 2-21] 확장기술비교 34 [ 표 2-22] 빅데이터하둡플랫폼솔루션 35 [ 표 2-23] 빅데이터 NoSQL 플랫폼솔루션 37 [ 표 2-24] RDB 테이블저장기술고려사항 37 [ 표 2-25] NoSQL 저장기술고려사항 38 [ 표 2-26] 분산파일시스템저장기술고려사항 39 [ 표 2-27] RDB, NoSQL, 분산파일시스템저장방식비교 40 [ 표 2-28] 데이터분석주요활동 41
[ 표 2-29] 통계기법분류 42 [ 표 2-30] 데이터마이닝에서의주요개념 42 [ 표 2-31] 데이터마이닝에의주요기법 43 [ 표 2-32] 텍스트마이닝수행단계 43 [ 표 2-33] 빅데이터분석도구 44 [ 표 2-34] 데이터마이닝고려사항 45 [ 표 2-35] 텍스트마이닝고려사항 46 [ 표 2-36] 소셜네트워크분석고려사항 47 [ 표 2-37] CEP 고려사항 47 [ 표 2-38] 빅데이터분석도구상용비상용비교 52 [ 표 2-39] 빅데이터시각화기술 54 [ 표 2-40] 데이터의시각화기술고려사항 58 [ 표 2-41] 식품행정통합시스템주요기능 62 [ 표 2-42] 식품정보활용시스템주요기능 64 [ 표 2-43] 식품안전정보포털주요기능 65 [ 표 2-44] 개인정보보호방안예시 67 [ 표 2-45] 개방데이터셋의내용 68 [ 표 2-46] 진료내역정보개방항목 70 [ 표 2-47] 의약품처방정보개방항목 72 [ 표 2-48] 건강검진정보개방항목 74 [ 표 2-49] 24개종암유병율데이터내용 77 [ 표 2-50] 4개종암유병율데이터형태 78 [ 표 2-51] 의료정보현황 78 [ 표 2-52] 빅데이터분석테이블정보및갱신주기 79 [ 표 2-53] 테이블정보예시 79 [ 표 2-54] 컬럼정보예시 80 [ 표 2-55] 코드정보예시 80 [ 표 2-56] 데이터셋형태및제공건수 81 [ 표 2-57] LOD 서비스주요데이터셋 82 [ 표 2-58] 위해발생단계별데이터분류 85 [ 표 2-59] 품목별데이터분류 85 [ 표 2-60] 식품의위해발생단계별데이터현황 87 [ 표 2-61] 의약품위해발생단계별데이터현황 90 [ 표 2-62] 의료기기위해발생단계별데이터현황 93 [ 표 2-63] 화장품위해발생단계별데이터현황 94 [ 표 2-64] 관계기관위해발생단계별데이터현황 95 [ 표 2-65] 외부기관위해발생단계별데이터현황 100
[ 표 2-66] 선진사례벤치마킹요약 101 [ 표 2-67] FDA-iRISK 위해도계산방식 111 [ 표 2-68] DALY Endpoint 산출예시 113 [ 표 3-1] 식품분야의위기형태 / 유형 123 [ 표 3-2] 26개의위기상황 123 [ 표 3-3] 위기상황에따른주제별클러스터분류예시 124 [ 표 3-4] 업무프로세스에따른주제별클러스터분류예시 125 [ 표 3-5] 사고 위해사례와위해구성요소 126 [ 표 3-6] 식품의약품군안전문제관련유형 126 [ 표 3-7] 안전문제유형별데이터후보군 128 [ 표 3-8] 사고 위해예측을위한서비스별데이터후보군 129 [ 표 3-9] 설계단계진행및수행내용 133 [ 표 3-10] 연계프로세스 134 [ 표 3-11] 빅데이터활용과제도출 137 [ 표 4-1] 안전문제유형별분류상세화 143 [ 표 4-2] 위기상황별분류 145 [ 표 4-3] 식품업무프로세스별분류 147 [ 표 4-4] 예측구성요소별분류 147 [ 표 4-5] 위기상황대비업무프로세스별데이터후보매핑 ( 식품 ) 예시 148 [ 표 4-6] 사고위해관련분야별키워드예시 155 [ 표 4-7] 사고 위해분석데이터정의 158 [ 표 4-8] 데이터표준정의를위한용어 160 [ 표 4-9] 도메인구성요소예 161 [ 표 4-10] 사고 위해정보의구성요소별 Library( 안 ) 162 [ 표 4-11] 사고 위해정보의품목 Library 예시 ( 안 ) 163 [ 표 4-12] 사고 위해정보의위해요소 Library 예시 ( 안 ) 163 [ 표 4-13] 사고 위해정보코드화시코드체계예시 163 [ 표 4-14] 서비스업무설계 164 [ 표 4-15] 식품의위기단계결정을위한업무프로세스 168 [ 표 4-16] 식품의위기단계결정시데이터클러스터 168 [ 표 4-17] 위해정보시그널관련데이터현황 ( 식품 ) 169 [ 표 4-18] 위기단계분석데이터현황 ( 식품 ) 170 [ 표 4-19] 데이터를통한의사결정기준제시 171 [ 표 4-20] 인력측면의조직세분화 178 [ 표 4-21] 데이터및서비스거버넌스 178 [ 표 4-22] 역량진단모델항목 ( 대항목 ) 179 [ 표 4-23] 역량진단모델항목대항목대비중항목개념 180
[ 표 5-1] 수집플랫폼의구성요건과역할정의 186 [ 표 5-2] 빅데이터수집 / 연계기능 187 [ 표 5-3] 빅데이터분석을위한데이터및저장형태 190 [ 표 5-4] 주요빅데이터분석기술 191 [ 표 5-5] CEP의기능 194 [ 표 5-6] 대시보드주요기능 196 [ 표 5-7] 분석영역별분석기법및적용업무 197 [ 표 5-8] 위해감지서비스기능구조 200 [ 표 5-9] 위해도분석서비스기능구조 200 [ 표 5-10] 국내 / 해외위해정보서비스기능구조 200 [ 표 5-11] 행정 / 기준정보서비스기능구조 201 [ 표 5-12] 공통기반서비스기능구조 201 [ 표 5-13] 서비스포탈관리기능구조 201 [ 표 5-14] 대국민서비스기능구조 202 [ 표 5-15] 빅데이터플랫폼아키텍처필요기능 204 [ 표 5-16] 빅데이터플랫폼도입대상소프트웨어구성요건 205 [ 표 5-17] 빅데이터기반플랫폼개발대상기능 207 [ 표 5-18] 사고 위해예측포탈서비스인프라구성예시 209 [ 표 5-19] 데이터연계 수집인프라구성예시 209 [ 표 5-20] 데이터저장인프라구성예시 209 [ 표 5-21] 데이터분석 처리인프라구성예시 210 [ 표 5-22] 데이터시각화인프라구성예시 210 [ 표 5-23] 구성요소설명 212 [ 표 5-24] G-클라우드제공 H/W 서비스카탈로그 214 [ 표 5-25] G-클라우드기반사고 / 위해예측시스템 H/W 선정기준 214 [ 표 5-26] 디스크 RAID 구성방식 216 [ 표 5-27] 조직별역할과책임 218 [ 표 5-28] 빅데이터일반관련법률의전체개괄 221 [ 표 5-29] 식품 의약품안전관련법률의전체개괄 222 [ 표 5-30] 빅데이터활용가능성이많고제약사항이적은정보 225 [ 표 5-31] 빅데이터활용가능성이많으나제약사항이있는정보 226 [ 표 5-32] 빅데이터기반구축이행과제 228 [ 표 5-33] 활용과제별이행과제 229 [ 표 5-34] 우선순위평가방법예시 230 [ 표 5-35] 사고 위해예측시스템구축단계 231 [ 표 5-36] 1단계기간별투입인력 233 [ 표 5-37] SW기술자평균임금 233
[ 표 5-38] 1단계소프트웨어개발비산정 234 [ 표 5-39] 2단계소프트웨어개발비산정 234 [ 표 5-40] 3단계소프트웨어개발비산정 235 [ 표 5-41] 1단계하드웨어도입비용산정 236 [ 표 5-42] 2단계하드웨어도입비용산정 236 [ 표 5-43] 3단계하드웨어도입비용산정 237 [ 표 5-44] 상용소프트웨어산정기준 237 [ 표 5-45] 1단계소프트웨어도입비용 238 [ 표 5-46] 2단계소프트웨어도입비용 238 [ 표 5-47] 3단계소프트웨어도입비용 238 [ 표 5-48] 단계별총예상소요비용 239 [ 표 5-49] 정량적기대효과 240 [ 표 5-50] 산업파급도의개선효과 240 [ 표 5-51] 업무효율성증대에따른기대효과 240 그림목차 [ 그림 1-1] 사업추진조직도 2 [ 그림 2-1] 빅데이터도입수준과도입시선결과제 3 [ 그림 2-2] 정부보건의료 R&D투자변화 5 [ 그림 2-3] 부처별규제개혁수용률 6 [ 그림 2-4] 국내식품 외식산업규모의증가 7 [ 그림 2-5] 글로벌및국내건강기능식품시장성장 7 [ 그림 2-6] 인터넷쇼핑이용실태조사 8 [ 그림 2-7] 빅데이터주요기술범주및요소기술 14 [ 그림 2-8] Open Source Apache Nutch의구조도 19 [ 그림 2-9] 공공데이터포털오픈API검색및개발계정신청화면 20 [ 그림 2-10] 트위터 API 인증발급및적용예시 20 [ 그림 2-11] Flume의아키텍처 21 [ 그림 2-12] Flume Agent 설정예시 21 [ 그림 2-13] mapreduce 처리구조 26 [ 그림 2-14] Cloudera Impala 아키텍처 27 [ 그림 2-15] Spark Streaming 처리 27 [ 그림 2-16] SNS 데이터수집모델 28
[ 그림 2-17] SNS 데이터전처리및분석모델 29 [ 그림 2-18] SNS 데이터분석수행절차 29 [ 그림 2-19] IBM Netezza AMPP 아키텍처 32 [ 그림 2-20] Geenplum 아키텍처 32 [ 그림 2-21] Vertica 아키텍처 33 [ 그림 2-22] Hadoop 아키텍처 33 [ 그림 2-23] Hadoop 분산파일시스템구조 41 [ 그림 2-24] Esper CEP 아키텍처 48 [ 그림 2-25] EPL 언어예시 48 [ 그림 2-26] 빅데이터분석프로세스예시 49 [ 그림 2-27] Google 트렌드 R, SAS, SPSS 비교 52 [ 그림 2-28] Google 스칼라 Hit 52 [ 그림 2-29] R스튜디오화면예시 53 [ 그림 2-30] 누적막대그래프와시계열그래프예시 55 [ 그림 2-31] 도넛차트와누적영역그래프예시 55 [ 그림 2-32] 버블차트와스템플롯그래프예시 56 [ 그림 2-33] 체로노프페이스, 다차원척도법, 아웃라이어찾기예시 56 [ 그림 2-34] 점지도, 등치선도, 단계구분도, 도형표현도, 유선도예시 57 [ 그림 2-35] 인포그래픽예시 57 [ 그림 2-36] 식품의약품안전처인포그래픽 57 [ 그림 2-37] SAS Visual Analytics 화면예시 59 [ 그림 2-38] 마이크로스트리티지 9.3.1 화면 60 [ 그림 2-39] SAP 비주얼인텔리전스화면 60 [ 그림 2-40] 솔트룩스 RAINBOW 화면 61 [ 그림 2-41] 통합식품안전정보망개요도 61 [ 그림 2-42] 통합식품안전정보망주요내용 62 [ 그림 2-43] 식품행정통합시스템개요도 63 [ 그림 2-44] 식품정보활용시스템개요도 64 [ 그림 2-45] 식품안전정보포털개요도 65 [ 그림 2-46] 식품안전정보포털접속화면 66 [ 그림 2-47] 공공데이터포털시스템구성도 81 [ 그림 2-48] 공공데이터포털 LOD 서비스 82 [ 그림 2-49] 식품산업의가치사슬 83 [ 그림 2-50] 의약품산업의가치사슬 83 [ 그림 2-51] 품목별소비흐름가치사슬 84 [ 그림 2-52] 시카고시데이터혁신을위한조직구성변천 102 [ 그림 2-53] 시카고시데이터혁신및빅데이터플랫폼구축마일스톤 103
[ 그림 2-54] 시카고시데이터혁신을구성하는세가지주축시스템 103 [ 그림 2-55] 시카고시빅데이터서비스모델예시 104 [ 그림 2-56] 식품점검우선순위예측모델 105 [ 그림 2-57] 식품점검우선순위업소선별시뮬레이션 105 [ 그림 2-58] 시뮬레이션결과에따른조기발견율사례 106 [ 그림 2-59] 윈디그리드화면예시 107 [ 그림 2-60] Smart Data Platform 운영체계 108 [ 그림 2-61] FDA-iRISK의결과값화면 110 [ 그림 2-62] FDA-iRISK 전체개념도 111 [ 그림 2-63] FDA-iRISK 위해도계산방식 112 [ 그림 2-64] 정성적위해도평가표 114 [ 그림 2-65] QPRAM 개념도 115 [ 그림 2-66] 선진해외사례로본시스템구축로드맵 118 [ 그림 2-67] 핵심현안과개선방안매핑 120 [ 그림 2-68] 핵심성공요소와정보화요구사항 121 [ 그림 3-1] 사고 위해정보의구성도 125 [ 그림 3-2] 빅데이터기반구축업무절차 131 [ 그림 3-3] 구축업무프로세스 131 [ 그림 3-4] 빅데이터활용과제프로세스설계 135 [ 그림 3-5] 위해사고유형별대응활동정도 136 [ 그림 3-6] 선진사례대비빅데이터활용방향 136 [ 그림 3-7] 예측분석을활용한사전예측프로세스 137 [ 그림 3-8] 위해도분석및평가프로세스 138 [ 그림 3-9] 데이터검색및연계 / 수집프로세스 138 [ 그림 4-1] 사고 위해대응활동 139 [ 그림 4-2] 빅데이터활용서비스모델구성도 140 [ 그림 4-3] 사고 위해예측기반서비스과제도출구조도 141 [ 그림 4-4] 사고 위해조기포착모델 ( 상황인지 ) 142 [ 그림 4-5] 사고 위해전조예측및재발방지모델 ( 예측분석 ) 142 [ 그림 4-6] 위기상황과업무프로세스매핑 148 [ 그림 4-7] 사고 위해분석데이터구조 158 [ 그림 4-8] 데이터표준항목간기본관계 159 [ 그림 4-9] 표준도메인의도출 160 [ 그림 4-10] 표준코드사전예 161 [ 그림 4-11] 데이터표준화구축절차예시 162 [ 그림 4-12] 예측기반서비스활용을위한업무프로세스 165 [ 그림 4-13] 텍스트마이닝분석과정 167
[ 그림 4-14] 위해요소별위해평가흐름도 173 [ 그림 4-15] 식품의위기단계의사결정지원모델 174 [ 그림 4-16] 빅데이터시각화예시 174 [ 그림 4-17] 대시보드도구를활용한대시보드구성예시 175 [ 그림 4-18] 링크드데이터개요및구축공정 175 [ 그림 4-19] Push서비스구조도 175 [ 그림 4-20] 국민건강주의예보시범서비스과정 176 [ 그림 4-21] 심실부정맥예측프로세스 177 [ 그림 4-22] 역량진단모델구성 179 [ 그림 4-23] 역량진단모델 3. 분석역량의중항목및소항목 181 [ 그림 4-24] 역량수준 182 [ 그림 4-25] 역량진단결과예시 182 [ 그림 5-1] 정보화비전및목표 183 [ 그림 5-2] 사고 위해예측시스템서비스구성도 185 [ 그림 5-3] 사고 위해예측빅데이터플랫폼구성도 186 [ 그림 5-4] 사고 위해예측빅데이터수집플랫폼 187 [ 그림 5-5] 빅데이터저장플랫폼구성및역할 188 [ 그림 5-6] 빅데이터저장플랫폼구성방향성 189 [ 그림 5-7] 저장필요데이터및저장형태 189 [ 그림 5-8] 데이터형태변환 (RDB to NoSQL) 190 [ 그림 5-9] 분석플랫폼구성도 191 [ 그림 5-10] 빅데이터분석플랫폼개념도 192 [ 그림 5-11] 하둡에코시스템구성도 192 [ 그림 5-12] 하둡기반분석개념도 193 [ 그림 5-13] Esper CEP 흐름도 194 [ 그림 5-14] 사용자주도분석개념도 195 [ 그림 5-15] 서비스포털구성도 198 [ 그림 5-16] 서비스포탈서비스개념도 199 [ 그림 5-17] 식약처내서비스기능구조도 199 [ 그림 5-18] 대국민서비스기능구조도 202 [ 그림 5-19] 웹표준화및접근성준수개요 203 [ 그림 5-20] 모바일웹아키텍처예시 203 [ 그림 5-21] 전자정부프레임워크개요 204 [ 그림 5-22] 전자정부물리적인프라시스템구성예시 211 [ 그림 5-23] 전자정부소프트웨어구성예시 211 [ 그림 5-24] G-클라우드빅데이터구성요소도출 212 [ 그림 5-25] 빅데이터분석플랫폼모델 213
[ 그림 5-26] G-클라우드전환을위한기관간업무절차 215 [ 그림 5-27] 사고 위해예측시스템운영조직도 218 [ 그림 5-28] 정보보안체계개요 219 [ 그림 5-29] 영역별보안요소 220 [ 그림 5-30] 이행계획개요및수립절차 227 [ 그림 5-31] 이행계획수립전략 227 [ 그림 5-32] 이행과제우선순위예시 230 [ 그림 5-33] 사업추진조직도 231 [ 그림 5-34] 사고 위해시스템 1단계구축일정 232 [ 그림 5-35] HDFS 데이터저장방식 236 부록목차 부록 1. 품목별위해요소분류 ( 안 ) 241 부록 2. 의약품의위기단계별데이터프로파일 245
제 1 장사업개요 1. 사업개요 1.1 사업명빅데이터활용식품의약품등위해 사고예측기반구축정보화전략계획 (ISP) 수립 1.2 주관기관및사업자 주관기관 : 식품의약품안전처 사업자 : 엔투엠 1.3 사업예산 일금56,400,000원 ( 일금오천육백사십만원 )( 부가세포함 ) 1.4 사업기간 2015년 8월 28일 ~ 2015년 12월 29일 (4개월) 2. 사업목적 식품의약품등사고 위해의전조를예측하거나안전관리업무의실효성확보및정책정확성 을높이기위한과학적근거를제공하기위해현안해결형빅데이터예측기반구축정보화전 략계획수립이다. 3. 사업범위 1) 빅데이터를활용한식품의약품등안전관리선진해외사례조사미국등빅데이터예측기반구축및정책정보지원서비스활용사례조사와선진사례를통한빅데이터활용방향성을도출함과동시에선진사례를통한시스템구축방향성을도출한다. 더불어해외위해정보관리방안에대한조사를수행한다. 2) 식품의약품등사고 위해예측을위한빅데이터기반구축설계사고및위해예측을위한빅데이터기반구축설계영역에서는주제별클러스터분류방안수립및후보군도출을중심으로데이터연계, 분석등빅데이터기반구축을위한서비스설계와빅데이터활용과제에대한프로세스설계를수행한다. - 1 -
3) 식품의약품등사고 위해예측을위한최적화된데이터기반구축사고 위해예측을위한최적화된데이터기반구축영역에서는전조포착및관련정보서비스구성요소도출과주제별클러스터분류방안수립및후보군최적화및학술데이터및웹기반 SNS의공유 활용을위한키워드검색방안마련, 사고 위해전조포착및관련정보서비스업무설계및운영방안마련을위한활동을수행한다. 4) 빅데이터활용식품의약품등사고 위해예측기반구축계획수립빅데이터활용식품의약품등사고 위해예측기반구축계획수립영역에서는적용기술동향및선진사례분석, 비전및목표시스템아키텍처정의, 시스템구축계획수립, 정보보안및개인정보보호방안, 중장기로드맵수립, 법제도개선사항수립에대한활동을수행한다. 4. 사업추진체계 [ 그림 1-1] 사업추진조직도 - 2 -
제 2 장업무환경및현황분석 1. 업무환경분석 1.1. 환경분석서 1) 외부환경분석가 ) 일반환경가트너는 빅데이터투자는증가하나효율적활용은드물다. 는설문조사분석보고서에서, 빅데이터도입시선결과제로실질적가치확보방안, 전략수립, 기술및역량, 다양한데이터원의통합등이특히중요하다는응답을받았다고발표했다. 이는빅데이터구축시인프라 / 아키텍처, 기술및역량과같은하드웨어적, 정보기술적요소외에실질적가치활용방안, 전략수립등과같은소프트웨어적, 업무적, 전략적요소가핵심성공요인또는핵심장애요인이될수있음을지적한것으로보인다. 1) [ 그림 2-1] 빅데이터도입수준과도입시선결과제 < 출처 :Garther 2014, Big data Investment Grows but Deployment Remain Scarce> 맥킨지컨설팅은 게임체인저, 미국성장과부흥을위한 5가지기회분야 2) 에서빅데이터가미국의생산성향상과비용절감효과에연간 3,250억달러이상을기여할수있으며, 특히정부서비스부문과헬스케어부문에서비효율성을감소시켜연간 2,850억달러의비용절감효과를기대할수있다고예측하며빅데이터에대한높은기대를반영했다. 영국의저명한경제자문사인 Center for Economics and Business Research 사는빅데이터를공공및민간영역에도입할경우 2012년에서 2017년까지영국산업전체에서약 2,160 억파운드의경제적효과가발생할것이고, 공공부문에서연간 160억파운드에서 330억파운드를절감할수있을것으로예측했는데, 이절감액은영국정부예산총액인 7천억파운드의약 2.5% 에서 4.5% 에해당하는금액이다. 3) 1) Gartner(2014), Big data Investment Grows but Deployment Remain Scarce in 2014 2) McKinsey Global Institute(2013.7), Game Changers : Five opportunities for US growth and renewal 3) 윤미영 (2013), 한국정보화진흥원, 주요국의빅데이터추진분석및시사점 - 3 -
New Vantage가 Fortune 1,000대기업을대상으로빅데이터활용현황을조사한결과생산업무에서빅데이터이니셔티브를활용하고있다는응답이 67% 로 2013년보다두배가늘어나기업들의빅데이터활용이크게늘어나고있음을알수있다. 이들기업은단순히정보수집정도의활용에서벗어나파일럿형태등을통해업무에실질적으로빅데이터를활용하고있다. 국내에서도공공부문빅데이터활용으로행정효율성제고, 세수증대등을통해최대 4조 2 천억원 (GDP의 0.4%) 의부가가치창출을전망하고있다. 4) 이에따라정부 3.0에의한공공데이터의지속적확대와클라우드기반 IT인프라를구축하고있으며, 정보기술아키텍처 (EA) 를통한유관기관과의정보연계및시스템통합지원을지속적으로추진하고있다. 한편, 기업들이치열한경쟁환경에서가치있는고객정보를추출하는데집중하면서프라이버시침해와심지어는해킹으로인한피해우려도점차커지고있다. 일부기업들이정교해진데이터마이닝기술을통해개인을식별하고이를통해표적마케팅을하는것으로드러나고있으며, 이에따라정부와시민단체에서는개인정보유출을방지하는법안및규제강화필요성이제기되고있으며, 민간에서는정보보안관련기술의수요가증대될것으로예상하고정보보안기술개발에대한투자를증대하고있다. 나 ) 정책환경정부의빅데이터관련정책은 2011년 11월국가정보화전략위원회의 빅데이터를활용한스마트정부구현 ( 안 ) 과이를기초로 2012년방통위가작성한 빅데이터서비스활성화방안, 그리고 2012년 12월당시교육부, 행안부등의 스마트국가구현을위한빅데이터마스터플랜 등에서구체화되었다. 이들보고서에서는정부도빅데이터분석및활용기술이차세대 ICT산업의패러다임을선도하는분야임을인식하고빅데이터의활용및기반조성을위해정부내조직을신설하고다양한사업을추진하는내용이담겨있다. 2012년 스마트국가구현을위한빅데이터마스터플랜 에기초하여정부내각부처에서빅데이터활용성과사례가나오고있는데, 대표적으로수요자중심의맞춤형서비스 정보제공사례로는중기청의 상권분석을통한자영업자창업실패예방, 복지부의질병데이터분석을기초로건강위험요인사전경보 등을들수있으며, 사회적이슈 사고의선제적예측및조기대응사례로는 경찰청의범죄발생장소 시간예측으로범죄발생최소화, 여가부의 빅데이터분석을통한위기청소년징후조기경보 등을들수있다. 정부는서비스산업육성과일자리창출을위해규제개혁에적극적인데, 이를위해규제개혁위원회가꾸려지고규제개혁장관회의및민관합동규제개혁점검회의가대통령주재하에진행되고있다. 이는식품의약품안전처가국민안전을위한규제강화보다는규제합리화또는산업활성화를위한조치들을요구받고있는상황을의미하며, 위에서예시된정부내사례처럼빅데이터분석등을통한식의약품등이슈 사고의선제적예측및조기대응이필요함을의미한다. 4) 교육과학기술부, 안전행정부, 지식경제부, 방송통신위원회, 국가과학기술위원회 (2012), 스마트국가구현을위한빅데이터마스터플랜 - 4 -
먹을거리관리로식품안전신뢰제고 가국정과제중식품의약품안전처과제로선정되었으며, 주요추진계획으로불량식품근절종합대책추진, 통합식품안전정보망및소통전담조직구축, 부적합식품차단및추적관리시스템강화등이제시되었고범부처공통과제로는불량식품안전문화정착, 범부처기획감시수행계획논의 평가, 불량식품근절 5개년종합계획수립, 불량식품관련대외커뮤니케이션방안등이제시되었다. 다 ) 보건의료환경분석제약, 바이오, 의료기기등을포함하는보건의료관련정부의 R&D 투자가 2008년에서 2013년사이에 2배가량증가하고있으며, 금액으로는 1조 2천억원에육박하고있다. 이에따라해당품목들에대한관리와인허가를담당하는식품의약품안전처업무에상당한변화가예상된다. [ 그림 2-2] 정부보건의료 R&D 투자변화 < 출처 : 보건복지부 > 전통적으로정부 R&D 투자및지원의대부분을차지했던석유화학등주력산업들이중국의추격등으로국제경쟁력이떨어지면서기술집약적첨단산업들인제약산업, 바이오산업, 정밀의료기기산업등으로옮겨가는현상이발생하고있으며, 이에따라국내제약업체들사이에도복제약이아닌신약개발투자가활발해지면서국내업체중한미약품과같은글로벌신약개발성공사례도등장하고있다. 이로인해신약, 신물질, 치료 / 진단기기등에대한인증요구가늘어남에따라식품의약품안전처업무에변화가예상된다. [ 표 2-1] 임상시험계획승인현황 : 식품의약품안전처통계연보 구분 2014 2013 2012 2010 2005 2002 의약품임상시험계획승인 652 607 670 439 185 55 의료기기임상시험 63 77 76 38 8 8-5 -
[ 그림 2-3] 부처별규제개혁수용률 ( 수용 / 답변 ) < 출처 : 규제개혁위원회 > 라 ) 식의약산업환경분석오늘날우리나라의보편적인현상으로나타나는 Well-being 현상은미래사회에서 Well-dying에대한욕구증대와중첩강조될것이며, 사회문화적인측면에서안전사회문화 (Safe society culture) 가보편적현상이될것이다. 또한식의약품등안전에관한국민적관심의증대와더불어인터넷, 소셜네트워크등다양한정보전달미디어의발달로인해소비자들의식의약품에대한정보가빠른속도로확산되고있으며, 이에따라위해및위험사항발생시국민의불안감전파는빠르게전달되고있다. 식품의약품안전처의사고 위해에대한초기대응이늦어지거나부실할경우불필요한불만, 불안감이급속도로전파될수있으며, 이에따라식의약품안전관리와관련해서식품의약품안전처의조기대응및빠른조치가어느때보다중요해지고있다. 지난 10년간국내식품 외식산업은금액기준 70.7% 증가했으며절대금액으로는약 65조원이증가했다. 특히학교급식이나회사단체급식등급식산업의증가가가장뚜렷하다. 이는단체급식이나외식증가로인해식품의위해노출시그파급도가개인에그치지않고다수의국민에게영향이있음을의미하며, 이에따라식품위해관리에있어서예방적, 선제적대응이더욱중요하다. 식의약품안전관리현황을보면 2000년이후중국에서수입되는식품이많아지는현상및이에따른사고와축산물의소비증가로인한문제, 영유아및어린이식품안전관리문제, 건강기능식품안전관리문제, 즉석판매제조가공식품안전관리문제, 의약품의인터넷불법구매, 진단없는복용등의안전관리문제등이이슈로떠오르고있다. - 6 -
[ 그림2-4] 국내식품 외식산업규모의증가-10년간국내식품산업성장추이 < 출처 :at한국농수산식품유통공사(2015년도식품산업주요지표, 2015)> 건강기능식품소비의증가와자가치료의료기기시장의확대그리고남성용화장품소비증가등새로운유형의품목군이지속확대되고있으며, 이와같은새로운품목유형들은기존품목들과는다르게이종품목들간결합하는특성들을보이고있다. 예를들어식품과의약품의중간적특성을보이는건강기능식품의경우시장규모가 2006년약 7천억원에서 2015년약 1조 6천억원규모로확대될것으로예상된다. [ 그림 2-5] 글로벌및국내건강기능식품시장성장 < 출처 : 신한금융투자 ( 이지용연구원보고서, 2013)> 최근인터넷을통한식음료, 건강식품등의구입이크게증가하고있어, 이는식품의약품안전처관리대상인유통 판매채널이확산되어관리대상이증가함에따라, 식품의약품안전처관리업무에위협요인인동시에온라인상의정보수집 분석을할수있어식의약품등안전관리에기회요인이기도하다. - 7 -
[ 그림 2-6] 인터넷쇼핑이용실태조사 ( 단위 :%) < 출처 :KISA> 가공식품, 기구 용기포장, 농 임산물등에대한수입증가가최근 10년기간동안에약 2~4 배까지증가하고있으며, 이는통관단계에서의규제강화는국가간분쟁으로이어질소 지가있다는점으로인해국내식의약품등의안전관리와는다른차별적인안전관리가요 구된다. [ 표 2-2] 식품등수입현황 ( 건수 ) 품목별 2013 2012 2011 2010 2009 가공식품 189,064 174,123 167,084 157,570 139,782 기구ㆍ용기포장 74,051 66,258 63,051 56,947 44,268 농ㆍ임산물 49,767 46,781 42,416 39,413 33,118 < 출처 : 통계청 KOSIS 시스템조회 > 2009년이후완제의약품의수입액은지속적으로증가하는추세를보이고있으며자급 도는 80% 대를유지하고있다고보고하고있음 ( 한국보건산업진흥원 2014년제약산업 분석보고서 ) [ 표 2-3] 연도별의약품수입현황 ( 천달러 ) 구분 2013 2012 2011 2010 2009 원료의약품 1,695,215 2,075,579 1,981,487 1,898,384 1,754,005 완제의약품 3,013,133 3,008,258 2,934,138 2,520,095 2,127,130 < 출처 : 한국의약품수출입협회, Facts & Survey> - 8 -
[ 표 2-4] 의료기기산업수입현황 ( 천달러 ) 구분 2013 2012 2011 2010 2009 수입 2,728,888 2,600,999 2,521,148 2,265,836 1,879,359 < 출처 : 한국보건산업진흥원통계DB> [ 표 2-5] 마약류원료물질수입승인건수 구분 2012 2011 2010 2009 2008 무수초산 180 168 168 139 142 아세톤 345 339 334 249 315 과망간산칼륨 274 217 233 202 153 기타 635 699 440 172 44 총계 1,434 1,423 1,175 762 654 < 출처 : 식품의약품안전처마약정책과 > 마 ) 정보환경인터넷인구의지속적확산, 모바일정보통신의일상화로인한 SNS의사용증가, 사물인터넷등장으로데이터생산량이급격히증가하고있다. 빅데이터의수집및분석을통하여특정상황에대한파악및미래발생사건을예측하려는시도가다양한분야에서이뤄지고있으며, 예측분석의결과를토대로새로운통찰이나대응 실행능력을개선하는시도도이뤄지고있다. 식품의약품안전처도식의약품등에대한국민의안전을모니터링하고위기대응하는업무를맡고있다는점에서빅데이터를활용한선제적안전관리의시도가필요한시점이다. 2) 내부환경분석식품의약품안전처장은 2015년취임사에서안전관리에있어시스템적역량강화, 식의약품등안전의고도화, 실질적성과창출이라는전략과제를제시하고있는데, 이는식의약품등안전관리의현행수준을높일혁신적인방안이요구된다는것이다. 식의약품등에대한안전관리의혁신적방안은빅데이터기술을이용한상황인지및예측분석등을통하여그역량이크게향상될수있다. 식품분야의경우음식점및주점업이사업체수약 64만개로관리대상영역이가장넓고, 식료품제조업은사업체수가약 5만 3천여개에이른다. 식품산업은사전허가 인증을통한안전관리수단이없거나약하여, 유통 판매이후안전관리에집중되고있다. 식품위해관리의이러한특성, 즉, 관리대상영역이넓고사전안전관리수단이적은점은예방적안전관리를위해데이터의활용여지가높음을의미한다. - 9 -
[ 표 2-6] 2013년산업별사업체수, 종사자수 ( 사업자등록증기준 ) 구분 사업체수 종사자수 농업 ( 축산업포함 ) 1,884 23,004 축산업 472 5,358 어업 ( 양식어업및어업관련서비스업포함 ) 374 5,236 양식어업및어업관련서비스업 266 2,406 식료품제조업 53,832 286,875 음료제조업 1,300 16,479 의료용물질및의약품제조업 906 34,786 의료용기기제조업 4,387 36,795 의약품, 의료용기기, 화장품및방향제소매업 49,633 118,065 음식점및주점업 635,740 1,824,214 < 출처 : 통계청 (KOSIS)> 의약품및의료기기분야의경우의료용물질및의약품제조업사업체수는 906개이며, 의 료기기의경우제조업체수 2,786개 (2014년기준 ) 에이르고, 유통업체는수입업 1,473개 (2013년 12월말한국의료기기산업협회보고현황 ), 판매업 5,408개 ( 전국사업체조사 2012년 12월기준 ) 에이른다. 또한최근에온라인을통한식의약품의해외직접구매가늘고있지 만정확히그규모를파악하지못하고있는실정이다. 의약품및의료기기의사전인허가강화는국민의의료선택권제한과상충될가능성이있 어선제적안전관리강화를위해무작정사전인허가강화에만의존할수없는상황에있 다. 시장진입을근본적으로막는인허가강화보다는허가이후유통 판매단계에서의안전관 리가요구되고있는상황이다. 최근보고된사례를보면해외에서는위험보고된의약품이국내에서는부작용신고없이 처방되고있었고이에따른부작용신고가이어지는사례가존재했다. 2013년이후위험정 보가수집된 182개성분의의약품에대한처방실적으로조사한결과 54.4% 가넘는 99개성 분에대해서처방이이뤄졌고다수의부작용사례가보고되었다. 5) 이러한사례에서나타나듯 이의약품및의료기기의수입과유통이늘어날수록이에따른사전인허가및관리규정이 강화되어야하며관련추적관리가강화되어야할수밖에없다. 안전관리대상이넓은의약 품, 의료기기유통 / 판매단계에서의안전관리가요구되고있는상황은이들품목에서도빅 데이터및정보시스템활용의여지가높음을의미한다. 식품의약품안전처업무중위해정보관리업무프로세스는크게정보수집, 분석, 공유 ( 조치 포함 ), 관리등으로구분되며, 정보수집의경우국내외다양한정보소스 ( 소비자, 관련외부 기관및업체, 언론, 산하기관, 전문에디터, 해외정보리포터, 해외주재대사관등 ) 를대상으로 하고있다. 5) 국회보건복지위원회소속새누리당김현숙의원의보고, 기사 2014.10.16 해외위험보고의약품국내서대거처방 - 10 -
3) 직원인터뷰및시사점현재의안전관리업무현황파악을위하여식품의약품안전처의위해정보과, 의료기기안전평가과, 수입식품정책과, 통합식품안전정보망구축추진단과외부기관인소비자원과인터뷰를진행했다. 위해정보과 사고 위해를예측하는것과함께발생한사고를조기포착및사고를최소화시키는것도중요한빅데이터의역할로빅데이터를통해위해사고가발생한것을조기포착하고이에대응할수있는기반마련이필요하다. 기존에이슈가되었던사건사고의키워드출현빈도, SNS 등에나타난문구들의변화를웹크롤링등을통해추적하여특성을파악하여본사업에반영할필요가있으며국내식품 의약품등분야에서의대부분의사건은그이해관계자의특성상 SNS나외부에노출되지않으려는방향성이있음을고려하여예측모델을수립하여야할필요성이있다. 업무성과를평가할때위해사고를조기포착하고사고를최소화한것에대한정당한평가체계구축이필요하다. 의료기기안전평가과 빅데이터를이용하기위해서는기본적인데이터의양을수집할수있는기반마련이필요하다. 모든품목을대상으로한빅데이터활용보다는유방삽입재료와같이일반소비자들이직접불만을제기하거나사고가 SNS나뉴스등을통해확산될수있는위해와사고들을중심으로한전조예측이나조기포착대응이필요한분야로한정할필요가있을것으로보인다. 관계기관과정보수집협의시해당부서의요구에맞는정보의내용과시기등을명확히할필요가있다.( 그냥있는자료를받는것으로는한계가있음 ) 수입식품정책과 해당업무담당자 ( 전문가 ) 의견해가잘반영되는것이중요하며, 업무에직접활용하기위해서는지시적요소가명확히전달되어야할것이다. ( 즉어느임계치에서는어떤대응을해야하는지가명확히해야업무에활용가능성이클것으로보인다.) 통합식품안전정보망구축추진단 데이터의품질을확보하기위한사전적준비를철저히할필요가있으며, 데이터자체로서의의미보다어떤데이터셋을구성을할때의미있는정보를생산할수있을지에대한목적성을바탕으로데이터를구성하는것이효과적일것이다. 한국소비자원 한국소비자원은자신들의위해사고최소화업무를위해현장조사및회수, 법적조치를동반하여야할경우가많은데소비자원은법적권한이없으며, 따라서식의약품등과관련한사건사고를대처할때식품의약품안전처가자신들과함께합동으로대응을한다면상호업무효율성이증가될것으로기대된다. ( 국정업무보고시에합동대책마련지시 ) 한국소비자원은소비자민원과내부자고발, 119 긴급출동정보, 주요종합병원의진료기록과응급데이터등을직접연계하여활용하고있어식품의약품안전처와공동으로위해사고를대응할수있는사업이있을것이라사료된다. - 11 -
1.2. 환경분석종합 1) SWOT 도출외부환경및내부환경분석결과, SWOT 요소는다음과같이도출할수있다. [ 표 2-7] SWOT 분석 강점 축적된안전관리업무역량 - 대규모전문평가인력과조직 - 조직화된현장감시 / 검사인력 선제적안전관리의강력한의지 - 식품의약품안전처의안전관리강화의지 - 소비자관점의위해대응체계 - 사전예방업무로의전환노력 사전안전관리를위한소통강화 - 현장중시안전관리강조 데이터기반의위해대응미흡 - 정보수집 / 분석의통합적관리미흡 - 데이터분석을통한위해대응미흡 - 위해대응에담당자역량의존 조직내업무간정보연계부족 - 품목별, 직능별차별성으로인한정보연계부족 약점 기회 데이터분석및정보기술의발전 - 빅데이터분석기술, 오프소스기반의저비용 / 고효율기술들의등장 예측기반업무의구축동력발생 - 식품안전관련범정부적지원과관심 식의약품등의소비및유통정보의온라인화 - 온라인상의정보를수집및분석할수있는가능성이높아짐 안전관리대상의증가 - 건강기능식품, 개인건강관리제품등안전관리대상품목의증가 - 식품공급및소비채널다변화로모니터링및단속영역의확대 - 인터넷및모바일통신망의발달로식의약품사고등에대한불안감전파속도가속화 산업구조의변화에따른위해관리업무의변화 - 국내신약, 신물질개발투자및개발사례증대 위협 2) SWOT 해석및시사점정책환경과정보기술환경은식품의약품안전처위해정보관리및활용을통한안전관리를혁신적으로개선하기위한기회요인으로발견되고있는반면에사회환경은식의약품등의유통 / 판매채널의다변화, 정보전달의급속화등으로식품의약품안전처업무에새로운도전이되고있다. 현장중시, 소비자위주의예방적안전관리를위한위해평가고도화및정보기술시스템도입이진행되고있으며, 이들시스템자원들을통합적으로관리하고활용할식품의약품안전처전체차원의데이터통합과빅데이터분석플랫폼이요구된다. 민간데이터를포함하는빅데이터분석플랫폼의구축및효과적인활용과관련된통합적인위해정보수집과분석업무프로세스정립이필요하다. 식품의약품안전처관리대상영역은비약적으로증대되고있어이러한문제를해결하기위한자동화된데이터수집 / 분석과통계처리등고도의정보기술을활용한정보분석역량을강화할필요가있다. 식품의약품안전처의축적된안전관리역량과빅데이터활용을통하여안전관리대상의증가등의위협요인을대처할수있다. - 12 -
2. 정보기술환경분석 2.1 빅데이터개념분석 1) 빅데이터개요빅데이터에대한특징과정의는빅데이터플랫폼기술개발에가장먼저투자한기업중하나인 IBM은다음과같이설명하고있다. 오늘날인류는매일 2.5 퀸틸리언바이트 (quintillion bytes=2.5 10 18 ) 의데이터를생산하고있으며, 이런데이터는정보를수집하는센서, 소셜미디어, 웹문서, 디지털사진과동영상, 휴대전화의 GPS신호등모든곳으로부터생성되는데, 이모든데이터가빅데이터이다. 빅데이터는단순히크기와관련된문제가아니고, 새로운데이터처리및분석방법을통해새로운통찰력을찾을수있는기회를의미하며, 빅데이터는 Volume( 데이터크기 ), Velocity( 데이터전달속도 ), Variety ( 데이터의다양성 ), Veracity( 정확성 ) 등 4V로이루어진 4차원적특징을가진다. IT 시장조사기관인 Gartner 는빅데이터를 3V 로표현하고있다. 2001년, 데이터크기가급증하고 (Volume), 데이터전달속도가빠르며 (Velocity), 데이터구조가다양한 (Variety) 현상을관찰하여이를 3V로정의하였고이러한현상으로인해새로운도전과기회가등장할것을예상했으며, 2012년에는데이터에대한정의로, 빅데이터는크기가크고, 속도가빠르며, 다양한정보자산을가지고있다. 이는새로운데이터처리방법을필요로하는데, 이를통해새로운통찰력의발견이가능해진다ʼ라고했다. 기업정보관리를위한오픈사이트인 MIKE2.0 은빅데이터를다음과같이설명하고있다. 빅데이터의가장중요한요소는데이터의크기이지만, 보다정확하게는독립적데이터소스사이의상호작용또는연관관계의크기를의미한다. 빅데이터의두번째특징은데이터소스사이의연관관계가복잡하여데이터정제와유의미한데이터만추출해내는것이어렵다는점이며, 따라서빅데이터의 ʻ빅 (big)ʼ은단순히크기 (big volume) 가아니라복잡성 (big complexity) 에대한것으로해석하는것이적절하다. 이런특징에따른다면, ʻ크기는작지만복잡성이큰ʼ 빅데이터는존재하는반면, ʻ크기는크지만복잡성이낮은ʼ 데이터는빅데이터라고보기어렵다. ( * ʻBig Data can be very small and not all large datasets are big.ʼ) 빅데이터는데이터의엄청난크기, 빠른전송, 다양성및비정형성, 복잡성과같은특징을 가지고있어기존의기술과방법으로는활용의어려움이있었지만, 정보기술의발전으로기 업과정부에복잡한문제를해결할수있는기회를제공할것으로보인다. - 13 -
2.2 빅데이터주요구성요소빅데이터기술은기존의정형데이터처리과정과달리다양한형태 ( 정형, 비정형등 ) 의데이터처리기술및분산환경지원이가능하며, 빅데이터활용기술요소는데이터수집기술, 저장 관리기술, 데이터처리기술, 분석기술, 시각화기술및공유기술로구분할수있다. [ 그림 2-7] 빅데이터주요기술범주및요소기술 1) 빅데이터수집기술조직내부와외부의분산된여러데이터소스로부터필요로하는데이터를검색하여수동또는자동으로수집하는과정과관련된기술로단순데이터확보가아닌검색 / 수집 / 변환을통하여정제된데이터를확보하는기술이다. 가 ) 주요활동수집대상을선정하고수집을위한세부수집계획을정의한뒤수집활동을수행한다. 데이터수집주요활동은수집대상선정, 수집세부계획정의, 데이터수집수행으로구분되며상세한내역은아래의표와같다. - 14 -
[ 표 2-8] 데이터수집주요활동 항목 수집대상선정 상세내역 분석에필요한수집대상데이터를선정하되, 수집가능성여부등을 파악하고세부목록및항목을작성한다. 수집세부계획정의 데이터수집수행 수집데이터유형을분류하고관련수집기술및수집주기, 주요활동을정의한다. 수집계획에따라사전테스트를진행하여관련시스템을점검한후수집활동을수행한다. 나 ) 활용기술데이터의유형및특성에따라서크롤링, Log Aggregator, OpenAPI등다양한기술들이활용된다. [ 표 2-9] 데이터수집기술 수집방법 Log Aggregator RDB Aggregator 상세내역조직내부에존재하는웹서버의로그수집, 웹로드, 트랜잭션로그, 클릭로그, DB로그데이터등을수집한다. 관계형데이터베이스에서정형데이터를수집하여하둡분산파일시스템이나 NoSQL에데이터를저장하는기술이다. 크롤링 주로웹로봇을이용하여조직외부에공개되어존재하는소셜데이터및 인터넷자료를수집하는기술이다. 센싱각종센서를통하여생성된데이터를수집하는기술이다. RSS Reader Open API RSS는 Web기반최신의정보를공유하기위한 XML기반의콘텐츠배급프로토콜로서해당 RSS에서콘텐츠를수집한다. 서비스, 정보, 데이터등을어디서나쉽게이용할수있도록개방된 API 로데이터를수집한다. 수집기술은데이터소스로부터다양한유형의데이터를수집하기위해확장성, 안정성, 실시 간성및유연성이확보되어야한다. 수집기술선정시, 정제 / 변환과정, 전처리및저장프 로세스의필요성유무를점검하여선정한다. - 15 -
[ 표 2-10] 데이터유형에따른수집기술 데이터유형데이터종류데이터종류수집기술 정형데이터 - RDBMS의고정된필드에저장 - 데이터스키마지원 RDB, 스프레드시트 ETL, FTP, Open API 반정형데이터비정형데이터 - 데이터속성인메타데이터를가지며, 일반적으로스토리지에저장되는파일 - XML 형태의데이터로값과형식이다소일관성이없음 - 언어분석이가능한텍스트데이터 - 형태와구조가복잡한이미지, 동영상같은멀티미디어데이터 HTML, XML, JSON, 웹문서, 웹로그, 센서데이터소셜데이터, 문서, 이미지, 오디오, 비디오, IoT 데이터 크롤링, RSS, Open API, FTP 크롤링, RSS, Open API, 스트리밍, FTP 다 ) 수집관련솔루션 [ 표 2-11] 수집관련솔루션 솔루션주요기능활용사례 Sqoop Flume Chukwa Splunk Scribe kafka 대용량데이터전송솔루션으로하둡기반시스템과통합지원하며맵리듀스에사용될프로그램코드를생성한다. 분산환경에서대량의로그데이터를효과적으로수집해다른곳으로전송하는서비스로실시간로그분석가능하다. 분석서버로부터로그데이터를수집하여하둡클러스터의로그나서버의상태정보를관리해하둡파일시스템에저장하며실시간분석이가능하다. 업무현장이나클라우드상에존재하는페타비트급의기록데이터와실시간기계데이터를모니터링하고분석한다. facebook 이개발해공개한로그수집기술로대량의서버에서실시간으로전송되는로그데이터를집약해하둡분산시스템에로그를저장한다. 로그데이터를수집할뿐아니라메시징시스템을통해전송데이터를압축하고메시지를일괄전송 프로세스자동화, 데이터전송시맵리듀스를지원하여빠른처리가능하다. MicroSoft 사의 MSSQL 과 Hadoop 간의연결, Couchbase 는 Couchbase Server 와 Hadoop 간의연결에서커넥터로사용가능하다. 신뢰성, 가용성, 관리성, 확장성을설계목표로간단하고유연한구조로설계되어물리적노드와논리적노드를모두마스터가제어하도록구성된다. Chukwa Agent, Collector가있으며, 로그를 수집할대상서버에설치되며, 여러대의에이 전트로부터 로그정보를 수신하여 HDFS에 저장한다. 물리, 가상, 클라우드환경의모든 IT 시스템과인프라에서생성되는기계데이터를수집한다. 최종로그저장소는다양한저장소의활용이가능하며설치및구성이쉽고다양한프로그램언어지원한다. 단일 Kafka 브로커만으로수천개의클라이언트로부터초당수백메가바이트의읽기와쓰기처리가능하다. - 16 -
라 ) 주요고려사항 크롤링수집기술 [ 표 2-12] 크롤링수집기술고려사항 기능 정보설정기능 수집 Agent 기능 고려사항 수집할사이트의 URL 목록을관리하는기능을제공해야한다. 수집주기를설정하는기능을제공해야한다. URL, 수집주기등설정값을 Agent 에전달하는기능을제공해야한다. 각종설정이자동으로반영되거나설정을자유로이입력할수있는관리기능이제공해야한다. Agent 관리 ( 기동, 중지, 추가, 삭제 ) 기능을제공해야한다. 수집할 URL 리스트에서웹문서등컨텐츠를수집하는기능을제공해야한다. 수집한웹문서에포함된 URL 을추출하는기능을제공해야한다. 새로운 URL 리스트추가하는기능을제공해야한다. 규칙, 확률또는학습기반으로문서를분류하는기능과분류승인모듈기능을제공해야한다. 데이터수집시불필요한수집이일어나지않도록사전에대상을등록하여선별적수집이되도록하는기능을제공해야한다. 다수의웹페이지를동시에수집할수있도록병렬웹크롤링기능을제공해야한다. 수집된데이터를로컬또는원격에있는 DB 에저장할수있는기능을제공해야한다. Open API 수집기술 [ 표 2-13] Open API 수집기술고려사항 기능정보설정기능수집 Agent 기능 RDB 테이블과 Mapping 기능 고려사항 수집할대상서버의정보를설정하는기능을제공해야한다. 수집주기와반복횟수를설정하는기능을제공해야한다. URL, 수집주기를 Agent 로배포하는기능을제공해야한다. Agent 관리 ( 기동, 중지, 추가, 삭제 ) 기능을제공해야한다. Mash-Up 이용이하도록 RESTful 방식의 Open API 를제공해야한다. 웹사이트의컨텐츠자원에유일한 URI 를부여하는기능을제공해야한다. POST, GET, PUT, DELETE Method 를제공해야한다. XML, JSON, RSS 정보제공방식을지원해야한다. Agent 통신오류, 이상동작에대한감사및복구기능을제공해야한다. XML, JSON 데이터의 Element 와테이블 Column 정보를 Mapping 하는기능을제공해야한다. - 17 -
Log Aggregator 수집기술 [ 표 2-14] Log Aggregator 수집기술고려사항 기능 고려사항 정보설정기능 수집 Agent 기능 URL, 디렉토리, 파일명명규칙, 확장자종류를설정하는기능을제공해야한다. 수집주기와반복횟수를설정하는기능을제공해야한다. URL, 수집주기를 Agent 로배포하는기능을제공해야한다. Agent 관리 ( 기동, 중지, 추가, 삭제 ) 기능을제공해야한다. 파일을수집하고 Chunk 단위로전송하는기능을제공해야한다. 수집시사전정의된저장단위로처리하여파일을생성하거나일정한데이터를토큰단위로잘라서전송할수있는기능을제공해야한다. 압축가능한파일의경우, 압축전송하는기능을제공해야한다. 수집대상파일의변경여부를체크하는기능을제공해야한다. Collector 기능 초단위로다수의 Agent 로부터로그정보를수신하고, 분단위로직렬화된 Chunk 에대한분산파일시스템시퀀스로전송하는기능을제공해야한다. 수집수행발생시병목을피하기위하여손쉬운확장기능을제공해야한다. ( 수집노드확장 ) 수집기의트래픽밸런싱을자동조정하거나관리자에의하여일정한형식으로동작정할수있는기능을제공해야한다. 로그파일전송을모니터링하는기능을제공해야한다. RDB Aggregator 수집기술 [ 표 2-15] RDB Aggregator 수집기술고려사항 기능 고려사항 정보설정기능 수집할대상 RDB 서버의정보를설정하는기능을제공해야한다. 수집주기와반복횟수를설정하는기능을제공해야한다. URI, 수집주기를 Agent 로배포하는기능을제공해야한다. 수집 Agent 기능 Agent 관리 ( 기동, 중지, 추가, 삭제 ) 기능을제공해야한다. RDB 메타정보에서테이블을선택하는기능을제공해야한다. RDB 메타정보에서 Column, 유형, 크기를선택하는기능을제공해야한다. RDB 데이터를레코드단위로수집하고분산파일시스템으로 Import 하는기능을제공해야한다. RDB 데이터수집중오류가있을경우오류경고처리와함께수행중단경고를출력하는기능을제공해야한다. - 18 -
마 ) 시사점및모델링식의약품등사건, 위해전조포착및관련정보서비스업무를위해서는전조포착과관련된정보의수집및위해도평가를위한기반데이터의수집으로구분될수있다. 전조포착과관련된데이터는대부분인터넷상에존재하는 SNS데이터와뉴스등비정형데이터의수집으로가능한부분이며, 해당데이터의경우 SNS 업체에서제공하는 Open API를활용하거나크롤링을통한지속적인데이터수집방법을활용해야할것으로보인다. 웹크롤러웹크롤러 (Web Crawler) 는조직적, 자동화된수집방법으로인터넷상에존재하는웹문서를수집하는프로그램이다. 이와유사한용어로웹로봇, 웹스파이더등이유사하게사용되고있다. 주로검색엔진을구현하기위해최신의데이터를지속적으로수집하기위한방법에활용되어왔다. [ 그림 2-8] Open Source Apache Nutch의구조도웹크롤링과웹검색구현을위한 Apache Nutch의경우 Open Source로제공되기때문에쉬운접근이가능하다. Apache Nutch의실행절차를보면 CrawlDb로부터 URL 목록을생성하고인출한 URL 목록을참조하여 Fetcher를통해웹페이지를가져온다그리고 Segment에서가져온데이터를 Parse( 분석 ) 하고분석데이터업데이트및 index작업을수행하는구조로되어있다. Open API(Open Application Programming Interface) Open API 는누구나사용할수있는공개된 API(Application Programming Interface) 로응용 프로그램에서사용할수있도록공개된인터페이스방법을의미한다. Google, 네이버와같 - 19 -
은포탈사이트나페이스북, 트위터와같은 SNS, 최근에는공공데이터포탈과같은데이터의공유를위해활용되고있다. 정부 3.0에일환으로공공데이터포털사이트에서는다양한공공정보를데이터셋을제공하거나 Open API로제공하고있다. [ 그림 2-9] 공공데이터포털오픈 API 검색및개발계정신청화면 < 출처 : 공공데이터포털 > 공공데이터포털에회원가입과개발계정신청을하고인증키 ( 서비스키 ) 를발급받아테스트를 한후운영계정을신청하여승인후활용할수있는구조로되어있다. [ 그림 2-10] 트위터 API 인증발급및적용예시 Hadoop 에코시스템 Apache Flume Hadoop 의에코시스템진영에있는 Apache Flume 의경우시스템내의로그데이터의수 집뿐만아니라 API 를통한웹소스에대한수집까지지원이가능하다. Flume 은 Log - 20 -
Aggregator 로로그수집기로분산된데이터를통합하여모을수있도록해준다. Flume 의 아키텍처는아래와같다. [ 그림 2-11] Flume의아키텍처 < 출처 : Apache Flume> 대부분 flume의 agent가지속적으로수집하여하둡파일시스템에바로입력하는구조로되어있으며, source( 데이터수집위치지정 ) 와 sink( 데이터를보낼위치지정 ) 로구성되어있으며, end-to-end 신뢰도, store on failure 신뢰도, best-effort 신뢰도를지원한다. [ 그림 2-12] Flume Agent 설정예시 - 21 -
2) 빅데이터처리기술가 ) 주요활동데이터를수집후데이터를저장, 처리 ( 전 / 후처리 ) 및관리를위한기술을의미하며데이터의분석을위해불필요한항목을가공 ( 제거 ) 하고유연하게저장하여, 데이터의품질을향상시키는것을목적으로한다. 데이터의유형과분석목적을고려하여데이터저장전, 후처리기법을선정하고데이터의필터링, 정제, 통합, 축소등으로데이터를처리하는기법등을포함한다. 나 ) 활용기술 [ 표 2-16] 방식에따른데이터처리기술 방식 설명 데이터여과 (Filtering) 데이터변환 (Transformation) 데이터정제 (Cleansing) 데이터통합 (Integration) 데이터축소 (Reduction) 오류발견, 보정, 삭제및중복성확인등의과정을통해데이터품질을향상시키는기술이다. 데이터유형변환등데이터분석이용이한형태로변환하는기술이다. 정규화 (normalization), 집합화 (Aggregation), 요약 (summarization), 계층생성 등의방법활용한다. ETL(extraction/transformation/loading) 도구를활용한다. 결측치들을채워넣고, 이상치를식별또는제거하고, 잡음섞인데이터를정제하여데이터의불일치성을교정하는기술이다. 일반적으로데이터는불완전하고, 잡음이섞여있고, 일관성이없기때문에데이터정제가필요하다. 데이터분석이용이하도록유사데이터및연계가필요한데이터 ( 또는 DB) 들을통합하는기술이다. 분석컴퓨팅시간을단축할수있도록데이터분석에활용되지않는항목등을제거하는기술이다. 다 ) 데이터처리기술 [ 표 2-17] 처리구분따른데이터처리기술 구분설명관련솔루션 빅데이터배치처리 대량의데이터를분할하여각데이터파티션을동시에분산처리함으로써처리시간을단축하는기술이다. Google MapReduce Hadoop MapReduce 빅데이터반복처리 대용량스트림처리 데이터를가공, 분석하는업무는많은경우에서로다른데이터집합에대해동일한로직을적용하여처리하는기술이다. 주식거래데이터, 센서데이터처럼지속적으로발생하는데이터스트림에대한실시간처리를위해관계 Twister HaLoop STORM Yahoo S4-22 -
구분설명관련솔루션 형모델, XML 모델등처리대상에따른처리연산을제공하는 CEP(Complex Event Processing) 기술과트윗단문메시지, CCTV 영상데이터등비정형스트림데이터처리를위한분산스트림처리기술이다. HStreaming MapReduce 분산데이터처리 MapReduce는일종의함수형프로그래밍방법으로맵 (Map) 단계와리듀스 (Reduce) 단계모두입 / 출력으로 Key-Value 쌍을갖게되고이를통해분산 / 병렬시스템의운용을지원한다. 맵함수의입력값으로 key-value가전달되면, 맵함수는전달된키-값을이용해사용자의로직을처리한다. 맵함수가반복적으로수행되면서여러개의출력데이터가생성되고, 출력데이터를키로정렬하여리듀스함수로입력, 원하는데이터를추출하는작업이다. Storm 기술트위터에서사용하는실시간분석분산시스템으로 Hadoop과비슷한처리를수행한다. Backtype이라는회사에의해개발된오픈소스로 Twitter에서인수하여 Tweet들의실시간분석및최적화, Anti-Spam 구현을목적으로한다. 주요기능으로 Streaming Processing, Distributed RPC, Continuous Computation이있다. Hadoop과비슷하게 MapReduce를실행하는것대신에토폴로지작업을수행한다. Kafka 기술링크드인에서공개한카프카는데이터가분할되어클러스터에의해관리되고메시지일괄처리와전송데이터를압축하는기술을지원한다. 로그집계 + 메시징시스템으로써, 분산환경에서대규모카프카를활용해데이터로그를처리한다고발표했다. 라 ) 주요고려사항 [ 표 2-18] 데이터처리기술고려사항 기능 데이터필터링 (Filtering) 고려사항 데이터필터링기준을정의하고설정할수있는기능을제공해야한다. 데이터처리전후에생성된파일의중복성을확인할수있도록파일명, 확장자등필터링기능을제공해야한다. 유의미한데이터를선별하기위하여사전정의된필터링기준을비교검증할수있는기능이제공되어야한다. 데이터필터링적용시, 비정형데이터처리에서자연어처리및기계학습을수행하기전에사용자가처리방식을선택할수있도록데이터파일에대한정형화된사전저장기준을제공하여야한다. 수집된데이터의품질기준의부합여부및오류등을확인하고관리자에게알릴수있는기능을구현해야한다. 필터링처리시사전정의된필터링기준에의거하여데이터처리에서오류발생후오류에대한이력을저장할수있는기능을제공해야한다. - 23 -
기능 데이터유형변환 (Transformation) 고려사항 수집된데이터의유형을분류할경우분류기준을적용할수있는기능을제공해야한다. 데이터의유형을분류하고이에대한데이터변형에필요한알고리즘함수또는변환구조를정의할수있는기능이제공되어야한다. 데이터변환시사용자가지정한변환형식에준하여변환이이루어졌는지확인할수있는기능이제공되어야한다. 데이터변환실패시데이터변환실패부분에대하여재시도할수있는기능을제공하거나신규변환데이터가생성을취소할수있는기능을제공해야한다. 데이터변환이실패되었을경우이력을저장하고사용자에게전달할수있는기능이제공되어야한다. 변환된데이터를저장하는기능을제공해야한다. 데이터정제 (Cleansing) 정제유형을사전정의하고속성값을부여하는기능및사용자가스크립트를작성할수있는기능이제공되어야한다. 데이터유형별정제시사용자가설정한정제방법을사전정의되어자동으로지정할수있는기능이제공되어야한다. 결측치, 잡음데이터를처리하는경우, 데이터저장및제거대상에대하여삭제, 처리, 확인할수있는기능이제공되어야한다. 데이터의불일치성을교정하기위하여단위, 표현형식, 코드체계등의불일치성을교정하거나자동으로교정이되도록하는자동스크립팅기능이제공되어야한다. 데이터통합 (Integration) 데이터변환데이터축소 (Reduction) 데이터의일관성을위해여러출처 ( 소스 ) 로부터의데이터들을결합할수있도록사전에확인할수있는기능을제공해야한다. 데이터통합을위하여취합된정보에대한상호관계를비교하거나정보결합속성등의요건을체크하는기능이제공되어야한다. 데이터통합시통합전후원시데이터의백업을지원하고이력을확인할수있는기능이제공되어야한다. 데이터통합을위해유일한키값을선정하거나자동키부여및킷값관리기능이제공되어야한다. 데이터로부터잡음을제거하기위해데이터추세에벗어나는데이터또는특이값을추세에맞게변환또는자동추천할수있는기능을제공해야한다. 집계 (Aggregation) 시데이터를요약하는기능이제공되어야한다. 특정구간에분포하는값을추출하거나이를사용자가직관적으로확인할수있도록하여데이터변환시발생할수있는변환, 패턴, 이벤트를감시할수있는기능을제공해야한다. 데이터변환후사전저장된원시데이터셋과변환후데이터간의변환로그를저장관리할수있는기능이제공되어야한다. 데이터축소를위한적용기준또는적용스크립트를부여할수있는기능이제공되어야한다. 데이터크기를축소하는경우, 원본파일의데이터축소범위와축소가적용된속성에대한로그를기록하여취소시재복구할수있는기능이제공되어야한다. - 24 -
[ 표 2-19] 데이터처리기술도입시고려사항 기능 고려사항 처리할데이터의종류데이터를처리하기위한조건 정형 : 컴퓨터와인간모두읽을수있는데이터 ( 관계형데이터베이스 ) 이다. 반정형 : 정형화되어있지않지만시맨틱요소들을분리하는태그들을가지고있다. (XML, 이메일, EDI 등 ) 비정형 : 데이터베이스에들어가지않는데이터 ( 이미지, 오디오, 비디오등 ) 혹은정형화되어있지않는데이터 ( 텍스트, 로그데이터등 ) 이다. 데이터의접근제한을풀고접속권한을제공해데이터를저장하고사용할수있게하는것이중요하다. 정보를미가공형태로남겨야분석시스템으로실시간스트리밍되면서분석하고보고가능하다. 정형데이터에서는이과정이직관적으로일어나지만, 비정형데이터는고급알고리즘과강력한엔진을반드시거친후들어오는데이터를처리한다. 마 ) 시사점및모델링빅데이터처리기술중에서주목해야할부분은수집된데이터에대해정규화하고데이터를표준화할수있는처리부분과실시간으로데이터를처리하는부분이다. 위에서언급된데이터처리기술의데이터필터링, 데이터유형변환, 데이터정제, 데이터통합, 데이터변환, 데이터축소등을수행하기위해서는하나의솔루션으로해결되는것이아니라데이터의성격과그결과를도출하기위한방법에따라다양하게나타날수있기때문에데이터처리에대한복합적인방법을활용하여적용하여야한다. 데이터처리업무절차 데이터처리방식선정데이터가공처리가필요한데이터를분류하고 Table로작성한다. 그리고수집된데이터를저장하기위한전처리단계와저장된데이터를분석하기전후처리하는단계로구분한다. 데이터유형과분석목적등을검토하여전 / 후처리기술선택한다. - 전처리작업수집한데이터를저장소에적재하기위한작업으로데이터필터링, 유형변환, 정제등기술활용 - 후처리작업저장된데이터를분석이용이하도록가공하는작업으로변환, 통합, 축소등기술활용 데이터처리업무절차 데이터처리방식수행 - 데이터필터링데이터의중복성, 오류제거들을위한데이터필터링기준을설정한다. 실제사전테스트를통하여오류발견, 보정, 삭제및중복성검사등필터링과정을거쳐필터링기준을최적화하여사용한다. 비정형데이터는데이터마이닝을통해오류, 중복, 저품질데이터를처리 - 25 -
할수있도록자연어처리및기계학습과같은추가기술이필요하다. 또한분석을위하여단위저장소에파일형태로저장할경우, 데이터활용목적에맞지않는정보는필터링하여제거해야분석시간을단축하고저장공간의효율적활용이가능하다. - 데이터변환다양한형식으로수집된데이터를분석에용이하도록일관성있는형식으로변환 - 데이터정제수집된데이터의불일치성을교정하기위한방식으로결측치 (Missing Value) 처리, 잡음 (Noise) 처리기술활용 - 데이터통합출처가다른상호연관성이있는데이터들을하나로결합하는기술로데이터통합시동일한데이터가입력될수있으므로연관관계분석을통해중복데이터를검출하거나데이터통합전 / 후결과물에대해데이터값들이일치할수있도록검증하여야한다. MapReduce 처리방법빅데이터를처리하는가장흔한방법으로 Hadoop Map Reduce를활용한다. Map Reduce 는페타바이트이상의데이터를여러노드로구성된클러스터환경에서병렬처리하는기법으로함수형프로그래밍에서사용되는 Map과 Reduce 방식을사용해데이터를처리한다. [ 그림 2-13] mapreduce 처리구조 < 출처 : hadoop.apache.org> 빅데이터실시간처리빅데이터분석을위해등장한 Hadoop의제약은실시간처리가아닌배치처리를수행하는것과분석하기위해데이터를저장해야하는점, 실시간검색및조회기능이부재한점으로볼수있다. 이러한제약을하둡의에코시스템을활용하여어느정도해결을할수있지만준실시간분석이가능한정도로볼수있다. 이에대한대안으로실시간분산쿼리나스트리밍처리기법이많이연구되었다. - 26 -
실시간분산쿼리는클러스터를구성하는노드가각자쿼리를처리하게해 (push down) 한번에처리할데이터의크기는작게하면서이를병렬처리해응답시간을실시간수준으로높이는방식이다. Cloudera의 Impala와 Apache Tez 그리고 Facebook의 Presto가이방식에속한다. [ 그림 2-14] Cloudera Impala 아키텍처 < 출처 : Cloudera> 스트리밍처리는끊임없이들어오는데이터를유입시점에분석해원하는데이터뷰로미 리만드는방식이다. 이방식은 CEP(Complex Event Processing) 이라고부르며, Storm, Apache Spark 가이방식에속한다. [ 그림 2-15] Spark Streaming 처리 < 출처 : spark.apache.org> SNS 및웹데이터수집방안 SNS 및웹데이터 ( 신문사, 카페, 블로그, 포탈사이트등 ) 의비정형데이터를수집및분석을위해서는앞서 1) 빅데이터수집기술 에서언급된웹크롤링기술과 Open API기술등을활용하여수집하고이에대한데이터전처리및후처리와데이터마이닝을통한분석과정을거쳐야한다. - 27 -
[ 그림 2-16] SNS 데이터수집모델 SNS 및웹포탈, 신문사등의온라인데이터를수집하기위해서는주기적으로데이터를 Polling 하는방식으로데이터를수집해야한다. 대표적인 SNS 서비스인 Facebook, Tweeter등의소셜네트워크서비스는해당사이트에서제공하는 Open API를통해수집할수있으며, 이때활용할수있는수집모듈은 Apache Flume에 Open API를연동하여적재할수있다. 이때수집대상데이터는각사용자의 Feed 및트윗정보가되며, 동시에위치정보와해당사용자와의링크정보를수집하여관계를따라데이터수집이가능하다. 기반정보외의중요데이터로는식의약품에대한이슈내용을해당 Feed 및트윗텍스트를수집하여분석에사용될데이터를수집한다. 블로그나지식, 카페등의데이터는국내대형포털사이트의데이터를대상으로하며, 이때는웹크롤러를활용하여해당포털사이트에 HTTP 통신을통해수집되는정보를 DataCollector를구현하여기반데이터적재를수행한다. 국내언론사나, 국외언론사, 대표적인글로벌검색엔진인 Google등도웹크롤러나 Open API를활용하여데이터적재를수행할수있다. SNS 및웹데이터처리및분석방안 SNS 데이터의분석을위한전처리및분석모델을설계할때는실시간성데이터와배치성데이터의전처리방안의분류및분석성격에맞는적재방안을충분히고려하여모델링을수행해야한다. - 28 -
[ 그림 2-17] SNS 데이터전처리및분석모델데이터를수집후데이터분석을위해불필요한데이터를제거하고, 필터링을통해데이터를가공하여분석에필요한데이터로정제하는데이터전처리과정을수행해야한다. 이때데이터의전처리주기에따라실시간이벤트처리엔진 (CEP) 혹은배치성데이터처리를위해 HIVE/Pig/MapReduce프로그래밍등을활용하여전처리작업을수행한다. 전처리와동시에 1차가공데이터를분석활용목적에맞도록적재공간을분류해야하는데, 이때빠른입출력에의한로그성데이터분석에는 NoSQL을선정하고, 관계형데이터모델이필요한경우에는 RDBMS, 분산처리가필요한분석이필요한데이터는 Hadoop에적재하여, 최적의분석환경을제공하기위한기반을마련해야한다. 데이터처리과정에대한모델이정의된후에는 SNS의정제된데이터로부터, 감성분석기법혹은자연어처리 / 패턴분석등의기법을이용하여, R등의분석제품을사용하여예측기반서비스모델에서활용할수있는분석데이터를추출할수있다. [ 그림 2-18] SNS 데이터분석수행절차 - 29 -
SNS 데이터의분석수행절차는일반적인빅데이터분석수행절차와유사하며, 제공하고자하는서비스모델을만들기위해필요한대상데이터의수집, 저장, 분석의절차로진행한다. 각절차의주요활동은보고서 2.2 빅데이터주요구성요소 에서정의한활동을주로하며, 세부활동은조직의업무특성에따라항목을정의하여절차를수행한다. SNS 및웹데이터수집에따른제약사항 - 개인정보보호관련법령의문제빅데이터수집및활용기술은최첨단으로나아가고있지만산업의핵심인개인정보보호법은 10년전수준이라는이야기가업계에만연히퍼지고있다. 빅데이터활용사례를보면대부분개인정보데이터가자신도모르게생성 / 수집되고, 기업및기관들은사용자의허락없이데이터를서로공유및활용하고있는현실이다. 많은기업들이맞춤형서비스와광고등을위해이용자데이터를분석하고활용하고있기때문에개인정보활용동의에기초한개인정보보호패러다임의실효성에대한문제제기가빈번히발생하고있다. 블로그및카페, 트위터, 페이스북등의데이터를크롤링및데이터수집장치로수집하는행위자체가개인의프라이버시를침해할수있으며, 위치기반정보도수집이가능하기때문에현재의개인정보보호와관련된법령의개선이시급하다. 개인정보동의방식을 사전동의 에서 잠정적동의 로변경하여관련사업및정책마련에활용할수있는법령개선이수반되어야한다. - 정보보안측면데이터공유와개방을추진하면서동시에사이버테러나해킹등으로인한데이터유출을방지하기위한보안가이드라인제정및관련기술의개발이절실하다. 기존의데이터를클라우드로이동하는데여전히많은저항이있으며, 현재인터넷, 클라우드컴퓨팅, 데이터풀링등모든측면에서데이터보안의문제가제기되고있다. 빅데이터활용이증가하더라도기존의프라이버시강화라는추세를변화시키지는못할것이며오히려정보보안과리스크를어떻게관리할지가더큰이슈와과제로부각될것이다. - 비정형데이터의분석가능성과한계일반적으로비정형데이터로분류되는데이터는텍스트형식으로저장된데이터, 이미지, 음성, 멀티미디어등이포함된다. 이런비정형데이터가 SNS/ 스마트폰 / 태블릿등에서급속히생산되면서비정형데이터에대한분석의중요성이부각되고있지만, 여전히비정형데이터에대한분석이과연유용한지에대해서는회의적인시각도존재한다. 예컨대, 블로그나트위터에대한감성분석혹은오피니언마이닝에는근본적인한계가존재하는데, 은어 / 사투리 / 어투 / 역설 / 약어등이일상적으로담긴진술의의미를과연현재의기술수준에서제대로분석할수있을지, 앞으로가능할지, 텍스트마이닝을통해특정진술에서그진술을대표하는키워드를얼마나정확하게추출할수있는지는여전히회의적이다. 특히대규모데이터를대상으로하는분석에서는수리모형에맞게어떤형태로든데이터는축소되기마련인데, 편향되고왜곡된정보혹은주관적인정보가많은비정형데이터를수집 - 30 -
하고정량화하는과정에서데이터에내포된의미가왜곡되어분석결과의신뢰성이하락될수있다는지적도있다. 또한가트너는 2012년빅데이터요소기술에대한기대곡선을통해시맨틱웹기술이안정기에다다르기까지는 10년이상이소요될것으로예측하였다. 현재비정형데이터에대한분석은맥락을이해하는것보다는단어의출현빈도, 단어와단어간의관계를보여주는것에그치는실정이다. 특히, 비정형데이터가영어가아니라한글일경우비정형데이터의분석가능성과한계는더명백해진다. - 상관관계와인과관계의혼동빅데이터를통해도출된결과는많은경우통계적인상관관계를보여주는경우가대부분이다. 인과관계를밝히는것은전혀다른문제이다. 그럼에도인과관계와상관관계를혼동할경우, 특정전략적선택이전혀엉뚱한결과를보여줄가능성이매우높아진다. 빅데이터분석의모범사례로자주언급되는구글의플루트렌드의경우에도일반적인호흡기질환을예측하는데어느정도도움이될수있으나, 플루자체를예측하는데에는한계가있다는지적이있었으며, 구글의플루트렌드가미국질병관리센터의예측보다 20% 정도낮다는연구결과도발표되었다. - 빅데이터와기술종속의문제빅데이터라는용어자체는구글, 아마존, 페이스북, 트위터등글로벌기업에서자사의서비스개선을위해적극적으로도입된것이며, 특히이러한서비스가국경을가로지르는인터넷에기반하고있다는것에주목해야한다. 국내에서도이미빅데이터시장에서글로벌기업의독과점현상과향후기술종속의문제가빈번히지적되고있다. 현재 IBM, 오라클등글로벌기업들이국내비즈니스분야와공공부문빅데이터처리분야에서초기시장을선점하고있는상황이고, 외국계글로벌기업에의존한빅데이터분석으로인해정보의대외유출등과같은위험을초래할수있는가능성도매우높다. 따라서국내빅데이터시장이주로글로벌기업의기술에의존하고있기때문에빅데이터활성화를위해서는무엇보다국내의데이터분석인프라구축이시급하다. 3) 빅데이터저장기술가 ) 주요활동및내용작은데이터라도모두저장하여실시간으로저렴하게데이터를처리하고, 처리된데이터를더빠르고쉽게분석할수있도록하는기술이다. 데이터유형을검토하여저장방식을선정하고실행에필요한데이터저장계획을수립하고선정된저장방식에따라적합한 DB를구축한후사전테스트를수행한다. 그리고구축된 DB에데이터를저장하고모니터링을진행하는활동을수행한다. 대표적인기업제품으로 HP Vertica, EMC Greenplum, IBM Netezza data warehouse 가있다. IBM Netezza data warehouse는 SMP(Symmetric Multiprocessing) 와 MPP(Massively Parallel Processing) 로구성된 two-tier 형태의아키텍처를가지고있다. - 31 -
[ 그림 2-19] IBM Netezza AMPP 아키텍처 < 출처 : IBM> SMP 구조를가지는호스트는쿼리실행계획및결과집계연산을담당한다. MPP구조를가지는 S-blade노드들은쿼리실행을담당한다. 또한다른시스템에서보기힘든 FPGA의특징에는데이터압축, 레코드또는컬럼필터링이있다. 트랜잭션처리시에는 visibility check 등과같은 filtering 기능을메모리로가져오는중에처리하여실시간처리가가능하며, 대용량데이터를처리할때, 데이터연산을가급적데이터를가지고있는곳에서수행하여불필요한데이터전송을최소화하는원칙에충실하였다고할수있다. Green plum은 MPP구조로쿼리분석, 워크로드관리기능, BI, ETL, 마이닝툴과연계지원한다. PostgreSQL 기반으로만들어졌으며, 저장되는데이터는해당데이터에적용되는연산에따라서로우기반또는컬럼기반방식을선택할수있다. 데이터는세그먼트단위로서버에저장되며, log shipping 방식의세그먼트단위복제로가용성을확보한다. [ 그림 2-20] Geenplum 아키텍처 < 출처 : EMC> - 32 -
HP Vertica는데이터를하드디스크에컬럼방식으로저장하는 OLAP에특화된데이터베이스로 MPP구조이며대량의데이터를빠르게적재할수있고 R, SAS 등과손쉬운연동함수를제공한다. Shared-nothing 기반의 MPP 구조로대량의데이터를빠르게적재할수있도록쓰기에최적화된저장소와압축된형태로구성된일기저장소, 양자간의데이터흐름을관장하는 tuple mover 등으로구성되어있다. [ 그림 2-21] Vertica 아키텍처 < 출처 : HP> 빅데이터시대를이끌고있는하둡은 7년간개발돼온개방형프레임워크로다양한프로젝트가진행되어, 최근도입성과가가시화되면서하둡을중심으로한새로운생태계가조성되고있다. 점차작업효율성과개발편의성을증대시킬하둡기반의다양한툴들이등장할것으로예상된다. 다음은오픈소스, 오픈아키텍처인 Hadoop의아키텍처를나타낸다. [ 그림 2-22] Hadoop 아키텍처 < 출처 : Apache Hadoop> - 33 -
나 ) 주요기술 [ 표 2-20] 빅데이터저장기술 저장기술병렬 DBMS 하둡 (Hadoop) NoSQL 주요기능기존의 RDBMS는하나의시스템이모든영역에맞춰사용될수있도록만들어졌으나, 이를발전시켜 MPP(Massively parallel multiprocessing) 6) 구조를취하고있다. 대용량분산저장과처리를위한프레임워크로 HDFS와맵리듀스로구분한다. HDFS는대용량의데이터를저장하는분산파일시스템으로큰파일을작은블록으로나누어저장한다. 동시에다수의클라이언트가접속해서사용하더라도속도가빠르며, 수많은제품이있고, MongoDB의경우 RDBMS적특성을갖고있어기존 RDBMS 개발자들이쉽게적응하며, HBase나 Cassandra의경우대용량저장과성능면에서다소유리하다. RDBMS 저장방식 - RDB 테이블데이터는컬럼과값을매핑하거나데이터형을변환처리하여테이블형태로저장한다. - XML 및 JSON, HTML등형식의파일은파싱처리하여테이블에저장한다. - 솔루션별레코드최대크기등을고려하여용량을설계한다. NoSQL 저장방식 - 정형데이터는컬럼과값을 key와 value로구분하여저장한다. - XML 및 JSON, HTML 등형식의파일은파싱하여 Key-value 형태로저장한다. - Scale out 방식을지원하므로 Petabyte 이상확장가능하다. 분산파일시스템저장방식 - 문서 (XML, JSON, HTML, 텍스트등 ), 이미지, 비디오, 오디오등텍스트및이진파일을 - 분산파일시스템에서지원하는파일형태로저장한다. - Scale out 방식을지원하므로 Peta Byte 이상확장가능하다. 확장기술 [ 표 2-21] 확장기술비교 구분 Scale up Scale out 개요 CPU, 메모리, 하드디스크등서버자원을추가하여처리능력을향상시키는방식 서버의대수 ( 노드 ) 를추가하여처리능력을향상시키는방식 비용컨트롤러나네트워크인프라비용은발생추가된노드들이하나의시스템으로운영 6) MPP(Massively parallel multiprocessing): 대용량병렬처리 - 34 -
구분 Scale up Scale out 용량 하기않고디스크만추가 하나의스토리지컨트롤러가지원가능한 Device 수가한정되어있어용량확장제약 되기위한네트워크구성필요 스토리지용량확장성이매우좋음 다 ) 빅데이터저장솔루션 빅데이터저장하둡플랫폼솔루션 [ 표 2-22] 빅데이터하둡플랫폼솔루션 솔루션 / 업체명 Apache Hadoop 클라우데라 (Claudera) 내용대량의자료를처리할수있는클러스터에서동작하는분산응용프로그램을지원하는오픈소스기반의자바프레임워크로너치의분산처리를지원하기위해개발되었다. 아파치루씬의하부프로젝트로시작하였으며분산처리시스템인구글파일시스템을대체할수있는하둡분산파일시스템과맵리듀스를구현한것이다. 클라우데라는아파치프로젝트의많은측면을활용하는오픈소스하둡의배포판을가지고있지만, 이외에도수많은발전을해왔다. 클라우데라는자체제품에클라우데라매니저 (claudera manager) 라는관리와모니터링툴부터임팔라 (Impala) 라는관계형데이터실행을위한 SQL 엔진까지개발했다. 자체배포판의기본에오픈소스하둡을활용하지만순수오픈소스제품은아니다. 포레스터는 클라우데라의하둡접근방식은핵심하둡을고수하면서도고객수요를충족시키기위해빠르고공격적으로혁신을감행하며자체솔루션을다른개발업체와차별화하는것 이라고평가했다. 이결과로클라우데라의플랫폼채택은꾸준히상승해왔고, 현재 200여곳의유료고객을갖추고있으며, 일부는 1페타바이트 (PB) 가넘는규모의데이터를 1,000개가넘는노드에걸쳐가지고있다. 호튼웍스 (Hortonworks) 클라우데라처럼호튼웍스는퓨어-플레이 (pure-play) 하둡업체다. 클라우데라와는다르게호튼웍스는다른어떤개발업체보다도더강력하게오픈소스하둡코드를고수한다. 호튼웍스의목표는하둡생태계와하둡사용자를구축하고오픈소스코드를발전시키는것이다. 호튼웍스의플랫폼은오픈소스코드를고수함으로인해호튼웍스측은개발업체종속을막을수있어사용자에게도움이된다고강조한다. 호튼웍스고객이이플랫폼을떠나고자할때면언제라도손쉽게애플리케이션을플랫폼에서다른오픈소스코드로이전할수있다. 이는호튼웍스가오픈소스코드위에다른가치를제공하지않는다는의미가아니라오픈소스커뮤니티에플랫폼개발작업에관한모든것을되돌려준다. 그예가호튼웍스에서개발한툴인앰바리 (Ambari) 로, 클러스터관리와연관된프로젝트의구멍을막는역할을한다. 호튼웍스의접근방식은테라데이터, 마이크로소프트, 레드햇 (Red Hat), SAP 등의개발업체로부터강력한협력관계를이끌어냈다. - 35 -
솔루션 / 업체명 맵알 (MapR) 내용맵알테크놀로지 (MapR Technologies) 는포레스터가웨이브보고서를작성할때실시한하둡사용자조사에서맵알은현재제품으로는가장높은평점을받았고, 배포판의아키텍처와데이터프로세싱능력에서도가장높은점수를획득했다. 맵알테크놀로지의비법은맵알이자체하둡버전에서이끌어낸독특한기능성조합에있다. 예를들어, 맵알의배포판은 NFS(Network File Systems) 를지원하며, 맵알은재난복구와고가용성기능을배포판에담았다. 포레스터는맵알이단지브랜드인지도에있어서만클라우데라와호튼웍스보다뒤처질뿐이라고평가했다. 더욱많아지는협력관계와마케팅은맵알을주류하둡업체로성장하고있다. IBM 대규모 IT 프로젝트를떠올릴때많은이들은 IBM을먼저생각한다. 이때문에 IBM은세계하둡프로젝트시장의주요업체가운데하나가되었다. IBM은이미 100여곳의하둡배치를완료했으며, 이가운데에는많은고객들은 PB급데이터를관리중이다. IBM은그리드컴퓨팅, 글로벌데이터센터, 기업이행경험에서의막대한경험을빅데이터프로젝트에활용한다. 포레스터는 IBM 로드맵에는빅인사이트하둡 (BigInsights Hadoop) 솔루션과 SPSS 고급애널리틱스, 고성능컴퓨팅을위한작업부하관리, BI 툴, 데이터관리와모델링툴같은연관 IBM 자산과의지속적인통합이포함되어있다 고말했다. 인텔 (Intel) 인텔 (Intel) 아마존웹서비스처럼, 인텔은자체하둡버전을활용, 최적화하는데특히자체생산된제온 (Xeon) 칩하드웨어상에서의구동에중점을뒀다. 자체하둡시스템의극한을끌어내면서소프트웨어와하드웨어사이의밀접한연동을찾는고객들에게인텔의하둡배포판이적합할수있다. 포레스터는인텔이최근출시한제품을통해기업들이현재시장에나온버전에더많은혁신을기대할수있다고말했다. 인텔과마이크로소프트는하둡시장에서의 강력한경쟁자 로분류되어있으며, 기존시장에서의 시장선도자 와는위치가다르다. 피보탈소프트웨어 (Pivotal Software) EMC와 VMware는양사의상당한자산을합쳐피보탈이라는별개의독립업체를설립했다. 피보탈의가장큰영업분야는하둡배포와클라우드파운드리 PaaS(Cloud Foundry PaaS) 다. 피보탈은오픈소스코드상에몇가지툴을추가했는데, 특히 HAWQ라는 SQL 엔진과빅데이터플랫폼을실행하기위해특별히만들어진하둡어플라이언스등이있다. 피보탈하둡플랫폼이갖고있는최고의장점은자체배포판과다른피보탈, EMC 와 VM웨어제품들간의통합에있다. 피보탈은자체 EMC와 VM웨어지원의혜택을받고있다. 하지만포레스터는현제까지피보탈의구축경험은 100건에도미치지못하는데, 그것도대부분중소규모의고객이라고지적했다. 테라데이타 (Teradata) 테라데이타 (Teradata) 와같은업체들은하둡을위협요소이자기회로본다. 테라데이타는데이터관리, 특히 SQL과관계형데이터베이스측면에강점을보이는업체다. 그러므로하둡클라우드같은 NoSQL 플랫폼은테라테이타에위협이될수있지만이대신테라데이타는하둡을받아들였다. - 36 -
솔루션 / 업체명 내용호튼웍스와의협력관계체결을통해테라데이터는이제고객들에게즉각사용이가능한형태로자동적으로테라데이터웨어하우스에저장된데이터와매끄럽게작동되도록자체 SQL과통합된하둡플랫폼을사용할수있는능력을제공하고있다. 빅데이터저장 NoSQL 솔루션 [ 표 2-23] 빅데이터 NoSQL 플랫폼솔루션 솔루션 / 업체명 Apache HBase 내용아파치 HBase는하둡플랫폼을위한공개비관계형분산데이터베이스이다. 아파치하둡프로젝트일부로서개발되었으며하둡의분산파일시스템인 HDFS 위에서동작을한다. 대량의흩어져있는데이터저장을위한무정지방법을제공하는구글의빅테이블과비슷한기능을한다. HBase는압축, 인메모리처리, 초기빅테이블에제시되어있는 Bloom 필터기능을제공한다. HBase에있는테이블들은하둡에서동작하는맵리듀스작업을위한입출력을제공하며자바 API나 REST, Avro 또는 Thrift 게이트웨이를통해접근할수있다. Mongo DB 몽고DB(MongoDB) 는크로스플랫폼도큐먼트지향데이터베이스시스템이다. NoSQL 데이터베이스로분류되며 JSON과같은동적스키마형문서들을선호함에따라전통적인테이블기반관계형데이터베이스구조의사용을지양한다. 특정한종류의애플리케이션을더쉽고더빠르게데이터통합을가능케하며, 자유-오픈소스소프트웨어이다. Couchbase 카우치베이스는유연한 JSON 모델로고정데이터베이스스키마의제약없이쉽게애플리케이션을수정할수있으며, submillisecond (1/100 ms 이하 ) 의초고속데이터입출력처리의높은성능을보장한다. 또한간편한 Scale out으로다운타임없이시스템구성변경및확장을지원한다. JSON 지원, 인덱스와쿼리지원, 증분맵리듀스, 자동샤딩을통한클러스터확장, 클러스터간복제, 고성능연속성을보장한다. 라 ) 주요고려사항 RDB 저장방식 [ 표 2-24] RDB 테이블저장기술고려사항 기능 Text 데이터저장 고려사항 저장테이블과컬럼관계를매핑하여저장하는기능을제공해야한다. 데이터형이다른컬럼은데이터형을변환하여저장하는기능을제공해야한다. - 37 -
기능 고려사항 코드가다른컬럼은코드변환하여저장하는기능을제공해야한다. 컬럼중 NULL 데이터가있는경우 NULL 변환처리하여저장하는기능을제공해야한다. 수집한웹문서내용으로부터스키마에저장된각속성들의값을추출한후 DB 로딩형식에맞추어변환하는기능을제공해야한다. XML, JSON, HTML 데이터저장문서, 이미지, 오디오, 비디오데이터저장성능관리 저장테이블의컬럼에맞도록데이터를파싱처리하여저장하는기능을제공해야한다. 저장시자동집계또는후처리집계처리가수행될수있도록기능을제공해야한다. 저장테이블의문자열데이터형에데이터전체를저장하는기능을제공해야한다. 이진데이터는 Key 값을추출하여저장하는기능을제공해야한다. 저장테이블의이진데이터형에데이터전체를저장하는기능을제공해야한다. 서버증설, 튜닝, 데이터관리주기를적용하여야한다. RDB 연계에따라분산된저장소간의저장상황및자원활용상황을모니터링할수있는기능이제공되어야한다. 검색속도를높이기위한색인기능을제공해야한다. NoSQL 저장방식 [ 표 2-25] NoSQL 저장기술고려사항 기능 고려사항 RDB 테이블데이터를 NoSQL 에저장 Key 값을추출하고컬럼관계를매핑하여저장하는기능을제공해야한다. ( 컬럼기반 ) 테이블데이터를 document 기반으로변환하여저장하는기능을제공해야한다.(document 기반 ) Key 값을추출하고전체데이터는 value 에저장하는기능을제공해야한다.(Key/Value) Key 값과추출값간의릴레이션을파악할수있는변환용검증키를부여할수있는기능이제공해야한다. XML, JSON, HTML, 문자열 / 문서파일을 NoSQL 에저장 성능관리 Key 값을추출하고컬럼관계를매핑하여저장하는기능을제공해야한다. ( 컬럼기반 ) 데이터내용을 document 기반으로변환하여저장하는기능을제공해야한다. (document 기반 ) Key 값을추출하고전체데이터는 value 에저장하는기능을제공해야한다. (Key/Value) 저장소및성능향상을위한 Scale out 기능을제공해야한다. 데이터처리성능을높이기위한분산병렬처리기능을제공해야한다. - 38 -
분산파일시스템저장방식 [ 표 2-26] 분산파일시스템저장기술고려사항 기능 RDB 테이블데이터를분산파일시스템에저장 고려사항 저장테이블과컬럼관계를매핑하여저장하는기능을제공해야한다. 데이터형이다른컬럼은데이터형을변환하여저장하는기능을제공해야한다. 코드가다른컬럼은코드변환하여저장하는기능을제공해야한다. 컬럼중 NULL 데이터가있는경우 NULL 변환처리하여저장하는기능을제공해야한다. 맵리듀스작업을통해중복체크후분산파일시스템에저장하는기능을제공해야한다. XML, JSON, HTML, 문자열 / 문서파일을분산파일시스템에저장 저장테이블의컬럼에맞도록데이터를파싱처리하여저장하는기능을제공해야한다. 저장테이블의문자열데이터형에데이터전체를저장하는기능을제공해야한다. 여러웹로봇으로부터수집한파일들을분산파일시스템에서제공하는저장파일로통합하는기능을제공해야한다. 분산파일시스템의저장단위로통합된파일을나누어저장하는기능을제공해야한다. 나누어저장된통합파일을분산파일시스템에중복되지않도록순차처리파일로저장하는기능을제공해야한다. 여러에이전트로부터수집한로그파일을분산파일시스템에서제공하는저장파일로통합하는기능을제공해야한다. 매핑과변환처리된데이터를맵리듀스작업에서중복제거후분산파일시스템에저장하는기능을제공해야한다. 문서, 이미지, 오디오, 비디오이진파일을분산파일시스템에저장성능관리 이진데이터 Key 값을추출하여저장하는기능을제공해야한다. 분산파일시스템의이진데이터형에데이터전체를저장하는기능을제공해야한다. 여러에이전트로부터수집한파일을분산파일시스템에서제공하는저장파일로통합하는기능을제공해야한다. 분산파일시스템의저장단위로통합된파일을나누어저장하는기능을제공해야한다. 나누어저장된통합파일을분산파일시스템에중복되지않도록순차처리파일로저장하는기능을제공해야한다. 저장소성능향상을위한 Scale out 기능을제공해야한다. 데이터처리성능을높이기위한분산병렬처리기능을제공해야한다. 마 ) 시사점및모델링확보된빅데이터로부터지식과가치를추출하여활용하기위해서는빅데이터를효과적으로저장관리할수있어야한다. 일반적으로데이터저장관리기술은단지데이터를보관하는것뿐만아니라필요한경우데이터를수정하거나삭제하기도하고, 원하는데이터에접 - 39 -
근하여그내용을읽어올방법을제공하는것을포함하기때문에그특성과사용방법에따라선별적으로기술을선택하여야한다. 고려될수있는빅데이터저장기술로는 RDBMS와분산파일시스템, NoSQL정도로볼수있다. 최근빅데이터저장소또는빅데이터플랫폼으로불리어지는다양한상용하둡파일시스템과 NoSQL의제품출시를통해사용자는시스템구축의중요방향성에따라다양한결정을할수있을것이라예상된다. 식품의약품안전처의경우 Open Source인 Hadoop을활용하여비정형데이터를수집저장하고정제된데이터를 RDBMS에별도저장하여데이터시각화나정보제공의용도로활용할수있다. [ 표 2-27] RDB, NoSQL, 분산파일시스템저장방식비교 구분설명비고 RDB 관계형데이터를저장하거나, 수정하고관리할수있게해주는데이터베이스 SQL문장을통하여데이터베이스의생성, 수정및검색등서비스를제공함 Oracle MSSQL mysql Not-Only SQL 의약자이며, 비관계형데이터저장소로기존의 NoSQL 전통적인방식의관계형데이터베이스와는다르게설계된데이터베이스테이블스키마가고정되지않고, 테이블간조인 (Join) 연산을지원하지않으며, 수평적확장 (Horizontal Scalability) 이용이 key-value, Document key-value, colume 기반의 NoSQL이주로 MongoDB CouchBase Cassandra HBase 활용중 분산된서버의로컬디스크에파일을저장하고파일의읽기, 쓰기 등과같은연산을운영체제가아닌 API 를제공하여처리하는파일 분산파일시스템 시스템파일읽기 / 쓰기같은단순연산을지원하는대규모데이터저장소범용 x86서버의 CPU, 메모리등을사용하므로장비증가에따른성능향상용이 HDFS Cloudera MapR 수 TB ~ 수백 PB 이상의데이터저장지원용이 이와같이데이터의용도사용에따라빅데이터저장기술의사용을선택할수있으며, 효율성을고려하여구현하여야한다. 이중에서도 NoSQL은빠른데이터의입력처리와휘발성데이터의관리를위해서활용하는경우가많고 Hadoop의경우는대용량의데이터를저장병렬분석에활용하는경우가많다. 궁극적으로 Hadoop + RDB, NoSQL + RDB, Hadoop + NoSQL + RDB의조합을고려해보아야한다. - 40 -
[ 그림 2-23] Hadoop 분산파일시스템구조 < 출처 : Apache Hadoop> 5) 빅데이터분석기술데이터를효율적으로정확하게분석하여비즈니스등의영역에적용하기위한기술로분석기술영역은이미여러분야에서활용해온기술이다. 가 ) 주요활동 [ 표 2-28] 데이터분석주요활동 항목 분석계획수립 상세내역 분석목적을정의하고분석을위한시스템환경및방법론등세부분석계획을수립한다. 분석시스템구축 분석시스템구축비용및운영방식등을고려하여자체구축및타분석시스템활용한다. 분석서비스운영분석전문가를포함한전담인력을확보하고분석서비스운영한다. 나 ) 활용기술 통계분석불확실한상황에서현명한의사결정을하기위한자료수집, 분류, 분석, 해석, 발표의프로세스이며, 다양한분석에서활용되는기술로서통계적컴퓨팅에사용되는 R, SAS등을통하여다양한통계기법으로분석할수있다. 이러한통계기법을활용하여목적에맞는가장정확하고효율적인통계분석을수행할수있다. - 41 -
[ 표 2-29] 통계기법분류 통계기법 설명 고차원회귀 / 분류분석군집분석 Lasso Ensemble SVM (Support Vector Machine) K-means clustering Hierarchical clustering Model based clustering 모형의예측성능향상과변수선택을동시에할수있는기법단순모형을결합하여고성능모형을찾는방법주어진자들을분리하는가장좋은방법군집의중심과자료와의거리를최소화계층구조를갖는군집화방법혼합모형에기초한군집분석으로자료를군집화하는동시에각군집의분포추정 데이터마이닝데이터마이닝은통계및수학적기술뿐만아니라패턴인식기술들을이용하여데이터저장소에저장된대용량의데이터를조사함으로써의미있는새로운상관관계, 패턴, 추세등을발견하는과정이다. 데이터마이닝은다양한분야에서활용될수있으며, KDD, 기계학습, 패턴인식, 통계학, 신경망컴퓨팅등과관련하여빅데이터분석에있어가장기본적인분석기술이다. [ 표 2-30] 데이터마이닝에서의주요개념 항목분류 (Classification) 추정 (Estimation) 예측 (Prediction) 데이터축소 (Data reduction) 데이터탐색 (Data exploration) 설명데이터분석의가장기본적인형태로써, 데이터마이닝에서분류랑분류결과가알려진유사데이터를사용하여규칙을찾아낸다음, 그규칙들을분류결과가알려지지않은해당데이터에적용하는것이다. 분류는 예, 아니오, 남, 여 등의이산형결과를다루지만이에반해추정은연속적인결과를다룬다. 데이터를통하여만들어진예측모형을통하여, 자료의특정한속성을예측한다. 대량의변수혹은레코드들을작은변수군또는레코드집합으로병합하는과정으로써, 분별력이있는데이터분석이되기위해서는일반적으로복잡한데이터를데이터축소를통하여단순한데이터로정제하여야한다. 비슷한정보를내포하고있는서로유사한변수들은이를통합하여하나의단일변수로병합하여데이터를완전하게이해할수있도록하는과정이다. - 42 -
[ 표 2-31] 데이터마이닝에의주요기법 분석 기술 통계기법 설명 데이터 마이닝 OLAP (On-Line Analytical Processing) 군집분석 (Cluster Analytics) 연결분석 (Link Analytics) 사례기반추론 (Case Based Reasoning) 연관성규칙발견 (Association Rule Discovery) 의사결정나무 (Decision Tree) 시계열분석 동일한데이터를여러방식으로보면서하는다차원데이터분석데이터안에존재하지못하는특성이있을때유사성을기초로그룹화또는그룹간분리정도를기준으로분류항목들간의관련성을분석하는도구귀납법및유추법과유사한개념으로유사한과거데이터에기초해서새로운문제를해결하는과정특정아이템안에서발생하는규칙을연관된다른특정아이템에서발생하는현상을발견하고자하는분석의사결정규칙을도표화하여예측을수행하는분석방법추세분석, 평활법 (smoothing method), 자기회귀누적이동평균분석 (ARIMA) 텍스트마이닝불명확하고찾기힘든텍스트기반의데이터로부터새로운정보를발견할수있도록관련방법을제공하는기술이며, 이와관련된정보검색, 정보추출, 정보체계화, 정보분석을모두포함하는 Text-Processing 기술및처리과정을의미한다. 구조화되지않는대규모의텍스트집합으로부터새로운지식을발견하는과정으로텍스트문서전처리및패턴분석등의단계를가지며, 순환구조로써계속적인피드백을수행한다. [ 표 2-32] 텍스트마이닝수행단계 항목 Text 문서 Text 전처리 설명텍스트마이닝의소스로써주로사용되는 Text 문서는 DB Contents 혹은텍스트기반의문서이다. 문서내에표현되어있는단어 / 구 / 절에해당하는내용을언어분석처리과정을가공할수있는데이터로표현한다. 의미정보변환전처리된데이터중의미있는정보를선별하여저장한다. 의미정보추출 패턴및경향분석 복잡한의미정보의표현을단순화하고, 도메인에적합한정보를문서의의미데이터로저장한다. 의미데이터를기반으로문서를자동으로군집화하거나, 분류하는등의정보로재생산한다. - 43 -
항목 정보표현및평가 설명새롭게생성된정보를사용자에게시각화툴로효과적으로표현하며, 평가과정을통해텍스트마이닝의처리과정중문제가되는부분을수정및보완하여품질및성능을높이는데활용한다. 최적화주어진가능한결과들에대한평가를수행하여최적의결과를도출하는것으로비즈니스환경에서취할수있는여러가지대안들중제시된전략을평가하고최적의대안을선택하도록도와줄수있는필수적인분석기술이다. 평판분석소셜미디어등의정형 / 비정형텍스트의긍정 / 부정 / 중립의선호도를판별하는기술로서, 특정서비스및상품에대한시장규모예측, 소비자의반응, 입소문분석등에활용된다. 소셜네트워크분석소셜네트워크연결구조및연결강도등을바탕으로사용자의명성및영향력을측정하는기술로서, 수학의그래프이론에뿌리를두고있다. 주로마케팅을위하여소셜네트워크상에서입소문의중심이나허브역할을하는사용자를찾는데주로활용된다. CEP(Complex Event Processing) Complex Event Processing은 CEP라고도하며더복잡한상황을나타내는이벤트나패턴추론을여러소스로부터얻은데이터들을조합하여도출해내는방식으로의미있는이벤트를도출하고결과에최대한빠르게대응하는것이목적이다. 그이벤트들은뉴스항목, 텍스트메시지, 소셜미디어의포스트, 주식시장의피드, 교통정보, 날씨정보등과같은데이터종류일수도있다. 다 ) 분석도구 [ 표 2-33] 빅데이터분석도구 분석도구 상세설명 R 오픈소스로통계계산및시각화를위한언어및개발환경을제공하며, 기본적 인통계기법부터모델링, 데이터마이닝기법구현가능하다. 빅쿼리 (BigQuery) 구글의대용량데이터를처리할수있도록개발된쌍방향서비스로구글클라우드 스토리지를활용하여최대 2TB 에이르는비압축데이터를무료로분석가능하다. 프레스토 (Presto) 하둡을위한 SQL 처리엔진으로분석가가대화형분석을수행할수있도록해준다. - 44 -
라 ) 주요고려사항 데이터마이닝 [ 표 2-34] 데이터마이닝고려사항 기능 고려사항 샘플링 데이터선정시각각의개체가모두무작위방법선정기능을제공해야한다. 데이터선정시몇개의층으로나누어각층으로부터동등하게무작위방법선정기능을제공해야한다. 데이터선정시몇개의층으로나누어각층의비례에따라무작위방법선정기능을제공해야한다. 데이터선정시몇개의층으로나누고그중하나의층에서만무작위방법선정기능을제공해야한다. 데이터사전 처리및변환 평균형태의데이터분포에서혼자떨어져있는값을관측하여제거하는기능을제공해야한다. 데이터범위를일치시키거나유사하게만들어주는기능을제공해야한다. 가장크게영향을줄것으로판단되는변수부터하나씩선택하여판단하는기능을제공해야한다. 가장적게영향을줄것으로판단되는변수부터하나씩제거하여판단하는기능을제공해야한다. 중요한변수를하나씩선택하면서단계별로변수의중요성을판단하여제거유무판단기능을제공해야한다. 데이터기존수치적용또는추론 / 패턴적용을위한데이터사전기능을제공해야한다. 데이터사전의추가 / 수정을위한관리기능을제공해야한다. 분석모형 생성 연속형데이터의독립변수와종속변수의상관관계에따른선형적관계식을구하여예측하는기능을제공해야한다. 종속변수의이진데이터화를통해독립변수와의관계를발생가능성으로예측하는기능을제공해야한다. 반응변수의형태에따라연결함수자동지정기능을제공해야한다. 전체데이터셋을반복해서두개의노드로분리하여예측변수를사용하여의사결정트리생성방법지원기능을제공해야한다. 범주형데이터의예측변수와결과변수와의관계를찾는방법지원해야한다. 시각화 데이터의분석결과를시각화하여시각적분석기능을제공해야한다. 사용자 UI 환경에호환되도록시각화기능을제공해야한다. 지도및각종차트를이용한데이터시각화기능을제공해야한다. 사용자상호작용을통하여분석된결과를탐색하거나검색할수있는기능을제공해야한다. - 45 -
텍스트마이닝 [ 표 2-35] 텍스트마이닝고려사항 기능데이터구성형태소분석개체명분석텍스트군집과분류자동요약토픽분석감성분석 고려사항 수집된다양한비정형데이터로부터텍스트데이터를분리해내는텍스트필터링기능을제공해야한다. 원본문서의메타데이터나문서구조정보를별도로추출및수집하는기능을제공해야한다. 텍스트데이터의각문장들에포함된단어를구성하는각형태소를분리하고분리된형태소의기본형및품사정보를추출하는기능을제공해야한다. 정보로서가치가없는용어인불용어를제거하기위한기능을제공해야한다. 유사어, 합성어등의처리를위해준비된사전에따라분석을수행할수있는기능을제공해야한다. 불용어, 유사어, 합성어등의언어사전은분석도메인에따라특화될수있으므로분석시언어사전을조정및관리할수있는기능을제공해야한다. 텍스트데이터로부터인명, 지명, 기관명등과같은개체명을인식하여해당개체명에개체분류를위한태그를부착하여주는기능을제공해야한다. 분석도메인에따라특화된다양한개체를식별할수있도록개체명사전을등록, 수정및관리할수있는기능을제공해야한다. 주어진텍스트데이터로부터데이터추출이가능해야한다. 추출된특성을중심으로그들간의유사도를계산하고유사한문서들끼리 군집화할수있는기능을제공해야한다. 정의된분류체계를기준에적합한텍스트데이터를이용하여분류체계에대한기계학습을수행할수있어야한다. 기계학습된분류체계에따라새로운텍스트데이터를자동으로분류할수있어야한다. 기계학습으로분류할수없는적은량의텍스트데이터를분류하기위해규칙기반의분류기능을제공해야한다. 규칙기반자동분류를위해분류규칙을추가, 수정및관리할수있는기능을제공해야한다. 주어진텍스트데이터활용도를높이기위해텍스트데이터의특성을유지시키면서텍스트데이터의길이와복잡도를줄일수있어야한다. 일련의텍스트데이터로부터주요토픽을추출하고토픽들이시계열적인트렌드와공간적인분포를측정할수있어야한다. 주어진텍스트데이터로부터주요토픽을추출하고토픽들간의연관성을측정하여연관성을측정하여연관성네트워크를구성할수있어야한다. 주어진텍스트문장으로부터감성표현을식별하고, 주어진감성분류기준에따라자동으로감성분류를수행할수있어야한다. 감성표현과감성분류기준은분석대상이되는시기, 지역, 도메인에따라지속적으로변화하므로필요에따라감성표현사전을구성하고관리하는기능을제공해야한다. - 46 -
소셜네트워크분석 [ 표 2-36] 소셜네트워크분석고려사항 기능데이터추출및변환소셜네트워크분석 고려사항 대상데이터로부터객체간의관계데이터를자동으로추출하여전체네트워크데이터를구성하는기능을제공해야한다. 네트워크데이터를분석설계에따라분석가능한형태로자유로운변형이가능해야한다. 전체네트워크데이터의특성을알수있는기본적인지표를제공해야한다. 전체혹은일부네트워크데이터내의중심적인객체를파악하고중심성을계량적수치로제공해야한다. 네트워크데이터내의객체들간의최적의커뮤니티를분석하는기능을제공해야한다. 특정객체로부터다른객체들로연결된네트워크상최단경로혹은전파경로를분석할수있는기능을제공해야한다. 특정응집그룹내의객체들간의역할을분석하고이를계량적수치로제공해야한다. 네트워크내의객체들간의영향력과파급력을계량적수치로제공해야한다. CEP(Complex Event Processing) CEP는앞에서언급한바와같이실시간데이터의처리및분석을위한기술로대량스트리밍데이터의처리를위한솔루션으로볼수있다. Complex Event Processing은여러이벤트소스로부터발생한이벤트를대상으로실시간, 의미있는데이터를추출하여대응되는액션을수행하는것을말한다. 이때이벤트데이터는스트림데이터로써대량의지속적으로입력되는데이터, 시간순서가중요한데이터, 끝이없는데이터등이다. 이러한스트림데이터는전통적인관계형데이터베이스에서는불가능한영역이다. [ 표 2-37] CEP 고려사항 기능이벤트필터링이벤트추출 고려사항 조건문을이용하여원하지않는데이터를걸러내는기능을제공해야한다. 일정간격으로발생한데이터의중복내용을제외한새로운이벤트데이터만추출하는기능을제공해야한다. 데이터에여러개가섞여입력될경우분리를통한추출기능을제공해야한다. CEP의특징은경량서버에 CEP 엔진을탑재하여필터링, 패턴매칭, 사용자윈도우, 메시지강화등복잡한이벤트를처리하기위한기능을제공한다. 또한 EPL(Event Query Language) 라는프로세싱언어를제공하는데이는 SQL의확장판인 Oracle CQL을기반으로하여표준 SQL 사용이가능한사람이라면쉽게접근이가능하다. 이러한제반기술을바탕으로다양한산업부분에서대량데이터, 지속적인스트림데이터, 밀리 / 마이크로초단위의 - 47 -
실시간처리, 다양한전자장비에대한센서데이터처리, 타임윈도우기반프로세싱, 복잡한패턴매칭, 이벤트데이터에대한시각화등의요구에적용이가능하다. CEP의적용사례로보면 Algorithmic Stock-Trading, 온라인주문실시간통계등이있다. CEP의대표적인오픈소스프로젝트로는 EsperTech Esper와 JBoss Drools Fusion이있으며상용제품으로는 TIBCO의 TIBCO BusinessEvents, StreamBase Systems의 StreamBase CEP, SAP의 Sybase Event Stream Processor, Oracle의 Oracle CEP, IBM의 InfoSphere Streams 등이있다. 오픈소스인 Esper에대하여좀더살펴보면 EPL(Event Processing Language) 가제공되어개발자가이해하기쉬워초기진입장벽이높지않으며, 다양한프로토콜로 Input 및 Output을처리해낼수있다. [ 그림 2-24] Esper CEP 아키텍처 < 출처 : EsperTech> Esper는 ESP/CEP Engine을제공하고 EPL(Event Processing Language) 가제공된다. 또한 In-Memory 기반시스템이며, Lightweight & Embeddable한특징이있다. CEP에서제공되는 EPL(Event Processing Language) 은 SQL 형식의 Event 처리스크립트언어이며, 이를통하여분석업무에활용할수있다. 온라인쇼핑몰지난 30분간의실시간주문통계 Top 10 이라는쿼리를위해서는아래와같은 EPL 언어로처리할수있다. [ 그림 2-25] EPL 언어예시 - 48 -
마 ) 시사점및모델링빅데이터분석의특성은기업의문제점을분석하여문제를해결할분석모델을개발하고기업내운영계시스템에적용하는단계까지를포함하여야한다. 빅데이터분석프로젝트의경우그범위는기존의 SI 사업보다넓을수있다. 기업요구사항분석 (KPI 도출 ), 데이터수집및 DW 구축, 운영계시스템변경구축, 빅데이터분석을포함한다. 식의약품의사고위해예측기반의분석을위해서는방향성과문제점을파악하고이러한문제점을해결할분석모델의개발과서비스모델에적용하는단계를고려해야하며분석하여야할데이터의분류및항목에따라데이터구조를처리할수있도록구성하여야한다. 빅데이터분석을위한기술적특성은분석결과의정확성과즉시성이필요하며동향이나추세를분석하는것뿐만아니라분석모델을통한담당자의판별및결정을돕는서비스모델을구축할수있어야한다. 데이터분석의프로세스는요건정의, 모델링, 검증및테스트, 적용의순서로정의할수있는데이를좀더세분화하면아래와같다. [ 그림 2-26] 빅데이터분석프로세스예시 요건정의단계 에서는분석요건을구체적으로도출, 선별, 결정하고, 분석과정을설계및구체적인내용을실무담당자와협의하는업무이다. 광범위하고다양한정보를다루고문서화작업의비중이높다. 전체프로세스중에서가장중요한부분으로, 빅데이터분석업무의성패를좌우한다. - 분석요건도출기획단계와유사하지만, 상세하게접근하고실무측면으로진행하는특성이있다. 따라서분석요건의조건은문제를해결했을때투자수익 (ROI) 로증명할수있어야하는경우도있다. 요건을정의하는단계에서상세한분석보다는문헌조사및이해와간단한기초분석을수행할수있다. - 49 -
- 수행방안설계앞에서정의한분석요건에따라구체적인수행방안을설계한다. 수행방안은분석요건이정해졌다고해서확정되는것은아니다. 분석을구체적으로수행하기위해서는간단한탐색적분석을수행하면서미리가설을수립해어떤분석을수행할지틀을잡아야한다. 이단계에서는반드시분석기법을정의하고진행해야하며, 결정시해당분석기법에대한전문지식을갖춘인력이참가해검토해야한다. - 요건확정요건도출과분석계획을수립하면, 요건에어떻게접근하고어떤정량적, 정성적효과가나올지기획안이나온다. 이를통해분석요청부서와 IT부서, 기타연관부서와공유해최종요건을확정한다. 사전에충분히소통하지않을경우요건확정이어려우므로사전에지속적으로대화와조율을통해요건을확정한다. 모델링단계 에서는요건정의에따라상세분석기법을적용해모델을개발하는과정이다. 빅데이터분석에서모델링을거치면, 필요한입력데이터에대한처리가매우용이해진다. 시뮬레이션이나최적화에서필요한자료가빅데이터분석시스템에이미존재할가능성이높다. - 모델링마트설계와구축어떤모델링기법을사용하든모델링을위한데이터를미리준비해시스템에체계적으로준비해놓으면모델링이용이해진다. 모델링도구에따라데이터저장소에서직접값을가져와반영할수있는기능도제공한다. 모델링진행전에필요한데이터의마트를설계해비정규화상태로처리하면사용이편하다. - 탐색적분석과유의변수도출데이터마이닝에해당하는업무로해당비즈니스이해와분석요건에대한구체적인팩트를발견해통찰을얻기위해수행하는업무를흔히탐구데이터분석이라고한다. 유의미한변수를파악하는방안은목표값별로해당변수가분포된값을보고해당변수의구간에서차이가큰지를파악한다. 만약이러한구간이존재하면유의미한변수임을시각적으로알아볼수있다. 이단계와최종분석결과를산출하고공유하는단계에서는시각화가매우중요한역할을한다. - 모델링모델링은개념적인모델링도있지만, 결국이를구현해적용할수있어야한다. 전체내용을제대로제시하려면특정도구를사용해야할수있다. 분석도구도데이터마이닝, 시뮬레이션, 최적화별로산업에서시장점유율이높은도구들이다양하게있고, 일부는데이터마이닝도구에서지원하기도한다. 대표적인오픈소스로는 R이있다. - 50 -
- 모델링성능평가모델링성능을평가하는기준은분석기법별로다양하다. 데이터마이닝에서는정확도, 정밀도, 디텍트레이트, 리프트등의값으로판단한다. 시뮬레이션에서는 Throughput, Average Waiting Time, Average Queue Lenght 등의지표가활용된다. 검증및테스트단계 에서는모든모델링에서는반드시검증및테스트를거쳐야한다. 분석용데이터를트레이닝용과테스트용으로분리한다음, 분석용데이터를이용해자체검증한다. 테스트데이터의비율은분석용데이터세트의 30% 정도를이용하는게일반적이나전체데이터가충분할경우 6:4 또는 5:5로분리해테스트집단을선정할수있다. - 운영상황에서실제테스트운영상황에서실제테스트는분석결과를업무프로세스에가상으로적용해검증하는실무적용직전의활동이다. 운영상황에서실제도테스트해분석과운영간연계를검증할수있고, 돌발상황에서문제없이모델을적용할수있는지전체적인흐름을통합시험하는과정이다. - 비즈니스영향도평가의미있는분석결과를확보하려면비즈니스영향도와효과를산출할수있어야한다. 정확성을높여비용이나만족도를개선하거나, 추가수익또는효과를창출할필요도있다. 이러한영향도와효과는실제테스트를통해나온최종결과로산출해이를기반으로정량적효과를도출할수있다. 따라서최대한충분한기간실행하고전체를대표할수있을만큼의테스트를실행해영향도나효과를산출하는데있어모두를납득할수있는결과가나와야한다. 적용단계 에서는분석결과를업무프로세스에완전히통합해실제운영을하는것이다. 분석시스템과연계되어사용될수있고, 별도코드로분리돼기존시스템에별도개발해운영할수있다. - 운영시스템에적용과자동화운영시스템에적용해운영하면실시간또는배치스케줄러가실행하고, 주기별로분석모델의성과가예상했던수준으로나오고있는지모니터링할수있도록성과자료를누적하고, 이상현상이발생하면경고나알림이자동으로발생할수있게한다. 특히분석모델은개발된내용이많아질수록상시파악을수작업으로하는일이매우큰부담이되므로자동으로이뤄지고이상시에만확인하도록프로세스를수립해놓아야한다. - 주기적리모델링한번만든모델이영원히동일한성과를낼수없다. 비즈니스상황이변하거나분석결과적용에따른주변요인들이관심의대상으로부각되기때문이다. 그러므로성과모니터링이지속적으로되어야하고, 일정수준이상으로편차가지속적으로하락하는경우리모델링을주기적으로수행하여야한다. - 51 -
빅데이터분석도구 [ 표 2-38] 빅데이터분석도구상용비상용비교 구분 SAS SPSS 오픈소스 R 프로그램비용 상용, 고가 상용, 고가 오픈소스 설치용량 대용량 대용량 모듈화로간단 다양한모듈지원및비용 별도구매 별도구매 오픈소스 최근알고리즘및기술반영 느림 다소느림 매우빠름 학습자료입수의편의성 유료도서위주 유료도서위주 공개논문및자료많음 질의를위한공개커뮤니티 NA NA 매우활발 빅데이터분석도구중에서가장많이언급되는도구는 SAS, SPSS 그리고오픈소스 R이라고 볼수있다. 그중에서도오픈소스 R은오랜역사를가진것으로최근들어빠른속도로확 산되고있다. [ 그림 2-27] Google 트렌드 R, SAS, SPSS 비교 [ 그림 2-28] Google 스칼라 Hit - 52 -
위의통계에서도나타나는봐와같이 R의관심도는지속적으로증가하고있는반면 SAS와 SPSS에대한관심도는감소하고있고, Google 스칼라에서나타나는연도별추이를보면 R 은벌써 SAS 수준으로올라와있음을알수있다. 반면 SPSS 사용율은급감한것으로알수있으며 R의비중을무시할수없는실정이다. 7) -SAS(Statistical Analysis System) SAS는 Statistical Analysis System의약어로미국 North Carolina에있는 SAS 연구소에의해개발된통계분석 Package이다. 처음에는통계적전산처리를위한것이었으나지금은시계열분석 (SAS/ETS), 파일관리, 데이터베이스 (SAS/SQL), 그래프 (SAS/GRAPH), DR(SAS/DR) 등거의모든자료처리에막강한기능을제공하고있다. -SPSS(Statistical Package for the Social Sciences) SPASS는 Statistical Package for Social Sciences의약어로광범위한분야에걸쳐데이터입력, 데이터관리및통계분석을목적으로전문프로그래머가아닌일반사용자들도쉽게이용할수있도록개발된통계소프트웨어이다. -오픈소스 R R은오픈소스프로그램으로통계, 데이터마이닝과그래프를위한언어다. R은주로연구및산업별응용프로그램으로사용되고있으며, 최근에는많은기업에서사용하기시작했다. 특히데이터분석용으로각광받고있으며, 다양한기능을지원하는 5000개에이르는패키지가수시로업데이트되고있다. SAS, SPSS등과비교해가장큰특징은첫째, 다양한최신통계분석및마이닝기능을 R 플랫폼에서제공한다는데있다. 둘째, 언어에가까운문장형식이므로기능들의자동화가비교적쉽다. 셋째, 사용자들이여러예시들을공유한다는점이다. R은데이터관리, 수치연산그리고시각화를통합적으로지원하는소프트웨어로효과적인데이터관리및저장기능, 행렬에특화된배열기반의수치연산기능, 데이터분석의중간과정을모두확인할수있도록지원하는방대한양의기능들이잘통합되어있다. R은자료의구성, 정렬등의자료처리기능이매우쉽게이루어지기때문에프로그램언어의지식이없어도매우쉽게자료처리작업에사용할수있는장점이있다. [ 그림 2-29] R 스튜디오화면예시 7) Will 2014 be the Beginning of the End for SAS and SPSS? http://www.r-bloggers.com/forecast-update-will-2014-be-the-beginning-of-the-end-for-sas-and-spss/ - 53 -
6) 빅데이터시각화기술가 ) 주요활동및내용분석결과를시각적으로묘사하는영역으로빅데이터는기존의단순선형적구조방식으로표현하기힘들기때문에빅데이터의시각화기술을필수요소이다. 데이터시각화는데이터분석결과를쉽게이해할수있도록시각적인수단으로정보를전달하는과정을의미하며, 데이터분석결과를누구나직관적으로이해할수있도록일목요연하게표현하는기술이빅데이터시각화기술이다. 나 ) 활용기술빅데이터시각화기술은아래와같이구분된다. [ 표 2-39] 빅데이터시각화기술 분야 내용 정보편집 시각화기술 시각적맵핑스토리텔링구성주의적편집기술시간시각화분포시각화관계시각화비교시각화공간시각화인포그래픽 편집된내용과구성에따라시각적요소를적절히배분하는기술이야기식으로정보를전달하는기법전달하고자하는내용을사용자관점으로전달막대그래프, 시계열그래프등으로표현도넛차트와시간에따른누적영역그래프로표현상관관계 ( 버블차트 ), 분포 ( 히스토그램 ), 비교등을표현다차원척도법, 아웃라이어찾기등을통해표현점이찍힌지도, 버블지도등을통해표현차트, 지도, 다이어그램, 로고, 일러스트레이션형대로디자인 시간시각화기술시간에따른데이터의변화를표현하며, 시계열데이터의가장특징적인요소는트렌트, 즉경향성으로장기간에걸쳐진행되는변화또는트렌드를추적하는데주로사용한다. 시간의전후관계를감안하면값의의미를더분명하게이해가능하기때문에활용성이매우높다. 시간데이터는분절형과연속형으로분류가가능하다. 주로막대그래프, 누적막대그래프, 단어들의바차트, 점그래프등으로표현한다. - 분절형 : 특정시점또는특정시간의구간값을막대그래프, 누적막대그래프, 점그래프등으로표현된다. - 연속형 : 기온변화같이지속적으로변화하는값을시계열그래프, 계단식그래프, LOESS 곡선추정등으로표현된다. - 54 -
[ 그림 2-30] 누적막대그래프와시계열그래프예시 분포시각화기술분포데이터의일반적인특성은최대 (maximum), 최소 (minimum), 전체분포 (overall distribution) 으로분류된다. 최대와최소는글자그대로순서정렬에서양끝을위하면최대와최소이다. 분포그래프에서가장주목해야할것은분포의정도이며, 분포데이터는부분을전부합치면 1또는 100% 가되어야한다. 전체의관점에서부분간의관계를보여줘야한다. 주로원그래프, 도넛차트, 트리맵, 누적연속그래프등으로표현한다. - 전체분포 : 최대, 최소, 전체분포를나타내는그래프로전체의관점에서각부분간의관계를보여주는기술로차트, 도넛차트, 누적막대그래프, 인터랙티브누적막대그래프등으로표현된다. - 시간에따른분포 : 특정년도까지의연령별한국인구분포와같이시간에따라어떤변화가있었는지나타내는기술로누적연속그래프, 누적영역그래프, 인터랙티브누적영역그래프, 선그래프등으로표현된다. [ 그림 2-31] 도넛차트와누적영역그래프예시 관계시각화기술각기다른변수사이에서관계를찾는기술로상관관계, 분포, 비교로구분할수있고, 상관관계 는스캐터플롯, 스캐터플롯행렬, 버블차트등으로표현된다. 관계시각화는스캐터플롯과멀티플스캐터플롯이사용된다. 스캐터플롯은시간적인변화를알아보는데도움이되지만두변수의관계를알아볼때도활용된다. 산점도, 버블차트, 히스토그램등이있다. - 55 -
[ 그림 2-32] 버블차트와스템플롯그래프예시 비교시각화기술여러개의변수를다뤄야하는경우활용하는기술로히트맵, 체르노프페이스, 스타차트, 평행좌표그래프, 다차원척도법 ( 여러가지변수에따라데이터를배치 ), 아웃라이어찾기 ( 나머지데이터와동떨어져있는소수의데이터를찾아원인을확인 ) 등이있다. - 체르노프페이스때론하나의대상을전체적으로조망하기보다몇가지기준으로쪼개어보고싶은경우사용한다. 다양한변수를사람의얼굴모양에반영해서시각화 - 다차원척도법 (MDS:Multi-Dimensional Scaling) 모든변수를비교해서비슷한대상을그래프상에가깝게배치하는것으로관련이론에는 PCA(Principal Components Analysis) 가있다. - 아웃라이어찾기전체구성에서나머지다수와동떨어진극소수의대상을표현한다. [ 그림 2-33] 체로노프페이스, 다차원척도법, 아웃라이어찾기예시 공간시각화기술위치를점이찍힌지도, 선을그린지도, 버블을그린지도등으로특정하고색상으로영역을구분하며, 시간과공간에따라작은도를하나로그려패턴의변화를보여주는스몰멀티플이나애니메이션확산지도를활용된다. 점지도, 등치선도, 유선도등이있다. - 56 -
[ 그림 2-34] 점지도, 등치선도, 단계구분도, 도형표현도, 유선도예시 인포그래픽 - 인포메이션 (Information) 과그래픽 (Graphic) 의합성어로다량의정보를차트, 지도다이어그램, 로고, 일러스트레이션등을활용하여한눈에파악할수있도록디자인하는것이다. 즉텍스트를통해정의하고의미를전달하던방식을시각적형식을빌려커뮤니케이션하는것을말한다. 인포그래픽의장점으로는흥미유발, 정보습득시간절감, 기억지속시간연장, 빠른확산등이있다. [ 그림 2-35] 인포그래픽예시 [ 그림 2-36] 식품의약품안전처인포그래픽 < 출처 : www.mfds.go.kr> - 57 -
다 ) 고려사항 데이터의시각화고려사항 [ 표 2-40] 데이터의시각화기술고려사항 기능 고려사항 시각화기술을 도입하기위한단계 추가고려사항 1 단계 : 사용자의시각분석요구사항과대처방안에대한평가를수행한다. 2 단계 : 일반사용자가시각화를통해어떻게고급분석할수있는지를평가한다. 3,4 단계 : 인메모리 (In-Memory) 컴퓨팅기술을활용해시각분석의확장성과통찰력의도출속도를높이는한편, 빅데이터활용이가능한지를평가한다. 5 단계 : 분석데이터관리를통한통합시각화과정을평가한다. 6 단계 : 사용이간편한시각분석기법을통해사용자경험의질을향상시킬수있어야하며, 보다많은사용자들이기존방식에얽매이지않고데이터를자유롭게탐색하여가장적합한시각화자료를선택할수있어야한다. 7 단계 : 모바일대시보드와협업을위한시각분석구현대시보드는웹상에서하나의화면에다양한정보를중앙집중적으로관리할수있도록한사용자인터페이스기능으로, 이동성과협업을반영하여데이터시각화기술을도입해야한다. 빅데이터시각화를위해서는먼저대량의데이터를고속으로분석하여결과를도출할수있어야한다. 데이터속에숨겨진패턴을발견해인사이트를얻기위해서는기본적인통계나다차원분석, 상관관계규명과예측, 시뮬레이션등고급분석과정이추가적으로필요하다. 데이터사이언티스트나 IT 전문가가아닌일반현업사용자들도직접손쉽게데이터를탐색하고보고서를생성및공유할수있도록사용자친화적인시스템이여야한다. 시각화기술을통해참여자들과의사소통의효율성을높이고잠재되어있는문제들의솔루션을찾을수있어야한다. 라 ) 시사점및모델링빅데이터시각화기술은데이터분석결과를쉽게이해할수있도록시각적수단을통해제시하는것으로통계수치등복잡한정보를빠르고명확하게표현하는것이핵심이기때문에그중요성이높아지고있다. 방대한데이터가빠르게증가하는빅데이터에서통찰력을얻기위해서는분석도중요하지만, 이를한눈에알아보고이해할수있게하는것이필요하다. 앞서언급된빅데이터시각화의다양한기술들을활용하여적합한데이터의분석의결과를표출하는것, 그것이바로빅데이터의핵심이아닌가생각된다. 하지만국내빅데이터시장에서가장큰화두는아직까지데이터수집, 저장솔루션에맞춰있다는것을부인하기어려운현실이다. 그러나국내에서도빅데이터사례가증가하고도입이활성화되면서데이터수집, 저장에서시각화로관심이이어지고있다고볼수있다. 시각화부분에서가장눈에띄는것은 SAS이다. SAS 코리아는범정부적으로빅데이터를공유, 분석할수있는체계와이를활용한표준모델을제공하고, 부처별추진에따른중복투자방지를목적으로 2013-58 -
년추진된정부시범사업에 SAS 비주얼애널리틱스 (Visual Analytics) 를공급하면서데이터시각화선도기업의면모를보여주었다. 8) 또한국립재난안전연구원의 미래재난예측방법론개발및재난유형별시나리오개발 과소셜빅데이터재난운영방안및이슈탐지기법연구 사업에 SAS 텍스트분석 (SAS Text Analytics) 과 SAS 비주얼애널리틱스 (SAS Visual Analytics) 솔루션을공급하는등눈에띄는성과를발굴하면서주목받고있다. [ 그림 2-37] SAS Visual Analytics 화면예시 < 출처 : SAS > SAS 비주얼애널리틱스는인메모리분석기반의데이터시각화솔루션이란점이가장큰특징이다. 신속한인메모리분석기능을활용해수십억건에달하는데이터를단수분또는수초내에분석해결과물을시각적으로제시한다. 특히어떤빅데이터플랫폼환경에서도지원가능한인메모리아키텍처와함께직관적인데이터탐색기능, 실시간비정형분석, 모바일 BI와의통합연계가유연한점도장점이다. 또다른솔루션으로마이크로스트리티지는시각화를중심으로 BI 시장공량을강화한다는전략으로발빠른행보를보이고있다. 최근새로운버전에서가장중점을둔분야가데이터시각화로데이터분석결과를표나그래프등으로보여주는 시각적데이터디스커버리 기능이포함되었다. 또한오픈소스 R을지원함으로써양방향시각화까지가능하게했다. 마이크로스트리티지의 BI 플랫폼은 ROLAP 엔진이가장큰특징이다. ROLAP은흔히 OLAP에서주로이용되는다차원데이터베이스대신에 RDBMS 내저장된데이터를대상으로동적인다차원분석을수행하는 OLAP의형태이다. 2013년말에는클라우드기반의무료셀프-서비스시각적분석솔루션 마이크로스트리티지분석익스프레스 도선보여시각화선도기업이라는입지를강화하고있다. 8) 안전행정부빅데이터사업에 SAS 비주얼애널리틱스 솔루션선정 https://www.sas.com/ko_kr/news/press-releases/2013/september/sas-visual-analytics.html - 59 -
[ 그림 2-38] 마이크로스트리티지 9.3.1 화면 < 출처 : 마이크로스트리티지 > SAP에서도 SAP 비즈니스오브젝트익스플로러 (SAP Business Objects Explorer), 비주얼인텔리전스 (Visual intelligence) 등을선보이고있다. SAP 비주얼인텔리전스는기업의주요정보를한눈에보여주며, 특히 IT부서의도움없이현업담당자가간단한키워드검색으로, 필요한정보를한눈에시각화하여빅데이터의활용도를높일수있게한다. [ 그림 2-39] SAP 비주얼인텔리전스화면 < 출처 : SAP> 오라클의경우 2013년말빅데이터탐색플랫폼인오라클엔데카인포메이션디스커버리 (Oracle Endeca Information Discovery) 를출시하여시각화지원에나섰다. 드레그앤드롭등의기능을통해시각화화면을쉽게구성할수있고, BI 솔루션과의통합을강화해빅데이터분석에필요한연계정보를쉽게통합할수있도록한것이특징이다. 국산솔루션의경우위세아이텍, 솔트룩스등이대표적인기업으로볼수있는데위세아텍의 와이즈비주얼 (WISE Visual) 은매크로시각화와마이크로시각화를모두지원하는특징이있다. 매크로시각화는그래픽을활용해빅데이터의전체적인의미를파악할수있게하며, 마이크로시각화는빅데이터의세부부분을여러관점에서분석하기위해다양한차트를조합하고연계해탐색할수있도록한다. 솔투룩스의경우실시간빅데이터분석플랫폼 D2 와소셜분석플랫폼 O2, 빅데이터수집기인 토네이도 그리고시각화도구 레인보우 등 - 60 -
을선보이면서수집, 분석, 활용에이르는빅데이터의전반적라이프사이클을모두지원하는기업으로자리잡았다. 레인보우는빅데이터의분석결과를차트나그래픽, 대시보드등으로자동시각화하는솔루션으로, 사용자가원하는형태의시각화결과물을얻어활용할수있으며, 시각화결과물을이메일, 그룹웨어등을통해공유될수있어그가치를높일수있게한다. [ 그림 2-40] 솔트룩스 RAINBOW 화면 < 출처 : 솔트룩스 > 2.3 식품의약품안전처정보시스템현황정보 1) 통합식품안전정보망운영시스템식품의약품안전처는여러부처와지자체에분산되어있는식품안전정보를통합및공유하는통합식품안전정보망구축사업을진행하여 2015년 6월 30일부터 159종의안전먹거리정보를제공했다. 통합식품안전정보망은식품행정통합시스템, 식품안전정보포털, 식품정보활용시스템으로구성되어있다. [ 그림 2-41] 통합식품안전정보망개요도 < 출처 : 행자부 2014 년협업우수사례집 > - 61 -
[ 그림 2-42] 통합식품안전정보망주요내용 < 출처 : 행자부 2014년협업우수사례집 > 가 ) 식품행정통합시스템식품행정통합시스템은식품의약품안전처와지방자치단체의행정업무에대한실시간공유시스템으로서, 설 추석명절단속, 유통식품수거 검사, 행정처분등각종안전관리업무가전국적으로표준화되고실시간으로공유할수있는시스템이다. 이용망은행정망이고중앙및지방식품행정공무원이활용하게된다. 식품행정통합시스템주요기능은다음과같다. [ 표 2-41] 식품행정통합시스템주요기능 주요기능인허가접수 ( 방문 ) 및처리등민원행정업무처리지도 점검, 수거 검사, 행정처분등사후안전관리업무전국행정정보통합조회전국시도, 시군구등정보연계기능관리 업무내용 식품 건강기능식품 축산물등인허가신청 처리기능 (122 종 ) 시도 시군구연계전자민원신청 처리기능 통합신고기능 (1399 이물신고, 건식부작용, 포상금관리 ) 단속및처분관련사후관리기능 위해정보관리등기타행정업무처리기능 ( 위해정보관리, 위해조사, 광고모니터링, 감시원관리, 어린이기호식품관리, HACCP 평가관리, 식중독관리등 ) 표준코드및시스템관리기능 ( 표준코드 : 업체, 품목, 품목분류, 식품원재료, 시험항목, 법 령 규칙, 처분기준 ) 식품영업, 제조품목, 수입식품실적, 지도 점검, 수거 검사, 행정처분, 시험분석조회등 7 종을포함한통합조회전체기능 지자체 통합망자료연계기능및오류점검 동기화기능전체 ( 지자체 통합망 ): 식품 축산물영업 품목대장등자료 108 종, - 62 -
주요기능 표준코드및시스템 관리기능 업무내용 ( 통합망 지자체 ): 품목보고신청정보등자료 40 종연계테이블오류검증, 연계테이블 통합망자료동기화기능 기존시스템 (Legacy) 과의정보연계기능 ( 통합망 LIMS 시스템 ) 시험검사의뢰및결과정보연계 ( 수입식품시스템 통합망 ) 인허가및행정처분정보연계 ( 온나라 통합망 ) 직원및부서정보동기화연계 ( 온나라 통합망 ) 내부결재관련연계 ( 수입식품 ( 축 수산 식품 ) 통합망 ) 수입실적정보연계 ( 국토부부동산종합공부정보 통합망 ) 부동산지도조회연계 업체, 품목, 품목분류, 식품원재료, 시험항목, 법 령 규칙, 처분기준등표준코드관리기능전체 식품행정통합시스템초기화면, 공통게시판, 사용자, 권한, 시스템로그등시스템관리기능전체 [ 그림 2-43] 식품행정통합시스템개요도 - 63 -
나 ) 식품정보활용시스템식품정보활용시스템은 12개부처및소속기관이사용하는것으로 12개부처 159종의정보를부처칸막이없이식품안전정책수립, 지도점검또는수거검사등소관업무에공동활용한다. 부처와민간에서보유한정보를연계및통합하여기관간정보연계예산을절감하고식품정책수립및안전관리에공동활용하는데그목적이있다. [ 그림 2-44] 식품정보활용시스템개요도 식품정보활용시스템주요기능은다음과같다. [ 표 2-42] 식품정보활용시스템주요기능 주요기능식품안전통합DB 관리식품안전정보품질관리식품정보활용시스템관리 업무내용 범부처식품안전정보의수집및제공 (159 종 ) 행정자치부행정정보공동이용센터정보유통서비스관리 공동활용식품안전정보추가연계시지원등 수집되는식품안전정보에대한오입력, 누락, 코드불일치등오류정보조치 송 수신상황실시간모니터링및대응등 범부처공동활용식품안전정보조회서비스 ( 다양한검색서비스지원을위한메타데이터관리등 ) 타부처에연관된식품안전정보일괄조회서비스 - 64 -
주요기능 기타 업무내용 OpenAPI 정보제공관리 식품안전표준코드매핑관리 식품안전정보 ( 정형, 비정형자료 ) 등록관리등 사용자교육, 사용자의견수렴등지원 시스템오류사항및간단한개선사항조치 식품정보활용시스템산출물현행화등 다 ) 식품안전정보포털 ( 대국민, 산업체 ) 여러부처, 여러사이트에분산된정보를한곳에서확인이가능하다. 87종의전자민원신청처리, 연령및계층별 ( 청소년, 주부, 임산부, 노인등 ) 필요정보및업체필요정보제공등공공정보민간개방확대를목적으로한다. 부적합, 회수식품, 불법판매식품정보와업체 / 품목, 수입식품등 125종의행정정보를개방및확대하고, 품목제조보고등 87종대국민전자민원과통합상담, 질의, 신고창구기능을제공한다. (www.foodsafetykorea.go.kr) [ 그림 2-45] 식품안전정보포털개요도 식품안전정보포털주요기능은다음과같다. [ 표 2-43] 식품안전정보포털주요기능 주요기능 전자민원창구기능 제공 업무내용 식품 건강기능식품 축산물등인허가신청기능 시도 시군구연계식품 축산물품목제조보고 ( 변경포함 ) 민원기능 - 65 -
주요기능통합신고기능제공식품위해정보제공식품안전정보포털관리 업무내용 부정불량식품신고 (1399), 내부자제보, 건강기능식품부작용신고기능 식중독발생보고, 부적합긴급통보, 통합위생교육기관, 시험 검사기관보고, 1 회제공량설정통보, HACCP 평가관리, 모니터링정보망등협업시스템접속기능 증명서등발급문서진위확인기능 회수 유통중지, 검사부적합 ( 국내 외 ), 위해식품정보, 행정처분, 허위과대광고, 원산지표시위반정보등제공기능 사용자및권한관리기능 콘텐츠및게시판관리기능 메뉴관리기능등 데이터활용서비스제공 Open API 로식품안전정보공개 (125 종 ) 우리회사안전관리 서비스제공 식품안전정보맞춤형제공기능 우리회사사의인허가정보, 품목제조보고 ( 신고 ) 정보, 행정처분정보, 교육이수정보등제공 우리회사정보관리기능 우리회사민원관리기능 ( 품목제조신 ( 보 ) 고현황, 품목제조신 ( 보 ) 고기능, 품목제조변경신 ( 보 ) 고기능, 축산물냉동전환기능등 ) 생산실적보고기능 타회사의업체및제품정보제공기능 [ 그림 2-46] 식품안전정보포털접속화면 < 출처 : 식품안전정보포털 > - 66 -
2.4 정부기관데이터현황 1) 복지부국민건강보험공단국민건강정보 DB 현황 가 ) 국민건강정보데이터개념및목적 국민건강정보데이터는정부 3.0 정책기조에발맞추어국민건강보험공단이보유하고있는 데이터중민간으로부터의개방요구가높은항목을중심으로개방되는공공개방데이터이다. 국민건강정보데이터는공단이국민건강보험가입자역할을수행함에따라축적된국민건강 보험가입자의진료내역정보, 의약품처방정보, 건강검진정보이다. 국민건강보험공단에서는 안전한데이터개방을위하여개인정보와민감성데이터는제외또는마스킹처리를하였으며, 외부전문가를통하여개방데이터의안전성과관련된자문을실시하였다. 제공되는데이터의 대상년도는 2002 년부터 2013 년까지이며, 향후대상기간을지속적으로확대할계획이다. 국민건강정보데이터의목적은첫째, 법률에근거한국민의공공데이터이용권을보장하고, 국 민건강보험공단이수집 보유 관리하고있는주요보건의료정보에대한국민의알권리를충 족하고자한다. 둘째, 국민건강정보데이터를활용한건강정보관련산업계의새로운형태의 사업기회창출을돕고자한다. 셋째, 개인중심의진료내역, 의약품처방정보를일반국민에게 개방함으로서의료기관의고품질의료서비스제공을유도하고자한다. 부가적으로는건강정보 관련산업의발전으로인한보건의료산업국가경쟁력강화와신사업개발로인한일자리창출 효과를목적으로한다. 나 ) 국민건강정보개방데이터선정기준 - 안전한데이터중심의개방 (Safety) - 개인정보보호중점 그자체로개인을식별할수있는개인식별정보제외개인을식별할수있는개인식별정보 ( 고유식별정보 ( 주민번호, 국민건강보험자격번호등 ), 쉽게개인을식별할수있는정보 ( 이름, 전화번호, 주소, 생년월일, 사진등 )) 등은국민건강정보데이터항목에서제외하였다. - 개인정보비식별화처리기법적용 타정보와의결합을통해개인식별이가능한정보가포함되어있는지여부를사전필터링 하여재식별가능성이존재하는데이터는개방대상에서제외하거나, 개별항목에적합한 비식별화처리기법을적용하여식별가능성을제외하였다. 구분 표본의추출 자료별조합제한 내용 각연도별진료및건강검진수진환자 100 만명무작위추출 진료환자, 약품처방환자, 건강검진수진자를연도별로각각 1 백만명씩 무작위로추출 [ 표 2-44] 개인정보보호방안예시 동자료는단면자료로써각 DB별개인일련번호와청구일련번호를다 르게하여제공 ( 연계불가능 ) 개인식별자제거주민등록번호 (13 자리 ) 개인일련번호 (8 자리 ) 범주화 연령그룹화 - 67 -
구분데이터마스킹최상위지역코드제공 내용 연령 연령대 (5세단위 ) 85세이상은 85세이상 으로범주화민감상병 D, O, P, X, Y코드 (5종, 114개 ) 를대분류화 ( 예 :D***) D(7개코드 ) : 남성생식기관의양성신생물 O(81개코드 ) : 임신, 출산및산후기, 자궁외임신등 P(4개코드 ) : 기타선천성감염및기생충질환 X(1개코드 ) : 알코올에의한불의의중독및노출 Y(2개코드 ) : 특수목적코드, 완력에의한성적학대등소규모지역에거주하는표본의인식을고려하여시도코드에한하여제공 (17개시도단위제공 ) - 활용중심의데이터개방 (Utilization) - 수요자맞춤형데이터개방국민건강정보데이터는개방되는데이터항목및제공방법등에관련된수요조사를실시하였으며, 해당수요조사결과를반영하여개방항목및제공형태등을구성하였다. 단수요조사를통하여요구되었던항목의일부는민감성데이터로분류되어개방이제한되었으며, 국민건강보험공단은수요자요구에대한지속적인모니터링을통하여실효성있는데이터가개방될수있도록노력할계획이다. - 객관적이고신뢰성있는데이터개방 (Reliability) 국민건강정보데이터가다양한분야에서믿고활용될수있도록개방데이터발굴시점부터데이터값의신뢰성이낮거나검증이어려운항목은개방항목대상에서제외하였다. 예를들어건강검진정보문진항목중수검자가직접기입하는항목등은데이터값의오류를정제하는과정을거쳐객관성과신뢰성을담보하기위해노력하였다. 다 ) 개방데이터셋의생성형태개방데이터셋의생성방식및범위는국민건강정보데이터는 2002년부터 2013년기간에해당하는국민건강보험가입자 100만명의진료내역, 의약품처방내역, 건강검진결과에대한정보이다. 100만명의선별은무작위선별기법을적용하였으며, 제공할수있는데이터크기가제한됨에따라진료내역정보와의약품처방정보에대해서는부분적인데이터정제를실시하였다. [ 표 2-45] 개방데이터셋의내용 개방정보 진료내역정보 내용진료내역정보는국민건강보험가입자중해당년도요양 ( 병 / 의원 ) 기관으로부터의진료내역이1건이상있는가입자 100만명을무작위로선별하고, 항목선정과정을거쳐선정된해당가입자의기본정보와진료정보를추출하여진료내역정보데이터셋을 1차적으로구성 1차적으로구성된진료내역정보데이터셋의크기를축소하기위하여 - 68 -
개방정보 내용 구간분포비율을최대한유지한상태에서데이터정제작업을거쳐 최종적인진료내역정보데이터셋을구성 의약품처방정보 의약품처방정보는국민건강보험가입자중해당년도에요양 ( 병 / 의원 ) 기관으로부터의의약품처방내역이 1건이상있는가입자 100만명을무작위로선별하고, 항목선정과정을거쳐선정된해당가입자의기본정보와의약품처방정보를추출하여의약품처방정보데이터셋을 1차적으로구성. 1차적으로구성된의약품처방정보데이터셋의데이터크기를축소하기위하여구간분포비율을최대한유지한상태에서데이터정제작업을거쳐최종적인의약품처방정보데이터셋을구성 건강검진정보 건강검진정보는해당년도에건강검진을수진한국민건강보험가입자 100 만명을무작위로선별하고, 항목선정과정을거쳐선정된가입자의 기본정보와검진결과정보를추출하여국민건강정보데이터셋을구성 개방데이터셋갱신주기는매년 12월에 2년전데이터를추가하는방식을취하여 1년단위로데이터를갱신한다. 예를들면 2014년도데이터는 2016년 12월추가되는형태이다. 개방데이터셋제공형태는 CSV(Comma Separated Value) 이며, 데이터활용및다운로드의편의성을위하여연도별로분할된형태로데이터를제공한다. 라 ) 국민건강정보데이터상세내역 진료내역정보진료내역정보는 2002년부터 2013년까지국민건강보험가입자중요양기관 ( 병, 의원등 ) 으로부터의진료이력이있는각연도별수진자 100만명에대한기본정보 ( 성, 연령대, 시도코드등 ) 와진료내역 ( 진료과목코드, 주상병코드, 요양일수, 총처방일수등 ) 으로구성된개방데이터이다. 총 19개의변수로가입자일련번호와진료내역일련번호, 1 수진자기본정보 : 성, 연령, 거주지시도코드와같은기본정보 2 진료상세정보 : 주상병, 부상병, 요양일수, 입 내원일수, 총처방일수등구체적인진료내역정보, 3 요양급여청구심사결과 : 요양급여비용심사청구결과결정된보험자와수진자가각각부담해야할금액등요양급여청구심사결과값에대한정보로구성되어있다. 제시되는개방항목표의비고란에 표시가되어있는개방항목의경우개별코드값의명칭제공시데이터량의증가에따른제공서버의부하및다운로드속도저하등의문제가발생하여코드값만제공함, 해당코드의명칭은항목설명을참조하거나, 관련된웹사이트를통하여확인이가능하다. 개방항목에대한내용은다음과같다. - 69 -
제공항목속성정보표현 NO 표준영문명설명형식 / 예시비고항목명단위 1 기준년도 STND_Y 해당정보의기준년도를제공함 YYYY 2009 가입자 IDV_ 해당가입자에부여한일련번호 2 N 1 일렬번호 ID 1 ~ 1,000,000 징료내역 KEY_SE 3 해당진료내역에대한일련번호 N 1 일련번호 Q 해당정보대상자의성별을제공함 4 성별코드 SEX N 1 성별 : 1( 남자 ), 2( 여자 ) 기준년도에수진자의나이를 5세단위로 5 연령대코드 AGE_ GROUP 6 시도코드 SIDO 7 요양개시일자 8 서식코드 9 10 11 진료과목코드 주상병코드 부상병 코드 FR_DT FORM_ CD DSBJT_ CD MAIN_S ICK SUB_ SICK 그룹 화 ( 범주화 ) 하여구분한코드 ( 총 18 개그룹 ) [ 표 2-46] 진료내역정보개방항목 0~84 세까지 5 세단위그룹화, 85 세이상은 85+ 로그룹화해당수진자거주지의시도코드 2012 년부터세종특별자치시가신규로 편입됨에따라, 2011 년까지의데이터에는해당항목이 존재하지않음 ( 외래진료 ) 해당상병의요양급여를위해 수진자가요양 기관에내원한연, 월, 일 ( 입원진료 ) 해당 상병의진료를위하여그달에최초 입원한연, 월, 일의과 _ 보건기관에서진료한환자의 진료형태를구분함경우실제진료를받은진료과목, 의원급 의료기관일경우상병명에해당되는 진료과목 진료과목이 2 개이상에해당하는경우 상병별로모두제공 보건복지부고시제 2014-92 호 요양급여비용청구방법, 심사청구 서 명세서서식및작성요령 < 별표 5 진료과목별코드 > 를따름명세서상의주상병의분류기호 통계청고시에따른 한국표준질병 사인 분류 6 차개정판 (KCD 6) 상병분류기호 참조명세서상의주된상병분류기호외의추가 상병 ( 부상병 ) 의분류기호결측 (ZZ), 정상 또는해당사항없음 (-) 으로표시 통계청고시에따른 한국표준질병 사인 N 11 N 26 YYYY- M M - DD 2008-11- 24 N 02 N 10 Text R01 Text C78 0-70 -
NO 표준항목명 영문명 제공항목설명분류 6차개정판 (KCD 6) 상병분류기호 속성정보표현형식 / 예시단위 비고 참조수진자가요양급여를받은실일수입원 또는내원일수에원내투약일수를 12 요양일수 VSCN 산입하여기재내원 ( 또는입원일수 ) 와 N/ 일 22 원내투약일수가중복일때는 1 일로계산함 내원일수는초진과재진을포함함날부터퇴원일까지의실일수 13 입내원 일수 RECN ( 내원진료 ) 수진자가내원하여진료를받은실일수 1일에 2회이상동일인에게초진및재진을한경우내원일수는 1일로 N/ 일 3 표기됨요양개시일자기준으로공상여부 ( 공상가산 율 ), 요양기관의크기나진료의질 ( 의료기관 종별가산율 ) 에따라정해지는진료비의가산율 14 심결 가산율 EDEC_ ADD_ RT 보건복지부고시제2015-183호 의료급여수가의기준및일반기준 제2조 ( 의료급여기관종별가산율 ) 에따름 N/% 30 ( 참고 ) 산업재해보상보험법에따른업무상재해 환자에게는요양기관규모별로 1%~15% 까지 가산율이추가됨심결요양급여비용총액은정산심사결과 15 심결요양 급여비용총액 EDEC_ TRAMT 수진자본인이부담해야될금액인 심결본인부담금 과보험자가 N/ 원 3857 0 부담해야할 심결보험자부담금 합친금액요양급여비용심사결과를통해결정된 16 심결본인부담금 EDEC_ SBRDN_ AMT 수진자본인이부담해야할부담금국민건강보험법시행령 [ 별표2] 에따른본인일부부담금 ( 동법시행령별표2 제4호및제5호에따른금액을제외 ) 에서 10원 N/ 원 1250 17 18 19 심결보험자 부담금 총처방 일수 데이터 기준일자 EDEC_ JBRDN_ AMT TOT_PRE S_DD_CN T DATA_ST D_DT 미만절삭한금액심결요양급여비용총액에서본인일부부담금을제외한금액으로보험자가부담하여야하는금액처방전을발급한경우에해당처방전에따라조제투약하도록처방한수의합데이터작성기준일자 N/ 원 4580 N/ 일 63 YYYY -MM -DD 2008-11- 24-71 -
의약품처방정보의약품처방정보는 2002년부터 2013년까지의국민건강보험가입자중의약품처방이력이있는각연도별수진자 100만명에대한기본정보 ( 성, 연령대, 시도코드등 ) 와의약품처방전별개별의약품에대한처방내역 ( 요양개시일자, 1회투약량, 1일투약량, 총투여일수등 ) 으로구성된개방데이터이다. 총 15개의변수로가입자일렬번호, 의약품처방내역일렬번호와 1 수진자기본정보 : 가입자일련번호, 성, 연령, 거주지시도코드와같은기본정보 2 의약품처방상세정보 : 처방전일련번호, 요양개시일자, 의약품일반성분명코드, 1회 1일투약량, 총투여일수단가, 금액등상세의약품처방내역에대한정보로구성되어있다. 개방항목에대한내용은다음과같다. 제공항목속성정보 N 표준표현형 O 영문명설명예시비고항목명식 / 단위 1 기준년도 STND_Y 해당정보의기준년도를제공함 YYYY 2009 2 가입자해당가입자에부여한일련번호 IDV_ID 일렬번호 1 ~ 1,000,000 N 1 3 처방내역 KEY_ 일렬번호 SEQ 해당처방전에부여한일련번호 N 1 4 일렬번호 SEQ_N O 해당약품일련번호 N 1 5 성별코드 SEX 해당정보대상자의성별을제공함성별 : 1( 남자 ), 2( 여자 ) N 1 6 기준년도에수진자의나이를 5세단위로연령대 AGE_ 그룹화 ( 범주화 ) 하여구분한코드코드 GROUP ( 총 18개그룹 ) 0~84세까지 5세단위그 (5세단위) 룹화, 85세이상은 85+ 로그룹화 N 11 해당수진자거주지의시도코드 7 시도코드 SIDO 8 요양개시일자 RECU_ FR_DT 9 약품일반성분 명코드 GNL_ NM_CD 2012 년부터세종특별자치시가신규로편 입됨에따라, 2011 년까지의데이터에는 해당항목이존재하지않음 ( 외래진료 ) 해당상병의요양급여를위해 수진자가요양기관에내원한연, 월, 일 ( 입원진료 ) 해당상병의진료를위하여 그달에최초입원한연, 월, 일 총 9 자리의처방된의약품의주성분코드 명 [ 표 2-47] 의약품처방정보개방항목 보건복지부고시제 2014-92 호 요양급여 비용청구방법, 심사청구서명세서서식 및작성요령 붙임 3 진료코드 ( 제 1 편제 27 조관련 ) 의코드부여방법을따름 ( 분류원칙 ) 대한약전제제총칙의분류에 근거하여분류하되, 외국약가집의의약품 N 26 YYYY -MMD D 2008-11- 24-72 -
N O 표준 항목명 영문명 제공항목 설명 속성정보표현형예시비고식 / 단위 분류현황을참조함 ( 제형분류 ) 10 1회투약량 DD_MQ T Y_FREQ DD EX 11 1일투약량 E C_FREQ MDCN_ 12 총투여일수 EX EC_FRE Q 13 단가 UN_CO ST 14 금액 AMT 수진자에게투여한의약품의 1회투약량 ( 소수다섯째자리에서 4사5입하여소수 넷째자리확인가능 ) 1 포스포정을 1회 2T씩하루 3회, 5일간 처방한경우 코드 / 1회투약량 / 1일투약량 / 총투 약량 (664101610 / 2 / 3 / 5) 2 연고제등외용제처방시 (ex) 더모베 이트연고 10g를처방한경우 ) 1회투약량에총투약량 10g, 1일투약 량, 총투여일수모두 1 코드 1회투약량 1일투약량총투약량 650002370 10 1 1 3 파스류 (ex) 트라스트패취 1회 1매, 2일 1회, 10일분을처방한경우 )1회투약량에총투약량 5매, 1일투약량, 총투여일수모두 1 4 분할투여한인슐린제제 ( 주사제 ) ( 예 ) 휴마로그주 (1000U/10ml/ 병 ) 1일 1회 4U를처방한경우 ) 1회투약량은 0.004(4/1000, 소수점 5째자리에서 4사5입 ), 1일투약량, 총투여일수모두 1코드 1회투약량 1일투약량 예시는보건복지부고시제2014-92호 요양급여비용청구방법, 심사청구서 명세서서식및작성요령 참조함 숫자 (6개)+ 영문자 (3개N/ 개 25 수진자에게 1일간의약품을투여한횟수 N/ 개 4 해당의약품을수진자에게투여한총일수 N/ 개 2 처방내역상의의약품단가 N/ 원 77 단가, 1회투약량, 1일투약량, 총투여일 수를곱한금액 예시 ) 652101370 트렌탈 400 서방정 1회 1정, N/ 원 462 1일 2회, 2일투여시 190( 원 ) 1( 정 ) 2 ( 회 ) 2( 일 )= 760원 예시1 1081 03A CH 예시2 4389 01A TB - 73 -
N O 표준 항목명 15 데이터공개일자 영문명 DATA_S DT_DT 제공항목 설명 데이터작성기준일자 속성정보 표현형 식 / 단위 예시 비고 YYYY 2015 -MM- -12- 건강검진정보건강검진정보란 2002년 ~2013년 (12개년) 동안국민건강보험의직장가입자와 40세이상의피부양자, 세대주인지역가입자와 40세이상의지역가입자의 일반검강검진 결과와이들일반건강검진대상자중에만40세와만66세에도달한이들이받게되는 생애전환기건강진단 의결과이다. 총 34개의변수로가입자일렬번호와 1 수진자기본정보 : 성, 연령, 거주지시도코드와같은기본정보 2 건강검진결과및문진정보 : 신체, 몸무게, 허리둘레등신체사이즈정보와혈압, 혈당, 콜레스테롤, 요단백, 감마지피티와같은병리검사결과시력과청력, 구강검사와같은진단검사결과그외음주와흡연여부에대한문진결과로구성되어있다. 개방항목에대한내용은다음과같다. [ 표 2-48] 건강검진정보개방항목 N 표준 O 항목명 영문명 1 기준 HCHK_Y 년도 EAR 2 가입자일렬번호 IDV_ID 3 성별코드 SEX 연령대 4 코드 AGE_GROUP (5세단위) 제공항목 속성정보 설명 표현형식 / 단위 예시 비고 해당정보의기준년도를제공함 YYYY 2009 해당가입자에부여한일련번호 1~ 1,000,000 N 1 해당정보대상자의성별을제공함성별 : 1( 남자 ), 2( 여자 ) N 1 기준년도에수진자의나이를 5세단위로 그룹화 ( 범주화 ) 하여구분한코드 ( 총 14개그룹 ) 20~84세까지 5세단위그룹화, N 11 85세이상은 85+ 로그룹화 5 시도코드 SIDO 해당수진자거주지의시도코드 2012년부터세종특별자치시가신규로편입됨에따라, 2011년까지의데이터에는해당항목이존재하지않음 N 26 6 7 8 신장 (5Cm단위) 체중 (5Kg 단위 ) 허리둘레 HEIGHT WEIGHT WAIST 검진자의키 (5CM 단위 ) 예 ) 100~104CM -> 100CM 검진자의몸무게 (5KG 단위 ) 예 ) 25~29KG -> 25KG 검진자의허리둘레허리둘레항목은 2008년부터건강검진문진항목으로추가되었기때문에기준년도가 2002년부터 2007년까지인경우해당항목값이결측처리되어제공됨 N/Cm 168 N/Kg 88 N/Cm 82-74 -
N 표준 O 항목명수축기 9 혈압 10 이완기혈압식전 11 혈당 ( 공복혈당 ) 12 총콜레스테롤 영문명 BP_HIGH BP_LWST BLDS TOT_CHOLE 제공항목설명검진자의최고혈압으로심장이수축해서강한힘으로혈액을동맥에보낼때의혈관내압검진자의최저혈압으로심장의완기시의혈압검진자식사전혈당 ( 혈액 100ml당함유되어있는포도당의농도 ) 수치혈청중의에스텔형, 비에스테형 ( 유리 ) 콜레스테롤의합정상치는 150~250mg/dL 약 1/3이비에스텔형 ( 유리 ) 콜레스테롤이며나머지가콜레스테롤에스테르 속성정보 표현형 식 / 단위 예시 비고 N/m mhg 140 N/m mhg 81 N/mg /dl 194 N/mg /dl 164 단순지질혹은중성지질을뜻함 글리세롤에 3 분자지방산이에스테르합한 13 트리글리세라이드 TRIGLY CERIDE 것으로서자연계에서찾아낼수있는지방유도체가운데가장분포가넓음정상치는 30~135mg/dL (0.34~1.52-mmol/L) 트리클리세라이드항목은 2008년부터건강검진문진항목으로추가되었기때문에, 기준년도가 2002년부터 2007년까지인경우해당항목값이결측처리되어제공됨 N/ mg/dl 예시1 94 예시2 200 작은입자의콜레스테롤로세포에 이끌려간콜레스테롤을간으로돌려주고 14 HDL 콜레스테롤 HDL_CHOLE 혈관벽에쌓인나쁜콜레스테롤을없애는역할을하는성분정상치는 30~65mg/dL HDL콜레스테롤항목은 2008년부터건강검진문진항목으로추가되었기때문에, 기준년도가 2002년부터 2007년까지인경우해당항목값이결측처리되어제공됨 N/ mg/dl 45 LDL( 저밀도리포단백질 ) 에함유된 콜레스테롤입자가매우큰콜레스테롤로 양이과도하게증가할경우, 혈관벽에 15 LDL 콜레스테롤 LDL_CHOLE 쌓여서동맥경화나각종질병을야기하는성분 170mg/dL 이상일경우일반적으로고LDL혈증으로봄. LDL콜레스테롤항목은 2008년부터건강검진문진항목으로추가되었기때문에, 기준년도가 2002년부터 2007년까지인경우해당항목값이결측처리되어제공됨 N/ mg/dl 예시1 50 예시2 130-75 -
N O 표준 항목명 영문명 제공항목 설명 속성정보표현형예시비고식 / 단위 16 혈색소 HMG 혈액이나혈구속에존재하는색소단백으 로글로빈 (globin) 과엠 (heme) 으로구성되 며혈중의산소운반체로서의역할수행 N/ g/dl 15.39 84375 17 요단백 OLIG_PR OTE_CD 소변에단백질이섞여나오는것 1(-), 2(±), 3(+1), 4(+2), 5(+3), 6(+4) 로표기됨 N 1 크레아티닌은크레아틴의탈수물로내인성 단백대사의종말산물로서신장에서배설되 고그증감은음식물에관계없이근육의 18 혈청크레아티닌 CREATI NINE 발육과운동에관계함혈청크레아티닌농도는신기능장애에의해증량함정상치 0.8~1.7mg/dL 혈청크레아티닌항목은 2008년부터건강검진문진항목으로추가되었기때문에, 기준년도가 2002년부터 2007년까지인경우해당항목값이결측처리되어제공됨 N/ mg/dl 0.8 간기능을나타내는혈액검사상의수치, 19 ( 혈청지오티 ) AST SGOT_AST 간세포이외에심장, 신장, 뇌, 근육등에도존재하는효소로이러한세포들이손상을받는경우농도가증가함정상치 0~40IU/L N/ mg/dl 12 20 ( 혈청지오티 ) ALT SGPT_ALT 간기능을나타내는혈액검사상의수치, ALT는주로간세포안에존재하는효소로, 간세포가손상을받는경우농도가증가함정상치 0~40IU/L N/U/L 15 21 감마지티피 GAMMA_GTP 효소로글루타민산을외부에펩티드나아미노산등으로옮기는작용을함, 쓸개즙 ( 담즙 ) 배설장애, 간세포장애발생시혈중에증가하게됨정상치는남성 11~63IU/L, 여성 8~35IU/L N/U/L 예시1 19 예시2 114 수검자의좌측눈의시력 0.1~2.0 사이의 22 시력 ( 좌 ) SIGHT_LEFT 값으로표기하며 0.1 이하의시력은 0.1 로 표기, 실명인경우에는 " 실명 " 으로표기함 Text 실명 23 시력 ( 우 ) SIGHT_RIGHT 수검자의우측눈의시력 0.1~2.0 사이의 값으로표기하며 0.1 이하의시력은 0.1 로 표기, 실명인경우에는 " 실명 " 으로표기 Text 0.5 24 청력 ( 좌 ) HEAR_LEFT 수검자의좌측귀의청력 1( 정상 ),2( 비정상 ) N 1 25 청력 ( 우 ) HEAR_RIGHT 수검자의우측귀의청력 1( 정상 ),2( 비정상 ) N 1 26 구강검진수검여부 HCHK_OE _INSPEC_YN 해당검진자가구강검진을선택하여검진 하였는지여부항목 1( 미수검 ), 2( 수검 ) N 1-76 -
N 표준 O 항목명 27 치아우식증유무 28 결손치유무 영문명 CRS_YN TTH_MS S_YN 제공항목설명해당수검자의치아우식증유무에대한항목 1( 없음 ), 2( 있음 ) 해당수검자의결손치 ( 다양한원인 ( 우식치주병, 발치등 ) 으로인하여치열에서탈락한치아 ) 존재유무에대한항목 1( 없음 ), 2( 있음 ) 속성정보 표현형 식 / 단위 예시 비고 N 1 N 1 29 치아마모증유무 ODT_TRB_YN 해당수검자의치아마모증유무에대한항목 1( 없음 ), 2( 있음 ) N 1 30 제 3 대구치 ( 사랑니 ) 이상 WSDM_DIS_Y N 해당수검자의제 3 대구치 ( 사랑니 ) 에대한 이상유무 1( 없음 ), 2( 있음 ) N 1 31 치석 TTR_YN 해당수검자의치석여부 1( 없음 ), 2( 있음 ) N 1 32 흡연상태 SMK_YN 33 음주상태 DRK_YN 34 데이터공개일자 DATA_STD D T 해당수검자의흡연상태여부 1( 피우지않는다 ), 2( 이전에피웠으나끊었다 ), 3( 현재도피우고있다 ) 해당수검자의음주상태여부 1( 마시지않은다 ), 2( 마신다 ) 데이터작성기준일자 N 1 N 1 YYYY 2015 - M M - D -12- D 20 2) 보건복지부국민암센터 DB 현황 보건복지부산하기관인국립암센터에서공공데이터개방정책에의하여제공되는 DB는파일 데이터 6건 (24개종암유병율, 24개종암발생율, 24개종암상대생존율, 국립암센터홈페이 지, 흡연및금연정보, 암등록통계정보 ) 이다. 대표적으로 24개종암유병율 DB 내용을제시 한다. 24개종암유병율 DB 24개종암이발생한암환자수전체데이터를개방한다. [ 표 2-49] 24개종암유병율데이터내용 업데이트주기 연간 차기등록예정일 2016-11-11 비용부과유무 무료 비용부과기준및단위 없음 다운로드횟수 40 등록일 2015-10-21 수정일 2015-11-11 제공형태 공공데이터포탈에서다운로드 ( 원문파일등록 ) URL http://www.data.go.kt/comm/file/download.do?atchfiled-file_00000000127 5452&fileDetailSn=1 설명 해당관찰기간동안특정인구집단에서새롭게발생한암환자수를전체인구로나눈값으로인구 100,000명당발생하는비율 - 77 -
데이터의형태및 Sample 데이터는다음과같다. [ 표 2-50] 4 개종암유병율데이터형태 발생년도 성 국제질병조발생률연령표준화발생률암종암발생자수분류코드 ( 명 /10만명) ( 명 /10만명) 1999 남녀전체 C00-C96 모든암 101032 214.2 219.9 1999 남자 C00-C96 모든암 57594 243.2 291.9 1999 여자 C00-C96 43438 185 173.3 3) 건강보험심사평가원보건의료빅데이터시스템 DB 현황건강보험심사평가원에서제공하는의료정보데이터로전국민의진료정보와의료기관, 제약회사, 유관기관등다양한경로에서수집한정보를분석 정제한데이터이다. 8만 7천여의료기관청구자료기반의자료로상병, 수술 처치및의약품처방 조제등의데이터, 생산 수입 사용등의약품유통정보, 의약품인 허가정보, 부작용등의약품안전정보, 마약류등집중관리의약품융합데이터, 의료기관의인력 시설장비정보, 의료기기정보, 의료처치용치료재료정보등의의료자원데이터등으로구성된다. 가 ) 의료정보현황개방되는의료정보는진료정보, 의약품정보, 치료재료정보, 의료자원정보, 비급여정보, 의료질평가정보, 연계정보등이며내용은다음과같다. [ 표 2-51] 의료정보현황 진료정보 의약품정보 치료재료정보 청구명세서정보 ( 환자, 의사, 의료기관, 진료내역등 ) 의료행위정의및환자분류정보수가마스터정보 : 85,722개 ( 15.5월) ( 분류유형, 상대가치점수, 금액, 변경이력등 ) 질병군 (DRG) 요양병원수가마스터정보 ( 분류군, 금액등 ) 의료행위별심사기준정보 ( 보장범위 ) 질병군 (DRG) 요양병원수가마스터정보 ( 분류군, 금액등 ) 의료행위 18개분류별진료규모정보 ( 진료량, 금액 ) 질병군 (DRG) 및요양병원진료규모정보 ( 진료량, 금액등 ) 질병정보 ( 주상병 ) 및질병단위진료규모정보급여의약품마스터정보 : 17,750품목등재 ( 15.6월) ( 약효분류군, 성분, 금액, 제조사, 제품형태, 투여경로등 ) 급여의약품별심사기준정보 ( 보장범위 ) 의약품생산 제조및도매상정보완제의약품유통정보 ( 제조 생산부터유통단계별자료 ) 급여의약품사용정보의약품안전관리정보 ( 병용금기, 연령금기, 임산부금기등 ) 치료재료마스터정보 : 24,282품목 ( 15.6월) 의료기관구매정보 ( 구입일자, 구입단가, 구매수량등 ) 치료재료별사용정보특수재료관련정보 ( 복강경시술, 조영제등 ) - 78 -
의료자원정보비급여정보의료질평가정보연계정보 요양기관개폐업정보 : 87,221개 ( 15.4월) 의료기관시설정보 ( 병상, 집중치료실, 수술실등 ) 인력 ( 의사, 간호사, 의료기사등 ) 현황및자격정보장비보유현황 ( 장비별이력관리 ) 장비별사용정보 ( 급여청구현황 ) 비급여항목정보 ( 수가, 유형등 ) 기관별비급여가격정보 36개평가항목기준정보 ( 의료제공구조, 제공과정, 결과 ) 의료기관별평가결과정보요양병원환자평가표등의료질 (quality) 을점검하기위한조사표정보수진자정보 ( 성별, 연령, 의료보장자격 ) 전국민출입국내역정보사망의심자정보 ( 사망일자, 지역, 복지대상여부 ) 의약품인 허가정보 나 ) 개방데이터현황의료정보개방데이터의제공데이터의빅데이터분석테이블현황, 데이터의형태 ( 테이블정보 ), 컬럼정보는다음과같다. [ 표 2-52] 빅데이터분석테이블정보및갱신주기 테이블명영문명한글명공통코드 _ 통계 TDJA00 의료급여요양 22 기관분류코드공통코드 _ 보험 TDJA00 자율요양구분 23 코드공통코드 _ 의료 TDJA00 급여자율요양 24 구분코드 테이블설명공통코드 _ 통계의료급여요양기관분류코드공통코드 _ 보험자율요양구분코드공통코드 _ 의료급여자율요양구분코드 적재 기간 갱신주기매주초매주초매주초 전체DB정보 최종갱신DB정보 DB DB DB DB용건수용량건수량 DB갱신일 16 2MB 16 2MB 37 2MB 37 2MB 2016-01-25 37 2MB 37 2MB 2016-01-25 테이블명 TDJA0022 테이블한글명 공통코드 _ 통계의료급여요양기관분류코드 테이블설명 공통코드 _ 통계의료급여요양기관분류코드 적재기간 갱신주기 매주초 DB건수 ( 최종 / 전체 ) 16/16 DB용량 ( 최종 / 전체 ) 2MB/2MB 최종갱신일자 2016-01-25 [ 표 2-53] 테이블정보예시 - 79 -
[ 표 2-55] 코드정보예시 코드구분 코드 명칭 서식코드구분 $ 해당사항없음 서식코드구분 021 ~ 991 의과입원 ~ 조산원외래 지역코드 110001 ~ 410000 강남구 ~ 세종시 종별코드 01 종합전문병원, 상급종합병원 요양기관기호지역구분코드 21 부산 표시과목코드 $ 표시과목코드 00 일반의 보험자구분코드 4,5,7,9 건강보험, 의료급여, 보훈, 무료진료 병상규모코드 $ 해당사항없음 병상규모코드 01 0~29병상 [ 표 2-54] 컬럼정보예시 영문칼럼명한글칼럼명타입길이설명코드 STC_MAID_YAD M_DIVCD 통계의료급여요양기관분류코드 CHAR 2 통계의료급여요양기관분류코드 STC_MAID_YAD M_DIV_CD_NM 통계의료급여요양기관분류코드명 VARCHAR 100 통계의료급여요양기관분류코드명 LD_DT 적재일시 TIMESTAMP 8 적재일시 STC_ANAL_DB_ LD_DT 통계분석데이터베이스 적재일시 TIMESTAMP 8 통계분석데이터베이스 적재일시 4) 공공데이터포털가 ) 공공데이터포털개요및서비스내용공공데이터포털은한국정보화진흥원에서운영하는공공데이터의통합제공플랫폼또는시스템이다. 정부가보유한공공데이터를개방하여누구나쉽게활용할수있게하는것을목적으로행정자치부공공정보정책과에서관련정책을추진하였다. 2015년 8월기준, 14,416 개의공공데이터가공개되어있으며, 정부부처및산하기관에서발행하는백서, 주제별전문가가선정한최신이슈와관련된지식, 지역 / 분류체계 / 제공기관 / 활용방법별공공데이터개방현황등이제공된다. 파일데이터, 오픈API, 시각화등다양한방식으로제공하고있으며, 누구라도쉽고편리한검색을통해원하는공공데이터를검색할수있다. 국가중점개방데이터로민간에서쉽고다양하게공공데이터를이용할수있도록, 민관합동태스크포스 (TF) 를구성하여건축, 상권등개방이시급한국가중점개방데이터 36대분야를선정하였고, 주제별, 기관별로조금씩개방해오던방식에서 분야별대용량데이터 형태를제공한다. - 80 -
[ 그림 2-47] 공공데이터포털시스템구성도 < 출처 : www.data.go.kr> 공공데이터포털이제공하는데이터셋제공형태는파일데이터, 오픈 API, 표준데이터의형 태이며, 현재파일데이터 14,339건, 오픈API 1,869건, 표준데이터 7건을제공하고있다. 그형태는다음과같다. [ 표 2-56] 데이터셋형태및제공건수 구분 제공건수 제공형태 파일데이터 14337 CSV, HWP, XLS, XLSX, Text, SHP, PDF 오픈 API 1862 XML(LINK, REST) 표준데이터 7 XLS 이외에도공공데이터포털에서는 LOD(Linked Open Data) 방식으로공개, 발행되어있는서 비스를제공하며그내용은다음과같다. - 81 -
[ 그림 2-48] 공공데이터포털 LOD 서비스 < 출처 : www.data.go.kr> [ 표 2-57] LOD 서비스주요데이터셋 서비스명국가서지 LOD 생물 LOD 산업재산권 LOD NDSL LOD 부산영화 문화관광 LOD 한국사 LOD 수자원 LOD 서울열린데이터광장 LOD 공공시설물안전정보 LOD 주요데이터셋 국립중앙도서관의도서및저자, 주제명과해외도서관인터링 킹정보등 국립수목원, 국립중앙과학관의거미, 곤충, 식물, 포유류, 조류 등의생물정보 특허청의특허, 상표, 디자인등산업재산권정보와심판정보, 행정정보, 분류코드정보등 한국과학기술정보연구원 -NDSL 의저널, 논문, 보고서, 특허, 저 자정보중일부 부산시내관광명소, 숙박, 맛집, 쇼핑, 유적지, 축제등의문화 관광정보와관련영화, 공연, 전시, 촬영지정보 국사편찬위원회인물, 한국학중앙연구원민족문화대백과사전, 문화재청유물등의정보 K-water 에서보유하고있는댐, 수도, 지하수등의정보 서울열린데이터광장에서제공되고있는문화관광데이터셋 에대한 LOD 제공 한국시설안전공단이보유한공공시설물에대한기본정보및 안전정보제공 - 82 -
2.5 사고 위해예측을위한생산, 수입, 판매, 소비단계별데이터현황조사식품의약품안전처의안전관리업무는사고 위해발생이전단계에서선제적으로행해지는것이중요하다. 따라서사고 위해발생이전의단계에서생성되는정보들을통해사후에발생될것으로예상되는사고위해를예방할수있도록정보들을수집하고분석하여야한다. 또한각각의소비흐름단계에서발생하는각각의정보들을연계하여분석하려면어떤데이터가, 어떤기관에서생성되고있는지를파악해야한다. 1) 품목별소비단계제품별생산부터소비에이르는단계는각품목별로아래의그림과같이서로조금씩차이가있어이를통합하여전체단계로개발, 생산, 수입, 제조, 유통, 소비로정의하였다. 각산업의공급가치사슬구조를참조하였으며, 식품과의약품의공급가치사슬은다음과같다. [ 그림 2-49] 식품산업의가치사슬 < 출처 : 식품산업의지역별발전현황과산업생태계육성방안연구 > [ 그림 2-50] 의약품산업의가치사슬 < 출처 : 한국보건산업진흥원의약품산업분석보고서 (2008)> - 83 -
[ 그림 2-51] 품목별소비흐름가치사슬 소비의단계를기준으로식품의약품등위해발생단계로정의하여, 위해발생단계별데이터의매핑및위해요소를파악할수있도록한다. 2) 위해발생단계의사고 위해데이터현황개발단계의주요데이터는연구, 정부지원, 특허, 임상, 승인, 국정감사자료나언론사자료이며, 데이터생성기관은식품의약품안전처, 식품의약품안전처유관기관, 임상기관, 특허청, 통계청, 해외기관, 국내외연구기관등이있다. 생산단계의주요데이터는생산업소, 생산액과품목, 가격, 감시위반이나행정처분, 국정감사자료, 날씨, 언론기사등이며, 데이터생성기관은식품의약품안전처, 식품의약품안전처유관기관, 농림축산부, 해양수산부, 기상청, 지자체, 국회, 생산업체, 경찰청, 언론기관등이있다. 수입단계의주요데이터는수입액, 품목, 허가신고, 검사및행정처분, 국정감사자료, 언론기사등이고, 데이터생성기관은식품의약품안전처, 식품의약품안전처유관기관, 관세청, 해외식의약관련기관, 국회, 경찰청, 수입업체, 언론기관, SNS 등이있다. 제조단계의주요데이터는제조업소, 제조액, 품목신고, GMP, HACCP, 감시등행정처분, 국정감사, 언론기사등이며, 데이터생성기관은식품의약품안전처, 식품의약품안전처유관기관, 국세청, 금융감독원, 지자체, 국회, 제조업체, 경찰청, 언론기관, SNS 등이있다. 유통단계주요데이터는판매업소, 가격, 품목, 판매액, 허가신고, 행정처분, 광고, 표시사항, 국정감사, 언론기사등이며, 데이터생성기관으로는식품의약품안전처, 식품의약품안전처유관기관, 온 오프마켓, 지자체, 국회, 경찰청, 언론기관, SNS 등이있다. 소비단계주요데이터는부작용, 식중독, 인구및소비통계, 고소, 고발, 소비자신고, 국정감사, SNS, 언론기사등이며, 데이터생성기관으로는식품의약품안전처, 식품의약품안전처유관기관, 소비자원, 통계청, 국회, 경찰청, 언론사, SNS 등이있다. - 84 -
[ 표 2-58] 위해발생단계별데이터분류 구분개발생산수입제조유통소비 주요데이터 연구자원정부지원특허동향임상기관승인현황국감자료언론기사 생산업소생산액품목가격감시위반검사 / 검정행정처분국감자료날씨자연재해언론기사 수입액수입품목허가신고검사행정처분국감자료언론기사 제조업소제조액품목신고 GMP HACCP 감시위반행정처분국감자료언론기사 판매업소가격품목판매액허가신고행정처분광고표시사항국감자료언론기사 부작용식중독인구및소비통계고소, 고발소비자신고국감자료 SNS 언론기사 데이터생성기관 식약처유관기관임상기관특허청통계청해외식의약관련공공기관국내외연구기관국회업체언론기관 SNS 식약처유관기관농림축산식품부해양수산부기상청지자체국회생산업체경찰청언론기관 SNS 식약처유관기관관세청해외식의약관련공공기관국회경찰청수입업체언론기관 SNS 식약처유관기관국세청금융감독원지자체국회제조업체경찰청언론기관 SNS 식약처유관기관온라인마켓오프라인마켓지자체국회경찰청언론사 SNS 식약처유관기관소비자원통계청국회경찰청언론사 SNS 3) 식품의약품안전처품목별데이터분류 [ 표 2-59] 품목별데이터분류 분야통계지표위해단계생산기관 식품 생산실적현황식약처생산연도별검사종류별현황식약처 품목별생산능력, 생산량, 생산액 생산 식약처 국가별품목별수입현황 식약처 수입관련통계 식약처 건강기능식품수입업소현황 수입 식약처 품목별수입및부적합현황 식약처 건강기능식품제조업소 ( 전문, 벤처 ) 현황부적합현황 ( 부적합사유별 ) 품질관리인현황건강기능식품생산현황 _ 시군구 제조 식약처식약처식약처시 / 도 / 지자체 건강기능식품판매업소현황유통시 / 도 / 지자체 - 85 -
분야 통계지표 위해단계 생산기관 식품업소수현황 생산, 유통 식약처 농산물가격, 축산물시장점유율 ( 국내수입 ) 생산, 유통 농식품부 생산현황, 업체현황 생산, 제조 통계청 비임상시험기관지정현황 식약처 임상시험승인현황 ( 국내대비다국가 ) 식약처 임상시험승인현황 ( 임상시험분류별 ) 임상시험승인현황 ( 임상시험단계별 ) 개발 식약처식약처 임상시험실시기관지정현황 식약처 생산업체수현황 식약처 감시현황 ( 의약품, 의약외품, 화장품, 한약재 ) 식약처 의약품 재심사대상의약품현황제조업소현황 ( 의약품, 의약외품, 화장품, 한약재 ) 품질점검현황 ( 의약품, 의약외품, 화장품, 한약재 ) 제조 식약처식약처식약처 행정처분현황 ( 의약품, 의약외품, 화장품, 한약재 ) 식약처 표시광고점검결과 ( 의약품, 의약외품, 화장품, 한약재 ) 유통 식약처 보고원별유해사례보고건수현황식약처소비연도별유해사례보고건수현황식약처 국내신약현황 개발, 제조 식약처 희귀의약품허가현황 개발, 제조 식약처 생산, 수입실적, 업체현황 제조, 수입 식약처 의약품제조판매 / 수입품목허가 / 신고품목현황 제조, 수입 식약처 의사수 복지부 임상시험계획승인건수 개발 식약처 임상시험실시기간지정건수현황 식약처 수출입현황수입업소현황 수입 의약품수출입협회식약처 수입품목허가현황 식약처 생산실적 ( 의약품, 의약외품, 화장품, 한약재 ) 식약처 의료기기 제조업소현황진단용장치전국통계 ( 매년 ) 제조 식약처식약처 진단용장치설치및사용현화 ( 보험수가관련 ) 심평원 판매업소현황 유통 시 / 도지방자치단체 생산, 수입실적 생산, 수입 식약처 의약품별판매량, 질환별환자추이 유통, 소비 통계청 의약품공급, 이용현황 유통, 소비 심평원 업체현황, 생산현황, 영업현황 제조, 생산, 유통 식약처 - 86 -
분야통계지표위해단계생산기관 화장품 생산현황, 수출입현황 제조, 수입 식약처 희귀의약품생산 / 수입실적현황 제조, 수입 의약품수출입협회 생산및수출입수리실적보고현황 제조, 수입 한국의료기기산업협회 회수폐기현황 ( 의약품, 의약외품, 화장품, 한약재 ) 제조, 유통 식약처 국내화장품업소의국제경쟁력 ( 순위 ) 개발 대한화장품협회 수출입현황 수입 대한화장품협회 생산실적현황 대한화장품협회 감시현황 ( 의약품, 의약외품, 화장품, 한약재 ) 제조 식약처 품질점검현황 ( 의약품, 의약외품, 화장품, 한약재 ) 식약처 행정처분현황 ( 의약품, 의약외품, 화장품, 한약재 ) 식약처 표시광고점검결과 ( 의약품, 의약외품, 화장품, 한약재 ) 유통 식약처 3) 식품의약품안전처위해발생단계별데이터현황 식품의위해발생단계별데이터현황은아래표와같다. [ 표 2-60] 식품의위해발생단계별데이터현황 단계 개발 개발 개발 개발, 제조 개발, 제조 정보시스템명 잔류물질데이터베이스 식약처연구관리시스템 내분비계장애물질정보망 식품기준규격정보마당 식품원료길라잡이 데이터정보 농약, 동물용의약품물리화학적정보및독성정보 연구책임자명, 연구기간, 연구개발비, 연구결과등 관련연구성과, 위해성정보, 노출저감화방안 법적근거 국가연구개발사업의관리등에관한규정 개인정보 연계방법 - - EAI - - EAI 식품공전에수록된기준및규격 - - EAI 원재료명 ( 이명, 학명포함 ), 분류, 식용가능여부 - - EAI 용량갱신주기 구축중 - EAI 1.5TB 10 분 0.6 MB 270 MB 223 MB - 10 분 10 분 10 분 개발, 제조 기구및용기포장정보 공통기준및규격, 재질별규격등 - - EAI 1MB 반기 1 회 개발, 제조 CODEX 규격활용연구 CODEX 각분과별로설정된규격, 실행규범, 지침등 - - EAI 1MB 10 분 개발, 제조 식품첨가물정보 성분규격, 사용기준, 제 개정이력등 - - EAI 1MB 반기 1 회 개발, 제조 건강기능식품정보 대상별, 기능별, 원료별정보 건강기능식품기준및규격 - EAI - 10 분 - 87 -
단계 개발. 제조 제조 제조 제조 제조 제조 제조 제조, 수입 제조, 유통 제조, 유통 생산 수입 수입 유통 정보시스템명기구등의살균소독제정보식품의유통기한설정프로그램 유전자재조합식품정보 식품및식품첨가물생산실적보고 식. 의약품종합정보서비스 [ 식품 ] 식. 의약품종합정보서비스 [ 식품 ] 식품첨가물바로알기 식. 의약품종합정보서비스 [ 식품 ] 식. 의약품종합정보서비스 [ 식품 ] 식품의약품안전처홈페이지 축산물 HACCP 통합관리시스템 수입식품정보사이트 식. 의약품종합정보서비스 [ 식품 ] 식. 의약품종합정보 데이터정보 성분규격, 사용기준, 제 개정이력등 법적근거 개인정보 연계방법 - - EAI 1MB 제품명, 품질지표, 유통기한 - 포함 EAI - 분류, 품목, 제품명, 특성, 삽입유전자, 신청자, 심사결과, 용도 업체수, 품목수, 출하액등 제품명, 식품유형, 업소명, 소재지, 제조일자, 유통기한, 부적합항목, 기준및규격, 검사결과, 검사기관, 연락처 HACCP 지정현황 ( 업체명, 소재지, 지정품목, 식품군, 지정일 ) 식품첨가물관련용도, 안전성, 표시사항, 학습방등에관한교육내용 건강기능식품제조업체 ( 전문, 벤처 ), 제조업체별품목정보, 건강기능식품수입업체 업체명, 업체소재지, 제품명, 업종명, 공개마감일, 처분명, 처분일, 위반법령및내용 업소명, 업소소재지, 제품명, 위반법명, 위반내용, 행정처분명, 행정처분일자, 행정처분기간, 공개마감일 업체정보 ( 명칭, 업종 ), 위치정보 ( 주소 ), 축산물위해요소중점관리기준원 수입식품연도별, 품목별, 국가별, 주요품목별단위에따른정보식품유형, 제조국, 수입일자, 유통기한, 제품이미지, 처리기한, 제품명 ( 영문 / 한글 ), 제품구분, 재질정보, 제조수출회사명, 품목구분, 검사종류, 검사결과, 부적합사유정보 ( 위반내역 : 시험항목 / 기준 / 결과 ) 식의약품허위과대광고제품명및업소명, 행정처분및위반사항 식품위생법제 18 조 - EAI 식품위생법 제42조제2항 - EAI 식품위생법제 10 조 식품위생법제 48 조 용량갱신주기 100 MB 1.93 MB 반기 1 회 주 1 회 10 분 연 1 회 - EAI 0.3GB 10 분 - EAI 0.1GB - - EAI 건강기능식품에관한법률제5조제1항식품위생법, 건강기능식품에관한법률 약사법제 76 조 축산물위생관리법 제 9 조 식품위생법제 19 조 -21 조 식품위생법제 19 조 ( 유지보수 X) 월 1 회 갱신 X - EAI 12GB 10 분 - EAI 48GB 10 분 - EAI 45MB 10 분 - EAI - - - EAI - EAI 204 MB 166 GB 10 분 10 분 - - EAI 0.1GB 10 분 - 88 -
단계 소비 소비 소비 소비 소비 소비 소비 소비 소비 소비 소비 제조, 유통, 소비개발, 생산, 수입, 제조, 유통, 소비개발, 생산, 수입, 제조, 유통, 소비 정보시스템명서비스 [ 식품 ] 나트륨줄이기홈페이지 생애주기영양관리정보관 영양표시정보 식중독균추적관리시스템식중독조기경보시스템식중독예방대국민홍보사이트식중독통계시스템 영양식생활교육 식품오염물질포털어린이급식관리지원센터홈페이지 식품영양성분데이터베이스 식품이력추적관리 위해정보관리시스템 식약처통계포털 데이터정보 정보, 위반법령 나트륨섭취를줄일수있는방법, 홍보, 교육자료 임신수유부, 가임기여성, 영유아, 어린이, 청소년, 성인, 어르신영양관리정보 영양표시, 위해가능영양성분저감화, 식생활영양교육, 식품영양성분정보 식품유형, 시설등의식중독균검사, 분리균주등록 법적근거 식품등의표시기준 식품등의표시기준 식품등의표시기준 개인정보 연계방법 - EAI - EAI - EAI - 포함 EAI 용량갱신주기 컨텐츠 컨텐츠 컨텐츠 930 MB 10 분 10 분 10 분 10 분 학교, 업체, 시설 - 포함 EAI 21GB 10 분 식중독예방관리체계, 예방요령, 교육자료 연도별, 원인물질별, 원인균별, 시설별 영양식생활학습지도, 식생활교육자료 - - EAI 1MB 10 분 - - EAI 1MB 10 분 어린이식생활특별법제 13 조 식품오염물질정보 - - EAI 이유식식단, 유아식단, 지역아동센터식단 식품, 음식의영양성분정보 ( 식품분류별열량, 탄수화물, 단백질, 지방, 비타민, 무기질등영양성분의함량정보제공 ) 및가공식품의영양성분표시정보 ( 산업체가제공한가공식품유형별 9 가지영양성분표시정보 ) 제품기본정보, 원재료정보, 품질정보, 출하정보등 식품정보, 의약품정보, 의료기기정보, 화장품정보등 식품, 건강기능식품, 농축산물, 의약품, 바이오, 의료기기및조직분야업체현황, 인허가현황, 생산현황, 수출입현황, 사후관리의수치집정보등 - - EAI 식품위생법제 11 조제 3 항 식품위생법제 49 조 - - EAI 통계법제 4 장 - EAI 1MB 10 분 1.94 MB 컨텐츠 10 분 - EAI - 10 분 - EAI 30MB 10 분 224 MB - 10 분 - EAI 15GB 10 분 - 89 -
의약품의위해발생단계별데이터현황은아래표와같다. 단계정보시스템명데이터정보법적근거 개발 개발 개발 식약처연구관리시스템 의약품특허인포매틱스 의약품특허인포매틱스 [ 표 2-61] 의약품위해발생단계별데이터현황 연구책임자명, 연구기간, 연구개발비, 연구결과등 Drug Name, Dosage Form, Strength, RLD, Date of Submission 품목기준코드, 성분명, 제품명, 출원번호, 등록번호, 특허구분, 심판번호, 심판구분, 청구일자 국가연구개발사업의관리등에관한규정 개인 정보 연계방법 용량갱신주기 - EAI 1.5TB 10 분 - - EAI - 10 분 - - EAI - 10 분 개발 의약품특허인포매틱스 발명의명칭, 출원인, 우선권, 출원번호, 공개번호, 등록번호등 - - EAI - 10 분 개발 의약품특허인포매틱스 미국특허등록번호, 만료일 ( 미국 ), 한국특허번호, 출원인등 - - EAI - 10 분 개발 의약품특허인포매틱스 발명의명칭, 출원인, 우선권, 출원번호, 공개번호, 등록번호등 - - EAI - 10 분 개발 의약품특허인포매틱스 참고문헌 - - EAI - 10 분 개발 식품의약품안전처홈페이지 임상시험실시기관정보 ( 지정번호, 기관명칭, 소재지, 지정구분 ), 생물학적동등성시험실시기관정보 ( 지정번호, 기관명칭, 기관의종류 ), 비임상시험실시기관정보 ( 지정번호, 기관명칭, 소재지 ) 약사법제 34 조의 2 - EAI 3.9MB 10 분 개발 독성정보제공시스템 화학물질의일반정보및독성정보 - - EAI 1.2GB 10 분 개발 식품의약품안전평가원 인체유해물질에대한전사체, 단백체, 대사체등의오믹스데이터 - - EAI 1 MB 10 분 개발, 제조 의약품특허인포매틱스 영문성분명, 한글제품명, 허가업체등 - - EAI - - 제조 온라인의약도서관 기업체명, 대표자, 대표자명, 업소허가일자, 취소 / 취하일자 약사법제 31 조 - EAI 0.5MB 10 분 제조 공정서 DB 제품명, 기준및규격, 개정사유, 개정근거 - - EAI 검색엔진 10 분 제조 식. 의약품종합정보서비스 대상업소정보, 수거품목정보, 감시원정보, 품질검사정보, 위반내역, 적발유형, 근거법령, 약사법제 69 조 포함 EAI 99MB 10 분 - 90 -
단계정보시스템명데이터정보법적근거 개인 정보 연계방법 용량갱신주기 [ 의약품 ] 점검결과 개발 온라인의약도서관 신청자, 승인일, 실시기관, 제품명, 시험제목, 단계 약사법제 34 조제 1 항 - EAI 445.6 MB 10 분 개발 온라인의약도서관 1. 의약품정보 ( 품목명, 효능효과, 용법용량, 주의사항, 포장단위, 제형, 제제구분등 ) 2. 회수판매중지 ( 업소명, 업소소재지, 업소전화번호, 품목명, 회수사유, 제조번호, 제조일자, 사용기한, 포장단위, 회수명령일자 ) 약사법제 72 조 - EAI 32MB 10 분 개발, 제조 온라인의약도서관 효능효과, 용법용량, 사용상의주의사항, 첨부파일 약사법제 58 조 - EAI 32MB 분기 1 회 개발. 제조 생약종합정보시스템 생약정보, 생약품질평가정보, 생약길라잡이, 생약자원 식약처고시 - EAI 8230 KB 10 분 제조 식. 의약품종합정보서비스 [ 의약품 ] 품목정보 ( 품목명, 원료 / 성분, 제조원, 포장단위, 저장방법, 성상, 효능효과, 용법용량, 사용상주의사항, 분류번호 ), 허가정보 ( 허가일자, 허가번호, 기준코드 ), 특허정보 ( 특허번호, 대리인정보, 특허권자정보 ) 약사법제 31 조, 제 42 조 - EAI 5597 MB 10 분 제조 마약류종합정보 한글명, 영문명, 구분, 약물정보, 남용정보, 분석정보 마약류관리에관한법률제 2 조 - EAI 10MB 10 분 개발 약물유전정보 DB 약물유전정보 ( 약물관련유전자, SNP, haplotype, 의약품유전정보, 유전자진단방법, 약물유전정보문헌 ) - - EAI 2GB 연 1 회 개발 실험동물제도 1. 실험동물제도및동물실험수행절차정보 2. 동물실험시설, 실험동물공급자등의등록정보 3. 교육자료 실험등에관한법률제 8 조 - EAI 1MB 10 분 개발 임상시험지식 DB (CLINICAL) 임상시험문헌정보, 임상시험수행배경, 연구방법론 ( 설계, 대상환자, 평가변수, 통계분석방법 ), 결과 ( 안전성평가, 유효성평가, subanalysis), 결론 - - EAI 2GB 연 1 회 개발. 제조, 유통 홈페이지 희귀의약품 ( 제품정보, 효능, 효과, 설명서등 ) 약사법제 92 조 - EAI 2GB 10 분 - 91 -
단계정보시스템명데이터정보법적근거 개발, 제조 의약품특허인포매틱스 품목기준코드, 전문 / 일반, 허가 / 신고일, 제형, 함량 ( 분량 ) 등 약사법제 25 조 개인 정보 연계방법 용량갱신주기 - EAI 28MB 10 분 개발, 제조 온라인의약도서관 시행일자, 제형, 단일 / 복합제, 전문 / 일반, 분류번호, 공문, 변경내용, 성분정보, 품목정보 약사법제 26 조 - EAI 2.8MB 10 분 개발, 제조 식. 의약품종합정보서비스 [ 의약품 ] 조직은행정보 ( 조직은행명칭, 조직은행유형, 허가번호, 최초허가일자, 다음갱신일자, 취급조직품목정보, 소재지 ) 인체조직안전및관리등에관한법률제 13 조 - EAI 1MB 10 분 개발, 제조 식. 의약품종합정보서비스 [ 의약품 ] 제제명, 제품명, 제조수입사, 제조번호, 포장단위, 유효기간 약사법제 53 조 - EAI 17MB 10 분 개발. 제조 온라인의약도서관 시행일자, 제형, 단일 / 복합제, 전문 / 일반, 분류번호, 공문, 변경내용, 성분정보, 품목정보 약사법제 26 조 - EAI 178.9 MB 10 분 제조, 수입 제조, 유통 개발, 제조, 유통 온라인의약도서관 식. 의약품종합정보서비스 [ 의약품 ] 식. 의약품종합정보서비스 [ 의약품 ] 1. 생산실적보고 ( 생산년도, 생산분기, 생산량 ) 2. 수입실적보고 ( 수입년도, 수입분기, 수입량 ) 취급자허가정보 ( 업소명, 허가일자, 허가번호, 취급정보, 대표자정보 ) 업소정보 ( 명칭, 주소, 대표자정보, 공장정보 ), 허가정보 ( 허가번호, 허가일자 ) 약사법제 38 조 마약류관리에관한법률제 6 조 약사법제 26 조 - EAI - EAI - EAI 생산실적 :6M B 수입실적 :336 MB 124 MB 151.3 MB 10 분 10 분 10 분 유통, 소비 온라인의약도서관 약학정보 ( 모양, 식별표시, 색깔, 분할선, 표시, 마크, 크기등 ) 약사법제 38 조 - EAI 61MB 10 분 유통, 소비 식. 의약품종합정보서비스 [ 의약품 ] 업체명, 업체소재지, 전화번호, 제품명, 회수사유, 제조번호, 사용기간, 포장단위, 회수명령일자, 담당자 약사법제 39 조 - EAI 23MB 10 분 소비 온라인의약도서관 보험급여 ( 급여구분, 상한금액, 품목명, 의약품규격, 단위, 업소명, 퇴장방지약구분등 ) 약사법제 68 조 11 - EAI 6MB 분기 1 회 소비 의약품유해사례보고관리시스템 (K AERS) 의약품부작용정보 ( 환자, 의약품및의심부작용, 보고자등 ) 약사법제 68 조 포함 - - 10 분 개발, 위해정보관리식품정보, 의약품정보, 의료기기 - - EAI 224 10 분 - 92 -
단계정보시스템명데이터정보법적근거 생산, 수입, 제조, 유통, 소비개발, 수입, 제조, 유통, 소비 개인 정보 연계방법 시스템정보, 화장품정보등 MB 식약처통계포털 식품, 건강기능식품, 농축산물, 의약품, 바이오, 의료기기및조직분야업체현황, 인허가현황, 생산현황, 수출입현황, 사후관리의수치집정보등 통계법제 4 장 용량갱신주기 - EAI 15GB 10 분 의료기기의위해발생단계별데이터현황은아래표와같다. [ 표 2-62] 의료기기위해발생단계별데이터현황 단계정보시스템명데이터정보법적근거 개발 개발, 제조 제조 개발, 제조 제조, 수입 식약처연구관리시스템 식. 의약품종합정보서비스 [ 의료기기 ] 식. 의약품종합정보서비스 [ 의료기기 ] 식. 의약품종합정보서비스 [ 의료기기 ] 식. 의약품종합정보서비스 [ 의료기기 ] 연구책임자명, 연구기간, 연구개발비, 연구결과등 품목코드, 등급, 품목명, 품목허가번호, 모델명, 제조자, 허가 / 신고일, 제조자, 제조자주소, 제조의뢰자, 제조의뢰자주소, 사용목적, 이미지, 모양및구조 ( 작용원리, 외형, 치수, 특성 ), 원재료, 성능품목명, 업체별, 유사어, 형명으로검색할수있도록서비스 ( 의료기기제품정보방을통해연계 ) 업체명, 업종구분, GMP 인증번호, 업허가번호, 주소, 품목군, 등급, 유효기간, 발급기관 재평가품목, 재평가등급, 행정처분대상 업체명, 업구분, 업허가번호, 허가일자, 전화번호, 팩스번호, 주소 국가연구개발사업의관리등에관한규정제 2 조 의료기기법제 6 조제 1 항및제 7 조 의료기기법, 시행령, 시행규칙제 6 조 의료기기법제 9 조 의료기기법제 6 조제 1 항및제 7 조 개인 정보 연계방법 용량갱신주기 - EAI 1.5TB 10 분 - EAI - EAI - EAI - EAI 145.85 GB 305.15 Mb 143.53 Mb 303.02 MB 10 분 10 분 4/4 분기 10 분 유통 식. 의약품종합정보서비스 [ 의료기기 ] 심의일자, 심의번호, 회사명, 매채유형, 제품명, 허가번호, 심의결과 의료기기법제 25 조 - EAI 92.37 MB 10 분 소비식. 의약품보고기관명, 취급업체명, 유해품목, 의료기기법포함 EAI 76.71 10 분 - 93 -
단계정보시스템명데이터정보법적근거 제조, 유통 유통 유통, 소비 유통, 소비 개발, 수입, 제조, 유통, 소비 개발, 수입, 제조, 유통, 소비 종합정보서비스 [ 의료기기 ] 피폭선량관리센터 식. 의약품종합정보서비스 [ 의료기기 ] 식. 의약품종합정보서비스 [ 의료기기 ] 식. 의약품종합정보서비스 [ 의료기기 ] 위해정보관리시스템 식약처통계업무국 개인 정보 연계방법 유해원인, 원인분류, 유해결과제 31 조 MB 종사자명, 주민등록번호, 의료기관명, 주소, 피폭선량측정결과, 관할보건소 협업기관명, 기관주소, 검사원수 회수제품명, 회수결정경위, 제품결함내용, 대국민홍보방법 업구분, 업체명, 품목명, 품목허가번호, 허가일자, 제조원 식품정보, 의약품정보, 의료기기정보, 화장품정보등 식품, 건강기능식품, 농축산물, 의약품, 바이오, 의료기기및조직분야업체현황, 인허가현황, 생산현황, 수출입현황, 사후관리의수치집정보등 - 포함 EAI 의료기기법, 시행령, 시행규칙제 6 조 의료기기법제 31 조및제 34 조 의료기기법제 29 조 포함 EAI - EAI - EAI - - EAI 통계법제 4 장 용량갱신주기 490 MB 11787. 46MB 18.88 MB 1751.8 2MB 224 MB 10 분 분기 1 회 10 분 10 분 10 분 - EAI 15GB 10 분 화장품의위해발생단계별데이터현황은아래표와같다. [ 표 2-63] 화장품위해발생단계별데이터현황 단계정보시스템명데이터정보법적근거 개발 제조 제조 식약처연구관리시스템 식. 의약품종합정보서비스 [ 화장품 ] 식. 의약품종합정보서비스 [ 화장품 ] 연구책임자명, 연구기간, 연구개발비, 연구결과등 품목정보 ( 품목명, 제조판매업자, 제조판매업등록번호, 효능효과, 용법용량, 사용상주의사항 ), 보고정보 ( 보고일련번호, 보고일 ) 품목정보 ( 품목명, 회사명, 업허가번호, 제형, 효능효과, 용법용량, 사용상주의사항, 품목구분 ), 심사정보 ( 심사일자, 심사번호, 기준코드 ) 국가연구개발사업의관리등에관한규정 화장품법제 5 조 화장품법제 4 조 개인 정보 연계방법 용량갱신주기 - EAI 1.5TB 10 분 - EAI - 10 분 - EAI - 10 분 제조, 식. 의약품업종구분, 업체명, 대표자명, 화장품법 - EAI - 10 분 - 94 -
단계정보시스템명데이터정보법적근거 개인 정보 연계방법 용량갱신주기 유통 종합정보서비스 [ 화장품 ] 등록일자, 주소 제 3 조 전체 위해정보관리시스템 식품정보, 의약품정보, 의료기기정보, 화장품정보등 - - EAI 224 MB 10 분 전체 식약처통계포털 식품, 건강기능식품, 농축산물, 의약품, 바이오, 의료기기및조직분야업체현황, 인허가현황, 생산현황, 수출입현황, 사후관리의수치집정보등 통계법 - EAI 15GB 10 분 4) 관계기관위해발생단계별데이터현황 관계기관위해발생단계별데이터현황은아래표와같다. [ 표 2-64] 관계기관위해발생단계별데이터현황 품목 단계 부처명 기관명 관련 정보시스템 정보명 연계방식 연계주기 식품 식품 수입 수입 관세청 전자통관시스템 (Unipass) 전자통관수입물품유통이력정보 EAI 10 분 전자통관수입정보 EAI 10 분 식품 소비 나이스모바일시스템학교급식식단정보 ESB 30 분 식품 식품 유통 유통 교육부 학교급식전자조달시스템 학교급식조달납품정보 ESB 30 분 학교급식조달출하자 ( 납품업체 ) 정보 ESB 30 분 식품 학교급식조달학교정보 ESB 30 분 식품 유통 유통 군급식검사기준 ESB 120 분 식품 유통 군급식납품관능검사현황 ESB 30 분 식품 유통 국방부 국방물자정보체계 군급식납품성분검사현황 ESB 30 분 식품 유통 군급식조달업체별관리품목현황 ESB 30 분 식품 생산 농산물안전성조사정보 ESB 60 분 국립농산물안전성분석식품생농농산물안전성검사기관정보 ESB 30분산농산시스템 (SafeQ) 식물품식품생품농산물잔류실태분석정보 ESB 60분산질관부리원식품유농축산물유통관리농축산물원산지표시단속 ESB 10분통시스템 (rigin) 식품유농축산물유통관리 ESB 10분 - 95 -
품목 단계 부처명 기관명 관련 정보시스템 정보명 연계방식 연계주기 통 허위표시공표정보 식품 유통 농축산물유통관리허위표시품목정보 ESB 10 분 식품식품 생산 유통 농산물이력추적시스템 농산물이력추적생산정보 ESB 10 분 농산물이력추적유통정보 ESB 10 분 식품식품식품식품식품 유통 소비수입, 유통수입, 유통수입, 유통 농림축산검역본부 검역검사정보시스템 (KAQIS) 국가동물방역통합정보시스템 (KAHIS) 수입쇠고기유통이력시스템 (MeatWatch) 농축산물검역시스템 수입농축산물검역검사검역증 ESB 10 분 인수공통전염병실태정보 ESB 60 분 수입쇠고기유통이력정보 ESB 10 분 수입축산물 - 수입쇠고기유통정보 ( 검역본부 ) 수입축산물 - 농축산물검역정보 ( 검역본부 ) ESB ESB 10 분 10 분 식품 유통 축산물도축검사증명서 ESB 10 분 식품 유통 축산물안전관리시스템 축산물행정처분의뢰 ESB 10 분 식품 유통 미생물모니터링정보 ESB 10 분 식품 개발 농촌진흥청 농약관리시스템 (EPMS) 농약등록정보 ESB 60 분 식품 식품 식품 생산 생산 생산 축산물품질평가원 쇠고기이력추적시스템 쇠고기 ( 국내 ) 이력추적가공관리 ESB 10 분 쇠고기 ( 국내 ) 이력추적도축관리 ESB 10 분 쇠고기 ( 국내 ) 이력추적생산정보 ESB 10 분 식품 소비 복지부 질병관리본부 대량환자발생관리시스템 식중독대량환자정보 ESB 10 분 식품 수입 건강기능식품수입업 EAI 60 분 식품식품 유통유통 안행부 시군구 시군구새올행정시스템 건강기능식품판매업 EAI 60 분 과징금부과기준 EAI 120 분 - 96 -
품목 단계 부처명 기관명 관련 정보시스템 정보명 연계방식 연계주기 식품 유통 과태료부과기준 EAI 120 분 식품식품식품식품식품식품식품식품식품식품식품식품식품식품식품식품식품식품 제조유통유통제조유통유통유통제조수입유통유통유통유통유통제조제조개발제조 기구. 용기포장제조업 EAI 60분 무허가업소대장 EAI 60분 수거계획정보 EAI 10분 수산물가공업현황정보 EAI 60분 수산물원산지표시단속 EAI 10분 수입업유통관리대상정보 EAI 10분 식중독특별관리업소 EAI 10분 식품 ( 첨가물 ) 품목제조보고 EAI 60분 식품등수입판매업정보 EAI 60분 식품모범음식점 EAI 10분 식품수거검사 EAI 10분 식품위생교육내역 EAI 1일 식품위생등급평가관리내역 EAI 60분 식품접객업정보 EAI 60분 식품제조가공업정보 EAI 60분 식품조리사선임 EAI 60분 식품진흥기금지원실적 EAI 60분 식품첨가물제조업 EAI 60분 식품 제조 신고대상분류기준 EAI 120 분 식품 식품 제조제조, 유통 위생공통교육기관내역 EAI 1 일 지도점검계획정보 EAI 10 분 식품제조, 지도점검대상조사 ( 전국포함 ) EAI 10 분 - 97 -
품목식품식품식품 단계 유통제조, 유통제조, 유통제조, 유통 부처명 기관명 관련 정보시스템 정보명 연계방식 연계주기 집단급식소설치현황 EAI 60 분 행정처분기본 / 변경 / 이력정보 EAI 10 분 행정처분명령서대장 EAI 10 분 식품 제조 축산물가공업허가정보 EAI 60 분 식품 유통 축산물보관업영업허가대장 EAI 60 분 식품 생산 축산물생산실적정보 EAI 1 일 식품식품 유통 유통 시도, 시군구 시도행정시스템, 새올행정시스템 축산물식육포장처리영업허가대장 EAI 60 분 축산물운반업영업신고대장 EAI 60 분 식품 유통 축산물집유업영업허가대장 EAI 60 분 식품 유통 축산물판매업영업신고대장 EAI 60 분 식품 제조 축산물품목제조정보 EAI 60 분 식품 식품 유통 유통 국립수산과학원 어병정보센터어류질병정보 ESB 60 분 패류독소관리시스템패류독소정보 ESB 60 분 식품 제조 국내소금품질검사 ESB 60 분 식품식품식품식품식품 수입수입수입수입제조 해수부 국립수산물품질관리원 수산물검사정보응용시스템 수산물검역시스템 수산물해외등록시설정보 ESB 60분 수산물해외위생점검정보 ESB 60분 수입소금품질검사 ESB 60분 수산물수입검역정보 ESB 10분 수산물수출검역정보 ESB 10분 식품 유통 수산물안전성조사시스템 수산물안전성조사대장 ESB 60 분 식품 유통 수산물표시단속시스템수산물표시단속정보 ESB 10 분 - 98 -
품목 단계 부처명 기관명 관련 정보시스템 정보명 연계방식 연계주기 식품 유통 수산물이력정보 - 기본정보 ESB 10 분 식품 제조, 유통 해양수산부 수산물이력제시스템 수산물이력정보 - 생산정보 ESB 10 분 식품 유통 수산물이력정보 - 출하정보 ESB 10 분 식품제물환경정보시스템물환경수질정보 ESB 60분조국립환경식품제토양지하수지하수수질정보 ESB 60분조과학토양지하수정보환원시스템 (SGIS) 경식품제토양지하수토양실태조사정보 ESB 60분조부 식품 식품 제조 제조 한국환경공단 상수도종합정보시스템상수도수질정보 ESB 60 분 하수도종합정보시스템하수도수질정보 ESB 60 분 의약품 전체 건강보험심사평가원 의약품인터넷시스템 의약품생산 / 수입실적, 공급내역, 제품정보 Open API 수시 전체전체금융감독원전자공시시스템공시대상기업의기업정보, 재무현황, 직원현황, 투자현황등 Open API 수시 전체 소비 한국소비자원소비자위해감시시스템소비자불만, 병원, 소방서자료, 피해구제사례 협의 수시 전체전체 국민안전처국민안전처홈페이지재난종합상황 기상상황, 주요재난관리상황, 기관별예방활동관리사항 Open API 수시 식품 생산 농업주산지기상정보 농작물 (36 종 ) 주산지의날씨 Open API 1 일 식품 식품, 의약품 생산, 제조생산, 제조 기상청 산업기상지수조회 보건기상지수 산업기상지수 ( 농업시설지수, 농약살포지수등 ), 특정위치 보건기상지수 ( 뇌졸중가능지수, 피부질환가능지수, 감기가능지수, 꽃가루농도위험지수등 5 종 ), 지역별 Open API Open API 수시수시 전체 전체 생활기상지수조회 생활기상지수 ( 부패지수, 체감온도등 ), 특정위치 Open API 수시 전체 전체 중기예보정보조회서비스 기상전망, 육상예보, 기온, 해상예보정보 Open API 수시 - 99 -
품목 단계 부처명 기관명 관련 정보시스템 정보명 연계방식 연계주기 전체 전체 기타 국가기관발표자료 청와대, 국회, 감사원등홈페이지 국가기관발표자료 솔루션 수시 5) 외부기관위해발생단계별데이터현황 외부기관위해발생단계별데이터현황은아래표와같다 [ 표 2-65] 외부기관위해발생단계별데이터현황 기관명단계공공데이터명 데이터 ( 단위 ) 정보 연계지점구분협약필요 쇼핑몰 유통, 소비 G 마켓, 11 번가, 전문쇼핑몰등 국내외관련쇼핑몰 수집기솔루션없음 SNS 개발, 생산, 수입, 제조, 유통, 소비 트위터, 페이스북등 SNS 의식의약품등의관련정보 수집기솔루션없음 커뮤니티 개발, 생산, 수입, 제조, 유통, 소비 관련협회, 개발자, 생산자, 수입업자, 제조업자, 유통업자, 소비자들모임홈페이지게시판 관련분야관련정보 수집기솔루션없음 뉴스 / 미디어 개발, 생산, 수입, 제조, 유통, 소비 기능식품신문등 120 개기관홈페이지 관련분야관련정보 수집기솔루션필요 - 100 -
3. 빅데이터활용식의약품등안전관리선진해외사례조사 3.1 선진해외사례조사위해예측을위한빅데이터플랫폼구축추진및빅데이터플랫폼구성시핵심요소와핵심이슈를파악하기위하여 4개의선진사례에대하여조사하였고, 각선진사례를간략하게정리하면다음표와같다. [ 표 2-66] 선진사례벤치마킹요약명칭기관제품 / 서비스벤치마킹요소데이터포탈, 공공조직빅데이터추진빅데이터플랫폼, 빅데이터추진과정, 시카고시성공사례빅데이터분석모델링빅데이터시스템구성요소 ( 상황인지, 예측분석 ) 위해분석 ( 평가 ) 및분석 FDA FDA irisk 어플리케이션위해도평가방법툴개발의약품의정성적위해 FDA 의약품의위해평가방법비정형데이터의활용평가모델위해발생예측모델 FDA QPRAM 위해시나리오활용 1) 시카고시빅데이터시스템구축사례가 ) 빅데이터시스템추진배경시카고시는미국 3대도시이자도시인구가 270만명, 교외인구합산인구천만명의대규모메트로폴리탄이면서, 미국최대호수중하나인미시간호를접해강풍, 높은적설량등의자연재해가빈번히발생하여, 재난 / 재해, 범죄, 교통상황등의실시간적, 통합적파악에대한요구가강하다. 2011년당선된신임시장 ( 람임매뉴얼 ) 은시가축적한데이터들을일반에게공개하는오픈데이터모델을제시하고시정부내의수많은정보서비스영역들을통합하고집중화하기로했다. 이러한오픈데이터모델은미국의여러도시들이과거수년동안추진해온사항으로미국도시정부의투명성, 효율성, 혁신을위한역동적인수단으로데이터를활용하기시작한것을의미한다. 나 ) 빅데이터시스템추진조직변천데이터혁신주도부서는과거정보서비스국 (Department of Business and Information Services) 으로불렸던기술혁신국 (Department of Innovations and Technology) 이었는데, 2011년에시카고시최초로데이터총책임자 (Chief Data Officer) 가임명되었고, 2012년 CDO와 CIO (Chief Data and Information Officer) 를통합하여 CDIO(Chief Data & Information Officer) 를만들었다. - 101 -
[ 그림 2-52] 시카고시데이터혁신을위한조직구성변천다 ) 빅데이터시스템의진행과정기술혁신국은기존오픈데이터포탈을방대한규모로확대시키고, 이는범죄, 면허 / 허가, 환승스케줄, 성과매트릭, 로비스트데이터등 200여개의데이터셋을포함하고있으며현재이데이터셋은지속추가되고있다. 시카고시의각부서들은각자자신의영역안에서고립되게데이터와정보기술을운영해왔는데, 시정부는 2013년 1월각부서의정보시스템칸막이들을없애고 3만여직원들이사용하는이메일, 데스크탑어플리케이션등을 MS O365 클라우드운영시스템으로통합할것을선언하였다. 클라우드시스템으로의이전은시카고시정보서비스통합의핵심요소이고이로인해시는매년 40만불이상의예산절감효과를기대하고있다. 시카고시의각부서들은각자자신의영역안에서고립되게데이터와정보기술을운영해왔는데, 시정부는 2013년 1월각부서의정보시스템칸막이들을없애고 3만여직원들이사용하는이메일, 데스크탑어플리케이션등을 MS O365 클라우드운영시스템으로통합할것을선언하였다. 클라우드시스템으로의이전은시카고시정보서비스통합의핵심요소이고이로인해시는매년 40만불이상의예산절감효과를기대하고있다. 윈디그리드는 시카고시전체의실시간운영상황정보를통합적, 지리 정보적으로제공하여신속하고정확하게정책대응을할수있도록지원하는상황인지시스템 으로, 매일 7백만열 (rows) 의데이터를수집하는미국내지자체단위로는최대규모의프로젝트이다. 스마트데이터는 데이터를기반으로한예측분석을통해시행정의과학적의사결정을지원하는예측분석지원시스템 으로축적된방대한시데이터를마이닝하고분석하여고도의예측과통찰력을제공하는데그목적이있다. 상황인지시스템인윈드그리드에비해더다양한데이터를더고도화된분석모델링을활용하여상황인지를넘어서는예측분석을통한시행정의과학화를도모하고있다. 시카고시도시관리의효과성을높이려는예측분석시스템인스마트데이터시스템은몽고디비 (MongoDB) 나하둡과같은오픈소스툴을활용하여구축되었으며, 2014년에시카고시내식당들에대한식품위생관련단속업무에활용하는예측분석파일럿트프로젝트를실시했다. - 102 -
[ 그림 2-53] 시카고시데이터혁신및빅데이터플랫폼구축마일스톤시카고시빅데이터플랫폼은크게 3단계로개발되었으며, 먼저데이터확장과통합을거쳐데이터포탈이구축되었으며, 이후데이터를통한상황인지시스템인윈디그리드가구축되었으며, 그다음단계로스마트데이터와같은고도의예측분석모델이개발되고있다. 라 ) 빅데이터시스템서비스모델및내용 서비스모델및구성시카고의빅데이터시스템은아래와같이예상된다. 아래의시스템은크게교통, 의료, 환경, 건물, 911, 311의정보를윈디그리드에수집및저장하고간단한분석알고리즘에의하여상황분석을하여활용하고, 기존의누적데이터를스마트데이터에수집및저장하여이를예측분석에활용할수있도록구성하고있다. [ 그림 2-54] 시카고시데이터혁신을구성하는세가지주축시스템 - 103 -
[ 그림 2-55] 시카고시빅데이터서비스모델예시 예측모델및분석알고리즘세부내용시카고의 SmartData와관련한시카고시보건국에서식품업소위생점검예측을위해사용한모델은실효성평가와관련하여맹검추정기법을사용하였고, 통계적모형으로는 Logit regression with Lasso모형을적용하였다. 적합도검정방법으로 AIC, BIC(baysian), 적용의실효성평가 : test validation를사용하였다. 이는하나의예측모델을만들기위해다양한통계기법을활용하고있으며, 이도각각의검증방법을통해검증하고다시리모델링을하는것을참고할필요가있다. 시카고시보건부와기술혁신부서는식품위생관련규정의중요한위반을생성할가능성이있는식품업소에대한우선순위를정의할수있도록보험회사등과분석연구를수행하였다. 민원데이터 (311), 기상, SNS, 범죄데이터등에이르는빅데이터를분석한결과, 식품위생점검과상관관계가높은것으로보여지는주요변수를도출했으며, 이중주요예측인자를정의했다. 정의된주요예측인자를기반으로식품업체별식품위생규정위반가능성의높고낮음을예측할수있으며, 이에따라식품위생점검우선순위를할당할수있게되었다. - 104 -
[ 그림 2-56] 식품점검우선순위예측모델시카고시보건부는 2014년 9월, 10월두달동안 1637개의업소를점검하였으며, 전체대상중 16%(218개업소 ) 에서최소한하나의중요식품위생위반이점검되었다. 이중절반이상인 55%(141개업소 ) 는첫째달에점검되었으며, 45%(117개업소 ) 는두번째달후반에점검되었다. 점검이완료된후기술혁신부는이데이터를사용하여중요위반을할수있는각업소를계산하였다. 또한과거점검이력데이터를사용하여각업소에위반확률을적용하여, 효율적인점검활동에사용될수있는지연구하였다. [ 그림 2-57] 식품점검우선순위업소선별시뮬레이션 < 출처 : GITHUB( 시카고시 )> - 105 -
연구결과에의한시뮬레이션을통해우선적으로검사해야할위험한업소를볼수있다. 컴퓨터알고리즘을사용하여좀더식품검사관을효과적으로할당할수있음을연구원들은확인했다. 첫번째상반기에일반적인점검방식으로는 55%(141개업소 ) 의위반업소를발견한반면, 시뮬레이션을통한점검방식에서는 69%(178개업소 ) 의위반업소를발견하게되었다. [ 그림 2-58] 시뮬레이션결과에따른조기발견율사례 < 출처 : GITHUB( 시카고시 )> 파일럿기간인두달동안평균 7.5일정도조기발견이가능했으며, 이는기존의일반적인점검방식에비해첫달에 37개의위반업소를추가로발견할수있음을잠재적으로보여주었다. 9) 윈디그리드상세내용시의교통흐름, 응급서비스등에관한실시간데이터를한곳에서관찰하여위기상황등의핵심신호나징후들을전체적으로파악하고, 위기상황시부서간협업적대처가가능하게하는시스템이며, 일종의시의 건강상태 를총체적, 실시간적으로모니터링할수있는데이터허브및활용시스템이다. 2012년오픈소스툴인몽고디비 (MongoDB: NoSQL-style) 시스템으로 4개월간의개발과정을거쳐프로토타입이설계되었고, 윈디그리드베타버전이그해나토정상회담기간동안에시카고시 위기관리소통국 에의해성공적으로활용되었다. 이후주요축제나행사시구급차서비스통화량, 시청콜센터서비스통화량, 버스승하차지점들, 트윗통신량등의데이터들을실시간으로모니터링하면서이들축제및행사시에시기능들의작동을감시하고대응하는데활용되었다. 또한시의재난복구상황에서피해의구체적현장상황들을모니터링하는데에도사용되었다. 이러한성공적인사용경험에힘입어 2013년시의더욱광범위한부서에서윈디그리드활용하게되었으며 2014년시스템이완성단계에이르렀다. 9) 출처및참고 : 시카고 GITHUB http://chicago.github.io/food-inspections-evaluation/ - 106 -
[ 그림 2-59] 윈디그리드화면예시 < 출처 : http://datasmart.ash.harvard.edu> 윈디그리드의주요기능은시의기능들에대한상황적인지와발생사건에대한모니터링, 과거데이터의검색기능, 실시간상황인지분석기능을제공하고있다. 또한하나의홈페이지를통해서업무집행이가능토록제공되며, 검색을통하여 ( 예로특정교차로의과거사고데이터, 사건발생지역콜센터통화량등 ) 실시간정보가시각적으로정리되어제공된다. 윈디그리드시스템은예측분석기능을제공하는스마트데이터 (SmartData) 시스템의근간이된다. 윈디그리드에서데이터들을지속적으로확대하고있으며, 윈디그리드시스템관리부서인기술혁신국은윈디그리드사용자인시직원들을대상으로 2주마다윈디그리드개선을위한요구사항을접수하여시스템에반영하고있다. 상황인지시스템인 윈디그리드 는데이터분석또는빅데이터분석에서기술 ( 記述 ) 적분석 (descriptive analytics) 이나빅데이터 1.0 이라고불리는분야이다. 이는현상이나사물이어떤상황인지그리고상황이어떻게진행되고있는지를이해하는데에도움을주는분석을의미한다. 따라서기술 ( 記述 ) 적분석에서는데이터자체나데이터의수집, 데이터의통합적제시, 그리고데이터이해나인지를용이하게하는시각화 (visualization) 기술이상대적으로부각된다. 데이터를대량으로수집하고대량데이터를이해하는것이중요하다는측면에서, 상황인지시스템은말그대로빅데이터시스템이며, 상황인지시스템개발의전제가되는것은당연히데이터통합, 방대한데이터셋의구축이나데이터확장, 정보시스템통합등이다. 즉, 데이터자원및정보시스템자원요소가중요한관건이되는것이상황인지시스템이다. 스마트데이터플랫폼상세내용스마트데이터 (SmartData) 는오픈소스로구축된예측분석시스템으로시행정에서요구되는다양한분야들의예측분석알고리즘을지속적으로개발, 확장이가능하도록구성되어있다. 직원들에게추세데이터분석뿐만아니라예측기반의문제해결을유도하여시행정의사결정시데이터과학에기반한도시관리의새로운모델을정립하고있다. - 107 -
[ 그림 2-60] Smart Data Platform 운영체계 < 출처 : 지자체의공공빅데이터정책사례연구 > 스마트데이터프로젝트의개발은 2013년 3월블룸버그가주최한공공혁신경연대회에서 예측분석알고리즘개발및공유 로수상한상금 1백만불이초기자금이되었다. 분석알고리즘개발에는올스테이트보험의데이터사이언티스트등여러분야전문인력이포함되어개발이진행되었으며, 2015년 2월, 시카고시보건국에서첫번째활용사례를파일럿형식으로만들어냈으며, 스마트데이터시스템이완성되기까지는초기자금에더하여약2백만불정도의시예산이추가소요될것으로예상된다. 스마트데이터는조회 (query) 를수행할수있도록구성되었으며, 결과값은해석이용이한포맷 ( 대부분지오그래픽한내용 ) 으로제공되고있다. 분석대상데이터에있어서윈디그리드와스마트데이터의가장큰차이는윈디그리드가특정대상에한정된정보 ( 예로식당의경우이전단속시의해당식당의단속결과나해당식당의사업연차등에관한데이터 ) 를다룬다면, 스마트데이터는연관정보 (corollary data) 즉, 식당과관련이있는정보 ( 식당주변의위생불만정보, 식당주변의범죄건수등 ) 까지제공하여상관관계분석을할수있게한다. 이는시가보유한수십억개의이질적인데이터를연관분석에이용함으로써의미있는핵심연관성을찾아내어예측및통찰을얻어내고이를업무에활용할수있게한다. 예측분석시스템인시카고시 스마트데이터 는데이터분석또는빅데이터분석에서예측분석 (predictive analytics) 이나빅데이터 2.0 이라고불리는분야이다. 이는미래의결과나성과를예측하도록도와주는시스템이나분석툴을의미한다. 이런이유로예측분석의핵심은예측분석알고리즘 ( 모델링 ) 과알고리즘에피딩 (feeding) 되는여과되고정제된데이터의질이라고할수있다. 이는단순히많은양의통합된데이터의확보즉, 데이터의양이분석에있어서상대적으로중요한기술 ( 記述 ) 적분석과데이터의질이상대적으로중요한예측분석의차이점을보여준다. 기술적분석에활용되는데이터가빅데이터라면예측분석에활용되는데이터는스마트데이터이고여기서스마트데이터란보다정밀한분석을위해서여과되고선택된데이터라고할수있다. - 108 -
정제된데이터가피딩 (feeding) 되고이를고도의알고리즘이작동하여데이터간상관성을분석하여미래를예측해내고, 알고리즘 ( 시스템 ) 이이런과정에서스스로학습을통하여 (machine learning) 진화한다는점에서, 예측분석의성패는 데이터최적화, 예측분석모델링대상영역에대한깊이있는이해, 그리고상관성분석을위한더욱고도화된수학적 통계적방법론, 그리고데이터마이닝이나기계학습등과같은전산학적기법들이좌우함을알수있다. 미래에대한단순예측이아니라한단계더나아가통찰을통한실행대안까지제시해주는것은새로운분석영역일수있는데, 이는기본적으로의사결정지원시스템 ( 의사결정알고리즘, 모델링 ) 이라고할수있으며, 빅데이터 3.0 또는규범적 실행적 (prescriptive analytics) 분석이라고부를수있는분야이다. 이를위해서는상관성뿐만아니라인과성까지도분석되어야하는데, 위해관리에서위해의차단 예방을위한대응활동은바로인과관계를규명해냄으로써가능하다. 한편규범적 실행적분석을예측분석이더욱고도화된것으로예측분석의일부로간주할수도있다. 마 ) 빅데이터추진성공요인시카고시빅데이터추진사례는시카고시가미국내에서빅데이터활용공공부문혁신에서선두주자로꼽히는이유를말해준다. 첫째, 시카고시는데이터를통한업무혁신에대한높은기대와비젼을가졌는데, 이는저절로된것이라기보다는시카고시가이전부터미국공공부문내에서가장혁신을두려워하지않는조직으로이름을날린혁신적조직문화를갖춘점과관련이깊다. 이에더하여새로부임한시장 ( 람임매뉴얼 ) 의리더쉽또는데이터혁신에대한강력한스폰서쉽도성공의주요요인이다. 둘째, 데이터를통한업무혁신과관련한권한과책임을통합하고강화하는방향으로조직과인력을구성, 빅데이터를통한업무혁신의강력한추진체계를갖춘점이다. 조직내정보기술부서를혁신추진주관부서로명칭을바꾸고외부전문인력도과감히채용, 이들이각부서에서칸막이식으로운영되던정보시스템과데이터베이스를통합하고신규빅데이터프로젝트를주도적으로추진할수있었다. 셋째, 빅데이터가신기술이라는점을감안, 조직내적용은점진적방법을채용, 데이터구축 통합, 상황인지라는기술 ( 記術 ) 적분석시스템구축, 예측분석시스템구축, 예측분석알고리즘확대등으로업무를추진한점이다. 점진적방법론은개념적으로혁신적방법론과배치될수도있지만데이터에기반한기술 ( 記術 ) 분석 예측분석등이수많은업무분야에각각적용되어야하는소량생산기술의특징을가지고있으며, 적용성공사례를통해꾸준히조직내거부감을없애고조직내동조를확대시켜야한다는점, 그리고빅데이터분야최신기술자체가성숙기술이아니어서지속적으로개선되고고도화되고있으며이를적절히활용해야한다는점에서점진적방법론을채택해야할필요가있다. 2) FDA-iRISK 시스템 ( 어플리케이션 ) 식품섭취에대한위해평가툴로누구나웹상에서자신의식품섭취데이터를입력하면 - 109 -
위해도정보를제공한다. FDA 내식품안전및응용영양센터 (Center for Food Safety and Applied Nutrition) 가주도해서개발하였으며사용자가자신이가진데이터를기반으로다양한위해시나리오를구성하면시스템안에내재된위해분석계산알고리즘이자동으로위해도 ( 특정인구집단에미치는건강상의부작용정도 ) 를추정하는웹기반의개방형시스템이다. 특정인구집단에대한위해도가측정되어, 개인화되고맞춤화된결과값의도출이가능하며, 위해요소별, 식품품목별, 생산 / 가공 / 취급시나리오별, 특정인구집단별로위해성비교가가능하다. 또한자신이가진데이터로신속하게위해성측정이가능하고데이터를용이하게저장하고공유할수있도록구성되었다. 2006년프로토타입이개발되었으며, 2007년웹기반형식의프로토타입이개발되었고, 2010년전문가리뷰를거쳐 2011년 1.0 버전이일반에게최초공개되었고 2015년 2.0 버전이새로일반에공개되었다. irisk는 7가지카테고리로구성되어있는데, 식품품목, 식품위해요소, 식품가공 / 조리방법등식품섭취와관련된행태모델, 식품가치사슬모델, 위해요소의농도반응곡선을활용한농도반응 (dose-response) 모델, 인구집단, 위해요소의인체에대한최종위해지표인장애보정수명 ( 건강수명 ) 등이다. irisk 계산값은식품-위해요소가결합된시나리오에대해섭취발생건수, 질병유발총건수, 평균질병위해성, 장애보정수명등이정렬되고장애보정수명에따른위해도비교및위해도순위결정이가능하다. [ 그림 2-61] FDA-iRISK 의결과값화면 웹화면에사용자가데이터를입력하여위해시나리오를구성하면, 입력데이터와시스템이자체적으로가지고있는경험데이터를바탕으로, 시스템에내재된수학적계산알고리즘이최종결과값인위해도를계산해내는데여기서위해도의최종측정값은특정시나리오의신체건강에의영향정도라고할수있는장애보정수명으로출력된다. 가사용자가시나리오데이터를바꿔가면서새로운가정 ( 시나리오 ) 에대한결과값을출력해볼수있다. - 110 -
[ 그림 2-62] FDA-iRISK 전체개념도 irisk 주요사용자는행정요원 ( 위해평가정보들을정책의사결정에활용 ), 위해평가자, 식품안전전문가, 학생, 교수, 연구자, 식품제조업자, 기타위해시나리오를필요로하는사람들이대상이된다. 위해도계산을위하여 irisk에서선택한데이터들 ( 또는지표들 ) 은크게둘로나뉘는데, 하나는주로자연과학적실험데이터 ( 경험치 ) 들에서도출 ( 계산 ) 된것으로주로위해발생시심각성과그확률 ( 가능성 ) 에관련되는데이터들 ( 또는지표들 ) 이며, 이에는용량반응 ( 농도반응 ), 질병확률 ( 질병가능성 ), 인구계층에적용된건강상의부작용정도등이다. 다른하나는주로사회과학적통계치들에서도출 ( 계산 ) 된것으로주로위해에의노출정도와그확률 ( 가능성 ) 과관련되는데이터들 ( 또는지표들 ) 이며, 이에는섭취행태별위해노출, 생산유통단계별위해노출등을들수있다. irisk의위해도계산은위해발생시심각성정도와그확률에위해에의노출정도와그확률을곱한 ( 동시에고려한 ) 것을지표화한것이라할수있는장애보정수명으로표현된다. [ 표 2-67] FDA-iRISK 위해도계산방식 irisk 에서의위해 (risk) 또는위해도정의 irisk는위해 (Risk) 를소비자측면의위해추정치 (estimate of risk to the consumer) 로정의, 이는식품안전에있어서 FDA가최우선적으로고려하는것이바로소비자관점의위해정도이기때문. 위해에의노출정도와확률 x 위해발생시심각성과확률위해에의노출정도와확률위해발생시심각성과확률반면에심각성은위해요소 (hazard) 에대한노출자체는식품공급망의다양한활동들의용량반응관계, 노출이발생했을시질병확률정도, 즉, 생산, 가공, 운송, 저장, 판매, 요리, ( 가능성 ), 인구계층의건강효과 ( 영향 ) 에의해섭취단계에서의활동갯수들에영향을받음결정됨주로사회과학적경험치들 ( 통계및데이터 ) 주로자연과학적경험치들 ( 통계및데이터 ) 위두측면을합쳐서소비자에대한위해추정치를구함. irisk의최대장점은바로이두측면을동시에고려하여소비자에의위해정도를구한다는것임 - 111 -
[ 그림 2-63] FDA-iRISK 위해도계산방식 FDA-iRISK 2.0 기술문서에따르면위해도의종합적인계산방법을아래와같이정의하고있다. 는위험요인 h 로인한질병의경우당부담 (burden) 의평균이며이것은 DALY (Disability- Adjusted Life Years) 를측정하여산출한다. 아래 (Disability-Adjusted Life Years) 에서설명한다. 는식품위험요소조합 f, h를통한질병의확률로특정복용량과복용량반응관계에따른결과로주어진다. 이는급성위험의경우와만성위험의경우로구분된다. - 급성위험의경우질병의확률 P f,h 는다음과같이산출될수있다. 는위험 h, 의주어진복용량을위한지정된용량반응모델에의해제공되는응답의확률. 는주어진반응 의발생확률. 가실제질병이외의 Endpoint라가정. 예를들면감염의경우복용량반응관계를예측하면, 이값이질병이감염의경우일부발생할수있음을고려한것이다. 는프로세스모델에의해제공되는것으로소비의지점에식품의오염단위의빈도이다. brakets 안의값으로몬테카를로시뮬레이션내의반복평균으로계산하였다. - 만성위험의경우질병의확률 P f,h 는다음과같이산출될수있다. 는위험 h, 일생동안 ( 혹은오랜기간동안 ) 의일평균복용량 의섭취량을위한 - 112 -
지정된용량반응모델에의해제공되는응답의확률. 는주어진반응 의발생확률. 가실제질병이외의 Endpoint라가정. 는식품 f에대한소비자의수에따른결과 ( 만성적인노출 ) 또는특정시기에섭취한수 ( 급성노출 ), 그리고사용자가정의한만성노출또는년간섭취한수 ( 급성노출 ) 값이다. ( 소비의양, 예를들면 1인분의양, 평균섭취량 ) 는비교가능한시간이다. 누적노출의결과로인한만성위험의값은일반적으로노출의전체기간을나누어연간으로환산한다 (T= 전체수명 ). 그러나위험시나리오에따라만성위험인경우 T=1일때사용자는연간환산한결과가아니고이것은급성위험인경우에해당. DALYs(Disability-Adjusted Life Years) 는다양한위험요인과관련된건강결과물이식품매개위험요인과관계가있으며, 이에따른피해도의측정법으로제시된다. 이러한측정법은건강결과의다양성을위한질병의무게를비교하기위해국제적으로사용된다. 건강지표에따라심각도와건강경과기간을통합시키고, 그리고각결과물의빈도비교, 그리고치명적이거나치명적이지않은경과의수용을위한척도를제공한다. DALY는측정은 Quality- Adjusted Life Years (QALY's: 질보정생존연수 ) 측정개념과매우유사하나, 식품안정성분야에더공공성을가지고있다. S j 는주어진위험요인 j가건강에영향을주는심각도이다. 0( 장애없음 ) 부터 1( 사망 ) 까지범위로표현. D j 는위험요인 j가건강에영향을주는기간이다. 년단위로표현하는데사망의경우는영향받은사람의나이에기반하여사망에이른기간년도이다. 그리고이런경우심각도는 1 로설정. w j 는건강종료점. 위험요인 j가발생하는경우의비율. 다음은질병률과사망률조합에기초한간암의 DALY Endpoint의예시이다. [ 표 2-68] DALY Endpoint 산출예시 건강종단점 (Health Endpoint) 심각도기간경우의비율장애조정생존년수종단점 병적상태 : 비치명적간암 0.2 15.1 0.05 0.1510 병적상태 : 치명적간암 0.56 0.4 0.95 0.2128 사망률 : 치명적간암 1 20 0.95 19.000 경우당장애조정생존년수총계 (Total DALY per case) 19.3638 3) FDA 의정성적위해평가방법 미국 FDA 는자신들의의약품허가를위한리뷰과정에정량적접근 (only quantitative approach) 만을사용하는것을폐기하고정성적접근법을도입하는것으로, 2013 년 의약품 - 113 -
규제의사결정을위한구조화된이익-위해평가접근법 (Structured Approach to Benefit-Risk Assessment in Drug Regulatory Decision-Making) 을발표하고, 2017년까지 5 개년동안이행과정을거치면서정착할것을발표했다. 정량적위해분석을위해서는발생가능한시나리오의요소들에대해단순화를위한많은가정이필요한데이런점으로인해정량적위해분석이오히려주관성개입여지가커질수있다는것이다. 또한위해와관련한의사결정이위해평가의정량치들로제시되는 ( 크다, 작다, 기준치를벗어났다. 기준치안에있다, 합격이다, 불합격이다등 ) 이진법적인내용에따른의사결정이아니라핵심고려사항들을복합적으로이해하여판단하는것이기때문이다. 따라서정성적접근법은정량적접근법을대체하기보다는보완한다고볼수있다. [ 그림 2-64] 정성적위해도평가표정성적위해도평가표는의약품허가의사례에서, 내외부평가자들과의사결정자들이사용한암묵적지식들을집약시켜형식화한것으로의약품규제, 허가에있어서핵심적으로고려되어야할사항들을항목으로제시, 담당자들이허가를위한리뷰과정에서해당항목을빠짐없이기술하고이과정에서의약품규제, 허가과정에서 FDA가내린의사결정의신뢰성과명확성을확보하고자하는것이다. 의약품규제, 허가과정에서반드시고려해야할사항들에대해서검토자자신의언어로그과정과내용, 판단에담긴합리적근거들과이유들을제시하며, 평가표에기재된이러한내용들은내부및외부이해관계자들과의소통에활용하고있다. 평가표는 FDA가특정의약품의이익 (benefit) 과위해 (risk) 에대한검토를함에있어서검토결과들을뒷받침하는증거로서, 그증거에있어서의불확실성, 불확실성으로인한가정들, 최종적으로내린결론그리고그결론의합리적이유들로구성된다. 평가표의가로축항목은의약품허가를위한의사결정시핵심고려항목들로이루어져있으며, 세로축항목은핵심고려항목별로기술해야될내용들이명시되어있고, 최하단에는요약하도록되어있다. - 114 -
4) 미국 FDA의 QPRAM (Quantitative Predictive Risk Assessment Model) QPRAM은 FDA 농산물의위해예측을위한정량적위해평가모델인데, 컴퓨터상에가상실험실을꾸려신선농산물들의섭취와관련된위해를예측하는것이다. 이를위하여농장들의특유의작업패턴과작업관행들, 그리고농산물들이가공되고소비되는과정을분석하고동시에농산물의각생산단위들을역추적하여어떻게, 어느시점에서, 어디에서, 어느정도까지농산물이오염 ( 감염, 전염 ) 되었는지를기록한다. 이러한분석결과들과정보들을활용하여위해시나리오를만들어위해성을예측하여최적화된개입및대응을할수있도록한다. QPRAM은미래의농산물오염사고를예측하고예방하는데에활용될수있을뿐만아니라이미오염된농산물에대해서는농산물이오염된위치를추정하는데에도활용되어실제역추적상황에서비교적신속하게오염요소를확인하고제거하여시장에서오염된농산물의유통을빠르게통제할수있는데도효과를발휘하고있다. [ 그림 2-65] QPRAM 개념도 3.2 선진해외사례시사점 1) 선진해외사례시사점시카고시윈디그리드시스템은 2012년오픈소스툴인몽고디비 (MongoDB) 시스템을바탕으로 4개월간의기간동안프로토타입을만들었고, 이후 2014년까지현재매일 7백만열 (rows) 를수집하는데이터시스템이이루어졌다. 시카고시의스마트데이터플렛폼의성공핵심요인은첫번째, 국민소득수준의향상으로복지, 환경, 건강, 범죄예방등시민삶의질향상을위한환경변화필요성에대응과범죄와관련된문제가발생되기전정보수집과분석을통해신속한의사결정, 대응체계구축을위한시보유데이터의통합활용플랫폼 ( 시카고시가보유하고있는건물의인 / 허가데이터, 예산, 세금데이터, 범죄기록등 900여가지데이터변수를확보하여 GIS 위치기반정보로전환, - 115 -
범죄데이터의 10년간자료를모두제공 ) 을구축하고, 두번째, 공공이보유한방대한데이터를시민들에게개방함으로써공무원, 연구자, 전문가, IT 기술자들의다양한분석과해결방안을취합하기위한참여형형태로운영하고세번째, 공공의안전을담당하는기관의활동에필요한모든자료를통합 / 분석, 제공하였다는것에있다고볼수있다. 이사례에서와같이빅데이터활용을위해서는한꺼번에모든시스템을구축하려고하기보다는실행가능하고, 활용성공사례를만들어낼수있는부분에집중하여구축하도록하고, 이후에확대및고도화는단계를고려해야한다. 따라서먼저프로토타입의시스템을구축하고이후에확장하는과정을통해활용범위가확대하는것이필요하다. 시카고시의예측분석시스템인스마트데이터는윈디그리드시스템을기본으로사용하면서, 몽고디비 (MongoDB) 나하둡과같은오픈소스툴을활용하여구축하였고, 초기 100만불을바탕으로하여, 추가로 200만불정도의예산을더투입한것으로보여, 기본적으로윈디그리드시스템과같은상황인식시스템을먼저구축하고이후에예측분석시스템을구축하는것을고려할필요가있다. 제대로된성과를내기위해서는먼저작은부분에서의성공사례를만드는것과함께구축및활용하기위한확실한추진조직이필요하다. 사고 위해예측을위해서는 FDA 정성적위해평가방법에서제시하는바와같이시스템을통해서절대적인의사결정을내리게하는것이아니라의사결정지원시스템을만들어의사결정의보완적수단으로서활용하는것을목표로해야할것이다. FDA irisk와 QPRAM의경우처럼궁극적으로는사고 위해가발생하기전에심각성과노출도를모니터링하여국민들이나정책결정권자가위해에미리대응할수있도록할필요가있다. 2) 구축비용, 기간, 절차시카고시윈디그리드는 2011년초부터시작하여 1년여의시스템통합과데이터포탈을만든이후에약 4개월의기간동안프로토타입의버전을만들어사용하였고, 2014년에이르기까지지속적으로데이터통합및클라우드시스템도입을추진하고있다. 시카고시의스마트데이터는 2013년 3월에시작하여, 2015년 2월에시카고보건국에서처음활용한것으로나타나분석모델을개발하는데 2년정도가소요되었으며, 이를개발하는데든비용은약 300만불정도로추산되고있다. FDA irisk는 2006년프로토타입개발, 2007년웹기반프로토타입, 2010년전문가리뷰, 2011년일반공개, 2015년 2.0버전을공개하여, 일반에게공개되기까지 5년여정도소요된것으로판단된다. 시카고시의스마트데이터시스템구축에소요된비용 (300만불) 을기준으로개략적으로추산해보면윈디그리드시스템구축을위해최소 300불이상소요되었을것으로보인다. ( 약 2 년의시스템통합작업및데이터포털구축, 솔루션도입등 ) 따라서시카고시의빅데이터시스템구축을위하여약 4년이란기간과약 600만불정도의비용이소요되었을것으로보인다. 식품의약품안전처의전조예측을위한사고 위해예측시스템구축을위해서는초기도입부터안정화단계까지지속적인활용모델의개발과예산투자가필요할것으로보인다. - 116 -
3) 빅데이터시스템구축시애로사항빅데이터시스템은장기적인관점으로접근해야성과를달성할수있다. 빅데이터시스템구축은단발성으로끝나는프로젝트가아니라, 장기적내부의데이터를통합하고시나리오개발하여분석모델을만들어가는프로젝트로, 발주자주도적으로시스템운영해야성과를달성할수있다. 빅데이터시스템구축시내 외부의협조를얼마나이끌어낼수있느냐가관건이다. 대부분데이터를내외부시스템과연결해야하고, 부족한데이터는추가적으로요청을해야하는데이를협의및관리해야하는역할이필요하다. 또한내부사용자들이자신들의목적에맞는활용시나리오를계획하고이를지원및활용할수있도록하는업무프로세스와조직구성이절대적으로필요하다. 4) 민간자문단운영여부시카고시식품업소위생점검예측모델의경우올스테이트민간보험사의데이터사이언티스트들을비롯한여러분야의전문가들을활용하여모델을만들었다. FDA irisk의경우해당모델을만들기위해전문가집단을활용하여자문과리뷰를거쳐모델을완성하였다. 5) 활용가능성각사례의활용가능성은시카고의경우에먼저빅데이터시스템구성요소와구축로드맵을통해식품의약품안전처의빅데이터시스템구축에참고할필요가있으며, 예측모델은데이터설계와관련해서비정형데이터의분석방안과지속적인통계분석및검증을통해예측모델을수정해나가는과정이필요할것으로보인다. FDA의 irisk 위해도산출모델의경우이미식품의약품안전처의 위해평가지침서 에언급되어있는위해요소별위해평가유형및수행절차, 위해평가방법등에자세한방법과방향성이정의되어있기때문에이를기반으로한정규화및상세화를진행하여시스템에적용할분석및알고리즘을정의해나가면될것으로보인다. 6) 선진해외사례를통해서본식품의약품안전처사고 위해예측시스템구축로드맵시카고시와 FDA 빅데이터구축사례를비추어볼때먼저빅데이터기반을구축하고데이터를수집및통합하며, 데이터를기반으로분석모델과관련과제에대한알고리즘등을구현하는절차로진행되며, 지속적인개선과고도화를통하여빅데이터시스템을내재화하고내부역량을강화하는방향성을가지고있다고본다. 1단계인빅데이터예측기반구축에서는빅데이터예측기반구축을통해빅데이터서비스를위한기반플랫폼선정과구현을목표로진행하며, 수집이필요한데이터셋의조사및분석, 클러스터화를통해데이터의거버넌스를가져가는것이필요하다. 뿐만아니라데이터의연계및통합을효율적으로수행하기위해서데이터의연계도구및실시간수집처리도구와같은솔루션의선정도중요한요소이다. 더불어빅데이터예측기반을위한분석모델링을정의하고다양한알고리즘과분석기법을고려하여최적의분석기반을구현하는것이중요하다. 그리고실제현안을해결하기위한서비스포털과대국민서비스의요구기능을구현하여서비스중심의빅데이터기반을마련하여야한다. - 117 -
[ 그림 2-66] 선진해외사례로본시스템구축로드맵 2단계서비스확대에서는 1단계서비스의운영으로나타난문제점및도출된개선요구사항을수렴하여설계및구현하는 1단계고도화영역과다른분야를위한서비스확대부분을고려하여방향성을가져가야한다. 확대서비스를위한데이터수집, 연계, 통합이이루어져야하며, 추가인프라및솔루션도입이필요한경우현재기반에적합하고호환성에문제가없으며, 변경을최소화할수있어야한다. 1단계운영을통해나타난추가서비스과제및방향성을도출하여 3단계인서비스고도화를진행할수있도록준비하는것도반드시필요하다. 대국민서비스의경우도국민에게필요한서비스를추가제공하여기관의신뢰도향상에도움될수있도록한다. 3단계서비스고도화에서는 2단계고도화영역과추가다른분야를위한서비스확대부분을고려하여방향성을정립한다. 3단계에서는무엇보다도서비스의고도화를고려해야하기때문에기존의예측분석알고리즘및분석기법의문제점을제시하고개선할수있는전략을제시하여야한다. 또한위해도평가시나리오및평가방안모델링과같이새로운분석을위한기능설계및모델링도고려해야한다. - 118 -
4. 업무환경및현황분석종합 4.1 주요현안식품의약품안전처현황및내부인터뷰등으로나타난주요현안은현정보시스템의종합분석기능강화, 종합정보수집및분석을위한데이터기반마련, 식의약품등사고 위해예측을위한정보의산재, 의사결정에필요한체계적인데이터기반마련등으로볼수있다. 그리고이와더불어국민안전강화를위한사전예측모델의도입필요, 위해지도및위해경보, 집중관리대상선정등의서비스모델을적용한시스템화필요, 분석정보및관련대국민서비스확대등으로나타났다. 전반적으로산재된데이터의통합기반과이를활용한사고 위해예측시스템및서비스모델의구현그리고이를활용한의사결정및정책활용과대국민서비스확대로요약할수있다. 추진단계별세부과제 - 식품의약품안전처현정보시스템의종합분석기능강화 - 식의약품등종합정보수집및분석을위한데이터기반마련 - 식품의약품안전처내 / 외부에산재된식의약품등사건 / 위해예측을위한정보통합 - 의사결정에필요한체계적인데이터기반마련 - 안전관리업무확대추세에따른국민안전강화를위한사전예측모델도입 - 안전관리정책지원을위한위해지도및위해경보, 집중관리대상선정시스템화 - 안전관리분석정보의정책활용및대국민서비스확대 인터뷰및내부현황파악을통해파악한해결과제 - 사고위해예측및사고를조기포착기반마련 - 인터넷, 소셜데이터를수집분석하여예측모델수립 - 빅데이터활용을위한기본적인데이터량수집기반구축 - 데이터품질제고방안 - 의미있는정보를생산가능성고려하여데이터셋구성 - 부작용신고사례정보를바탕으로한빅데이터활용시나리오마련 핵심현안에따른개선방안추진단계별세부과제및인터뷰및내부현황을통해파악된핵심현안을 7가지로정의하고이에따른개선방안을다음과같이도출하였다. - 119 -
[ 그림 2-67] 핵심현안과개선방안매핑 4.2 핵심성공요소 (CSF) 도출현안에따른개선방안을핵심성공요소로정의하고아래와같이방향성을고려한다. 시나리오를바탕으로예측시스템설계사고 위해예측에활용가능하고성과를창출할수있는사용자의구체적인요구사항 ( 활용시나리오 ) 을바탕으로한시스템설계를하는것이중요할것으로보인다. 데이터에따른법적인문제와내부관계자, 기관과의문제파악데이터의수집및연계시에대두될수있는법적인문제를비롯한내부관계자및관계기관과의문제를미리파악하여협의하는것이필요하다. 산재된데이터의통합구축사고 위해에대한실시간모니터링및예측분석기반의시스템구성을위해서는선제적안전관리를할수있는데이터통합구축이필요하다. 이해관계자간의소통채널을구축국민및이해관계자와소통할수있는소통채널을구축하는것이필요하며, 이를활용하여안전관리가보다더수월하게이루어질수있도록하는것이필요하다. 사고 위해예측기반구축사고 위해예측기반을구축하기위한데이터의클러스터링및분류와전조예측을위한모델의설계, 예측을위한전조데이터의수집, 빅데이터플랫폼의구축, 빅데이터분석모델등의방향성을설계하는것이필요하다. - 120 -
단계별성공사례참조및추진조직구성성공적인사고위해예측시스템구축을위해서는단계별성공사례를통하여사용자경험을확보하고이를통하여시스템활용확대및지속적인발전을위한확실한추진조직이필요하다. 4.3 주요정보화요구사항 (CIR) 도출도출된핵심성공요소를통한정보화요구사항을 5가지로아래와같이정의하였다. [ 그림 2-68] 핵심성공요소와정보화요구사항식의약품의안전에대한국민의관심이증대되고있고, 부정확하거나위해를증폭하는정보의빠른확산으로인해식품의약품안전처가조기또는미리위기대응을할수있는시스템이필요하며, 식의약품의인터넷상거래증가, 인터넷을통한불법, 불량식의약품의거래증가로인해정보통신을활용한위해대응체계가필요하다. 또한내부및외부정보를활용한예측모델을기반으로안전관리정책지원을위해지도및위해경보, 집중관리대상선정시스템화가필요하고, 빅데이터를활용한사고 위해분석및예측자료로대국민식의약품등사고 위해예측서비스방법의구체화및서비스확대가필요하다. 이러한시스템의구축을위해서는데이터의수집기반구축, 빅데이터플랫폼구축, 빅데이터분석플랫폼구축, 예측, 분석정보제공포탈의구축이라는기반과제를실현하여야만가능하며, 수반되는요소로빅데이터의조직및운영관리체계의수립이필요하다. 이를정보화요구사항으로도출하였다. - 121 -
제 3 장빅데이터기반구축업무설계 1. 주제별클러스터분류방안수립및후보군도출 1.1 사고 위해예측을위한주제별클러스터분류방안주제별클러스터는식품의약품안전처및유관기관과민간데이터를대상으로업무주제와관계성있는데이터를연계 수집한데이터의논리적집합체를의미한다. 클러스터를기반으로데이터를연계, 통합및추출을통해효율적인데이터의군집화를이루어낼수있고단독정보로는얻을수없었던융합된정보가치를신규가치로창출하고, 이를통해서비스업무를효율적으로지원할수있다. 클러스터에서는하나의데이터개체가활용되는주제에따라복수개의클러스터에포함될수있기때문에 BRM 분류체계와는주요한차이점을보인다. 사고 위해예측을위해서는사고 위해의정보를분류하고이분류된정보들중에서사고 위해와관련있는예측정보를추출하는것이필요하다. 미래에발생할수있는사고 위해를예측하기위해서는사고 위해의용어를먼저정의하고, 사고 위해정보를분류및표준화하여이를관리할수있도록코드화하는것이관건이된다. 사고 위해의패턴이나프로세스를파악하기위해서는사고 위해의정보를분석에활용할수있도록코드화하는것이필요하다. 예를들면, 우편번호의코드를보면다섯자리로첫두자리는시, 도를표시하고, 세번째자리는자치구, 네번째와다섯번째는자치구에서해당지역을분류한번호로정의한것처럼사고 위해의정보를코드화하면어떤위해가어떤식으로발현되었는지를한눈에알수있고, 이를통해사고 위해의정보를체계적으로분석할수있다. 위해, 사고, 식품안전등에대한용어정의 ( 위해평가지침서 (2011) 식품의약품안전처 ) 위해 / 위해성 (Risk) : 특정집단이일정기간동안유해물질에노출되어건강에유해영향이나타날가능성과그정도를말한다. 유해성 / 위해요소 (Hazard) : 인체건강에잠재적인유해영향을일으킬수있는식품등에잔류하는화학적, 미생물학적, 물리적요소및상태를말한다. 식품안전이란 Zero Risk 라고표하며, 식품의위해요소 (Hazard) 나위해성 (Risk) 이없는상태를의미, 즉화학오염뿐만아니라병원성미생물및미생물독소등에의한위험이없는상태이다. 식품의안전성을제고하여소비자의건강을보호하기위해, 국제적으로통용되는정책이위해관리 (Risk Management) 로서 인간의건강과환경에미치는위해를감소시킬대책을정의하고평가하고선택하여실제수행하는일련의정책과정 을위해관리라고정의한다. 안전 이라는용어는통상광의와협의의의미로혼용되어사용되는데, 협의의의미로는부작용이없음을의미하는반면, 광의로사용될때에는품질과유효성및협의의안전성개념을모두포괄하는의미로사용한다. 10) 식품의약품안전처의 사고란식품 의약품등에의해인체나동물등에유해영향을일으키는사고를말한다. 로정의하며사건은위해요소가검출되어사회 정치적문제가되거나검출된위해요소로인해사고가발생한것으로정의한다. 10) 식품의약품안전관리기반구축을한통계지표개발분석연구, 식품의약품안전처 (2009) - 122 -
사고 위해예측을위한정보를분류하기위해서먼저, 식품의약품안전처에서제시하는 식품사고위기대응매뉴얼 의위기형태에따른위기유형과위기경보단계, 위기형태별로발생될수있는세부분야및관련된위기상황의내용을살펴보았다. 식품의경우 식품사고위기대응매뉴얼 에서 6개의위기형태를정의하고위기형태별로발생할수있는세부분야를적용한 26개의위기상황으로구분하여관리하고있다. [ 표 3-1] 식품분야의위기형태 / 유형 구분위기형태1 위기형태2 위기형태3 위기형태4 위기형태5 위기형태6 데이터유형수입전단계에서유해물질에의한식품안전사고가발생한경우수입, 통관단계에서유해물질이검출된경우생산단계에서유해물질이검출된경우제조, 가공, 유통단계에서유해물질이검출된경우식중독이다수발생하거나식중독확산우려가있는경우언론, 소비자단체, 수사기관등에서식품안전관련이슈를제기한경우 < 출처 : 식품사고위기대응매뉴얼 ( 식품의약품안전처, 2015.6)> 6가지의위기형태를분석해보면유해물질, 식중독, 이슈라는위기요인에관련한부분과수입전 / 후, 생산, 제조, 가공, 유통으로보이는식품의생산및소비흐름부분으로구분될수있으며, 데이터클러스터주제로보여질수있다. 또한 6개의위기형태를세부분야로구분하여 26개의위기상황으로구분하였는데그내용은아래와같다. [ 표 3-2] 26개의위기상황 위기형태 수입전단계 위기형태 1 위기상황 1. 수입전단계의농산물에서유해물질이검출된경우 2. 수입전단계의수산물에서유해물질이검출된경우 3. 수입전단계의축산물에서유해물질이검출된경우 4. 수입전단계의가공식품에서유해물질이검출된경우 5. 수입전단계의식품첨가물에서유해물질이검출된경우 6. 수입전단계의기구 용기 포장에서유해물질이검출된경우 7. 수입전단계에서미승인 GM 검출된경우 8. 수입 통관 유통단계의농산물에서유해물질이검출된경우 9. 수입 통관 유통단계의수산물에서유해물질이검출된경우 수입 통관 유통 단계 위기형태 2 10. 수입 통관 유통단계의축산물에서유해물질이검출된경우 11. 수입 통관 유통단계의가공식품에서유해물질이검출된경우 12. 수입 통관 유통단계의식품첨가물에서유해물질이검출된경우 13. 수입 통관 유통단계의기구 용기 포장에서유해물질이검출된경우 14. 수입 통관 유통단계에서미승인 GM 검출된경우 15. 수입 통관 유통단계에서이물이검출된경우 - 123 -
위기형태 생산단계 위기형태 3 위기상황 16. 생산단계의농산물또는수산물에서유해물질이검출된경우 17. 생산단계의축산물에서유해물질이검출된경우 18. 화학유해물질누출, 대규모환경오염 ( 해양, 수질 ) 으로식품에유해물질이검출된경우 19. 제조 가공 유통단계의축산물에서유해물질이검출된경우 제조 가공 유통 단계 위기형태 4 20. 제조 가공 유통단계의가공식품에서유해물질이검출된경우 21. 제조 가공 유통단계의식품첨가물에서유해물질이검출된경우 22. 제조 가공 유통단계의기구 용기 포장에서유해물질이검출된경우 23. 제조 가공 유통단계에서미승인 GM 검출된경우 24. 제조 가공 유통단계에서이물이검출된경우 식중독위기형태 5 언론, 소비자단체등이슈제기위기형태 6 25. 대규모식중독환자발생한경우 ( 풍수해등자연재해에의한식중독환자발생포함 ) 26. 언론, 소비자단체, 수사기관등에서식품안전관련이슈를제기한경우 < 출처 : 식품사고위기대응매뉴얼 ( 식품의약품안전처, 2015.6)> 위내용에서구분이가능한세부분야 ( 농산물, 수산물, 축산물, 가공식품, 식품첨가물, 기구 / 용기 / 포장 ) 과미승인 GM, 화학유해물질누출, 대규모환경오염과같은위해요인도데이터클 러스터의주제로정의될수있다. 본내용에서도출될수있는사고 위해예측을위한주제별클러스터의분류를정리해보면 분야, 대상범위, 위기형태, 세부분야, 위기상황 으로구분되며다음과같이정의해 볼수있다. [ 표 3-3] 위기상황에따른주제별클러스터분류예시 클러스터 내용 하위분류예시 분야 분석데이터의업무분야 식품, 의약품, 의료기기등 대상범위 사고 위해분석대상범위 미수입식품, 수입식품, 국내생산식품등 위기형태 위기에해당하는형태 수입전단계에서유해물질에의한식품안전사고등 세부분야 위기형태를구분하는세부분야 농산물, 수산물, 축산물등 위기상황 세부분야에따른위기상황 농산물유해물질검출등 또한사고 위해전조예측및분석을위한업무프로세스에따르면 전조포착 / 위기정보수집, 전조예측분석, 위기정보분석 / 위기수준판별, 위해도판별, 위기대응, 후속조치 의업무 흐름을정의할수있는데, 이중에서도데이터의매핑이가능한영역을구분하면 전조예측, 위기수준판별, 위해도판별 정도이다. 이를기반으로분류를정의하면 분야, 기반정보, 전조예측, 위기수준판별, 위해도판별 의주제로클러스터를분류가능하다. - 124 -
[ 표 3-4] 업무프로세스에따른주제별클러스터분류예시 클러스터 내용 하위분류예시 분야 분석데이터의업무분야 식품, 의약품, 의료기기등 기반정보 전조예측및위기수준판별을위한기반정보 유형정보, 국가정보, 업체정보, 원인요소정보, 기준정보등 전조예측 전조포착을위한모니터링및위기정보수집을방송정보, 국내인터넷정보, 해통한전조예측관련데이터외인터넷정보등 행정처분정보, 회수 / 판매중지정 위기수준판별 위기정보수집에따른위기수준판별데이터 보, 해외직구 / 직배송, 부적합 정보등 위해도판별 위해도판별알고리즘에따른위해도판별기준데이터 위해도판별알고리즘에따른정보 사고 위해정보의구성요소를바탕으로분류하는방안으로현재식품의약품안전처위해정 보과에서처리하고있는식품안전정보 DB의구성요소를보면식품유형 ( 품목 ), 원인요소 ( 위해 요소 ), 사고내용 ( 위해발생단계, 위해영향대상 ), 기타 ( 정보원, 발생지역, 발생일자등 ) 으로구 성되어있다. 또한선진사례 ( 미국 PREDICT, irisk) 벤치마킹과식품의약품안전처위기대응 매뉴얼의위해요인분류를참조하여, 식품의약품안전처가수집한수천건의사건 사고기사 정보를토대로사고 위해정보의요소를파악하였다. [ 그림3-1] 사고 위해정보의구성도또한미국 FDA의수입검사시스템 (PREDICT) 의 Risk Types 분류는고유건강위험 (inherent health risk), 상품을다루는자에따르는위험 (incremental health risk), 경제적위 변조에따른상품위험으로구분하고있어, 본연구용역에서는이중에서경제적위 변조의의도성 vs 비의도성부분을참조하여, 위해동기변수를파생변수로도출하였다. 이는향후제시하게될사고 위해예측분석 ( 조기포착 ) 을위한변수로서인위적인동기에의하여발생한사건인지아닌지를구분하면사고를예측을하는데유효한변수가될것으로판단된다. 미국 FDA 수입검사시스템 (PREDICT) 위해유형분류방법고유건강위험 (inherent health risk), 상품을다루는자에따르는위험 (incremental health risk), 경제적위 변조에따른상품위험으로구분하며, 본연구용역에서는이중에서상품고유의위해특성 ( 요소 ) 과경제적위변조의의도성 vs 비의도성부분을참조하였다. - 125 -
FDA irisk 의식품유래위해시나리오를 7 가지요소로분류함 품목 식품 irisk 시스템에서는 Food, Contaminant, Population, Food production/processing model, Consumption patterns, Dose-response model, Health effects 로구분한다. 본연구용역은이사례 7 가지요소중에서위해발생단계 ( 가치사슬, production/ processing model), 위해대상 (health effects) 부분을참조하였다. 위해구성요소 ( 안 ) 사건 사고사례위해요소위해발생 ( 세부 ) 단계 위해동기 위해대상 위기단계 보존료사용기준위반과자제조 보존료 제조 의도적 신체적 주의 노로바이러스오염김치 노로바이러스 제조 비의도적 신체적 평소 유통도시락식중독균검출 식중독균 유통 비의도적 신체적 경계 생동성시험자료조작자료조작제품개발의도적사회정치경계 의약품 석면함유탤크사용 석면 제조 의도적 신체적 관심 중국산저질헤파린저질사망사건헤파린 소비 의도적 신체적 심각 인공심박기소프트웨어소프트의료기버그웨어버그 유통 비의도적 신체적 평소 기 제세동기사용환자사망 제세동기 소비 비의도적 신체적 경계 유해성분의인공유방 이물질 제품개발 의도적 신체적 경계 석면함유화장품 석면 제조 비의도적 신체적 주의 파라벤등보존제안전성화장품문제 파라벤 제조 의도적 신체적 관심 수은기준치초과화장품유통 수은 유통 의도적 신체적 경계 마지막으로안전문제와관련유형으로정리할필요가있다. 이미 식품의약품안전관리기반 식품의약품분야 식품군 의약품군 의료기기군 [ 표 3-5] 사고 위해사례와위해구성요소 구축을위한통계지표개발및분석연구 11) 에서는통계지표개발을위해안전문제관련 유형을다음과같이정의하였다. 안전문제 유형수 16 개 14 개 9 개 [ 표 3-6] 식품의약품군안전문제관련유형 안전문제관련유형 업소현황, 생산현황, 검사 감시, 수출입, HACCP, 소비현황, 단체급식, 영양, 건강기능식품, 식중독, 유전자재조합, 식품첨가물, 잔류농약, 유해물질, 행정 / 정책, 식품표시업소현황, 품목허가, 검정 감시, 생산현황, 소비현황, 수출입, 마약, 시판후안전관리, GMP, DMF, 임상시험, 생동성, 한약, 행정 / 정책업소현황, 허가, 검사 감시, 생산현황, 수출입, 행정 / 정책, 임상시험, GMP, 부작용 화장품군 4 개생산현황, 행정 / 정책, 검사 감시, 수출입 < 출처 : 식품의약품안전관리기반구축을한통계지표개발분석연구 ( 식품의약품안전처, 2009)> 11) 식품의약품안전관리기반구축을한통계지표개발분석연구 ( 식품의약품안전처, 2009) - 126 -
위의안전문제관련유형은식품의약품안전문제에관련하여안전문제를발생시키거나안전문제를해결관리하는분류유형임. 본연구에서는안전문제관련유형군별수집지표의 P-S-R 모형화를통해서안전문제관련유형을통합적으로정의하였다. 여기서 P-S-R모형 (OECD, 1998) 은분류된안전문제관련유형및산업가치사슬관점에따라유형화한지표 (Pressure P) 를상태 (State), 대응 (Response) 에따라분류함. 압력지표 (Pressure P) 는위해요인및문제점을해결하기위해유형화된지표이며 S(State S) 는현재상태지표이며, R(Response) 은대처및반응 ( 대응 ) 지표를말한다. 안전문제관련유형은사고 위해관련주제별데이터를클러스터하기위한최적의방향성을제시하여이를기반으로현재식품의약품군의추가적인주제를포함하여클러스터를구성할수있다. 주제별클러스터의분류방안에대해서우선네가지정도로구분하여제시하였으나데이터의클러스터를만드는것은명확하고명쾌하게정의하기어렵다. 실제분석단계에서도데이터마트를구성하고다양한분석방법을적용하여변수 (variables) 들을만들어적용하기때문에분석정의에따른다각도의분류방법을고민하고설계할필요가있다. 위에서언급한영역을필요에따라조합하여복합적으로클러스터를분류하는방향을고려할필요가있다. 1.2 사고 위해예측을위한주제별클러스터후보군도출 1) 사고 위해정보의후보군도출을위한구성요소파악사고 위해정보는분야, 안전문제, 위해요소, 위해발생단계, 위해영향대상, 기타와위해동기, 위기단계등으로구성이된다. 먼저분야는식품, 의약품, 의료기기, 화장품으로구성되며, 위해요소는크게생물학적위해, 화학적위해, 물리적위해, 표시광고 ( 위조등 ), 신규위해 ( 부작용등 ) 으로구분이되고각각의위해요소는세부적인하위라이브러리로구성되어있다. 안전문제는안전문제를발생시키거나, 해결을위한정보로구성되어있고, 위해요소는각분야별위해에해당되는요소의분류이다. 위해발생단계는위해가제품이나상품의가치사슬의어느단계에서나타나게되었는지를의미하며, 이는순서적으로개발, 생산 ( 농축수산물 ), 수입, 제조, 유통, 소비의순으로구분되며, 발생단계의뒤로갈수록위해의파급효과가더커지기때문에, 해당위해가어느단계에서주로발생하는지를파악한다면그이전단계에서예방할수있는방안이도출될수있다. 위해영향대상은위해가구체적으로어느대상에나타났느냐를의미하며, 그대상에따라신체적, 경제적, 사회 정치적위해로구분하고, 신체적위해는그위해요소가사람의신체에위해를가했을경우의위해로주로사망, 부상이나질환으로드러나게되며, 경제적위해는개인이나기업, 산업의금전적손실로나타나며, 사회 정치적위해는부정적언론보도나 SNS 등을통해국민의불안이나불신으로까지이어지는것을말한다. 위해동기는위해요소가발생하게된원인을파악하는데중요하며, 의도적요소와비의도적요소로구분된다. 사람의 의도개입여부 에따라예측할수있는데이터가상이하게달라 - 127 -
지며, 예를들어경제적의도성을가질때는주로금전적인데이터로표현되어, 상품의가격으로나타나게된다. 위기단계는위기대응매뉴얼에있는위기단계를말하며이는순서적으로평시, 관심, 주의, 경계, 심각단계로구성되어있으며, 각단계를판정하는기준이신체에미치는위해도와그파급효과에따라판단하게되어있다. 2) 주제별클러스터후보군도출가 ) 안전문제별클러스터후보군사고 위해예측을위한안전문제의유형을기반으로클러스터후보군을도출한다. 안전문제관련유형식품군 16개, 의약품군 14개, 의료기기군 9개, 화장품군의 4개를도출하고이를적용한 P-S-R 모형의안전문제유형을참조하였다. [ 표 3-7] 안전문제유형별데이터후보군 안전문제행정 / 정책업소현황생산현황검사 / 감시 HACCP 소비현황단체급식영양건강기능식품 (GMP포함) 식중독유전자재조합 (GMO포함) 식품첨가물잔류농약유해물질수출입임상시험품목허가마약한약부작용 관련데이터식약청관련인력비율, 기술분야별, 기술수준, 기업체수, 연구원수, 과제현황등행정및정책에따른데이터식품위생관련업소, 제조, 가공업소, 즉석판매제조 / 가공업소, 판매업소등관련유형, 업종등의데이터생산실적, 생산액, 생산량, 출하액, 시장규모등생산관련데이터식품위생검사기관현황, 부적합정보, 부적합원인등검사와검사결과및감시관련데이터 HACCP 적용사업장현황 / 비율, HACCP 기준등 HACCP 관련데이터가구월지출등외식비지출, 어린이의소비현황등데이터단체급식현황, 관련업체, 식사제공건수, 위반업소수, 위반내용등데이터 1인 1일섭취실태, 나트륨섭취량, 비만유병률등영양관련데이터건강기능식품관련업소현황, 건강식품현황, 생산량, 매출량, 판매액등관련데이터식중독발생건수, 식중독발생비율, 노로바이러스발생추이, 원인균별건수, 환자수, 지역소재업소당식중독발생건수등식중독발생데이터유전자재조합표시대상식품수입현황, 승인 GMO 등관련데이터식품첨가물관련데이터잔류농약허용기준치등관련데이터유해물질관련데이터수출입현황, 품목, 중국산수입현황등수출입관련데이터임상시험시장현황, 시설현황및관련데이터시판허가제품, 의약품관련데이터마약류사범현황, 마약류합병증세현황, 마약류관련데이터불법한약재유통현황등한약관련데이터부작용관련발생현황등관련데이터 나 ) 서비스별클러스터후보군사고 위해예측을위한서비스를기반으로하여전조예측, 조기포착, 재발방지를중심으로한주제별클러스터후보군을도출한다. 전조예측을위한클러스터는국내외위해정보, 위해요인, 수입내역, 날씨정보, 광고, 가격등 - 128 -
이고, 조기포착클러스터는경제적의도데이터, 변질조건데이터등이다. 조기포착을위한요인변수는국내외위해정보, 부적합내역등검사정보, 소비자불만신고및 SNS 데이터, 수입량및제조량데이터, 언론사보도, SNS, 재난정보, 식중독보고자료등이다. 재발방지를위한요인변수는상기의전조예측및조기포착데이터를비롯한국내외위해정보, 사고데이터, 소비자불만신고및 SNS데이터, 수입량및제조량데이터, 법률및지침, 보도자료등이고, 파생변수는위해도평가데이터및산업파급데이터등이될수있다. [ 표 3-8] 사고 위해예측을위한서비스별데이터후보군 서비스공통전조예측 데이터명위해정보수입날씨 보유기관명시스템명정보 식약처 식약처 식약처 기상청 위해정보관리 시스템수입식품정보 사이트위해정보관리 시스템 농업주산지기상정보 산업기상지수조회 보건기상지수 해외정보, 위해요소, 위해요인, 품목 수집 절차 EAI 주기 10 분 수입내역 EAI 10 분 의약품, 의료기기, 화장품수입량, 생산량농작물 (36종) 주산지의날씨 산업기상지수 ( 농업시설지수, 농약살포지수등 ), 특정위치 보건기상지수 ( 뇌졸중가능지수, 피부질환가능지수, 감기가능지수, 꽃가루농도위험지수등 5 종 ), 지역별 EAI Open API Open API Open API 10 분 1 일 수시 수시 생활기상지수조회 생활기상지수 ( 부패지수, 체감온도등 ), 특정위치 Open API 수시 중기예보정보조회서비스 기상전망, 육상예보, 기온, 해상예보정보 Open API 수시 광고및 가격 민간기관 G 마켓, 11 번가, 전문쇼핑몰등 국내외관련쇼핑몰브랜드, 가격, 중량, 판매량, 회사, 지역, 광고내용등 수집기 수시 SNS SNS 트위터, 페이스북등 SNS 의식의약품등의관련정보 수집기 10 분 식약처수입식품정보사이트부적합내역, 수입내역 EAI 10 분 조기 포착 부적합내역등검사정보 식약처안행부농림축산검역본부 부적합식품긴급통보협업시스템통합식품안전정보망, 새올행정시스템통합식품안전정보망, 검역검사정보시스템 부적합내역 EAI 10분 식품수거검사내역 EAI 10분 수입동축산물검역검사정보 ESB 10분 국립수산물품질관리원 수산물검사정보응용시스템 수입소금품질검사 ESB 60 분 - 129 -
서비스 데이터명소비자신고사고정보 보유기관명 시스템명 정보 수집절차 주기 식약처 수입공중위생용품검사시스템 검사결과 EAI 10분 식약처 통합식품안전정보망 소비자불만신고 EAI 10분 식약처 위해정보관리소비자불만, 부작용시스템신고자료 EAI 10분 소비자원 소비자위해감시소비자불만, 병원, 시스템소방서등의응급자료 협의 수시 언론사 보도 기능식품신 문등 120 개 언론사 홈페이지식의약품등관련정보수집기 10 분 재발 방지 SNS의식의약품등의 SNS SNS 트위터, 페이스북등수집기 10분관련정보기상상황, 국민안전처재난주요재난관리상황, Open 국민안전처홈페이지 10분정보기관별 API 재난종합상황예방활동관리사항통합식품안전정보망, 질병관리본대량환자발생관리환자수, 지역, 원인균 ESB 10분식중독부시스템보고식중독예방관리식약처발생현황 EAI 10분시스템법률 Open 법무부국가법령정보법규, 지침 10분자료 API 보도위해정보관리식약처보도자료 EAI 10분자료시스템 - 130 -
2. 데이터연계 분석등빅데이터기반구축을위한업무설계 1) 빅데이터기반구축을위한업무절차데이터연계 분석등빅데이터기반구축을위한업무는빅데이터구축을위한사전작업, 빅데이터기반설계, 빅데이터기반구축, 빅데이터기반시험그리고연계및활용으로구분될수있다. [ 그림 3-2] 빅데이터기반구축업무절차 추진목표에따른구축업무를정의하고이에따른세부적인계획을수립하여진행한다. 빅데이터플랫폼을구축하기위해서는현업부서와빅데이터부서에서활용하고자하는과제를발굴하고, 빅데이터실행부서에서이를취합하여과제들을선별한다음빅데이터활용안을자문등을통해도출하고이를사업계획으로수립한다. 현업부서, 외부기관과데이터를공유및취합하고, 이를분석하도록한다. 추진목표에따른구축업무를정의하고이에따른세부적인계획을수립하여진행한다. [ 그림 3-3] 구축업무프로세스 2) 빅데이터기반구축을위한업무가 ) 빅데이터구축사전작업빅데이터구축의사전작업은사업의이해, 환경분석, 추진계획수립으로볼수있다. 조직은빅데이터사업의대한이해를위해서수요분석및문제정의, 분석시나리오작성, 대안분석등의업무를수행한다. - 131 -
수요분석과문제정의는빅데이터도입의필요성과배경을설명한다. 조직은내외부문제와요구사항을수집하여구축하려는서비스내용과범위를정한다. 이단계에서는서비스구축의필요성과문제식별이있어야하며, 식별된문제를구체적으로정의한다. 분석시나리오작성은조직과사용자모두가만족하는문제해결방안을도출하는것으로수요분석이문제의식별과정의라면, 시나리오는문제를해결하는방안을제시하는것이다. 기술적관점보다는최종사용자와결정자로서서술한다는것이중요하다. 대안분석은시나리오추진을위한실제사업선정이다. 수행유형은분석환경구축형과분석서비스연계형으로구분될수있다. 사업추진환경분석을위해서는데이터접근및확보, 분석인프라환경, 예산확보와투자환경, 활용및운영환경으로구분된다. 데이터접근과확보는목표대상데이터를계속수집하고저장가능한지점검한다. 조직은수집되는데이터유형과경로를알고있어야하면개인정보에문제가없는지점검한다. 또한수집비용을고려해야하며, 분석방법에대해서도결정하여야한다. 인프라측면에서내부구축으로모든인프라자원을쓸지외부서비스를이용할지결정한다. 확장성과지속적유지관리비용을고려하여선택한다. 보안, 실시간분석, 인원역량등모든변수를분석하여결정한다. 사업정의및환경분석이끝나면조직은해당프로젝트진행계획을수립한다. 사업의목표정의, 기본요구사항도출, 사업비산정, 사업관리계획수립, 사업계획서검토, 제안요청및사업자선정의절차로계획을수립한다. 사업의목표를정할때조직은해당사업의성공요인과성과지표를개발하여객관적으로측정하고이후요구사항도출과사업비를선정하여일정, 범위, 비용, 품질, 위험등관리계획을수립한다. 사업계획서는해당사업의목표와배경이명확해야하며, 문제점과해결방안을제시해야한다. 특히, 개인정보와보안요구사항은시스템과밀접한중요요소인만큼보안정책과법률에의거하여제시해야한다. 승인된사업계획서는 RFP를통해입찰대상자에게발주기관의요구사항을알리고, 제안평가와협상으로사업자를선정한다. 나 ) 빅데이터기반설계빅데이터기반구축설계는요구사항을분석하여전체시스템의개념부터상세설계까지밑그림을그리는작업으로불충분한설계는미흡한시스템을만든다. 이러한이유로초기설계는검증을거처구축시수정과재작업을최소화하여야한다. 설계단계의상세진행절차와수행내용은다음과같다. - 132 -
[ 표 3-9] 설계단계진행및수행내용 구분요구사항분석참조데이터확보공유보안체계시스템개념설계시스템상세설계시험시스템구현타당성검증보완 내용사업계획에대한이해와예산결과시나리오제시및기대효과데이터종류, 양, 수집주기, 분석주기등의요구분석분석과활용을위한시스템기능과성능요구사항도출및분석기존시스템연동을위한데이터상호운용성요구사항사용자인터페이스, 보안및운영관리요구사항시각화유형및도구선정참조데이터를통해향후구축될시스템을위한샘플데이터로활용참조데이터로요구사항달성여부및변경가능성검토시스템접근권한및외부보안위협에대한체계구현개인정보보호정책의반영여부플랫폼아키텍처의구성과전문가검증주요적용기술및솔루션과알고리즘선정데이터수집, 저장, 분석시각화등의상세요구사항도출및분석각단위시스템에대한전문가검토기술타당성검증을위한시험시스템구현향후시스템의데이터품질및성능예측시험시스템으로분석및활용목표와일치여부검증미진할경우추가개선을통해보완 다 ) 빅데이터기반구축빅데이터기반구축은실제데이터의수집과통합및분석을통해결과를배포하는과정이다. 이는데이터획득과통합, 데이터관리와조직화, 분석모델링 / 수행, 결과배포 / 관리시스템으로구분된다. 데이터획득과통합은어떤데이터를수집할지에대한데이터식별, 식별된데이터의수집시스템구축, 데이터의생성과폐기에이르는생애주기관리이다. 데이터관리와조직화는데이터품질의확보 ( 필터링, 삭제, 수정등의데이터품질향상 ), 데이터저장및관리, 색인및메타데이터관리와질의시스템구현이다. 분석모델링 / 수행은다양한분석모델선정과적용여부, 분석알고리즘의설계와구현, 분산환경에서의구현과시각화지원등이다. 결과배포 / 관리시스템은분석결과의검증을위한역추적기능구현, 결과에대한리포팅과배포기능, 피드백을통한데이터품질향상, 분석이력과로그저장관리및모니터링등이다. 라 ) 빅데이터기반시험분석서비스연계형으로외부전문기관의데이터와분석리소스를활용하거나, 내부데이터를외부분석시스템과연계활용하는방식으로클라우드서비스를이용하여저장과분석을수행하는것이다. 외부서비스이용은업체의선정과서비스연계부문으로나누어수행한다. 업체선정은내부평가항목과점검리스트등을통해가장잘맞는업체를선정한다. - 133 -
마 ) 빅데이터기반연계목표와맞는외부서비스업체를선정하였다면서비스를설계하고구현한다. 필요하다면내부시스템과의연계도고려해야하며, 데이터연계의문제를미리검토하여야한다. 연계에대한설계및구현, 시험을통해서연계데이터의지속적인관리에이상이없도록해야한다. 연계에대한프로세스는다음과같다. [ 표 3-10] 연계프로세스 구분설계구현시험 내용연계데이터간의연계필요성과방안설계데이터연계기술및상세방안에대한설계외부클라우드서비스사용시서비스이용및방안설계연계시업무절차의변경및사용자인터페이스의변경최적의기술을활용하여연계구현접근권한관리기능정상적작동여부확인분석에대한처리검증및결과확인 3) 빅데이터기반구축을위한빅데이터활용방향빅데이터기반구축을위한업무는구축사전단계의활동부터구축단계및활용단계까지다양한활동과업무가필요하며이에따라체계적으로단계활동을수행하여야한다. 식품의약품안전처의경우도내부적으로구축사전단계의활동하나하나를업무로정의하고이를준비하여빅데이터기반을구축할필요성이있다. 본사업으로도출된결과물을바탕으로다시한번내부적으로사업의이해, 기술및인력적인현안, 사업의선정, 사업의목표, 요구사항등의정의될필요가있으며, 상세화할필요가있다. - 134 -
3. 빅데이터활용과제에대한프로세스설계사고 위해예측을위해어떤업무를수행할것인가를도출하기위해서는사고 위해를유형화하고이를바탕으로대응활동을구분한다음어떤데이터가필요할지를도출하여예측모델을만드는과정이필요하다. 1) 위해사고유형별대응활동및빅데이터활용빅데이터의과제선정및방향성선정을위한현안은위해사고에대한업무활동을파악하는데중점을둘필요가있다. 위해사고유형별대응활동의정도를파악하면아래와같다. 식품의약처업무현황의경우위해사고를예측하는것과함께발생한사고를조기포착및사고를최소화시키는것도빅데이터의중요한역할이다. 또한빅데이터를통해위해사고가발생한것을조기포착하고대응할수있는기반마련이필요하다. [ 그림 3-4] 빅데이터활용과제프로세스설계 - 135 -
[ 그림 3-5] 위해사고유형별대응활동정도 ( 많음, 보통 ) 위해사고유형에대한대응활동은예방활동, 최소화활동, 재발방지활동이있다. 이러한활동을기반으로빅데이터를통한활용과제를도출할수있으며, 선진사례를통한빅데이터활용방향성을정의할수있다. 국내외선진사례를통한활용방향성을 4가지로정리하면오픈데이터서비스, 분석결과를정책결정에활용, 전문가집단에빅데이터활용지원, 대국민서비스활용으로정리된다. [ 그림 3-6] 선진사례대비빅데이터활용방향 - 136 -
2) 빅데이터활용과제선정및프로세스설계 사고 위해예측을위한빅데이터활용과제를도출하면다음과같다. [ 표 3-11] 빅데이터활용과제도출 빅데이터활용과제사고 위해예측분석을활용한사전예측사고 위해상황인지를통한조기포착 개요사고 위해를예측할수있는분석서비스상황인지및예측분석서비스사고 위해정보를실시간으로파악하여현재의위해정보를인지 ( 실시간모니터링및분석 ) 사고 위해평가를통한위해도심각도와노출도를분석하여위해영향을평가하는서비스분석식품의약품등안전관련식품의약품등안전관련데이터를제공하는대국민서비스데이터제공위와같은빅데이터활용과제를처리하기위한서비스모델의프로세스를정의하면사고 위해예측상황인지및분석프로세스, 위해도분석및평가프로세스그리고수집된데이터를활용하기위한데이터검색및연계 / 수집요청프로세스로구분된다. 가 ) 사고 위해예측상황인지및분석프로세스사고 위해예측상황인지및분석프로세스는전조예측을위한데이터의수집을통해위해시그널을구분하고위해시그널의정제와기준정보및관련정보를활용하여예측분석을수행하는프로세스이다. 인터넷뉴스, 소셜네트워크, 포탈, 소비자신고, 외국인터넷사이트와정보원들의활동에의해전조현상을파악하고이에따른시그널의분석대상여부를선정하여활동을전개한다. 예측대상범위선정및관련데이터선정, 예측분석모델의선정, 분석수행등에활동을진행하고이에따른위해여부, 위해예측에따라대응한다. [ 그림 3-7] 예측분석을활용한사전예측프로세스 - 137 -
나 ) 위해도분석및평가프로세스위해도분석대상을선정하여현재의위해단계와위해도를분석및평가하는프로세스로시나리오기반의위해도분석프로세스이다. 사회적이슈및현황에따른전조상황을감지하여분석대상을선정하고대상의적합성검토를수행한다. 분석대상시나리오를정의하여위해의정보, 분석대상의정보를정의하고기존시나리오혹은관련데이터를검색하여상세화한다. 위해도분석을위한범위및위해도판단을위한데이터셋 ( 클러스터 ) 을선택하여분석알고리즘을적용한다. 그결과로도출된위해단계및위해도평가결과를검토하여재분석여부를판단한다. 분석결과가만족스럽지못한경우지속적으로분석을재실행하여결과를도출한다. [ 그림 3-8] 위해도분석및평가프로세스다 ) 데이터검색및연계 / 수집요청프로세스수집되고있는클러스터혹은데이터셋의검색을통한결과를제공받거나추가적으로연계수집을요청하는프로세스이다. [ 그림 3-9] 데이터검색및연계 / 수집프로세스 - 138 -
제 4 장식의약품등사고 위해예측을위한 최적화된데이터기반구축 1. 사고 위해전조포착및관련정보서비스구성요소도출 1.1 사고 위해예측을위한전조포착지표의설정 1) 전조포착데이터의추출기존사고 위해기사정보등을정보의구성요소별로입력, 데이터를축적하고, 데이터를활용하여사고 위해구성요소간또는사고 위해시나리오및각구성요소간상관관계를분석하여전조예측및포착데이터를추출한다. 해당데이터는귀납적분석이나연역적분석을통해도출될수있으며, 각위기단계의앞단계또는위해발생단계의전단계에있는데이터를발굴하는것이필요하다. 따라서위해발생의원인을파악하고그원인이전단계에서어떤형태로나타날수있는지분석하여확인하는과정이필요하다. 이때주로사용하는데이터마이닝기법으로는클러스터링 (Clustering) 기법과사례기반추론기법을들수있다. 클러스터링기법은속성이비슷한사건과전조사항들을묶어서몇개의의미있는군집으로나누는것으로대용량의데이터가너무복잡할때는이를구성하고있는몇개의군집으로나누어살펴봄으로써전체에대한윤곽을잡을수있다. 또한사례기반추론기법은주어진새로운사고 위해를과거의유사한사례를바탕으로주어진문제의상황에맞게응용하여해결해가는기법이다. 2) 사고 위해에대한대응활동별데이터분류사고 위해에대한대응활동은소비시점, 사고이전, 사고이후로구분되고, 이는식품의약품안전처안전관리의사결정을위한주요이정표가된다. 대응활동은현재의위해단계가다음단계로높아지지않게하는활동으로구성되어있으며, 소비이전에는전조예측을통한예방활동, 소비이후에는소비자반응의조기포착, 사건 사고이후에는사고원인의정확한파악과신속한대응을통한사고확산방지및재발방지가주요대응활동이다. [ 그림 4-1] 사고 위해대응활동 - 139 -
전조예측은사고가일어나기전에사고 위해를미연에방지하는활동으로현재의평소, 관심단계에서다음단계인주의단계로위기단계가높아지지않게하는활동으로예를들면곰팡이독소발견된미국산땅콩에대한수입금지시키는것이다. 조기포착은소비가일어난이후에해당사고 위해를조기포착하여, 현재의주의단계가다음단계인경계, 심각단계로높아지지않게하는활동으로, 예를들면해당지역급식소에서식중독환자발생이후에신속한조사및조치로추가적인식중독사고를방지하는것이다. 재발방지는사고가일어난후경계의단계가심각단계로높아지지않게하거나, 심각단계의사고가다시발생하지않도록제도개정, 시스템보완, 홍보등의대응활동을하는것으로예를들면건강기능식품에관한법률개정안등을발의하는것이다. 전조예측은평소, 관심단계에조기포착은주의단계에재발방지는경계, 심각단계에각각대응되며, 각단계별활동의데이터분류는위기단계별데이터분류기준에준하여분류하도록한다. 3) 사고 위해예측을위한전조포착활동예시아래 [ 그림4-2] 의도표는전조포착활동에대한예시로서사고 위해정보의구성요소 ( 위해요소, 위해발생단계, 위해동기, 위해대상, 위기단계 ) 가포함된일종의사고 위해분석시나리오모델이다. [ 그림 4-2] 빅데이터활용서비스모델구성도 사고 위해의위해요소가의도적인경우와비의도적인경우로나눠볼때도출되는전조현상과그에따른전조데이터가있고, 이데이터를통해예측분석이이루어져전조예측을할수있고, 소비단계에서는소비자의반응을모니터링하여조기포착을할수있으며, 사고이후에는재발방지활동을수행한다. - 140 -
1.2 사고 위해예측을위한서비스구성요소도출서비스구성요소는어떤서비스를할것인가를말하는것으로, 식품의약품안전처의예측기반안전관리목표 ( 전조예측, 조기포착, 재발방지 ) 를달성하기위해서는안전관리업무기능들 ( 위해평가, 위해관리, 위해소통 ) 이조화롭게융합하여야하고, 이를지원하는사고 위해예측시스템이필요하다. 이때안전관리목표를달성하기위한시스템적안전관리업무를서비스과제라하고아래와같이서비스과제를도출했다. [ 그림 4-3] 사고 위해예측기반서비스과제도출구조도식품의약품안전처의빅데이터를활용한서비스과제는 [ 그림 4-3] 처럼크게보면 3 3의매트릭스조합이나, 위해분석업무 (Risk Analysis) 의목표, 세부업무, 사고 위해정보의구성요소, 품목의조합등을고려하면다양한방면에활용될수있다. 상황인지서비스모델은현재의사고 위해가어느정도인지를실시간으로파악하여대응하기위한것으로조기포착업무목표와관련있으며이를위해서현재의위해정도를파악 (Risk Assessment) 하고, 관련위해정보를적절히관리 (Risk Management) 하여, 국민이나내부관계자에게알리는일 (Risk Communication) 을수행하는것이다. 예측분석서비스모델은사고 위해를전조예측하기위해서현재의상황을파악하고앞으로발생할위해의정도 (Risk Assessment) 와파급도등을관리 (Risk Management) 하여국민이나내부관계자에게알리는일 (Risk Communication) 을수행하는것이다. - 141 -
[ 그림 4-4] 사고 위해조기포착모델 ( 상황인지 ) 위해도평가서비스모델은심각도 (risk) 와노출도 (exposure) 를바탕으로한위해도를측정하여어떤국민들에게어떤식의약품의섭취또는사용이위험한지를알려줄수있도록하는서비스모델이다. 이를위해서는국민들이얼마나위험한식의약품 ( 위해평가, risk) 을어느정도섭취또는사용하고있는지를파악하여 ( 노출평가, exposure) 미리사고 위해를예방하거나조기에대응할수있도록하는서비스모델이다. [ 그림 4-5] 사고 위해전조예측및재발방지모델 ( 예측분석 ) - 142 -
2. 주제별클러스터분류방안수립및후보군최적화 2.1 사고 위해예측을위한데이터클러스터의분류및후보군최적화 앞에서분류한사고 위해예측을위한데이터클러스터의분류를아래와같이정의한다. 1) 안전문제별분류상세화 [ 표 4-1] 안전문제유형별분류상세화 분야 안전문제 ( 클러스터유형 ) 관련데이터 행정 / 정책 행정처분현황회수폐기현황 업소현황 식품업소수현황, 품목유형, 업종 생산실적현황 생산현황 품목별생산능력, 생산량, 생산액 농산물및축산물현황 식품위생검사기관현황 검사 / 감시 부적합현황연도별검사종류별현황 품질관리현황 HACCP적용사업장현황 HACCP HACCP지정업소현황 HACCP기준 소비현황 가구월평균지출중외식비지출어린이외식비율 단체급식 학교급식현황학교급식위반업소, 사례 영양 섭취실태현황, 나트륨섭취량, 비만유병률 건강기능식품제조업소, 판매업소현황건강기능식품 (GMP포함) 식품건강기능식품수입현황 식중독발생현황 식중독균추적관리 식중독 노로바이러스관련현황 원인식품별식중독발생현황 원인균별건수, 환자수 유전자재조합표시대상식품수입현황 유전자재조합 (GMO포함) 국가별유전자재조합작물 승인 GMO, 미승인 GMO 위해현황 식품첨가물 식품첨가물적발업소, 부적합원인, 위반내용 잔류농약 잔류허용기준, 적합 / 부적합전수, 현황국가별잔류허용기준항목수 유해물질 위해정보제공현황패스트푸트, 트랜스지방등관련현황 국가별품목별수입현황 수입관련통계 수출입 부적합현황, 부적합판정된식품유형건수정밀검사관련부적합 수입식품신고건수 / 현황 수입국가별부적합내용 - 143 -
분야 안전문제 ( 클러스터유형 ) 관련데이터기준및규격위반내용 어린이기호식품 어린이기호식품관련현황 식품광고 표시광고점검결과허위광고 행정 / 정책 행정처분현황회수폐기현황 임상시험 임상시험현황, 시설현황임상시험승인현황실시기관지정현황임상기관및비임상기관지정현황임상시험결과 업소현황 의약품, 의약외품제조업소, 판매업소, 행정처분현황 생산현황 생산업체수, 생산, 수입실적, 업체현황국내신약현황, 제조업소현황제조판매 / 수입품목, 허가 / 신고품목현황 품목허가 희귀약품허가현황 GMP 심평원보험청구량이높은다소비성분 GMP 적격업소, 점검결과현황 의약품 시판후안전관리 의약품재평가건수및결과, 재심사결과재심사대상품목의허가의약품부작용보고현황감시현황 검정감시 보고원별유해사례보고건수현황비임상시험기관지정현황임상시험승인현황재심사대상의약품현황품질점검현황 마약및한약 허용마약목록현황불범한약재유통현황한약유통현황 DMF 원료의약품신고서접수처리현황 생동성 성분별생동성시험지침평가현황 수출입 수출입현황원산지별수입실적유전자재조합의약품현황 의약품광고 표시광고점검결과허위광고 행정 / 정책 행정처분현황, 회수폐기현황 임상시험 임상시험관련현황 업소현황 제조업소현황, 허가현황 생산현황 생산실적, 수리실적보고현황 허가 의료기기품목 GMP GMP 지정현황의료기기의료기기감시 / 위반행정처분현황검사 / 감시의료기기검사항목별부적합현황 부작용 국내부작용보고, 안전성정보보고현황 수출입 수입품목허가현황, 수리실적보고현황 광고 의료기기불법광고적발현황광고사전심의실적 - 144 -
분야 안전문제 ( 클러스터유형 ) 관련데이터 행정 / 정책 행정처분현황, 회수폐기현황 생산현황 생산실적현황 화장품 검사 / 감시화장품검정실적, 검사 / 위반현황수출입수출입현황 광고 표시광고점검결과허위광고 2) 위기상황별분류식품의약품안전처의 사고위기대응매뉴얼 을바탕으로한위기상활별분류를정의하여다음과같이제시한다. 분야를기준식품, 의약품, 의료기기, 화장품의세부분야, 대상범위, 위기형태, 위기상황의분류를가져갈수있다. 식품분야에대비하여다른영역의위기상황별분류가상세하지않은부분이있으므로컨설팅및구축설계시상세화방향을정의할수있다. [ 표 4-2] 위기상황별분류 분야세부분야대상범위위기형태위기상황 식품 농산물 미수입식품 수입전단계 농산물에서유해물질이검출된경우 식품 수산물 미수입식품 수입전단계 수산물에서유해물질이검출된경우 식품 축산물 미수입식품 수입전단계 축산물에서유해물질이검출된경우 식품 가공식품 미수입식품 수입전단계 가공식품에서유해물질이검출된경우 식품 식품첨가물 미수입식품 수입전단계 식품첨가물에서유해물질이검출된경우 식품 기구, 용기, 기구, 용기, 포장에서유해물질이검출된미수입식품수입전단계포장경우 식품 미승인GM 미수입식품 수입전단계 미승인 GM이검출된경우 식품농산물수입식품 식품수산물수입식품 식품축산물수입식품 식품가공식품수입식품 식품 식품 식품첨가 물기구, 용기, 포장 수입식품 수입식품 식품미승인 GM 수입식품 식품이물질수입식품 수입 / 통관 / 유통단계수입 / 통관 / 유통단계수입 / 통관 / 유통단계수입 / 통관 / 유통단계수입 / 통관 / 유통단계수입 / 통관 / 유통단계수입 / 통관 / 유통단계수입 / 통관 / 농산물에서유해물질이검출된경우 수산물에서유해물질이검출된경우 축산물에서유해물질이검출된경우 가공식품에서유해물질이검출된경우 식품첨가물에서유해물질이검출된경우 기구, 용기, 포장에서유해물질이검출된 경우 미승인 GM이검출된경우 이물질이검출된경우 유통단계 식품 농산물 국내생산식품 생산단계 농산물에서유해물질이검출된경우 식품 수산물 국내생산식품 생산단계 수산물에서유해물질이검출된경우 식품 축산물 국내생산식품 생산단계 축산물에서유해물질이검출된경우 - 145 -
분야세부분야대상범위위기형태위기상황 식품 화학유해 물질 국내생산식품 생산단계 식품환경오염국내생산식품생산단계 식품축산물국내생산식품 식품가공식품국내생산식품 식품 식품 식품첨가 물기구, 용기, 포장 국내생산식품 국내생산식품 식품미승인 GM 국내생산식품 제조 / 가공 / 유통단계제조 / 가공 / 유통단계제조 / 가공 / 유통단계제조 / 가공 / 유통단계제조 / 가공 / 유통단계 식품식중독전체식품식중독발생 식품사회이슈전체식품사회이슈발생 의약품 의약품의 분류 완제의약품 전체 의약품특정제품특정제품 의약품 의약품 의료 기기의료 기기의료 기기 화장품 의약품의 분류 의약품의 분류의료기기 분류의료기기 분류의료기기 분류화장품 분류 완제의약품 전체 완제의약품 전체 약품의원료 특정제품의 문제기존 사용원료 문제 부정의약품 화학유해물질에누출로식품에유해물질이 검출된경우환경오염으로식품에유해물질이검출된 경우 축산물에서유해물질이검출된경우 가공식품에서유해물질이검출된경우 식품첨가물에서유해물질이검출된경우 기구, 용기, 포장에서유해물질이검출된 경우 미승인 GM이검출된경우 원인불명대규모식중독환자, 2 개이상지역 에서동일원인으로 100 명이상집단식중독, 1개지역 50인이상, 50인미만언론, 소비자단체, 수사기관, SNS등에서이 슈제기제조시원료의유해물질, 유해한불순물이 정제되지않은저질원료의약품제조과정, 공정상의문제, 시설의문제로인 한완제품병원미생물오염 부작용이보고되어안전성문제가있는경우 와사회적문제제기가되는경우 부정의약품 ( 위조약 ) 유통으로인한심각한 부작용발생 전체의료기기미생물오염미생물오염의료기기로인한위기 전체의료기기재료안전성의료기기재료안전성으로인한위기 전체의료기기 무허가 의료기기 무허가의료기기로인한위기 전체화장품미생물오염미생물오염의료기기로인한위기 화장품 화장품 분류 전체화장품재료안전성화장품원료의안전성으로인한위기 화장품 화장품 분류 전체화장품 무허가 의료기기 미등록제조 / 판매웝자가제조및수입한화 장품으로인한위기 - 146 -
3) 업무프로세스별분류사고 위해예측을위한업무프로세스별분류의예시로전조예측, 위기수준판별, 위해도판별, 위기대응으로구분하였다. 기반정보의경우분석을위한기초데이터로볼수있고이는모든프로세스에공통적으로적용된다. [ 표 4-3] 식품업무프로세스별분류 분야기반정보전조예측위기수준판별위해도판별위기대응 식품 유형분류 뉴스및미디어 행정처분정보 위해도분류정보 위기대응 의약품 국가정보 국내인터넷 회수 / 판매중지정보 노출정보 상황전파 의료기기 업체정보 해외인터넷 유통정보 기준정보 대응결과 화장품 원인요소 소비자불만 해외직구 / 직배송 오염도정보 위기모니터링 기준정보 정보입수 부적합정보 4) 예측구성요소별분류사고 위해정보의구성요소별로분류한것으로위해요소, 위해발생단계, 위해동기, 위해영향대상, 위기단계로구분한다. 아래의분류는구성요소의상황에따라하나의데이터셋이여러개의분류에포함될수있다. [ 표 4-4] 예측구성요소별분류 분야위해요소위해발생단계위해동기위해영향대상위기단계 식품 생물학적위해 개발 의도적 신체적위해 평시 의약품 화학적위해 생산 비의도적 경제적위해 관심 의료기기 물리적위해 수입전 / 수입후 사회정치적위해 주의 화장품 표시광고 ( 위조 ) 제조 경계 신규위해 ( 부작용 ) 유통 심각 2.2 사고 위해예측을위한주제별클러스터후보군최적화방향성사고 위해예측을위한클러스터는지속적으로추가되고관리되어야할부분이라고보여진다. 안전문제별, 위기상황별분류를기준으로업무프로세스를대응하여매핑되는부분에대한데이터를정의해나가는부분을고려하여최적의방향성을가지고클러스터를매핑해나가야한다. 위기상황에대비업무프로세스에매핑되는클러스터유형혹은데이터의매핑을통해사고 위해예측을위한전조예측, 위기분석, 위기수준판단, 위해도분석등의서비스를제공할수있는기반이된다. - 147 -
[ 그림 4-6] 위기상황과업무프로세스매핑 위기상황대비업무프로세스를대입시, 매핑되는데이터후매핑은예시는다음과같다. [ 표 4-5] 위기상황대비업무프로세스별데이터후보매핑 ( 식품 ) 예시 대상범위수입전식품수입전식품수입전식품 위기상황수입전농산물위해물질검출수입전수산물위해물질검출수입전축산물위해물질검출 공통및기반정보식품유형코드국가코드원인요소코드관련기준정보 HACCP기준미승인식품첨가물정보유해물질모니터링식품이력추적관리법제도 전조예측국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보농약잔류허용기준정보유해물질판단정보식품사고상황관리정보국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보 위기수준판단분석유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보 - 148 -
대상범위 위기상황 공통및기반정보 전조예측 위기수준판단분석 수입전식품 수입전가공식품위해물질검출 국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보 유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보 수입전식품 수입전식품첨가물위해물질검출 국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보 유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보 수입전식품 수입전기구, 용기, 포장위해물질검출 국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보 유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보 수입전식품 수입전미승인 GM 검출 국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보승인GM정보 유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보 국외인터넷수집정보 수입식품 수입 / 통관 / 유통농산물위해물질검출 식품유형코드국가코드원인요소코드관련기준정보 국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보승인GM정보식품나라정보식품의약품안전정보시험분석정보재고수입식품관리정보 유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보식품의약품안전정보시험분석정보 - 149 -
대상범위수입식품수입식품수입식품 위기상황수입 / 통관 / 유통수산물위해물질검출수입 / 통관 / 유통축산물위해물질검출수입 / 통관 / 유통가공식품위해물질검출 공통및기반정보 HACCP기준미승인식품첨가물정보유해물질모니터링식품이력추적관리법제도 전조예측국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보승인GM정보식품나라정보식품의약품안전정보시험분석정보수입수산물검사정보재고수입식품관리정보국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보승인GM정보식품나라정보식품의약품안전정보시험분석정보수입축산물불합격조치기준수입축산물검사정보재고수입식품관리정보국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보승인GM정보식품나라정보식품의약품안전정보시험분석정보수입가공식품검사정보재고수입식품관리정보 위기수준판단분석유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보식품의약품안전정보시험분석정보수입수산물검사정보유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보식품의약품안전정보시험분석정보수입축산물검사정보유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보식품의약품안전정보시험분석정보수입가공식품검사정보 수입식품 수입 / 통관 / 유통식품첨 가물위해물질검출 국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고 유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 - 150 -
대상범위수입식품수입식품 위기상황수입 / 통관 / 유통기구, 용기, 포장위해물질검출수입 / 통관 / 유통미승인 GM 검출 공통및 기반정보 전조예측수입식품정보유해물질판단정보식품사고상황관리정보승인GM정보식품나라정보식품의약품안전정보시험분석정보수입식품검사정보재고수입식품관리정보식품첨가물사용기준준수여부국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보승인GM정보식품나라정보식품의약품안전정보시험분석정보수입식품검사정보식품나라기구, 용기, 포장정보기구및용기포장기준및규격국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보식품사고상황관리정보승인GM정보식품나라정보식품의약품안전정보시험분석정보수입식품검사정보미승인 GM 검출정보 위기수준판단분석 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보식품의약품안전정보시험분석정보수입식품검사정보식품첨가물사용기준준수여부유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보식품의약품안전정보시험분석정보수입식품검사정보식품나라기구, 용기, 포장정보기구및용기포장기준및규격유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡슐제품, 해외직구시품유해물질정보식품의약품안전정보시험분석정보수입식품검사정보미승인 GM 검출정보 수입식품 수입 / 통관 / 유통이물질검출 국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고수입식품정보유해물질판단정보 유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직배송우피유래캡 - 151 -
대상범위국내생산식품국내생산식품국내생산식품국내생산식품 위기상황 생산단계농산물위해 물질검출 생산단계수산물위해 물질검출 생산단계축산물위해 물질검출 생산단계화학유해물질 누출및환경오염 공통및기반정보식품유형코드국가코드원인요소코드관련기준정보 HACCP기준미승인식품첨가물정보유해물질모니터링식품이력추적관리법제도 전조예측식품사고상황관리정보승인GM정보식품나라정보식품의약품안전정보시험분석정보수입식품검사정보이물질검출정보국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고유해물질판단정보농약잔류허용기준정보식품사고상황관리정보식품나라정보식품의약품안전정보시험분석정보국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고유해물질판단정보농약잔류허용기준정보식품사고상황관리정보식품나라정보식품의약품안전정보시험분석정보생산및출하전수산물의위해요소중점관리기준국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고유해물질판단정보농약잔류허용기준정보식품사고상황관리정보식품나라정보식품의약품안전정보시험분석정보축산물위해요소중점관리기준국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고유해물질판단정보 위기수준판단분석슐제품, 해외직구시품유해물질정보식품의약품안전정보시험분석정보수입식품검사정보이물질검출정보유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황유해물질정보식품의약품안전정보시험분석정보유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황유해물질정보식품의약품안전정보시험분석정보생산및출하전수산물의위해요소중점관리기준유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황유해물질정보식품의약품안전정보시험분석정보생산및출하전축산물위해요소중점관리기준유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황유해물질정보 - 152 -
대상범위국내생산식품국내생산식품국내생산식품국내생산식품 위기상황 제조 / 가공 / 유통단계축 산물위해물질검출 제조 / 가공 / 유통단계가공 식품위해물질검출 제조 / 가공 / 유통단계식품 첨가물위해물질검출 제조 / 가공 / 유통단계기구 / 용 기 / 포장위해물질검출 공통및기반정보식품유형코드국가코드원인요소코드관련기준정보 HACCP기준미승인식품첨가물정보유해물질모니터링식품이력추적관리법제도 전조예측농약잔류허용기준정보식품사고상황관리정보식품나라정보식품의약품안전정보시험분석정보비의도적생성유해화학물질위해기준노출량평가정보안전성평가정보국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고유해물질판단정보농약잔류허용기준정보식품사고상황관리정보식품나라정보식품의약품안전정보시험분석정보국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고유해물질판단정보농약잔류허용기준정보식품사고상황관리정보식품나라정보식품의약품안전정보시험분석정보생산및출하전수산물의위해요소중점관리기준국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고유해물질판단정보농약잔류허용기준정보식품사고상황관리정보식품나라정보식품의약품안전정보시험분석정보축산물위해요소중점관리기준국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보 위기수준판단분석식품의약품안전정보시험분석정보유해화학물질위해기준노출량평가정보안전성평가정보유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황유해물질정보식품의약품안전정보시험분석정보유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황유해물질정보식품의약품안전정보시험분석정보생산및출하전수산물의위해요소중점관리기준유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황유해물질정보식품의약품안전정보시험분석정보생산및출하전축산물위해요소중점관리기준유통정보행정처분정보, 회수 / 판매중지정보, - 153 -
대상범위 국내생산식품 전체식품 위기상황 제조 / 가공 / 유통단계미승인 GM 검출 원인불명대규모식중 독환자, 2 개이상지역 에서동일원인으로 100 명이상집단식중독, 1 개지역 50 인이상, 50 인미만 공통및기반정보식품유형코드국가코드원인요소코드관련기준정보 HACCP기준식품이력추적관리식중독통계정보법제도 전조예측소비자불만 / 부작용신고유해물질판단정보식품사고상황관리정보승인GM정보식품나라정보식품의약품안전정보시험분석정보식품나라기구, 용기, 포장정보기구및용기포장기준및규격국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고유해물질판단정보식품사고상황관리정보승인GM정보식품나라정보식품의약품안전정보시험분석정보미승인 GM 검출정보국외인터넷수집정보국내인터넷수집정보뉴스 / 미디어정보소비자불만 / 부작용신고식품사고상황관리정보식품나라정보식품의약품안전정보시험분석정보대량환자발생관리시스템정보식중독예방관리시스템정보식중독균추척관리정보식중독조기경보시스템기상정보 위기수준판단분석검사부적합현황 ( 국외 ), 유해물질정보식품의약품안전정보시험분석정보식품나라기구, 용기, 포장정보기구및용기포장기준및규격유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 해외직구시품유해물질정보식품의약품안전정보시험분석정보미승인 GM 검출정보유통정보행정처분정보, 회수 / 판매중지정보, 검사부적합현황 ( 국외 ), 유해물질정보식품의약품안전정보시험분석정보대량환자발생관리시스템정보식중독예방관리시스템정보식중독균추척관리정보식중독통계시스템 - 154 -
3. 학술데이터및웹기반 SNS 키워드검색방안 SNS 키워드분석방법은텍스트데이터의각문장들에포함된단어 ( 또는어절 ) 를구성하는각형태소를분리하고분리된형태소의기본형및품사정보추출한다. 정보로서가치가없는용어인불용어를제거하기위하여유사어, 합성어등의처리를위해준비된사전에따라분석을수행한다. 불용어, 유사어, 합성어등의언어사전은분석도메인에따라특화될수있으므로분석시언어사전을조정및관리하여야하며, 텍스트데이터로부터인명, 지명, 기관명등과같은개체명을인식하여해당개체명에개체분류를위한태그를부착하여주는기능을수행한다. 또한분석도메인에따라특화된다양한개체를식별할수있도록개체명사전을등록, 수정및관리해야한다. 식품의약품안전처사고 위해관련분야별키워드 ( 예시 ) 목록은아래표와같다. [ 표 4-6] 사고위해관련분야별키워드 ( 예시 ) 식품영양안전국 분야 건강기능식품 식생활안전과 식중독예방과신소재식품과 영양안전정책과 식품안전정책국 해당키워드 건강기능식품, 과대광고, 단백질, 무기질, 미네랄, 발기부전치료제, 비타민, 비타민A, 비타민C, 비타민D, 비타민E, 색소, 섭취량, 성분, 성분들, 셀레늄, 스테로이드, 식이섬유, 식품첨가물, 아연, 영양성분, 영양소, 오메가3, 요오드, 원료, 유산균, 유해물질, 인공향료, 주성분, 주요성분, 주원료, 중금속, 천연, 천연성분, 첨가물, 추출물, 칼륨, 칼슘, 콜라겐, 콜레스테롤, 프로폴리스, 합성착색료, 항산화, 향료, 홍삼, 히알루론산가공식품, 간식, 급식, 기호식품, 라면, 먹거리, 불량식품, 비만, 색소, 설탕, 식생활, 식습관, 식품안전, 아이스크림, 영양성분, 영양소, 음료, 초콜릿, 카페인, 칼로리, 학교급식, 합석착색료도시락, 불량식품, 소화불량, 식중독, 식중독균, 식품, 음료, 음식, 음식물, 음식점, 의사, 의원, 학교급식 GMO, 가공식품, 건강기능식품, 농산물, 미생물, 수입금지, 수입식품, 식물, 식용, 식품, 식품안전, 식품위생법, 식품제조, 옥수수, 원료, 주원료 MSG, 가공식품, 간식, 감기, 건강기능식품, 건강식품, 견과류, 과대광고, 과일, 글루타민산나트륨, 글리세린, 급식, 기호식품, 김치, 나트륨, 노화방지, 단맛, 단백질, 당근, 당류, 도시락, 돼지고기, 된장, 라면, 루틴, 마늘, 망간, 먹거리, 면역력, 면역력증진, 몸매, 무기질, 미네랄, 반찬, 발효, 버섯, 보충제, 불량식품, 불소, 비만, 비타민, 비타민A, 비타민C, 비타민D, 비타민E, 사과, 사카린, 사탕수수, 사포닌, 설탕, 섭취량, 성분, 성분들, 셀레늄, 수박, 수분, 수입식품, 식단, 식당, 식물성, 식사, 식생활, 식습관, 식이섬유, 식재료, 식중독, 식중독균, 식품, 식품안전, 식품위생법, 식품제조, 식후, 아데노신, 아미노산, 아연, 아이스크림, 야채, 양파, 어패류, 영양분, 영양성분, 영양소, 오리고기, 오메가3, 오일, 외식, 요리, 요오드, 우유, 원료, 유산균, 유제품, 유해물질, 유효성분, 음료, 음식, 음식물, 음식점, 이유식, 인슐린, 젓갈, 조리, 주성분, 주요성분, 주원료, 지방, 채소, 천연, 체중, 초콜릿, 축산물, 치즈, 카페인, 칼로리, 칼륨, 커피, 콜레스테롤, 탄수화물, 토마토, 트랜스지방, 판매금지, 학교급식, 항산화, 홍삼 AI, BHA, BHT, GMO, MSG, Pb, TEA, 가공식품, 간식, 건강기능식품, 건강식품, 견과류, 계면활성제, 고기, 고사리, 고카페인, 곰팡이, 과대광고, 과일, 글루타민산나트륨, 글리세린, 급식, 기생충, 기호식품, 김치, 나트륨, 노로바이러스, 녹용, 녹차, 농산물, 농약, 니켈, 니코틴, 다이옥신, 단맛, 단백질, 담배, 당근, 당류, 도시락, 독성, 독성물질, 독성성분, 돼지고기, 된장, - 155 -
분야농축수산물안전국의약품안전국의료기기안전국 해당키워드 디메치콘, 디소듐이디티에이, 디에틸핵실프탈레이트, 라면, 루틴, 리스테리아, 마늘, 망간, 맥주, 먹거리, 멜라민, 면역력, 면역력증진, 몸매, 무기질, 물질, 미네랄, 미네랄오일, 미생물, 미세먼지, 바이오제닉아민, 박테리아, 반찬, 발암물질, 발암성분, 발효, 방부제, 방사능, 방사성, 버섯, 벤젠, 벤조페논, 벤조피렌, 병원성대장균, 봄나물, 부틸파라벤, 부틸렌글라이콜, 불량식품, 불소, 비만, 비소, 비스페놀A, 비타민, 비타민A, 비타민C, 비타민D, 비타민E, 비펜스린, 사과, 사카린, 사탕수수, 사포닌, 살리실산, 살모넬라, 색소, 설탕, 설페이트, 섭취량, 성분, 성분들, 세트리모늄브로마이드, 셀레늄, 소르빈산, 소식, 수박, 수분, 수산물, 수입금지, 수입식품, 수지, 스테로이드, 스테아레이트, 시프로플록사신, 식단, 식당, 식물, 식물성, 식사, 식생활, 식습관, 식용, 식이섬유, 식재료, 식중독, 식중독균, 식초, 식탁, 식품, 식품안전, 식품위생법, 식품제조, 식품첨가물, 식후, 실리콘, 아데노신, 아미노산, 아세트알데히드, 아연, 아이스크림, 아크릴아마이드, 아플라톡신, 알루미늄, 알코올, 야채, 양념, 양파, 어패류, 에틸카바메이트, 열매, 오리고기, 오메가3, 오비맥주, 오일, 옥수수, 외식, 요리, 요오드, 우유, 원료, 원전사고, 유기산, 유산균, 유제품, 유해물질, 유효성분, 음료, 음식, 음식물, 음식점, 이물질, 이유식, 인공향료, 입맛, 잔류농약, 전성분, 젓갈, 조리, 조미료, 주성분, 주요성분, 주원료, 중금속, 지방, 참외, 채소, 천연, 천연성분, 첨가물, 체중, 초미세먼지, 초콜릿, 추출물, 축산물, 치료제, 치즈, 친환경, 카드뮴, 카스, 카페인, 칼로리, 칼륨, 칼슘, 캡슐, 커피, 코발트, 콜라겐, 콜레스테롤, 콜타르, 크롬, 클로르피리포스, 타르, 탄수화물, 탈크, 탤크, 토마토, 톨루엔, 트랜스지방, 트리에탄올아민, 트리클로산, 파라벤, 파라핀, 판매금지, 페녹시에탄올, 포름알데히드, 퓨란, 프로폴리스, 프로필파라벤, 프로필렌글라이콜, 학교급식, 합성착색료, 항산화, 향료, 홍삼, 화학성분, 환경호르몬, 황색포도상구균, 효소, 히알루론산견과류, 고기, 고사리, 과일, 농산물, 당근, 돼지고기, 마늘, 버섯, 봄나물, 사과, 사탕수수, 수박, 수산물, 식물, 아이스크림, 야채, 양파, 어패류, 열매, 오리고기, 옥수수, 우유, 유제품, 잔류농약, 참외, 채소, 축산물, 치즈, 토마토 BHA, BHT, diol, Pb, TEA, 각질, 감기, 건조, 계면활성제, 고카페인, 곰팡이, 과대광고, 국감, 국정감사, 글리세린, 기생충, 대웅제약, 독성, 동물실험, 두피, 디메치콘, 디소듐이디티에이, 디에틸핵실프탈레이트, 로션, 루틴, 마약류, 머리카락, 멜라민, 모발, 미백, 미백효과, 박테리아, 발기부전치료제, 발암물질, 발암성분, 방부제, 방사능, 방사성, 벤젠, 벤조피렌, 복용, 부틸파라벤, 부틸렌글라이콜, 비타민A, 비타민C, 비타민D, 비타민E, 사카린, 사포닌, 살리실산, 상처, 색소, 성분, 성분들, 셀레늄, 소독약, 스테로이드, 스테아레이트, 시프로플록사신, 식사, 식품첨가물, 식후, 신약, 실리콘, 아데노신, 아미노산, 아세트알데히드, 아연, 알약, 알코올, 약국, 약물, 약사, 약사법, 약품, 약효, 원료, 원전사고, 유산균, 유효성분, 의료기관, 의사, 의약품, 의원, 이물질, 전성분, 제네릭의약품, 제약, 제약사, 제약회사, 주성분, 주요성분, 주원료, 중금속, 진통제, 처방, 천식, 첨가물, 추출물, 치과, 치료제, 치아미백, 카드뮴, 카페인, 칼륨, 칼슘, 캡슐, 콜라겐, 콜레스테롤, 타르, 탈모, 탈크, 탤크, 톨루엔, 파라벤, 파라핀, 판매금지, 포름알데히드, 피부과, 합성착색료, 항산화, 항생제, 항암제, 향료, 화학성분, 효소, 히알루론산 IT융합의료기기, Pb, 계면활성제, 과대광고, 국감, 국정감사, 나트륨, 니켈, 단백질, 독성, 독성물질, 독성성분, 동물실험, 디에틸핵실프탈레이트, 레이저, 리프팅, 망간, 미생물, 박테리아, 발암물질, 발암성분, 방사능, 방사성, 병원, 비소, 비스페놀A, 색소, 성분, 성분들, 세라젬, 수분, 수술, 수은, 수입금지, 수지, 시술, 실리콘, 아미노산, 아크릴아마이드, 알루미늄, 여드름치료기, 원료, 유해물질, 의료, 의료기, 의료기관, 의료기기, 의료산업, 의료용, 의사, 의원, 이물질, 인슐린, 전성분, 주성분, 주요성분, 주원료, 줄기세포, 중금속, 지방, 첨가물, 추출물, 치과, 카드뮴, 칼륨, 칼슘, 코발트, - 156 -
바이오생약국 분야 바이오의약품정책과 의약외품정책과 한약정책과 화장품정책과 해당키워드 콜라겐, 콜레스테롤, 탈크, 탤크, 판매금지, 포름알데히드, 피부과, 필러, 한방, 화학성분, 환경호르몬, 효소, 히알루론산 AI, 감기, 국감, 국정감사, 노로바이러스, 리스테리아, 바이오시밀러, 바이오의약품, 박테리아, 발기부전치료제, 보톡스, 살모넬라, 성분, 성분들, 신약, 아데노신, 아미노산, 약물, 약사, 약사법, 약품, 약효, 원료, 유효성분, 의약품, 인슐린, 제약, 제약사, 제약회사, 주성분, 주요성분, 주원료, 줄기세포, 줄기세포치료제, 지방, 처방, 천식, 첨단바이오의약품, 치료제, 항암제, 히알루론산과대광고, 물티슈, 부틸파라벤, 불소, 색소, 소독약, 초미세먼지, 치아미백, 치약, 탈모, 탈모방지, 트리클로산, 파라벤, 프로필파라벤, 프로필렌글라이콜곰팡이, 과대광고, 국감, 국정감사, 녹용, 녹차, 독성물질, 독성성분, 미생물, 발암물질, 발암성분, 벤조피렌, 보약, 복용, 수입금지, 신약, 아플라톡신, 약물, 약사, 약사법, 약재, 약초, 약품, 약효, 원료, 유해물질, 유효성분, 의약품, 이물질, 잔류농약, 전성분, 제약, 제약사, 제약회사, 주성분, 주요성분, 주원료, 중금속, 처방, 천연, 천연성분, 추출물, 치료제, 카드뮴, 캡슐, 판매금지, 포름알데히드, 한방, 한약, 한약재, 한의사, 한의원, 항암제, 홍삼 MIT, 각질, 건조, 계면활성제, 고탄력, 과대광고, 글리세린, 기능성화장품, 노화방지, 동물대체시험법, 동물실험, 두피, 디메치콘, 디소듐이디티에이, 로션, 머리카락, 메이크업, 메칠이소치아졸리논, 모발, 미네랄, 미네랄오일, 미미박스, 미백, 미백효과, 미생물, 발림성, 발효, 방부제, 보습, 보습력, 부틸파라벤, 불소, 비누, 비비크림, 비타민, 비타민A, 비타민C, 비타민D, 비타민E, 사포닌, 살리실산, 색소, 샴푸, 선크림, 성분, 성분들, 세럼, 세안, 세트리모늄브로마이드, 소각막, 수분, 수분감, 수분크림, 수입금지, 식물, 식물성, 실리콘, 아데노신, 아세트알데히드, 아이크림, 아크릴아마이드, 안점막자극, 알코올, 앰플, 얼굴, 에센스, 여드름, 오일, 원료, 이물질, 인공향료, 자외선, 자외선차단, 자외선차단제, 전성분, 주름, 주름개선, 주요성분, 줄기세포, 천연, 천연성분, 천연화장품, 첨가물, 촉촉, 촉촉함, 추출물, 콜라겐, 크림, 클로로메틸이소치아졸린, 타르, 탄력, 탈모, 탈모방지, 탈크, 탤크, 트러블, 트리클로산, 파라벤, 파우더, 판매금지, 팔자주름, 페녹시에탄올, 포름알데히드, 프로폴리스, 프로필파라벤, 프로필렌글라이콜, 피부, 피부결, 피부관리, 피부미용, 피부탄력, 피부톤, 피부트러블, 한방, 합성착색료, 항산화, 향료, 화이트닝, 화장, 화장품, 화학성분, 효소, 히알루론산 데이터분석을위하여불필요한항목을제거하고데이터품질을향상시킬수있도록데이터전후처리를수행해야하며, 대용량의데이터를유연하게저장하고관리활용할수있도록확장성등을고려하여수집데이터유형에맞는데이터베이스를구축하고, 데이터의안전한활용을위하여수집된데이터에대한개인정보처리및데이터접근및보안관리등철저한관리가필요하다. - 157 -
4. 사고 위해분석데이터구조설계및표준화방안 4.1 사고 위해분석데이터정의 1) 사고 위해분석데이터구조설계 [ 그림 4-7] 사고 위해분석데이터구조 2) 사고 위해분석데이터정의 [ 표 4-7] 사고 위해분석데이터정의 영역개념데이터설명 위해요소별데이터셋 위해요소및위해여부, 판단을위한기준정보의집합 모니터링및 분석 위해요소시그널데이터 사고위해전조예측을위한위해요소시그널데이터 위기상황별데이터셋 위기상황별, 위해등급을산정하기위한기준정보의 집합 - 158 -
영역개념데이터설명 시나리오관리 통계분석관리 시스템관리 위해등급관리데이터시나리오결과데이터통계지표결과데이터운영관리기본데이터기준코드데이터 위해등급정보및기준관리데이터시나리오수행 / 분석결과데이터분석혹은정형데이터를기반으로한수집, 통계지표의산출결과데이터서비스모델을관리하기위한운영기준데이터서비스모델및분석을위한기준코드데이터 4.2 데이터표준화방안 1) 데이터표준화개요및방향성데이터표준화란, 각단위시스템의데이터에대한명칭및도메인에대한표준원칙을수립하여표준데이터를구축한후전체시스템에적용하는방법을말하는것으로, 여러시스템에산재해있는데이터에대한한글 ( 논리 ) 명 / 영문 ( 물리 ) 명명명규칙, 데이터타입, 데이터길이등에대한기준을마련하여데이터의품질을향상시키는활동을말한다. 동시다발적인정보시스템개발과전사데이터표준관리도구의부재, 그리고전사데이터관리마인드및관리인력부재는데이터의품질저하를야기시켰고이는곧데이터의활용상의문제점을드러낸다. 이를해결하고, 데이터품질을향상시키기위해서일관된데이터형식및규칙을적용하는데이터표준화가필수적이다. 데이터표준화구성요소는데이터명칭, 데이터정의, 데이터형식, 데이터규칙등이있으며, 데이터표준으로관리되는대상에는단어, 용어, 도메인, 코드가있다. [ 그림 4-8] 데이터표준항목간기본관계 단어는테이블과컬럼의한글명및영문명을이루는원소를가리키며테이블명, 컬럼명, 폴더명으로사용되는용어는반드시이러한단어의조합으로이루어진다. - 159 -
[ 표 4-8] 데이터표준정의를위한용어 단어 용어 용어단일어합성어유사어금칙어분류어 내용테이블과컬럼의한글명및영문명을구성하는최소한의원소를가리키며용어는반드시이러한단어의조합으로이루어짐다른단어와의조합이아닌순수한단어일반단어나접두 [ 미 ] 사의조합으로이루어진단어표준한글단어와함께동의어로구성되어있으나비표준단어로사용이허락되지않은자료기존에표준단어였으나현재비표준단어로변경되어사용이허락되지않는단어개체의유형을명확하게나타내기위한단어. 표준화단어의조합으로이루어져테이블및컬럼의명칭으로사용되는용어 용어는업무적으로사용하는단어에대한표준을정의한것으로업무적용어와기술적용어로구분된다. 도메인은컬럼에대한성질을그룹핑한개념으로크게문자형, 숫자형, 일자형, 시간형으로분류할수있고더세부적으로는명, 주소, ID, 금액, 율, 수량등으로분류할수있다. 도메인의표준을정의함으로써동일한성질을가진컬럼의데이터타입및데이터길이를일관되게관리할수있으며, 향후컬럼값에대해공통적인데이터검증규칙의적용이가능하다. [ 그림 4-9] 표준도메인의도출도메인은크게단일도메인, 그룹도메인, 형식도메인, 열거도메인등 4가지로분류된다. - 160 -
[ 표 4-9] 도메인구성요소예 도메인그룹도메인유형명도메인명인포타입데이터타입 명 금액 고객명 고객명 고객명 _40 VARCHAR(40) 업종명 업종명 업종명 _50 VARCHAR(50) 금액 금액 금액 _18 NUMBER(18) 세 소득세 세 _18 NUMBER(1*) 코드는도메인의한유형으로서특정도메인값 ( 코드값 ) 이이미정의되어있는도메인이다. 따라서코드에대한표준은다른표준과는달리데이터값, 즉코드값까지미리정의해야한다. 표준코드작성형식전사적으로사용하고있는코드를추출하여정의하고부여된코드와동일한지를확인하고, 동일한값을가지는코드에대해서통합작업을수행하여단일화작업을수행한다. 코드는표준화팀에서엄격한기준에따라관리되어야하며, 사용자임의대로코드체계를생성하거나수정해서는안된다. 또한코드는도메인과밀접하게연관되어관리해야하나도메인에값의범위가명확히정의되어있는경우에는특별히코드화하여관리하지않아도된다. [ 그림 4-10] 표준코드사전예 데이터표준화절차전사적으로수립된데이터표준원칙, 데이터표준, 데이터표준준수여부관리등을위해서는데이터관리자의역할이요구된다. 이를위해심의위원회의구성을통한데이터표준화방안을고려할필요가있으며, 이위원회는데이터전반에걸쳐존재하는데이터에대한표준화및이용에관한관리를총괄하고정보활용에대한중앙집중적인계획및수립, 통제를수행해야한다. 사고 위해정보에대한표준화방안은상기에서제안하였으며, 그외에각부서별또는기관별로서로다른용어, 도메인, 코드를사용하고있기에이의통합, 표준화방안을각데이터별로검색하여수립할필요가있다. 이때모든데이터를대상으로하기보다는실제활용시나리오에따른데이터셋을먼저파악하고이에대한데이터를확보한후검토및표준 - 161 -
화방안을강구해야할것이다. 또한해당표준화를상대기관에요청하는경우와자체적으로해당데이터를표준화하여 변환시킬수있는방법을고려하여데이터연계및통합을할필요가있다. [ 그림 4-11] 데이터표준화구축절차예시 2) 사고 위해정보의구성요소별라이브러리구성및표준화 각각의사고 위해정보의구성요소별로다음과같이라이브러리를구성한다. 각각의 Library 는표준화가필요할경우추후운영조직상의심의위원회를통하여확정하도록한다. 구성요소 Library 구성 ( 안 ) 주요정보원 품목 각품목별품목코드이용 식약처 위해요소 각부문별위해요소코드 식약처 위해발생단계 기존표준화코드이용및발생단계별코드마련 식약처및각발생단계별기관 위해동기 신규표준화코드부여기상데이터코드활용 HACCP, GMP등분류코드활용 식약처 위해대상 [ 표 4-10] 사고 위해정보의구성요소별 Library ( 안 ) 신체적위해 : 건강보험공단사고분류코드경제적위해 : 신규코드부여사회적위해 : 언론매체별, SNS 매체별신규코드분류부여 위기단계신규코드부여식약처 식약처및유관기관, 민간기관 - 162 -
각각의사고 위해정보의구성요소별로코드가정의되고부여되어야하며, 코드화이유는다 음과같다. 사고 위해정보의코드화이유 사고 위해에대한선제적대응활동을하기위해서는이에대한예측근거가필요하다. 이때 예측근거는과학적인분석을바탕으로도출되어야하며, 과학적인분석은사고 위해정보에 대한통계적인분석이선행되어야한다. 그러기위해서는사고 위해에대한정보가사용가능 한통계로 DB 화되어야하며, 이 DB 를바탕으로예측분석을이행해야한다. 따라서사고 위해정보를각구성요소별로구분하고이구성요소에대한라이브러리를바탕으로코드화 해서하나의패턴화된사고 위해정보가만들어지면이를통해어떤구성요소가있을때해 당되는사고 위해가발생하는지를역추적할수가있다. 사고 위해정보의코드화방안 각구성요소별 Library 를표준화하고이를지속적으로업데이트하여관리하도록한다. 또한사고 위해정보를각구성요소별로입력및 DB 화한다. [ 표 4-11] 사고 위해정보의품목 Library 예시 ( 안 ) 구분 대분류 중분류 세분류 세세분류 품목 식품 어류 가자미류 홍어 코드 FD D 6 3 [ 표 4-12] 사고 위해정보의위해요소 Library 예시 ( 안 ) 구분 대분류 중분류 세분류 세세분류 위해요소 화학적위해 농약 유기염소계 루페누론 코드 CA A 0 50 [ 표 4-13] 사고 위해정보코드화시코드체계예시 코드분류 품목 위해요소 발생단계 동기 대상 위기단계 신규추가 품목코드 FDD63 위해요소코드 CAA050 발생단계코드 TLOL230 동기코드 ACL332678 대상코드 OTC44263 위기단계코드 ULE12793 통합코드 FDD63CAA050TLOL230ACL332678OTC44263ULE12793 사고 위해정보의코드화를통한상관데이터도출방안 기존사고 위해정보의 DB 를이용하여사건의상관관계분석을통한예측데이터를도출한다. 예를들면위기단계중심각단계 (ULE 12) ) 가특정위해요소인유기염소계농약 (CT 13) ) 가발 생단계중생산 (OL 14) ) 에어떤패턴혹은상관관계가있는지를회귀분석을통하여검증할 수있다. 12) 상기표에서위기단계의코드 ULE12793 중 ULE 13) 상기푱에서위해요소의코드 CHNLCT203 중 CH 14) 발생단계코드 TLOL230 중 OL - 163 -
5. 서비스업무설계및운영방안 5.1 예측기반서비스활용을위한업무설계 사고 위해예측기반서비스활용을위한업무프로세스기준을아래와같이제시한다. 현재보유하고있는사건 사고정보를바탕으로업무분석시나리오를정의하고새로운분석요건및데이터요소를추가할것인지를설계한다. 분석시나리오를생성하는단계로위해구성요소를선택하여대상업무에대한예측시나리오를구성할것인지를분석하고, 주제데이터셋또는주제데이터클러스터를구성한다. 주제별데이터를수집하는단계로어떤품목, 데이터의필드값, 기간등자신에게필요한데이터의속성값을지정한다음에연계데이터를설정하는단계로어떤데이터들을연관시켜분석을할것인지를결정한다. 데이터를모델링하는단계로데이터간연관관계를묶어어떤방정식으로상관관계분석을할것인지를결정하고만들어진분석모델을어떻게나타낼지를설정한다. 사고 위해예측시스템에해당분석모델을주기적으로어떻게적용할지를결정한다음해당분석결과에대한피드백을통하여이를공유하고, 해당분석모듈을지속적으로업데이트할수있도록구성한다. 예측기반서비스활용을위한서비스업무는다음과같이 4가지모델로분화되며각모델은다음과같은특성을갖는다. [ 표 4-14] 서비스업무설계서비스모델서비스개요수집데이터정보특성 사고 위해상황인지모니터링서비스 사고 위해정보를실시간수집및모니터링하는서비스로위해시그널감지 인터넷, 뉴스, 소셜네트워크, 소비자신고등의실시간 / 비실시간데이터 비정형정형가공 사고 위해예측분석서비스 사고 위해를예측할수있는분석서비스상황인지및예측분석서비스 모니터링데이터및관련클러스터데이터 비정형정형가공 사고 위해위해평가를통한위해도분석서비스 분석대상및위해현상을인지하여시나리오을정의하고분석을통해위해단계및위해도를분석하는서비스 모니터링데이터및관련클러스터데이터, 기존시나리오및기준데이터등 비정형정형가공 식품의약품등안전관련데이터제공서비스 분석사용자에게제공하기위한식품의약품등안전관련데이터의조회및제공서비스 통합수집및관리되는데이터, 수집되어신규생성된데이터및지표데이터 정형가공미가공 위해경보, 관련정보제공을위한대국민서비스 조기포착및위해도에의한위해정보제공및공공데이터제공을위한데이터제공서비스 (Open API등 ) 통합수집및관리되는데이터, 수집되어신규생성된데이터및지표데이터 정형가공미가공 - 164 -
5.2 식의약품등사고 위해예측분석시나리오구성이미발생한사건 사고를토대로사고 위해정보를구성하고, 전조예측데이터를클러스터링하면하나의예측시나리오구성이가능하다. 예를들어, 아래의칠레산홍어의위해발생사례 15) 를구성요소별로나열하면, 수산물위 변조 ( 위해요소 ), 공급량부족 ( 위해발생단계 ), 경제적의도성 ( 의도성 ), 인터넷판매 ( 위해발생단계 ) 로구성할수있다. 이를사고 위해예측시나리오로재구성하면 변조가용이하고수입량이적거나없는수입수산물을인터넷에판매하고있는해당수산물을모니터링하여조사를하면사건을미연에방지하거나조기포착할수있을것 이다. [ 그림 4-12] 예측기반서비스활용을위한업무프로세스 특정한위해발생단계에서발생한사고 위해에대한구성요소를분석하여그이전단계에서 예측가능한데이터를추출할수있도록시나리오를구성한다. 사고의내용예시미국산 ' 을 ' 칠레산 ' 으로 판매업체무더기적발수입산홍어가운데으뜸은칠레산이다. 고가의흑산홍어처럼찰지고빛깔이좋아많이찾고있다. 현재유통되는미국산 ( 알래스카 ) 홍어보다맛이좋다. 그러나칠레산은 3년째수입량이거의없다. 지진등으로현지어민들이조업하지않고있기때문이다. 칠레산홍어라고원산지를속여판인터넷홍어판매업체가검찰에무더기적발됐다. 광주지검목포지청은 28일칠레산홍어를찾는소비자에게원산지를속여미국산을판매한혐의로목포지역인터넷판매업체 5곳을적발, 기소했다 15) 출처 news1, http://news1.kr/articles/?1197111,2013 년 6 월 23 일, - 165 -
이를위해사례기반추론기법은상기의시나리오를구성하는데가장유용한시나리오구성기법이될수있으며, 이는과거의유사한사례를바탕으로주어진데이터를검증해가며응용하여해결하여나가는기법이다. 또한상관분석, 회귀분석, 군집분석을통해사고 위해발생과관련성이높은데이터그룹을유추하고, 의사결정나무 (Decision Trees) 등을통해분석과정의시나리오를구성해가며검정및조정을할필요가있다. 5.3 사고 위해예측을위한데이터마이닝분석방안 1) 데이터마이닝정의대규모로저장된데이터에서체계적이고자동적으로통계적규칙이나패턴을찾아내는것으로 knowledge-discovery in database라고도말한다. 데이터마이닝 (Data Mining) 에서 Mining은 ' 추출하다.', ' 채광하다 ' 는의미를가지고있으며, 이를바탕으로데이터마이닝 (Data Mining) 이란, 수많은데이터안에서일정한패턴을찾아내고, 이로부터가치있는정보를추출해내는기술을의미한다. 2) 데이터마이닝기법연관성측정 (Associations): 동시에구매될가능성이큰상품들을찾아냄으로써시장바구니분석 (Market Basket Analysis) 에서다루는문제들에적용. 연관성측정에서의연관규칙은 상품 A가구매되어진경우상품 B도구매된다. 라고해석된다. 순차패턴 (Sequential Patterns): 이벤트나행동의시간적인순서를나타내는규칙으로예를들어 새컴퓨터를구입한사람들중 25% 는그다음달에레이저프린터를구입할것이다. 와같은연관규칙을찾아내는것이다. 순차적패턴발견에서의연관규칙 A B 는 상품 A가구매되면일정시간이경과한다음에상품 B가구매된다. 라고해석한다. 의사결정나무 (Decision Trees): 의사결정나무 (Decision Trees) 는분류또는예측을목적으로하는어떤경우에도사용될수있는기법으로분석의정확도보다는분석과정의설명이필요한경우에더유용하게사용한다. 신경망모형 (Neural Networks): 신경망모형은인간이경험으로부터학습해가는두뇌의신경망활동을흉내내어자신이가진데이터로부터반복적인학습과정을거쳐패턴을찾아내고이를일반화함으로써특히향후예측 (Prediction) 하고자하는문제에있어서유용하게이용되는기법으로매우복잡한구조를가진데이터들사이의관계나패턴을찾아내는유연한비선형모형 (Flexible nonlinear Model) 의하나이다. 클러스터링 (Clustering): 어떤목적변수 (Target) 를예측하기보다는고객수입, 고객연령과같이속성이비슷한고객들을묶어서몇개의의미있는군집으로나누는것으로대용량의데이터가너무복잡할때는이를구성하고있는몇개의군집으로나누어살펴봄으로써전체에대한윤곽을잡을수있다. 사례기반추론기법 (CBR): 사례기반추론기법은주어진새로운문제를과거의유사한사례를바탕으로주어진문제의상황에맞게응용하여해결가는기법이다. - 166 -
3) 사고 위해전조예측, 조기포착, 재발방지패턴데이터마이닝분석전조예측, 조직포착을위한데이터의수집은 SNS, 뉴스등인터넷에서발생되는비정형데이터에서사고 위해와관련된요소를추출하고그관계를분석하여사고 위해의전조현상이나위기유형을파악하거나시간및위치정보를조합하여통계를통해현황파악이가능하다. 비정형자료에서도출된예측인자로서정형자료와함께연계분석하여사고 위해예측의정밀도를높일수있으며활용할수있는비정형분석의방법은다음과같다. - 전처리과정 : 텍스트추출, 형태소분석, 불용어처리, 문서빈도 / 용어빈도등기초통계를처리하는과정 - 텍스트마이닝 : 분류, 군집, 연관분석, 주제식별및추적, 개념체계자동구성, 문서간상관성계산등이포함된다. - Association Analysis : 대용량의데이터에서각각의항목간의의미있는상관관계를찾아내는과정으로연관성평가기준으로는지지도, 신뢰도, 향상도가있다. - Social Network Analysis : 개인및집단들간의관계를노드와링크로서모델링하여그위상구조, 확산 / 진화과정을계량적으로분석하는방법론으로차수중심성, 근접중심성, 매개중심성이있다. [ 그림 4-13] 텍스트마이닝분석과정사고 위해예측인자를정의하는경우사고 / 위해시나리오에따라관련이있는모든자료를대상으로통계적기법을적용할수있고, 특정사고 / 위해시나리오의논리적관계를바탕으로예측인자를정의하는경우에는사전에정의된조작적정의의지표를설정하고특정데이터를활용하여적용할수도있다. - 상관분석을통한예측인자발굴 : 과거의사고 위해가난경우와사고가나지않은경우를포함하는분석데이터군을활용하여사고 위해발생과관련성이높은데이터그룹을상관분석으로유추한다. - 회귀분석을통한예측인자발굴 : 사고 위해가난경우와아닌경우를구분하여주는데이터그룹을유추한다. - 군집분석을통한예측인자검증 : 사고 위해와상관관계가높은데이터그룹을대상으 - 167 -
로군집분석을실시하여사고가나지않은상황과사고가발생한경우가분류되는지를검증한다. 기계학습 (Machine Learning) 이란컴퓨터에게사람이직접명시적으로 Logic을지시하지않아도데이터를통해 학습 을하고그것을사용해컴퓨터가자동으로문제를해결할수있도록하는것을의미한다. 사고 위해예측을위한기계학습모형 : 과거사실관계가밝혀진사고 위해정보와앞선절차에서정의된예측인자가결합된분석데이터를일정비율로구분하여기계학습훈련데이터, 테스트데이터, 검증데이터로나누고기계학습방법을선택하여데이터에적용한다. 5.4 빅데이터를활용한사고 위해예측기반분석모델 1) 위기단계평가를위한의사결정지원모델가 ) 의사결정지원모델수립프로세스의사결정지원모델수립프로세스는먼저해당위기단계의데이터클러스터를구성하며, 데이터클러스터에따른데이터를수집하고이데이터를어떻게연계할것인지를구성한다. 비정형데이터의경우어떻게정형화할것인지를설정하고데이터들을어떤방정식으로분석할지를결정한다. 어떤표현방식으로볼지를결정한다. 이러한업무프로세스를정규화하고세부업무프로세스로나누어상세화할필요가있다. [ 표 4-15] 식품의위기단계결정을위한업무프로세스 업무프로세스데이터클러스터구성필요데이터수집연계데이터설정비정형데이터의지수화분석데이터모델링표현방법의선택 세부내용위기대응매뉴얼상의위기단계평가와관계되는데이터의클러스터규명수집기관및시스템, 연계방식, 실시간등상관관계가있는데이터의지수화비정형데이터의지수화의사결정지원을위한데이터모델링사용자에게어떤표현방식으로보여줄것인지결정 나 ) 세부업무프로세스 위기단계별필요로하는데이터클러스터를확정 [ 표 4-16] 식품의위기단계결정시데이터클러스터 관심주의경계심각 위기단계가관심단계의경우 생산데이터, 수입데이터, 제조데이터, 유통데이터, 국회및수사기관 위기단계가주의, 경계, 심각의경우 생산데이터, 수입데이터, 제조데이터, 유통데이터, 국회 및수사기관이슈제기자료, 식중독보고자료, 소비자단체 - 168 -
관심주의경계심각 이슈제기자료, 식중독보고자료, 소비자단체이슈제기자료, 언론보도 모니터링자료 이슈제기자료, 언론보도모니터링자료, 부작용 ( 유관기관, 의료기관 ) 보고자료 위해정보의시그널관련데이터는해외에서발생한사고와관련된위해요소, 식품유형 ( 이상위해정보관리시스템 ), 국내에서검출된위해요소의정보, 국가기관의발표자료, 소비자원의불만및사고정보, 소비자단체이슈제기, 경찰등수사기관의발표자료, 지자체발표자료, 언론사보도자료, 식중독보고자료등이다. [ 표 4-17] 위해정보시그널관련데이터현황 ( 식품 ) 데이터명보유기관명시스템명정보수집절차주기 위해정보식약처위해정보관리시스템 해외정보, 위해요소, 식품유형 EAI 10 분 유해물질 식약처 수입식품정보사이트 부적합내역 EAI 10분 식약처 부적합식품긴급통보협업시스템 부적합내역 EAI 10분 행자부 통식망, 새올행정시스템 식품수거검사내역 EAI 10분 농림축산검통식망, 검역검사정보수입동축산물검역검사역본부시스템정보 ESB 10분 국립수산물수산물검사정보응용품질관리원시스템 수입소금품질검사 ESB 60분 국가기관 이슈자료 식약처 수입공중위생용품검사시스템 검사결과 EAI 10분 식약처 통합식품안전정보망 소비자불만신고 EAI 10분 식약처 위해정보관리시스템 부적합내역, 신고자료 EAI 10분 국회, 청와 대, 감사원 등 사고정보소비자원소비자위해감시시스템 홈페이지식의약관련발표자료솔루션 10 분 소비자불만, 병원, 소방서 자료, 피해구제사례 협의 수시 소비자 단체 이슈제기 녹색소비자연대외녹색소비자연대외 홈페이지게시판식의약품등관련정보솔루션수시 자체시스템식의약품등관련정보협의수시 경찰등 수사기관 경찰청홈페이지게시판식의약품등관련정보수집기 10 분 검찰홈페이지게시판식의약품등관련정보수집기 10 분 - 169 -
데이터명보유기관명시스템명정보수집절차주기 경찰청, 검찰등 자체시스템식의약품등관련정보협의 10 분 지자체이슈제기언론사보도재난정보식중독보고 지자체 홈페이지게시판 식의약품등관련정보 수집기 10분 행자부 자체시스템 식의약품등관련정보 협의 10분 기능식품 신문등 120개 홈페이지 식의약품등관련정보 수집기 10분 언론사 국민안전처 기상상황, 국민안전처홈페이지 Open 주요재난관리상황, 재난종합상황 API 기관별예방활동관리사항 10분 질병관리통식망, 대량환자본부발생관리시스템 환자수, 지역, 원인균 ESB 10분 식약처 식중독예방관리시스템 발생현황 EAI 10분 위기단계분석은상기에수집된정보를바탕으로의사결정을내릴수있는정보수집 식품에함유된유해물질이국내에반입이되었는지, 국내에서생산, 제조되고있는지여부 와유통되고있다면어느정도유통되고있는지가가장중요한판단요소이다. [ 표 4-18] 위기단계분석데이터현황 ( 식품 ) 데이터명보유기관명시스템명정보수집절차주기 국내유통 수입 관세청 통식망, 전자통관시스템 수입품목, 수입량, 수입금액, 업자 EAI 10분 농산물품질통식망, 농산물이력추적관리원시스템 유통업체, 유통량 ESB 10분 농림축산거통식망, 수입쇠고기역본부유통이력시스템 수입쇠고기유통정보 ESB 10분 G마켓, 11번가, 전문쇼핑몰 상거래사이트 사업자수, 리플건수 수집기 10분 등 해양수산부 통식망, 수산물이력제시스템 수산물이력정보 ESB 10분 관세청 전자통관시스템 수입품목, 수입량, 수입금액, 업자 EAI 10분 식약처 수입식품정보사이트 품목, 국가, 수입량 EAI 10분 - 170 -
데이터명 보유기관명 시스템명 정보 수집절차 주기 식약처 식의약품종합정보서비스 유형, 제조국, 수입일자, 유통기한등 EAI 10분 식약처 식약처통계포털 생산, 수입, 유통 EAI 10분 국립수산물 품질관리원 수산물검사정보응용 시스템 수입소금품질검사 ESB 60 분 국립수산물 품질관리원 수산물검역시스템수산물수입검역정보 ESB 10 분 생산 식약처 식약처통계포털 품목별생산량 EAI 10분 식약처 식품및식품첨가물생산실적보고 업체수, 품목수, 출하액 EAI 연1회 농산물품질통식망, 농산물이력추적관리원시스템 업체, 품목, 생산량 ESB 10분 해양수산부 통식망, 수산물이력제시스템 생산정보 ESB 10분 식약처식의약품종합정보서비스건기식업체, 수입, 제조 EAI 10 분 제조 행자부통식망, 새올행정시스템식품 ( 첨가물 ) 품목제조보고 EAI 60 분 행자부통식망, 새올행정시스템축산물품목제조정보 EAI 61 분 식약처식품원료길라잡이식품원료 EAI 10 분 기준규격식중독분석언론보도 식약처 식품이력추적관리 제품, 원재료, 품질, 출하 EAI 10분 식약처 식품기준규격정보마당 식품유형, 기준, 규격 EAI 10분 식약처 기구및용기포장정보 품목, 재질, 기준, 규격 EAI 반기 식약처 식품첨가물정보 성분, 기준, 규격 EAI 반기 식약처 식중독균추적관리시스템 식품유형, 검사, 분리균주 EAI 10분 식약처 식중독조기경보시스템 학교, 업체, 시설, 발생현황 EAI 10분 식약처 식중독통계시스템 원인, 시설, 연도별 EAI 10분 언론사 기능식품신문등 120개뉴스 해당식품관련보도 수집기 10분 각데이터의의사결정기준제시예를들면생산데이터는해당제품의생산량이전체생산량중에서차지하는비중으로 1% 미만은관심, 10% 이상은심각단계로설정한다. [ 표 4-19] 데이터를통한의사결정기준제시 데이터명 생산데이터 수입데이터 의사결정화해당제품생산량 / 전체생산량 ( 관심 : 1% 미만, 주의 :1~5% 미만, 경계 :5~10%, 심각 10% 이상 ) 해당제품수입량 / 전체수입량 ( 관심 : 1% 미만, 주의 :1~5% 미만, 경계 :5~10%, 심각 10% 이상 ) - 171 -
데이터명제조데이터유통데이터식중독보고자료 의사결정화해당제품제조량 / 전체제조량 ( 관심 : 1% 미만, 주의 :1~5% 미만, 경계 :5~10%, 심각 10% 이상 ) 해당제품유통량 / 전체유통량 ( 관심 : 1% 미만, 주의 :1~5% 미만, 경계 :5~10%, 심각 10% 이상 ) 관심 (50인미만, 1개지역 ), 주의 (50~99인, 1개지역동일원인 ), 경계 (100인 ~199인이상, 2개지역이상 ~4개지역 ), 심각 (200인이상, 5개지역이상 ) 언론보도모니터링언론보도주의 (2 개이상 ~3 개 ), 관심 (4 개 ~5 개 ), 경계 (6 개 ~10 개 ), 심각 (11 개이상 ) 해당수치는임의로산정 데이터와연관된위해도에따라의사결정에대한데이터분석모델링설계위해도관리및평가는식품의약품안전처내에서수행되고있는절차와방법에대한상세한분석을통해모델링을설계하는것이필요하다. 위해 (Hazard) 와위험 (Risk) 를명확히구분하고위해와노출정도를파악하여위해도를산출하여평가가가능하다. 이를분석하기위해서는품목과분석하고자하는시나리오에따라다양한데이터를조합하여산출하여야하기때문에분석모델이체계화되어제시되어야한다. 위해도의평가수행요건을보면제기된식품안전문제에대한정확한이해가필요하고다양한전문가가협동하여수행하여야한다. 그리고과학적근거와타당성있는가정에근거하여수행되어야하며일어날수있는모든상황을평가하여야한다. 또한객관성, 투명성을가지고선입관없이수행하여현실적인접근이필요하다. 그러나평가결과의불확실성을인정하고명시할필요도있다. 위해도평가시검토사항을보면오염물질의인체노출량추정에적절한데이터를사용하였는지여부, 노출기여도가높아위해도관리가필요한식품의선별, 노출기여도가큰식품오염도분포를확인할필요가있다. 위해도평가방법의절차로는위험성확인, 위험성결정 ( 용량- 반응관계확인 ), 노출평가, 위해도결정의과정이며이러한과정들이통합되어위해수준을판별할수있기때문에이를고려하여분석모델링을설계한다. 위험성확인은평가대상물지에의해발생가능한인체위해영향을확인하는단계이다. 위해요소에위험성을확인하기위해인체역학연구나통물시험등기초정보에대한분석이필요하며이를통해위험성여부및정도를확인한다. 위험성결정은용량-반은관계의정량적확인과위해요소자체의정성적확인을포함하는단계로용량-반은모델링을참고할필요가있다. 용량-반응모델링에대한관계자료는수학적공식을이용하여모델링될수있다. 여러수학적모델들의적합성여부를확인해야하며, 이를활용할지여부를판단해야한다. 또한용량 -반응 - 172 -
관계를추정할수있는가장간단한접근법은 선형외삽 이라는방법이있는데 Model tree 라고불리기도한다. 이접근법은저용량으로선형외삽을위한시작값의선택에따라다양한변형이존재할수있다. 노출평가의목적은노출원및노출기간, 노출경로, 노출의심각성등을확인하여예상가능한인체노출수준을결정하는것이다. 위해도결정은위해평가의마지막단계로노출에의해발생되는위해영향이나타날가능성을결정하는위해도결정단계이다. 위해요소를화학적, 생물학적위해요소로구분하고이를기반한위해평가흐름은다음과같다. 화학적위해냐생물학적위해냐에따라위험성을확인하고위험성결정과노출평가를확인하여위해도를결정하는단계로진행된다. [ 그림 4-14] 위해요소별위해평가흐름도 < 출처 : 식품의약품안전처 위해평가지침 > 위기단계의사결정 ( 평소, 관심, 주의, 경계, 심각 ) 지원을위한선정이가능할수있도록설계하여시스템에반영위기단계의의사결정은식품, 의약품, 의료기기, 화장등등의사고위기대응매뉴얼을참고하여위기단계를정의하고위기단계를판단할수있는근거기준을설계및반영한다. 각분야별위기의유형및위기상황도출, 위기경보대응수준, 위기단계의기준및단계별대응조치사항등을설계하고시스템에반영한다. 위기시그널혹은위기의이슈을 Input으로하여관련된데이터클러스터및데이터를매핑하고이를분석하여위기단계의기준을적용한위기단계의사결정결과물이시스템화되어야한다. - 173 -
5.5 위기대응활용을위한정보제공방안 1) 서비스포탈을통한정보제공및분석결과 Reporting 서비스포탈의기능에따라사고 위해의정보및검색, 상황분석, 통계정보등을표현하고앞서언급된서비스모델의절차에따라분석된데이터를요약하여 Reporting하며, 관련정보를검색및조회할수있는웹기반의 Reporting을제공할수있다. 시그널이나사건에따른위해요인과상세내역, 위해도및위해도에따른대응방안등을요약 Reporting 한고, 서비스사용자혹은대국민에게 Open API를통한공공데이터제공또는데이터셋을제공한다. [ 그림 4-15] 식품의위기단계의사결정지원모델 2) 빅데이터시각화및통계그래프를통한제공다양한통계, 분석결과에대해서시각화도구및그래프컴포넌트를활용하여표현하고, 필요시검색및조회에따른결과를산출하도록구현한다. 데이터에형태에따라지도를활용한분포그래프를표출한다. ( 예 : 식중독발생현황분표도등 ) [ 그림 4-16] 빅데이터시각화예시 3) 실시간모니터링대시보드위험빅데이터시각화 실시간표출이가능한데이터를활용하여실시간모니터링대시보드를구현하여표출한다. - 174 -
[ 그림 4-17] 대시보드도구를활용한대시보드구성예시 4) 링크드데이터분석된데이터의연관성을표출하는방법으로링크드데이터를적용한다. 데이터를개별 URI(Uniform Resource Identifier) 로식별하고각 URI에링크정보를부여함으로써데이터간에연결된모습을지향하는모형이다. [ 그림 4-18] 링크드데이터개요및구축공정 < 출처 : 링크드데이터구축공정가이드 (NIA) 5) SMS 및모바일 Push를통한알람신속한위기대응을위한전조예측, 조기포착등의상황에서담당자, 이해관계자에게 SMS 문자혹은모바일 Push를통해알린다. [ 그림 4-19] Push 서비스구조도 < 출처 : TTA Journal> - 175 -
5.6 예측기반서비스운영방안빅데이터활용을통한예측기반서비스는빠른전조예측및조기경보를위한인터넷, 소셜데이터의수집과저장, 식품의약품안전처및유관기관과의연계데이터의매핑및분석, 빠른대응체계구축을필요로한다. 이에따라실시간데이터의수집및예측분석이반드시필요한요소이며, 이에따른서비스운영방안이수립되어야한다. 즉, 실시간데이터의수집, 빅데이터저장플랫폼, 예측분석의관점에서서비스운영방안이정립될수있다. 1) 국내예측기반서비스사례먼저, 국내예측기반서비스의사례를살펴보면다음과같다. 국민건강주의예보시범서비스국민건강보험공단에서주관한 국민건강주의예보시범서비스 사업은전염병유행에대해사후대처만가능하던기존체계를고도화하여빅데이터분석을활용한예방과예측중심의의료서비스제공을시도하고자하였다. 주요개발내용으로는현재시점의유행성질병에대한위험도예보및지역별, 연령별위험도예보등감염병유행징후시주의예보정보제공으로어떤지역을중심으로환자가늘고있는지, 환자들의연령대는어떤지, 진료환자숫자의증가수, 소셜미디어에서검색하는사람들의추이등을파악하여제공하는방식이다. 이에따라주요유행성질병에대한건강보험정보와소셜미디어정보를융합하여질병예측모델을개발하고대시보드서비스와지역별유행성질병위험도, 지역내질병관련진료동향및연령별진료현황정보를제공한다. [ 그림 4-20] 국민건강주의예보시범서비스과정 < 출처 : 2013 빅데이터국내사례집 ( 국민건강보험공단, 2013)> 의약품안전성조기경보서비스한국의약품안전관리원이서비스모델개발및검증을추진중인 의약품안전성조기경보서비스 의경우의약품부작용이나오남용에대한조치의자발적신고로인한사후조치및대 - 176 -
처의현실을빅데이터분석을통해의약품부작용, 오남용사례의조기검출및빠른조치를통한피해와사회경제적비용손실을최소화하고자하였다. 주요개발내용은기관이보유한유해사례신고데이터와포털, 소셜사이트등의의약품부작용, 의심정보등을수집및분석하여유사의약품에대한조기경보, 의약품부작용에대한검증결과, 오남용사례및분석결과제공등의모델을개발하였다. 인플루엔자유행예측, 심실부정맥예측서비스서울아산병원이진행한서비스로기존에수행된환자모니터링은단순한정보수집에지나지않아그활용정도가제한되었고, 빅데이터활용을통한국민건강증진서비스에대한요구가증대되어추진을진행하게되었다. 주요개발내용은첫번째, 인프루엔자유행예측서비스는인터넷포탈사이트의검색어데이터와소셜데이터를분석하여인프루엔자현황및예측정보를웹서비스형태로제공. 두번째는심실부정맥예측서비스로중환자로부터수집되는심실모니터링데이터를빅데이터플랫폼에저장하고, 패턴분석을통해부정맥발생상황을사전에예측하는것이다. [ 그림 4-21] 심실부정맥예측프로세스 < 출처 : 2013 빅데이터국내사례집 ( 한국정보화진흥원, 2013)> 그외에도입원병상배정최적화서비스, 계절적요인, 병원의료진의수, 진료행위의변화를모델에반영하여준실시간입원병실의가동률의변화패턴파악, 마약류인지및감시서비스등이있다. 2) 빅데이터서비스운영방안빅데이터시스템의운영과관리는운영조직화와거버넌스확보가필요하다. 운영을위한전담인력확보와데이터품질분석을통해양질의서비스를제공한다. 가 ) 운영조직화운영의조직화에는인력과운영책임역량등이필요하며핵심사항은운영인력확보, 역할과책임, 업무역량및교육이다. 빅데이터시스템의운영, 관리를위해서는전담인력선별과구성이중요하다. 전담조직은다음과같이분류된다. - 177 -
[ 표 4-20] 인력측면의조직세분화 구분시스템운영데이터품질관리분석전문가 내용개별시스템구성과연계시스템간연동방법에대한전문적인지식을가진인력과이를관리할수있는관리자로구성데이터품질관리조직은중간결과물품질과내부데이터처리를위한지식을가진전문인력으로구성분석결과를시각화할수있는인력과리포트를통해다른조직간의사소통을원활히수행할수있는전문인력으로구성 인력구성이되면역할과책임이명확히정해졌는지확인한다. 조직간역할이구분되면전체적인분석과의사소통을수행할담당자가있어야한다. 또한운영과분석을위해인력의지속적인훈련과교육이있어야한다. 나 ) 거버넌스확보거버넌스는크게데이터를위한것과시스템운영관리를위한협력체계가있다. 데이터및서비스거버넌스확보는데이터품질, 분석, 보안및서비스운영관리를위한협력적거버넌스확보를말한다. 각각확보해야할거버넌스설명은다음표와같다. [ 표 4-21] 데이터및서비스거버넌스 구분품질관리거버넌스분석및운영거버넌스보안거버넌스서비스운영거버넌스 내용데이터수집체계안정화와데이터분석품질을위한거버넌스분석방법론, 분석모델링을위한인력이나외부협력체계악성공격, 개인정보보호, 프라이버시보호와관련된부분을위한관리데이터분석결과의대외공유에따른접근과유통체계 거버넌스간협력체계는시스템분석결과의향상과시스템의장기적인발전을목적으로한다. 이는분석프로세스, 분석기법등의조정을통해시스템활용확장, 수집대상확장, 신기술에대한검토및적용방향을제시한다. 3) 빅데이터역량진단모델빅데이터서비스의운영을위해서는관련조직의역량이갖추어져야하며미래창조과학부와한국정보화진흥원의빅데이터역량진단모델 (Big-CAT) 을통해평가및진단이가능할것으로보인다. 빅데이터역량진단모델에서언급하는내용을상세히살펴볼필요가있다. 빅데이터역량진단모델 (Big-CAT) 개요공공및민간기관이빅데이터활용능력을자가진단하여효과적인빅데이터도입및활용에 - 178 -
도움받을수있는체크리스트형태의가이드이다. 빅데이터역량진단모델은 5 개대항목 ( 전략수립역량, 추진역량, 분석역량, 활용역량, 혁신역량 ) 과 13 개의중항목으로구성되며, 중항목은다시구체적인질의항목인소항목으로구성된다. [ 그림 4-22] 역량진단모델구성 < 출처 : 빅데이터역량진단모델개요 ( 미래창조과학부, 2013)> 주요특징본모델의특징은가트너등 10여개의국내외역량진단모델을분석하여빅데이터분야에특화된역량분석모델을개발하였다. 또한빅데이터도입기관의빅데이터분석인프라구축가능여부를고려하여 3가지유형 ( 내부분석환경구축형, 외부분석서비스활용형, 혼합형 ) 으로개발하였다. 마지막으로책자발간과더불어엑셀및그래프등을활용하여조직의현재역량수준을쉽게파악하게해주고보완이필요한취약항목을제시할수있다. 빅데이터역량진단모델 (Big-CAT) 모델항목기본적인빅데이터역량진단모델의대항목개념및하위중항목은다음과같다. [ 표 4-22] 역량진단모델항목 ( 대항목 ) 대항목설명중항목 1. 전략수립역량 현재상황 (As-Is) 에서어떤빅데이터를어떻게분석하여어디에활용함으로써, 비즈니스목표 (To-Be) 를효과적 / 효율적으로달성할수있는지에대한전략및계획수립역량 1.1 빅데이터이해도 1.2 활용방안수립정도 1.3 실행계획의구체화정도 2. 추진역량 빅데이터활용모델을구현하여비즈니스가치를실현할수있도록지원하는전반적인경영능력내 / 외부데이터를획득하고관리하며, 분석및활용역략을강화하기위해조직의자원을배분하고조직화하여, 전반적인지원업무프로세스를정립하는역량으로구성 2.1 데이터확보및관리 2.2 조직적지원 2.3 프로세스정립 - 179 -
대항목설명중항목 3. 분석역량 빅데이터의특성에부합하는처리및분석기술을적용하여, 비즈니스시나리오에맞는정보를추출하고가공할수있는 전문역량 3.1 빅데이터분석인프라 3.2 빅데이터분석전문인력 3.3 시스템운영및관리 4. 활용역량 빅데이터분석을통해획득한정보및지식이조직전체에 확산되도록지원하고실질적으로활용하는역량 4.1 활용지원 4.2 활용범위 5. 혁신역량 비즈니스목표대비달성된수준을평가하여차이 (GAP) 의원인을규명하고개선방안을정립하여다음전략및계획에반영하는학습능력 일상적인관리수준을넘어조직내외부의변화를감지하고, 혁신적인비즈니스아이디어를창출하여비즈니스성과의최적화를실현하는역량 5.1 평가및반영체계 5.2 변화와혁신 < 출처 : 빅데이터역량진단모델개요 ( 미래창조과학부, 2013)> 대항목에해당하는각중항목의개념은다음과같다. [ 표 4-23] 역량진단모델항목대항목대비중항목개념대항목중항목설명 1.1 빅데이터이해도 1. 전략수립역량 1.2 활용방안수립정도 1.3 실행계획의구체화정도 2.1 데이터확보및관리 2. 추진역량 2.2 조직적지원 2.3 프로세스정립 3. 분석역량 3.1 빅데이터분석인프라 전반적인비즈니스현안및문제들에대해빅데이터를활용하여어떻게해결할수있는가에대한방법론적인이해정도와조직전체적인빅데이터가치및비전공유의정도빅데이터활용방안에대한중장기전략을수립하고, 다양한빅데이터분석및활용시나리오를개발하여, 비즈니스목표와부합하고기술적 / 경제적으로실현가능한최적대안을선정하는능력선정된활용모델에대한예산, 데이터, 분석시스템, 전문인력확보방안및요구되는정보항목의정의등실행계획의구체화정도빅데이터는개인 / 민간 / 공공등여러주체가생산한조직내외부데이터와각종정형 / 반정형 / 비정형데이터를통합적으로활용하는것이중요이러한데이터를획득하기위해데이터생태계를구축하고, 분석목표에적합한데이터를접근 / 획득하며, 데이터의원활한활용을지원하고, 분석의가치를높이기위해데이터품질을관리하는능력빅데이터분석및활용을지원하는전담체계의구성, 업무분담의명확화, 내 / 외부교육프로그램, 보상과인센티브정책등빅데이터지식가치사슬 (knowledge value chain) 의선순환을촉진하기위한조직적인지원역량빅데이터분석및활용을위한협력적거버넌스및워크플로우정의등전반적인비즈니스프로세스의체계화및정형화정도빅데이터저장과실시간분석알고리즘구현이가능한컴퓨팅시스템및시스템소프트웨어등의하드웨어인프라와데이터수집 / 통합, 분석, 시각화등에필요한관련소프트웨어등의빅데이터분석플랫폼확보수준 - 180 -
대항목중항목설명 4. 활용역량 5. 혁신역량 3.2 빅데이터분석전문인력 3.3 시스템운영및관리 4.1 활용지원 4.2 활용범위 5.1 평가및반영체계 5.2 변화와혁신 빅데이터분석시스템운영관리를위한전문인력과빅데이터 수집, 통합, 변환등의가공기술, 대규모통계처리, 데이터 / 텍스트마이닝, 시각화등의분석기술, 결과의해석및적용 등활용기술등과관련된빅데이터전문핵심인력보유 수준 빅데이터분석시스템운영및관리를위한프로세스, 정보 보안체계, 시스템복원 / 백업 / 이중화체계등관리메커니즘의 구현정도빅데이터분석결과로얻은새로운정보와지식을실질적 으로활용할수있도록지원하는정도빅데이터분석결과로얻은새로운정보와지식이실질적 으로활용되는범위 비즈니스프로세스나서비스개선, 전략적의사결정지원, 조직의총체적인성과향상, 외부관계기관과의공유및 활용등실행계획에서설정한성과목표치대비실제결과치를평가 하고분석하여다음계획에반영하는통제적역량및조직의 학습능력빅데이터분석및활용을통해의사결정및서비스의질을 변화시키고, 새로운서비스및비즈니스기회를창출하는 혁신적 / 창의적역량 < 출처 : 빅데이터역량진단모델개요 ( 미래창조과학부, 2013)> 중항목에따른소항목은실제평가를위한질의항목으로각중항목마다 3 개 ~6 개항목을 가지고있으며, 각항목마다의배점을가지고있다. [ 그림 4-23] 역량진단모델 3. 분석역량의중항목및소항목 < 출처 : 빅데이터역량진단모델개요 ( 미래창조과학부, 2013)> 빅데이터역량수준별특징빅데이터분석및활용역량수준은초기, 인식기, 정립기, 관리기, 혁신기의 5단계로구분되며, 각역량수준별특성은다음그림과같다. - 181 -
[ 그림 4-24] 역량수준 < 출처 : 빅데이터역량진단모델개요 ( 미래창조과학부, 2013)> 빅데이터역량진단모델의평가항목을통한역량진단결과예시는아래와같다. [ 그림 4-25] 역량진단결과예시 < 출처 : 빅데이터역량진단모델개요 ( 미래창조과학부, 2013)> 시사점초기조사대상을선전하여본모델을적용해본결과빅데이터의중요성과필요성은인식하고있어나름대로의추진계획을수립하고있으나, 아직분석및활용역량이충분히갖추어지지않았음을시사한다고보고되었다. 16) 물론본모델이아직이해의정도나차이에의해서구체성이떨어지고개선할요지는있으나이를기반으로조직의빅데이터역량을평가해볼수있는참고의모델로선정할수는있을것으로여겨진다. 또한빅데이터업무는해당시스템을자신의업무에어느정도활용하였는지에대한활용기여도평가가중요하며, 예측분석모델링의사용빈도를반영하여야할것이다. 그리고대응활동에관한정책의사결정의기여정도에대한평가와최종적으로는식품의약품안전처안전관리 ( 위해관리 ) 목표의기여정도에대한평가가동반되어야할것이다. 이를통해기존업무개선을유도하도록성과평가방식설계를할필요가있다. 16) 출처 NIA 보도자료빅데이터역량진단모델 (Big-CAT) 개발제공 - 182 -
제 5 장사고위해예측기반시스템구축및이행전략 1. 식의약품등위해관리정보화비전및전략 1.1 정보화비전및추진목표도출식품의약품등위해관리정보화비전은 식품의약품등사고 위해사전차단을위한안전관리체계강화 이며, 이에따른추진목표는 식품의약품등사고 위해예측을위한데이터분석기반구축 이다. [ 그림 5-1] 정보화비전및목표 1.2 사고 위해예측기반시스템구축과제비전을달성하기위한전략방향을중심으로도출된시스템구축과제및세부내용은다음과같다. 사고 위해예측을위한데이터수집기반구축 - 사고 위해데이터유형화및클러스터링 - 전조예측데이터유형화및클러스터링 - 사고 위해관련데이터수집 - 183 -
- 사고 위해대응활동별데이터구분 - 식품의약품안전처내부및외부데이터수집체계구축 사고 위해예측을위한빅데이터플랫폼구축 - 목표시스템아키텍처정의 - Hadoop 기반데이터수집및저장기반구축 - 데이터분석을위한기반구축 - 빅데이터플랫폼관리기능구현 사고 위해예측을위한분석플랫폼구축 - 목표시스템아키텍처정의 - 소셜네트워크분석및실시간분석기능 - 시나리오기반분석기술구현 - 다양한기법의분석기능및데이터시각화 사고 위해예측서비스포털구축 - 전체목표시스템아키텍처및서비스구축모델정의 - 사고 위해상시모니터링 ( 대시보드 ) - 사고 위해예측분석에대한통계자료제공 - 다양한위해성분석 평가에대한정보제공 - 공개데이터 (OpenAPI) 등을통한대국민서비스제공방안설계 빅데이터조직및운영관리체계수립 - 운영관리조직체계수립 - 각조직별역할및책임수립 - 운영관리절차및모니터링방안수립 - 주요서비스관리지표, 수준지표도출및적용 - 184 -
2. 사고 위해예측을위한목표시스템 2.1 사고 위해예측시스템서비스구성도식품의약품안전처사고 위해예측서비스를위한구성도는다음과같다. 서비스는사고 위해상황인지및예측분석, 위해도평가와정보제공을위한사고 위해예측서비스포털과기반데이터및소셜데이터의통합분석을위한분석서비스플랫폼, 빅데이터수집, 저장, 처리및분석을위한빅데이터플랫폼으로구성된다. 뿐만아니라식품의약품안전처및유관기관의정형데이터의저장과정제된데이터를저장하기위한데이터저장및정제 DB 영역을포함하고있다. 서비스를구성하고있는영역은별도의구축과제로선정되고최적의목표시스템의구현과효율적인사업의진행을위해단계적으로설계및구축되어야한다. [ 그림 5-2] 사고 위해예측시스템서비스구성도 - 185 -
2.2 사고 위해예측빅데이터플랫폼구축방안 빅데이터플랫폼시스템은데이터수집, 저장분석및서비스포탈기반으로구현한다. 1) 데이터수집기반구축 가 ) 빅데이터수집플랫폼구성요건및역할 유형주요지원내용설명 구성요건 역할 다양한유형의데이터수집 연계지원 민간데이터수집지원 데이터수집 연계를위한채널 가공및분석데이터제공채널 데이터수집 연계내역관리도구 [ 그림 5-3] 사고 위해예측빅데이터플랫폼구성도 빅데이터수집 연계플랫폼의역할은빅데이터공통기반에서분석에활용되는데이터를 수집 연계할수있는인프라이며, 수집대상은행정 / 공공기관및 SNS, 언론사등의민간데이터를 포함해야한다. [ 표 5-1] 수집플랫폼의구성요건과역할정의 데이터플랫폼은다양한유형의데이터를수집 / 연계할수있도록구성필요 데이터수집 연계플랫폼은공공뿐만아니라민간데이터를수집 연계할수있도록구성필요 데이터수집 연계플랫폼은빅데이터공통기반에서활용되는데이터를제공처로부터수집 연계위한채널 데이터공통기반을통하여가공및분석된데이터를통계 DB 혹은공개요구에대응채널 데이터공통기반에서수집 / 연계한데이터에대한내역을관리할수있는도구 - 186 -
나 ) 빅데이터수집을위한아키텍처빅데이터공통기반수집 / 연계플랫폼은웹데이터수집모듈과공공기관데이터수집모듈로분리하여구현할수있으며, CEP 및실시간데이터처리모듈을구성하여야한다. 공공기관의데이터의경우수집대상시스템을확인하여표준 Interface 규격을협의하여구현하여야한다. [ 그림 5-4] 사고 위해예측빅데이터수집플랫폼다 ) 빅데이터수집 / 연계관리시스템기능구성데이터수집 연계관리시스템의기능구성은연계관리, 수집관리, URL관리, 플랫폼운영관리등으로구성되어야하며, 각주요기능별고려사항은아래표와같다. [ 표 5-2] 빅데이터수집 / 연계기능대분류주요기능설명 연계대상시스템정의연계정보관리 연계대상 URL 정의 연계방식정의연계관리 대상시스템연계요청관리연계요청관리 검토승인기능 송 / 수신연계기관조회및연락처관리 데이터수집현황조회수집현황모니터링 데이터수집결과조회 실시간데이터수집현황모니터링기능수집관리 현재상태모니터링기능대시보드형태로제공수집장애모니터링 장애조치결과확인기능 - 187 -
대분류주요기능설명 데이터수집주기관리 플랫폼 운영관리 수집정책관리 시스템관리및공통관리 수집데이터범위관리 수집후데이터저장소변경관리 필터링적용여부관리 실시간및 CEP 적용여부관리 수집 / 연계시스템상태모니터링 공지사항및정보공유등기본기능관리 사용자권한관리 기타공통기능관리 2) 빅데이터플랫폼구축방안가 ) 빅데이터저장플랫폼구성및역할빅데이터데이터저장은수집된데이터의유형및분석형태를고려하여다양한방식으로저장할수있는체계로구현한다. [ 그림 5-5] 빅데이터저장플랫폼구성및역할나 ) 빅데이터저장플랫폼구축방향성빅데이터저장플랫폼구축을위한핵심방향은다양한유형의데이터저장소구성, NoSQL DB 중심의구성, 유연한데이터형태의변환기반구성, 관리 운영을위한 DB 형태로구현한다. - 188 -
[ 그림 5-6] 빅데이터저장플랫폼구성방향성다 ) 저장필요데이터및저장방식빅데이터공통기반의빅데이터저장플랫폼은수집되는다양한유형의데이터를저장하기위하여 RDB, NoSQL DB, Object File 저장소가각각필요하다. [ 그림 5-7] 저장필요데이터및저장형태라 ) 데이터분석을위한저장체계비교빅데이터분석을위한데이터저장방식은크게 RDB CLUSTER, MEMORY CACHE, NoSQL 방식이있으며, 이중가장효율적인방식은 NoSQL 방식이다. - 189 -
[ 표 5-3] 분석을위한데이터및저장형태 유형 RDB CLUSTER Memory Cache NoSQL Sample Solution OracleRAC Mysql cluster Memcached Coherence Santa BigTable Cassandra CouchDB MongoDB 개요장점단점최소한의개발비용으로확장비용이상대적으로분산확장과도입이가능높으며, 적용및관리에안정성을강화한비용예측이가능고급기술이필요 RDB솔루션상용화된지원이가능읽기성능만향상가격대비효율성이고가의메모리비용 RDB 앞단에메모리 disk보다높음메모리크기에제약이있음캐시를두고읽기읽기 / 쓰기성능을크게 RDB를저장소로또는읽기 / 쓰기를향상가능사용하지만장애시일부캐싱읽기 / 쓰기수평확장가능데이터손실가능읽기 / 쓰기성능및디스크기반의수평확장성이뛰어남 Persistense Layer에대한확장이뛰어난일반저작장비의사용신규개발필요데이터저장소가능 마 ) 데이터형태변환 (RDB to NoSQL) 빅데이터공통기반에서는 RDB 형태데이터의정제작업을위하여 MapReduce 를활용할수 있으며, 별도의 DW(Data Warehouse) 솔루션은구성하지않는다. [ 그림 5-8] 데이터형태변화 (RDB to NoSQL) 3) 분석플랫폼구축방안다양한대용량의데이터분석할수있는기술조사를통해빅데이터시스템구축방향을도출하고향후시스템을구축하기위한설계방안을수립한다. - 190 -
[ 그림 5-9] 분석플랫폼구성도 가 ) 빅데이터분석개요데이터축적, 활용확산및공유단계를거친데이터패러다임이 IT기술의발전과모바일환경확대등에따른정보양의폭발적인증가에따라대량데이터의분석과추론을통한가치창출의패러다임으로변화되고있다. 빅데이터분석플랫폼을통해데이터를분석하여제공하는정보에대한기본적인선정기준은정책수립단계별정책수립에필요한데이터및분석결과를지원하기위한정보를기준으로한다. 빅데이터분석기술대부분의분석기법들은통계학과전산학, 특히기계학습 / 데이터마이닝분야에서이미사용되던기법들이며, 분석기법들의알고리즘을대규모데이터처리에맞도록개선하여빅데이터처리에적용시키고있다. [ 표 5-4] 주요빅데이터분석기술 기술데이터마이닝텍스트마이닝 Opinion 마이닝 (or Sentiment analysis) 설명대용량데이터베이스에있는데이터로부터패턴인식, 통계적기법, 인공지능등을이용하여숨겨져있는데이터간상호관련성을및유용한정보를추출텍스트마이닝은텍스트기반의데이터로부터새로운정보를발견할수있도록정보색, 추출, 체계화, 분석을모두아우르는 Text-processing 기술및처리과정텍스트마이닝관련분야로는오피니언마이닝, 혹은평판분석 (Sentiment analysis) 라고불리는기술로소설미디어등의정형 / 비정형텍스트의긍정 (Positive), 부정 (Negative), 중립 (Neutral) 의선호적 ( 작자의의견이나감정등 ) 를판별하는기술 - 191 -
기술 소셜웹이슈분석 설명대용량소셜미디어를언어분석기반정보추출을통해이슈를탐지하고, 시간의경과에따라유통되는이슈의전재과정을모니터링하고향후추이응분석하는기술 나 ) 빅데이터분석기술 향후빅데이터비즈니스요구에따라유연하게대응하기위해빅데이터분석플랫폼은 크게 Real-time 분석, Hadoop 기반분석, 사용자주도분석영역으로구분하여구성한다. [ 그림5-10] 빅데이터분석플랫폼개념도 Hadoop 기반분석하둡은구글의분산파일시스템과맵리듀스의오픈소스구현체로대규모의비정형데이터분석을배치로처리하는데주로사용되고있으며, 비정형분석, 데이터의실시간분석, 정형데이터처리, 다양한분석알고리즘, Workflow, 시각화같은기술들을다양한오픈소스프로젝트의형태로개발되어서바로활용가능한수준으로제공하는하둡에코시스템이있다. [ 그림 5-11] 하둡에코시스템구성도 - 192 -
하둡기반분석은여러가지시스템에서생성되는로그나데이터, 동영상, 텍스트등정형 / 비정형데이터를활용하여배치집계분석, 분산병렬데이터처리, 비정형 / 정형데이터연계 분석을수행하도록구성하며, 주요기능은다음과같다. 대량의데이터에대한분산병렬처리배열및행렬로표현된데이터에대한통계분석로그등에서소셜데이터나반정형형태의원하는데이터를추출하기위한텍스트분석숨겨져있는데이터간의상호관련성및유용한정보추출을위한기계학습비정형데이터와정형데이터의연계분석 [ 그림 5-12] 하둡기반분석개념도 실시간 (Real-time) 분석실시간분석을지원하는스트림컴퓨팅 (Stream Computing) 은기존의축적된과거데이터에대한분석뿐만아니라실시간으로흘러들어오는다양한데이터를분석하는방법으로대용량데이터에대한이동중 (in-motion) 분석환경을제공한다. 스트림컴퓨팅기숭중하나인 CEP(Complex Event Processing) 는여러이벤트소스로부터발생한이벤트를대상으로실시간으로의미있는데이터를추출하여대응되는액션을수행하는것으로 Adapter, Channel, Process, Beams(POJO) 컴포넌트로구성되면, 컴포넌트기능은다음과같다. Adapter 인바운드및아웃바운드데이터인터페이스로이벤트소스로부터스트림데이터를수신, 가공, 내부이벤트타입으로변환을담당하고생성한이벤트를연결된컴포넌트로전달한다. Channel 채널은상하위컴포넌트가비동기적으로동작할수있도록하는쓰레드풀과관련된큐로 그림에서는아답터에서수신한이벤트를프로세스에전달하는역할을한다. - 193 -
Process 프로세스는 CEP 엔진의인스턴트로 CQL 쿼리를담당하는부분으로 CQL 쿼리는필터링, 집합 함수 (Aggregation, 패턴매칭, 조인 ( 스트림간, 스트림과 DB 스트림과캐쉬등 ) 등을지원한다. Beans(POJO) POJO 는프로세스에서걸러진의미있는데이터를외부서비스와연동하기위한비즈니스 로직을구현하기위해사용한다. [ 그림5-13] Esper CEP 흐름도 < 출처 : Esper Tech> CEP에서의미있는이벤트를걸러내는역할은 Process가담당하며, Process는질의언어로 CQL(Continuous Query Language) 를사용하여센서장치, 시스템등에서발생하는지속적인대량스트림데이터에서의미있는데이터를추출할수있는다음과같은기능으로구성된다. [ 표 5-5] CEP 기능 기능 설명 이벤트필터링 조건문을통해원치않는데이터를걸러냄 신규이벤트감지 ( 중복데이터방지 ) 이벤트파티셔닝 주로데이터의소스가센서등기계장치이므로일정간격으로발생한동일한데이터또는갑의차이가크지않은의미적으로동일한데이터가많게되므로이러한중복이많은데이터중에서의미있는새로운이벤트데이터만을추출이벤트소스에서오는데이터가주식정보와같이여러거래종목이동일소스에서같이섞여입력될경우파티셔닝을통해종목단위로분리, 질의 이벤트집합질의 이벤트메시지강화 타임윈도우등을이용해최근 1분, 최근한시간과같이구간단위로이벤트데이터에대한실시간집한연산을수행 FROM에오는대상은스트림이벤트소스는물론, DB 테이블 coherence in-memory 캐쉬데이터가될수있으며, 이런이벤트소스와 DB, 캐쉬데이터정보와조합하여이벤트데이터를좀더의미있는데이터로변환 - 194 -
기능 이벤트연관관계 설정 설명 이벤트소스가둘이상인경우, 각소스로서로다른유형의정보가오는 경우둘을조합하여데이터를생성 분실이벤트감지 GPS 와지리정보연동 소셜웹이슈분석 CQL 패턴매칭을이용하여분실이벤트감지에도사용되는데특정패턴이일정시간나타나지않는경우이벤트가분실된것으로판단 현정보를지속적으로수신받는다고하면, GPS 정보는지도정보와연동해활용할수있으며, 지속적인수신 GPS 정보를지리정보와연계하여지역안에들어왔다라고하는의미있는이벤트만걸러냄 대용량소셜미디어를언어분석기반정보추출을통해이슈를탐지하고, 시간의경과에따라유통되는이슈의전재과정을모니터링하고향후추이를분석하는기술 사용자주도분석전통적인 BI 데이터접근방식은데이터가변경될때마다분석을위한모든프로세스가다시진행되어야하나, 사용자주도데이터접근방식은변경대상데이터에대한선택 / 제거만으로실시간연관검색및분석수행이가능하며, 연계 / 수집 / 저장된데이터에서분석에필요한데이터를선택하면 ETL 기능을통해메모리에해당데이터를적재하고, 사용자의관점에따라다양하게분석을수행할수있도록기능을저장한다. [ 그림 5-14] 사용자주도분석개념도 데이터적재방안 별도 RDBMS와같은별도의포맷으로데이터를저장하지않고데이터를빠르게재혼합 / 재결합하여변화에빠르게대응할수있도록모든데이터를메모리에적재하기위해다음과같은기능을지원한다. - 실시간으로변화하는데이터에대해정해진주기로변화된데이터만적재 - 서로다른다양한데이터구조를하나의모델로생성 - 195 -
- 최소한의메모리사용을위해압축데이터형태로메모리에적재 - 별도의 RDBMS 가아닌메모리에적재되는 Associative Data Model 기반 - 이종 DB 데이터들을개별테이블의데이터로적재 대시보드구현방안 사용자가저작툴을통해메모리혹은데이터베이스에적재된데이터를쉽고다양한형태의 Dashboard를구현할수있도록일반적이고표준화된모듈 / 메뉴 / 툴바를제공하고, 웹브라우저를통한 AJAX 환경등을제공한다. - 일반적이고표준화된모듈 / 메뉴 / 툴바제공 - 사용자에게친숙한툴환경제공 - 빠른개발을위한단축키명령어제공 - 다양한뷰 ( 웹, 모바일등 ) 환경에서일관성있는 UI제공 - 웹브라우저를통한 AJAX 환경제공 - 다양한 Rich web client 환경제공 [ 표 5-6] 대시보드주요기능 기능 Drilling Pivoting Ad-Hoc 분석 Multi-Fact 분석이벤트메시지강화비교분석 설명분석에필요한모든데이터를메모리에적재하고데이터들사이의연관성 (Association) 을자동으로관리하여, DrillUp/Down/Across/Through 분석을제한없이유연하게처리 Pivot Table은디멘전 (Dimension) 과메저 (Measure) 양방향의 Pivoting을지원하므로다양한관점에서데이터를분석하도록지원다양한 Mini Chart, Sparkline 등의차트를 Pivot Table 내에삽입하여분석을확장사용자가새로운관점 (Dimension) 으로분석을하거나새로운 Measure를추가하고자하는경우언제나즉석에서기존분석을확장하도록지원 Link Table 또는 Concatenate를통해데이터모델링 OLAP 개체에서 Multi-Fact join FROM에오는대상은스트림이벤트소스는물론, DB 테이블 coherence in-memory 캐쉬데이터가될수있으며, 이런이벤트소스와 DB, 캐쉬데이터정보와조합하여이벤트데이터를좀더의미있는데이터로변환선택한값들과레이아웃을그대로저장하고있으므로특정상태비교특정상태의연산이수행된 OLAP 객체를 Detach하면그객체는다른선택의영향을받지않고상태유지선택된집합, 또는전체데이터집합을대상으로또다른집합을정의하여비교분석 - 196 -
기능 설명 그래픽 그룹의정의와그룹상태의상속을통해그룹간비교 사용자의이해를위한최신의그래픽제공 Extension 기능으로내장객체를확장하거나외부객체사용 트랜드분석 Time series trend 기반으로과거추이를분석하는 Backcasting 과미래추이를 예측하는 Forecasting 지원 What-if 분석 Fact 를기반으로다양한측면의데이터를반영하여시뮬레이션을지원 다 ) 분석플랫폼영역별활용방안 빅데이터분석플랫폼은크게 Hadoop 분석영역, Real-Time 분석영역, 사용자주도분석 영역으로구분되며, 분석이필요한업무및데이터에맞게구축되어야한다. [ 표 5-7] 분석영역별분석기법및적용업무 분석영역역할분석기법적용업무분석데이터 Hadoop 기반분석 연계 / 수집된정형비정형데이터에대해그룹핑, 정제등전처리과정을통해배치 (Batch) 로데이터분석 통계분석텍스트분석기계학습 (Mining) 분석배치분석등 연계 / 수집 / 저장된정형비정형대용량데이터를정해진주기에따라분석필요시 분석목적저장된대용량데이터요약데이터가아닌대규모원본데이터를대상으로분석 Real-Time 분석 스트리밍 (Streaming) 컴퓨팅기술적용통해빅데이터를수집과동시에분석수행 필터링, 감지파티셔닝집합 (Aggregation) 패턴매칭지리정보연동 데이터를보관하지않은상태에서분석필요시이동중인데이터에서가치있는통찰력을찾기위한업무 대량으로지속적으로입력되는데이터, 시간순서가중요한데이터 전통적인관계형데이터베이스에서실시간처리및분석이불가능한스트림데이터분석 사용자 주도분석 사용자들이자신들만의시각으로데이터를분석할수있도록분석대상데이터에대한선택 / 제거만으로실시간연관검색및분석수행 Pivoting Ad-Hoc 분석비교분석그래픽분석트랜드분석 Wath-if 분석등 사용자가원하는데이터를선택하여자신만의시각으로분석필요시 Fact를기반으로다양한측면의데이터를반영하여최적의결과를찾기위한업무 시스템이아닌사용자결정에따라선택되어지는데이터제한없이원하는방식으로데이터를혼합또는합하여분석 - 197 -
4) 사고 위해예측서비스포털구축방안가 ) 서비스포털개요사고 위해예측서비스포털은빅데이터플랫폼및분석플랫폼으로부터수집, 분석된데이터를다양한형태 ( 통계정보, 분석정보, 시각화자료등 ) 로사용자에게서비스를제공하는기능을수행한다. 주요서비스기능으로는사고 위해상황인지, 사고 위해예측분석, 위해도평가와분석정보제공및통계, 데이터개방을위한공통기능으로구분된다. 기반관리기능에는 UI/UX 플랫폼, 웹표준및접근성고려, 개인화, 대시보드및관리자기능등을고려해야하며, 대국민서비스의경우보안적인측면을동시에고려해야한다. 서비스포탈의구성도는다음과같다. [ 그림 5-15] 서비스포털구성도나 ) 서비스포털구성방안사고 위해예측서비스포탈은동일한플랫폼으로구성되지만두개의서비스포탈로구분될수있다. 대국민서비스포탈과내부이용기관서비스용으로구분되는데, 내부기관서비스용의경우가전조예측및분석시스템으로서데이터의수집및통합, 클러스터구성, 전조예측, 분석기능등을수행한다. 또한관리자기능의경우통합적으로구성하여대국민서비스의기능을한곳에서관리하도록한다. 서비스포탈의기능은시스템구축단계에서구축과제및시스템요구사항을중심으로좀더상세화하여설계될필요가있다. 기능구조를상세화하고각기능에대한상세설계를진행하여야한다. - 198 -
[ 그림 5-16] 서비스포털서비스개념도내부기관을위한서비스는전조예측및분석시스템으로사고 위해전조예측, 사고 위해분석및통계, 사고 위해정보시각화, 사고 위해시나리오관리, 정보검색및요청등의기능을수행한다. 대국민서비스는공통기반으로대국민에게위해관련정보를통합제공하기위한서비스로사고 위해정보제공, 정보검색, 통계정보, OpenAPI등을제공한다. 각서비스의기능구조도는다음과같다. [ 그림 5-17] 식약처내서비스기능구조도 위해감지서비스사고 위해전조예측및조기포착을위한모니터링을위한기능으로수집된위해시그널현황을표출하고이에따른대시보드및전조분석, 보고기능등을지원하며, 다음과같이구성된다. - 199 -
[ 표 5-8] 위해감지서비스기능구조 메인메뉴하위메뉴설명 위해감지서비스 위해대시보드위해시그널현황위해전조분석위기대상위해시그널위해보고및처리 위해관련실시간대시보드및모니터링통계수집된위해시그널현황전체목록및내용조회위해예측, 전조분석기능전조분석후위해시그널중위기대상현황조회위기보고및처리내역관리및저장 위해도분석서비스 위해에대한위기단계를분석하고위해및위험에대한위해도분석시나리오에따라위해도분석을수행하거나사용자요구에의한주도분석, 분석결과보고, 분석결과조회의기능을지원한다. [ 표 5-9] 위해도분석서비스기능구조메인메뉴하위메뉴설명 위해도분석서비스 위기단계분석위해도분석사용자주도분석분석대시보드 분석을통한위기단계결정시나리오및워크플로우기반의위해도평가분석사용자요구에의한대화방식의분석기능위해지도와같은다양한위해통계, 분석대시보드 분석결과보고및처리 분석결과보고및처리내역 분석결과조회 기존분석결과조회 국내 / 해외위해정보서비스 [ 표 5-10] 국내 / 해외위해정보서비스기능구조 메인메뉴 하위메뉴 서브메뉴 설명 식품위해정보 행정처분 국내위해정보서비스해외위해정보서비스 의약품위해정보의료기기위해정보바이오위해정보 회수 / 판매중지검사부적합국내외위해제품허위및과대광고수입위해정보 국내외위해정보를제공하는기능 - 200 -
행정 / 기준정보서비스 식품의약품안전처혹은관련기관의행정정보및문헌자료, 위해관련법령자료, 원시행정 데이터와 HACCP 등과같은기준정보등을제공하는서비스 [ 표 5-11] 행정 / 기준정보서비스기능구조 메인메뉴 하위메뉴 설명 행정정보및문헌자료 식의약품등행정정보및문헌자료정보 행정 / 기준정보서비스 법령자료정보 원시행정데이터 HACCP 정보 위해관련법령자료정보 원시행정데이터정보제공 HACCP 기준정보 공통기반서비스 시스템을이용하는내부기관에게제공되는공통기반서비스로데이터활용기관관리, DB 및 데이터검색기능위기대응및위해전파관련기능등을지원한다. [ 표 5-12] 공통기반서비스기능구조 메인메뉴 하위메뉴 설명 데이터요청관리 사용자필요데이터요청및연계요청 공통기반서비스 활용기관관리 DB 및데이터검색기능 연계활용기관정보관리 수집및통합데이터검색 위기대응및위해전파 위기대응조치및위해전파관리 서비스포탈관리 서비스포탈을관리하기위한관리자기능으로분석시나리오 / 워크플로우관리, 기준코드 관리, 메뉴관리및권한관리, 시스템사용자관리, 콘텐츠관리, 수집및연계데이터관리 등을지원한다. [ 표 5-13] 서비스포탈관리기능구조 메인메뉴 하위메뉴 설명 시나리오 / 워크플로우관리 시나리오기반분석워크플로우관리 서비스포탈관리 기준코드관리메뉴및권한관리시스템사용자관리콘텐츠관리수집 연계데이터관리 수집및분석관련기준코드관리메뉴관리, 사용자권한및메뉴권한관리접근사용자관리콘텐츠관리및데이터공개범위관리 OpenAPI, 연계관리, 수집현황, 연계현황정보 - 201 -
대국민서비스사고 위해예측을위한통합, 수집데이터및분석데이터를대국민에게제공하는서비스로국민과의소통채널이되며, 위해정보를수집하는창구가될수있다. 주요기능으로는위해신고, 위해정보, 관련부가정보, 공공데이터제공등이있다. [ 그림 5-18] 대국민서비스기능구조도 [ 표 5-14] 대국민서비스기능구조 메인메뉴하위메뉴설명 위해신고서비스위해정보제공서비스관련부가정보제공서비스공공데이터제공 식의약품등위해신고 이상증상신고 소비자제보 식품위해정보 의약품위해정보 의료기기위해정보 바이오위해정보 해외상품위해정보법률자료정보기준정보부가정보 공공데이터셋검색 공공데이터셋 제공기능 식의약품등관련위해신고소비자이상증상에대한신고소비자제보회수판매중지, 위해예보, 조기경보, 검사부적합, 행정처분, 허위과대광고, 원산지표시위반, 해외직구주의정보, 해외직구위해정보등분야별위해정보제공관련법률자료, 기준정보, 시험정보등부가정보제공제공되는공공데이터셋검색공공데이터셋제공방법, 기능제공 다 ) 서비스포탈추가고려사항 웹표준및접근성준수시스템구축시사용자의 UX 측면과웹의표준적인측면을고려하여구축해야하며, 이에따라유지보수효율성제고를가져올수있다. 이에전문웹퍼블리셔를활용하여웹표준화및 Cross-Browsing 이슈등을해결해야한다. - 202 -
[ 그림 5-19] 웹표준화및접근성준수개요 모바일디바이스지원 시스템구축시반응형웹구현을포함하여, PC/ 모바일 / 태블릿 PC 등의다양한디바이스에서 서비스를제공받을수있도록구현해야한다. [ 그림 5-20] 모바일웹아키텍처예시 전자정부프레임워크지원전자정부프레임워크에존재하는다양한종류의컴포넌트를사용하여구축해야하며, 프레임워크에대한통일화와국가차원의프레임워크표준화를위하여구축한전자정부프레임워크지원을포함해야한다. - 203 -
[ 그림 5-21] 전자정부프레임워크개요 5) 빅데이터인프라구성방안가 ) 소프트웨어구성방안일반적인빅데이터기반플랫폼의아키텍처와 Big Data 플랫폼요구사항들을고려하여 Front End, Middle Tier, Back End간의투명성과결함방지를제공하고수평적확장가능하며비용절감및자원관리효율성을고려한아키텍처를구성한다. 빅데이터수집, 원본데이터저장, 트랜잭션저장, 실시간분석플랫폼, 배치분석플랫폼, In-Memory 분석플랫폼, 데이터마이닝 / 통계도구, 클러스터관리및모니터링, 데이터 Serialization 부문별로관련기능이필요하다. [ 표 5-15] 빅데이터플랫폼아키텍처필요기능구분주요기능오픈소스 데이터수집 데이터발생원으로부터안정적인저장소로저장하는기능수행 Flume, Scribe, Chukwa 원본데이터저장 수집된데이터를안정적으로저장하는저장소 비구조적데이터저장소로주로대용량파일저장소 Hadoop File System MoigileFS 트랜잭션데이터저장 원본데이터를실시간으로저장, 조회처리를하기위한저장소구조적저장소또는검색엔지기술을이용 NoSQL(Couchbase, Hbase, Cassandra) Katta, ElasticSerch 실시간분석플랫폼 데이터수집과동시에분석수행복잡한분석보다 count, sum 등단순한 aggregation 연산정도수행 S4, Storm - 204 -
구분주요기능오픈소스 전체또는부분데이터에대해복잡하고다양한 배치분석플랫폼 분석수행대용량데이터처리를위한분산, 병렬처리가필요단순텍스트분석부터그래프분석까지다양한분석 Hadoop MapReduce (Hive, Pig) Giraph, GoldenOrb 모델지원 메모리에로딩된데이터를재사용하여사용자주도 오픈소스없음 In-Memory 분석 분석이가능하도록함 IBM Netezza 플랫폼 여러시스템간의캐쉬데이터를공유하며개별분석 SAP HANA 요청에대한유연한처리가가능하도록구성함 HP VERTICA 데이터마이닝 / 통계도구 Cluster, Classification 등과같이데이터마이닝을위한기본알고리즘라이브러리및도구 Mahout, R 클러스터관리 대부분분산시스템으로구성되기때문에전체클러 Zookeeper, HUE, 및모니터링 스터에대한관제및모니터링복잡 Clumon 데이터 이기종플랫폼및다양한종류의솔루션을사용하므로 Thrift, Avro, Serialization 데이터전송및처리에대한표준프레임워크필요 Protobuf 빅데이터플랫폼구성대상주요소프트웨어로는 R(Analytics), Mahout, Oozie, Sqoop 등이있으며구성요건은다음과같다. [ 표 5-16] 빅데이터플랫폼도입대상소프트웨어구성요건소프트웨어명용도구성요건 Data analysis software R (Analytics) 빅데이터통계분석 A programing language 데이터와관련된입출력, 핸들링, 관리, 분석, 그래픽등최신의알고리즘및라이브러리제공 Mahout 빅데이터통계분석 분석에통찰을부여할수있는그래픽에대한강력한지원분석작업실행라이브러리하둡의 Workflow 스케줄러 : XML기반, DAG Oozie (Flow) W o r k f l o w 스케줄링 코디네이터지원 : 스케줄링 / 모니터링 HTTP 인터페이스 + Command Line 인터페이스 + Web 콘솔다양한액션노드 ( 어플 ) 의지원및제어 * 도입되는시스템과호환성유지 DBMS의자료를 HDFS로 Import/Export Command line 인터페이스 JDBC 지원하는모든 DBMS Sqoop ETL RDBMS(Mysql, Oracle) + DW + NoSQL Database MapReduce 프로그램코드의생성 하둡기반시스템과의통합 Hive, Hbase, Oozie RDBMS 와의고성능커넥터지원 - 205 -
소프트웨어명 용도 구성요건 데이터-흐름기반의스크립트프로그래밍언어 빅데이터 집합, 연관배열, Tuple등의데이터타입을포함 Hive 집계 / 분석 / 처리 데이터를처리하는하이레벨언어자바프로그램으로복잡한테스트쉽게처리 * 도입되는시스템과호환성유지 대용량데이터를컴퓨터클러스터환경에서병렬처리지원 대량데이터 MapReduce 처리분산검색 Elastic Search 엔진분산데이터 HBase 베이스빅데이터저장용 Hadoop 파일시스템빅데이터 Zookeeper 관리시스템외부데이터 Flume 수집 동적스키마생성 Map, Reduce Function 및 Input, 파티션, 비교, 결과쓰기기능제공 분산검색엔진 : 하나의 shard가깨졌을때에, 다른 replace 되어있는곳에서자동적으로이동하여보여줌으로 SPOF 제거 다중타입을가지는다중 Tenant( 하나이상의인덱스를지원, 인덱스마다하나이상의타입을지원, index level별로컨트롤가능 ) Index 구성을다양한곳에가능, 메모리, ( 분산 ) 파일시스템, NoSQL 등 문서지향 ( 미리스키마정의를할필요없음, 색인작업의사용자정의를위해스키마는타입마다정의할수있음 ) 장기간지속을위해신뢰, 비동기쓰기가능 실시간검색가능 다양한 API/ 클라이언트모듈지원 컬럼위주의저장소 HDFS와인터페이스제공 대용량데이터를안정적으로처리 비정형데이터의구조적데이터처리지원 (key, value) 룩업 * 도입되는시스템과호환성유지 리눅스의 FUSE 파일시스템에 HDFS를 Mount 대용량데이터저장소 쉽고빠른시스템환경지원 분산클러스터머신과자원의상태관리 리더선출 분산 Lock 상호배제 : Deadlock방지 이벤트처리 다양한다수의서버로부터데이터를안정적으로수집해서 HDFS에저장하는프레임워크 로그등대용량실시간데이터수집 에이전트와콜렉터다중구성 데이터를수집해서 HDFS에저장및통합관리지원 모든노드와마스터가수평적으로확장가능 Fault-tolerance( 내고장성 ), 고성능지원 - 206 -
소프트웨어명용도구성요건 Unix 기본지원, 모든종류의데이터, 시스템호환지원 동적환경재구성이가능한통합관리지원 Apache v2.0 라이선스, 오픈소스데이터 Crawling 민간데이터 수집 SNS, Web/Blog 등의민간데이터소스로부터필요한데이터를안정적으로수집 빅데이터연계수집서버관련개발대상기능은정형 / 비정형데이터연계유형등록, 비정형 데이터연계모듈, SNS 데이터연계용오픈 API 및연계공통관리기능이다. [ 표 5-17] 빅데이터기반플랫폼개발대상기능 기능목록 대기능중기능소기능 구성요건 비고 정형 정형 기관별정형데이터연계처리를위한 데이터 데이터연계 표준연동방식준용 (DB, Access, FTP, 보유기관연계 연계 유형등록 Sqoop,Flume API 등 ) 비정형데이터연계 비정형데이터연계대상등록 기술유형에따른연계대상등록보유기관연계 연계수집서버 외부데이터연계 오픈 API 처리기준 SNS 및블로그에대한 crawling 기능 구현 SNS, 인터넷 기준정보 연계대상시스템정보, 업무로그등 기준정보관리 공통관리 송수신로그관리 송수신로그및상태정보에대한통합관리 현황통계 송수신이력, 사용기관별통계, 이용 통계와같은현황정보조회 데이터입수 데이터입수및품질관리 비정형데이터에대한입수및데이터 품질확보를위한데이터전체가아닌 Garbage Filtering 을통한데이터수집 수집 연계서버 빅데이터클러스터 빅데이터처리기반 빅데이터파일시스템구성빅데이터분산 DB구성 오픈소스기반빅데이터에코시스템구성 오픈소스기반빅데이터칼럼 DB 구성 빅데이터 빅데이터 빅데이터처리실행을위한집계 / 질의 / 처리기반 집계 / 질의 / 분석 분석기능 빅데이터 저장 데이터 입수 / 품질 관리 데이터입수 처리 데이터입수및품질관리 빅데이터 클러스터 - 207 -
기능목록 대기능중기능소기능 구성요건 비고 데이터저장인증및 데이터저장및분류통합인증처리 주제영역별클러스터데이터체계구성 통합인증 Gateway를활용한인증처리 또는오픈기반인증기능구현 통합인증 Gateway 권한 권한관리 사용자유형별권한관리 BI Report Reporting 을통한리포트템플릿구성 빅데이터분석 분석도구 Analytics OLAP R 또는 Mahout 프로그램기반분석 환경구성 저장데이터조회기반구성 클러스 워크플로우 빅데이터처리 오픈소스기반의빅데이터프로세싱 흐름제어구성 시스템 시스템환경설정, 사용자정보관리, 공통관리 장애, 배치관리등 모니터링 사용현황관리 시스템현황, 클러스터별, 기관별현황등 민간 / 기관정보관리 이용신청및처리관리 빅데이터 정보서비스 API 기관서비스 기관서비스대상웹 UI 및웹서비스 제공기반구축 서비스제공 서비스 서비스등록 제공서비스정보및공통관리 관리 서비스현황 서비스이력, 사용기관별통계등 현황정보조회 나 ) 하드웨어구성방안비용대비효율적인빅데이터처리를위해 x86 계열서버로병렬구성하여장애처리및확장이용이하도록구성을한다. 하드웨어구성시고려사항은정확한정보의신속한전달을위한하드웨어구성, 효율적인운영과데이터증가및확장성을고려한시스템구성, 빅데이터관련최신기술을반영한시스템으로구성한다. 즉정보유통및제공의신속성, 시스템의효율성및안정성, 운영관리편의성을고려한다. 사고 위해예측포탈서비스인프라구성개방이가능한데이터를기준으로검색및정보요청, 커뮤니케이션서비스등을고려하여수평적확장이가능한서버를권장한다. - 208 -
[ 표 5-18] 사고 위해예측포탈서비스인프라구성예시 구분사양최소최대 사고 위해예측포탈서비스 코어수 8 16 메모리 16GB 32GB 디스크 300GB 1200GB 구성예 MIN - [ C : 8 / M : 16 / D : 1200 ] * 1EA MAX - [ C : 8 / M : 32 / D : 1200 ] * 2EA 데이터수집 연계인프라구성수평적확장성과데이터접근성, 복제기능이우수한인프라를권장한다. 주기적인수집작업과수집의상태를확인하는관리기능이필요하다. 수집된데이터를정제하고, 표준화된데이터모델에따라데이터를구성및전처리작업을포함한다. [ 표 5-19] 데이터연계 수집인프라구성예시 구분사양최소최대 데이터연계 수집 코어수 16 32 메모리 16GB 32GB 디스크 300GB 1200GB 구성예 MIN - [ C : 16 / M : 32 / D : 1200 ] * 2EA MAX - [ C : 16 / M : 32 / D : 1200 ] * 4EA 데이터저장인프라구성대용량데이터를안전하게관리하고접근하게지원하는분산저장소인프라구성은개방형분산저장형및분석엔진을보유한하둡및 NoSQL을권장한다. 하둡의경우 HA(High Availability) 로구성하여두개이상의 namenode 구성을권장하며, 하둡의 HBase 구성을통해 NoSQL의성능을고려한시스템을구성한다. [ 표 5-20] 데이터저장인프라구성예시 구분사양최소최대 코어수 16 MAX 데이터저장 메모리 32GB 128GB 디스크 1TB 12TB 구성예 물리적구성 - [ C : 16 / M : 96 / D : 12 ] * 5EA - 209 -
데이터분석 처리인프라구성다중작업이가능한멀티태스크서버를권장하고, 수평적확장과수직적확장이가능한물리적서버를권장한다. 다수의사용자가동시에접근하여수행하기때문에멀티태스크를고려하며, 분석을위한인메모리와힙메모리를혼합한분산병렬분석처리를수행하는솔루션도입이필요하다. 사용자주도분석, 하둡분석, 실시간데이터분석을고려하여야한다. [ 표 5-21] 데이터분석 처리인프라구성예시 구분사양최소최대 코어수 16 MAX 데이터분석 처리 메모리 32GB 128GB 디스크 1TB 12TB 구성예 물리적구성 - [ C : 16 / M : 96 / D : 12 ] * 2EA 데이터시각화인프라구성사용자의분석결과를직관적으로보여주고해석이가능한모형으로출력되어야하며, 관리자페이지와구분되어운영이되어야한다. 분석된결과에대한직관적인표현이가능하도록가볍고빠른응답시간을가져올수있도록설계및구축해야하며, 시나리오기반의분석기능이포함되어야한다. [ 표 5-22] 데이터시각화인프라구성예시 구분사양최소최대 코어수 8 16 데이터시각화 메모리 16GB 32GB 디스크 300GB 900GB 구성예 MIN - [ C : 8 / M : 16 / D : 900 ] * 1EA MAX - [ C : 8 / M : 32 / D : 900 ] * 2EA 하드웨어구성도및소프트웨어구성도하드웨어구성을위한개념은수평적확장을바탕으로내부망과외부망으로분리하여적용한다. 내부망은분석과수집된데이터를저장하는인프라로구성되며, 외부망은웹포털데이터, 소셜데이터등의수집된정보로구성된다. - 210 -
[ 그림 5-22] 전자정부물리적인프라시스템구성예시 < 출처 : 빅데이터공통기반마련및활용을위한 BPR/ISP( 행자부, 2013)> 소프트웨어구성은내부망과외부 Web 영역으로구분하여구성한다. [ 그림 5-23] 전자정부소프트웨어구성예시 2.3 G-클라우드활용방안 1) G-클라우드빅데이터플랫폼구성요소선정 G-클라우드는중앙행정기관의스마트전자정부서비스를위해정부통합전산센터의공동활용형정보자원을필요한만큼신속하게제공하기위해정부통합전산센터가직접운영하는정부전용 Private 클라우드서비스로표준화된운영환경을제공하고있다. - 211 -
부처공동으로사용할수있는가상화기술을적용하여각기관에서필요로하는업무부하를토대로필요한사용량만을할당하며, 필요시추가할당을통하여유연한자원활용성을제공한다. 또한표준화된환경을제공하여정보시스템관리의자동화가용이하며, 운영의안정성및비효율성을제거할수있다. G-클라우드환경에서제공하고있는빅데이터분석플랫폼에서활용할수있는구성요소는다음과같다. [ 그림 5-24] G- 클라우드빅데이터구성요소도출 G- 클라우드환경에서제공하고있는빅데이터플랫폼에서선정한구성요소의역할은아래 표와같다. [ 표 5-23] 구성요소설명 구성요소 수집영역 처리영역 용도 Nutch를활용하여 SNS 및외부포털데이터수집 Sqoop를활용하여유관기관의 RDBMS 등의데이터수집 Flume를활용하여유관기관반정형 / 비정형데이터수집과 SNS 및외부포털데이터수집데이터수집기를개발하여 G-클라우드가상화서버에설치하여데이터수집가능 Java MapReduce 프로그램을활용하여데이터처리 Hive를활용하여데이터조회및가공처리 Pig를활용하여데이터조회및가공처리실시간데이터처리를위하여 Storm을활용 - 212 -
구성요소 분석영역 저장영역 용도 R 기반데이터분석알고리즘수행및분석결과제공 Strom을활용하여실시간데이터분석및필터링에활용 Apache Hadoop을활용하여비정형 / 반정형 / 정형의원천데이터저장가공및정제된데이터의경우 NoSQL인 Apache Hbase를통해저장사용자포탈및서비스를위한시스템에서의활용을위하여 RDBMS에데이터저장 데이터수집, 처리, 분석, 저장영역에필요한빅데이터구성요소를도출하여, G-클라우드환경에서구성할수있으며, 물리적인 H/W 및 S/W 비용을절감하고운영인력의제반비용을절약할수있다. 오픈소스기반의빅데이터플랫폼을구성하여데이터및부하를모니터링하여빠르고쉽게 Scale Out을할수있으며, 안정적인운영이가능하다. 2) G-클라우드기반빅데이터분석플랫폼 G-클라우드환경에서제공하는분석플랫폼에서선정된구성요소를활용하여사고 / 위해예측기반모델에적용하면아래와같다. [ 그림 5-25] 빅데이터분석플랫폼모델 빅데이터분석플랫폼의데이터저장및분산파일시스템은아파치하둡을고려하였으며, 처리및분석영역에서는오픈소스기반의에코시스템으로모델링을하였다. G-클라우드에서제공하고있는분석플랫폼에서본사고 / 위해예측기반시스템을구성하기위해도출한제품으로모델링을하였으며, 각영역별필요하드웨어사양은아래표와같다. - 213 -
[ 표 5-24] G- 클라우드제공 H/W 서비스카탈로그 서비스구분 vcore Memory 용도 타입 1 2 4GB 소규모 WEB/WAS( 단순홈페이지용 ) 소형 타입 2 2 6GB 고사양메모리가필요한소규모 WEB/WAS 용 타입 3 2 8GB 고사양메모리가필요한중소규모 WEB/WAS 용 타입 1 4 8GB 일반적운영 WEB/WAS/DB 업무용 ( 내부업무시스템 ) 중형 타입 2 4 12GB 고사양메모리가필요한소규모 WEB/WAS/DB 업무용 타입 3 4 16GB 고사양메모리가필요한중소규모 WEB/WAS/DB 업무용 타입 1 8 16GB 대용량 CPU 가필요한중규모운영 DB 업무용 고급 타입2 8 24GB 대용량 CPU 및고사양메모리가필요한중규모운영 DB 업무용 타입3 8 32GB 대용량 CPU 및고사양메모리가필요한대규모운영 DB 업무용 * 디스크는기본 100GB제공, 100GB 단위로추가가능 해당표준템플릿구성과버전은 `14.10월기준이며, 변경가능 사고 위해예측시스템을위한하드웨어용량은 G- 클라우드의확장성을활용하여아래와같 이유연하게구성할수있다. [ 표 5-25] G- 클라우드기반사고 / 위해예측시스템 H/W 선정기준 서버용도 G- 클라우드비고 Web/WAS 서버사고 위해예방포탈서버고급 (Type1) Scale Out 을통한서버부하분산 App 서버데이터분석 / 처리용서버고급 (Type3) DB 서버포털용 DB 서버고급 (Type3) 수집 / 저장용서버데이터수집 / 저장용서버고급 (Type3) (VM 추가할당 ) Scale Up을통한서버성능향상 (CPU, Memory 추가할당 ) 저장용량및처리기능향상을위한 Scale Up + Scale Out 기능지원. 가 ) 빅데이터수집 / 저장용서버빅데이터수집 / 저장을위한 G-클라우드시스템활용시에고려할사항은초기충분한서버성능및데이터공간확보가필요하다. 일반적으로하둡시스템의경우데이터노드추가를통한수평확장이가능하지만시스템사양이떨어질경우데이터처리속도에영향을 - 214 -
줄수있다. 따라서 G-클라우드활용시정부통합전산센터에서제공하는사양을확인하여최대한의성능을확보할필요가있다. 나 ) 빅데이터분석 / 처리서버데이터분석 / 처리를위한서버는주요분석및데이터처리를수행하는서버로많은성능을요구하는시스템이다. G-클라우드활용시고사양의서버로구성되어야하며, 추가기능에따른서버확장 (Scale Out) 이가능하도록고려되어야한다. 다 ) 서비스포털서버서비스포털서버의경우 G-클라우드활용시정부통합전산센터의안정적인대내외서비스구현이가능하며, 향후사용자증가및서비스확대시서버확장 (Scale Out) 을통하여유연하게대처할수있다. 3) G-클라우드활용을위한기관별역할신규구축시각부처, 정부통합전산센터간절차는아래와같다. [ 그림 5-26] G- 클라우드전환을위한기관간업무절차 정부통합전산센터는 G- 클라우드자원의효율적관리를위해주기적으로가상서버할당자원 (CPU, 메모리, 디스크 ) 의사용량을분석후, 고객기관과협의하여탄력적으로시스템의자원 증설또는회수를실시한다. - 215 -
2.4 빅데이터백업방안 1) 데이터백업방안데이터저장을위해가장많이사용하는오픈소스인 HDFS(Hadoop Distributed File System) 의백업을고려한물리적인 Disk 구성은다음과같다. Hadoop 은블록단위로파일을보관하며, 기본블록설정은 64MB 이다. 또한분산파일시스템구조로블록을다중노드에분산해서보관하며, Replication 을통하여하나의블록은여러노드에복제하여특정노드장애에무정지대응을할수있도록구성되어있다. 고가용성 (High Availability) 을유지 보장하기위해데이터를 Replication, 즉, 3배수복제하여저장을하며, HDFS 2.0 버전부터는마스터 (Name Node) 를이중화 (Active-Standby) 하는 HA 지원이가능해졌다. 마스터 (Name Node) 의경우는이중화가가능해졌지만, 중요한정보들을가지고있으므로, 물리적으로 Disk 백업체계를고려해야하며, Data Node의경우는 Hadoop이자체적인 Replication(3배수복제 ) 을통해서고가용성을보장하기때문에물리적인디스크백업이필요하지는않다. 따라서적어도마스터 (Name Node) 는 RAID 5 ( 또는 RAID 10) 으로구성하고, Data Node는 RAID 0으로구성하면적합하다. (Disk 구성은 Hadoop 배포판에따라차이가있을수있다.) 2) 데이터저장을위한디스크 RAID 구성 RAID 17) 는다양한디스크배열, 구성방식을이용하여중복성을통해저장기능과신뢰성을제공하는기술이다. 즉, 여러개의디스크를하나로묶은 Stripe, 중복저장하는 Mirroring 등의방식을묶어다양하게디스크를배열해서사용하는것으로 RAID LEVEL 0부터 20여가지의방식이있으며, 일반적으로는 0,1,5,10 정도가사용된다. 나머지는실제사용되지않거나전문시스템용이다. [ 표 5-26] 디스크 RAID 구성방식 RAID 내용 최소 2 개의디스크필요 최대용량 : 디스크의수 x 디스크의용량 ( ex: 100GB x2 대 = 200GB 의하나의디스크, 100GB+150GB=200GB 작은양으로동일하게구성됨 ) 중복저장없음 (no mirror, no parity) 데이터를여러디스크드라이브에분산저장하여입출력성능은뛰어나지만, 백업되는디스크가없기때문에불안정 Critical System 에는사용하면안되며, 데이터입출력속도가높아야하는환경인스트리밍서버나웹서버, 그래픽관련에주로사용된다. 17) RAID : Redundant Array of Inexpensive (Independent) Disks. - 216 -
RAID 내용 최소 3 개의디스크필요 최대용량 : ( 디스크의수 -1 ) x 디스크의용량 ( ex: 100GB + 100GB + 100GB = 200GB, 나머지는패리티정보저장 ) 세개이상의디스크를하나의디스크처럼사용하고각각의디스크는패리티정보를가지고있어하나의디스크가깨져도다른두개의디스크를이용해서디스크복구가가능하다. RAID 0 와같이 Stripe 되어있어 RAID 0 만큼은아니지만입출력성능이좋다. parity 를이용하여중복저장이가능하여확실하고안전하게데이터를보존할수있는구성으로알려져있으며, 일반적으로 DB 스토리지구성에적용되고있다. 최소 4 개의디스크필요 RAID 1 과 RAID 0 기술복합, 즉, 4 개이상의디스크를 2 개씩 RAID 1 묶고, 묶은것을다시 RAID 0 로 Striping 한구성이다. RAID 0 의단점인안정성의불안을없애고, RAID 1 의장점인입출력성능을대폭향상시킬수있다. 최고의안정성과성능을보장하지만 RAID 구성을위한비용이많이소모되는단점이있다. RAID Controller 비용이적지않고 Mirroring, Parity 등을위해디스크용량을 100% 활용못하는것을고려해야한다. - 217 -
3. 사고위해예측시스템관리방안 3.1 운영관리조직도 1) 사고 위해예측시스템운영조직도 [ 그림 5-27] 사고 위해예측시스템운영조직도 2) 각조직별역할과책임 [ 표 5-27] 조직별역할과책임 구분운영담당관심의위원회자문단 IT 관리담당운영기획담당활용서비스개발담당 역할 공통기반의운영목표와방침제시 해당조직의성과를창출하는최종의사결정담당 공통기반의서비스제공을위한표준화및이해관계자조정 서비스모델및정보보안방안법, 제도등심의 데이터분석활용방안승인 시스템운영, 분석모델, 선진사례제시등기타내부에서필요로하는수준높은기능들에대한자문담당 빅데이터플랫폼의 H/W, S/W, N/W 등의 IT 인프라기반관리 공통기반플랫폼의발전전략수립 예산확보, 관계기관, 이용부서와협력 현업부서및자치활용을위한서비스모델, 분석모델등의개발과운영 - 218 -
3.2 정보보안및개인정보보호방안 1) 정보보안및개인정보보호개요개인정보보호법의목적이 개인정보의수집 유출, 오용 남용으로부터사생활의비밀등을보호함으로써국민의권리와이익을증진 하는것으로되어있지만개인정보와비개인정보를명확히구분하기가어렵고, 기술의발달로개인정보를파악해낼수있어프라이버시를침해할가능성이있다. 방송통신위원회는 2013년 12월 18일 빅데이터개인정보보호토론회 와 2014년 3월 19일 온라인개인정보보호세미나 를통해의견을수렴하고 2014년 12월 23일 빅데이터개인정보보호가이드라인 을발표하였다. 가이드라인의주요내용은빅데이터수집시부터개인식별정보에대한철저한비식별화조치와개인의사상 신념, 정치적견해등민감정보에대한조합 분석등처리금지등에관한것이다. 빅데이터로부터개인을보호하기위해가장중요한것은특정개인을식별하지못하도록하는익명화와정보접근및정보처리에대한통제다. 수집된정보의저장 관리시 기술적 관리적보호조치 시행 ( 제3조제2항 ) 하게되어있고, 비식별화조치가취해진정보를저장 관리하고있는정보처리시스템에대한기술적 관리적보호조치적용하게되어있다. 따라서데이터수집시비식별화된자료를이관받거나, 받을경우에비식별화된프로그램을이용하여수집할수있다. 또한침입차단시스템등접근통제장치설치, 접속기록에대한위 변조방지조치, 백신소프트웨어설치 운영등악성프로그램에의한침해방지조치하는시스템구성을고려해야한다. [ 그림 5-28] 정보보안체계개요 - 219 -
2) 영역별보안요소 영역별보안요소로는관리적보안, 물리적보안, 기술적보안이있으며, 주요내용은다음 과같다. [ 그림 5-29] 영역별보안요소가 ) 관리적보안 정책및절차 - 전체시스템의보안을구현하기위하여표준화된정책이나제도적절차에대한대책수립및가이드라인마련한다. 인원및조직 - 취급상주의를요하는개인정보데이터를조직적인차원에서보호하도록책임부여및통제대책을수립한다. - 정보보호를위한조직구성, 보안교육지침, 보안수준점검지침마련한다. - 모든참여인원에대한보안서약서작성및지속적보안교육훈련실시한다. 문서 - 문서자료의변조, 노출, 손실방지에대한대책을수립한다. 나 ) 기술적보안 데이터보안 - 데이터의변경, 파괴, 노출방지를위한기술이필요하다. - 데이터보안등급, 데이터보안의범위, 데이터베이스보안관리기본지침, DB 사용자별 - 220 -
권한부여, 각종파일의권한관리가필요하다. 어플리케이션보안 - 시스템소프트웨어, 어플리케이션의접근에대한통제및변경관리등에대한대책마련이필요하다. - ID와 Password에관한지침, 시스템보안절차, 감사및로깅, 백업과 Recovery, 클라이언트보안지침을마련한다. 네트워크보안 - 접근통제지침, 네트워크보안정책의적용대상및범위, 네트워크보안운영지침, 네트워크서비스접근정책, Firewall 보안정책, 사용자지침, 시스템관리자지침을마련한다. 다 ) 물리적보안 설비 - 컴퓨터및주변기기를수용하는구조물과시설의출입통제와우발적사고, 화재, 장애발생을방지하기위해필요한수단을마련한다. - PC, 노트북반출통제 - 휴대용저장장치 (USB 및 Mobile) 통제 - 복사 / 출력물관리 ( 중요정보문서파기 ) - 대용량데이터인터넷전송관리 3.3 법제도개선사항 1) 관련법현황법제도개선사항을파악하기위하여먼저빅데이터일반관련법률의현황과식품 의약품안전관련법률의현황을개괄하면다음과같다. 가 ) 빅데이터일반관련법률개괄빅데이터일반관련법률들의전체현황은다음표와같이개괄된다. 다음표에서개선대상또는유의대상이되는법률은빅데이터활용을제한하고있는법률들이다. [ 표 5-28] 빅데이터일반관련법률의전체개괄 구분 법령명 공공데이터의제공및이용활성화에관한법률 공공기관의정보공개에관한법률 빅데이터 활용촉진 범부처 전자정부법국가정보화기본법 민원사무처리에관한법률 행정절차법등 - 221 -
구분 법령명 분야별 기상법 / 기상산업진흥법 ( 기상정보 ) 통계법 ( 통계정보 ) 건설기술관리법 ( 건설기술정보 ) 발명진흥법 ( 특허정보 ) 공간정보산업진흥법 ( 공가정보 ) 등 빅데이터 활용제한 개인정보보호법제 ( 개인정보보호법이대표적 ) 공공기관의정보공개에관한법률 ( 비공개대상정보 ) 행정조사기본법 ( 행정조사관련정보활용제한 ) 정부조직법 표시ㆍ광고의공정화에관한법률 국유재산법 ( 국가재산처분제한, 비용산정등 ) 공유재산및물품관리법 ( 지자체재산의처분제한등 ) 저작권법 ( 권리처리등 ) 의료법등 < 출처 : 빅데이터법제에관한비교법전연구 ( 한국법제연구원, 2014)> 나 ) 식품 의약품안전관련법률개괄식품 의약품안전관련법률들의전체개괄은다음표와같이정리된다. 이들법률들중에서빅데이터관련조항들은특히표시 광고, 안전관리를위한정보생성 유통, 안전관리과학화와안전기술확보등을꼽을수있다. [ 표 5-29] 식품 의약품안전관련법률의전체개괄구분법령명빅데이터관련조항 / 내용 식품안전관리의과학화 ( 식품안전기본법 ) 제 20 조 정보공개및상호협력등 ( 식품안전기본법 ) 제 24 조 식품안전기본법 기준및규격과표시ㆍ광고등 건강기능식품에관한법률 ( 건강기능식품법 ) 제 14 조 화장품법 화장품의취급 : 표시 광고 취급 식품, 화장품 안전 식약처소관 식품위생법축산물위생관리법수입식품안전관리특별법어린이식생활안전관리특별법 등 ( 화장품법 ) 제8조 표시 ( 식품위생법 ) 제2조 수입전단계, 수입영업, 통관단계, 유통단계관리 ( 수입식품특별법 ) 제 2~3 장, 제 5 장 어린이기호식품관리등 ( 어린이식생활안전관리특별법 ) 제 6 조 식약처포함 농수산물품질관리법 생산ㆍ가공시설의등록ㆍ관리 다부처소관 ( 농식품부, 해수부 ) 등 - 222 -
의약품, 의료기기안전 구분 법령명 빅데이터관련조항 / 내용 식약처소관 의료기기법 관리, 감독제6장 약사법 ( 보건복지부 ) 식약처포함 의약품등의취급 : 의약품등의 인체조직안전및관리등에다부처소관광고등 ( 약사법 ) 제6장관한법률 ( 보건복지부 ) 식품의약품등의안전기술 진흥법 식품 의약품등의안전기술 식품의약품분야시험검사기타식약처소관분류체계작성 ( 안전기술진흥법 ) 등에관한법률제11조 마약류관리에관한법률 실험동물에관한법률 국민건강증진법 ( 보건복지부 ) 가축전염병예방법 ( 농식품부 ) 사료관리법 ( 농식품부 ) 식품산업진흥법 ( 농식품부, 해수부 ) 기타타부처소관 식품안전관련 친환경농어업육성법 ( 농식품부, 해수부 ) 소금산업진흥법 ( 해수부 ) 학교급식법 ( 교육부 ) 학교보건법 ( 교육부 ) 먹는물관리법 ( 환경부 ) 유전자변형생물체의국가간이동등에관한법률 ( 산업부 ) 주세법 ( 기재부 ) 등 < 출처 : 식품 의약품안전관련법제개선방안 ( 한국법제연구원, 2009)> 2) 빅데이터활용을위한법률개선시일반적검토사항가 ) 빅데이터일반관련법률현재, 빅데이터에관한업무를담당하고있는주무정부부처로는미래창조과학부정보화전략국과행정자치부창조정부조직실을들수있다. 미래부정보화전략국은 빅데이터활성화정책수립및기반조성 등에관한업무를수행하고있으며, 행자부창조정부조직실은빅데이터에관한제도 정책및기본계획의수립 시행, 행정정보관련빅데이터기반구축 운영및활용등에관한업무를추진하고있다. 따라서빅데이터일반관련법률의개정시에는이들정부주무부처가총괄 조정 지원할것인바, 식품 의약품안전관리의고도화를위한빅데이터최적활용이라는식품의약품안전처목표가법률개정시에충분히반영되도록이들주무부처들과선제적으로협력할필요가있다. 식품 의약품안전관련빅데이터최적활용을위해서는법률개선을통한법적근거의마련뿐아니라유관및관계기관간신뢰관계를돈독히하여상호충분한이해를바탕으로데이터공유및정보활용등에있어서협력할필요가있다. - 223 -
데이터공유및정보활용에있어서, 유관부처나기관에공개되지않은자료를요청하기위해서는먼저법적으로문제가없는지여부 ( 개인정보포함여부 ) 를검토하고, 유출에대한명확한책임을규정할필요가있다. 나 ) 식품 의약품안전관련법률데이터는과거경험을의미하며빅데이터분석은의미없었던개별데이터들이대량으로축적되고분석되는과정에서유의미한통찰을얻는것을말한다. 따라서식품 의약품안전분야에서의미있는빅데이터분석이이뤄지기위해서는먼저데이터의생성 축적및유통 전달이원활하고용이하고그리고거대한규모로이루어져야한다. 빅데이터자체인경험의집합은식품 의약품안전관리의전과정에서생성되는데, 이러한경험치들이데이터로생성, 축적, 유통, 활용되는것을원활히하도록식품 의약품안전관련법률들의제반조문들을분석하여개선할필요가있다. 스마트공장을만들기위해서는공장의모든시설과장비들에사물인터넷이적용되어, 센서들에서데이터가생성되고이것이인터넷으로전달 축적되어분석되어야하는것처럼 스마트식품 의약품안전관리 를위해서는식품 의약품안전관리의모든분야와단계에서데이터의축적이선행되어야한다. 특히, 식품 의약품안전관련법률들의조항중기준 규격, 관리 감독, 정보 협력, 표시 광고 취급등의조항들에서이러한데이터의생성 축적 유통 공유가원활해지도록법률을개선할필요가있다. 예를들어, 사고 위해예측활동을위한정보수집관련법적근거마련사항을위해식품의중량표시나신규위해물질표시등을강제할필요가있는지등을검토할필요가있다. 빅데이터예측분석의최종목적은통찰및이에따른실행 (Action) 인데, 따라서예측분석결과를통해얻을통찰을바탕으로실행할대응활동시필요한법적근거마련에대한검토도요구된다. 예를들어아직사고가일어나지않았지만예측분석결과에따라사고가예상되고사고를예방하고통제하기위하여강제조사나제품에대한선제적회수및폐기등의조치가가능하도록법률개선을할필요가있다. 3) 빅데이터일반관련법률중주요법률개선사항가 ) 개인정보보호법개인정보의익명화, 식별불가능화, 분리화가된정보를바탕으로자료를확보하고데이터셋을구성하는것이요구되며, 공공의안녕을위하여불가피하게해당자료가공유되는경우에는사적활용이나남용에대한처벌근거조항을명백히하고제 3자유출을방지하는것이중요하다. 나 ) 공공기관의정보공개에관한법률공익을위하여관계기관간에개인정보의익명화, 식별불가능화하여이용한다면상호요청할수있는근거마련이손쉬워질수있다. - 224 -
다 ) 행정조사기본법행정조사기본법은국가정책실현을위한자료조사및정보수집에적용되는기본법으로목적을일부한정에두고최소수집을목적으로하고있는데, 빅데이터분석을위한민간데이터를활용할시에, 동법의적용을배제시킬수있는방안마련이필요하며, 민간에서작성되는정보에대한수집, 저장등에대한법적근거가미약하기에민간작성정보수집 / 저장에대한법적근거마련이요구된다. 라 ) 정부조직법정부조직법상행정기관간독점적 배타적인권한부여로인해협업과공유가어렵다는특징을가지고있으나, 행정기관간 EA를통한정보공유나세부절차등을마련하여빅데이터활용기반을구축할필요가있으며, 법적으로자료를요청할수있는근거를마련하고추가적으로관계기관과긴밀한협조관계를유지하는것이중요하다. 마 ) 표시광고법식품, 건강기능식품, 의약품등의표시및광고와관련하여, 국민의안전에지속적인위해를끼치는경우에일정한요건을갖추어표시및광고요건을강화할필요가있다. 4) 식품 의약품안전관리관련법률중표시 광고 정보등조항개선사항가 ) 빅데이터활용가능성이많고법적제약사항이적은정보 [ 표 5-30] 빅데이터활용가능성이많고제약사항이적은정보대상정보관련법제제약내용표시광고, 유전자변형물질농수산물품질관리법표시광고, 건강기능식품식품위생법표시광고, 필요시추가공정거래법기상, 기후, 관측정보기상법, 기상산업진흥법, 기상관측표준화법 무역, 통상거래등정보보건의료통계농수산관련일반현황정보농어업경영정보식품의품질및수급관련정보농수산가격, 물류, 이력, 품질정보수산업유통, 어장, 수출, 통상, DB정보 대외무역법, 무역거래기반조성에관한법률보건의료법농어업 농어촌및식품산업기본법농어업업체육성및지원에관한법률식품산업기본법농산물품질관리법, 농수산물유통및가격안정에관한법률수산업법, 수산자원관리법 수집 작성된정보를공개, 공표등법령에서이용촉진및보급활성화권장정보 데이터나정보의생성 축적 유통 전달 분석과관련하여특별한법률적제약이없어, 법령개선의 목표가생성 축적 유통 전달 분석대상이되는식품 의약품안전관련정보의양의확대와 질의개선이주인경우이다. - 225 -
나 ) 빅데이터활용가능성이많으나제약사항이있는정보 [ 표 5-31] 빅데이터활용가능성이많으나제약사항이있는정보 대상정보관련법제제약내용또는제약이유 생산량및판매량약사법, 국세법특정사업자의영업비밀노출등 부작용 물가정보법률 약사법, 의료법, 건강기능식품에관한법률등 물가안정에관한법률 환자의개인정보노출우려물가안정정책목적으로만사용, 특정사업자에대한원가및영업비밀등을보호 주민신고정보 공익신고자보호법, 특정범죄신고자보호법, 부패방지및국민권익위원회의설치와운영에관한법률 신고인정보보호, 공개 / 보도금지, 가명사용허용, 신변보호조치등 민원정보 민원사무처리에관한법률 민원은국민의권리의무와관계된 사항으로서개인정보에해당 진료기록, 처방자료의료법, 약사법개인의신상정보노출 여러가지이유로데이터나정보의생성 축적 유통 전달 분석과정에법률적제약이있는경우로, 식품 의약품안전관리상의유익과법률적제약의이유사이에서절충점을찾아법령개선을 시도해야하는경우이다. - 226 -
4. 이행계획수립 4.1 이행계획수립개요이행계획수립은목표모델이행계획을수립하는과정으로이행과제정의, 우선순위도출, 단계별수행전략, 추진체계와기대되는기대효과를정립한다. [ 그림 5-30] 이행계획개요및수립절차 4.2 이행계획수립전략이행계획수립은이행과제도출, 소용예산및일정, 단계별로드맵, 기대효과측면에서다음과같은전략으로수립한다. [ 그림 5-31] 이행계획수립전략 - 227 -
4.3 이행과제정의 식의약품등위해관리정보화비전및전략영역에서도출한추진과제와구축방안에서나타난내역을바탕으로다음과같은이행과제를도출하였다. 1) 빅데이터기반구축이행과제 [ 표 5-32] 빅데이터기반구축이행과제이행과제상세내역설명 빅데이터공유및연계를위한데이터연계 데이터연계기반구축 기술을통해 (ESB/EAI) 데이터연계기반구축단계별로필요한기술및필요개수를파악 하여솔루션을도입 망연계솔루션구축 네트워크내부망과외부망간의데이터연계를위한망연계솔루션도입 빅데이터수집 ( 연계 ) 플랫폼구축 실시간스트리밍처리인프라구성 수집되는데이터에특성에따라스트리밍데이터의경우선택적으로저장및처리를위한솔루션도입실시간처리인프라구성및솔루션적용 웹데이터의수집을위한인프라구성및 웹크롤링및웹수집기반 관련솔루션도입 구축 웹크롤링, OpenAPI 등을고려한웹데이터수집 구현 내부시스템및유관기관 ESB,EAI 등관련기술체계를활용하여내부 데이터연계 시스템및유관기관데이터연계구현 빅데이터분산병렬처리를위한 Hadoop Hadoop 기반구축 기반구축및관련솔루션도입 Hadoop 인프라 ( 서버및네트워크 ) 구성및 Hadoop 클러스터구성 빅데이터저장플랫폼구축 RDB 저장기반및구축 정형데이터를저장하기위한기반인프라및관련소프트웨어도입상용 RDBMS 및오픈소스기반 RDBMS 등 효율성을중심으로선택하여구성 NoSQL 및 Object(File) 저장소구축 NoSQL 및 Object 데이터를저장하기위한관련솔루션도입 Hadoop의 HBase를근간으로구축 Hadoop 의비정형데이터에대한전처리과 Map-Reduce 및 Hadoop 정을구현하기위한 Map-Reduce 기반구현 질의기반구현 Hadoop 질의기반구현 (HIVE, Pig 등에코 빅데이터분석 시스템구현 ) 플랫폼구축 위해전조예측등실시간스트리밍데이터에 실시간분석기반구축 대한수집및분석을동시에수행하는실시간분석기반구축 관련솔루션도입 - 228 -
이행과제상세내역설명 빅데이터서비스포털구현빅데이터기반구축을위한인프라구성 사용자주도분석내부사용자 / 활용기관서비스포탈구축대국민서비스포털구축하드웨어도입및설치소프트웨어도입및설치네트워크도입및설치 사용자들이자신의시각으로데이터를분석할수있도록분석대상데이터에대한선택 / 제거만으로실시간연관검색및사용자주도형으로분석할수있는분석기반구현 사고 위해예측분석관련내부사용자및활용기관을대상으로한서비스포탈구축 데이터셋 ( 클러스터 ) 및활용채널을관리하기위한기능구축 ( 연계현황, 연계정보, 활용기관, 정보요청등 ) 연계 수집된데이터를기반으로대국민에게개방이가능한위해관련데이터를제공 데이터검색, 위해정보전달, 데이터셋제공등대국민활용서비스포털구축 빅데이터기반구축을위한서버및스토리지등의도입및구성 서버, 스토리지등을운영및관리하기위한소프트웨어도입및구성 네트워크를구성하기위한라우터, 스위치, 방화벽등의도입및설치 2) 활용과제별이행과제 [ 표 5-33] 활용과제별이행과제 이행과제상세내역설명 사고 위해전조포착을통한 전조예측및조기경보 사고 위해전조포착을통하여위험상황을조기에포착하여빠른대응을할수있는기반마련전조예측을위한분석모델수립및조기경보체계구축 활용과제별 이행과제 사고 위해위기단계분석 사고 위해시그널을통한전조포착후위기 단계를분석평가하여단계별대응체계마련 사고 위해위해평가및 분석 ( 위해도 ) 사고 위해관련위해도분석대상에대하여 위해도를평가하는시나리오기반체계마련 위해정보대국민서비스 연계되고통합된데이터및분석데이터를 기반으로위해정보대국민서비스구축 - 229 -
4.4 우선순위평가우선순위의평가방법은평가기준, 평가항목을기준으로결정하며, 이결과를통하여단계별이행로드맵을작성하는기준이된다. 중요성 ( 시급성, 타업무영향도, 추진의지 ) 과실현가능성 ( 개발난이도, 기술성숙도, 보유역량, 추진노력등 ) 기준과평가항목 / 척도를정의한다. 시급성및평가항목에대해서는 5점척도혹은 10점척도로산정한다. 빅데이터분석기반과활용과제는매년확대구축해야하므로별도우선순위평가를수행하지않는다. 다음은이행과제우선순위예시를나타낸다. [ 그림 5-32] 이행과제우선순위예시 < 출처 : 빅데이터공통기반마련및활용을위한 BPR/ISP( 행정자치부,2013)> 다음은우선순위평가방법예시를나타낸다. [ 표 5-34] 우선순위평가방법예시 평가항목개요평가방법 내부정책에기초하여활용과제의 시급성 목표를달성하기위하여 시급하게실행해야할과제 시급성을 10점척도로평가함 10점 : 우선추진과제로선정된것 1점 : 빅데이터주요과제중시급성이낮고 연관성도낮은과제 활용성 내부정책과연관성이많아정보사용이높을활용기반구축이시급한것으로예상되므로시급성이큰과제에대해정보 10점척도로평가함 < 출처 : 빅데이터공통기반마련및활용을위한 BPR/ISP( 행정자치부,2013)> - 230 -
4.5 단계별이행로드맵빅데이터기반및활용과제구축을위한단계별이행로드맵을다음과같이제시한다. 1단계는예측분석기반구축마련, 2단계는 1단계고도화및서비스확대, 3단계는 2단계고도화및서비스고도화하는방향으로사업을추진한다. [ 표 5-35] 사고 위해예측시스템구축단계 구축단계 1 단계 : 2016 년예측분석기반구축 2 단계 : 2017 년 1 단계고도화및서비스확대 3 단계 : 2018 년 2 단계고도화및서비스고도화 추진목표 [ 식품 ] 빅데이터를활용한사고 위해예측시스템서비스기반구현사고 위해전조예측및위해평가분석기반구현 [ 의약품, 화장품 ] 사고 위해예측시스템서비스확대, 예측분석서비스확대 [ 의료기기, 바이오 ] 위해평가기반서비스고도화예측분석서비스고도화 추진과제 빅데이터수집및저장플랫폼기반구축분석플랫폼기반구축사고 위해예측서비스시스템모델설계및기본서비스구축 1단계고도화구축예측분석시나리오관리예측 / 분석기능확대데이터통합확대서비스포털기능확대 2단계고도화구축실시간위해도분석기능위해노출영향평가분석연관분석고도화서비스포털기능고도화 4.6 사업추진조직및추진일정 1) 추진조직 사고 위해예측시스템을위한추진조직도는다음과같다. [ 그림 5-33] 사업추진조직도 - 231 -
2) 추진일정 사고 위해예측시스템 1 단계구축을위한이행일정은다음과같다. 4.7 소요예산및자원계획 [ 그림 5-34] 사고 위해시스템 1 단계구축일정 1) 사고 위해예측시스템구축인건비소요예산 소프트웨어개발비산정은빅데이터구축사업의과업내용및특징등을고려하여투입공수에 의한방식을적용하였다. 이방식은엔지니어링사업대가의기준을준용하여소프트웨어 개발비를산정하는방식으로, 투입인력의직접인건비는 통계법제 18 조 ( 통계작성의승인 ) 에 따라조사및산출되어한국소프트웨어산업협회가공표하는소프트웨어기술자노임단가 ( 대 가산정시점에서가장최근노임단가를적용함 ) 를적용하여산정함을원칙으로한다. 소프트웨어개발비는기능점수에의한산정방법을원칙으로하고있으나, 아래의사업유형에 한하여예외적으로적용될수있다. - 홈페이지디자인, 웹접근성개선, 동영상등콘텐츠관련정보화사업 - R&D 성격의소프트웨어개발사업 - 사용자에게식별되는기능규모에비해내부처리복잡도가현저히높아기능점수방식의대가체계적용이불합리하다고인정되는소프트웨어개발사업 - 데이터튜닝및최적화, 테스트등기능점수로산정이불가능한경우 - 소프트웨어개발관련예산이 5 천만원미만인사업 - 232 -
가 ) 1 단계구축투입공수 프로젝트기간은초기데이터수집및인프라구성을고려하여 9 개월로산정하였으며, 1 단계예상투입공수는아래표와같이산정하였다. 구축과제역할등급 M0 M1 M2 M3 M4 M5 M6 M7 M8 합계 프로젝트관리 컨설팅 빅데이터플랫폼구축 분석플랫폼 사고위해 예측 서비스포털 월별투입인력 사업관리특급 1 1 1 1 1 1 1 1 1 9 사업지원중급 1 1 1 1 1 1 1 1 1 9 품질관리 모델설계 고급 0.5 0.5 0.5 1.5 특급 1 1 1 3 고급 1 1 1 3 PL 고급 1 1 1 1 1 1 1 1 1 9 개발 / 구축 고급 1 1 1 3 중급 1 2 2 2 2 2 2 13 PL 특급 1 1 1 1 1 1 1 1 1 9 설계 / 개발 고급 1 1 1 3 중급 1 2 2 2 2 2 2 13 초급 1 1 1 1 1 1 1 7 PL 특급 1 1 1 1 1 1 1 1 1 9 설계 / 개발 [ 표 5-36] 1 단계기간별투입인력 고급 1 1 1 1 1 1 1 1 1 9 중급 2 2 2 2 2 2 2 14 초급 1 1 1 1 1 1 6 10 10 15.5 14 14.5 14 14 14.5 14 121 나 ) 개발소요예산 총개발소요예산은 1 단계개발공수를기준으로 2~3 단계에대한개발소요예산을산정하였 다. 소프트웨어기술자평균임금은아래와같다. 소프트웨어기술자평균임금 [ 표 5-37] SW 기술자평균임금 구분 평균임금 ( 일평균 ) 평균임금평균임금 2015년 ( 월평균 ) ( 시간평균 ) 기술사 411,642 8,644,482 51,455 특급기술자 373,593 7,845,453 46,699 고급기술자 276,160 5,799,360 34,520 중급기술자 221,375 4,648,875 27,672 초급기술자 190,787 4,006,527 23,848 < 출처 : 한국소프트웨어산업협회 : 시행일 2015 년 9 월 1 일부터적용 > - 233 -
한국소프트웨어산업협회기준소프트웨어개발비산정방법 - 소프트웨어개발비 =( 투입인력수 x 투입기간 x 기술자등급별단가 ) + 제경비 + 기술료 + 직접경비 - 직접인건비 = 투입인력소요공수 평균임금 - 제경비 = 직접인건비의 110 ~ 120% - 기술료 = ( 직접인건비 + 제경비 ) 의 20 ~ 40% - 직접경비 = 해당소프트웨어개발사업에소요되는직접적인경비 소프트웨어개발비 : 1 단계 (2016 년 ) 구분 평균임금 투입공수 (M/M) 특급기술자 \7,845,453 30 [ 표 5-38] 1 단계소프트웨어개발비산정 한달일수금액 ( 원 ) 235,363,590 고급기술자 \5,799,360 29 168,181,440 21일중급기술자 \4,648,875 49 227,794,875 초급기술자 \4,006,527 13 52,084,851 직접인건비합계 683,424,756 제경비 ( 직접인건비의 110% 기준 ) 751,767,231 기술료 ([ 직접인건비 + 제경비 ] 의 20% 기준 ) 287,038,398 직접경비 ( 미포함 ) 합계 ( 부가세별도 ) 1,722,230,385 시장공급가 ( 소프트웨어개발비의 70% 기준 ) 1,205,561,269 소프트웨어개발비 : 2단계 (2017년) [ 표 5-39] 2단계소프트웨어개발비산정 구분 평균임금 투입공수 (M/M) 한달일수 금액 ( 원 ) 특급기술자 \7,845,453 25 196,136,325 고급기술자 \5,799,360 36 208,776,960 21일중급기술자 \4,648,875 36 167,359,500 초급기술자 \4,006,527 7 28,045,689 직접인건비합계 600,318,474 제경비 ( 직접인건비의 110% 기준 ) 660,350,321 기술료 ([ 직접인건비 + 제경비 ] 의 20% 기준 ) 252,133,759 직접경비 ( 미포함 ) 합계 ( 부가세별도 ) 1,512,802,554 시장공급가 ( 소프트웨어개발비의 70% 기준 ) 1,058,961,788-234 -
소프트웨어개발비 : 3 단계 (2018 년 ) [ 표 5-40] 3 단계소프트웨어개발비산정 구분 평균임금 투입공수 (M/M) 한달일수금액 ( 원 ) 특급기술자 \7,845,453 18 141,218,154 고급기술자 \5,799,360 38 220,375,680 21일중급기술자 \4,648,875 27 125,519,625 초급기술자 \4,006,527 0 0 직접인건비합계 487,113,459 제경비 ( 직접인건비의 110% 기준 ) 535,824,805 기술료 ([ 직접인건비 + 제경비 ] 의 20% 기준 ) 204,587,653 직접경비 ( 미포함 ) 합계 ( 부가세별도 ) 1,227,525,917 시장공급가 ( 소프트웨어개발비의 70% 기준 ) 859,268,141 2) 하드웨어용량및비용산정단계별하드웨어도입비용은물리서버기준으로비용을산정하였으며, 향후 G-클라우드로전환시참고사양으로정의한다. 초기빅데이터플랫폼을위한저장용량은향후다양한데이터확보를위하여 1단계부터충분한용량확보후단계적으로확대적용한다. 현재식품의약품안전처에서보유하고있는데이터용량은통합식품안전정보망 (460GB) 을포함하여약 2.5TB 정도이며월증가량은약 15~20GB 로추산되며, 향후관계기관및유관기관의데이터수집영역확대와외부소셜데이터수집을고려하여아래와같이데이터저장용량을산정하였다. - 1단계 (2016년) 빅데이터플랫폼데이터총저장용량 : 5TB - 2단계 (2017년) 빅데이터플랫폼데이터총저장용량 : 10TB - 3단계 (2018년) 빅데이터플랫폼데이터총저장용량 : 15TB 수집 / 저장용서버의데이터용량은 Hadoop(HDFS) Replication(3) 을고려하여서버당물리 적데이터공간을 3TB 기준으로선정하였다. - 데이터저장용량 = (3TB x 5 대 ) / 3(Replication 수 ) = 5TB - 235 -
[ 그림 5-35] HDFS 데이터저장방식 1 단계 (2016 년 ) 하드웨어도입비용 ( 물리서버기준 ) [ 표 5-41] 1 단계하드웨어도입비용산정 용도대수용도사양금액 Web/WAS 서버 2 사고 위해예방포탈 서버 1CPU/8Core,32GB 메모리, 500GB*2HDD \33,000,000 App 서버 2 데이터분석 / 처리용서버 DB서버 1 포털용 DB서버 수집 / 저장용데이터수집 / 저장용 5 서버서버 기타 (Rack 외 ) 2식 2CPU/16Core, 96GB메모리, 500GB*2HDD(OS영역 ), 1TB*2 HDD 2CPU/16Core, 96GB메모리, 500GB*2HDD(OS영역 ), 1TB*2 HDD 2CPU/16Core, 96GB메모리, 500GB*2HDD(OS영역 ), 1TB*3 HDD Rack, Monitor & KVM Switch \48,000,000 \24,000,000 \126,000,000 \19,000,000 합계금액 ( 부가세별도 ) \250,000,000 APP 서버및 DB 서버사양은텍스트솔루션사양을참조하여정의하였다. 2단계 (2017년) 하드웨어도입비용 ( 물리서버기준 ) [ 표 5-42] 2단계하드웨어도입비용산정용도대수용도사양금액 Web/WAS 서버 2 사고 위해예방포탈서버 1CPU/8Core,32GB메모리, 500GB*2HDD \33,000,000 App 서버 2 데이터분석 / 처리용서버 2CPU/16Core, 96GB메모리, 500GB*2HDD(OS영역 ), 1TB*2 HDD \48,000,000-236 -