빅데이터활용식의약품등사고 위해예측기반구축정보화전략계획 (ISP) 주관연구기관주관연구책임자 기관명 소재지 기관장 N2M 서울 김형진 성명 소속및부서 전공 김상목 전략담당 공공정책 총연구기간 2015. 8. 28. 2015. 12. 29.(4개월 ) 총연구개발비 56,400 천원 연구년차 연구기간 연구개발비 1차년도 2015. 8. 28. 2015. 12. 29. 56,400 천원 2015 년도빅데이터활용식의약품등사고 위해예측기반구축정보화전략계획 (ISP) 과제의연구결과보고서를제출합니다. 2015 년 12 월 29 일 주관연구책임자 : 김상목 ( 서명또는인 ) 주관연구기관장 : 김형진 ( 서명또는인 ) 식품의약품안전처장귀하
뒷면 측면 빅데이터 활용 식의약품 등 사고 위해 예측기반 구축 정보화전략계획 ( I S P )
제출문 식품의약품안전처장귀하 이보고서를 빅데이터활용식의약품등사고 위해예측기반구축정보화전략계획 (ISP)(N2M/ 김상목 ) 연구기관의최종보고서로제출합니다. 2015 년 12 월 29 일 총괄연구기관 : N2M 주관연구책임자 : 김상목
빅데이터활용식의약품등사고 위해예측기반구축정보화전략계획 (ISP) 최종보고서 2015. 12. 29
연구책임자의견 연구의범위 본사업에서는첫째식의약빅데이터를활용하여식품 의약품등사고 위해의예측기반을구축하기위한환경및현황분석을실시하고선진해외사례조사를통해유사개발사례및최신기술동향을조사하였다. 둘째, 실제예측기반을구축하기위해식의약품등생산 수입 판매 소비단계자료전체현황을조사하고식품 의약품등사고 위해를예측하기위한식의약품등사고 위해예측최적화데이터기반구축방안을제시하였다. 셋째식의약품등사고 위해예측을위한식품, 의약품, 의료기기, 화장품분야의위기대응매뉴얼상의시나리오를참조하여빅데이터분석및활용방안을제시하였다. 마지막으로향후 3년간빅데이터활용중장기계획을수립하여제시하였다. 연구의한계점 본연구는식품의약품안전처및관계기관의데이터에대한자세한현황과구축 할시스템의구체적인사양을파악하는데한계가있었음을밝힌다. 인용시주의사항 본사업의내용을인용할경우에는반드시식품의약품안전처의동의를얻어야 한다. 주관부서연락처식품의약품안전처정보화통계담당관실 ( 043-719-1619)
목차제1장사업개요 1 1. 사업개요 1 1.1 사업명 1 1.2 주관기관및사업자 1 1.3 사업예산 1 1.4 사업기간 1 2. 사업목적 1 3. 사업범위 1 4. 사업추진체계 2 제 2 장업무환경및현황분석 3 1. 업무환경분석 3 1.1. 환경분석서 3 1.2. 환경분석종합 12 2. 정보기술환경분석 13 2.1 빅데이터개념정립 13 2.2 빅데이터주요구성요소 14 2.3 식품의약품안전처정보시스템현황정보 61 2.4 정부기관데이터현황 67 2.5 사고 위해예측을위한생산, 수입, 판매, 소비단계별데이터현황조사 83 3. 빅데이터활용식의약품등안전관리선진해외사례조사 101 3.1 선진해외사례조사개요 101 3.2 선진해외사례시사점 115 4. 업무환경및현황분석종합 119 4.1 주요현안 119 4.2 핵심성공요소 (CSF) 도출 120 4.3 주요정보화요구사항 (CIR) 도출 121 제 3 장빅데이터기반구축업무설계 122 1. 주제별클러스터분류방안수립및후보군도출 122 1.1 사고 위해예측을위한주제별클러스터분류방안 122 1.2 사고 위해예측을위한주제별클러스터후보군도출 127 2. 데이터연계 분석등빅데이터기반구축을위한업무설계 131 3. 빅데이터활용과제에대한프로세스설계 135
제4장식의약품등사고 위해예측을위한최적화된데이터기반구축 139 1. 사고 위해전조포착및관련정보서비스구성요소도출 139 1.1 사고 위해예측을위한전조포착지표의설정 139 1.2 사고 위해예측을위한서비스구성요소도출 141 2. 주제별클러스터분류방안수립및후보군최적화 143 2.1 사고 위해예측을위한데이터클러스터의분류및후보군최적화 143 2.2 사고 위해예측을위한주제별클러스터후보군최적화방향성 147 3. 학술데이터및웹기반 SNS 키워드검색방안 155 4. 사고 위해분석데이터구조설계및표준화방안 158 4.1 사고 위해분석데이터정의 158 4.2 데이터표준화방안 159 5. 서비스업무설계및운영방안 164 5.1 예측기반서비스활용을위한업무설계 164 5.2 식의약품등사고 위해예측분석시나리오구성 165 5.3 사고 위해예측을위한데이터마이닝분석방안 166 5.4 빅데이터를활용한사고 위해예측기반분석모델 168 5.5 위기대응활용을위한정보제공방안 174 5.6 예측기반서비스운영방안 176 제 5 장사고위해예측기반시스템구축및이행전략 183 1. 식의약품등위해관리정보화비전및전략 183 1.1 정보화비전및추진목표도출 183 1.2 사고 위해예측기반시스템구축과제 183 2. 사고 위해예측을위한목표시스템 185 2.1 사고 위해예측시스템서비스구성도 185 2.2 사고 위해예측빅데이터플랫폼구축방안 186 2.3 G-클라우드활용방안 211 2.4 빅데이터백업방안 216 3. 사고위해예측시스템관리방안 218 3.1 운영관리조직도 218 3.2 정보보안및개인정보보호방안 219 3.3 법제도개선사항 221 4. 이행계획수립 227 4.1 이행계획수립개요 227 4.2 이행계획수립전략 227 4.3 이행과제정의 228 4.4 우선순위평가 230
4.5 단계별이행로드맵 231 4.6 사업추진조직및추진일정 231 4.7 소요예산및자원계획 232 4.8 기대효과 239 표목차 [ 표 2-1] 임상시험계획승인현황 5 [ 표 2-2] 식품등수입현황 8 [ 표 2-3] 연도별의약품수입현황 8 [ 표 2-4] 의료기기산업수입현황 9 [ 표 2-5] 마약류원료물질수입승인건수 9 [ 표 2-6] 2013년산업별사업체수, 종사자수 10 [ 표 2-7] SWOT 분석 12 [ 표 2-8] 데이터수집주요활동 15 [ 표 2-9] 데이터수집기술 15 [ 표 2-10] 데이터유형에따른수집기술 16 [ 표 2-11] 수집관련솔루션 16 [ 표 2-12] 크롤링수집기술고려사항 17 [ 표 2-13] Open API 수집기술고려사항 17 [ 표 2-14] Log Aggregator 수집기술고려사항 18 [ 표 2-15] RDB Aggregator 수집기술고려사항 18 [ 표 2-16] 방식에따른데이터처리기술 22 [ 표 2-17] 처리구분따른데이터처리기술 22 [ 표 2-18] 데이터처리기술고려사항 23 [ 표 2-19] 데이터처리기술도입시고려사항 25 [ 표 2-20] 빅데이터저장기술 34 [ 표 2-21] 확장기술비교 34 [ 표 2-22] 빅데이터하둡플랫폼솔루션 35 [ 표 2-23] 빅데이터 NoSQL 플랫폼솔루션 37 [ 표 2-24] RDB 테이블저장기술고려사항 37 [ 표 2-25] NoSQL 저장기술고려사항 38 [ 표 2-26] 분산파일시스템저장기술고려사항 39 [ 표 2-27] RDB, NoSQL, 분산파일시스템저장방식비교 40 [ 표 2-28] 데이터분석주요활동 41
[ 표 2-29] 통계기법분류 42 [ 표 2-30] 데이터마이닝에서의주요개념 42 [ 표 2-31] 데이터마이닝에의주요기법 43 [ 표 2-32] 텍스트마이닝수행단계 43 [ 표 2-33] 빅데이터분석도구 44 [ 표 2-34] 데이터마이닝고려사항 45 [ 표 2-35] 텍스트마이닝고려사항 46 [ 표 2-36] 소셜네트워크분석고려사항 47 [ 표 2-37] CEP 고려사항 47 [ 표 2-38] 빅데이터분석도구상용비상용비교 52 [ 표 2-39] 빅데이터시각화기술 54 [ 표 2-40] 데이터의시각화기술고려사항 58 [ 표 2-41] 식품행정통합시스템주요기능 62 [ 표 2-42] 식품정보활용시스템주요기능 64 [ 표 2-43] 식품안전정보포털주요기능 65 [ 표 2-44] 개인정보보호방안예시 67 [ 표 2-45] 개방데이터셋의내용 68 [ 표 2-46] 진료내역정보개방항목 70 [ 표 2-47] 의약품처방정보개방항목 72 [ 표 2-48] 건강검진정보개방항목 74 [ 표 2-49] 24개종암유병율데이터내용 77 [ 표 2-50] 4개종암유병율데이터형태 78 [ 표 2-51] 의료정보현황 78 [ 표 2-52] 빅데이터분석테이블정보및갱신주기 79 [ 표 2-53] 테이블정보예시 79 [ 표 2-54] 컬럼정보예시 80 [ 표 2-55] 코드정보예시 80 [ 표 2-56] 데이터셋형태및제공건수 81 [ 표 2-57] LOD 서비스주요데이터셋 82 [ 표 2-58] 위해발생단계별데이터분류 85 [ 표 2-59] 품목별데이터분류 85 [ 표 2-60] 식품의위해발생단계별데이터현황 87 [ 표 2-61] 의약품위해발생단계별데이터현황 90 [ 표 2-62] 의료기기위해발생단계별데이터현황 93 [ 표 2-63] 화장품위해발생단계별데이터현황 94 [ 표 2-64] 관계기관위해발생단계별데이터현황 95 [ 표 2-65] 외부기관위해발생단계별데이터현황 100
[ 표 2-66] 선진사례벤치마킹요약 101 [ 표 2-67] FDA-iRISK 위해도계산방식 111 [ 표 2-68] DALY Endpoint 산출예시 113 [ 표 3-1] 식품분야의위기형태 / 유형 123 [ 표 3-2] 26개의위기상황 123 [ 표 3-3] 위기상황에따른주제별클러스터분류예시 124 [ 표 3-4] 업무프로세스에따른주제별클러스터분류예시 125 [ 표 3-5] 사고 위해사례와위해구성요소 126 [ 표 3-6] 식품의약품군안전문제관련유형 126 [ 표 3-7] 안전문제유형별데이터후보군 128 [ 표 3-8] 사고 위해예측을위한서비스별데이터후보군 129 [ 표 3-9] 설계단계진행및수행내용 133 [ 표 3-10] 연계프로세스 134 [ 표 3-11] 빅데이터활용과제도출 137 [ 표 4-1] 안전문제유형별분류상세화 143 [ 표 4-2] 위기상황별분류 145 [ 표 4-3] 식품업무프로세스별분류 147 [ 표 4-4] 예측구성요소별분류 147 [ 표 4-5] 위기상황대비업무프로세스별데이터후보매핑 ( 식품 ) 예시 148 [ 표 4-6] 사고위해관련분야별키워드예시 155 [ 표 4-7] 사고 위해분석데이터정의 158 [ 표 4-8] 데이터표준정의를위한용어 160 [ 표 4-9] 도메인구성요소예 161 [ 표 4-10] 사고 위해정보의구성요소별 Library( 안 ) 162 [ 표 4-11] 사고 위해정보의품목 Library 예시 ( 안 ) 163 [ 표 4-12] 사고 위해정보의위해요소 Library 예시 ( 안 ) 163 [ 표 4-13] 사고 위해정보코드화시코드체계예시 163 [ 표 4-14] 서비스업무설계 164 [ 표 4-15] 식품의위기단계결정을위한업무프로세스 168 [ 표 4-16] 식품의위기단계결정시데이터클러스터 168 [ 표 4-17] 위해정보시그널관련데이터현황 ( 식품 ) 169 [ 표 4-18] 위기단계분석데이터현황 ( 식품 ) 170 [ 표 4-19] 데이터를통한의사결정기준제시 171 [ 표 4-20] 인력측면의조직세분화 178 [ 표 4-21] 데이터및서비스거버넌스 178 [ 표 4-22] 역량진단모델항목 ( 대항목 ) 179 [ 표 4-23] 역량진단모델항목대항목대비중항목개념 180
[ 표 5-1] 수집플랫폼의구성요건과역할정의 186 [ 표 5-2] 빅데이터수집 / 연계기능 187 [ 표 5-3] 빅데이터분석을위한데이터및저장형태 190 [ 표 5-4] 주요빅데이터분석기술 191 [ 표 5-5] CEP의기능 194 [ 표 5-6] 대시보드주요기능 196 [ 표 5-7] 분석영역별분석기법및적용업무 197 [ 표 5-8] 위해감지서비스기능구조 200 [ 표 5-9] 위해도분석서비스기능구조 200 [ 표 5-10] 국내 / 해외위해정보서비스기능구조 200 [ 표 5-11] 행정 / 기준정보서비스기능구조 201 [ 표 5-12] 공통기반서비스기능구조 201 [ 표 5-13] 서비스포탈관리기능구조 201 [ 표 5-14] 대국민서비스기능구조 202 [ 표 5-15] 빅데이터플랫폼아키텍처필요기능 204 [ 표 5-16] 빅데이터플랫폼도입대상소프트웨어구성요건 205 [ 표 5-17] 빅데이터기반플랫폼개발대상기능 207 [ 표 5-18] 사고 위해예측포탈서비스인프라구성예시 209 [ 표 5-19] 데이터연계 수집인프라구성예시 209 [ 표 5-20] 데이터저장인프라구성예시 209 [ 표 5-21] 데이터분석 처리인프라구성예시 210 [ 표 5-22] 데이터시각화인프라구성예시 210 [ 표 5-23] 구성요소설명 212 [ 표 5-24] G-클라우드제공 H/W 서비스카탈로그 214 [ 표 5-25] G-클라우드기반사고 / 위해예측시스템 H/W 선정기준 214 [ 표 5-26] 디스크 RAID 구성방식 216 [ 표 5-27] 조직별역할과책임 218 [ 표 5-28] 빅데이터일반관련법률의전체개괄 221 [ 표 5-29] 식품 의약품안전관련법률의전체개괄 222 [ 표 5-30] 빅데이터활용가능성이많고제약사항이적은정보 225 [ 표 5-31] 빅데이터활용가능성이많으나제약사항이있는정보 226 [ 표 5-32] 빅데이터기반구축이행과제 228 [ 표 5-33] 활용과제별이행과제 229 [ 표 5-34] 우선순위평가방법예시 230 [ 표 5-35] 사고 위해예측시스템구축단계 231 [ 표 5-36] 1단계기간별투입인력 233 [ 표 5-37] SW기술자평균임금 233
[ 표 5-38] 1단계소프트웨어개발비산정 234 [ 표 5-39] 2단계소프트웨어개발비산정 234 [ 표 5-40] 3단계소프트웨어개발비산정 235 [ 표 5-41] 1단계하드웨어도입비용산정 236 [ 표 5-42] 2단계하드웨어도입비용산정 236 [ 표 5-43] 3단계하드웨어도입비용산정 237 [ 표 5-44] 상용소프트웨어산정기준 237 [ 표 5-45] 1단계소프트웨어도입비용 238 [ 표 5-46] 2단계소프트웨어도입비용 238 [ 표 5-47] 3단계소프트웨어도입비용 238 [ 표 5-48] 단계별총예상소요비용 239 [ 표 5-49] 정량적기대효과 240 [ 표 5-50] 산업파급도의개선효과 240 [ 표 5-51] 업무효율성증대에따른기대효과 240 그림목차 [ 그림 1-1] 사업추진조직도 2 [ 그림 2-1] 빅데이터도입수준과도입시선결과제 3 [ 그림 2-2] 정부보건의료 R&D투자변화 5 [ 그림 2-3] 부처별규제개혁수용률 6 [ 그림 2-4] 국내식품 외식산업규모의증가 7 [ 그림 2-5] 글로벌및국내건강기능식품시장성장 7 [ 그림 2-6] 인터넷쇼핑이용실태조사 8 [ 그림 2-7] 빅데이터주요기술범주및요소기술 14 [ 그림 2-8] Open Source Apache Nutch의구조도 19 [ 그림 2-9] 공공데이터포털오픈API검색및개발계정신청화면 20 [ 그림 2-10] 트위터 API 인증발급및적용예시 20 [ 그림 2-11] Flume의아키텍처 21 [ 그림 2-12] Flume Agent 설정예시 21 [ 그림 2-13] mapreduce 처리구조 26 [ 그림 2-14] Cloudera Impala 아키텍처 27 [ 그림 2-15] Spark Streaming 처리 27 [ 그림 2-16] SNS 데이터수집모델 28
[ 그림 2-17] SNS 데이터전처리및분석모델 29 [ 그림 2-18] SNS 데이터분석수행절차 29 [ 그림 2-19] IBM Netezza AMPP 아키텍처 32 [ 그림 2-20] Geenplum 아키텍처 32 [ 그림 2-21] Vertica 아키텍처 33 [ 그림 2-22] Hadoop 아키텍처 33 [ 그림 2-23] Hadoop 분산파일시스템구조 41 [ 그림 2-24] Esper CEP 아키텍처 48 [ 그림 2-25] EPL 언어예시 48 [ 그림 2-26] 빅데이터분석프로세스예시 49 [ 그림 2-27] Google 트렌드 R, SAS, SPSS 비교 52 [ 그림 2-28] Google 스칼라 Hit 52 [ 그림 2-29] R스튜디오화면예시 53 [ 그림 2-30] 누적막대그래프와시계열그래프예시 55 [ 그림 2-31] 도넛차트와누적영역그래프예시 55 [ 그림 2-32] 버블차트와스템플롯그래프예시 56 [ 그림 2-33] 체로노프페이스, 다차원척도법, 아웃라이어찾기예시 56 [ 그림 2-34] 점지도, 등치선도, 단계구분도, 도형표현도, 유선도예시 57 [ 그림 2-35] 인포그래픽예시 57 [ 그림 2-36] 식품의약품안전처인포그래픽 57 [ 그림 2-37] SAS Visual Analytics 화면예시 59 [ 그림 2-38] 마이크로스트리티지 9.3.1 화면 60 [ 그림 2-39] SAP 비주얼인텔리전스화면 60 [ 그림 2-40] 솔트룩스 RAINBOW 화면 61 [ 그림 2-41] 통합식품안전정보망개요도 61 [ 그림 2-42] 통합식품안전정보망주요내용 62 [ 그림 2-43] 식품행정통합시스템개요도 63 [ 그림 2-44] 식품정보활용시스템개요도 64 [ 그림 2-45] 식품안전정보포털개요도 65 [ 그림 2-46] 식품안전정보포털접속화면 66 [ 그림 2-47] 공공데이터포털시스템구성도 81 [ 그림 2-48] 공공데이터포털 LOD 서비스 82 [ 그림 2-49] 식품산업의가치사슬 83 [ 그림 2-50] 의약품산업의가치사슬 83 [ 그림 2-51] 품목별소비흐름가치사슬 84 [ 그림 2-52] 시카고시데이터혁신을위한조직구성변천 102 [ 그림 2-53] 시카고시데이터혁신및빅데이터플랫폼구축마일스톤 103
[ 그림 2-54] 시카고시데이터혁신을구성하는세가지주축시스템 103 [ 그림 2-55] 시카고시빅데이터서비스모델예시 104 [ 그림 2-56] 식품점검우선순위예측모델 105 [ 그림 2-57] 식품점검우선순위업소선별시뮬레이션 105 [ 그림 2-58] 시뮬레이션결과에따른조기발견율사례 106 [ 그림 2-59] 윈디그리드화면예시 107 [ 그림 2-60] Smart Data Platform 운영체계 108 [ 그림 2-61] FDA-iRISK의결과값화면 110 [ 그림 2-62] FDA-iRISK 전체개념도 111 [ 그림 2-63] FDA-iRISK 위해도계산방식 112 [ 그림 2-64] 정성적위해도평가표 114 [ 그림 2-65] QPRAM 개념도 115 [ 그림 2-66] 선진해외사례로본시스템구축로드맵 118 [ 그림 2-67] 핵심현안과개선방안매핑 120 [ 그림 2-68] 핵심성공요소와정보화요구사항 121 [ 그림 3-1] 사고 위해정보의구성도 125 [ 그림 3-2] 빅데이터기반구축업무절차 131 [ 그림 3-3] 구축업무프로세스 131 [ 그림 3-4] 빅데이터활용과제프로세스설계 135 [ 그림 3-5] 위해사고유형별대응활동정도 136 [ 그림 3-6] 선진사례대비빅데이터활용방향 136 [ 그림 3-7] 예측분석을활용한사전예측프로세스 137 [ 그림 3-8] 위해도분석및평가프로세스 138 [ 그림 3-9] 데이터검색및연계 / 수집프로세스 138 [ 그림 4-1] 사고 위해대응활동 139 [ 그림 4-2] 빅데이터활용서비스모델구성도 140 [ 그림 4-3] 사고 위해예측기반서비스과제도출구조도 141 [ 그림 4-4] 사고 위해조기포착모델 ( 상황인지 ) 142 [ 그림 4-5] 사고 위해전조예측및재발방지모델 ( 예측분석 ) 142 [ 그림 4-6] 위기상황과업무프로세스매핑 148 [ 그림 4-7] 사고 위해분석데이터구조 158 [ 그림 4-8] 데이터표준항목간기본관계 159 [ 그림 4-9] 표준도메인의도출 160 [ 그림 4-10] 표준코드사전예 161 [ 그림 4-11] 데이터표준화구축절차예시 162 [ 그림 4-12] 예측기반서비스활용을위한업무프로세스 165 [ 그림 4-13] 텍스트마이닝분석과정 167
[ 그림 4-14] 위해요소별위해평가흐름도 173 [ 그림 4-15] 식품의위기단계의사결정지원모델 174 [ 그림 4-16] 빅데이터시각화예시 174 [ 그림 4-17] 대시보드도구를활용한대시보드구성예시 175 [ 그림 4-18] 링크드데이터개요및구축공정 175 [ 그림 4-19] Push서비스구조도 175 [ 그림 4-20] 국민건강주의예보시범서비스과정 176 [ 그림 4-21] 심실부정맥예측프로세스 177 [ 그림 4-22] 역량진단모델구성 179 [ 그림 4-23] 역량진단모델 3. 분석역량의중항목및소항목 181 [ 그림 4-24] 역량수준 182 [ 그림 4-25] 역량진단결과예시 182 [ 그림 5-1] 정보화비전및목표 183 [ 그림 5-2] 사고 위해예측시스템서비스구성도 185 [ 그림 5-3] 사고 위해예측빅데이터플랫폼구성도 186 [ 그림 5-4] 사고 위해예측빅데이터수집플랫폼 187 [ 그림 5-5] 빅데이터저장플랫폼구성및역할 188 [ 그림 5-6] 빅데이터저장플랫폼구성방향성 189 [ 그림 5-7] 저장필요데이터및저장형태 189 [ 그림 5-8] 데이터형태변환 (RDB to NoSQL) 190 [ 그림 5-9] 분석플랫폼구성도 191 [ 그림 5-10] 빅데이터분석플랫폼개념도 192 [ 그림 5-11] 하둡에코시스템구성도 192 [ 그림 5-12] 하둡기반분석개념도 193 [ 그림 5-13] Esper CEP 흐름도 194 [ 그림 5-14] 사용자주도분석개념도 195 [ 그림 5-15] 서비스포털구성도 198 [ 그림 5-16] 서비스포탈서비스개념도 199 [ 그림 5-17] 식약처내서비스기능구조도 199 [ 그림 5-18] 대국민서비스기능구조도 202 [ 그림 5-19] 웹표준화및접근성준수개요 203 [ 그림 5-20] 모바일웹아키텍처예시 203 [ 그림 5-21] 전자정부프레임워크개요 204 [ 그림 5-22] 전자정부물리적인프라시스템구성예시 211 [ 그림 5-23] 전자정부소프트웨어구성예시 211 [ 그림 5-24] G-클라우드빅데이터구성요소도출 212 [ 그림 5-25] 빅데이터분석플랫폼모델 213
[ 그림 5-26] G-클라우드전환을위한기관간업무절차 215 [ 그림 5-27] 사고 위해예측시스템운영조직도 218 [ 그림 5-28] 정보보안체계개요 219 [ 그림 5-29] 영역별보안요소 220 [ 그림 5-30] 이행계획개요및수립절차 227 [ 그림 5-31] 이행계획수립전략 227 [ 그림 5-32] 이행과제우선순위예시 230 [ 그림 5-33] 사업추진조직도 231 [ 그림 5-34] 사고 위해시스템 1단계구축일정 232 [ 그림 5-35] HDFS 데이터저장방식 236 부록목차 부록 1. 품목별위해요소분류 ( 안 ) 241 부록 2. 의약품의위기단계별데이터프로파일 245
제 1 장사업개요 1. 사업개요 1.1 사업명빅데이터활용식품의약품등위해 사고예측기반구축정보화전략계획 (ISP) 수립 1.2 주관기관및사업자 주관기관 : 식품의약품안전처 사업자 : 엔투엠 1.3 사업예산 일금56,400,000원 ( 일금오천육백사십만원 )( 부가세포함 ) 1.4 사업기간 2015년 8월 28일 ~ 2015년 12월 29일 (4개월) 2. 사업목적 식품의약품등사고 위해의전조를예측하거나안전관리업무의실효성확보및정책정확성 을높이기위한과학적근거를제공하기위해현안해결형빅데이터예측기반구축정보화전 략계획수립이다. 3. 사업범위 1) 빅데이터를활용한식품의약품등안전관리선진해외사례조사미국등빅데이터예측기반구축및정책정보지원서비스활용사례조사와선진사례를통한빅데이터활용방향성을도출함과동시에선진사례를통한시스템구축방향성을도출한다. 더불어해외위해정보관리방안에대한조사를수행한다. 2) 식품의약품등사고 위해예측을위한빅데이터기반구축설계사고및위해예측을위한빅데이터기반구축설계영역에서는주제별클러스터분류방안수립및후보군도출을중심으로데이터연계, 분석등빅데이터기반구축을위한서비스설계와빅데이터활용과제에대한프로세스설계를수행한다. - 1 -
3) 식품의약품등사고 위해예측을위한최적화된데이터기반구축사고 위해예측을위한최적화된데이터기반구축영역에서는전조포착및관련정보서비스구성요소도출과주제별클러스터분류방안수립및후보군최적화및학술데이터및웹기반 SNS의공유 활용을위한키워드검색방안마련, 사고 위해전조포착및관련정보서비스업무설계및운영방안마련을위한활동을수행한다. 4) 빅데이터활용식품의약품등사고 위해예측기반구축계획수립빅데이터활용식품의약품등사고 위해예측기반구축계획수립영역에서는적용기술동향및선진사례분석, 비전및목표시스템아키텍처정의, 시스템구축계획수립, 정보보안및개인정보보호방안, 중장기로드맵수립, 법제도개선사항수립에대한활동을수행한다. 4. 사업추진체계 [ 그림 1-1] 사업추진조직도 - 2 -
제 2 장업무환경및현황분석 1. 업무환경분석 1.1. 환경분석서 1) 외부환경분석가 ) 일반환경가트너는 빅데이터투자는증가하나효율적활용은드물다. 는설문조사분석보고서에서, 빅데이터도입시선결과제로실질적가치확보방안, 전략수립, 기술및역량, 다양한데이터원의통합등이특히중요하다는응답을받았다고발표했다. 이는빅데이터구축시인프라 / 아키텍처, 기술및역량과같은하드웨어적, 정보기술적요소외에실질적가치활용방안, 전략수립등과같은소프트웨어적, 업무적, 전략적요소가핵심성공요인또는핵심장애요인이될수있음을지적한것으로보인다. 1) [ 그림 2-1] 빅데이터도입수준과도입시선결과제 < 출처 :Garther 2014, Big data Investment Grows but Deployment Remain Scarce> 맥킨지컨설팅은 게임체인저, 미국성장과부흥을위한 5가지기회분야 2) 에서빅데이터가미국의생산성향상과비용절감효과에연간 3,250억달러이상을기여할수있으며, 특히정부서비스부문과헬스케어부문에서비효율성을감소시켜연간 2,850억달러의비용절감효과를기대할수있다고예측하며빅데이터에대한높은기대를반영했다. 영국의저명한경제자문사인 Center for Economics and Business Research 사는빅데이터를공공및민간영역에도입할경우 2012년에서 2017년까지영국산업전체에서약 2,160 억파운드의경제적효과가발생할것이고, 공공부문에서연간 160억파운드에서 330억파운드를절감할수있을것으로예측했는데, 이절감액은영국정부예산총액인 7천억파운드의약 2.5% 에서 4.5% 에해당하는금액이다. 3) 1) Gartner(2014), Big data Investment Grows but Deployment Remain Scarce in 2014 2) McKinsey Global Institute(2013.7), Game Changers : Five opportunities for US growth and renewal 3) 윤미영 (2013), 한국정보화진흥원, 주요국의빅데이터추진분석및시사점 - 3 -
New Vantage가 Fortune 1,000대기업을대상으로빅데이터활용현황을조사한결과생산업무에서빅데이터이니셔티브를활용하고있다는응답이 67% 로 2013년보다두배가늘어나기업들의빅데이터활용이크게늘어나고있음을알수있다. 이들기업은단순히정보수집정도의활용에서벗어나파일럿형태등을통해업무에실질적으로빅데이터를활용하고있다. 국내에서도공공부문빅데이터활용으로행정효율성제고, 세수증대등을통해최대 4조 2 천억원 (GDP의 0.4%) 의부가가치창출을전망하고있다. 4) 이에따라정부 3.0에의한공공데이터의지속적확대와클라우드기반 IT인프라를구축하고있으며, 정보기술아키텍처 (EA) 를통한유관기관과의정보연계및시스템통합지원을지속적으로추진하고있다. 한편, 기업들이치열한경쟁환경에서가치있는고객정보를추출하는데집중하면서프라이버시침해와심지어는해킹으로인한피해우려도점차커지고있다. 일부기업들이정교해진데이터마이닝기술을통해개인을식별하고이를통해표적마케팅을하는것으로드러나고있으며, 이에따라정부와시민단체에서는개인정보유출을방지하는법안및규제강화필요성이제기되고있으며, 민간에서는정보보안관련기술의수요가증대될것으로예상하고정보보안기술개발에대한투자를증대하고있다. 나 ) 정책환경정부의빅데이터관련정책은 2011년 11월국가정보화전략위원회의 빅데이터를활용한스마트정부구현 ( 안 ) 과이를기초로 2012년방통위가작성한 빅데이터서비스활성화방안, 그리고 2012년 12월당시교육부, 행안부등의 스마트국가구현을위한빅데이터마스터플랜 등에서구체화되었다. 이들보고서에서는정부도빅데이터분석및활용기술이차세대 ICT산업의패러다임을선도하는분야임을인식하고빅데이터의활용및기반조성을위해정부내조직을신설하고다양한사업을추진하는내용이담겨있다. 2012년 스마트국가구현을위한빅데이터마스터플랜 에기초하여정부내각부처에서빅데이터활용성과사례가나오고있는데, 대표적으로수요자중심의맞춤형서비스 정보제공사례로는중기청의 상권분석을통한자영업자창업실패예방, 복지부의질병데이터분석을기초로건강위험요인사전경보 등을들수있으며, 사회적이슈 사고의선제적예측및조기대응사례로는 경찰청의범죄발생장소 시간예측으로범죄발생최소화, 여가부의 빅데이터분석을통한위기청소년징후조기경보 등을들수있다. 정부는서비스산업육성과일자리창출을위해규제개혁에적극적인데, 이를위해규제개혁위원회가꾸려지고규제개혁장관회의및민관합동규제개혁점검회의가대통령주재하에진행되고있다. 이는식품의약품안전처가국민안전을위한규제강화보다는규제합리화또는산업활성화를위한조치들을요구받고있는상황을의미하며, 위에서예시된정부내사례처럼빅데이터분석등을통한식의약품등이슈 사고의선제적예측및조기대응이필요함을의미한다. 4) 교육과학기술부, 안전행정부, 지식경제부, 방송통신위원회, 국가과학기술위원회 (2012), 스마트국가구현을위한빅데이터마스터플랜 - 4 -
먹을거리관리로식품안전신뢰제고 가국정과제중식품의약품안전처과제로선정되었으며, 주요추진계획으로불량식품근절종합대책추진, 통합식품안전정보망및소통전담조직구축, 부적합식품차단및추적관리시스템강화등이제시되었고범부처공통과제로는불량식품안전문화정착, 범부처기획감시수행계획논의 평가, 불량식품근절 5개년종합계획수립, 불량식품관련대외커뮤니케이션방안등이제시되었다. 다 ) 보건의료환경분석제약, 바이오, 의료기기등을포함하는보건의료관련정부의 R&D 투자가 2008년에서 2013년사이에 2배가량증가하고있으며, 금액으로는 1조 2천억원에육박하고있다. 이에따라해당품목들에대한관리와인허가를담당하는식품의약품안전처업무에상당한변화가예상된다. [ 그림 2-2] 정부보건의료 R&D 투자변화 < 출처 : 보건복지부 > 전통적으로정부 R&D 투자및지원의대부분을차지했던석유화학등주력산업들이중국의추격등으로국제경쟁력이떨어지면서기술집약적첨단산업들인제약산업, 바이오산업, 정밀의료기기산업등으로옮겨가는현상이발생하고있으며, 이에따라국내제약업체들사이에도복제약이아닌신약개발투자가활발해지면서국내업체중한미약품과같은글로벌신약개발성공사례도등장하고있다. 이로인해신약, 신물질, 치료 / 진단기기등에대한인증요구가늘어남에따라식품의약품안전처업무에변화가예상된다. [ 표 2-1] 임상시험계획승인현황 : 식품의약품안전처통계연보 구분 2014 2013 2012 2010 2005 2002 의약품임상시험계획승인 652 607 670 439 185 55 의료기기임상시험 63 77 76 38 8 8-5 -
[ 그림 2-3] 부처별규제개혁수용률 ( 수용 / 답변 ) < 출처 : 규제개혁위원회 > 라 ) 식의약산업환경분석오늘날우리나라의보편적인현상으로나타나는 Well-being 현상은미래사회에서 Well-dying에대한욕구증대와중첩강조될것이며, 사회문화적인측면에서안전사회문화 (Safe society culture) 가보편적현상이될것이다. 또한식의약품등안전에관한국민적관심의증대와더불어인터넷, 소셜네트워크등다양한정보전달미디어의발달로인해소비자들의식의약품에대한정보가빠른속도로확산되고있으며, 이에따라위해및위험사항발생시국민의불안감전파는빠르게전달되고있다. 식품의약품안전처의사고 위해에대한초기대응이늦어지거나부실할경우불필요한불만, 불안감이급속도로전파될수있으며, 이에따라식의약품안전관리와관련해서식품의약품안전처의조기대응및빠른조치가어느때보다중요해지고있다. 지난 10년간국내식품 외식산업은금액기준 70.7% 증가했으며절대금액으로는약 65조원이증가했다. 특히학교급식이나회사단체급식등급식산업의증가가가장뚜렷하다. 이는단체급식이나외식증가로인해식품의위해노출시그파급도가개인에그치지않고다수의국민에게영향이있음을의미하며, 이에따라식품위해관리에있어서예방적, 선제적대응이더욱중요하다. 식의약품안전관리현황을보면 2000년이후중국에서수입되는식품이많아지는현상및이에따른사고와축산물의소비증가로인한문제, 영유아및어린이식품안전관리문제, 건강기능식품안전관리문제, 즉석판매제조가공식품안전관리문제, 의약품의인터넷불법구매, 진단없는복용등의안전관리문제등이이슈로떠오르고있다. - 6 -
[ 그림2-4] 국내식품 외식산업규모의증가-10년간국내식품산업성장추이 < 출처 :at한국농수산식품유통공사(2015년도식품산업주요지표, 2015)> 건강기능식품소비의증가와자가치료의료기기시장의확대그리고남성용화장품소비증가등새로운유형의품목군이지속확대되고있으며, 이와같은새로운품목유형들은기존품목들과는다르게이종품목들간결합하는특성들을보이고있다. 예를들어식품과의약품의중간적특성을보이는건강기능식품의경우시장규모가 2006년약 7천억원에서 2015년약 1조 6천억원규모로확대될것으로예상된다. [ 그림 2-5] 글로벌및국내건강기능식품시장성장 < 출처 : 신한금융투자 ( 이지용연구원보고서, 2013)> 최근인터넷을통한식음료, 건강식품등의구입이크게증가하고있어, 이는식품의약품안전처관리대상인유통 판매채널이확산되어관리대상이증가함에따라, 식품의약품안전처관리업무에위협요인인동시에온라인상의정보수집 분석을할수있어식의약품등안전관리에기회요인이기도하다. - 7 -
[ 그림 2-6] 인터넷쇼핑이용실태조사 ( 단위 :%) < 출처 :KISA> 가공식품, 기구 용기포장, 농 임산물등에대한수입증가가최근 10년기간동안에약 2~4 배까지증가하고있으며, 이는통관단계에서의규제강화는국가간분쟁으로이어질소 지가있다는점으로인해국내식의약품등의안전관리와는다른차별적인안전관리가요 구된다. [ 표 2-2] 식품등수입현황 ( 건수 ) 품목별 2013 2012 2011 2010 2009 가공식품 189,064 174,123 167,084 157,570 139,782 기구ㆍ용기포장 74,051 66,258 63,051 56,947 44,268 농ㆍ임산물 49,767 46,781 42,416 39,413 33,118 < 출처 : 통계청 KOSIS 시스템조회 > 2009년이후완제의약품의수입액은지속적으로증가하는추세를보이고있으며자급 도는 80% 대를유지하고있다고보고하고있음 ( 한국보건산업진흥원 2014년제약산업 분석보고서 ) [ 표 2-3] 연도별의약품수입현황 ( 천달러 ) 구분 2013 2012 2011 2010 2009 원료의약품 1,695,215 2,075,579 1,981,487 1,898,384 1,754,005 완제의약품 3,013,133 3,008,258 2,934,138 2,520,095 2,127,130 < 출처 : 한국의약품수출입협회, Facts & Survey> - 8 -
[ 표 2-4] 의료기기산업수입현황 ( 천달러 ) 구분 2013 2012 2011 2010 2009 수입 2,728,888 2,600,999 2,521,148 2,265,836 1,879,359 < 출처 : 한국보건산업진흥원통계DB> [ 표 2-5] 마약류원료물질수입승인건수 구분 2012 2011 2010 2009 2008 무수초산 180 168 168 139 142 아세톤 345 339 334 249 315 과망간산칼륨 274 217 233 202 153 기타 635 699 440 172 44 총계 1,434 1,423 1,175 762 654 < 출처 : 식품의약품안전처마약정책과 > 마 ) 정보환경인터넷인구의지속적확산, 모바일정보통신의일상화로인한 SNS의사용증가, 사물인터넷등장으로데이터생산량이급격히증가하고있다. 빅데이터의수집및분석을통하여특정상황에대한파악및미래발생사건을예측하려는시도가다양한분야에서이뤄지고있으며, 예측분석의결과를토대로새로운통찰이나대응 실행능력을개선하는시도도이뤄지고있다. 식품의약품안전처도식의약품등에대한국민의안전을모니터링하고위기대응하는업무를맡고있다는점에서빅데이터를활용한선제적안전관리의시도가필요한시점이다. 2) 내부환경분석식품의약품안전처장은 2015년취임사에서안전관리에있어시스템적역량강화, 식의약품등안전의고도화, 실질적성과창출이라는전략과제를제시하고있는데, 이는식의약품등안전관리의현행수준을높일혁신적인방안이요구된다는것이다. 식의약품등에대한안전관리의혁신적방안은빅데이터기술을이용한상황인지및예측분석등을통하여그역량이크게향상될수있다. 식품분야의경우음식점및주점업이사업체수약 64만개로관리대상영역이가장넓고, 식료품제조업은사업체수가약 5만 3천여개에이른다. 식품산업은사전허가 인증을통한안전관리수단이없거나약하여, 유통 판매이후안전관리에집중되고있다. 식품위해관리의이러한특성, 즉, 관리대상영역이넓고사전안전관리수단이적은점은예방적안전관리를위해데이터의활용여지가높음을의미한다. - 9 -
[ 표 2-6] 2013년산업별사업체수, 종사자수 ( 사업자등록증기준 ) 구분 사업체수 종사자수 농업 ( 축산업포함 ) 1,884 23,004 축산업 472 5,358 어업 ( 양식어업및어업관련서비스업포함 ) 374 5,236 양식어업및어업관련서비스업 266 2,406 식료품제조업 53,832 286,875 음료제조업 1,300 16,479 의료용물질및의약품제조업 906 34,786 의료용기기제조업 4,387 36,795 의약품, 의료용기기, 화장품및방향제소매업 49,633 118,065 음식점및주점업 635,740 1,824,214 < 출처 : 통계청 (KOSIS)> 의약품및의료기기분야의경우의료용물질및의약품제조업사업체수는 906개이며, 의 료기기의경우제조업체수 2,786개 (2014년기준 ) 에이르고, 유통업체는수입업 1,473개 (2013년 12월말한국의료기기산업협회보고현황 ), 판매업 5,408개 ( 전국사업체조사 2012년 12월기준 ) 에이른다. 또한최근에온라인을통한식의약품의해외직접구매가늘고있지 만정확히그규모를파악하지못하고있는실정이다. 의약품및의료기기의사전인허가강화는국민의의료선택권제한과상충될가능성이있 어선제적안전관리강화를위해무작정사전인허가강화에만의존할수없는상황에있 다. 시장진입을근본적으로막는인허가강화보다는허가이후유통 판매단계에서의안전관 리가요구되고있는상황이다. 최근보고된사례를보면해외에서는위험보고된의약품이국내에서는부작용신고없이 처방되고있었고이에따른부작용신고가이어지는사례가존재했다. 2013년이후위험정 보가수집된 182개성분의의약품에대한처방실적으로조사한결과 54.4% 가넘는 99개성 분에대해서처방이이뤄졌고다수의부작용사례가보고되었다. 5) 이러한사례에서나타나듯 이의약품및의료기기의수입과유통이늘어날수록이에따른사전인허가및관리규정이 강화되어야하며관련추적관리가강화되어야할수밖에없다. 안전관리대상이넓은의약 품, 의료기기유통 / 판매단계에서의안전관리가요구되고있는상황은이들품목에서도빅 데이터및정보시스템활용의여지가높음을의미한다. 식품의약품안전처업무중위해정보관리업무프로세스는크게정보수집, 분석, 공유 ( 조치 포함 ), 관리등으로구분되며, 정보수집의경우국내외다양한정보소스 ( 소비자, 관련외부 기관및업체, 언론, 산하기관, 전문에디터, 해외정보리포터, 해외주재대사관등 ) 를대상으로 하고있다. 5) 국회보건복지위원회소속새누리당김현숙의원의보고, 기사 2014.10.16 해외위험보고의약품국내서대거처방 - 10 -
3) 직원인터뷰및시사점현재의안전관리업무현황파악을위하여식품의약품안전처의위해정보과, 의료기기안전평가과, 수입식품정책과, 통합식품안전정보망구축추진단과외부기관인소비자원과인터뷰를진행했다. 위해정보과 사고 위해를예측하는것과함께발생한사고를조기포착및사고를최소화시키는것도중요한빅데이터의역할로빅데이터를통해위해사고가발생한것을조기포착하고이에대응할수있는기반마련이필요하다. 기존에이슈가되었던사건사고의키워드출현빈도, SNS 등에나타난문구들의변화를웹크롤링등을통해추적하여특성을파악하여본사업에반영할필요가있으며국내식품 의약품등분야에서의대부분의사건은그이해관계자의특성상 SNS나외부에노출되지않으려는방향성이있음을고려하여예측모델을수립하여야할필요성이있다. 업무성과를평가할때위해사고를조기포착하고사고를최소화한것에대한정당한평가체계구축이필요하다. 의료기기안전평가과 빅데이터를이용하기위해서는기본적인데이터의양을수집할수있는기반마련이필요하다. 모든품목을대상으로한빅데이터활용보다는유방삽입재료와같이일반소비자들이직접불만을제기하거나사고가 SNS나뉴스등을통해확산될수있는위해와사고들을중심으로한전조예측이나조기포착대응이필요한분야로한정할필요가있을것으로보인다. 관계기관과정보수집협의시해당부서의요구에맞는정보의내용과시기등을명확히할필요가있다.( 그냥있는자료를받는것으로는한계가있음 ) 수입식품정책과 해당업무담당자 ( 전문가 ) 의견해가잘반영되는것이중요하며, 업무에직접활용하기위해서는지시적요소가명확히전달되어야할것이다. ( 즉어느임계치에서는어떤대응을해야하는지가명확히해야업무에활용가능성이클것으로보인다.) 통합식품안전정보망구축추진단 데이터의품질을확보하기위한사전적준비를철저히할필요가있으며, 데이터자체로서의의미보다어떤데이터셋을구성을할때의미있는정보를생산할수있을지에대한목적성을바탕으로데이터를구성하는것이효과적일것이다. 한국소비자원 한국소비자원은자신들의위해사고최소화업무를위해현장조사및회수, 법적조치를동반하여야할경우가많은데소비자원은법적권한이없으며, 따라서식의약품등과관련한사건사고를대처할때식품의약품안전처가자신들과함께합동으로대응을한다면상호업무효율성이증가될것으로기대된다. ( 국정업무보고시에합동대책마련지시 ) 한국소비자원은소비자민원과내부자고발, 119 긴급출동정보, 주요종합병원의진료기록과응급데이터등을직접연계하여활용하고있어식품의약품안전처와공동으로위해사고를대응할수있는사업이있을것이라사료된다. - 11 -
1.2. 환경분석종합 1) SWOT 도출외부환경및내부환경분석결과, SWOT 요소는다음과같이도출할수있다. [ 표 2-7] SWOT 분석 강점 축적된안전관리업무역량 - 대규모전문평가인력과조직 - 조직화된현장감시 / 검사인력 선제적안전관리의강력한의지 - 식품의약품안전처의안전관리강화의지 - 소비자관점의위해대응체계 - 사전예방업무로의전환노력 사전안전관리를위한소통강화 - 현장중시안전관리강조 데이터기반의위해대응미흡 - 정보수집 / 분석의통합적관리미흡 - 데이터분석을통한위해대응미흡 - 위해대응에담당자역량의존 조직내업무간정보연계부족 - 품목별, 직능별차별성으로인한정보연계부족 약점 기회 데이터분석및정보기술의발전 - 빅데이터분석기술, 오프소스기반의저비용 / 고효율기술들의등장 예측기반업무의구축동력발생 - 식품안전관련범정부적지원과관심 식의약품등의소비및유통정보의온라인화 - 온라인상의정보를수집및분석할수있는가능성이높아짐 안전관리대상의증가 - 건강기능식품, 개인건강관리제품등안전관리대상품목의증가 - 식품공급및소비채널다변화로모니터링및단속영역의확대 - 인터넷및모바일통신망의발달로식의약품사고등에대한불안감전파속도가속화 산업구조의변화에따른위해관리업무의변화 - 국내신약, 신물질개발투자및개발사례증대 위협 2) SWOT 해석및시사점정책환경과정보기술환경은식품의약품안전처위해정보관리및활용을통한안전관리를혁신적으로개선하기위한기회요인으로발견되고있는반면에사회환경은식의약품등의유통 / 판매채널의다변화, 정보전달의급속화등으로식품의약품안전처업무에새로운도전이되고있다. 현장중시, 소비자위주의예방적안전관리를위한위해평가고도화및정보기술시스템도입이진행되고있으며, 이들시스템자원들을통합적으로관리하고활용할식품의약품안전처전체차원의데이터통합과빅데이터분석플랫폼이요구된다. 민간데이터를포함하는빅데이터분석플랫폼의구축및효과적인활용과관련된통합적인위해정보수집과분석업무프로세스정립이필요하다. 식품의약품안전처관리대상영역은비약적으로증대되고있어이러한문제를해결하기위한자동화된데이터수집 / 분석과통계처리등고도의정보기술을활용한정보분석역량을강화할필요가있다. 식품의약품안전처의축적된안전관리역량과빅데이터활용을통하여안전관리대상의증가등의위협요인을대처할수있다. - 12 -
2. 정보기술환경분석 2.1 빅데이터개념분석 1) 빅데이터개요빅데이터에대한특징과정의는빅데이터플랫폼기술개발에가장먼저투자한기업중하나인 IBM은다음과같이설명하고있다. 오늘날인류는매일 2.5 퀸틸리언바이트 (quintillion bytes=2.5 10 18 ) 의데이터를생산하고있으며, 이런데이터는정보를수집하는센서, 소셜미디어, 웹문서, 디지털사진과동영상, 휴대전화의 GPS신호등모든곳으로부터생성되는데, 이모든데이터가빅데이터이다. 빅데이터는단순히크기와관련된문제가아니고, 새로운데이터처리및분석방법을통해새로운통찰력을찾을수있는기회를의미하며, 빅데이터는 Volume( 데이터크기 ), Velocity( 데이터전달속도 ), Variety ( 데이터의다양성 ), Veracity( 정확성 ) 등 4V로이루어진 4차원적특징을가진다. IT 시장조사기관인 Gartner 는빅데이터를 3V 로표현하고있다. 2001년, 데이터크기가급증하고 (Volume), 데이터전달속도가빠르며 (Velocity), 데이터구조가다양한 (Variety) 현상을관찰하여이를 3V로정의하였고이러한현상으로인해새로운도전과기회가등장할것을예상했으며, 2012년에는데이터에대한정의로, 빅데이터는크기가크고, 속도가빠르며, 다양한정보자산을가지고있다. 이는새로운데이터처리방법을필요로하는데, 이를통해새로운통찰력의발견이가능해진다ʼ라고했다. 기업정보관리를위한오픈사이트인 MIKE2.0 은빅데이터를다음과같이설명하고있다. 빅데이터의가장중요한요소는데이터의크기이지만, 보다정확하게는독립적데이터소스사이의상호작용또는연관관계의크기를의미한다. 빅데이터의두번째특징은데이터소스사이의연관관계가복잡하여데이터정제와유의미한데이터만추출해내는것이어렵다는점이며, 따라서빅데이터의 ʻ빅 (big)ʼ은단순히크기 (big volume) 가아니라복잡성 (big complexity) 에대한것으로해석하는것이적절하다. 이런특징에따른다면, ʻ크기는작지만복잡성이큰ʼ 빅데이터는존재하는반면, ʻ크기는크지만복잡성이낮은ʼ 데이터는빅데이터라고보기어렵다. ( * ʻBig Data can be very small and not all large datasets are big.ʼ) 빅데이터는데이터의엄청난크기, 빠른전송, 다양성및비정형성, 복잡성과같은특징을 가지고있어기존의기술과방법으로는활용의어려움이있었지만, 정보기술의발전으로기 업과정부에복잡한문제를해결할수있는기회를제공할것으로보인다. - 13 -
2.2 빅데이터주요구성요소빅데이터기술은기존의정형데이터처리과정과달리다양한형태 ( 정형, 비정형등 ) 의데이터처리기술및분산환경지원이가능하며, 빅데이터활용기술요소는데이터수집기술, 저장 관리기술, 데이터처리기술, 분석기술, 시각화기술및공유기술로구분할수있다. [ 그림 2-7] 빅데이터주요기술범주및요소기술 1) 빅데이터수집기술조직내부와외부의분산된여러데이터소스로부터필요로하는데이터를검색하여수동또는자동으로수집하는과정과관련된기술로단순데이터확보가아닌검색 / 수집 / 변환을통하여정제된데이터를확보하는기술이다. 가 ) 주요활동수집대상을선정하고수집을위한세부수집계획을정의한뒤수집활동을수행한다. 데이터수집주요활동은수집대상선정, 수집세부계획정의, 데이터수집수행으로구분되며상세한내역은아래의표와같다. - 14 -
[ 표 2-8] 데이터수집주요활동 항목 수집대상선정 상세내역 분석에필요한수집대상데이터를선정하되, 수집가능성여부등을 파악하고세부목록및항목을작성한다. 수집세부계획정의 데이터수집수행 수집데이터유형을분류하고관련수집기술및수집주기, 주요활동을정의한다. 수집계획에따라사전테스트를진행하여관련시스템을점검한후수집활동을수행한다. 나 ) 활용기술데이터의유형및특성에따라서크롤링, Log Aggregator, OpenAPI등다양한기술들이활용된다. [ 표 2-9] 데이터수집기술 수집방법 Log Aggregator RDB Aggregator 상세내역조직내부에존재하는웹서버의로그수집, 웹로드, 트랜잭션로그, 클릭로그, DB로그데이터등을수집한다. 관계형데이터베이스에서정형데이터를수집하여하둡분산파일시스템이나 NoSQL에데이터를저장하는기술이다. 크롤링 주로웹로봇을이용하여조직외부에공개되어존재하는소셜데이터및 인터넷자료를수집하는기술이다. 센싱각종센서를통하여생성된데이터를수집하는기술이다. RSS Reader Open API RSS는 Web기반최신의정보를공유하기위한 XML기반의콘텐츠배급프로토콜로서해당 RSS에서콘텐츠를수집한다. 서비스, 정보, 데이터등을어디서나쉽게이용할수있도록개방된 API 로데이터를수집한다. 수집기술은데이터소스로부터다양한유형의데이터를수집하기위해확장성, 안정성, 실시 간성및유연성이확보되어야한다. 수집기술선정시, 정제 / 변환과정, 전처리및저장프 로세스의필요성유무를점검하여선정한다. - 15 -
[ 표 2-10] 데이터유형에따른수집기술 데이터유형데이터종류데이터종류수집기술 정형데이터 - RDBMS의고정된필드에저장 - 데이터스키마지원 RDB, 스프레드시트 ETL, FTP, Open API 반정형데이터비정형데이터 - 데이터속성인메타데이터를가지며, 일반적으로스토리지에저장되는파일 - XML 형태의데이터로값과형식이다소일관성이없음 - 언어분석이가능한텍스트데이터 - 형태와구조가복잡한이미지, 동영상같은멀티미디어데이터 HTML, XML, JSON, 웹문서, 웹로그, 센서데이터소셜데이터, 문서, 이미지, 오디오, 비디오, IoT 데이터 크롤링, RSS, Open API, FTP 크롤링, RSS, Open API, 스트리밍, FTP 다 ) 수집관련솔루션 [ 표 2-11] 수집관련솔루션 솔루션주요기능활용사례 Sqoop Flume Chukwa Splunk Scribe kafka 대용량데이터전송솔루션으로하둡기반시스템과통합지원하며맵리듀스에사용될프로그램코드를생성한다. 분산환경에서대량의로그데이터를효과적으로수집해다른곳으로전송하는서비스로실시간로그분석가능하다. 분석서버로부터로그데이터를수집하여하둡클러스터의로그나서버의상태정보를관리해하둡파일시스템에저장하며실시간분석이가능하다. 업무현장이나클라우드상에존재하는페타비트급의기록데이터와실시간기계데이터를모니터링하고분석한다. facebook 이개발해공개한로그수집기술로대량의서버에서실시간으로전송되는로그데이터를집약해하둡분산시스템에로그를저장한다. 로그데이터를수집할뿐아니라메시징시스템을통해전송데이터를압축하고메시지를일괄전송 프로세스자동화, 데이터전송시맵리듀스를지원하여빠른처리가능하다. MicroSoft 사의 MSSQL 과 Hadoop 간의연결, Couchbase 는 Couchbase Server 와 Hadoop 간의연결에서커넥터로사용가능하다. 신뢰성, 가용성, 관리성, 확장성을설계목표로간단하고유연한구조로설계되어물리적노드와논리적노드를모두마스터가제어하도록구성된다. Chukwa Agent, Collector가있으며, 로그를 수집할대상서버에설치되며, 여러대의에이 전트로부터 로그정보를 수신하여 HDFS에 저장한다. 물리, 가상, 클라우드환경의모든 IT 시스템과인프라에서생성되는기계데이터를수집한다. 최종로그저장소는다양한저장소의활용이가능하며설치및구성이쉽고다양한프로그램언어지원한다. 단일 Kafka 브로커만으로수천개의클라이언트로부터초당수백메가바이트의읽기와쓰기처리가능하다. - 16 -
라 ) 주요고려사항 크롤링수집기술 [ 표 2-12] 크롤링수집기술고려사항 기능 정보설정기능 수집 Agent 기능 고려사항 수집할사이트의 URL 목록을관리하는기능을제공해야한다. 수집주기를설정하는기능을제공해야한다. URL, 수집주기등설정값을 Agent 에전달하는기능을제공해야한다. 각종설정이자동으로반영되거나설정을자유로이입력할수있는관리기능이제공해야한다. Agent 관리 ( 기동, 중지, 추가, 삭제 ) 기능을제공해야한다. 수집할 URL 리스트에서웹문서등컨텐츠를수집하는기능을제공해야한다. 수집한웹문서에포함된 URL 을추출하는기능을제공해야한다. 새로운 URL 리스트추가하는기능을제공해야한다. 규칙, 확률또는학습기반으로문서를분류하는기능과분류승인모듈기능을제공해야한다. 데이터수집시불필요한수집이일어나지않도록사전에대상을등록하여선별적수집이되도록하는기능을제공해야한다. 다수의웹페이지를동시에수집할수있도록병렬웹크롤링기능을제공해야한다. 수집된데이터를로컬또는원격에있는 DB 에저장할수있는기능을제공해야한다. Open API 수집기술 [ 표 2-13] Open API 수집기술고려사항 기능정보설정기능수집 Agent 기능 RDB 테이블과 Mapping 기능 고려사항 수집할대상서버의정보를설정하는기능을제공해야한다. 수집주기와반복횟수를설정하는기능을제공해야한다. URL, 수집주기를 Agent 로배포하는기능을제공해야한다. Agent 관리 ( 기동, 중지, 추가, 삭제 ) 기능을제공해야한다. Mash-Up 이용이하도록 RESTful 방식의 Open API 를제공해야한다. 웹사이트의컨텐츠자원에유일한 URI 를부여하는기능을제공해야한다. POST, GET, PUT, DELETE Method 를제공해야한다. XML, JSON, RSS 정보제공방식을지원해야한다. Agent 통신오류, 이상동작에대한감사및복구기능을제공해야한다. XML, JSON 데이터의 Element 와테이블 Column 정보를 Mapping 하는기능을제공해야한다. - 17 -
Log Aggregator 수집기술 [ 표 2-14] Log Aggregator 수집기술고려사항 기능 고려사항 정보설정기능 수집 Agent 기능 URL, 디렉토리, 파일명명규칙, 확장자종류를설정하는기능을제공해야한다. 수집주기와반복횟수를설정하는기능을제공해야한다. URL, 수집주기를 Agent 로배포하는기능을제공해야한다. Agent 관리 ( 기동, 중지, 추가, 삭제 ) 기능을제공해야한다. 파일을수집하고 Chunk 단위로전송하는기능을제공해야한다. 수집시사전정의된저장단위로처리하여파일을생성하거나일정한데이터를토큰단위로잘라서전송할수있는기능을제공해야한다. 압축가능한파일의경우, 압축전송하는기능을제공해야한다. 수집대상파일의변경여부를체크하는기능을제공해야한다. Collector 기능 초단위로다수의 Agent 로부터로그정보를수신하고, 분단위로직렬화된 Chunk 에대한분산파일시스템시퀀스로전송하는기능을제공해야한다. 수집수행발생시병목을피하기위하여손쉬운확장기능을제공해야한다. ( 수집노드확장 ) 수집기의트래픽밸런싱을자동조정하거나관리자에의하여일정한형식으로동작정할수있는기능을제공해야한다. 로그파일전송을모니터링하는기능을제공해야한다. RDB Aggregator 수집기술 [ 표 2-15] RDB Aggregator 수집기술고려사항 기능 고려사항 정보설정기능 수집할대상 RDB 서버의정보를설정하는기능을제공해야한다. 수집주기와반복횟수를설정하는기능을제공해야한다. URI, 수집주기를 Agent 로배포하는기능을제공해야한다. 수집 Agent 기능 Agent 관리 ( 기동, 중지, 추가, 삭제 ) 기능을제공해야한다. RDB 메타정보에서테이블을선택하는기능을제공해야한다. RDB 메타정보에서 Column, 유형, 크기를선택하는기능을제공해야한다. RDB 데이터를레코드단위로수집하고분산파일시스템으로 Import 하는기능을제공해야한다. RDB 데이터수집중오류가있을경우오류경고처리와함께수행중단경고를출력하는기능을제공해야한다. - 18 -
마 ) 시사점및모델링식의약품등사건, 위해전조포착및관련정보서비스업무를위해서는전조포착과관련된정보의수집및위해도평가를위한기반데이터의수집으로구분될수있다. 전조포착과관련된데이터는대부분인터넷상에존재하는 SNS데이터와뉴스등비정형데이터의수집으로가능한부분이며, 해당데이터의경우 SNS 업체에서제공하는 Open API를활용하거나크롤링을통한지속적인데이터수집방법을활용해야할것으로보인다. 웹크롤러웹크롤러 (Web Crawler) 는조직적, 자동화된수집방법으로인터넷상에존재하는웹문서를수집하는프로그램이다. 이와유사한용어로웹로봇, 웹스파이더등이유사하게사용되고있다. 주로검색엔진을구현하기위해최신의데이터를지속적으로수집하기위한방법에활용되어왔다. [ 그림 2-8] Open Source Apache Nutch의구조도웹크롤링과웹검색구현을위한 Apache Nutch의경우 Open Source로제공되기때문에쉬운접근이가능하다. Apache Nutch의실행절차를보면 CrawlDb로부터 URL 목록을생성하고인출한 URL 목록을참조하여 Fetcher를통해웹페이지를가져온다그리고 Segment에서가져온데이터를 Parse( 분석 ) 하고분석데이터업데이트및 index작업을수행하는구조로되어있다. Open API(Open Application Programming Interface) Open API 는누구나사용할수있는공개된 API(Application Programming Interface) 로응용 프로그램에서사용할수있도록공개된인터페이스방법을의미한다. Google, 네이버와같 - 19 -
은포탈사이트나페이스북, 트위터와같은 SNS, 최근에는공공데이터포탈과같은데이터의공유를위해활용되고있다. 정부 3.0에일환으로공공데이터포털사이트에서는다양한공공정보를데이터셋을제공하거나 Open API로제공하고있다. [ 그림 2-9] 공공데이터포털오픈 API 검색및개발계정신청화면 < 출처 : 공공데이터포털 > 공공데이터포털에회원가입과개발계정신청을하고인증키 ( 서비스키 ) 를발급받아테스트를 한후운영계정을신청하여승인후활용할수있는구조로되어있다. [ 그림 2-10] 트위터 API 인증발급및적용예시 Hadoop 에코시스템 Apache Flume Hadoop 의에코시스템진영에있는 Apache Flume 의경우시스템내의로그데이터의수 집뿐만아니라 API 를통한웹소스에대한수집까지지원이가능하다. Flume 은 Log - 20 -
Aggregator 로로그수집기로분산된데이터를통합하여모을수있도록해준다. Flume 의 아키텍처는아래와같다. [ 그림 2-11] Flume의아키텍처 < 출처 : Apache Flume> 대부분 flume의 agent가지속적으로수집하여하둡파일시스템에바로입력하는구조로되어있으며, source( 데이터수집위치지정 ) 와 sink( 데이터를보낼위치지정 ) 로구성되어있으며, end-to-end 신뢰도, store on failure 신뢰도, best-effort 신뢰도를지원한다. [ 그림 2-12] Flume Agent 설정예시 - 21 -
2) 빅데이터처리기술가 ) 주요활동데이터를수집후데이터를저장, 처리 ( 전 / 후처리 ) 및관리를위한기술을의미하며데이터의분석을위해불필요한항목을가공 ( 제거 ) 하고유연하게저장하여, 데이터의품질을향상시키는것을목적으로한다. 데이터의유형과분석목적을고려하여데이터저장전, 후처리기법을선정하고데이터의필터링, 정제, 통합, 축소등으로데이터를처리하는기법등을포함한다. 나 ) 활용기술 [ 표 2-16] 방식에따른데이터처리기술 방식 설명 데이터여과 (Filtering) 데이터변환 (Transformation) 데이터정제 (Cleansing) 데이터통합 (Integration) 데이터축소 (Reduction) 오류발견, 보정, 삭제및중복성확인등의과정을통해데이터품질을향상시키는기술이다. 데이터유형변환등데이터분석이용이한형태로변환하는기술이다. 정규화 (normalization), 집합화 (Aggregation), 요약 (summarization), 계층생성 등의방법활용한다. ETL(extraction/transformation/loading) 도구를활용한다. 결측치들을채워넣고, 이상치를식별또는제거하고, 잡음섞인데이터를정제하여데이터의불일치성을교정하는기술이다. 일반적으로데이터는불완전하고, 잡음이섞여있고, 일관성이없기때문에데이터정제가필요하다. 데이터분석이용이하도록유사데이터및연계가필요한데이터 ( 또는 DB) 들을통합하는기술이다. 분석컴퓨팅시간을단축할수있도록데이터분석에활용되지않는항목등을제거하는기술이다. 다 ) 데이터처리기술 [ 표 2-17] 처리구분따른데이터처리기술 구분설명관련솔루션 빅데이터배치처리 대량의데이터를분할하여각데이터파티션을동시에분산처리함으로써처리시간을단축하는기술이다. Google MapReduce Hadoop MapReduce 빅데이터반복처리 대용량스트림처리 데이터를가공, 분석하는업무는많은경우에서로다른데이터집합에대해동일한로직을적용하여처리하는기술이다. 주식거래데이터, 센서데이터처럼지속적으로발생하는데이터스트림에대한실시간처리를위해관계 Twister HaLoop STORM Yahoo S4-22 -
구분설명관련솔루션 형모델, XML 모델등처리대상에따른처리연산을제공하는 CEP(Complex Event Processing) 기술과트윗단문메시지, CCTV 영상데이터등비정형스트림데이터처리를위한분산스트림처리기술이다. HStreaming MapReduce 분산데이터처리 MapReduce는일종의함수형프로그래밍방법으로맵 (Map) 단계와리듀스 (Reduce) 단계모두입 / 출력으로 Key-Value 쌍을갖게되고이를통해분산 / 병렬시스템의운용을지원한다. 맵함수의입력값으로 key-value가전달되면, 맵함수는전달된키-값을이용해사용자의로직을처리한다. 맵함수가반복적으로수행되면서여러개의출력데이터가생성되고, 출력데이터를키로정렬하여리듀스함수로입력, 원하는데이터를추출하는작업이다. Storm 기술트위터에서사용하는실시간분석분산시스템으로 Hadoop과비슷한처리를수행한다. Backtype이라는회사에의해개발된오픈소스로 Twitter에서인수하여 Tweet들의실시간분석및최적화, Anti-Spam 구현을목적으로한다. 주요기능으로 Streaming Processing, Distributed RPC, Continuous Computation이있다. Hadoop과비슷하게 MapReduce를실행하는것대신에토폴로지작업을수행한다. Kafka 기술링크드인에서공개한카프카는데이터가분할되어클러스터에의해관리되고메시지일괄처리와전송데이터를압축하는기술을지원한다. 로그집계 + 메시징시스템으로써, 분산환경에서대규모카프카를활용해데이터로그를처리한다고발표했다. 라 ) 주요고려사항 [ 표 2-18] 데이터처리기술고려사항 기능 데이터필터링 (Filtering) 고려사항 데이터필터링기준을정의하고설정할수있는기능을제공해야한다. 데이터처리전후에생성된파일의중복성을확인할수있도록파일명, 확장자등필터링기능을제공해야한다. 유의미한데이터를선별하기위하여사전정의된필터링기준을비교검증할수있는기능이제공되어야한다. 데이터필터링적용시, 비정형데이터처리에서자연어처리및기계학습을수행하기전에사용자가처리방식을선택할수있도록데이터파일에대한정형화된사전저장기준을제공하여야한다. 수집된데이터의품질기준의부합여부및오류등을확인하고관리자에게알릴수있는기능을구현해야한다. 필터링처리시사전정의된필터링기준에의거하여데이터처리에서오류발생후오류에대한이력을저장할수있는기능을제공해야한다. - 23 -
기능 데이터유형변환 (Transformation) 고려사항 수집된데이터의유형을분류할경우분류기준을적용할수있는기능을제공해야한다. 데이터의유형을분류하고이에대한데이터변형에필요한알고리즘함수또는변환구조를정의할수있는기능이제공되어야한다. 데이터변환시사용자가지정한변환형식에준하여변환이이루어졌는지확인할수있는기능이제공되어야한다. 데이터변환실패시데이터변환실패부분에대하여재시도할수있는기능을제공하거나신규변환데이터가생성을취소할수있는기능을제공해야한다. 데이터변환이실패되었을경우이력을저장하고사용자에게전달할수있는기능이제공되어야한다. 변환된데이터를저장하는기능을제공해야한다. 데이터정제 (Cleansing) 정제유형을사전정의하고속성값을부여하는기능및사용자가스크립트를작성할수있는기능이제공되어야한다. 데이터유형별정제시사용자가설정한정제방법을사전정의되어자동으로지정할수있는기능이제공되어야한다. 결측치, 잡음데이터를처리하는경우, 데이터저장및제거대상에대하여삭제, 처리, 확인할수있는기능이제공되어야한다. 데이터의불일치성을교정하기위하여단위, 표현형식, 코드체계등의불일치성을교정하거나자동으로교정이되도록하는자동스크립팅기능이제공되어야한다. 데이터통합 (Integration) 데이터변환데이터축소 (Reduction) 데이터의일관성을위해여러출처 ( 소스 ) 로부터의데이터들을결합할수있도록사전에확인할수있는기능을제공해야한다. 데이터통합을위하여취합된정보에대한상호관계를비교하거나정보결합속성등의요건을체크하는기능이제공되어야한다. 데이터통합시통합전후원시데이터의백업을지원하고이력을확인할수있는기능이제공되어야한다. 데이터통합을위해유일한키값을선정하거나자동키부여및킷값관리기능이제공되어야한다. 데이터로부터잡음을제거하기위해데이터추세에벗어나는데이터또는특이값을추세에맞게변환또는자동추천할수있는기능을제공해야한다. 집계 (Aggregation) 시데이터를요약하는기능이제공되어야한다. 특정구간에분포하는값을추출하거나이를사용자가직관적으로확인할수있도록하여데이터변환시발생할수있는변환, 패턴, 이벤트를감시할수있는기능을제공해야한다. 데이터변환후사전저장된원시데이터셋과변환후데이터간의변환로그를저장관리할수있는기능이제공되어야한다. 데이터축소를위한적용기준또는적용스크립트를부여할수있는기능이제공되어야한다. 데이터크기를축소하는경우, 원본파일의데이터축소범위와축소가적용된속성에대한로그를기록하여취소시재복구할수있는기능이제공되어야한다. - 24 -
[ 표 2-19] 데이터처리기술도입시고려사항 기능 고려사항 처리할데이터의종류데이터를처리하기위한조건 정형 : 컴퓨터와인간모두읽을수있는데이터 ( 관계형데이터베이스 ) 이다. 반정형 : 정형화되어있지않지만시맨틱요소들을분리하는태그들을가지고있다. (XML, 이메일, EDI 등 ) 비정형 : 데이터베이스에들어가지않는데이터 ( 이미지, 오디오, 비디오등 ) 혹은정형화되어있지않는데이터 ( 텍스트, 로그데이터등 ) 이다. 데이터의접근제한을풀고접속권한을제공해데이터를저장하고사용할수있게하는것이중요하다. 정보를미가공형태로남겨야분석시스템으로실시간스트리밍되면서분석하고보고가능하다. 정형데이터에서는이과정이직관적으로일어나지만, 비정형데이터는고급알고리즘과강력한엔진을반드시거친후들어오는데이터를처리한다. 마 ) 시사점및모델링빅데이터처리기술중에서주목해야할부분은수집된데이터에대해정규화하고데이터를표준화할수있는처리부분과실시간으로데이터를처리하는부분이다. 위에서언급된데이터처리기술의데이터필터링, 데이터유형변환, 데이터정제, 데이터통합, 데이터변환, 데이터축소등을수행하기위해서는하나의솔루션으로해결되는것이아니라데이터의성격과그결과를도출하기위한방법에따라다양하게나타날수있기때문에데이터처리에대한복합적인방법을활용하여적용하여야한다. 데이터처리업무절차 데이터처리방식선정데이터가공처리가필요한데이터를분류하고 Table로작성한다. 그리고수집된데이터를저장하기위한전처리단계와저장된데이터를분석하기전후처리하는단계로구분한다. 데이터유형과분석목적등을검토하여전 / 후처리기술선택한다. - 전처리작업수집한데이터를저장소에적재하기위한작업으로데이터필터링, 유형변환, 정제등기술활용 - 후처리작업저장된데이터를분석이용이하도록가공하는작업으로변환, 통합, 축소등기술활용 데이터처리업무절차 데이터처리방식수행 - 데이터필터링데이터의중복성, 오류제거들을위한데이터필터링기준을설정한다. 실제사전테스트를통하여오류발견, 보정, 삭제및중복성검사등필터링과정을거쳐필터링기준을최적화하여사용한다. 비정형데이터는데이터마이닝을통해오류, 중복, 저품질데이터를처리 - 25 -
할수있도록자연어처리및기계학습과같은추가기술이필요하다. 또한분석을위하여단위저장소에파일형태로저장할경우, 데이터활용목적에맞지않는정보는필터링하여제거해야분석시간을단축하고저장공간의효율적활용이가능하다. - 데이터변환다양한형식으로수집된데이터를분석에용이하도록일관성있는형식으로변환 - 데이터정제수집된데이터의불일치성을교정하기위한방식으로결측치 (Missing Value) 처리, 잡음 (Noise) 처리기술활용 - 데이터통합출처가다른상호연관성이있는데이터들을하나로결합하는기술로데이터통합시동일한데이터가입력될수있으므로연관관계분석을통해중복데이터를검출하거나데이터통합전 / 후결과물에대해데이터값들이일치할수있도록검증하여야한다. MapReduce 처리방법빅데이터를처리하는가장흔한방법으로 Hadoop Map Reduce를활용한다. Map Reduce 는페타바이트이상의데이터를여러노드로구성된클러스터환경에서병렬처리하는기법으로함수형프로그래밍에서사용되는 Map과 Reduce 방식을사용해데이터를처리한다. [ 그림 2-13] mapreduce 처리구조 < 출처 : hadoop.apache.org> 빅데이터실시간처리빅데이터분석을위해등장한 Hadoop의제약은실시간처리가아닌배치처리를수행하는것과분석하기위해데이터를저장해야하는점, 실시간검색및조회기능이부재한점으로볼수있다. 이러한제약을하둡의에코시스템을활용하여어느정도해결을할수있지만준실시간분석이가능한정도로볼수있다. 이에대한대안으로실시간분산쿼리나스트리밍처리기법이많이연구되었다. - 26 -
실시간분산쿼리는클러스터를구성하는노드가각자쿼리를처리하게해 (push down) 한번에처리할데이터의크기는작게하면서이를병렬처리해응답시간을실시간수준으로높이는방식이다. Cloudera의 Impala와 Apache Tez 그리고 Facebook의 Presto가이방식에속한다. [ 그림 2-14] Cloudera Impala 아키텍처 < 출처 : Cloudera> 스트리밍처리는끊임없이들어오는데이터를유입시점에분석해원하는데이터뷰로미 리만드는방식이다. 이방식은 CEP(Complex Event Processing) 이라고부르며, Storm, Apache Spark 가이방식에속한다. [ 그림 2-15] Spark Streaming 처리 < 출처 : spark.apache.org> SNS 및웹데이터수집방안 SNS 및웹데이터 ( 신문사, 카페, 블로그, 포탈사이트등 ) 의비정형데이터를수집및분석을위해서는앞서 1) 빅데이터수집기술 에서언급된웹크롤링기술과 Open API기술등을활용하여수집하고이에대한데이터전처리및후처리와데이터마이닝을통한분석과정을거쳐야한다. - 27 -
[ 그림 2-16] SNS 데이터수집모델 SNS 및웹포탈, 신문사등의온라인데이터를수집하기위해서는주기적으로데이터를 Polling 하는방식으로데이터를수집해야한다. 대표적인 SNS 서비스인 Facebook, Tweeter등의소셜네트워크서비스는해당사이트에서제공하는 Open API를통해수집할수있으며, 이때활용할수있는수집모듈은 Apache Flume에 Open API를연동하여적재할수있다. 이때수집대상데이터는각사용자의 Feed 및트윗정보가되며, 동시에위치정보와해당사용자와의링크정보를수집하여관계를따라데이터수집이가능하다. 기반정보외의중요데이터로는식의약품에대한이슈내용을해당 Feed 및트윗텍스트를수집하여분석에사용될데이터를수집한다. 블로그나지식, 카페등의데이터는국내대형포털사이트의데이터를대상으로하며, 이때는웹크롤러를활용하여해당포털사이트에 HTTP 통신을통해수집되는정보를 DataCollector를구현하여기반데이터적재를수행한다. 국내언론사나, 국외언론사, 대표적인글로벌검색엔진인 Google등도웹크롤러나 Open API를활용하여데이터적재를수행할수있다. SNS 및웹데이터처리및분석방안 SNS 데이터의분석을위한전처리및분석모델을설계할때는실시간성데이터와배치성데이터의전처리방안의분류및분석성격에맞는적재방안을충분히고려하여모델링을수행해야한다. - 28 -
[ 그림 2-17] SNS 데이터전처리및분석모델데이터를수집후데이터분석을위해불필요한데이터를제거하고, 필터링을통해데이터를가공하여분석에필요한데이터로정제하는데이터전처리과정을수행해야한다. 이때데이터의전처리주기에따라실시간이벤트처리엔진 (CEP) 혹은배치성데이터처리를위해 HIVE/Pig/MapReduce프로그래밍등을활용하여전처리작업을수행한다. 전처리와동시에 1차가공데이터를분석활용목적에맞도록적재공간을분류해야하는데, 이때빠른입출력에의한로그성데이터분석에는 NoSQL을선정하고, 관계형데이터모델이필요한경우에는 RDBMS, 분산처리가필요한분석이필요한데이터는 Hadoop에적재하여, 최적의분석환경을제공하기위한기반을마련해야한다. 데이터처리과정에대한모델이정의된후에는 SNS의정제된데이터로부터, 감성분석기법혹은자연어처리 / 패턴분석등의기법을이용하여, R등의분석제품을사용하여예측기반서비스모델에서활용할수있는분석데이터를추출할수있다. [ 그림 2-18] SNS 데이터분석수행절차 - 29 -
SNS 데이터의분석수행절차는일반적인빅데이터분석수행절차와유사하며, 제공하고자하는서비스모델을만들기위해필요한대상데이터의수집, 저장, 분석의절차로진행한다. 각절차의주요활동은보고서 2.2 빅데이터주요구성요소 에서정의한활동을주로하며, 세부활동은조직의업무특성에따라항목을정의하여절차를수행한다. SNS 및웹데이터수집에따른제약사항 - 개인정보보호관련법령의문제빅데이터수집및활용기술은최첨단으로나아가고있지만산업의핵심인개인정보보호법은 10년전수준이라는이야기가업계에만연히퍼지고있다. 빅데이터활용사례를보면대부분개인정보데이터가자신도모르게생성 / 수집되고, 기업및기관들은사용자의허락없이데이터를서로공유및활용하고있는현실이다. 많은기업들이맞춤형서비스와광고등을위해이용자데이터를분석하고활용하고있기때문에개인정보활용동의에기초한개인정보보호패러다임의실효성에대한문제제기가빈번히발생하고있다. 블로그및카페, 트위터, 페이스북등의데이터를크롤링및데이터수집장치로수집하는행위자체가개인의프라이버시를침해할수있으며, 위치기반정보도수집이가능하기때문에현재의개인정보보호와관련된법령의개선이시급하다. 개인정보동의방식을 사전동의 에서 잠정적동의 로변경하여관련사업및정책마련에활용할수있는법령개선이수반되어야한다. - 정보보안측면데이터공유와개방을추진하면서동시에사이버테러나해킹등으로인한데이터유출을방지하기위한보안가이드라인제정및관련기술의개발이절실하다. 기존의데이터를클라우드로이동하는데여전히많은저항이있으며, 현재인터넷, 클라우드컴퓨팅, 데이터풀링등모든측면에서데이터보안의문제가제기되고있다. 빅데이터활용이증가하더라도기존의프라이버시강화라는추세를변화시키지는못할것이며오히려정보보안과리스크를어떻게관리할지가더큰이슈와과제로부각될것이다. - 비정형데이터의분석가능성과한계일반적으로비정형데이터로분류되는데이터는텍스트형식으로저장된데이터, 이미지, 음성, 멀티미디어등이포함된다. 이런비정형데이터가 SNS/ 스마트폰 / 태블릿등에서급속히생산되면서비정형데이터에대한분석의중요성이부각되고있지만, 여전히비정형데이터에대한분석이과연유용한지에대해서는회의적인시각도존재한다. 예컨대, 블로그나트위터에대한감성분석혹은오피니언마이닝에는근본적인한계가존재하는데, 은어 / 사투리 / 어투 / 역설 / 약어등이일상적으로담긴진술의의미를과연현재의기술수준에서제대로분석할수있을지, 앞으로가능할지, 텍스트마이닝을통해특정진술에서그진술을대표하는키워드를얼마나정확하게추출할수있는지는여전히회의적이다. 특히대규모데이터를대상으로하는분석에서는수리모형에맞게어떤형태로든데이터는축소되기마련인데, 편향되고왜곡된정보혹은주관적인정보가많은비정형데이터를수집 - 30 -
하고정량화하는과정에서데이터에내포된의미가왜곡되어분석결과의신뢰성이하락될수있다는지적도있다. 또한가트너는 2012년빅데이터요소기술에대한기대곡선을통해시맨틱웹기술이안정기에다다르기까지는 10년이상이소요될것으로예측하였다. 현재비정형데이터에대한분석은맥락을이해하는것보다는단어의출현빈도, 단어와단어간의관계를보여주는것에그치는실정이다. 특히, 비정형데이터가영어가아니라한글일경우비정형데이터의분석가능성과한계는더명백해진다. - 상관관계와인과관계의혼동빅데이터를통해도출된결과는많은경우통계적인상관관계를보여주는경우가대부분이다. 인과관계를밝히는것은전혀다른문제이다. 그럼에도인과관계와상관관계를혼동할경우, 특정전략적선택이전혀엉뚱한결과를보여줄가능성이매우높아진다. 빅데이터분석의모범사례로자주언급되는구글의플루트렌드의경우에도일반적인호흡기질환을예측하는데어느정도도움이될수있으나, 플루자체를예측하는데에는한계가있다는지적이있었으며, 구글의플루트렌드가미국질병관리센터의예측보다 20% 정도낮다는연구결과도발표되었다. - 빅데이터와기술종속의문제빅데이터라는용어자체는구글, 아마존, 페이스북, 트위터등글로벌기업에서자사의서비스개선을위해적극적으로도입된것이며, 특히이러한서비스가국경을가로지르는인터넷에기반하고있다는것에주목해야한다. 국내에서도이미빅데이터시장에서글로벌기업의독과점현상과향후기술종속의문제가빈번히지적되고있다. 현재 IBM, 오라클등글로벌기업들이국내비즈니스분야와공공부문빅데이터처리분야에서초기시장을선점하고있는상황이고, 외국계글로벌기업에의존한빅데이터분석으로인해정보의대외유출등과같은위험을초래할수있는가능성도매우높다. 따라서국내빅데이터시장이주로글로벌기업의기술에의존하고있기때문에빅데이터활성화를위해서는무엇보다국내의데이터분석인프라구축이시급하다. 3) 빅데이터저장기술가 ) 주요활동및내용작은데이터라도모두저장하여실시간으로저렴하게데이터를처리하고, 처리된데이터를더빠르고쉽게분석할수있도록하는기술이다. 데이터유형을검토하여저장방식을선정하고실행에필요한데이터저장계획을수립하고선정된저장방식에따라적합한 DB를구축한후사전테스트를수행한다. 그리고구축된 DB에데이터를저장하고모니터링을진행하는활동을수행한다. 대표적인기업제품으로 HP Vertica, EMC Greenplum, IBM Netezza data warehouse 가있다. IBM Netezza data warehouse는 SMP(Symmetric Multiprocessing) 와 MPP(Massively Parallel Processing) 로구성된 two-tier 형태의아키텍처를가지고있다. - 31 -
[ 그림 2-19] IBM Netezza AMPP 아키텍처 < 출처 : IBM> SMP 구조를가지는호스트는쿼리실행계획및결과집계연산을담당한다. MPP구조를가지는 S-blade노드들은쿼리실행을담당한다. 또한다른시스템에서보기힘든 FPGA의특징에는데이터압축, 레코드또는컬럼필터링이있다. 트랜잭션처리시에는 visibility check 등과같은 filtering 기능을메모리로가져오는중에처리하여실시간처리가가능하며, 대용량데이터를처리할때, 데이터연산을가급적데이터를가지고있는곳에서수행하여불필요한데이터전송을최소화하는원칙에충실하였다고할수있다. Green plum은 MPP구조로쿼리분석, 워크로드관리기능, BI, ETL, 마이닝툴과연계지원한다. PostgreSQL 기반으로만들어졌으며, 저장되는데이터는해당데이터에적용되는연산에따라서로우기반또는컬럼기반방식을선택할수있다. 데이터는세그먼트단위로서버에저장되며, log shipping 방식의세그먼트단위복제로가용성을확보한다. [ 그림 2-20] Geenplum 아키텍처 < 출처 : EMC> - 32 -
HP Vertica는데이터를하드디스크에컬럼방식으로저장하는 OLAP에특화된데이터베이스로 MPP구조이며대량의데이터를빠르게적재할수있고 R, SAS 등과손쉬운연동함수를제공한다. Shared-nothing 기반의 MPP 구조로대량의데이터를빠르게적재할수있도록쓰기에최적화된저장소와압축된형태로구성된일기저장소, 양자간의데이터흐름을관장하는 tuple mover 등으로구성되어있다. [ 그림 2-21] Vertica 아키텍처 < 출처 : HP> 빅데이터시대를이끌고있는하둡은 7년간개발돼온개방형프레임워크로다양한프로젝트가진행되어, 최근도입성과가가시화되면서하둡을중심으로한새로운생태계가조성되고있다. 점차작업효율성과개발편의성을증대시킬하둡기반의다양한툴들이등장할것으로예상된다. 다음은오픈소스, 오픈아키텍처인 Hadoop의아키텍처를나타낸다. [ 그림 2-22] Hadoop 아키텍처 < 출처 : Apache Hadoop> - 33 -
나 ) 주요기술 [ 표 2-20] 빅데이터저장기술 저장기술병렬 DBMS 하둡 (Hadoop) NoSQL 주요기능기존의 RDBMS는하나의시스템이모든영역에맞춰사용될수있도록만들어졌으나, 이를발전시켜 MPP(Massively parallel multiprocessing) 6) 구조를취하고있다. 대용량분산저장과처리를위한프레임워크로 HDFS와맵리듀스로구분한다. HDFS는대용량의데이터를저장하는분산파일시스템으로큰파일을작은블록으로나누어저장한다. 동시에다수의클라이언트가접속해서사용하더라도속도가빠르며, 수많은제품이있고, MongoDB의경우 RDBMS적특성을갖고있어기존 RDBMS 개발자들이쉽게적응하며, HBase나 Cassandra의경우대용량저장과성능면에서다소유리하다. RDBMS 저장방식 - RDB 테이블데이터는컬럼과값을매핑하거나데이터형을변환처리하여테이블형태로저장한다. - XML 및 JSON, HTML등형식의파일은파싱처리하여테이블에저장한다. - 솔루션별레코드최대크기등을고려하여용량을설계한다. NoSQL 저장방식 - 정형데이터는컬럼과값을 key와 value로구분하여저장한다. - XML 및 JSON, HTML 등형식의파일은파싱하여 Key-value 형태로저장한다. - Scale out 방식을지원하므로 Petabyte 이상확장가능하다. 분산파일시스템저장방식 - 문서 (XML, JSON, HTML, 텍스트등 ), 이미지, 비디오, 오디오등텍스트및이진파일을 - 분산파일시스템에서지원하는파일형태로저장한다. - Scale out 방식을지원하므로 Peta Byte 이상확장가능하다. 확장기술 [ 표 2-21] 확장기술비교 구분 Scale up Scale out 개요 CPU, 메모리, 하드디스크등서버자원을추가하여처리능력을향상시키는방식 서버의대수 ( 노드 ) 를추가하여처리능력을향상시키는방식 비용컨트롤러나네트워크인프라비용은발생추가된노드들이하나의시스템으로운영 6) MPP(Massively parallel multiprocessing): 대용량병렬처리 - 34 -
구분 Scale up Scale out 용량 하기않고디스크만추가 하나의스토리지컨트롤러가지원가능한 Device 수가한정되어있어용량확장제약 되기위한네트워크구성필요 스토리지용량확장성이매우좋음 다 ) 빅데이터저장솔루션 빅데이터저장하둡플랫폼솔루션 [ 표 2-22] 빅데이터하둡플랫폼솔루션 솔루션 / 업체명 Apache Hadoop 클라우데라 (Claudera) 내용대량의자료를처리할수있는클러스터에서동작하는분산응용프로그램을지원하는오픈소스기반의자바프레임워크로너치의분산처리를지원하기위해개발되었다. 아파치루씬의하부프로젝트로시작하였으며분산처리시스템인구글파일시스템을대체할수있는하둡분산파일시스템과맵리듀스를구현한것이다. 클라우데라는아파치프로젝트의많은측면을활용하는오픈소스하둡의배포판을가지고있지만, 이외에도수많은발전을해왔다. 클라우데라는자체제품에클라우데라매니저 (claudera manager) 라는관리와모니터링툴부터임팔라 (Impala) 라는관계형데이터실행을위한 SQL 엔진까지개발했다. 자체배포판의기본에오픈소스하둡을활용하지만순수오픈소스제품은아니다. 포레스터는 클라우데라의하둡접근방식은핵심하둡을고수하면서도고객수요를충족시키기위해빠르고공격적으로혁신을감행하며자체솔루션을다른개발업체와차별화하는것 이라고평가했다. 이결과로클라우데라의플랫폼채택은꾸준히상승해왔고, 현재 200여곳의유료고객을갖추고있으며, 일부는 1페타바이트 (PB) 가넘는규모의데이터를 1,000개가넘는노드에걸쳐가지고있다. 호튼웍스 (Hortonworks) 클라우데라처럼호튼웍스는퓨어-플레이 (pure-play) 하둡업체다. 클라우데라와는다르게호튼웍스는다른어떤개발업체보다도더강력하게오픈소스하둡코드를고수한다. 호튼웍스의목표는하둡생태계와하둡사용자를구축하고오픈소스코드를발전시키는것이다. 호튼웍스의플랫폼은오픈소스코드를고수함으로인해호튼웍스측은개발업체종속을막을수있어사용자에게도움이된다고강조한다. 호튼웍스고객이이플랫폼을떠나고자할때면언제라도손쉽게애플리케이션을플랫폼에서다른오픈소스코드로이전할수있다. 이는호튼웍스가오픈소스코드위에다른가치를제공하지않는다는의미가아니라오픈소스커뮤니티에플랫폼개발작업에관한모든것을되돌려준다. 그예가호튼웍스에서개발한툴인앰바리 (Ambari) 로, 클러스터관리와연관된프로젝트의구멍을막는역할을한다. 호튼웍스의접근방식은테라데이터, 마이크로소프트, 레드햇 (Red Hat), SAP 등의개발업체로부터강력한협력관계를이끌어냈다. - 35 -
솔루션 / 업체명 맵알 (MapR) 내용맵알테크놀로지 (MapR Technologies) 는포레스터가웨이브보고서를작성할때실시한하둡사용자조사에서맵알은현재제품으로는가장높은평점을받았고, 배포판의아키텍처와데이터프로세싱능력에서도가장높은점수를획득했다. 맵알테크놀로지의비법은맵알이자체하둡버전에서이끌어낸독특한기능성조합에있다. 예를들어, 맵알의배포판은 NFS(Network File Systems) 를지원하며, 맵알은재난복구와고가용성기능을배포판에담았다. 포레스터는맵알이단지브랜드인지도에있어서만클라우데라와호튼웍스보다뒤처질뿐이라고평가했다. 더욱많아지는협력관계와마케팅은맵알을주류하둡업체로성장하고있다. IBM 대규모 IT 프로젝트를떠올릴때많은이들은 IBM을먼저생각한다. 이때문에 IBM은세계하둡프로젝트시장의주요업체가운데하나가되었다. IBM은이미 100여곳의하둡배치를완료했으며, 이가운데에는많은고객들은 PB급데이터를관리중이다. IBM은그리드컴퓨팅, 글로벌데이터센터, 기업이행경험에서의막대한경험을빅데이터프로젝트에활용한다. 포레스터는 IBM 로드맵에는빅인사이트하둡 (BigInsights Hadoop) 솔루션과 SPSS 고급애널리틱스, 고성능컴퓨팅을위한작업부하관리, BI 툴, 데이터관리와모델링툴같은연관 IBM 자산과의지속적인통합이포함되어있다 고말했다. 인텔 (Intel) 인텔 (Intel) 아마존웹서비스처럼, 인텔은자체하둡버전을활용, 최적화하는데특히자체생산된제온 (Xeon) 칩하드웨어상에서의구동에중점을뒀다. 자체하둡시스템의극한을끌어내면서소프트웨어와하드웨어사이의밀접한연동을찾는고객들에게인텔의하둡배포판이적합할수있다. 포레스터는인텔이최근출시한제품을통해기업들이현재시장에나온버전에더많은혁신을기대할수있다고말했다. 인텔과마이크로소프트는하둡시장에서의 강력한경쟁자 로분류되어있으며, 기존시장에서의 시장선도자 와는위치가다르다. 피보탈소프트웨어 (Pivotal Software) EMC와 VMware는양사의상당한자산을합쳐피보탈이라는별개의독립업체를설립했다. 피보탈의가장큰영업분야는하둡배포와클라우드파운드리 PaaS(Cloud Foundry PaaS) 다. 피보탈은오픈소스코드상에몇가지툴을추가했는데, 특히 HAWQ라는 SQL 엔진과빅데이터플랫폼을실행하기위해특별히만들어진하둡어플라이언스등이있다. 피보탈하둡플랫폼이갖고있는최고의장점은자체배포판과다른피보탈, EMC 와 VM웨어제품들간의통합에있다. 피보탈은자체 EMC와 VM웨어지원의혜택을받고있다. 하지만포레스터는현제까지피보탈의구축경험은 100건에도미치지못하는데, 그것도대부분중소규모의고객이라고지적했다. 테라데이타 (Teradata) 테라데이타 (Teradata) 와같은업체들은하둡을위협요소이자기회로본다. 테라데이타는데이터관리, 특히 SQL과관계형데이터베이스측면에강점을보이는업체다. 그러므로하둡클라우드같은 NoSQL 플랫폼은테라테이타에위협이될수있지만이대신테라데이타는하둡을받아들였다. - 36 -
솔루션 / 업체명 내용호튼웍스와의협력관계체결을통해테라데이터는이제고객들에게즉각사용이가능한형태로자동적으로테라데이터웨어하우스에저장된데이터와매끄럽게작동되도록자체 SQL과통합된하둡플랫폼을사용할수있는능력을제공하고있다. 빅데이터저장 NoSQL 솔루션 [ 표 2-23] 빅데이터 NoSQL 플랫폼솔루션 솔루션 / 업체명 Apache HBase 내용아파치 HBase는하둡플랫폼을위한공개비관계형분산데이터베이스이다. 아파치하둡프로젝트일부로서개발되었으며하둡의분산파일시스템인 HDFS 위에서동작을한다. 대량의흩어져있는데이터저장을위한무정지방법을제공하는구글의빅테이블과비슷한기능을한다. HBase는압축, 인메모리처리, 초기빅테이블에제시되어있는 Bloom 필터기능을제공한다. HBase에있는테이블들은하둡에서동작하는맵리듀스작업을위한입출력을제공하며자바 API나 REST, Avro 또는 Thrift 게이트웨이를통해접근할수있다. Mongo DB 몽고DB(MongoDB) 는크로스플랫폼도큐먼트지향데이터베이스시스템이다. NoSQL 데이터베이스로분류되며 JSON과같은동적스키마형문서들을선호함에따라전통적인테이블기반관계형데이터베이스구조의사용을지양한다. 특정한종류의애플리케이션을더쉽고더빠르게데이터통합을가능케하며, 자유-오픈소스소프트웨어이다. Couchbase 카우치베이스는유연한 JSON 모델로고정데이터베이스스키마의제약없이쉽게애플리케이션을수정할수있으며, submillisecond (1/100 ms 이하 ) 의초고속데이터입출력처리의높은성능을보장한다. 또한간편한 Scale out으로다운타임없이시스템구성변경및확장을지원한다. JSON 지원, 인덱스와쿼리지원, 증분맵리듀스, 자동샤딩을통한클러스터확장, 클러스터간복제, 고성능연속성을보장한다. 라 ) 주요고려사항 RDB 저장방식 [ 표 2-24] RDB 테이블저장기술고려사항 기능 Text 데이터저장 고려사항 저장테이블과컬럼관계를매핑하여저장하는기능을제공해야한다. 데이터형이다른컬럼은데이터형을변환하여저장하는기능을제공해야한다. - 37 -
기능 고려사항 코드가다른컬럼은코드변환하여저장하는기능을제공해야한다. 컬럼중 NULL 데이터가있는경우 NULL 변환처리하여저장하는기능을제공해야한다. 수집한웹문서내용으로부터스키마에저장된각속성들의값을추출한후 DB 로딩형식에맞추어변환하는기능을제공해야한다. XML, JSON, HTML 데이터저장문서, 이미지, 오디오, 비디오데이터저장성능관리 저장테이블의컬럼에맞도록데이터를파싱처리하여저장하는기능을제공해야한다. 저장시자동집계또는후처리집계처리가수행될수있도록기능을제공해야한다. 저장테이블의문자열데이터형에데이터전체를저장하는기능을제공해야한다. 이진데이터는 Key 값을추출하여저장하는기능을제공해야한다. 저장테이블의이진데이터형에데이터전체를저장하는기능을제공해야한다. 서버증설, 튜닝, 데이터관리주기를적용하여야한다. RDB 연계에따라분산된저장소간의저장상황및자원활용상황을모니터링할수있는기능이제공되어야한다. 검색속도를높이기위한색인기능을제공해야한다. NoSQL 저장방식 [ 표 2-25] NoSQL 저장기술고려사항 기능 고려사항 RDB 테이블데이터를 NoSQL 에저장 Key 값을추출하고컬럼관계를매핑하여저장하는기능을제공해야한다. ( 컬럼기반 ) 테이블데이터를 document 기반으로변환하여저장하는기능을제공해야한다.(document 기반 ) Key 값을추출하고전체데이터는 value 에저장하는기능을제공해야한다.(Key/Value) Key 값과추출값간의릴레이션을파악할수있는변환용검증키를부여할수있는기능이제공해야한다. XML, JSON, HTML, 문자열 / 문서파일을 NoSQL 에저장 성능관리 Key 값을추출하고컬럼관계를매핑하여저장하는기능을제공해야한다. ( 컬럼기반 ) 데이터내용을 document 기반으로변환하여저장하는기능을제공해야한다. (document 기반 ) Key 값을추출하고전체데이터는 value 에저장하는기능을제공해야한다. (Key/Value) 저장소및성능향상을위한 Scale out 기능을제공해야한다. 데이터처리성능을높이기위한분산병렬처리기능을제공해야한다. - 38 -
분산파일시스템저장방식 [ 표 2-26] 분산파일시스템저장기술고려사항 기능 RDB 테이블데이터를분산파일시스템에저장 고려사항 저장테이블과컬럼관계를매핑하여저장하는기능을제공해야한다. 데이터형이다른컬럼은데이터형을변환하여저장하는기능을제공해야한다. 코드가다른컬럼은코드변환하여저장하는기능을제공해야한다. 컬럼중 NULL 데이터가있는경우 NULL 변환처리하여저장하는기능을제공해야한다. 맵리듀스작업을통해중복체크후분산파일시스템에저장하는기능을제공해야한다. XML, JSON, HTML, 문자열 / 문서파일을분산파일시스템에저장 저장테이블의컬럼에맞도록데이터를파싱처리하여저장하는기능을제공해야한다. 저장테이블의문자열데이터형에데이터전체를저장하는기능을제공해야한다. 여러웹로봇으로부터수집한파일들을분산파일시스템에서제공하는저장파일로통합하는기능을제공해야한다. 분산파일시스템의저장단위로통합된파일을나누어저장하는기능을제공해야한다. 나누어저장된통합파일을분산파일시스템에중복되지않도록순차처리파일로저장하는기능을제공해야한다. 여러에이전트로부터수집한로그파일을분산파일시스템에서제공하는저장파일로통합하는기능을제공해야한다. 매핑과변환처리된데이터를맵리듀스작업에서중복제거후분산파일시스템에저장하는기능을제공해야한다. 문서, 이미지, 오디오, 비디오이진파일을분산파일시스템에저장성능관리 이진데이터 Key 값을추출하여저장하는기능을제공해야한다. 분산파일시스템의이진데이터형에데이터전체를저장하는기능을제공해야한다. 여러에이전트로부터수집한파일을분산파일시스템에서제공하는저장파일로통합하는기능을제공해야한다. 분산파일시스템의저장단위로통합된파일을나누어저장하는기능을제공해야한다. 나누어저장된통합파일을분산파일시스템에중복되지않도록순차처리파일로저장하는기능을제공해야한다. 저장소성능향상을위한 Scale out 기능을제공해야한다. 데이터처리성능을높이기위한분산병렬처리기능을제공해야한다. 마 ) 시사점및모델링확보된빅데이터로부터지식과가치를추출하여활용하기위해서는빅데이터를효과적으로저장관리할수있어야한다. 일반적으로데이터저장관리기술은단지데이터를보관하는것뿐만아니라필요한경우데이터를수정하거나삭제하기도하고, 원하는데이터에접 - 39 -
근하여그내용을읽어올방법을제공하는것을포함하기때문에그특성과사용방법에따라선별적으로기술을선택하여야한다. 고려될수있는빅데이터저장기술로는 RDBMS와분산파일시스템, NoSQL정도로볼수있다. 최근빅데이터저장소또는빅데이터플랫폼으로불리어지는다양한상용하둡파일시스템과 NoSQL의제품출시를통해사용자는시스템구축의중요방향성에따라다양한결정을할수있을것이라예상된다. 식품의약품안전처의경우 Open Source인 Hadoop을활용하여비정형데이터를수집저장하고정제된데이터를 RDBMS에별도저장하여데이터시각화나정보제공의용도로활용할수있다. [ 표 2-27] RDB, NoSQL, 분산파일시스템저장방식비교 구분설명비고 RDB 관계형데이터를저장하거나, 수정하고관리할수있게해주는데이터베이스 SQL문장을통하여데이터베이스의생성, 수정및검색등서비스를제공함 Oracle MSSQL mysql Not-Only SQL 의약자이며, 비관계형데이터저장소로기존의 NoSQL 전통적인방식의관계형데이터베이스와는다르게설계된데이터베이스테이블스키마가고정되지않고, 테이블간조인 (Join) 연산을지원하지않으며, 수평적확장 (Horizontal Scalability) 이용이 key-value, Document key-value, colume 기반의 NoSQL이주로 MongoDB CouchBase Cassandra HBase 활용중 분산된서버의로컬디스크에파일을저장하고파일의읽기, 쓰기 등과같은연산을운영체제가아닌 API 를제공하여처리하는파일 분산파일시스템 시스템파일읽기 / 쓰기같은단순연산을지원하는대규모데이터저장소범용 x86서버의 CPU, 메모리등을사용하므로장비증가에따른성능향상용이 HDFS Cloudera MapR 수 TB ~ 수백 PB 이상의데이터저장지원용이 이와같이데이터의용도사용에따라빅데이터저장기술의사용을선택할수있으며, 효율성을고려하여구현하여야한다. 이중에서도 NoSQL은빠른데이터의입력처리와휘발성데이터의관리를위해서활용하는경우가많고 Hadoop의경우는대용량의데이터를저장병렬분석에활용하는경우가많다. 궁극적으로 Hadoop + RDB, NoSQL + RDB, Hadoop + NoSQL + RDB의조합을고려해보아야한다. - 40 -
[ 그림 2-23] Hadoop 분산파일시스템구조 < 출처 : Apache Hadoop> 5) 빅데이터분석기술데이터를효율적으로정확하게분석하여비즈니스등의영역에적용하기위한기술로분석기술영역은이미여러분야에서활용해온기술이다. 가 ) 주요활동 [ 표 2-28] 데이터분석주요활동 항목 분석계획수립 상세내역 분석목적을정의하고분석을위한시스템환경및방법론등세부분석계획을수립한다. 분석시스템구축 분석시스템구축비용및운영방식등을고려하여자체구축및타분석시스템활용한다. 분석서비스운영분석전문가를포함한전담인력을확보하고분석서비스운영한다. 나 ) 활용기술 통계분석불확실한상황에서현명한의사결정을하기위한자료수집, 분류, 분석, 해석, 발표의프로세스이며, 다양한분석에서활용되는기술로서통계적컴퓨팅에사용되는 R, SAS등을통하여다양한통계기법으로분석할수있다. 이러한통계기법을활용하여목적에맞는가장정확하고효율적인통계분석을수행할수있다. - 41 -
[ 표 2-29] 통계기법분류 통계기법 설명 고차원회귀 / 분류분석군집분석 Lasso Ensemble SVM (Support Vector Machine) K-means clustering Hierarchical clustering Model based clustering 모형의예측성능향상과변수선택을동시에할수있는기법단순모형을결합하여고성능모형을찾는방법주어진자들을분리하는가장좋은방법군집의중심과자료와의거리를최소화계층구조를갖는군집화방법혼합모형에기초한군집분석으로자료를군집화하는동시에각군집의분포추정 데이터마이닝데이터마이닝은통계및수학적기술뿐만아니라패턴인식기술들을이용하여데이터저장소에저장된대용량의데이터를조사함으로써의미있는새로운상관관계, 패턴, 추세등을발견하는과정이다. 데이터마이닝은다양한분야에서활용될수있으며, KDD, 기계학습, 패턴인식, 통계학, 신경망컴퓨팅등과관련하여빅데이터분석에있어가장기본적인분석기술이다. [ 표 2-30] 데이터마이닝에서의주요개념 항목분류 (Classification) 추정 (Estimation) 예측 (Prediction) 데이터축소 (Data reduction) 데이터탐색 (Data exploration) 설명데이터분석의가장기본적인형태로써, 데이터마이닝에서분류랑분류결과가알려진유사데이터를사용하여규칙을찾아낸다음, 그규칙들을분류결과가알려지지않은해당데이터에적용하는것이다. 분류는 예, 아니오, 남, 여 등의이산형결과를다루지만이에반해추정은연속적인결과를다룬다. 데이터를통하여만들어진예측모형을통하여, 자료의특정한속성을예측한다. 대량의변수혹은레코드들을작은변수군또는레코드집합으로병합하는과정으로써, 분별력이있는데이터분석이되기위해서는일반적으로복잡한데이터를데이터축소를통하여단순한데이터로정제하여야한다. 비슷한정보를내포하고있는서로유사한변수들은이를통합하여하나의단일변수로병합하여데이터를완전하게이해할수있도록하는과정이다. - 42 -
[ 표 2-31] 데이터마이닝에의주요기법 분석 기술 통계기법 설명 데이터 마이닝 OLAP (On-Line Analytical Processing) 군집분석 (Cluster Analytics) 연결분석 (Link Analytics) 사례기반추론 (Case Based Reasoning) 연관성규칙발견 (Association Rule Discovery) 의사결정나무 (Decision Tree) 시계열분석 동일한데이터를여러방식으로보면서하는다차원데이터분석데이터안에존재하지못하는특성이있을때유사성을기초로그룹화또는그룹간분리정도를기준으로분류항목들간의관련성을분석하는도구귀납법및유추법과유사한개념으로유사한과거데이터에기초해서새로운문제를해결하는과정특정아이템안에서발생하는규칙을연관된다른특정아이템에서발생하는현상을발견하고자하는분석의사결정규칙을도표화하여예측을수행하는분석방법추세분석, 평활법 (smoothing method), 자기회귀누적이동평균분석 (ARIMA) 텍스트마이닝불명확하고찾기힘든텍스트기반의데이터로부터새로운정보를발견할수있도록관련방법을제공하는기술이며, 이와관련된정보검색, 정보추출, 정보체계화, 정보분석을모두포함하는 Text-Processing 기술및처리과정을의미한다. 구조화되지않는대규모의텍스트집합으로부터새로운지식을발견하는과정으로텍스트문서전처리및패턴분석등의단계를가지며, 순환구조로써계속적인피드백을수행한다. [ 표 2-32] 텍스트마이닝수행단계 항목 Text 문서 Text 전처리 설명텍스트마이닝의소스로써주로사용되는 Text 문서는 DB Contents 혹은텍스트기반의문서이다. 문서내에표현되어있는단어 / 구 / 절에해당하는내용을언어분석처리과정을가공할수있는데이터로표현한다. 의미정보변환전처리된데이터중의미있는정보를선별하여저장한다. 의미정보추출 패턴및경향분석 복잡한의미정보의표현을단순화하고, 도메인에적합한정보를문서의의미데이터로저장한다. 의미데이터를기반으로문서를자동으로군집화하거나, 분류하는등의정보로재생산한다. - 43 -
항목 정보표현및평가 설명새롭게생성된정보를사용자에게시각화툴로효과적으로표현하며, 평가과정을통해텍스트마이닝의처리과정중문제가되는부분을수정및보완하여품질및성능을높이는데활용한다. 최적화주어진가능한결과들에대한평가를수행하여최적의결과를도출하는것으로비즈니스환경에서취할수있는여러가지대안들중제시된전략을평가하고최적의대안을선택하도록도와줄수있는필수적인분석기술이다. 평판분석소셜미디어등의정형 / 비정형텍스트의긍정 / 부정 / 중립의선호도를판별하는기술로서, 특정서비스및상품에대한시장규모예측, 소비자의반응, 입소문분석등에활용된다. 소셜네트워크분석소셜네트워크연결구조및연결강도등을바탕으로사용자의명성및영향력을측정하는기술로서, 수학의그래프이론에뿌리를두고있다. 주로마케팅을위하여소셜네트워크상에서입소문의중심이나허브역할을하는사용자를찾는데주로활용된다. CEP(Complex Event Processing) Complex Event Processing은 CEP라고도하며더복잡한상황을나타내는이벤트나패턴추론을여러소스로부터얻은데이터들을조합하여도출해내는방식으로의미있는이벤트를도출하고결과에최대한빠르게대응하는것이목적이다. 그이벤트들은뉴스항목, 텍스트메시지, 소셜미디어의포스트, 주식시장의피드, 교통정보, 날씨정보등과같은데이터종류일수도있다. 다 ) 분석도구 [ 표 2-33] 빅데이터분석도구 분석도구 상세설명 R 오픈소스로통계계산및시각화를위한언어및개발환경을제공하며, 기본적 인통계기법부터모델링, 데이터마이닝기법구현가능하다. 빅쿼리 (BigQuery) 구글의대용량데이터를처리할수있도록개발된쌍방향서비스로구글클라우드 스토리지를활용하여최대 2TB 에이르는비압축데이터를무료로분석가능하다. 프레스토 (Presto) 하둡을위한 SQL 처리엔진으로분석가가대화형분석을수행할수있도록해준다. - 44 -
라 ) 주요고려사항 데이터마이닝 [ 표 2-34] 데이터마이닝고려사항 기능 고려사항 샘플링 데이터선정시각각의개체가모두무작위방법선정기능을제공해야한다. 데이터선정시몇개의층으로나누어각층으로부터동등하게무작위방법선정기능을제공해야한다. 데이터선정시몇개의층으로나누어각층의비례에따라무작위방법선정기능을제공해야한다. 데이터선정시몇개의층으로나누고그중하나의층에서만무작위방법선정기능을제공해야한다. 데이터사전 처리및변환 평균형태의데이터분포에서혼자떨어져있는값을관측하여제거하는기능을제공해야한다. 데이터범위를일치시키거나유사하게만들어주는기능을제공해야한다. 가장크게영향을줄것으로판단되는변수부터하나씩선택하여판단하는기능을제공해야한다. 가장적게영향을줄것으로판단되는변수부터하나씩제거하여판단하는기능을제공해야한다. 중요한변수를하나씩선택하면서단계별로변수의중요성을판단하여제거유무판단기능을제공해야한다. 데이터기존수치적용또는추론 / 패턴적용을위한데이터사전기능을제공해야한다. 데이터사전의추가 / 수정을위한관리기능을제공해야한다. 분석모형 생성 연속형데이터의독립변수와종속변수의상관관계에따른선형적관계식을구하여예측하는기능을제공해야한다. 종속변수의이진데이터화를통해독립변수와의관계를발생가능성으로예측하는기능을제공해야한다. 반응변수의형태에따라연결함수자동지정기능을제공해야한다. 전체데이터셋을반복해서두개의노드로분리하여예측변수를사용하여의사결정트리생성방법지원기능을제공해야한다. 범주형데이터의예측변수와결과변수와의관계를찾는방법지원해야한다. 시각화 데이터의분석결과를시각화하여시각적분석기능을제공해야한다. 사용자 UI 환경에호환되도록시각화기능을제공해야한다. 지도및각종차트를이용한데이터시각화기능을제공해야한다. 사용자상호작용을통하여분석된결과를탐색하거나검색할수있는기능을제공해야한다. - 45 -
텍스트마이닝 [ 표 2-35] 텍스트마이닝고려사항 기능데이터구성형태소분석개체명분석텍스트군집과분류자동요약토픽분석감성분석 고려사항 수집된다양한비정형데이터로부터텍스트데이터를분리해내는텍스트필터링기능을제공해야한다. 원본문서의메타데이터나문서구조정보를별도로추출및수집하는기능을제공해야한다. 텍스트데이터의각문장들에포함된단어를구성하는각형태소를분리하고분리된형태소의기본형및품사정보를추출하는기능을제공해야한다. 정보로서가치가없는용어인불용어를제거하기위한기능을제공해야한다. 유사어, 합성어등의처리를위해준비된사전에따라분석을수행할수있는기능을제공해야한다. 불용어, 유사어, 합성어등의언어사전은분석도메인에따라특화될수있으므로분석시언어사전을조정및관리할수있는기능을제공해야한다. 텍스트데이터로부터인명, 지명, 기관명등과같은개체명을인식하여해당개체명에개체분류를위한태그를부착하여주는기능을제공해야한다. 분석도메인에따라특화된다양한개체를식별할수있도록개체명사전을등록, 수정및관리할수있는기능을제공해야한다. 주어진텍스트데이터로부터데이터추출이가능해야한다. 추출된특성을중심으로그들간의유사도를계산하고유사한문서들끼리 군집화할수있는기능을제공해야한다. 정의된분류체계를기준에적합한텍스트데이터를이용하여분류체계에대한기계학습을수행할수있어야한다. 기계학습된분류체계에따라새로운텍스트데이터를자동으로분류할수있어야한다. 기계학습으로분류할수없는적은량의텍스트데이터를분류하기위해규칙기반의분류기능을제공해야한다. 규칙기반자동분류를위해분류규칙을추가, 수정및관리할수있는기능을제공해야한다. 주어진텍스트데이터활용도를높이기위해텍스트데이터의특성을유지시키면서텍스트데이터의길이와복잡도를줄일수있어야한다. 일련의텍스트데이터로부터주요토픽을추출하고토픽들이시계열적인트렌드와공간적인분포를측정할수있어야한다. 주어진텍스트데이터로부터주요토픽을추출하고토픽들간의연관성을측정하여연관성을측정하여연관성네트워크를구성할수있어야한다. 주어진텍스트문장으로부터감성표현을식별하고, 주어진감성분류기준에따라자동으로감성분류를수행할수있어야한다. 감성표현과감성분류기준은분석대상이되는시기, 지역, 도메인에따라지속적으로변화하므로필요에따라감성표현사전을구성하고관리하는기능을제공해야한다. - 46 -