농림수산식품교육문화정보원 축산물정보시각화컨텐츠개발및빅데이터인프라구축사업최종보고 2016.03.25 0
목차 Ⅰ Ⅱ Ⅲ 사업개요 사업추진내용 지원방안 1
Ⅰ. 사업개요 1. 사업개요 2. 사업목표및범위 3. 사업경과 4. 기대효과 2
. 사업개요 본사업은국. 내외각분야에서빅데이터활용확산이이루어지는상황에서소및쇠고기생산. 유통관련빅데이터를축적 분석 활용하여, 소비자가실생활에쉽게이용할수있는축산물정보를생산및제공하여축산시장에대한국민신뢰도제고를목적으로하였음 사업명사업기간목적추진과제 축산물정보시각화컨텐츠개발및빅데이터인프라구축 2015 년 12 월 29 일 ~ 2016 년 03 월 28 일 축산물품질평가원및유관기관을통해소및쇠고기관련빅데이터발생중이나, 이에대한수집 분석수행 소및쇠고기생산 유통관련빅데이터를축적 분석 활용하여, 축산정책수립에기여하고국내축산시장에대한국민적신뢰확보 축산물 DB 활용을통한빅데이터분석모델발굴 축산물 DB 기반의인포그래픽개발등정책이해도증진을위한시각화컨텐츠개발 축산물빅데이터활용체계구축을위한인프라구축 3
. 사업범위 본사업의추진과제는시각화컨텐츠개발, 빅데이터인프라구축, 분석모델발굴과외부데이터의연계처리임. 사업목표 : 축산물정보시각화컨텐츠개발및빅데이터분석인프라, 분석모델발굴 추진과제 인포그래픽기반시각화콘텐츠 쇠고기빅데이터분석결과활용, 대국민정보시각화콘텐츠개발 통계인포그래픽 6 종개발 농식품공공데이터포털및축산유통종합정보센터에분석서비스구축 축산물빅데이터인프라구축 쇠고기관련데이터보유기관 ( 축평원등 ) 정보수집및데이터연계 빅데이터분석. 활용을위한최신기술의인프라 ( H/W, S/W ) 구축 정형. 비정형데이터수집. 분석을위한전문오픈 S/W 인프라구축 축산물 DB 활용을통한빅데이터분석모델발굴 축산물빅데이터 활용체계를위한 인프라구축 소및쇠고기관련빅데이터수집을통해축산정책수립에기여및축산시장에대한국민적신뢰확보 축산물 DB 활용을위한분석모델발굴 전문가협의체구성. 운영을통한분석모델발굴및검증 - 유관기관및전문가협의체구성. 운영 유통흐름시각화모델구축및분석알고리즘컨설팅 - 쇠고기수급등다양한분석모델발굴컨설팅 - 쇠고기유통 품질현황의흐름현황시각화 축산물 DB 기반의 인포그래픽기반 시각화콘텐츠개발 축산물 DB 활용을위한분석운영구축 분야별쇠고기관련기초데이터및분석데이터구축 쇠고기및연관정보맞춤분석을위한데이터처리모니터링구현 4
. 사업경과 사업기간중, 13 회의주간보고와 2 회의전문가협의체운영을실시하였으며, 아래와같은일정으로 축산물정보시각화컨테츠개발및빅데이터인프라구축사업 의과업수행을완료함. 축산물정보시각화컨텐츠개발및빅데이터인프라구축 사업관리 분석 설계 구분 주요보고 / 행사전문가협의체 사업관리 / 품질관리요구사항분석ㆍ기능정의 ( 연계시스템 ) 연계 / 시각화데이터분석빅데이터적재방안도출 데이터연계모듈 / 시각화설계 초기적재프로그램설계 빅데이터모델링을위한기초통계분석 1 월 2 월 3 월 M+3 분석 / 설계설계 / 구축구축 / 테스트안정화착수보고 /1차전문가협의체 2차전문가협의체주간보고 13회완료보고 분석결과검토설계결과검토개발결과검토 연계업무및사용자요구분석 수령데이터분석 빅데이터방안작성 데이터연계모듈 / 시각화설계 초기적재프로그램설계 기초통계분석 개발환경구축 개발환경구축 구축 시험 데이터연계모듈 / 시각화컨텐츠개발 빅데이터모델링 HW/SW 설치 단위테스트 통합 / 인수테스트 HW 및 SW 설치 데이터연계모듈 / 시각화컨텐츠개발빅데이터모델구현단위테스트통합 / 인수테스트 시범운영및이행 운영및기술이전 시스템개방 운영 5
. 기대효과 내부적기대효과 외부적기대효과 빅데이터활용분석을위한최신식장비도입으로다양한농축산데이터및 SNS 등외부데이터수집및확장보관이가능해져, 고도화된분석기반구축 광범위한분석정보를활용하여과거가아닌미래예측정보를제공, 의사결정지원기반구축 소비자의 쉽고간편한정보이용 을위한축산물정보의생산및제공 소의생산부터소비까지유통흐름을한눈에봄으로써, 축산정책수립에기여 쇠고기유통구조를과학적으로분석하여국내축산시장에대한국민적신뢰확보 6
Ⅱ. 사업추진내용 1. 일반인대상수요조사및전문가협의체운영 2. 정보시각화컨텐츠개발 3. 빅데이터모델발굴 4. 빅데이터인프라구축 5. 연계 7
. 일반인대상수요조사실시및전문가협의체운영 일반인대상수요조사를실시하고, 전문가협의체를운영하여, 정보시각화컨텐츠개발및빅데이터모델링의주제선정에반영함 일반인대상수요조사 전문가협의체 조사목적 축산물의생산 / 유통 / 포장등의과정에서소비자가얻고자하는시각정보파악 운영일 2016.01.13 참석인원 민간 / 학계 / 유관기관전문가 18 명 조사방법 조사대상 온라인조사 (On-line survey) - 네이버파워링크 ( 검색어 ) 설문진행 만 20 세이상성인남녀 1 차전문가협의체 결과 - 사업취지에대한공감대형성 - 기초데이터분석결과발표에대한의견청취 - 전문가의견수렴을위한설문지배포 조사표본수 총 150 Sample 운영일 2016.02.04 조사기간 2015 년 1 월 22 일 ~ 2015 년 1 월 25 일 ( 총 3 일간 ) 참석인원 민간 / 학계 / 유관기관전문가 11 명 조사지역 표집방법 결과 전국 Random Sampling 수요조사결과서제출 2 차전문가협의체 결과 - 수요조사결과발표 - 정보시각화컨텐츠 4 종시안제시 - 축산학과출신축평원 & 농정원신입직원대상 FGI(focus group interview) 실시등 9 건의전문가의견수렴 - 9 건의전문가의견은사업결과에반영 8
. 정보시각화컨텐츠개발 쇠고기이력제 DB 에대한데이터분석결과와전문가협의체운영결과를반영하여, 아래와같은정보시각화디자인전략을적용, 제안요건인 6 종의정보시각화컨텐츠를개발하였음. 정보시각화디자인전략 정보시각화컨텐츠목록 Simple & Wide 축산물정보시각화컨텐츠개발을위한컨셉트는누구나쉽고간편하게정보를활용할수있음을떠올리는 Simple & Wide 키워드의활용과다변화를위해키워드를도출합니다. 간편, 쉬운, 빠른 함께, 공유, 확장, 열린, 소통 한우소비관련시각화컨텐츠 한우사육 / 생산관련시각화컨텐츠 1. 한우암소가거세우보다맛있나요? 2. 소의등급판정기준은어떻게이루어지고있나요? 3. 어느지역에서생산된소의품질이가장좋을까요? 쉽고간편한정보이용 쇠고기유통관련시각화컨텐츠 4. 사육지역 - 소비지역비교를통한유통흐름분석 : 우리가먹는소는어디에서왔을까요?, 우리지역의소는어디에서주로소비될까요? Information Smart Easy Simple 학교급식관련시각화컨텐츠 5. 급식용쇠고기의품종및부위소비량 : 어느부위의고기를먹고있나? 6. 급식용쇠고기의지역별등급소비량 9
. 정보시각화컨텐츠개발 개발된정보시각화컨텐츠 6 종은아래와같음 1 2 3 4 5 6 정보시각화컨텐츠 6 종 1. 한우암소가거세우보다맛있나요? 2. 소의등급판정기준은어떻게이루어지고있나요? 3. 어느지역에서생산된소의품질이가장좋을까요? 4. 사육지역 - 소비지역비교를통한유통흐름분석 : 우리가먹는소는어디에서왔을까요?, 우리지역의소는어디에서주로소비될까요? 5. 급식용쇠고기의품종및부위소비량 : 어느부위의고기를먹고있나? 6. 급식용쇠고기의지역별등급소비량 10
. 빅데이터모델발굴 쇠고기이력제 DB 분석및 1, 2 차전문가협의체결과를아래와같이반영하여, 제안요건인 3 종의빅데이터모델링주제를선정하고, 모델을구현함 기본분석모형 외부변수보정모형 모델링세그먼트 사육량 / 일 도축량 / 종 / 성별 등급별 가격 / 일 이상 / 결측치보정 예외값 NA Data Type 명절선물관련 Social buzz 량 명절정보보정모델 대체재보정모델수입산쇠고기 수입량, 소매가격 / 월돼지고기 수입량, 소매가격 / 월닭고기-수입량, 소매가격 / 월 날씨정보보정모델 분석모델링 사회이슈보정모델 태풍, 폭염자연재해관련 social buzz 량 1. 회귀분석 : 내부데이터 2. 회귀분석 : 내부 + 외부빅데이터 3. 시계열 (Time Series) 모형 -ARIMA 소셜변수 ( 뉴스등 ) - 토픽트래픽 / 월 : 소고기 / 수입소고기, 한우, 질병 ( 브루셀라, 구제역, 광우병 ), 김영란법, FTA 질병정보보정모델 검역본부 - 질병 ( 결핵병, 브루셀라, 구제역, 광우병, 콜레라 ) 발생개체수 11
. 빅데이터모델발굴 3 종의빅데이터모델링발굴결과는아래와같음 발굴결과 회귀분석 : 내부데이터 Y( 암소 _ 지육단가 ) = -41557.175 + (-0.519 * 추정사육수 ) + (21897.439 * 등급점수화 ) + (-712.971 * 1 등급이상비율 ) + (-511.290 * 마블링 ) 해석 - 쇠고기이력제데이터만을활용하여한우암소쇠고기경제성분석회귀식은 마블링, 공급량, 암소등급점수화, 암소 1 등급이상비율 이지육단가에영향을미치는것으로분석됨 - 이를이용한지육단가예측에서는약 13.83% 오차범위로쇠고기지육단가의예측가능함. R² 의값이위모형에서 0.485 이므로위모형은 y 의변동량중 48.5% 를설명하고있음. p-value 이 0 에가까우므로이모형은유의미함. - 잔차분석결과새로운설명변수가필요한것으로나타났으므로, 외부데이터를사용하여새로운회귀분석을시도함. 회귀분석 : 내부 + 외부데이터 Y( 암소 _ 지육단가 ) = -48760 + (-0.065 * 추정사육수 ) + (15300 * 등급점수평균 ) + (-6.72 * 브루셀라 ) + (1.985 * 수입쇠고기수량 ) + (2.062 * 쇠고기소매가격 ) + (-0.029 * 쇠고기 buzz) 해석 - 쇠고기이력제데이터와외부변수를활용하여쇠고기경제성분석을진행한결과추정사육수, 등급점수평균, 브루셀라, 수입쇠고기수량, 쇠고기소매가격, 쇠고기 buzz 가한우암소지육단가에영향을미침 - 지육단가예측에서는약 3.75% 오차범위로쇠고기지육단가의예측이가능 - R² 의값이 0.912 이므로 91.2% 의설명력을가짐 시계열모형 ARIMA (7,1,2) 선정 해석 - 2015 년 12 월 01 일 ~12 월 31 일까지의한달동안의실제지육단가와시계열예측값을비교한결과평균오차값은 282.22 원이고, 약 1.62% 의오차수준을보여주고있으며, 오차의편차는최저 0.35% ~ 최대 10.04% 의범위내로매우높은예측정확도를보여줌 12
. 빅데이터인프라구축 - 연계대상정보 총 11 종의연계대상정보중, 11 종모두의초기축적및연계작업을수행및완료하였음 연계대상정보처리결과 순번제공기관수집대상정보수집처수집주기축적기간연계방법비고 1 쇠고기이력제 DB 수령후, 수동 2 등급판정정보수령후, 수동협의 2011.01. ~ 3 축평원축산물경락가격정보축평원수령후, 수동필요 2015.12 4 급식현황정보수령후, 수동 5 사육정보 수령후, 수동 축산물산지및소매가격 ( 대체재가격정보 ) 6 농정원 농림축산식품공공데이터포털 일별 2013.01 ~ 2016.03 Open API * 기개방공공데이터중, - < 축산물부분육경락가격 >, - < 농수축산물조사가격정보 >, - < 축산물경락가격 >, - < 옥답사이트가격 > 참고하여수집 7 8 검역본부 수입쇠고기검역정보 질병발생정보 농림축산식품공공데이터포털 월별 일별 1996.01 ~ 2016.01 Open API 1996.06 ~ 2016.02.13 * 기상청협조요청여부 / 협의필요 9 융합정보 기상정보 ( 관측치 ) 웨더아이 타기관협조필요 2011.01.01 ~ 2015.12.31 Excel 10 소셜 SNS 및뉴스키워드 ( 사회적현상 ) 인터넷일별 2016.03.01 ~ 현재 웹크롤링 11 교육부 2015 유치원, 초, 중, 고, 특수공공데이터포털년간해당없음파일 * 사회이슈 / 명절 / 질병정보보정 * 제안요청서에명기되지않은데이터 13
. 빅데이터인프라구축 - ERD 작업완료된 11 종의초기축적데이터는아래와같은스키마로저장되었고, 시각화컨텐츠개발및모델링에활용됨 ERD 14
. 빅데이터인프라구축 시스템구성도 제안요건을충족하는 H/W 를납품하였으며, 빅데이터플랫폼으로 HDP 2.2 와 Ambari 2.0 를적용, 향후기술지원의유연성및확장성을보장하도록하였음 빅데이터시스템구성도 빅데이터 : HDP 2.2 연계대상 관리자 PC 데이터적재 R430 R430 R630 R630 X 1 : Name Node 모니터링 & 개발서버 R630 X 3 : Data Node 방화벽 L3&L4 농정원인프라 하둡표준관리 : Ambari 2.0 부문제안기술 / 제품스펙수량용도비고 하둡클러스터 DELL R630 CPU 4 Core 외 1 Name Node DELL R630 CPU 4 Core 외 3 Data Node 연계 / 분석서버 DELL R630 CPU 4 Core 외 1 저장 / 분석 / 연계서버 DELL R430 CPU 4 Core 외 1 메인개발서버 개발서버 DELL R430 CPU 4 Core 외 1 모니터링서버겸용 네트웍 L2 스위치 12 포트외 1 별도망구성 추가납품 추가납품 빅데이터분석 : R Studio 15
. 연계 사용자및외부시스템에정보를제공하기위한연계작업은 1) 데이터원천으로부터데이터를수집, 2) 빅데이터인프라에확장보관, 3) 활용체계구현하여완료함. 1 데이터원천 2 빅데이터인프라 3 활용체계 데이터보유기관연계 빅데이터분석인프라 Dataset 분석엔진 시각화정보서비스 [ 농식품부 ] [ 축평원 ] 융합정보연계 내부연계 모니터링크롤러빅데이터인프라 빅데이터인프라관리시스템 연계 공공데이터개방 뉴스키워드 대외연계 데이터관리 메타데이터관리 소셜 SNS 기상정보 16
Ⅲ. 지원방안 1. 지원체제 2. 지원절차 17
. 지원체제 본사업에투입되었던인원을전담인력으로적극활용하겠음 2016.04 2017.03 종료후 1 개월안정화지원 검수완료후 1 년간무상 장애발생 24 시간이내복구조치 하자보수만료후발견된결함에대한보수 유상유지보수비용및범위는협의후수행 비상연락체계 ( 핫라인운영 ) 지속적인기술지원 전담인원 전담인원 하둡시스템 데이터노드추가및삭제 데이터개방관리 데이터추가등록및관리 박성우부장 이영주차장 김영준대리 18
. 지원절차 장애처리계획 : 장애발생시접수부터장애처리, 결과통보에이르기까지단계별대응절차를사전에구체적으로 프로세스화하고매뉴얼화조치함 1 장애처리계획운영자장애대응요구절차 / 문의 장애대응절차 1 업무설명업무설명운영자요구 / 문의 3 장애처리 2 장애발생 유지보수책임자또는 Help-Desk 장애신고 사용법문의 장애접수 공문 직접방문 전화,FAX,E-mail 무결성체크 No 전담지원팀 접수 검토 처리 3 장애처리 19 4 조치 / 기록 결과통보 시스템장애조치요구 시스템사용법문의 기타요구사항및문의사항 2 장애접수 운영자의요구 / 문의사항에대하여공문, 전화, FAX, 직접방문, e-mail 등의접수처리 접수된요청에대해서는자체조치가가능한경우자체처리후기록하고불가능한경우에는전문기술팀이관 시스템유지보수에관련된문의사항이나장애조치요청을접수받아검토후처리 시스템장애발생보고후 2 시간이내에도착하여장애처리시작 4 결과통보 적절한조치가끝난후해당문의자나장애처리요청자에게결과통보 유지관리에대한조치기록및이력관리 19