e-commerce 란? ( 협의 ) 전자상거래란인터넷상에홈페이지로개설된상점을통해실시간으로상품을거래하는것 ( 광의 ) 소비자와의거래뿐만아니라거래와관련된공급자, 금융기관, 정부기관, 운송기관등과같이거래에관련되는모든기관과의관련행위를포함 출처 : 두산백과 광의 협의 - 1

Similar documents
슬라이드 1

MaxGauge( 맥스게이지 ) 를이용한 SQL 모니터링, 진단 / 분석및튜닝가이드 엑셈

[ 목차 ]

Windows 8에서 BioStar 1 설치하기

hwp

View Licenses and Services (customer)

메뉴얼41페이지-2

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

Microsoft Word - src.doc

배경 구분 주요내용 2014 년 5 월유럽사법재판소는 잊혀질권리 를인정하는판결로, 구글의 과도한개인정보수집이개인인권과충돌한다는논란촉발 2014 년초프랑스 스페인은구글의개인정보수집정책이사생활보 호규정에위반한다며, 각각벌금 15 만 90만유로부과 구글 아동포르노사진을전송한

슬라이드 1

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

e-spider_제품표준제안서_160516

adfasdfasfdasfasfadf

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

공개 SW 기술지원센터

슬라이드 1

PowerPoint Template


소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

<B1DDC0B6B1E2B0FCB0FAC0CEC5CDB3DDB0B3C0CEC1A4BAB82E687770>

빅데이터_DAY key

[11하예타] 교외선 인쇄본_ver3.hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

쿠폰형_상품소개서


92302 대한무역투자진흥공사 대한무역투자진흥공사

* ** *** ****

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1


산업별인적자원개발위원회역할및기능강화를위한중장기발전방안연구 한국직업자격학회

PowerPoint 프레젠테이션

02-01 데이터베이스의필요성 데이터베이스의정의와특성

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

서현수

- 2 -

ISO/IEC 의온톨로지와메타데이터 표준화동향 한국과학기술정보연구원 김장원

분석기법의기본개념부터활용까지사례중심의 A to Z 학습 데이터분석기본 교육기간 : 3 일 (24 시간 )/ 비합숙 교육비 : 회원 62 만원 / 비회원 69 만원 데이터분석핵심이론학습및현업에적용 현장에서발생하는변수를이해하고상황에따른최적화방안도출 품질향상을위한부적합원인도

InsertColumnNonNullableError(#colName) 에해당하는메시지출력 존재하지않는컬럼에값을삽입하려고할경우, InsertColumnExistenceError(#colName) 에해당하는메시지출력 실행결과가 primary key 제약에위배된다면, Ins

Microsoft PowerPoint - chap06-2pointer.ppt

슬라이드 1

DBMS & SQL Server Installation Database Laboratory

i


450 공기업 2 총괄요약표 평가범주 지표명 비계량계량합계 가중치등급가중치득점 ( 점 ) 가중치득점 1. 리더십 5 B 책임경영 3 B 리더십 책임경영 3. 국민평가 ( 고객만족도, 브랜드 )

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론


Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

윈도우시스템프로그래밍

한국정책학회학회보

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

열거형 교차형 전개형 상승형 외주형 회전형 도해패턴 계층형 구분형 확산형 합류형 대비형 상관형 (C) 2010, BENESO All Rights Reserved 2

untitled

PowerPoint 프레젠테이션

[2016년조사대상 (19곳)] 대림산업, 대한항공, 동부화재해상, ( 주 ) 두산, 롯데쇼핑, 부영주택, 삼성전자, CJ제일제당, 아시아나항공, LS니꼬동제련, LG이노텍, OCI, 이마트, GS칼텍스, KT, 포스코, 한화생명보험, 현대자동차, SK이노베이션 [ 표

Web Scraper in 30 Minutes 강철

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

쉽게 풀어쓴 C 프로그래밊

I (34 ) 1. (10 ) 1-1. (2 ) 1-2. (1 ) 1-3. (2 ) 1-4. (2 ) 1-5. (1 ) 1-6. (2 ) 2. (8 ) 2-1. (3 ) 2-2. (5 ) 3. (3 ) 3-1. (1 ) 3-2. (2 ) 4. (6 ) 4-1. (2 )

statistics

<4D F736F F F696E74202D EBCADBAF1BDBABDC3BCB3C0C720C0D4C1F6BCB1C1A4205BC8A3C8AF20B8F0B5E55D>

PowerPoint 프레젠테이션

Microsoft PowerPoint - e pptx

자동화된 소프트웨어 정의 데이터센터

2 Journal of Disaster Prevention

Cloud Friendly System Architecture

자연언어처리

2018 데이터산업백서 2018 Data Industry White Paper

PowerPoint Template

1-1) 아직까지도우리나라는 resilience' 이라는용어가적응유연성 ( 권태철, 2002; 김미승, 2002; 박현선, 1998, 1999a, 1999b; 양국선, 2001; 유성경, 2000; 이선아, 2004; 윤미경, 2002; 조혜정, 2002; 장순정, 2

PowerPoint Presentation

[ 마이크로프로세서 1] 2 주차 3 차시. 포인터와구조체 2 주차 3 차시포인터와구조체 학습목표 1. C 언어에서가장어려운포인터와구조체를설명할수있다. 2. Call By Value 와 Call By Reference 를구분할수있다. 학습내용 1 : 함수 (Functi

슬라이드 1

목차 < 요약 > Ⅰ. 국내은행 1 1. 대출태도 1 2. 신용위험 3 3. 대출수요 5 Ⅱ. 비은행금융기관 7 1. 대출태도 7 2. 신용위험 8 3. 대출수요 8 < 붙임 > 2015 년 1/4 분기금융기관대출행태서베이실시개요

신규투자사업에 대한 타당성조사(최종보고서)_v10_클린아이공시.hwp


Microsoft PowerPoint - 사본 - OAS09-사무자동화 기술(DB).ppt

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

ㅇ ㅇ

Level 학습 성과 내용 1수준 (이해) 1. 기본적인 Unix 이용법(명령어 또는 tool 활용)을 습득한다. 2. Unix 운영체계 설치을 익힌다. 모듈 학습성과 2수준 (응용) 1. Unix 가상화 및 이중화 개념을 이해한다. 2. 하드디스크의 논리적 구성 능력

untitled

PowerPoint Template

이베이를 활용한 B2C 마케팅_한국무역

제안서 작성 Guide

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

범정부서비스참조모형 2.0 (Service Reference Model 2.0)

W7_Business_ 제품설계

Microsoft PowerPoint Python-DB

로거 자료실

< 목차 > Ⅰ. 개요 3 Ⅱ. 실시간스팸차단리스트 (RBL) ( 간편설정 ) 4 1. 메일서버 (Exchange Server 2007) 설정변경 4 2. 스팸차단테스트 10

2019년도 지엠디 교육

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

금오공대 컴퓨터공학전공 강의자료

본 강의에 들어가기 전

Transcription:

e-commerce 와 Big data 어니컴 http://www.onycom.com kjungho@onycom.com 김정호

e-commerce 란? ( 협의 ) 전자상거래란인터넷상에홈페이지로개설된상점을통해실시간으로상품을거래하는것 ( 광의 ) 소비자와의거래뿐만아니라거래와관련된공급자, 금융기관, 정부기관, 운송기관등과같이거래에관련되는모든기관과의관련행위를포함 출처 : 두산백과 광의 협의 - 1 -

Big Data 란? 기존데이터베이스관리도구의능력을넘어서는대량 ( 수십테라바이트 ) 의정형또는심지어데이터베이스형태가아닌비정형의데이터집합조차포함한데이터로부터가치를추출하고결과를분석하는기술 빅데이터의정의, 3V ü Volume: 데이터의양 ü Velocity: 데이터입출력속도 ü Variety: 데이터종류의다양성 - 2 -

빅데이터활용사례 - 쇼핑몰 Cafe24 사례 ü 쇼핑몰이용자의이동경로와클릭수, 주문내역, 상품가격등의빅데이터를분석하여, 개인이관심있어할상품을추천 ( 서비스명 : 스마트추천 ) ü 온라인쇼핑몰에서 ' 다른손님이구매한아이템 ' ' 어울리는아이템 ' 등으로추천되는제품들이여기에해당 ü Cafe24 입주쇼핑몰 ' 미아마스빈 ' 의경우일반상품보다스마트추천을통해노출된상품의주문수가 3~4배높음 아마존사례 ü 고객이구매한내역, 쇼핑카트나위스리스트, 제품에대한평점등을바탕으로고객이제품을검색할때최적화된제품을소개 ü 연간 30% 의매출이오름 시작 상품추천 분석결과 Cafe24 의스마트추천 ( 사용자행위분석기반추천 ) 아마존의제품검색어최적화 ( 협력적여과기법 ) - 3 -

빅데이터활용사례 - 카드사 VISA 사례 ü 구입품목, 시점, 결제위치등을실시간으로파악하고고객의구매이력및성향을감안하여인근가맹점의할인쿠폰을발송해주는 RTM(Real Time Messaging) 서비스를제공 ü 카드이용건수및가맹점신규고객이증가하는결과를얻었음 ü 고객의카드이용패턴을실시간분석하여카드부정사용을사전에차단하는시스템을빅데이터기술을활용하여개발 / 운영 AMEX 사례 ü 위치기반소셜네트워크정보를활용한고객별맞춤형마케팅을실시 ü 제휴를맺은소셜플랫폼의고객계정을 AMEX카드와연동시켜고객에게맞춤형할인혜택을제공 ü 예를들면페이스북이나트위터에서특정상품및레스토랑에 좋아요 를클릭하면할인쿠폰및관련정보를미리제공해줌으로써기존의타깃마케팅보다큰효과를제공 Visa 의할인쿠폰서비스 ( 품목, 시점, 결제위치기반발송 ) AMEX 의할인쿠폰서비스 (SNS 계정연동기반발송 ) - 4 -

빅데이터활용사례 - 카드사 삼성카드사례 ü 고객의카드거래실적을분석하여앞으로자주이용할것으로예상되는가맹점혜택을미리고객에게제안 ü 고객이별도의쿠폰이나할인권을제시하지않아도결제만하면자동으로혜택을적용받을수있는서비스 ( 서비스명 : LINK) ü 이로인해기존의문자메시지및타깃마케팅에비해구매율이높았고, 가맹점의신규고객유입부분에서도두드러진결과를얻게됨 신한카드사례 ü 고객의카드사용실적을분석하여고객별소비패턴및선호트렌드를파악하여남녀각각 9개의고객군으로클러스터링한후, 각그룹별최적화된코드나인 (Code 9) 카드시리즈를출시 ü 기존의주력카드보다도평균 10% 이상이용률이높음 ü 상품개발시빅데이터를활용한성공적인사례 삼성카드링크서비스 ( 빅데이터기반할인서비스 ) 신한카드의코드나인 ( 빅데이터기반상품개발 ) - 5 -

빅데이터활용사례 - 핀테크 Lenddo 사례 ( 미국 ) ü 신용평가알고리즘을개발할때온라인상대출자의평판에대한비정형데이터를추출하여신용도를평가 ü SNS 친구중연체자가있거나 자동차사고 및 실직 같은부정적인단어가많이나오면신용점수가낮음 ü 개인이아닌소상공인경우기업의평판및영업활성화정도를통해대출여부를판단 Kreditech 사례 ( 독일 ) ü 기존은행거래정보외에페이스북, 이베이, 아마존에서의행동패턴을반영하여대출여부를판단 ü 맞춤법을틀리지않는대출자는틀리는대출자에비해덜연체하는특성을가지고있으므로, 맞춤법의틀리는정도를신용평가모델의변수로사용 ü 대출신청서류를상세히보는사람일수록대출을갚는경향이높기때문에, 대출정보약관을얼마나꼼꼼히읽었는지여부도변수로넣음 ü 주기적으로온라인쇼핑을했다는것은일정한소득이있다고추정할수있기때문에, 주기적으로택배기사가방문하는여부를신용평가에반영 SNS 친구들 판단 판단 Lenddo사의 SNS친구기반신용평가 (SNS친구의부정어수집 ) Kreditech의맞춤법기반신용평가 ( 맞춤법오류수집 ) - 6 -

Best 빅데이터 시작 분석과제 발굴 l 내가 만나본 고객 잘 모르는 것 잘 아는 것 실무 관련 필요 실무 데이터 특성 보유 데이터의 관리 상태 데이터 분석 기술 실무 관련 외부 데이터 실무 관련 정보 시스템 실무 관련 데이터 접근 정보 원하는 것 정보계 담당자 in A사 -7- 다양한 기능과 분석결과 화려한 데이터 시각화

Best 빅데이터 시작 분석과제 발굴 l 내가 만나본 고객 잘 모르는 것 잘 아는 것 실무 관련 정보시스템 실무 관련 데이터 접근정보 데이터 분석 기술 보유 데이터의 관리 상태 실무 관련 외부 데이터 실무 관련 필요 실무 데이터 특성 원하는 것 실무 담당자 in A사 -8- 없다! (대다수 해당) 업무환경 개선 - 작업 능률 향상 - 작업량 감소 - 보고서와 같은 부수업무 축소

Best 빅데이터시작 분석과제발굴 l 분석과제발굴이필요한이유 고객의빅데이터이해제고 고객의빅데이터요구사항수집및정의 잘아는것잘모르는것원하는것 동상이몽 공통적으로모르는부분 잘아는것잘모르는것원하는것 데이터분석기술 보유데이터의관리상태 실무관련외부데이터 정보계담당자 in A 사 실무담당자 in A 사 - 9 -

Best 빅데이터시작 분석과제발굴 추진가능한빅데이터과제를도출하고수행가능한과제를선별하여상세시나리오를개발 과제발굴목적 ü 데이터융합분석으로사업적현안에대해효과적으로예측 ü 다양한데이터분석을통한신속한의사결정으로미래지향적사업전략으로변화 ü 다양한비즈니스창출 ü 정확 정밀한분석데이터활용으로효율성제고및의사결정신뢰향상 빅데이터과제발굴절차 과제발굴및현황조사 과제평가및집중조사 상세시나리오설계및평가 빅데이터활용후보과제도출 해외선진활용사례참고 고객사운영계획반영 데이터수집 / 공개현황고려 현업부서현황조사 빅데이터기반정책 / 서비스발굴가능영역조사 고객사추진사업및업무이해 현업부서의데이터현황파악 고객사과제평가 타당성, 효과성, 현실성, 시급성 집중조사대상과제선정 고객사평가 전문가자문위원평가 현업부서집중조사 데이터확보가능성및활용절차확인 실무현업담당자의견청취 실무관점에서타당성검토 - 10 - 상세시나리오설계 단 / 중기추진이가능한과제 시나리오타당성평가및과제선정 실현가능성, 난이도, 이슈및리스크

Best 빅데이터시작 분석과제발굴설문질의작성 담당업무별주요활용데이터와해당데이터이용현황 ( 보유여부, 접근경로, 활용목적 ) 데이터활용방식 ( 원본데이터단순조회, 원본데이터에대한통계분석 ) 타부서또는타기관과의업무데이터공유방식 ( 정보시스템연계, 공문요청, 데이터구매 ) 데이터분석및활용필요성에대한실무, 담당자자의의견 설문질의예시 No. 문항내용 1 귀하 ( 또는귀하의부서 ) 의수행업무에대해간략하게설명해주십시오. 2 귀하 ( 또는귀하의부서 ) 께서업무에주로활용하시는정보나데이터는무엇입니까? 3 답변해주신정보및데이터는귀하의부서에서보유하고있습니까? 아니면타부서또타기관으로부터제공받아활용하고있습니까? 4 위에서답변해주신정보및데이터를활용하고있는업무를구체적으로말씀해주십시오. 5 업무수행시참고하는데이터는어떤형태로활용하고있습니까? ( 보기 : Raw 데이터단순가공, Raw data 통계분석, 분석된통계데이터활용등 ) - 11 -

빅데이터서비스시스템개발방법론 빅데이터서비스는다양한데이터로새로운서비스를개발하는것이므로, 사전에예견하지못한예외상황이많을경 우사용되는프로토타입개발방법론이적합 프로토타입개발방법론 프로토타입설계 프로토타입개발 프로토타입검증 ( 고객평가 ) 검증결과수정이필요한가? 아니오 시스템개발및운용 예 유지보수 발굴된과제에대한빅데이터서비스시스템개발 장점 고객요구사항이모호하거나, 요구사항을명세화할수없는경우, 또는프로젝트의실현가능성이의문시될경우에유용함 프로토타입을통해보다현실적으로기존요구사항을분석하고, 새로운요구사항을도출할수있으며, 서비스개발자의도메인에대한이해력을향상시켜줌 기획, 디자인, 개발등모든구성원이서로의관점을이해하고, 어떤경험을만들것인가에대해공동의목표를빠르게갖게할수있는목표지향적방법론 단점 고객이프로토타입을개발할완제품으로오해하여약간의수정만가해지면완제품이될것이라고기대 프로토타입에서사용한임시코드가수정되지않은상태에서그대로시스템개발에적용될수있는문제를가지고있음 quick and dirty programming 문제발생 기존방법에비해서프로젝트통제가어려움 새로운요구사항이계속해서발생될수있음 - 12 -

빅데이터서비스시스템프로토타입설계수집데이터선정 수집데이터도출 ü 데이터수집활동은빅데이터서비스제공시서비스품질을결정하는매우중요한핵심업무 ü 데이터도메인의분석노하우가있는내외부전문가의의견을수렴하여분석목적에맞는데이터를도출 수집데이터목록작성 ü 수집가능성여부, 보안문제, 세부데이터항목 ( 품질 ) 및비용등을검토하여데이터수집목록을작성 ü 검토내용 ( 가능성 ) 해당데이터가사용가능하고수집가능한가? ( 보안 ) 수집시개인정보포함여부및유출문제는없는가? ( 정확성 ) 활용목적에따른세부항목들이적절히포함되었는가? ( 수집비용 ) 데이터수집에드는비용은얼마인가? - 13 -

빅데이터서비스시스템프로토타입설계수집세부계획수립 데이터소유기관파악및협의 ü 데이터소유자의데이터개발현황 / 조건, 적용기술, 보안사항등을파악하고필요한협의진행 ü ( 내부데이터 ) 내부시스템간데이터연계가능여부등파악 ü ( 외부데이터 ) 개방데이터종류, 데이터양, 수집시스템연계방식 절차, 수집주기등관련기술 정책을파악하고협의 유의사항 : 데이터수집관련보안사항, 개인정보보호관련문제등점검필수 - 14 -

빅데이터서비스시스템프로토타입설계수집세부계획수립 데이터유형및종류에맞는수집기술선정 ü 수집기술은데이터소스로부터다양한유형의데이터를수집하기위해확장성, 안정성, 실시간성및유연성확보필요 ü 수집기술 : Open API, Crawling, EAI, ETL, FTP, RSS 등 유형특징데이터종류 정형데이터 (Structured) 반정형데이터 (Semi- structured) - RDBMS 의고정된필드에저장 - 데이터스키마지원 RDB, 스프레트시트 - 데이터속성인메타데이터를가지며, 일반적으로스토리지에저장되는 데이터파일 데이터유형분류 - XML 형태의데이터로값과형식이다소일관성이없음 HTML, XML, JSON, 웹문서, 웹로그, 센서데이터 비정형데이터 (Unstructured) - 언어분석이가능한텍스트데이터 - 형태와구조가복잡한이미지, 동영상같은멀티미디어데이터 소셜데이터, 문서, 이 미지, 오디오, 비디오 - 15 -

빅데이터서비스시스템프로토타입설계수집세부계획수립 수집주기결정 ü 데이터유형에따라배치 (batch), 실시간방식적용 ü ( 기본고려사항 ) 수집주기는데이터종류와사이즈, 데이터발생빈도 주기, 분석주기, 시스템및네트워크부하수준, 적용가능수집기술등을고려 ü 분석시점에서필요한충분한데이터양을확보할수있도록최소한의수집기간을설정할것을권고 ü 실시간스트림은수집과분석이동시에이루어지므로이벤트기반분석체계구축이요구됨 ü 동적수집주기에대한설정은사전에일정기간샘플데이터를수집한후데이터양등을점검한후적절하게주기조정 - 16 -

빅데이터서비스시스템프로토타입설계데이터수집실행 수집계획에따라서수집기술, 수집주기등관련수집환경에대한사전테스트진행 ü 네트워크트래픽문제 ü 데이터누락여부 ü 정확성 ( 원본데이터와샘플데이터비교 ) ü 보안성 ( 개인정보포함여부, 비식별화처리 ) 테스트수행결과에따라서필요시수집방법보완또는변경 향후장애점검을위한데이터수집로그확보 ü 수집데이터출처, 수집기술, 수집주기, 장애발생시간및내용등 내부데이터수집 공공데이터수집 공공데이터수집 내부 외부 내부 외부 내부 고객사내부 DB 분석 DB 외부데이터 내부데이터 파일반입공공데이터 분석 DB OpenAPI 공공데이터 분석 DB - 17 -

빅데이터서비스시스템프로토타입설계데이터저장관리 데이터유형에따라저장계획을수립하고적합한 DB를구축한후데이터저장 데이터유형에따라저장방식선정 ü 저장방식 : RDB(Relational Data Base) 저장, NoSQL 저장, 분산파일시스템저장 수집할데이터크기및최대저장기간등을고려하여용량설계 ü RDB는레코드최대크기등을고려하여저장공간용량설계 ü NoSQL 및분산파일시스템은보편적으로 3개의동일한복제파일을운영해야하므로이를감안하여저장공간설정 분산파일시스템의파일복제 ( 복제파일개수 : 3) - 18 -

빅데이터서비스시스템프로토타입설계 데이터저장관리 데이터보안관리 ü 데이터생성주체로부터사전동의받은데이터만수집 - Crawler로수집되는웹문서와 SNS 데이터는공개설정된데이터만수집 ü 데이터저장시스템에대한 접근권한 설정 ü 필요한항목에대하여 암호화 ü 개인정보에대한 비식별화 기능가명처리초계처리또는평균값대체데이터값삭제범주화데이터마스킹 비식별화처리기술 설명및예시 개인정보중주요식별요소를다른값으로대체하여개인식별을곤란하게함 ( 예 ) 홍길동, 35세, 서울거주, 한국대재학 è 임꺽정, 30대, 서울거주, 국제대재학 데이터의총합값을보임으로서개별데이터의값을보이지않도록함 ( 예 ) 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, è 물리학과학생키합 : 660cm, 평균키 165cm 데이터공유개방목적에따라데이터셋에구성된값중에필요없는값또는개인식별에중요한값을삭제 ( 예 ) 홍길동, 35세, 서울거주, 한국대졸업 è 35세, 서울거주 ( 예 ) 주민등록번호 901206-1234567 è 90년대생, 남자 데이터의값을범주의값으로변환하여명확한값을감춤 ( 예 ) 홍길동, 35세홍씨, 30~40세 공개된정보등과결합하여개인을식별하는데기여할확률이높은주요개인식별자가보이지않도록처리하여개인을식별하지못하도록함 ( 예 ) 홍길동, 35세, 서울거주, 한국대학재학 è 홍 **, 35세, 서울거주, ** 대학재학 - 19 -

빅데이터서비스시스템프로토타입개발데이터분석 데이터처리 ü 저장된데이터현황분석 - 수집된데이터분포확인 > 수치형속성 : 최대값, 최소값, 평균, 표준편차, 중위값 > 범주형속성 : 각속성값의빈도 ü 저장된데이터를분석이용이하도록가공하는작업 : 변환, 정제, 통합기술활용 ü 데이터변환 - 수집된다양한데이터종류를일관성있는정형데이터로변환 ü 데이터정제 - 서로다른곳에존재하는동일한데이터가항상일치 ( 데이터정합성 ) - 동일한용어를동일하게정의하여사용 ( 데이터일치성 ) - 데이터품질향상을위한필터링기준설정 ( 데이터정확성, 데이터무결성 ) ü 데이터통합 - 출처가다른상호연관성이있는데이터를하나로결합 - 20 -

빅데이터서비스시스템프로토타입개발데이터분석 데이터처리구현방식 ü SQL Query 기반 - 처리가능데이터형태 : 데이터베이스테이블데이터 - 장점 / 단점 : 짧은구현시간 / 복잡한처리구현불가, DBMS 의존적인처리성능 ü 프로그램기반 - 처리가능데이터형태 : 데이터파일, 데이터베이스테이블데이터 - 장점 / 단점 : 복잡한처리구현가능, 서버자원을최대활용한성능구현가능 / 많은구현시간 SQL Query 기반 프로그램기반 메인서버 메인서버 DB 원본데이터 처리데이터 DBMS ( 데이터베이스관리시스템 ) 데이터처리 SQL Query DB 원본데이터 처리데이터 데이터처리프로그램 원본데이터 원본데이터 - 21 -

빅데이터서비스시스템프로토타입개발데이터분석 분석수행계획수립 ü 발굴과제에대한상세시나리오작성 ( 분석문제정의 ) - 데이터분석을통해해결하고자하는문제를명확히정의 - 종속변수정의 ( 종속변수란예측또는분류하고자하는속성, 예 : 익월판매량 ) ü 종속변수에영향을미칠수있는독립변수선택및정의 ( 요인분석 ) - 기존변수 ( 속성 ) 을이용하여생성된새로운변수인파생변수정의 ( 예 : 품목, 카테고리, 익월및당월판매량등 ) ü 빅데이터서비스시스템주요화면설계 상품판매데이터를갖고상품선호를분석하고싶은데, 어떻게할까? 상세시나리오 ( 분석문제정의 ) 분석수행계획 종속변수 익월판매량 독립변수 품목, 카테고리, 배송비여부, 당월판매량 - 22 -

빅데이터서비스시스템프로토타입개발데이터분석 분석수행 ü 상세시나리오에따라관련종속변수및적합한기법을선택 - 추정 : 종속변수가수치형인경우사용하는기법 - 분류 : 종속변수가범주형인경우사용하는기법 - 군집화 : 설정된종속변수가없고, 유사한특성을갖는데이터들로묶어전체데이터를세분화할때사용하는기법 - 연관규칙 : 동시에발생한사건간의연관성을분석할때사용하는기법 - 추천 : 개인에게선호할상품을제공할때사용하는기법 ü 선택된기법에해당하는서로다른분석알고리즘들을선택하여실행 - 의사결정트리, 신경망, 로지스틱회귀분석, K-NN, 나이브베이시안등 ü 분석알고리즘의환경변수최적화 군집분석예시 - 게임사용자군집분석 - 23 -

빅데이터서비스시스템프로토타입개발데이터분석알고리즘 기계학습 - 데이터분석에적용가능한기술 ü 데이터를통해일반화된모델 ( 지식 ) 을생성하는과정을학습이라함 ü 기계 ( 컴퓨터 ) 가학습할수있도록하는알고리즘과기술을개발하는분야 귀납적추론반복적인사건을통해일반화된규칙을도출하여, 동일사건발생시그규칙에근거하여결론을내리는방식 ( 예 ) 뉴턴의 만유인력법칙 그저께나무에서사과가떨어졌다. 어저께나무에서사과가떨어졌다. 오늘도나무에서사과가떨어졌다. à 내일도나무에서사과가떨어진다. - 24 -

빅데이터서비스시스템프로토타입개발데이터분석알고리즘 지도학습 ( 기계학습유형 ) ü 입력 (input) 속성들과목표 (target 혹은 class) 속성간의관계를학습 지도학습의수행과정 ü 입력속성들과목표속성으로정의된데이터로부터, 입력속성들과목표속성간의관계를일반화 ( 혹은유추 ) 하는모델 ( 혹은함수 ) 를생성 è 학습 ü 새로운 ( 입력되지않았던 ) 데이터를학습된모델에입력하여, 새로운데이터의목표속성값을도출 è 추론 지도학습의유형및관련데이터분석예시 ü 분류 : 기호형 (symbolic) 목표속성예측예 > 날씨예보, 보험사기예측 ü 추정 : 수치형 (numeric) 목표속성예측예 > 주가예측, 판매량예측, 강수율예측 나이 가격 종양크기 종양분류 (o: 양성, X: 악성 ) - 25 - 단위면적 ( 평 ) 주택가격추정 (O: 실측값, X: 예측값 )

빅데이터서비스시스템프로토타입개발 데이터분석알고리즘 비지도학습 ( 기계학습유형 ) ü 목표 (target 혹은 class) 속성이없으며, 입력 (input) 속성만으로데이터의구성을학습 군집화 대표적인비지도학습알고리즘 ü 데이터들간의비슷한것끼리묶는과정 군집화예시 ü ( 예 ) 프로모션을위한게임경험치및플레이시간기준유사한게임사용자유형분석 ü ( 예 ) 소셜미디어사이트로업로드된사진을활용하여, 특정인물관련사진모음을제공하는서비스 ü ( 예 ) 보험사기예측을위한고객정보유형분석 군집화과정 ü 유사한데이터들끼리묶을있는기준 ( 데이터간거리계산식및군집밀도 ) 을설정 ü 설정기준으로반복적인군집생성과정을통해변하지않는최종군집들이나타날때분석결과로제공 è 학습 ü 분석결과활용법 : 도출된군집결과를해석하여데이터의경향성 (trend) 를분석하거나, 이상데이터를도출 경험치획득량 플레이시간 게임사용자군집화 구글포토어시스턴트의인물앨범 - 26 -

빅데이터서비스시스템프로토타입검증모델검증 모델평가 ü 모델의일반화에대한평가 - n-fold cross validation 평가 : 분석데이터전부를테스트데이터로모델을평가할수있는방법 ü 모델성능평가척도 - 추정 : RMSE(Root Mean Squared Error), RRSE(Root Relative Squared Error) 등 - 분류, 추천 : 정확성, Precision, Recall, F-measure 등 - 군집화 : 각군집의응집도, 군집간의분리도 - 연관규칙 : 각규칙의지지도 (support), 신뢰도 (confidence), 향상도 (Lift) ü 분석알고리즘간모델성능평가비교분석 4-fold cross validation - 27 -

빅데이터서비스시스템개발및운영시스템개발 주요기능개발 ü 데이터처리기능개발 - 입력 : 원본데이터 / 출력 : 분석모듈입력데이터 - 관련모듈 : 변환, 정제, 통합모듈 ü 데이터분석기능개발 - 입력 : 데이터처리모듈의출력데이터 / 출력 : 종속변수값 - 관련모듈 : 추정, 분류, 군집화, 연관규칙, 추천 ü 워크플로우 (workflow) 생성 / 관리기능개발 - 워크플로우는데이터처리모듈과데이터분석모듈이결합된분석과정 - 워크플로우동작스케줄링기능 > 워크플로우동작방식선택 : 주기적방식, 이벤트방식 - 워크플로우수행모니터링기능 > 리소스사용량, 수행시간등 > 모델의정확성 ( 실시간또는일괄처리를통해모델의정확성산출 ) > 모델의정확성이떨어질때관리자에게알려주는알림기능 ü 주요기능단위테스트 - 28 -

빅데이터서비스시스템개발및운영시스템개발 통합테스트 ü 통합테스트방법 > 빅뱅 (big-bang) 테스트 : 단위모듈을한번에통합하여테스트하는방법 > 점진적테스트 : 완성된모듈을기존에테스트된모듈과하나씩통합하여테스트하는방법 ( 하향식기법, 상향식기법 ) ü 시스템모듈간의상호작용이정상적으로수행되는지확인여부 > 모듈사이의인터페이스오류확인 > 모듈이올바르게연계되어동작하고있는지확인 계획수립 테스트케이스생성 테스트환경개발 시행 결함추적 문제보고 / 테스트로그 테스트결과평가 테스트절차 - 29 -

빅데이터서비스시스템개발및운영시스템운영 에이징 (Aging) 테스트 ü 빅데이터서비스시스템안전성평가 - 테스트기간설정 - 테스트항목설정 : 수행시간, 사용한리소스, 정상작동여부 매뉴얼작성 ü 시 일 주 월주기적으로데이터운영관련오류및여유공간그리고예측모델의정확성을실시간모니터하고문제발생시신속한대응체계마련 ü 저장된데이터에대한외부인의접근방지및유출시대처방안등관련업무지침마련 - 30 -

Thank you Copyleft Forever 경청해주셔서감사합니다.