슬라이드 1

Similar documents
Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

빅데이터_DAY key

No

*금안 도비라및목차1~9

유성감속기_K_170404

歯박지원-구운몽.PDF

*금안14(10)01-도비라및목차1~12

KD hwp

R을 이용한 텍스트 감정분석

Intra_DW_Ch4.PDF

PowerPoint 프레젠테이션

*금안 도비라및목차1~17

(......).hwp

Chap 6: Graphs

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>


第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

PowerPoint 프레젠테이션

ETOS Series 사용설명서

토익S-채용사례리플렛0404

Data Industry White Paper

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Service-Oriented Architecture Copyright Tmax Soft 2005

2017 1

Contents SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM FIP 13 FIP

SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM 13 : (IoT), 4.0,,,,,, CEO. 13 : ( ) ~ 11 1 ( ) : 310

64회 SHRM-수정3

*금안 도비라및목차1~15

ETL_project_best_practice1.ppt

구로구민체육센터 여성전용 기구필라테스 강좌 신설 구로구시설관리공단은 신도림생활체육관에서 2014년도부터 시행하여 주민의 큰 호응을 얻고있는 기구필라 테스 강좌를 일자로 구로구민체육센터에 확대 시행하게 되었습니다. 구로구 관내 고객들의 니즈를 반영한 기

Office 365, FastTrack 4 FastTrack. Tony Striefel FastTrack FastTrack

PowerPoint 프레젠테이션

PowerPoint Presentation


PowerPoint 프레젠테이션

KRG. IT Research & Consulting... Providing INSIGHT Into IT Market.. Developing Business STRATEGY.. Supporting Marketing ACTIVITY 주요 수행 프로젝트 IT기업 성장성 평

사회통계포럼

pdf

³»Áö_1È£_0107L

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -


키오스크12 p

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

돈 후앙 본문 최종

121220_워키디_상세설명서.indd

160322_ADOP 상품 소개서_1.0

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

PowerPoint 프레젠테이션

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 26(12),

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>


<C1F6BDC4B0E6BFB5BFACB1B83136B1C734C8A33132BFF92E706466>

Data Scientist Shortage

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

pdf

[로플랫]표준상품소개서_(1.042)

39호

MVVM 패턴의 이해

0118_Wealth Management

RM hwp

소프트웨어공학 Tutorial #2: StarUML Eun Man Choi

*금안 도비라및목차1~16

김기남_ATDC2016_160620_[키노트].key

.....hwp

Science Cube 1.0 User Guide

2 Journal of Disaster Prevention

[sam]Credentials key

PowerPoint 프레젠테이션

006_026_특집_정일권.indd

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

제 출 문 한국산업안전공단 이사장 귀하 본 보고서를 2002 년도 공단 연구사업계획에 따라 수행한 산 업안전보건연구수요조사- 산업안전보건연구의 우선순위설정 과제의 최종보고서로 제출합니다. 2003년 5월 연구기관 : 산업안전보건연구원 안전경영정책연구실 정책조사연구팀 연

일제.PDF

04 최진규.hwp

마사코.PDF

항목

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

첨 부 1. 설문분석 결과 2. 교육과정 프로파일 169

e- 11 (Source: IMT strategy 1999 'PERMISSION ' ) The World Best Knowledge Providers Network

4 꼬부랑 이라는 말이 재미있습니다. 5같은 말이 반복이 되어서 지루합니다. 4 꼬부랑 은 굽은 모양을 재미있게 흉내 낸 말입니다. 꼬부랑 을 빼고 읽는 것보다 넣어서 읽 으면 할머니와 엿가락, 강아지의 느낌이 좀 더 실감 나서 재미가 있습니다. 국어2(예습) / 1.

PowerPoint 프레젠테이션

[ 건강보험가입자소득재산상관성분석 ] 국외출장보고 최현수 ( 정보통계연구실사회보장통계센터 ) - 1 -

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

untitled

Ch 1 머신러닝 개요.pptx

Manufacturing6

군장병의사회복지분야공헌활성화방안에대한탐색적연구 군장병의사회복지분야공헌활성화방안에대한 탐색적연구 : 경기도포천지역사례를중심으로 민효상 *, 우지희 **, 서정욱 *** 1) Ⅰ. 서론 Ⅱ. 이론적논의및기존연구검토 Ⅲ. 연구설계 Ⅳ. 분석결과및논의 Ⅴ. 결론 Abstrac

i4uNETWORKS_CompanyBrief_ key

31

슬라이드 1


¿©¼ººÎÃÖÁ¾¼öÁ¤(0108).hwp

1)2) 1

OUTLINE 행사개요 행사명 Inside Bitcoins Conference & Expo 2015 장소 KINTEX 제 2전시장 3층 (회의실 301~304호) 행사시기 2015년 12월 9일(수) - 11일(금)ㅣ9일은

FreeBSD Handbook

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

KAKAO AI REPORT Vol.01

<B3EDB4DC28B1E8BCAEC7F6292E687770>

[한반도]한국의 ICT 현주소(송부)

SECTION TITLE A PURE PRIMER (AI), // 1

Transcription:

대중을위한빅데이터 CDS 를위한분석 2018. 4. 11 ( 수 ) 2018 BI Conference 비아이매트릭스윤성웅수석컨설턴트 Copyright (c) BI MATRIX Co., Ltd. 2016. All rights reserved.

생각의시작점 아는것과실행하는것은많은차이가있다. http://uproxx.com/movies/matrix-best-lines/ 하지만그이전에먼저 알아야 한다! 1

데이터분석가의종류및업무 IT 현업은데이터분석가가될수있을까? 서동진, Cloudera Data Science Workbench (CDSW) 를활용한데이터분석유즈케이스, cloudera SEOUL (2017. 7. 11) 2

시민과학자 (Citizen Scientist) 대중의힘 - 소의무게에대한대중적검증 * http://mlbpark.donga.com/mlbpark/b.php?p=1&b=bullpen2&id=5917092&select=title&query=&user=&reply= Citizen Scientist 의힘 다른관점다양한생각검증책임으로부터의자유 * 벌거벗은통계학 복잡한세상을꿰뚫는수학적통찰력, 찰스윌런지음 / 김명철옮김, 책읽는수요일 (2013) 3

CS 의제한사항 : Datafication 적절한분석이라도정성적분석을그냥놓아두면? - Domain knowledge 는쌓이지만 Data 화되지는않는다. From Sampling to Knowing From Clean to Messy From Cause to Correlation Big Data insights require Big Thinking 이윤모 R&D 센터장 (Begas), 데이터의시대, 고급분석을위한데이터사이언스플랫폼전략, BI MATRIX 세미나 (2017.9.21) 4

Lucy (2014) https://www.youtube.com/watch?v=nelxnsk1shk 5

Citizen Data Scientist Citizen Scientist 의힘 다른관점다양한생각검증책임으로부터의자유 CDS = Citizen + Data Scientist, 이상적형태 - 우리가알고있는 대중 에대한정의를되새겨볼필요가있다. CDS Citizen Scientist 와 Data Analyst or Data Scientist or Data Engineer - 자기분야의지식 (Domain knowledge) 을가지고있는사람 ( 현업또는현업에대해잘아는사람 ) 이면서 - 데이터과학 (Data science) 에대한 관심 이있고그분석 기법 에대해알고자하는사람 결국 CDS 는우리에게서먼개념인가, 쉽지않은일인가? 아니다!! 우리는원시인으로부터진화되어왔으며, 이는세대를이어온교육의힘이다. 기원전에는... 의학기술이존재했고심지어현재보다진보된것도있었다. 외계인이만든것? 100 년전에는... 여성들에게참정권이없던국가가많았다. 자각의부족또는계급의식? 10 년전에는... Neural Network 는데이터가없어불가능한학문적개념으로봤다. 빅데이터에대한인식부족? 빅데이터시대의도래는지식이나준비의문제가아니라시기와그인식에대한문제이다. 6

분석과예측의 Recursive Procedure http://www.hidoc.co.kr/news/meta/item/c0000001048 알고리즘 / 모델 분석 ( 모델링 ) 예측 ( 적용 / 검증 ) 분석결과데이터 알고리즘 * / 모델 * 분석 * 예측 * 분석결과데이터 * 알고리즘 ** / 모델 ** 분석 ** 예측 ** 7

이상적분석결과 http://www.ox.ac.uk/news/science-blog/do-we-need-new-theory-gravity 8

실제의분석결과 DON T LET GO http://filmblog.damaris.org/from-the-archive-gravity/ 9

인공지능기반의빅데이터분석모델 인공지능 = 예측? 통계분석모델에서도예측은가능하나, 현재 ( 까지 ) 의추세가미래에도계속된다는가정이필요함 미래의확률은과거의확률을기반으로할수밖에없다. ( 우리의현재데이터는엄밀히말해과거의데이터뿐 ) 과거의데이터로실험을하더라도실제상황과같도록실험을하는방법이있다. ( 미래데이터에대한내성측정 ) * 인공지능기반의알고리즘 ( 모델 ) 으로예측이가능하나, 다른기존기법에비해효과적인예측을할수있다는보장은없음 데이터의예측에적절한분석모델로통계분석 AND/OR 인공지능기반분석알고리즘을선택적용 인공지능 자가학습 ( 진화 )? 학습과검증과정을포함한다는측면에서자가학습적경향을가지고있음그러나이는단일알고리즘 ( 모델 ) 내부에서일어나는과정으로서, 인간과같은체계 (System) 상의자가학습과는다름특히자가학습을통하여모델이변화하는진화적알고리즘 ( 모델 ) 은직접적으로인공지능과관련되나, 현재는입력데이터의변경에따라학습및검증 ( 예측 ) 과정을다시적용하여고도화하는방식이사용됨 분석모델자체의변화와는비교적관계가적음 ( 분석알고리즘자체가변경되지는않음 ) * 문병로, 문병로교수의메트릭스튜디오, 김영사, p45, 2014 10

정답의시대는지났다 통계적검증을기반으로한데이터위주의사고를요구하는시대 - 조건 : 충분한데이터가존재한다. (Information Theory) - 적용 : 빅데이터를다룰도구가존재하고, 이의결과에대한탐색적접근 (Exploratory Approach) 이허용된다. 이석진상무 (TIBCO Korea), 본질을꿰뚫어보는힘 TIBCO Insight Platform, cloudera SEOUL (2017. 7. 11) 11

CDS-oriented analytic process Data Model Go? View 12

CDS-oriented analytic process 의실제상황 Data Data Model Go? View Go? Model Data Go? View 13

CDS 를위한분석 concept 의제안 분석모델링의영역확장 - 분석자체는누구나시도해볼수있도록하자. - 분석에필요한데이터의입 / 출력, 분석과정과결과, 이에대한해석을일목요연하게제공하는솔루션을제공하자. 현업에게친숙한입력 / 출력과정정의 - 현업이요구하는분석모델의입력데이터형식에대한분석적검증절차 - 출력의모듈화 : 분석결과 ( 통계적검증량 ) + 시각화 (Graph 표현 ) + 분석결과로사용될데이터 ( 또다른데이터 ) 초급사용자를위한분석모델정의및제공 (Universal modeling) - 손쉬운접근 : 미리정의된노드로손쉬운분석모델링방법제공 - 간단한분석모델의조정 (Option / Parameter) : 분석모델자체의이해를용이하게함 고급분석가를위한분석모델의변화가능성탐구 - 기존 Script 기반의분석모델을바로사용할수있는도구제공 : R, Python - 분석모델간제한사항을지원하는인터페이스제공 : Class inclusion, model fusion ( 융합모델링 ) 지원 공유와협업에적절한분석도구 - 사용자권한기반의공유 / 협업모델 - 데이터및결과표현과직접연결되는분석 Architecture : DB 와 BI 간의 instant connection 을통한일괄화 14

분석모델 0 : 분석 Node 이용하기 시나리오 : R 의기본데이터셋인 iris 의데이터로 Neural Network 를이용하여종 (Species) 을분류해보자. 15

분석모델 0 : 분석 Node 이용하기 분류결과 16

분석모델 1 : 분석모델간결과비교하기 시나리오 : 과거데이터를이용하여다양한분석모델의결과를비교하기위하여저장한다. 17

분석모델 1 : 분석모델간결과비교하기 모델별분석결과 : AutoArima 18

분석모델 1 : 분석모델간결과비교하기 모델별분석결과 : Linear Regression ( 선형회귀분석 ) 19

분석모델 1 : 분석모델간결과비교하기 분석결과저장 20

분석모델 2 : 상품추천모델만들기 시나리오 : 1 단계 : 고객의상품구입정보로부터고객과상품간연관성을추출한다. (APRIORI 알고리즘 ) 2 단계 : 1 단계의연관도에따라고객에게적절한상품을추천한다. (Collaborative Filtering 알고리즘 ) 21

분석모델 2 : 상품추천모델만들기 분석결과 (APRIORI) 22

분석모델 2 : 상품추천모델만들기 분석결과 (Collaborative Filtering) 23

분석모델 3 : 이미지분석 시나리오 : 1 단계 : 제품을촬영한이미지를분석하여결함이있는경우와없는경우를분류할수있는기준 ( 분류모델 ) 을만든다. 2 단계 : 분류모델을적용하여실제이미지에서불량여부를판정한다. http://www.cmitek.co.kr/new/ 24

분석모델 3 : 이미지분석 CNN (Convolutional Neural Network) : 이미지분류에특히유용하다고알려진 deep learning 알고리즘 http://operatingsystems.tistory.com/162 25

분석과 BI 의융합 A 사수행사례 1. 기준값설정 (BI) 4. 분석결과확인 (BI) 2. 데이터목록생성 (i-stream) 3. 새로운변수값생성 (i-stream) 데이터저장 26

i-stream Cloud 서비스소개 분석도구의대중화를위한노력 http://support.bimatrix.co.kr:8080/matrix5/istream/ 27

Copyright (c) BI MATRIX Co., Ltd. 2016. All rights reserved. 감사합니다 http://www.bimatrix.co.kr http://bi_matrix.blog.me https://www.facebook.com/bimatrixkorea