대중을위한빅데이터 CDS 를위한분석 2018. 4. 11 ( 수 ) 2018 BI Conference 비아이매트릭스윤성웅수석컨설턴트 Copyright (c) BI MATRIX Co., Ltd. 2016. All rights reserved.
생각의시작점 아는것과실행하는것은많은차이가있다. http://uproxx.com/movies/matrix-best-lines/ 하지만그이전에먼저 알아야 한다! 1
데이터분석가의종류및업무 IT 현업은데이터분석가가될수있을까? 서동진, Cloudera Data Science Workbench (CDSW) 를활용한데이터분석유즈케이스, cloudera SEOUL (2017. 7. 11) 2
시민과학자 (Citizen Scientist) 대중의힘 - 소의무게에대한대중적검증 * http://mlbpark.donga.com/mlbpark/b.php?p=1&b=bullpen2&id=5917092&select=title&query=&user=&reply= Citizen Scientist 의힘 다른관점다양한생각검증책임으로부터의자유 * 벌거벗은통계학 복잡한세상을꿰뚫는수학적통찰력, 찰스윌런지음 / 김명철옮김, 책읽는수요일 (2013) 3
CS 의제한사항 : Datafication 적절한분석이라도정성적분석을그냥놓아두면? - Domain knowledge 는쌓이지만 Data 화되지는않는다. From Sampling to Knowing From Clean to Messy From Cause to Correlation Big Data insights require Big Thinking 이윤모 R&D 센터장 (Begas), 데이터의시대, 고급분석을위한데이터사이언스플랫폼전략, BI MATRIX 세미나 (2017.9.21) 4
Lucy (2014) https://www.youtube.com/watch?v=nelxnsk1shk 5
Citizen Data Scientist Citizen Scientist 의힘 다른관점다양한생각검증책임으로부터의자유 CDS = Citizen + Data Scientist, 이상적형태 - 우리가알고있는 대중 에대한정의를되새겨볼필요가있다. CDS Citizen Scientist 와 Data Analyst or Data Scientist or Data Engineer - 자기분야의지식 (Domain knowledge) 을가지고있는사람 ( 현업또는현업에대해잘아는사람 ) 이면서 - 데이터과학 (Data science) 에대한 관심 이있고그분석 기법 에대해알고자하는사람 결국 CDS 는우리에게서먼개념인가, 쉽지않은일인가? 아니다!! 우리는원시인으로부터진화되어왔으며, 이는세대를이어온교육의힘이다. 기원전에는... 의학기술이존재했고심지어현재보다진보된것도있었다. 외계인이만든것? 100 년전에는... 여성들에게참정권이없던국가가많았다. 자각의부족또는계급의식? 10 년전에는... Neural Network 는데이터가없어불가능한학문적개념으로봤다. 빅데이터에대한인식부족? 빅데이터시대의도래는지식이나준비의문제가아니라시기와그인식에대한문제이다. 6
분석과예측의 Recursive Procedure http://www.hidoc.co.kr/news/meta/item/c0000001048 알고리즘 / 모델 분석 ( 모델링 ) 예측 ( 적용 / 검증 ) 분석결과데이터 알고리즘 * / 모델 * 분석 * 예측 * 분석결과데이터 * 알고리즘 ** / 모델 ** 분석 ** 예측 ** 7
이상적분석결과 http://www.ox.ac.uk/news/science-blog/do-we-need-new-theory-gravity 8
실제의분석결과 DON T LET GO http://filmblog.damaris.org/from-the-archive-gravity/ 9
인공지능기반의빅데이터분석모델 인공지능 = 예측? 통계분석모델에서도예측은가능하나, 현재 ( 까지 ) 의추세가미래에도계속된다는가정이필요함 미래의확률은과거의확률을기반으로할수밖에없다. ( 우리의현재데이터는엄밀히말해과거의데이터뿐 ) 과거의데이터로실험을하더라도실제상황과같도록실험을하는방법이있다. ( 미래데이터에대한내성측정 ) * 인공지능기반의알고리즘 ( 모델 ) 으로예측이가능하나, 다른기존기법에비해효과적인예측을할수있다는보장은없음 데이터의예측에적절한분석모델로통계분석 AND/OR 인공지능기반분석알고리즘을선택적용 인공지능 자가학습 ( 진화 )? 학습과검증과정을포함한다는측면에서자가학습적경향을가지고있음그러나이는단일알고리즘 ( 모델 ) 내부에서일어나는과정으로서, 인간과같은체계 (System) 상의자가학습과는다름특히자가학습을통하여모델이변화하는진화적알고리즘 ( 모델 ) 은직접적으로인공지능과관련되나, 현재는입력데이터의변경에따라학습및검증 ( 예측 ) 과정을다시적용하여고도화하는방식이사용됨 분석모델자체의변화와는비교적관계가적음 ( 분석알고리즘자체가변경되지는않음 ) * 문병로, 문병로교수의메트릭스튜디오, 김영사, p45, 2014 10
정답의시대는지났다 통계적검증을기반으로한데이터위주의사고를요구하는시대 - 조건 : 충분한데이터가존재한다. (Information Theory) - 적용 : 빅데이터를다룰도구가존재하고, 이의결과에대한탐색적접근 (Exploratory Approach) 이허용된다. 이석진상무 (TIBCO Korea), 본질을꿰뚫어보는힘 TIBCO Insight Platform, cloudera SEOUL (2017. 7. 11) 11
CDS-oriented analytic process Data Model Go? View 12
CDS-oriented analytic process 의실제상황 Data Data Model Go? View Go? Model Data Go? View 13
CDS 를위한분석 concept 의제안 분석모델링의영역확장 - 분석자체는누구나시도해볼수있도록하자. - 분석에필요한데이터의입 / 출력, 분석과정과결과, 이에대한해석을일목요연하게제공하는솔루션을제공하자. 현업에게친숙한입력 / 출력과정정의 - 현업이요구하는분석모델의입력데이터형식에대한분석적검증절차 - 출력의모듈화 : 분석결과 ( 통계적검증량 ) + 시각화 (Graph 표현 ) + 분석결과로사용될데이터 ( 또다른데이터 ) 초급사용자를위한분석모델정의및제공 (Universal modeling) - 손쉬운접근 : 미리정의된노드로손쉬운분석모델링방법제공 - 간단한분석모델의조정 (Option / Parameter) : 분석모델자체의이해를용이하게함 고급분석가를위한분석모델의변화가능성탐구 - 기존 Script 기반의분석모델을바로사용할수있는도구제공 : R, Python - 분석모델간제한사항을지원하는인터페이스제공 : Class inclusion, model fusion ( 융합모델링 ) 지원 공유와협업에적절한분석도구 - 사용자권한기반의공유 / 협업모델 - 데이터및결과표현과직접연결되는분석 Architecture : DB 와 BI 간의 instant connection 을통한일괄화 14
분석모델 0 : 분석 Node 이용하기 시나리오 : R 의기본데이터셋인 iris 의데이터로 Neural Network 를이용하여종 (Species) 을분류해보자. 15
분석모델 0 : 분석 Node 이용하기 분류결과 16
분석모델 1 : 분석모델간결과비교하기 시나리오 : 과거데이터를이용하여다양한분석모델의결과를비교하기위하여저장한다. 17
분석모델 1 : 분석모델간결과비교하기 모델별분석결과 : AutoArima 18
분석모델 1 : 분석모델간결과비교하기 모델별분석결과 : Linear Regression ( 선형회귀분석 ) 19
분석모델 1 : 분석모델간결과비교하기 분석결과저장 20
분석모델 2 : 상품추천모델만들기 시나리오 : 1 단계 : 고객의상품구입정보로부터고객과상품간연관성을추출한다. (APRIORI 알고리즘 ) 2 단계 : 1 단계의연관도에따라고객에게적절한상품을추천한다. (Collaborative Filtering 알고리즘 ) 21
분석모델 2 : 상품추천모델만들기 분석결과 (APRIORI) 22
분석모델 2 : 상품추천모델만들기 분석결과 (Collaborative Filtering) 23
분석모델 3 : 이미지분석 시나리오 : 1 단계 : 제품을촬영한이미지를분석하여결함이있는경우와없는경우를분류할수있는기준 ( 분류모델 ) 을만든다. 2 단계 : 분류모델을적용하여실제이미지에서불량여부를판정한다. http://www.cmitek.co.kr/new/ 24
분석모델 3 : 이미지분석 CNN (Convolutional Neural Network) : 이미지분류에특히유용하다고알려진 deep learning 알고리즘 http://operatingsystems.tistory.com/162 25
분석과 BI 의융합 A 사수행사례 1. 기준값설정 (BI) 4. 분석결과확인 (BI) 2. 데이터목록생성 (i-stream) 3. 새로운변수값생성 (i-stream) 데이터저장 26
i-stream Cloud 서비스소개 분석도구의대중화를위한노력 http://support.bimatrix.co.kr:8080/matrix5/istream/ 27
Copyright (c) BI MATRIX Co., Ltd. 2016. All rights reserved. 감사합니다 http://www.bimatrix.co.kr http://bi_matrix.blog.me https://www.facebook.com/bimatrixkorea