Microsoft PowerPoint - SNR Data Mining pptx

Similar documents
Intra_DW_Ch4.PDF

DW 개요.PDF

歯목차45호.PDF

歯CRM개괄_허순영.PDF

ETL_project_best_practice1.ppt

ecorp-프로젝트제안서작성실무(양식3)

PowerPoint 프레젠테이션

Oracle Apps Day_SEM

김기남_ATDC2016_160620_[키노트].key

슬라이드 1

Ç¥Áö

Portal_9iAS.ppt [읽기 전용]

DBMS & SQL Server Installation Database Laboratory

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

歯CRM-All.PDF

사회통계포럼

Service-Oriented Architecture Copyright Tmax Soft 2005

CRM A Study on the Datawarehousing build_up methodology for CRM System :

Microsoft Word doc

비식별화 기술 활용 안내서-최종수정.indd

untitled

금오공대 컴퓨터공학전공 강의자료

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

歯부장

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

PowerPoint 프레젠테이션

15_3oracle

SAS Customer Intelligence SAS Customer Intelligence Suite은 기업이 당면한 다양한 마케팅 과제들을 해결하기 위한 최적의 통합 마케팅 제품군으로 전사적 마케팅 자원관리를 위한 Marketing Operation Manageme

빅데이터_DAY key


기타자료.PDF

Data Industry White Paper

소프트웨어개발방법론

Chap7.PDF

강의록

정보기술응용학회 발표

초보자를 위한 ADO 21일 완성

dbms_snu.PDF

Microsoft PowerPoint - S4_통계분석시스템.ppt

PowerPoint 프레젠테이션

PRESENTATION TITLE ARIAL B30PT

Chapter 5 비즈니스인텔리젼스의기초 : 데이터베이스와정보관리

PCServerMgmt7

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

PowerPoint 프레젠테이션

13 Who am I? R&D, Product Development Manager / Smart Worker Visualization SW SW KAIST Software Engineering Computer Engineering 3

Microsoft PowerPoint - 6.CRM_Consulting.ppt

untitled

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

E-BI Day Presentation

02.전체교육과정안내서 (김종혁)

(A4)2급-A형_ hwp

untitled

CRM Fair 2004

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

리포트_03.PDF

IBM Business Intelligence Solution Seminar 2005 Choose the Right Data Integration Solution ; Best Practices on EII/EAI/ETL IBM DB2 Technical Sales BI

Cloud Friendly System Architecture

목 차

3Æí2Àå¨éÀç

회사소개 대 표 : James H. Goodnight 설립년도 : 1976 년 소 지 SAS Institute Inc. 재 : 미국노스캐롤라이나캐리시 사 : 전세계 51 개국의지사및 대리점보유 종업원수 : 약 4,500 명 사용자수 : 119 개국 30,000 사이트의

03-최신데이터

소만사 소개

독서대학 Vol.75

PowerPoint

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

<B1DDC0B6C1A4BAB8C8ADC1D6BFE4B5BFC7E228C1A63836C8A3292E687770>

No Title

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

IBM SPSS Statistics 제품 소개 (2017 Aug)


세션 2-2(허태경).ppt

Microsoft PowerPoint - XP Style

untitled

Microsoft PowerPoint - 10Àå.ppt

Backup Exec

JDBC 소개및설치 Database Laboratory

<C1A62038B0AD20B0ADC0C7B3EBC6AE2E687770>

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

Slide 1

untitled

歯통신41호.PDF

APOGEE Insight_KR_Base_3P11

PowerPoint 프레젠테이션

2017 1

PowerPoint Presentation

untitled

PowerPoint Presentation

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Microsoft PowerPoint - SVPSVI for LGNSYS_ ppt

e- 11 (Source: IMT strategy 1999 'PERMISSION ' ) The World Best Knowledge Providers Network

KD hwp

278 경찰학연구제 12 권제 3 호 ( 통권제 31 호 )

보건소 의사결정지원을 위한 데이터웨어하우스 구축에 대한 연구


Oracle9i Real Application Clusters

PowerPoint 프레젠테이션

Transcription:

개요 Definition DM is a process of identifying and/or extracting previousl y unknown, non-trivial, unanticipated, important inform ation from large sets of data. Wolfgang Martin- DM is the exploration and analysis, by automatic or semi automatic means, of large quantities of data to discover meaningful patterns or rules. DM is one of application tools for Data Warehousing to e nd-users for information. DM is a modern Exploratory Data Analysis. Simply and automate the statistical process, Decision supporter DM is not Data Warehousing, Data mart, SQL, DB, RDB CRM Query, Reporting, Software agents OLAP(online analytic program), Data visualization DM 전문가 컴퓨터공학 : Data-Warehousing ( 데이터를잘저장, Data integration) 통계학 : 기법 (Reg. analysis, Logistic Regression, Decision Tree, Neural Network, Clustering, Discriminant) 경영정보 (MIS): Database 지식, 의사결정및경영학적마인드 Statistics/AI Machine learning Pattern recognition DM Database 1

Why DM Diaper and beer ( 시작 ) Market basket theory ( 시장바구니이론 ) Information is a secrete weapon: 고객은기업과직접만날수없어도자신들의요구, 선호도, 만족도, 하물며개인사정까지도알아주기원한다. 예전구멍가게주인으로부터받았던그관심으로 CRM (Customer Relationsh ip Management 고객관리경영 ) 고객들이함께사는품목들을조사하여구매동선을줄인다. 좋은고객을유지하고, 불량고객은정리하고, 불량고객이될가능성이보이는고객을미리탐지하여비용을절감하고이윤을높인다. ( 예 ) 신용카드회사 떠나는고객원인분석, 새로운고객창출방법에대한정보를얻는다. ( 예 ) AT&T 50$ 쿠폰 Increase computing power (development of computer and software) 컴퓨터대용량, 초고속화, 관련통계소프트웨어등장 OLTP 과 Data warehouse 발달 DM 관련소프트웨어발달 : SAS E-minor, SPSS Clementine 데이터마이닝을넘어 Text mining 이다. ( 예 ) 소비자불만처리관련게시판, 인터넷연구자료수집 Statistical and learning algorithms ( 관계 ) KDD (Knowledge Discovery in Database) DB로부터지식을추출하는과정 Machine Learning 인공지능 (AI) 의한분야자동적인학습기번설계 Patter Recognition: 공학, 문자인식또는이미지분류 Bioinformatics: 생명정보학 ( 생물, 공학, 통계학 ) DM vendors SAS E-minor SPSS Clementine Oracle Darwin Insightful Minor, Angoss Knowledge studio 2

관련 Glossary [OLAP: On-Line Analytical Process] 사용자로하여금대용량데이터로부터원하는정보를한눈에파악할수있도록표나그래프를제공한다. 예를들어 2002 년 A 제품월매출액과 B 제품월매출액을한꺼번에볼수있게한다. 이러한종류의분석을쉽게하기위해 OLAP 데이터는다차원데이터베이스내에저장된다. 관계형데이터베이스가 2차원이라고생각할수있는데반해다차원데이터베이스란각데이터속성 ( 제품명, 매출지역, 기간, 고객정보등 ) 이각기별개의차원으로서간주되는것이다. OLAP 소프트웨어는차원들간의교점을찾아내어그것들을표현하거나데이터항목들간의상관관계를찾아내는일등에활용될수있다. ODBC [Open Database Connectivity: database를액세스하기위한표준개방형응용프로그램인터페이스이다. 프로그램내에 ODBC 문장을사용하면 MS- Access, dbase, DB2, Exce 등여러가지종류의데이터베이스에액세스가능 ] 를사용하면기존의관계형데이터베이스로부터 OLAP위한다차원데이터베이스로가져올수있다. Arbor Software의 Essbase, Oracle의 Express Server가예이다. [DBMS: DataBase Management Server] 데이터베이스관리시스템. 다수의컴퓨터사용자들이데이터베이스안에데이터를기록하거나접근할수있도록해주는프로그램이다. DBMS 는사용자요구사항들이나다른프로그램의요구사항들을관리함으로써사용자들이나다른프로그램들이실제로그데이터가저장매체의어느곳에저장되어있는지를이해하지않고서도다중사용자환경의그누구라도데이터를이용할수있도록해준다. 사용자요구사항들을처리함에있어데이터의무결성 ( 데이터베이스가계속해서접근이가능하며, 또한의도한대로조직화되어있다는사실을확인해주는것 ) 과오직허가된사용자들만이데이터에접근할수있게하는보안성을보장해야한다. 가장일반적인형태의 DBMS가관계형데이터베이스관리시스템 (RDBMS) 이다. DBMS는데이터베이스내의데이터를관리하는파일관리자라고생각할수도있다. PC에서는 MS-Access가단일사용자및소규모사용자용 DBMS의대표적인예이며 SQL Server는다중사용자들의데이터베이스요구를지원하는 DBMS의한예이다. IBM 의 DB2, Oracle의 DBMS등이있다. [Data Mart] 전사적인데이터베이스혹은자사 DW 다른회사로부터넘겨받은 database 로부터원하는정보를얻기위한분석을목적으로변형시킨데이터를의미한다. Data Mart 데이터가갖추어야할조건은분석이나, 내용물, 표현및사용의용이성등의측면에서분석자의명확한요구에부합되는데에있다. Data Mart와 DW는유사해보이지만 Data Ma rt 설계는사용자요구분석으로부터시작하고 DW는이미존재하는데이터가어떤것인지그러한것들이어떻게수집될수있는지에대한분석으로부터시작된다. [Database] 사용자가데이터에쉽게접근하여원하는작업을처리할수있도록구성된데이터의집합체이다. 가장널리보급된데이터베이스는데이터를다양한방법으로접근하고재구성할수있도록정의한테이블형 d atabase인 RDBS이다. 분산데이터베이스는네트워크상의여러다른지점에분산되어있거나중복되어있는데이터베이스를말하며객체지향 ( object-oriented) 데이터베이스는객체클래스와서브클래스로정의된데이터가서로일치하는데이터베이스이다. SQL 은 IBM 의 DB2, 마이크로소프트의 Access와 Oracle, Sybase, Informix 등의데이터베이스를대화형식으로직접조회하거나갱신할수있도록만들어진표준언어이다. 3

관련 Glossary RDBDS[Relational DBMS관계형데이터베이스 ] 1970년에 IBM의 E. F. Codd가개발하였다. 관계형데이터베이스는일련의정형화된테이블로구성된데이터항목들의집합체로서테이블을재구성하지않아도데이터에다양한방법으로접근하거나조합될수있다. 사용자와관계형데이터베이스를연결시켜주는표준검색언어를 SQL(Structured Query Lang uage) 이라고하는데, SQL 문장은관계형데이터베이스에있는데이터를직접조회하거나또는보고서를추출하는데사용된다. 관계형데이터베이스는만들거나이용하기가비교적적쉽고확장이용이하다는장점을가지고있다. 관계형데이터베이스는미리정의된내용에따라테이블들이구성되는데각테이블은데이터종류나성격에따라여러개의열 (column) 이포함될수있다. 예를들어주문거래데이터베이스에는성명, 주소, 전화번호등의열항목으로구성된테이블과또한주문내용 ( 제품, 고객, 일자, 판매가격등 ) 을나타내는테이블이포함될것이며사용자는필요에맞는형태로데이터베이스의내용을볼수있다. 관계형데이터베이스를정의하게되면그테이블이나열, 도메인및제한사항에대한내용을가진메타데이터 (metadata) 테이블이함께만들어진다. [Metadata] " 메타" 란, " 근원적인정의또는설명" 을의미하는접두사인데메타데이터란데이터에대한정의나설명이되고, 메타언어란언어에대한정의나설명이되는것이다. [CRM] 기업이잘정리된방법으로고객관계를관리해나가기위해필요한방법론이나소프트웨어등을지칭하는정보산업계용어로서대개인터넷서비스기능을가지고있다. CRM 을위해서는경영계층이나판매사원들이고객에게양질의서비스를제공할수있을정도로자기고객들에대한정보와관계를설명해줄수있을정도의데이터베이스가구축되어있어야한다. (1) 고객만족과이익의극대화를꾀하고회사에가장도움이되는고객들을식별해내며그들에게최상의서비스를제공하는등, 고객들마다선별적인관계의형성을허용한다. (2) () 고객에관해알아야하고고객들의요구가무엇인지를이해하고회사와고객기반그리고배송파트너들과의관계를효과적으로구축하기위해꼭필요한정보와처리절차를직원들에게제공한다. 용어차이 Statistics RDB Data set Table, Database Data set Case Row, Record Record Variable Column, Field Field Independent Column, Field Predictor Dependent Column, Field Prediction Observation Value Value 4

Where DM Biz DM 마케팅 : Grocery Safeway & Pepsi 목표마케팅 고객세분화 (segmentation): 충성고객, CRM, Direct Mail Marketing 고객성향변동 (churn): 이탈고객 attrition 교차판매 (cross sales) Market basket theory 신용평가 Scoring Credit card fraud 판별분석 Government FBI (criminal) IRS (tax evasion) National al Statistics tic Sports statistics 4 game and players Web text mining web log analysis Clinic Bioinformatics Pre-diagnosis Actuarial statistics DM 특징 Handling huge observational data Computer intensive method Ah-hoc and experience based method Generalization Obtaining Business information 5

DM Architecture 6

Data flow in DM 7

E-Minor Vendor 특징 (1) 사용자는 SAS/Enterprise Miner가기본적으로제공하는기능별작업툴을작업의순서와동일하게늘어놓음으로써 PFD(Process F low Diagram) 를구성하고작업의전체과정을한화면에서제어 / 관리할수있다. (2) () 기본적으로제공되는작업툴이외의별도작업이필요한경우사용자정의프로그램을부분적으로삽입할수있다. (3)Neural Networks, Decision Trees, Regression, Forecasting 등의전통적인통계분석방법뿐아니라최근에등장한다양한 Minin g 기법을제공한다. (4)Mining 과정에서구축된두개이상의모형을그래프화하여시각적으로비교, 평가할수있는 Lift Chart, ROI Chart, Profit Chart 를제공한다. 이를이용하여, 구축한모형중성능이가장좋은모형을손쉽게선택할수있다. (5) 대용량데이터모형화 (Modeling) 을위한원격지수행 (Remote Processing) 가능 (6) 다양한 DB(DB2, Informix, Oracle, Sybase, DB2 등 ) 를 SAS/A CCESS, SAS/Warehouse Administrator, SAS 의 Query Window 를통하여추출, 사용가능 절차 Sample: 데이터를하나또는그이상의데이터를테이블에서추출한다. 표본들은유의한정보를포함할수있도록충분히커야한다. (Tr aining 40%, Validation 30%, Test 30%) Explore: 데이터를이해하고아이디어를얻기위하여기대되는관계, 기대되지않는경향, anomalies를살펴보며데이터를탐색한다. ( skewed, outliers) Modify: 모형을선택하기위해변수들을만들고선택, 변형한다. (da ta transformation) Model: 분석도구를이용하여데이터의믿을만한예측값을생성하는데이터의조합을찾아데이터를모형화한다. Assess: 데이터마이닝프로세스에대한유용성과신뢰성을통해데이터를검토한다. 자세한내용 : 강의노트 E-Minor 참고 8