개요 Definition DM is a process of identifying and/or extracting previousl y unknown, non-trivial, unanticipated, important inform ation from large sets of data. Wolfgang Martin- DM is the exploration and analysis, by automatic or semi automatic means, of large quantities of data to discover meaningful patterns or rules. DM is one of application tools for Data Warehousing to e nd-users for information. DM is a modern Exploratory Data Analysis. Simply and automate the statistical process, Decision supporter DM is not Data Warehousing, Data mart, SQL, DB, RDB CRM Query, Reporting, Software agents OLAP(online analytic program), Data visualization DM 전문가 컴퓨터공학 : Data-Warehousing ( 데이터를잘저장, Data integration) 통계학 : 기법 (Reg. analysis, Logistic Regression, Decision Tree, Neural Network, Clustering, Discriminant) 경영정보 (MIS): Database 지식, 의사결정및경영학적마인드 Statistics/AI Machine learning Pattern recognition DM Database 1
Why DM Diaper and beer ( 시작 ) Market basket theory ( 시장바구니이론 ) Information is a secrete weapon: 고객은기업과직접만날수없어도자신들의요구, 선호도, 만족도, 하물며개인사정까지도알아주기원한다. 예전구멍가게주인으로부터받았던그관심으로 CRM (Customer Relationsh ip Management 고객관리경영 ) 고객들이함께사는품목들을조사하여구매동선을줄인다. 좋은고객을유지하고, 불량고객은정리하고, 불량고객이될가능성이보이는고객을미리탐지하여비용을절감하고이윤을높인다. ( 예 ) 신용카드회사 떠나는고객원인분석, 새로운고객창출방법에대한정보를얻는다. ( 예 ) AT&T 50$ 쿠폰 Increase computing power (development of computer and software) 컴퓨터대용량, 초고속화, 관련통계소프트웨어등장 OLTP 과 Data warehouse 발달 DM 관련소프트웨어발달 : SAS E-minor, SPSS Clementine 데이터마이닝을넘어 Text mining 이다. ( 예 ) 소비자불만처리관련게시판, 인터넷연구자료수집 Statistical and learning algorithms ( 관계 ) KDD (Knowledge Discovery in Database) DB로부터지식을추출하는과정 Machine Learning 인공지능 (AI) 의한분야자동적인학습기번설계 Patter Recognition: 공학, 문자인식또는이미지분류 Bioinformatics: 생명정보학 ( 생물, 공학, 통계학 ) DM vendors SAS E-minor SPSS Clementine Oracle Darwin Insightful Minor, Angoss Knowledge studio 2
관련 Glossary [OLAP: On-Line Analytical Process] 사용자로하여금대용량데이터로부터원하는정보를한눈에파악할수있도록표나그래프를제공한다. 예를들어 2002 년 A 제품월매출액과 B 제품월매출액을한꺼번에볼수있게한다. 이러한종류의분석을쉽게하기위해 OLAP 데이터는다차원데이터베이스내에저장된다. 관계형데이터베이스가 2차원이라고생각할수있는데반해다차원데이터베이스란각데이터속성 ( 제품명, 매출지역, 기간, 고객정보등 ) 이각기별개의차원으로서간주되는것이다. OLAP 소프트웨어는차원들간의교점을찾아내어그것들을표현하거나데이터항목들간의상관관계를찾아내는일등에활용될수있다. ODBC [Open Database Connectivity: database를액세스하기위한표준개방형응용프로그램인터페이스이다. 프로그램내에 ODBC 문장을사용하면 MS- Access, dbase, DB2, Exce 등여러가지종류의데이터베이스에액세스가능 ] 를사용하면기존의관계형데이터베이스로부터 OLAP위한다차원데이터베이스로가져올수있다. Arbor Software의 Essbase, Oracle의 Express Server가예이다. [DBMS: DataBase Management Server] 데이터베이스관리시스템. 다수의컴퓨터사용자들이데이터베이스안에데이터를기록하거나접근할수있도록해주는프로그램이다. DBMS 는사용자요구사항들이나다른프로그램의요구사항들을관리함으로써사용자들이나다른프로그램들이실제로그데이터가저장매체의어느곳에저장되어있는지를이해하지않고서도다중사용자환경의그누구라도데이터를이용할수있도록해준다. 사용자요구사항들을처리함에있어데이터의무결성 ( 데이터베이스가계속해서접근이가능하며, 또한의도한대로조직화되어있다는사실을확인해주는것 ) 과오직허가된사용자들만이데이터에접근할수있게하는보안성을보장해야한다. 가장일반적인형태의 DBMS가관계형데이터베이스관리시스템 (RDBMS) 이다. DBMS는데이터베이스내의데이터를관리하는파일관리자라고생각할수도있다. PC에서는 MS-Access가단일사용자및소규모사용자용 DBMS의대표적인예이며 SQL Server는다중사용자들의데이터베이스요구를지원하는 DBMS의한예이다. IBM 의 DB2, Oracle의 DBMS등이있다. [Data Mart] 전사적인데이터베이스혹은자사 DW 다른회사로부터넘겨받은 database 로부터원하는정보를얻기위한분석을목적으로변형시킨데이터를의미한다. Data Mart 데이터가갖추어야할조건은분석이나, 내용물, 표현및사용의용이성등의측면에서분석자의명확한요구에부합되는데에있다. Data Mart와 DW는유사해보이지만 Data Ma rt 설계는사용자요구분석으로부터시작하고 DW는이미존재하는데이터가어떤것인지그러한것들이어떻게수집될수있는지에대한분석으로부터시작된다. [Database] 사용자가데이터에쉽게접근하여원하는작업을처리할수있도록구성된데이터의집합체이다. 가장널리보급된데이터베이스는데이터를다양한방법으로접근하고재구성할수있도록정의한테이블형 d atabase인 RDBS이다. 분산데이터베이스는네트워크상의여러다른지점에분산되어있거나중복되어있는데이터베이스를말하며객체지향 ( object-oriented) 데이터베이스는객체클래스와서브클래스로정의된데이터가서로일치하는데이터베이스이다. SQL 은 IBM 의 DB2, 마이크로소프트의 Access와 Oracle, Sybase, Informix 등의데이터베이스를대화형식으로직접조회하거나갱신할수있도록만들어진표준언어이다. 3
관련 Glossary RDBDS[Relational DBMS관계형데이터베이스 ] 1970년에 IBM의 E. F. Codd가개발하였다. 관계형데이터베이스는일련의정형화된테이블로구성된데이터항목들의집합체로서테이블을재구성하지않아도데이터에다양한방법으로접근하거나조합될수있다. 사용자와관계형데이터베이스를연결시켜주는표준검색언어를 SQL(Structured Query Lang uage) 이라고하는데, SQL 문장은관계형데이터베이스에있는데이터를직접조회하거나또는보고서를추출하는데사용된다. 관계형데이터베이스는만들거나이용하기가비교적적쉽고확장이용이하다는장점을가지고있다. 관계형데이터베이스는미리정의된내용에따라테이블들이구성되는데각테이블은데이터종류나성격에따라여러개의열 (column) 이포함될수있다. 예를들어주문거래데이터베이스에는성명, 주소, 전화번호등의열항목으로구성된테이블과또한주문내용 ( 제품, 고객, 일자, 판매가격등 ) 을나타내는테이블이포함될것이며사용자는필요에맞는형태로데이터베이스의내용을볼수있다. 관계형데이터베이스를정의하게되면그테이블이나열, 도메인및제한사항에대한내용을가진메타데이터 (metadata) 테이블이함께만들어진다. [Metadata] " 메타" 란, " 근원적인정의또는설명" 을의미하는접두사인데메타데이터란데이터에대한정의나설명이되고, 메타언어란언어에대한정의나설명이되는것이다. [CRM] 기업이잘정리된방법으로고객관계를관리해나가기위해필요한방법론이나소프트웨어등을지칭하는정보산업계용어로서대개인터넷서비스기능을가지고있다. CRM 을위해서는경영계층이나판매사원들이고객에게양질의서비스를제공할수있을정도로자기고객들에대한정보와관계를설명해줄수있을정도의데이터베이스가구축되어있어야한다. (1) 고객만족과이익의극대화를꾀하고회사에가장도움이되는고객들을식별해내며그들에게최상의서비스를제공하는등, 고객들마다선별적인관계의형성을허용한다. (2) () 고객에관해알아야하고고객들의요구가무엇인지를이해하고회사와고객기반그리고배송파트너들과의관계를효과적으로구축하기위해꼭필요한정보와처리절차를직원들에게제공한다. 용어차이 Statistics RDB Data set Table, Database Data set Case Row, Record Record Variable Column, Field Field Independent Column, Field Predictor Dependent Column, Field Prediction Observation Value Value 4
Where DM Biz DM 마케팅 : Grocery Safeway & Pepsi 목표마케팅 고객세분화 (segmentation): 충성고객, CRM, Direct Mail Marketing 고객성향변동 (churn): 이탈고객 attrition 교차판매 (cross sales) Market basket theory 신용평가 Scoring Credit card fraud 판별분석 Government FBI (criminal) IRS (tax evasion) National al Statistics tic Sports statistics 4 game and players Web text mining web log analysis Clinic Bioinformatics Pre-diagnosis Actuarial statistics DM 특징 Handling huge observational data Computer intensive method Ah-hoc and experience based method Generalization Obtaining Business information 5
DM Architecture 6
Data flow in DM 7
E-Minor Vendor 특징 (1) 사용자는 SAS/Enterprise Miner가기본적으로제공하는기능별작업툴을작업의순서와동일하게늘어놓음으로써 PFD(Process F low Diagram) 를구성하고작업의전체과정을한화면에서제어 / 관리할수있다. (2) () 기본적으로제공되는작업툴이외의별도작업이필요한경우사용자정의프로그램을부분적으로삽입할수있다. (3)Neural Networks, Decision Trees, Regression, Forecasting 등의전통적인통계분석방법뿐아니라최근에등장한다양한 Minin g 기법을제공한다. (4)Mining 과정에서구축된두개이상의모형을그래프화하여시각적으로비교, 평가할수있는 Lift Chart, ROI Chart, Profit Chart 를제공한다. 이를이용하여, 구축한모형중성능이가장좋은모형을손쉽게선택할수있다. (5) 대용량데이터모형화 (Modeling) 을위한원격지수행 (Remote Processing) 가능 (6) 다양한 DB(DB2, Informix, Oracle, Sybase, DB2 등 ) 를 SAS/A CCESS, SAS/Warehouse Administrator, SAS 의 Query Window 를통하여추출, 사용가능 절차 Sample: 데이터를하나또는그이상의데이터를테이블에서추출한다. 표본들은유의한정보를포함할수있도록충분히커야한다. (Tr aining 40%, Validation 30%, Test 30%) Explore: 데이터를이해하고아이디어를얻기위하여기대되는관계, 기대되지않는경향, anomalies를살펴보며데이터를탐색한다. ( skewed, outliers) Modify: 모형을선택하기위해변수들을만들고선택, 변형한다. (da ta transformation) Model: 분석도구를이용하여데이터의믿을만한예측값을생성하는데이터의조합을찾아데이터를모형화한다. Assess: 데이터마이닝프로세스에대한유용성과신뢰성을통해데이터를검토한다. 자세한내용 : 강의노트 E-Minor 참고 8