<B5A5C0CCC5CDB8B6C0CCB4D72DBABBB9AE2E687770>

Size: px

Start display at page:

Download "<B5A5C0CCC5CDB8B6C0CCB4D72DBABBB9AE2E687770>"

재숙 영
7 years ago
Views:

1 Data Mining for Business Intelligence 데이터마이닝의 개요 1.1 데이터마이닝이란 무엇인가? 데이터마이닝(data mining)은 여전히 새로운 영역이며, 진화를 거듭하고 있다. 1995년도에 지식발견 및 데이터마이닝(KDD:Knowledge Discovery and Data Mining) 국제학술대회가 처음 개최된 이후, 현재 데이터마이닝에 대한 정의는 다 양하게 제시되고 있다. 데이터마이닝을 한마디로 요약하면 대량의 데이터 집합으로부터 유용한 정보 를 추출하는 것 으로 정의된다(Hand et al., 2001). 이를 좀더 상세히 정의하면, 다음과 같다. 데이터마이닝이란 의미있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반 자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정이다(Berry and Linoff, 1997, 2000). 데이터마이닝의 또다른 정의로서 가트너그룹은 다음과 같이 정의하고 있다 (2004년 1월 가트너그룹 웹사이트). 데이터마이닝은 통계 및 수학적 기술뿐만 아니라 패턴인식 기술들을 이용하 여 데이터 저장소에 저장된 대용량의 데이터를 조사함으로써 의미있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정이다. 데이터마이닝에 속하는 다양한 기법들에 대한 개요는 제2장의 전반부에서 소 개하기로 한다. -1-

데이터마이닝을 한마디로 요약하면 대량의 데이터 집합으로부터 유용한 정보 를 추출하는 것 으로 정의된다(Hand et al., 2001). 이를 좀더 상세히 정의하면, 다음과 같다.

2 제1장 데이터마이닝의 개요 비즈니스 인텔리전스(business intelligence)는 최종사용자 질의 및 보고(end user query and reporting)를 포괄하는 의미로 1990년대 초 가트너그룹의 Howard Dresner에 의해 만들어진 신조어이다. 이는 경영진과 경영분석가들이 데이터를 통해 합리적 의사결정을 내릴 수 있도록 데이터를 수집, 저장, 처리, 분석하는 일련의 기술, 응용시스템을 말한다. 이 개념은 매우 포괄적인 의미를 가지며, 다음과 같은 요소들을 포함하고 있다. 즉, 데 이터웨어하우스(data warehouse), 데이터 질의 및 보고도구(data query and reporting tools), 데이터마이닝(data mining), 비즈니스 성과관리(BPM: business performance management) 등을 포함한다. 한편 데이터마이닝은 비즈니스 인텔리전스의 일부로서 경영자와 경영분석가들이 다양 한 비즈니스 의사결정문제를 해결해 주는 일련의 데이터 분석과정이라고 할 수 있다. 1.2 데이터마이닝은 어디에서 사용되는가? 데이터마이닝은 다양한 분야에서 활용되고 있다. 군사분야에서는 미사일의 정 확도에 영향을 주는 요인들이 어떠한 작용을 하는지를 알아내기 위해 데이터마 이닝을 활용하고 있으며, 국가정보기관은 엄청난 양으로 도청되는 통신들 가운 데 특히 중요성이 높은 통신을 찾아내기 위해 데이터마이닝을 활용하기도 한다. 한편 보안전문가들은 패킷별로 네트워크에 위협요인을 갖고 있는지를 판단하기 위해, 그리고 의학연구자들은 암의 재발가능성을 예측하기 위해 데이터마이닝을 사용한다. 데이터마이닝의 기법과 도구들은 일반적으로 여러 분야에 적용가능하지만, 이 책에서는 대부분의 예제들을 비즈니스 분야에 초점을 맞추었다. 특히 경영학 관 점에서 데이터마이닝 기법 적용시 제기되는 몇 가지 공통된 의문점들을 정리해 보면 다음과 같다. 첫째, 수많은 가망고객 목록 중 어느 고객이 반응할 가능성이 가장 높은가? - 인구통계학 데이터 및 기타 데이터들을 이용하여 기존의 최고 우량고객들과 2 가장 일치하는 개인들을 파악하기 위해서 다양한 분류기법들(로지스틱 회귀분석, 분류나무 또는 다른 기법들)을 사용할 수 있다. 또는 이와 유사하게 개별 가망고객 들이 얼마나 많이 소비할 것인가를 미리 추정하는 예측모형을 사용할 수 있다.

즉, 데 이터웨어하우스(data warehouse), 데이터 질의 및 보고도구(data query and reporting tools), 데이터마이닝(data mining), 비즈니스 성과관리(BPM: business performance management) 등을 포함한다.

3 1.3 데이터마이닝의 기원 둘째, 가장 부정거래를 할 가능성이 높거나 이미 부정거래를 하였을 것 같은 고객은 누구인가? - 예를 들어 부정거래 가능성이 가장 높은 의료보상 청구신청을 식별하고, 이 러한 청구신청에 대해 좀더 세심한 주의를 기울이기 위해 분류기법을 사용할 수 있다. 셋째, 어떤 대출신청자가 파산할 것 같은가? - 파산가능성이 높은 대출신청자를 식별하기 위해 분류기법을 사용할 수 있 다. 즉, 파산확률 값을 부여하기 위해 로지스틱 회귀분석이 사용될 수 있다. 넷째, 전화, 잡지 등의 가입서비스를 포기할 것 같은 고객들은 누구인가? - 이탈고객들을 식별하기 위해 이탈확률 값을 부여하는 로지스틱 회귀분석 등의 분류기법을 사용할 수 있다. 이 경우 이탈고객관리(churn management)를 통 해 할인 또는 다른 유인책들을 선별적으로 내놓을 수 있다. 가망고객(prospects)은 회사의 제품이나 서비스를 필요로 하거나 구매할 의사가 있는 사람을 말한다. 반면에 잠재고객(suspects)은 한 회사의 제품 또는 서비스를 구매할지 도 모르는 사람으로서 고객이 될 수 있을지 의문이 가는 사람을 말한다. 1.3 데이터마이닝의 기원 데이터마이닝은 통계학과 기계학습(machine learning: 인공지능으로도 알려짐)으로 알려진 두 학문분야의 합류점에서 존재한다. 데이터를 탐색하고 모델을 구축하는 다양한 기법들은 통계학분야에서 오랫동안 존재해 왔다. 예를 들어 여기에는 선 형 회귀분석, 로지스틱 회귀분석, 판별분석, 주성분 분석 등이 포함된다. 그러나 충분한 데이터와 계산능력을 가진 데이터마이닝의 응용분야에서는 이러한 고전 적인 통계학의 핵심원리(계산이 어렵고 데이터가 희소하다는 것)가 적용되지 않는다. 이러한 이유로 해서 Daryl Pregibon은 데이터마이닝을 규모와 속도의 통계학 (statistics at scale and speed) 으로 묘사하고 있다(Pregibon, 1999). 이를 좀더 확장 한 개념은 규모, 속도 및 단순성의 통계학(statistics at scale, speed, and simplicity) 이다. 이 경우에 단순성이란 알고리즘의 단순성뿐만 아니라 추론논리의 단순성 3

이 경우 이탈고객관리(churn management)를 통 해 할인 또는 다른 유인책들을 선별적으로 내놓을 수 있다. 가망고객(prospects)은 회사의 제품이나 서비스를 필요로 하거나 구매할 의사가 있는 사람을 말한다.

4 제1장 데이터마이닝의 개요 을 의미한다. 전통적인 통계환경하에서는 데이터가 희소하기 때문에 추정치를 계산하고 추정치가 얼마나 신뢰할 만한가를 결정하는 데 동일한 표본이 사용된 다. 그 결과, 추론을 위해 사용되는 신뢰구간과 가설검정에 대한 논리는 대부분 의 경우에 이해하기가 쉽지 않으며, 또한 이러한 한계점들은 잘 인식되지 못하고 있다. 이와는 반대로 하나의 표본으로 모델을 적합시킨 후 다른 표본으로 모델의 성과를 평가하는 데이터마이닝의 이론적 구조는 이해하기가 쉽다. 오늘날 컴퓨터 과학은 우리에게 의사결정나무(decision tree) 또는 신경망(neural networks)과 같은 기계학습기법(machine learning techniques)을 제공한다. 기계학습 기법은 강력한 계산능력에 의존하며 전통적인 통계모형보다는 덜 구조화되어 있 다. 아울러 현재 성장하고 있는 데이터베이스관리분야 또한 부분적으로 이 기법 들의 영역에 속한다. 전통적인 통계학은 추론(하나의 패턴 또는 흥미로운 결과가 우연히 발생하였는지를 결정하는 것)에 초점을 두고 있지만 데이터마이닝은 그렇지 않다. 통계학과 비교 할 때, 데이터마이닝은 다양한 방식으로 대량의 데이터 집합을 다루기 때문에 추 론에서 요구하는 것처럼 엄격한 제약을 둘 필요가 없다. 그러나, 이로 인해서 데이터마이닝에 대한 접근은 일반적으로 과적합화(overfitting)의 위험성에 쉽게 노출된다. 즉, 하나의 모형이 모형개발에 사용된 표본데 이터에 너무 가깝게 적합화되면 이 모형은 데이터가 갖는 구조적 특성뿐만 아니 라 우연적 특수성을 모두 반영하게 되어 과적합화 현상이 발생하게 된다. 공학적 인 관점에서 이러한 모형은 신호(signal)가 아닌, 잡음(noise)을 적합시킨 모형이 되고 만다. 과적합화에 대한 자세한 내용은 제2장에서 다루도록 한다. 1.4 데이터마이닝의 급속한 성장 아마도 데이터마이닝의 성장을 가속화시킨 가장 중요한 계기는 데이터의 증가 에 있다. 2003년 당시 대규모 유통 소매업체인 월마트는 10테라바이트(terabyte) 용량의 데이터베이스에 매일 2천만건의 거래데이터를 저장하였다(1테라바이트는 1 백만 메가바이트에 해당함). 반면에 1950년 가장 큰 규모의 회사들은 전자문서 형 태로 수십 메가바이트를 담을 수 있을 정도의 데이터만을 갖고 있었다. 4

기계학습 기법은 강력한 계산능력에 의존하며 전통적인 통계모형보다는 덜 구조화되어 있 다. 아울러 현재 성장하고 있는 데이터베이스관리분야 또한 부분적으로 이 기법 들의 영역에 속한다. 전통적인 통계학은 추론(하나의 패턴 또는 흥미로운 결과가 우연히 발생하였는지를 결정하는 것)에 초점을 두고 있지만 데이터마이닝은 그렇지 않다.

5 1.4 데이터마이닝의 급속한 성장 Lyman and Varian(2003)은 1999년에 생산된 정보의 두 배에 해당되는 5엑사바이 트(exabytes)의 정보가 2002년에 생산되었고 이 중 40%의 정보는 미국에서 생산되 었다고 추정하였다(1엑사바이트는 1백만 테라바이트에 해당함). 데이터가 증가한 이유는 단순히 경제와 지식베이스가 확장되어서만이 아니라 데이터를 자동적으로 얻는 데 소요되는 비용이 절감되고 이에 대한 가용성이 증 가했기 때문이다. 보다 많은 사건들이 기록될 뿐만 아니라 각 사건당 보다 많은 정보들이 수집되고 있다. 예를 들어 바코드, POS(point-of-sale) 장치, 마우스 클 릭 기록정보 및 위치추적위성(GPS: global positioning satellite) 데이터 등을 그 예로 들 수 있다. 인터넷이 발전함에 따라서 그 동안 정보창출을 위해 엄청나게 크고 새로운 활 동무대가 만들어졌다. 예를 들어 오프라인상에서 이루어지는 소매점 쇼핑, 도서 검색, 또는 카탈로그 쇼핑 등과 같이 사람들의 수많은 반복행위들은 인터넷상에 서의 행위들과 매우 유사하며, 이 모든 행위들은 매우 상세한 단위로 측정되고 있다. 이제는 마케팅의 초점이 제품과 서비스로부터 고객과 고객의 욕구(needs) 로 이동함에 따라서 매우 상세한 고객데이터에 대한 신규 수요가 창출되었다. 일상적인 사업활동을 지원하기 위해 개별 거래를 기록하는 데 사용되는 운영 데이터베이스는 단순 질의로 처리될 수 있지만, 보다 복잡하고 총체적인 분석을 위해서는 적합하지 않다. 따라서 운영 데이터베이스의 데이터는 추출 및 변환과 정을 거쳐 기업의 의사결정지원 시스템을 공고히 해주는 대규모의 통합데이터 저장소인 데이터웨어하우스(data warehouse)로 전송된다. 하나의 주제에 사용되는 좀더 작은 데이터마트(data marts)는 또한 이 시스템의 일부분이다. 데이터마트는 외부로부터 얻어진 데이터(예를 들어 신용등급 데이터)를 포함할 수 있다. 데이터마이닝에서 사용되는 많은 탐색적, 분석적 기법들은 현재와 같은 연산 능력 없이는 불가능하다. 데이터 저장과 검색의 비용이 지속적으로 줄어듦에 따 라 대용량의 데이터를 저장하고 생성하는 데 필요한 설비를 구축하는 것이 가능 하게 되었다. 결론적으로 빠르고 지속적인 연산능력의 향상은 데이터마이닝을 발전시키는 핵심원동력이라고 할 수 있다. 5

예를 들어 바코드, POS(point-of-sale) 장치, 마우스 클 릭 기록정보 및 위치추적위성(GPS: global positioning satellite) 데이터 등을 그 예로 들 수 있다. 인터넷이 발전함에 따라서 그 동안 정보창출을 위해 엄청나게 크고 새로운 활 동무대가 만들어졌다.

6 제1장 데이터마이닝의 개요 1.5 왜 다양한 데이터마이닝 기법들이 존재하는가? 이 책을 포함한 다른 데이터마이닝 문헌에서 볼 수 있듯이 예측 및 분류를 위 한 방법들은 다양하게 존재한다. 왜 이 기법들이 공존하는지와 어떤 기법이 다른 기법보다 더 좋은지를 독자 스스로 자문해 볼 필요가 있다. 이에 대한 대답은 각 기법이 나름대로의 장단점을 갖는다는 것이다. 어느 한 기법의 유용성은 데이터 집합의 크기, 데이터에 존재하는 패턴의 유형, 해당 기법이 요구하는 몇 가지 기 본가정을 해당 데이터가 충족시키는지 여부, 데이터 잡음의 정도, 그리고 특수한 분석목적 등 다양한 요인들에 의해 영향을 받는다. 6 <그림 1.1> 구매자와 비구매자를 구분하는 2가지 방법

7 1.6 용어와 표기 <그림 1.1>은 하나의 사례를 보여주는데, 이 사례의 목적은 승차식 잔디깎기 기계의 구매자(검은색의 원표시)와 비구매자(흰색의 원표시)를 구분해 주는 가계소 득수준(household income level)과 주택대지 크기(household lot size)의 조합을 찾는 것이다. 상단의 첫 번째 방법은 구매자와 비구매자를 구분해 주는 수평선과 수직 선을 찾는 방식이다. 반면에 하단의 두 번째 방법은 하나의 대각선을 찾는 방식 이다. 이처럼 다양한 방법들이 서로 다른 결과를 보여줄 수 있고, 이에 대한 성과도 다를 수 있다. 따라서 일반적으로 통용되는 방식은 여러 가지 다양한 데이터마이 닝 기법들을 적용해 보고, 그 중에서 목적에 맞는 가장 유용한 한 가지 기법을 선택하는 것이다. 1.6 용어와 표기 데이터마이닝은 태생적으로 여러 분야가 결합된 분야이기 때문에 실무자들은 종종 동일한 의미에 대해 다양한 용어들을 사용한다. 예를 들어 기계학습(인공지 능)분야에서는 예측되는 변수에 대해 출력변수 또는 목표변수라는 용어를 사용 하고, 통계학에서는 이를 종속변수 또는 반응변수라고 부른다. 이 책에서 주로 사용되는 용어들을 요약하면 다음과 같다. 알고리즘(algorithm):특정 데이터마이닝 기법, 예를 들어 분류나무, 판별분석 등을 실행하기 위해 사용되는 특정 절차이다. 속성(attribute):보통 로 표기되며, 특성, 예측변수, 입력변수, 독립변수, 또는 데이터베이스 관점에서 필드(field)라고도 한다. 사례(case):고객, 거래 등의 측정치를 갖는 분석의 단위로서 관찰치, 레코드, 패턴, 또는 행(row)이라고도 한다(각 행은 레코드를, 각 열은 변수를 의미함). 신뢰도(confidence):이 용어는 다음과 같이 2가지 의미를 갖는다. 첫째, 와 가 구매된다면 또한 구매될 것이다. 라는 연관성규칙에서 사 용되며, 이때 신뢰도는 와 가 구매된다는 조건하에서 가 구매될 조건부 확률을 말한다. 7

따라서 일반적으로 통용되는 방식은 여러 가지 다양한 데이터마이 닝 기법들을 적용해 보고, 그 중에서 목적에 맞는 가장 유용한 한 가지 기법을 선택하는 것이다. 1.6 용어와 표기 데이터마이닝은 태생적으로 여러 분야가 결합된 분야이기 때문에 실무자들은 종종 동일한 의미에 대해 다양한 용어들을 사용한다.

8 제1장 데이터마이닝의 개요 둘째, 신뢰도는 또한 통계학의 신뢰구간(confidence interval)과 같이 좀더 넓은 의미로 쓰인다. 다른 표본과는 반대되는 표본을 선택함으로 인해 발생하는 추 정치의 오차 정도를 말한다. 종속변수(dependent variable):보통 로 표기되며, 지도학습으로 예측되는 변수이다. 또한 반응변수, 출력변수, 목표변수, 또는 성과변수라고도 한다. 추정(estimation):연속형 출력변수의 가치를 예측하는 것을 말하며, 예측 (prediction)이라고도 한다. 특성(feature):보통 로 표기되며, 예측변수, 입력변수, 독립변수, 또는 데이터 베이스 관점에서 필드라고도 한다. 예비용 표본(holdout sample):모형을 적합시키는 데 사용되지 않고 모형의 성 과를 평가하는 데 사용되는 데이터 표본이다. 이 책에서는 예비용 표본이라는 용어 대신에 평가용 집합(validation set)이라는 용어를 사용하거나 검증용 집합 (test set)이라는 용어를 사용한다. 입력변수(input variable):보통 로 표기되며, 특성, 예측변수, 독립변수, 또는 데이터베이스 관점에서 필드라고도 한다. 모형(model):데이터 집합에 적용되어 파라미터(parameter)를 결정하는 알고리 즘을 말한다(많은 알고리즘은 사용자가 조정할 수 있는 파라미터를 가짐). 관찰치(observation):고객, 거래 등의 측정치를 갖는 분석의 단위로서 사례, 레 코드, 패턴, 또는 행(row)이라고도 한다(각 행은 레코드를, 각 열은 변수를 의미함). 성과변수(outcome variable):보통 로 표기되며, 지도학습으로 예측되는 변 수이다. 또한 종속변수, 반응변수, 출력변수, 또는 목표변수라고도 한다. 출력변수(output variable):보통 로 표기되며, 지도학습으로 예측되는 변수 이다. 또한 종속변수, 반응변수, 목표변수, 또는 성과변수라고도 한다. P(A B):사건 가 발생한다는 조건하에서 사건 가 발생할 조건부 확률을 의 미한다. 패턴(pattern):하나의 관찰치에 대한 측정치의 집합을 말한다. 예를 들어 한 사람의 키, 몸무게 및 나이를 묶어서 하나의 패턴으로 정의한다. 8 예측(prediction):연속형 출력변수의 가치를 예측하는 것을 말하며, 추정 (estimation)이라고도 한다.

예비용 표본(holdout sample):모형을 적합시키는 데 사용되지 않고 모형의 성 과를 평가하는 데 사용되는 데이터 표본이다. 이 책에서는 예비용 표본이라는 용어 대신에 평가용 집합(validation set)이라는 용어를 사용하거나 검증용 집합 (test set)이라는 용어를 사용한다.

9 1.6 용어와 표기 예측변수(predictor):보통 로 표기되며, 특성, 입력변수, 독립변수, 또는 데이 터베이스 관점에서 필드(field)라고도 한다. 레코드(record):고객, 거래 등의 측정치를 갖는 분석의 단위로서 사례, 관찰치, 패턴, 또는 행(row)이라고도 한다(각 행은 레코드를, 각 열은 변수를 의미함). 반응변수(response variable):보통 로 표기되며, 지도학습으로 예측되는 변 수이다. 또한 종속변수, 출력변수, 목표변수, 또는 성과변수라고도 한다. 점수(score):예측값 또는 예측집단을 나타낸다. 새로운 데이터에 점수를 매기 는 것은 학습용 데이터를 가지고 개발된 모형을 이용하여 새로운 데이터에 출 력값을 예측하는 것을 의미한다. 성공집단(success class):이진 집단변수에서 중요한 집단을 말한다. 예를 들 어 구매/비구매의 성과변수에서 구매자 집단이 성공집단에 해당한다. 지도학습(supervised learning):주요 종속변수가 알려져 있는 레코드에 알고 리즘(로지스틱 회귀분석, 회귀나무 등)을 적용하는 과정을 말한다. 알고리즘은 출 력변수가 알려져 있지 않은 신규 레코드를 가지고 출력변수값을 예측하는 방법 을 학습한다. 검증용 데이터(test data)(또는 검증용 집합):최종 선택모형이 새로운 데이터 에 대하여 얼마나 좋은 성과를 갖는지를 평가하기 위해서 모형구축 및 모형선 택과정이 끝난 후에만 사용되는 데이터를 말한다. 학습용 데이터(training data)(또는 학습용 집합):모형을 적합화시키기 위해 사용되는 데이터를 말한다. 자율학습(unsupervised learning):주요 출력값을 예측하기보다는 데이터 자 체의 특성에 대한 학습을 시도, 분석한다(예를 들어 군집들의 소속여부 등). 평가용 데이터(validation data)(또는 평가용 집합):모형이 얼마나 잘 적합화 되었는지 평가하고, 일부 모형들을 조정하며, 구축된 모형들 중에서 가장 좋은 모형을 선택하기 위한 목적으로 사용되는 데이터를 말한다. 변수(variable):입력변수( )와 출력변수( )를 모두 포함하는 레코드의 측정 치를 말한다. 9

성공집단(success class):이진 집단변수에서 중요한 집단을 말한다. 예를 들 어 구매/비구매의 성과변수에서 구매자 집단이 성공집단에 해당한다. 지도학습(supervised learning):주요 종속변수가 알려져 있는 레코드에 알고 리즘(로지스틱 회귀분석, 회귀나무 등)을 적용하는 과정을 말한다.

10 제1장 데이터마이닝의 개요 1.7 이 책의 구성도 이 책은 널리 사용되고 있는 다수의 예측 및 분류기법들을 다룬다. <그림 1.2> 는 이러한 주제에 적합한 데이터마이닝을 프로세스 관점에서 요약하고 있다. 각 장의 번호는 해당 주제별로 괄호 안에 표시되어 있다. <표 1.1>은 데이터 유형별 로 이용가능한 데이터마이닝 프로세스를 보여준다. 각 주제의 순서:각 장은 3가지 부분으로 구분된다. 제1장에서 제3장까지는 일반적 인 주제를 다루고, 제4장에서 제10장까지는 예측 및 분류기법에 대해 기술한다. <표 1.1> 데이터 유형에 따른 데이터마이닝 기법의 분류 연속형 반응변수 범주형 반응변수 반응변수가 없는 경우 연 속 형 예측변수 선형 회귀분석(제5장) 신경망모형(제9장) -최근접이웃기법(제6장) 로지스틱 회귀분석(제8장) 판별분석(제10장) -최근접이웃기법(제6장) 주성분 분석(제3장) 군집분석(제12장) 범 주 형 예측변수 선형 회귀분석(제5장) 신경망모형(제9장) 회귀나무(제7장) 신경망모형(제9장) 분류나무(제7장) 로지스틱 회귀분석(제8장) 단순 베이즈 분류모형(제6장) 연관성규칙(제11장) 예측 다중 선형 회귀분석(제5장) -최근접이웃기법(제6장) 회귀나무(제7장) 신경망모형(제9장) 모형 평가 및 선택(제4장) 새로운 데이터 평가 데이터 준비와 탐색 (제2,3장) 표본추출 데이터 정제 데이터 요약 데이터 시각화 데이터 분할 차원축소 분류 -최근접이웃기법(제6장) 단순 베이즈 분류모형(제6장) 로지스틱 회귀분석(제8장) 분류나무(제7장) 신경망모형(제9장) 판별분석(제10장) 세분화/군집분석(제12장) 통찰력 유도 친화성 분석/ 연관성규칙(제11장) <그림 1.2> 프로세스 관점의 데이터마이닝 10

1> 데이터 유형에 따른 데이터마이닝 기법의 분류 연속형 반응변수 범주형 반응변수 반응변수가 없는 경우 연 속 형 예측변수 선형 회귀분석(제5장) 신경망모형(제9장) -최근접이웃기법(제6장) 로지스틱 회귀분석(제8장) 판별분석(제10장) -최근접이웃기법(제6장) 주성분 분석(제3장) 군집분석(제12장) 범 주 형 예측변수 선형 회귀분석(제5장)

11 1.7 이 책의 구성도 그리고 제11장과 제12장은 연관성규칙과 군집분석에 대해 기술한다. 각 장의 예측 및 분류분야의 주제들은 알고리즘의 상세수준, 대중성 및 이해의 용이성 에 따라 구성되었다. 이 책에서 다루는 주제들이 각 장의 순서에 따라 다루어지 고 있지만, 제1장에서 제4장을 제외한 각 장은 서로 독립적이어서 생략되거나 다른 순서로 다루어져도 내용을 이해하는 데에는 문제가 없다. XLMiner 소프트웨어 사용하기 이 책에서는 데이터마이닝을 실제로 쉽게 경험할 수 있도록 하기 위해 이해하기 쉬 운 데이터마이닝 도구로서 XLMiner라는 엑셀 추가설치(add-in) 프로그램을 사용한다. 엑셀에 익숙한 사용자들에게는 엑셀 부가기능의 사용이 해당 소프트웨어의 학습시 간을 단축시켜 줄 것이다. XLMiner는 데이터마이닝을 신속하게 실행시키는 데 도움을 주고 데이터를 분석하기 위한 다양한 기법들을 제공한다. 이 책의 삽화, 연습문제, 그리고 사례들은 본 소프트웨어를 사용할 수 있도록 작성되었다. XLMiner는 분류, 예측, 친화성 분석, 그리고 데이터 탐색 및 축소를 위한 통계 및 데 이터마이닝 기법을 포괄적으로 다룬다. 본 소프트웨어는 다양한 데이터마이닝 도구 를 제공한다. 예를 들어 신경망모형, 분류와 회귀나무(CART), -최근접이웃 분류, 단순 베이즈 규칙, 로지스틱 회귀분석, 다중 선형 회귀분석, 그리고 판별분석 등의 모든 예측 모델링 기능을 제공한다. 본 소프트웨어는 데이터를 학습용, 평가용, 검증용 표본으로 자동적으로 분할하고 모형을 새로운 데이터에 적용시킬 수 있다. 또한 시각화 기능(visualization tools)과 데 이터 처리기능뿐만 아니라 연관성규칙, 주성분 분석, -평균군집분석, 계층적 군집 분석 등을 제공하며, 단기간에 학습이 가능하고, 적당한 가격이라는 점과 친숙한 엑 셀 플랫폼에 기반한다는 점 등으로 인해서 경영학전공 학생들을 위한 데이터마이닝 교재에 가장 부합되는 데이터마이닝 분석도구이다(단, 이 책을 구매한 독자는 6개월간 무료사용이 가능함). 설치:setup.exe를 실행하여 대화상자가 열리면, 여러분에게 프로그램 설치과정을 안 내해 줄 것이다. 프로그램 설치가 완료된 후에 윈도우즈 메인 화면에서 왼쪽 하단 시 작메뉴를 클릭하면, 모든 프로그램 메뉴 아래에 XLMiner 메뉴가 나타난다(시작메뉴 모든 프로그램 메뉴 XLMiner 메뉴). 여러분은 XLMiner를 직접 실행하거나 엑셀의 추가설치(add-in)기능에서 XLMiner를 선택하여 등록할 수 있다. 11

XLMiner 소프트웨어 사용하기 이 책에서는 데이터마이닝을 실제로 쉽게 경험할 수 있도록 하기 위해 이해하기 쉬 운 데이터마이닝 도구로서 XLMiner라는 엑셀 추가설치(add-in) 프로그램을 사용한다. 엑셀에 익숙한 사용자들에게는 엑셀 부가기능의 사용이 해당 소프트웨어의 학습시 간을 단축시켜 줄 것이다.

12 제1장 데이터마이닝의 개요 이용:일단 XLMiner가 실행되면, <그림 1.3>에서 보는 바와 같이 엑셀의 상단 메뉴 에 XLMiner라는 메뉴가 추가된다. XLMiner 메뉴 아래의 적절한 메뉴항목을 선택함으 로써 여러분은 엑셀의 워크시트에 열려 있는 데이터 집합을 이용하여 XLMiner의 작 업을 수행할 수 있다. <그림 1.3> XLMiner 화면 12

13 Data Mining for Business Intelligence 데이터마이닝 프로세스 2.1 개 요 제1장에서 데이터마이닝(data mining)의 몇 가지 일반적인 정의를 살펴보았다. 이 장에서는 데이터마이닝으로 불리는 다양한 기법들을 소개한다. 이 책의 중심 내용은 기업에서 비즈니스 인텔리전스(business intelligence) 의 핵심요소가 되고 있는 분류 및 예측문제 등에 대한 예측분석(predictive analytics)에 초점을 두고 있 다. 이 용어들에 대해서는 다음 절에서 설명하기로 한다. 여기서는 별도로 다루고 있지는 않지만 2가지 단순한 데이터베이스 기법인 OLAP(online analytical processing)와 SQL(structured query language)을 데이터마이닝 기법이라고 부르기도 한다. OLAP와 SQL은 본질적으로 기술적인(descriptive) 분 석기법에 속한다. 예를 들어 이 기법들은 매년 2만 달러 이상을 지출하고 본인 소유의 집이 있으며, 특정 시점에서 기한 내에 월별 청구액을 모두 결제하는 비 율이 최소 95% 이상인 지역에 거주하는 모든 신용카드 사용자들을 찾아준다. 따 라서 이 기법들은 별도의 통계적 모델링을 필요로 하지 않는다. 2.2 데이터마이닝의 주요 개념 분류 분류(classification)는 데이터 분석의 가장 기본적인 형태이다. 예를 들면 상대방 -13-

여기서는 별도로 다루고 있지는 않지만 2가지 단순한 데이터베이스 기법인 OLAP(online analytical processing)와 SQL(structured query language)을 데이터마이닝 기법이라고 부르기도 한다. OLAP와 SQL은 본질적으로 기술적인(descriptive) 분 석기법에 속한다.

14 제2장 데이터마이닝 프로세스 으로부터 판매 또는 구매제안을 받은 사람은 이에 반응하거나 반응하지 않는 사 람으로 분류되며, 대출신청자는 제때 또는 늦게 돈을 갚거나 파산을 선언하는 사 람으로 분류된다. 신용카드 거래의 경우에는 정상 또는 부정거래로 분류되고, 네 트워크를 통한 패킷단위의 데이터 전송은 안전하거나 위험한 데이터 전송으로 분류될 수 있다. 그밖에 회사소속 버스 운행이 가능하거나 불가능한 것으로 구분 할 수 있으며, 질병환자는 병이 완치되든지 아니면 여전히 아프거나 사망하는 환 자로 분류된다. 데이터마이닝의 일반적인 임무는 분류결과가 알려져 있지 않거나 미래에 발생 할 경우에 어떤 분류결과가 나타나는지 또는 나타날 것인지를 예측할 목적으로 데이터를 조사하는 것이다. 즉, 분류결과가 알려진 유사 데이터를 사용하여 규칙 들을 찾아낸 다음, 그 규칙들을 분류결과가 알려지지 않은 해당 데이터에 적용하 는 것이다. 예측 예측(prediction)은 집단(예를 들어 구매자 또는 비구매자)변수보다는 수치형(정량) 변수(예를 들어 구매량)의 값을 예측한다는 점을 제외하고는 분류문제와 유사하 다. 물론 분류문제는 집단을 예측하는 것이 목적이지만, 이 책에서 사용되는 예 측 이라는 용어는 연속형 변수의 값을 예측하는 것을 가리킨다[일부 데이터마이닝 관련 문헌에서는 추정(estimation)이라는 용어가 연속형 변수의 값을 예측한다는 의미로 사용되기도 하며, 또한 예측은 연속형과 범주형 데이터 모두를 예측한다는 의미로 사용 되기도 한다]. 연관성규칙 14 대량의 고객거래 데이터베이스는 구매항목들 간의 연관성, 즉 어떤 항목이 어떤 항목과 관련되는지에 대한 분석에 알맞다. 이때 연관성규칙(association rules) 또는 친화성 분석(affinity analysis)은 다양한 방식으로 사용된다. 예를 들어 식료품점에서 는 할인쿠폰을 발행하기 위해서 고객이 구매한 모든 물품들을 조사한 후에 이 정 보를 이용하여 고객의 구매결과들을 연관성규칙으로 표현함으로써 어떤 물품을 할인할지를 결정한다. 넷플릭스(Netflix.com) 또는 아마존(Amazon.com) 등의 온라 인 상점들은 고객에게 새로운 구매를 추천해 주는 추천시스템의 핵심기법으로 이 기법들을 사용하고 있다.

즉, 분류결과가 알려진 유사 데이터를 사용하여 규칙 들을 찾아낸 다음, 그 규칙들을 분류결과가 알려지지 않은 해당 데이터에 적용하 는 것이다. 예측 예측(prediction)은 집단(예를 들어 구매자 또는 비구매자)변수보다는 수치형(정량) 변수(예를 들어 구매량)의 값을 예측한다는 점을 제외하고는 분류문제와 유사하 다.

15 2.2 데이터마이닝의 주요 개념 예측분석 분류, 예측, 그리고 때로는 친화성 분석이 예측분석(predictive analytics)을 수행하 는 분석기법으로 분류된다. 데이터 축소 분별력이 있는 데이터 분석이 되기 위해서는 일반적으로 복잡한 데이터를 단순 한 데이터로 정제시켜야 한다. 예를 들어 데이터 분석가는 수천 개의 제품유형을 소그룹의 집단으로 묶는 시도를 한다. 데이터 축소(data reduction)는 이렇게 대량 의 변수 또는 레코드들을 작은 변수군 또는 레코드 집합으로 병합하는 과정을 말 한다. 데이터 탐색 데이터분석 프로젝트가 미리 정해진 특정 문제를 해결하는 데 매우 세밀한 초 점을 두고 있지 않다면(이런 경우는 데이터마이닝보다는 통계분석의 영역에 속함), 데 이터 프로젝트의 본질적인 부분은 데이터가 어떤 메시지를 담고 있는지를 알아 내기 위해서 탐정가의 범죄현장 조사처럼 충분히 이를 검토하고 조사하는 것이 다. 이때 데이터를 완전하게 이해하기 위해서는 세부적인 데이터 특성을 유지하 면서 데이터 전체의 특성을 파악할 수 있도록 데이터의 척도 또는 차원을 축소시 킬 필요가 있다. 즉, 비슷한 정보를 내포하고 있는 서로 유사한 변수들은 이를 통합하여 하나의 단일 변수로 병합될 수 있다. 이와 비슷하게 레코드 관점에서는 서로 비슷한 레코드들을 하나의 레코드 그룹으로 통합시킬 수 있다. 데이터 시각화 데이터가 어떤 정보를 갖고 있는지를 보기 위한 데이터 탐색의 또다른 기법으 로는 그래프 분석이 있다. 이 기법은 변수 간의 관계를 보는 것뿐만 아니라 각각 의 변수를 개별적으로 조사한다. 수치형 변수에 대해서는 그 변수값의 분포를 파 악하고 극단치(outliers)를 찾아내며, 분석업무와 관련된 다른 정보를 발견하기 위 해 히스토그램(histogram)과 상자그림(boxplot)을 이용한다. 이와 유사하게 범주형 변수에 대해서는 차트(charts)와 원형 차트(pie charts)를 이용한다. 또한 변수 간의 가능한 관계들, 관계유형, 그리고 극단치를 찾기 위해 한 쌍의 수치형 변수에 대 한 산점도(scatterplots)를 조사할 수 있다. 15

데이터 탐색 데이터분석 프로젝트가 미리 정해진 특정 문제를 해결하는 데 매우 세밀한 초 점을 두고 있지 않다면(이런 경우는 데이터마이닝보다는 통계분석의 영역에 속함), 데 이터 프로젝트의 본질적인 부분은 데이터가 어떤 메시지를 담고 있는지를 알아 내기 위해서 탐정가의 범죄현장 조사처럼 충분히 이를 검토하고 조사하는 것이 다.

16 제2장 데이터마이닝 프로세스 2.3 지도학습과 자율학습 데이터마이닝 기법에서 지도학습과 자율학습 간에는 서로 기본적인 차이가 있 다. 지도학습 알고리즘(supervised learning algorithms)은 분류와 예측을 위해 사용되 는 알고리즘이다. 이를 위해서는 이용가능한 데이터가 있어야 하고, 주요 출력변 수의 값(예를 들어 구매 또는 비구매)이 알려져 있어야 한다. 분류 또는 예측 알고 리즘은 학습용 데이터(training data)를 이용하여 예측변수와 출력변수 간의 관계를 학습, 또는 훈련 한다. 일단 알고리즘이 학습용 데이터로부터 학습된 후에는 다 른 파라미터값을 갖는 모형과 비교하여 얼마나 좋은 성과를 나타내는지를 살펴 보기 위해 출력변수를 가진 또다른 데이터 표본(평가용 데이터)에 이 알고리즘을 적용한다. 한편, 여러 가지 다른 모형들을 적용해 본 후, 최종 모형이 얼마나 좋 은 성과를 가질지를 예측하기 위해서는 최종 선택모형에 사용될 출력변수를 포 함한 제3의 표본(검증용 데이터)을 준비해 둘 필요가 있다. 그 다음에는 출력값이 알려지지 않은 새로운 사례에 대해서 모형을 이용하여 출력값을 분류 또는 예측 한다. 단순 선형 회귀분석은 지도학습의 대표적인 예이다. 변수는 미리 알려 진 출력변수이고 변수는 예측변수라고 할 때, 회귀선은 실제 값과 회귀선에 의해 예측된 값 사이의 편차제곱의 합이 최소화되도록 추정된다. 그리고 그 다음 단계에서 회귀선은 이제 값이 알려지지 않은 새로운 값에 대해 값을 예측하기 위해 사용된다. 자율학습 알고리즘(unsupervised learning algorithms)은 예측 또는 분류를 위해 필 요한 출력변수가 없는 경우에 사용되는 알고리즘이다. 따라서 출력변수가 알려 져 있는 사례들과 같은 학습과정은 존재하지 않는다. 자율학습기법의 예로는 연 관성규칙, 데이터 축소, 군집분석 등이 있다. 2.4 데이터마이닝의 수행단계 16 이 책은 데이터마이닝 알고리즘을 이해하고 사용하는 것에 초점을 둔다(아래의 4~7단계 참조). 그러나 데이터 분석에서 가장 중대한 오류 중의 하나는 문제에 대한 잘못된 이해에 기인하는 경우가 많으며, 따라서 알고리즘을 상세하게 적용 하기에 앞서 문제에 대한 이해력을 향상시켜야 한다. 일반적인 데이터마이닝의 수행단계를 살펴보면 다음과 같다.

일단 알고리즘이 학습용 데이터로부터 학습된 후에는 다 른 파라미터값을 갖는 모형과 비교하여 얼마나 좋은 성과를 나타내는지를 살펴 보기 위해 출력변수를 가진 또다른 데이터 표본(평가용 데이터)에 이 알고리즘을 적용한다.

17 2.4 데이터마이닝의 수행단계 1. (해답을 찾기 위해 수행하는 일회성 프로젝트라고 한다면) 데이터마이닝 프로젝트의 목적을 확인한다. 또는 (그 프로젝트가 연속적으로 수행되는 것이라면) 데이터마이 닝 프로젝트의 적용가능성을 확인한다. 2. 분석에서 사용될 데이터를 획득한다. 이 단계는 분석에 사용될 레코드를 파악하기 위해 대량의 데이터베이스에 서 무작위로 표본을 추출하는 것을 말한다. 이는 또한 상이한 데이터베이스에 서 데이터를 합치는 것을 의미하기도 한다. 여기서 데이터베이스는 내부데이 터(예를 들어 고객의 과거구매 데이터)이거나 외부데이터(신용등급 데이터)일 수 있다. 데이터마이닝은 매우 큰 데이터베이스를 다루며, 대개의 경우 수천, 수 만 개의 레코드를 필요로 한다. 3. 데이터를 탐색, 정제, 그리고 전처리한다. 이 단계는 데이터가 다음과 같이 타당한 조건에 있는지를 검증하는 것이다. 결측치를 어떻게 처리해야 하는가? 각각의 변수에 대해 우리가 기대하는 값 이 주어졌다고 할 때 데이터값이 합리적인 범위 내에 있는가? 극단치가 명백 히 존재하는가? 이러한 데이터에 대해서는 그래프를 이용하여 검토한다. 예 를 들어 각 변수들과 다른 모든 변수들 간의 관계를 보여주는 산점도의 행렬 표와 같은 그래프를 이용한다. 또한 변수에 대한 정의, 측정단위, 측정기간 등에 대해 일관성을 확인할 필요가 있다. 4. 필요한 경우 데이터를 축소하고 지도학습의 경우 데이터를 학습용, 평가용, 검 증용 데이터 집합으로 분할한다. 이 단계는 불필요한 변수를 제거하고, 변수를 변환하며(예를 들어 지출비용을 100달러를 초과하는 비용과 100달러 이하인 비용으로 변환하기), 새로운 변수를 생 성시키는(예를 들어 여러 제품 중 최소한 한 개 이상의 제품을 구입했는지를 알려주 는 변수) 등의 작업을 포함한다. 각 변수가 무엇을 의미하는지와 모형에서 변 수를 포함하는 것이 타당한지 여부를 확인해야 한다. 5. 데이터마이닝의 업무(분류, 예측, 군집 등)를 결정한다. 이 단계는 제1단계에서의 일반적인 질문을 좀더 구체적인 통계적 질문으로 변환하는 것을 의미한다. 즉, 데이터마이닝 프로젝트의 목적에 맞는 분석유형 을 선택하는 단계이다. 6. 사용할 데이터마이닝 기법들(회귀분석, 신경망모형, 계층적 군집분석 등)을 선택한다. 17

데이터마이닝은 매우 큰 데이터베이스를 다루며, 대개의 경우 수천, 수 만 개의 레코드를 필요로 한다. 3. 데이터를 탐색, 정제, 그리고 전처리한다. 이 단계는 데이터가 다음과 같이 타당한 조건에 있는지를 검증하는 것이다. 결측치를 어떻게 처리해야 하는가? 각각의 변수에 대해 우리가 기대하는 값 이 주어졌다고 할 때 데이터값이 합리적인 범위 내에 있는가?

18 제2장 데이터마이닝 프로세스 7. 알고리즘을 적용하여 데이터마이닝 작업을 수행한다. 이 단계는 일반적으로 반복적인 과정으로서, 하나의 알고리즘 내에서 설명 변수 또는 알고리즘의 세부 선택조건 등을 달리하여 적용하는 등 다양한 변 인들을 적용해 본다. 이러한 조건들이 적절한 경우 평가용 데이터를 이용한 알고리즘의 성과로부터 피드백을 받아서 적합하게 개선되는 변인들을 사용하 도록 한다. 18 각 알고리즘은 또한 성과를 조율하기 위해 평가용 데이터를 이용하는데, 이러한 평가용 데이터는 모형을 적합화하는 과정의 일부분에 속한다. 따라서 평가용 데이터를 이용한 모형의 예측오차는 최종적으로 채택된 모형을 새로운 데이터에 적용할 때에 발생하는 오차보다 과소평가될 가능성이 있다. 그 이유는 평가용 데이터가 모형의 파라미터를 추 정하는 데는 직접적으로 사용되지 않으면서, 모형의 학습종료시점을 정하는 데는 직접 적으로 사용되기 때문이다. 즉, 학습용 데이터를 이용하여 모형의 파라미터를 추정한 후, 그 추정된 모형에 평가용 데이터를 적용하여 모형의 성과를 평가하며, 평가용 데이 터에 의한 모형의 예측오차가 최소가 되는 시점에서 학습용 데이터를 이용한 모형의 학 습이 종료된다. 이렇게 평가용 데이터를 사용하는 주된 목적은 모형의 과적합화 문제를 해결해 주기 위해서이다. 따라서 이 경우의 평가용 데이터는 넓은 의미로는 학습용 데 이터에 해당된다. 예를 들어 회귀분석, 판별분석, 로지스틱 회귀분석 등의 통계모형에서 는 모형추정 결과가 별다른 시행착오 없이 최적의 모형을 추정할 수 있기 때문에 별도 의 평가용 데이터가 필요 없다. 반면에 신경망모형, 분류와 회귀나무(CART) 등의 데이 터마이닝은 모형구축시 모형의 과적합화 문제 때문에 최적의 모형을 찾기가 쉽지 않다. 이때 평가용 데이터를 이용할 경우, 가장 적합한 모형을 추정할 수 있다. 한편, 이렇게 추정된 모형이 모형의 형태에 따라서 여러 개가 존재하는 경우, 이 모형들 간의 최종적 인 성과를 비교하기 위해서는 별도의 검증용 데이터 집합이 필요하게 된다. 즉, 검증용 데이터를 이용한 모형의 성과가 가장 높은 모형이 최종적으로 가장 성과가 높은 모형이 라고 판단한다. 그러므로 모형구축을 위한 데이터 집합은 일반적으로 학습용 데이터와 평가용 데이터, 검증용 데이터 등 3개의 데이터 집합으로 구성된다. 여기서 학습용 데 이터와 평가용 데이터는 2개의 데이터 집합(학습용 데이터와 검증용 데이터)만을 사용 하는 통계모형의 학습용 데이터에 대응된다. 따라서 이 책에서 제시된, 회귀분석, 판별 분석, 로지스틱 회귀분석 등의 통계모형에서 표기되고 있는 평가용 데이터라는 용어는 실제로는 검증용 데이터의 역할과 의미로서 사용되었음을 밝혀둔다. 특히 통계모형과 신경망모형, 분류와 회귀나무 등의 데이터마이닝 모형의 성과를 서로 비교하기 위해서 는 통계모형의 평가용 데이터와 데이터마이닝 모형의 검증용 데이터가 서로 일치해야 하며, 결론적으로 이 데이터의 결과를 서로 비교해야 한다.

따라서 평가용 데이터를 이용한 모형의 예측오차는 최종적으로 채택된 모형을 새로운 데이터에 적용할 때에 발생하는 오차보다 과소평가될 가능성이 있다. 그 이유는 평가용 데이터가 모형의 파라미터를 추 정하는 데는 직접적으로 사용되지 않으면서, 모형의 학습종료시점을 정하는 데는 직접 적으로 사용되기 때문이다.

19 2.5 데이터마이닝의 예비단계 8. 알고리즘의 결과를 해석한다. 이 단계는 적용하기에 가장 좋은 알고리즘을 선택하고, 가능한 경우 모형이 얼마나 좋은 성과를 갖는지에 대한 아이디어를 얻기 위해 검증용 데이터를 이 용하여 최종 선택한 알고리즘을 평가하는 과정을 포함한다. 9. 모형을 활용한다. 이 단계는 모형을 운영시스템과 통합시키고 이를 의사결정하고 실행하는 데 실제 레코드를 적용하여 운영하는 것을 말한다. 예를 들어 모형은 발생가 능한 고객의 구매목록에 적용하여 예측된 구매액이 10달러보다 큰 경우 우편 발송 대상고객에 포함시키는 행위를 실행할 수 있다. 위에서 언급한 데이터마이닝의 수행단계들은 데이터마이닝 및 비즈니스 인텔 리전스 전문업체인 SAS가 개발한 방법론인 SEMMA의 각 단계와 유사하다. 표본추출(sample):데이터 집합에서 표본을 추출하고, 표본을 학습용, 평가 용, 검증용 데이터 집합으로 분할한다. 탐색(explore):데이터 집합을 통계 및 그래프를 활용하여 조사한다. 수정(modify):변수를 변환하고 결측치를 대체한다. 모형화(model):예측모형을 적합시킨다(예를 들어, 회귀나무, 협업 필터링). 평가(assess):평가용 데이터 집합을 이용하여 모형들을 비교한다. SAS와 같은 데이터마이닝 업체인 SPSS의 Clementine은 이와 유사한 방법론인 CRISP-DM(CRoss-Industry Standard Process for Data Mining)을 갖고 있다. 2.5 데이터마이닝의 예비단계 데이터 집합의 구성 데이터 집합은 일반적으로 변수를 열기준으로, 레코드를 행기준으로 표기한다. 예를 들어 2.6절의 예제(보스톤 주택 데이터)에서 볼 수 있듯이 수많은 인구조사 표준지역에 대해 14개 변수에 대한 값들이 기록되고 있다. 작업시트의 각 행은 하나의 인구조사 표준지역을 나타내는데, 첫 번째 지역은 자치시별 1인당 범죄 율(변수이름: CRIM)이 이고, 25,000평방피트를 초과하는 거주지역의 비율 (변수이름: ZN)이 18%인 것을 보여준다. 지도학습의 경우 이 변수들 중의 하나는 19

위에서 언급한 데이터마이닝의 수행단계들은 데이터마이닝 및 비즈니스 인텔 리전스 전문업체인 SAS가 개발한 방법론인 SEMMA의 각 단계와 유사하다. 표본추출(sample):데이터 집합에서 표본을 추출하고, 표본을 학습용, 평가 용, 검증용 데이터 집합으로 분할한다. 탐색(explore):데이터 집합을 통계 및 그래프를 활용하여 조사한다.

20 제2장 데이터마이닝 프로세스 출력변수가 되며, 일반적으로 목록의 처음 또는 마지막 열에 위치한다. 이 예제 에서는 출력변수로서 주택가격(변수이름: MEDV)이 마지막 열에 위치하고 있다. 데이터베이스로부터 표본추출하기 대개의 경우 데이터마이닝 작업을 수행할 때 이용가능한 모든 레코드를 사용하 기보다는 작은 크기의 레코드가 사용된다. 레코드와 변수의 크기(개수), 소프트웨 어, 계산능력과 용량에 따라서 처리할 수 있는 데이터의 한계범위는 데이터마이 닝 알고리즘에 따라 다르다. 이런 한계범위에 속한다 하더라도 많은 알고리즘은 좀더 작은 크기의 데이터 집합을 이용하여 좀더 빠르게 실행될 수 있다. 다음에서 보는 바와 같이 통계학적 관점에서는 대개 수백 개의 작은 레코드로 도 정확한 모형들을 구축할 수 있다. 따라서 일반적인 모형구축에서는 레코드의 일부분을 표본추출한다. 희소 사건의 과대표본추출 관심을 갖는 사건(예를 들어 메일링에 반응하여 제품을 구매한 고객데이터)이 희소 할 경우, 이 데이터를 단순히 표본추출하는 것은 그 사건(예를 들어 구매정보)의 수가 다른 집단에 비해서 상대적으로 더 적어지게 되기 때문에 해당 사건을 파악 하기가 더욱 어려워진다. 이 경우에 비구매자에 대한 데이터로 대부분 채워지게 되고, 구매자와 비구매자를 판별해 주는 모형구축을 위해 필요한 데이터의 구성 비가 한쪽으로 편중되는 문제가 발생하게 된다. 따라서 이런 상황에서는 표본이 추가적으로 구매자의 레코드를 충분히 가질 수 있도록 비구매자들과 비교해서 상대적으로 구매자들에게 더 많은 비중을 부여하는 표본추출과정이 필요하다. 이러한 문제는 주로 이진분류(binary classification)문제(1: 반응, 0: 비반응)에서 나타 나는데, 그 이유는 반응변수가 거의 대부분 0의 값을 갖기 때문이다. 이와 같은 원칙은 예측문제에도 확장될 수 있지만, 대부분의 반응변수값이 0인 예측문제에 서 발생되며, 이러한 문제의 경우 과연 반응값과 비반응값을 판별할 수 있는지에 대한 의문이 높아지게 된다. 여기서는 편의상 판매촉진을 수행한 후 이에 반응하 는 고객과 반응하지 않는 고객을 언급하고 있지만, 실제로는 0/1의 이진값으로 표기한다. 20 모형을 학습시키기 위해 필요한 반응자의 수 또는 성공 사례의 수를 확보하는 것은 전체 모형학습의 일부 과정에 불과하다. 이보다 더 중요한 요인은 오분류 비용f

다음에서 보는 바와 같이 통계학적 관점에서는 대개 수백 개의 작은 레코드로 도 정확한 모형들을 구축할 수 있다. 따라서 일반적인 모형구축에서는 레코드의 일부분을 표본추출한다.

21 2.5 데이터마이닝의 예비단계 이다. 반응률이 지극히 낮을 때에는 언제나 비반응자보다는 반응자를 파악하는 것에 일반적으로 더 많은 관심을 기울인다. 직접반응광고(전통적인 메일이나 인터 넷에 의한 광고)에서 광고 100건당 1~2명의 반응자가 나타났을 수 있다. 반응고객 을 찾아냄으로써 얻는 가치는 이를 위해 고객에게 지출한 비용보다 훨씬 더 중요 한 의미를 가진다. 부정거래 또는 채무불이행할 것 같은 고객을 판별해야 하는 경 우, 부정거래 또는 채무불이행 고객을 발견하지 못해 발생하는 비용이 합법적인 거래 또는 고객을 좀더 상세하게 심사하는 데 드는 비용을 초과할 가능성이 높다. 반응고객을 찾아내지 못해 발생하는 비용이 반응고객을 비반응고객으로 오분 류하는 비용과 거의 같다면, 모든 고객들을 비반응고객으로 인식하는 모형이 최선의 모형이 될 것이다(또는 많은 비반응고객들을 식별할 필요 없이 소수의 반응고 객들을 골라내는 것이 쉽다고 한다면, 모든 고객을 비반응고객으로 인식하는 모형이 최 선의 모형이 될 것이다). 이와 같은 경우에는 반응고객을 비반응고객으로 오분류하 는 비용이 매우 낮으며(즉, 반응고객의 비율과 동일함), 모형을 구축할 필요가 없어 진다. 보다 일반적으로는 가치가 있는 반응고객들을 더 많이 찾아내기 위해서 분석 모형의 알고리즘은 상대적으로 더 많이 비반응고객을 반응고객으로 분류해야 한다. 이를 위해서 비반응고객을 반응고객으로 분류하였을 때의 오분류비용은 반응고객을 비반응고객으로 분류하였을 때의 오분류비용보다 상대적으로 더 낮 은 값을 가져야 한다. 따라서 비대칭적인 오분류비용을 모형에 반영하여 모형을 학습시키는 것이 필요하다. 이와 관련된 주제는 제4장에서 좀더 자세히 논의하 기로 한다. 데이터의 전처리와 정제과정 1) 변수의 유형 변수를 분류하는 방법에는 여러 가지가 있다. 여기에는 수치형 변수 또는 텍스 트형(또는 문자형) 변수가 있다. 이 변수들은 또한 연속형(대개 주어진 범위 내의 실 수로 간주함), 정수형(오직 정수값을 취함), 그리고 범주형(일정 범위의 값을 하나의 범주로 가정함)으로 나누어진다. 여기서 범주형 변수는 수치형(1,2,3) 또는 텍스트 형(현금결제, 비현금결제, 파산)으로 구분되며, 또한 북아메리카, 유럽, 그리고 아 시아 등의 순위정보를 갖지 않는 범주형(명목형 변수)과 높은 값, 낮은 값, 0의 값 등으로 순위정보를 갖는 범주형(순위형 변수)으로 나누어진다. 21

22 제2장 데이터마이닝 프로세스 연속형 변수들은 대부분 데이터마이닝 과정에서 처리된다. XLMiner에서는 범 주형 변수만을 처리하는 단순 베이즈 분류기를 제외하면 모든 알고리즘에서 연 속형 변수들이 사용된다. 기계학습에 기초한 데이터마이닝은 범주형 변수를 갖 는 문제를 다루는 데서 출발하였고, 통계학은 기본적으로 연속형 변수에 대한 분 석에 기초한다. 경우에 따라서는 연속형 변수를 범주형 변수로 변환시키는 작업 이 필요한 때가 있다. 이러한 예는 대부분 수치형 변수를 하나의 의사결정변수로 변환시켜야 하는 경우에 나타난다. 예를 들어 신용점수가 일정 수준을 초과할 경 우 신용대출을 승인해 주거나, 의료진단 결과가 일정 범위를 초과할 경우 치료가 필요하다는 것을 의미할 때 범주형 변수로의 변환작업이 필요하다. XLMiner는 변수유형을 변환시키는 기능을 이용하여 이러한 처리를 수행할 수 있다. 2) 범주형 변수의 처리 범주형 변수는 대부분의 데이터마이닝 과정에서 다루어지지만 대개의 경우 특 별한 처리가 요구된다. 범주형 변수가 순위정보를 갖고 있다면(나이 범주, 신용 정 도 등), 마치 연속형 변수인 것처럼 변수를 있는 그대로 사용한다. 범주의 수가 작을수록, 그리고 값의 증가분이 균등하지 않을수록 절차는 더욱 복잡한 문제가 되겠지만 데이터마이닝에서는 대개 잘 처리된다. 그러나 범주형 변수는 종종 있는 그대로 사용될 수 없을 때도 있다. 이 경우에 범주형 변수는 이진분류의 더미변수로 분할된다. 예를 들어 학생, 실업자, 임 금근로자, 또는 퇴직자 등의 값을 가지는 단일 변수는 4개의 분할된 변수로 나 누어진다. 학생 - 예/아니오 실업자 - 예/아니오 임금근로자 - 예/아니오 퇴직자 - 예/아니오 22 이 변수들 중 오직 3개의 분할된 변수만이 사용되어야 함을 주의해야 한다. 즉 만약 3개의 변수값이 알려져 있다면, 나머지 네 번째 변수는 자동적으로 또한 알 려지게 된다. 예를 들어 이들 4개의 변수값들이 유일한 값들이라는 조건하에 특 정인이 학생이 아니고, 실업자도 아니고, 임금근로자도 아니라고 한다면 그는 퇴 직자임에 틀림없게 된다. 몇몇 데이터마이닝 과정(예를 들어 회귀분석, 로지스틱 회 귀분석)에서는 이들 4개의 변수들을 모두 사용해서는 안 된다. 그 이유는 여분의

23 2.5 데이터마이닝의 예비단계 정보가 알고리즘의 성과를 떨어뜨리기 때문이다. XLMiner는 범주형 변수들을 이 진분류의 더미변수들로 변환시키는 도구를 포함하고 있다. 3) 변수선정 모형의 변수선정에 대해 말하자면, 변수가 많을수록 모형이 꼭 더 좋은 것은 아니라는 점이다. 다른 조건이 동일할 때 모형에 바람직한 특징은 간명성 (parsimony) 또는 간결성(compactness)이다. 한 가지 이유는 변수를 많이 포함할수 록 변수들 간의 관계를 평가하기 위해 필요한 레코드의 수가 더 크게 증가한다는 것이다. 단일 변수 를 이용하여 와 의 관계에 대한 대략적인 개념을 보여 주기 위해서는 15개의 레코드로도 충분하다. 만약 와 15개 변수들,,, 간의 관계에 대한 정보를 알고 싶은 경우 15개의 레코드로는 불충분할 것이 다(여기서 각 변수별 와의 추정된 관계는 오직 하나의 레코드의 정보가치를 평균값으 로 사용하게 되며, 이로 인해서 추정치는 매우 신뢰할 수 없게 된다). 4) 과적합화 모형에 많은 변수를 포함시킬수록 데이터를 과적합화(overfitting)시킬 위험은 더욱 커지게 된다. 과적합화는 다음과 같이 설명된다. <표 2.1>은 가설검정에 사용된 특정 기간 동안의 광고비 지출액과 그 이후의 특정 기간 동안의 매출액의 데이터를 보여준다(이 데이터의 산점도는 <그림 2.1>에 나타나 있음). 이들 데이터의 모든 값들을 완벽하게 설명하고 잔차(오차)가 없는, 평활화되어 있지만 복잡한 형태를 갖는 함수를 이용하면 이 값들을 연결시킬 수 있다. 이러한 함수곡선은 <그림 2.2>에서 볼 수 있다. 그러나 이 곡선은 광고비 지출액을 이용하여 미래의 매출액을 예측하는 데 정확하거나 유용하지 않을 가 <표 2.1> 광고비 매출액

24 제2장 데이터마이닝 프로세스 <그림 2.1> 광고비와 매출액 데이터의 - 산점도 <그림 2.2> 평활화된 - 산점도 능성이 높다. 예를 들어, 400달러에서 500달러까지 광고비 지출액이 증가하면 실 제 매출액은 감소하고 있는데, 이러한 사실은 받아들이기 어렵다. 24

25 2.5 데이터마이닝의 예비단계 모형을 구축하는 기본적인 목적은 변수들 간의 관계를 규명하는 것이며, 이를 통해 미래의 예측(독립)변수들을 이용하여 출력(종속)변수들을 예측하는 업무를 훌륭히 수행하는 데 있다. 물론 보유한 데이터를 잘 설명해 주는 모형을 원할 수 있지만 이 책에서는 미래의 데이터를 이용한 성과에 더 많은 관심을 둔다. 위의 예에서 광고비를 이용하여 매출액을 예측하기 위해서는 단순한 직선이 복 잡한 함수보다도 훨씬 더 좋은 예측력을 보여줄 수 있다. 그러나 이 예제에서는 오히려 데이터를 너무 완벽하게 적합시키는 복잡한 함수를 개발하였기 때문에 예측값이 실제값의 범위를 벗어나게 되었다. 이러한 결과는 단지 우연변동에 지 나지 않는 사소한 변동을 데이터 변동의 일부로 설명한 것이며, 데이터 내의 잡 음이 신호인 것처럼 잘못 분류한 것이다. 이와 유사하게 모형에 예측변수를 추가하여 가까운 장래의 데이터의 성과를 정 교하게 나타낼 수 있다. 100명의 개인 중에서 절반은 자선기금에 기부한 데이터 베이스를 고려해 보자. 소득, 가족크기, 우편번호 등에 대한 정보는 누가 기부자 인지를 예측하는 데 올바른 역할을 할 수 있다. 만약 예측변수를 계속 추가한다 면 모형의 성과를 향상시킬 수 있고 오분류 오차를 무시할 수 있는 수준으로 줄 일 수 있다. 그러나 이런 낮은 오차율은 잘못 이해될 가능성이 존재한다. 왜냐하 면 이 오차율은 그럴듯한 허구의 설명력 을 갖기 때문이다. 예를 들어 변수 중의 하나를 키 라고 가정하자. 키가 큰 사람이 다소간 자선사 업에 기부할 것이라는 가정은 이론적으로 근거가 없지만, 표본데이터에 몇몇 키 가 큰 사람이 존재하고 이들이 단지 우연히 자선사업에 큰 기부를 하게 된다면 이를 반영한 모형은 키에 대한 항목을 설명변수로 포함시킬 것이다. 즉, 키가 큰 사람일수록 더 많은 기부를 할 것이라는 관계를 포함시킬 것이다. 물론 이 모형 이 데이터를 추가하여 적용될 때 이 변수는 좋은 예측변수로서 판명되지는 않을 것이다. 만약 데이터 집합이 예측변수의 수보다 훨씬 크지 않다면 이와 같은 허구의 관 계가 모형에 반영될 가능성이 높다. 자선기금의 예에서 살펴보면, 작은 크기의 표본데이터에서 키가 큰 사람이 소수 포함된 경우 이들의 기부금 액수에 상관 없 이 모형의 알고리즘은 자선기금의 수준을 키가 큰 사람을 기준으로 판단하려고 할 것이다. 만약 데이터 집합이 예측변수의 수에 비해서 매우 크다면 이럴 가능 성은 상대적으로 낮다. 이러한 경우에 각각의 예측변수는 많은 수의 사례에 대해 서 출력결과를 예측하는 데 도움을 주어야 하며, 따라서 그와 같은 관계는 단지 25

26 제2장 데이터마이닝 프로세스 몇몇 사례에 훨씬 덜 의존하게 된다. 즉, 그러한 관계는 뜻밖의 우연한 결과에 불과할 것이다. 다소 놀랍지만 고차원의 곡선이 타당한 모형이라 하더라도 만약 모형을 적합시 키는 데이터 집합이 충분하지 않다면, 잡음을 적합시킬 가능성이 없는 저차원의 함수를 사용하는 것이 더 좋은 성과를 나타낼 것이다. 과적합화는 또한 수많은 모형을 적용하여 그 중에서 가장 좋은 성과를 나타내는 모형을 선정하는 경우에 발생한다. 5) 얼마나 많은 변수들과 데이터가 사용되어야 하는가? 통계학에서는 데이터 집합과 모형의 신뢰성을 달성하기 위해 얼마나 많은 레코 드가 필요한지 이를 추정할 수 있는 절차를 제공한다. 데이터마이닝의 경우에는 이에 대한 요구사항이 비교적 상세하지 않으므로 대개의 경우 경험에 의한 법칙 (rules of thumb)에 의존해서 데이터마이닝 작업을 수행한다. 한 가지 유용한 경험 에 의한 법칙은 모든 예측변수가 각각 10개의 레코드를 가져야 한다는 것이다. 분류모형절차에 대해 Delmaster and Hancock(2001, p. 68)이 사용한 또다른 규칙은 최소한 6 개의 레코드를 가져야 한다는 것으로서, 은 출력변수의 집단의 수이고 는 변수의 개수를 의미한다. 반면에 데이터가 매우 많은 경우에도 모형에 포함되는 변수들에 대해 면밀한 주의를 기울여야 한다. 변수가 나타내는 지식은 좋은 모형을 구축하고 오차를 피 하는 데 도움을 줄 수 있기 때문에 해당 분야의 전문지식(즉, 비즈니스 프로세스와 데이터에 대한 지식)을 가진 사람에게 이에 대한 조언을 구해야 한다. 예를 들어 배송비용은 총비용의 좋은 예측변수가 될 수 있지만 그것 자체가 유 용한 지표는 아니다. 이 변수는 미래의 가망고객에게 사용될 수 있는, 지출이 많 은 고객과 지출이 적은 고객을 구별해 주는 정보를 제공하지 않을 것이다. 왜냐 하면 아직 어떤 물건도 구매하지 않은 가망고객에 대해서 배송에 대한 지출액 정 보를 얻을 수 없기 때문이다. 일반적으로 간결성(compactness) 또는 간명성(parsimony)은 모형에서 바람직한 특성이다. - 도표의 행렬표는 변수선정에 유용하게 사용될 수 있다. 이 행 렬표에서는 모든 변수들의 조합을 - 도표에 의해 한눈에 볼 수 있다. 하나의 직선은 한 변수가 정확히 다른 변수와 상관되어 있다는 것을 가리킨다. 일반적으 26

27 2.5 데이터마이닝의 예비단계 로 모형에서 상관된 변수들 중에 하나의 변수만을 포함시킨다. 이러한 개념은 모 형에서 관련 없고 중복된 변수들을 제거하는 것을 의미한다. 6) 극단치 보다 많은 데이터를 처리할수록 측정오차, 데이터 입력오류 등으로 인해 잘못 된 값이 발생할 가능성은 더욱 커진다. 만약 잘못된 값이 나머지 데이터와 같은 범위 내에 있다면, 그 값은 손해를 끼치지 않을 수 있다. 만약 잘못된 값이 나머 지 데이터 범위를 훨씬 벗어났다면(예를 들어 소수점이 잘못 표시될 경우), 사용하 려고 하는 데이터마이닝 절차 중의 일부에 상당한 영향을 미칠 수 있다. 대부분의 데이터로부터 멀리 떨어진 값들은 극단치(outliers)로 불린다. 여기서 멀리 떨어진(far away) 이라는 용어는 상당히 모호하다. 왜냐하면 극단치로 불리 어질지 또는 아닐지는 기본적으로 자유재량의 의사결정이기 때문이다. 분석가들 은 평균으로부터 표준편차의 3배보다 더 멀리 떨어져 있는 값은 극단치에 해당 한다. 와 같은 경험에 의한 법칙을 사용한다. 그러나 어떠한 통계법칙도 그러한 극단치가 오차의 결과인지 여부를 말해 주지는 않는다. 통계적 시각에서 극단치 는 반드시 무효한 데이터값이 아니라 단지 멀리 떨어진 데이터값이다. 극단치를 확인하는 목적은 좀더 많은 검토를 필요로 하는 데이터값들에 대해 주의를 기울이는 데 있다. 소수점이 잘못 표기되었을 때 극단치로 보이는 경우처 럼 데이터를 주의 깊게 살펴볼 필요가 있다. 환자의 체온이 화씨 178도(섭씨 45도: 섭씨 44도 이상이면 사망가능성이 높음)라고 한다면, 어떤 이유가 없더라도 그 값 이 잘못됐다는 것을 알 수 있을 것이다. 그러나 그 값이 가능한 영역 내에 존재 한다고 결론을 내리고 그 값을 그대로 받아들일 수도 있다. 이러한 모든 예들은 전문가의 지식(domain knowledge)을 갖고 있는 사람에 의해서 가장 잘 판단될 수 있다. 여기서 전문가의 지식은 우편광고인쇄물, 주택담보부 대출 등의 특정 응용 분야의 지식으로서, 통계 또는 데이터마이닝 절차에 대한 기술적 지식과는 상반 되는 개념이다. 통계적 절차는 해당 레코드가 검토가 필요한지를 확인하는 것 이 상의 역할은 할 수 없다. 수작업에 의한 검토가 가능하다면, 몇몇 극단치들을 직접 확인하고 수정할 수 있다. 어떤 경우라도 극단치를 갖는 레코드의 수가 매우 적다면 그 레코드들은 결측치로 처리될 수 있다. 그렇다면, 극단치를 어떻게 조사해야 하는가? 엑셀을 이용한 한 가지 방법은 첫 번째 분석대상변수의 열을 기준으로 정렬한 후에 해당 27

28 제2장 데이터마이닝 프로세스 열에서 가장 큰 또는 가장 작은 값들에 대해 검토한 후, 다른 열에 대해서도 반 복적으로 이러한 작업을 수행하는 것이다. 또다른 방법은 엑셀의 min과 max 함 수를 사용하여 각 열의 최소값 및 최대값을 조사하는 것이다. 각 레코드를 하나 의 단위로 고려하는 좀더 자동화된 접근방법으로는 다른 군집들과 멀리 떨어져 있는 하나 또는 소수의 레코드로 이루어진 군집들을 확인하는 군집분석이 사용 될 수 있다. 이때 군집분석의 결과에 나타난 레코드들에 대해 극단치 여부를 조 사할 수 있을 것이다. 7) 결측치 일반적으로 일부 레코드들은 결측치(missing values)를 포함한다. 결측치를 갖는 레코드의 수가 적다면 그 레코드는 제외될 수 있다. 그러나 변수의 수가 많은 경 우 결측치의 비율이 적다 하더라도 많은 레코드에 영향을 미칠 수 있다. 단지 30 개의 변수들에 대해서 만약 그 변수값 중 5%가 결측치라고 한다면(그 결측치는 사 례와 변수들 사이에서 무작위적이며 독립적으로 퍼져 있다면), 거의 80%의 레코드들 은 분석대상에서 제외되어야 할 것이다(주어진 레코드에서 결측치를 갖지 않을 가능 성은 = 0.215). 결측치를 갖는 레코드를 처리하는 하나의 대안은 변수의 결측치를 다른 레코드 의 값들을 토대로 계산된 대체값으로 교체하는 것이다. 예를 들어 30개의 변수들 중 가구소득이 특정 레코드에서 결측되어 있다면, 전체 레코드의 평균소득금액 으로 대체될 수 있다. 물론 이렇게 한다고 해서 가구소득이 성과변수에 얼마나 영향을 미치는지에 대한 정보가 추가되는 것은 아니다. 대체값을 교체하는 것은 단지 분석을 계속 수행하게 하는 역할을 하며, 나머지 29개 변수의 해당 레코드 에 포함된 정보를 사용할 수 있게 한다. 이러한 기법을 사용하면 데이터 집합의 변동성은 상대적으로 낮게 평가된다는 점에 유의해야 한다. 그러나 평가용 데이 터를 이용하여 데이터마이닝 기법의 변동성과 성과를 평가할 수 있으므로 이러 한 기법이 심각한 문제를 일으킨다고 보기는 어렵다. 28 일부 데이터 집합에서는 매우 많은 결측치를 포함하는 변수들이 존재한다. 다 시 말해서 다수의 레코드에서 측정치가 존재하지 않는 데이터 집합이 존재한다. 이런 경우에 결측치를 갖는 레코드들을 제외한다면 데이터의 손실이 매우 클 것 이다. 또한 결측치를 대체값으로 대체하는 방법은 적은 수의 기존 레코드들을 토 대로 계산될 경우 결측치 대체에 따른 유용성이 낮아지게 된다. 한 가지 대안은

29 2.5 데이터마이닝의 예비단계 예측변수의 중요성을 조사하는 것이다. 예측변수가 매우 중요하지 않다면 분석 에서 제외될 수 있다. 만약 그 변수가 중요하다면 소량의 결측치를 갖는 대리변 수(proxy variable)가 대신 사용될 수 있다. 물론 예측변수가 중요한 변수라고 생각 될 때의 가장 좋은 결측치 처리방법은 결측된 데이터값을 찾는 것이다. 모든 상황에서 자동적으로 답을 구하는 것이 쉽지 않기 때문에 결측치를 처리 하는 데에는 상당한 시간이 요구된다. 예를 들어 복잡한 데이터 집합에서 0은 2 가지의 의미를 가질 수 있다. 하나는 그 값이 결측치라는 것이고 다른 하나는 그 값이 실제 0의 값이라는 것이다. 신용카드산업에서 연체 변수의 값 0 은 완전히 지급결제가 이루어진 고객을 의미하거나 과거의 신용거래기록이 전혀 없는 고객 을 의미할 수 있다. 이 2가지 경우는 서로 전혀 다른 상황에 해당한다. 따라서 개별적인 사례에서나 또는 그 상황을 처리하기 위한 특별한 규칙을 정하기 위해 서는 해당 분야의 전문가에 의해 판단하는 것이 필요하다. 8) 데이터의 정규화(표준화) 어떤 알고리즘의 경우에는 모형을 효과적으로 학습시키기 위해서 사전에 데이 터에 대한 정규화 작업을 필요로 한다. 데이터를 정규화시키기 위해서는 각 데이 터에서 평균값을 뺀 후, 그 값을 표준편차로 나눈다. 사실상 정규값은 평균으로 부터 벗어난 표준편차값 을 말하며, z값(z-score)으로 불린다. 데이터의 정규화가 필요한 이유는 다음의 군집분석사례를 통해 살펴볼 수 있 다. 군집분석은 일반적으로 각 레코드가 군집의 중심점 또는 다른 레코드로부터 얼마나 멀리 떨어져 있는지를 반영하는 거리측정치를 계산한다. 다수의 변수들 이 사용될 경우, 일자, 달러, 개수 등과 같은 여러 가지 유형의 단위가 사용될 것 이다. 만약 달러변수가 천단위이고 그밖의 모든 변수가 십단위이라면 달러변수 는 거리측정치 계산에 가장 큰 영향을 미칠 것이다. 더구나 일자를 시간 또는 월 단위로 변경한다면 그 거리측정치의 결과도 완전히 바뀔 수 있다. XLMiner를 포함한 데이터마이닝 소프트웨어는 일반적으로 정규화가 요구되는 알고리즘에서 데이터를 정규화시키는 옵션을 제공한다. 데이터의 정규화는 알고 리즘의 자동적 특성이라기보다는 하나의 선택사항에 속한다. 왜냐하면 데이터 분석목적이 척도에 비례해서 거리측정치에 기여하는 각각의 변수를 찾고자 하는 경우도 있기 때문이다. 29

30 제2장 데이터마이닝 프로세스 분할표본의 사용과 생성 지도학습에서는 개발된 예측 또는 분류모형을 새로운 데이터에 적용할 경우 얼마나 좋은 성과가 나타날 것인가? 라는 중요한 의문이 제기된다. 특히 모형이 실제로 실행될 때 가장 좋은 성과를 보이는 것으로 생각되는 모형을 선택할 수 있도록 다양한 모형들 사이의 성과를 비교하는 것이 주요 관심사가 된다. 언뜻 처음 볼 때에는 가까운 미래의 데이터를 가진 주요 성과변수를 가장 잘 분 류하거나 예측하는 모형을 선택하는 것이 최선이라고 생각할 수 있다. 그러나 모 형의 구축과 모형의 성과평가에 동일한 데이터를 사용할 경우 모형의 편의(bias) 가 발생하게 된다. 이렇게 같은 데이터를 적용하여 가장 좋은 성과를 보이는 모 형을 선택할 때 이 모형의 성과가 좀더 좋은 이유는 다음의 2가지 원인 때문이다. 첫째는 선택된 모형이 비교우위의 모형이기 때문이다. 둘째는 선택된 모형이 다른 모형보다 우연히 더 잘 맞게 되는 데이터의 우연성 측면 때문이다. 특히 후자는 의사결정나무 및 신경망모형 등과 같은 기법들에 있어서 중대한 문제가 된다. 그 이유는 이러한 기법들이 데이터에 대해서 선형적이거나 다른 구 조적인 관계를 표현하지 않음으로 인해서 데이터를 과적합화시킬 위험성을 갖고 있기 때문이다. 30 이러한 문제를 처리하기 위해서 이 책에서는 데이터를 분할한 후 이 중 하나의 분할된 데이터만을 사용하여 모형을 개발하고, 그 개발된 모형을 또다른 분할데 이터 집합에 적용하여 여러 가지 방식으로 측정되는 모형의 성과가 어떠한 결과 를 나타내는지 살펴보고자 한다. 예를 들어 분류모형에서는 오분류로 남겨진 레 코드의 비율을 계산하고, 예측모형에서는 예측값과 실제값 사이의 잔차(오차)를 측정할 수 있다. 일반적으로 데이터는 학습용 집합, 검증용 집합 등의 2개 또는 학습용 집합(training partition), 평가용 집합(validation partition), 검증용 집합(test partition) 등의 3개의 분할데이터로 사용된다. 데이터를 학습용, 평가용, 그리고 검증용 집합으로 나누는 작업은 미리 결정된 비율에 따라서 무작위로 이루어지 거나, 어떤 특정 변수가 해당 레코드가 어느 분할표본에 속하는지를 결정해 주는 방식으로 이루어진다. 예를 들어 시계열 예측에서는 시간순으로 데이터가 분할 된다. 대부분의 사례에서 데이터 분할과정은 편향적으로 이루어지는 것을 피하 기 위해서 무작위로 이루어져야 한다. 또한 번거롭기는 하지만 데이터를 연속해

31 2.5 데이터마이닝의 예비단계 서 분할하는 방법으로는 3개 이상의 분할표본으로 나누는 것, 즉 초기 데이터를 3개의 집합으로 나눈 후 이 집합 중 하나에 대해 다시 데이터를 분할하는 방법이 있다. 1) 학습용 집합 학습용 집합(training partition)은 일반적으로 가장 크기가 큰 집합으로서 분석대 상인 다양한 모형을 구축하기 위해 사용되는 데이터를 말한다. 다수의 모형을 개 발하기 위해 일반적으로 동일한 학습용 집합이 사용된다. 2) 평가용 집합 이 데이터 집합은 때때로 검증용 집합(test partition)으로 불리며 모형을 비교하 여 가장 좋은 모형을 선택하기 위해 각각의 모형의 성과를 평가하기 위해 사용된 다. 어떤 알고리즘[예를 들어 분류와 회귀나무(CART)]에서는 모형을 조율하고 향 상시키기 위해 자동화된 방식으로 평가용 집합(validation partition)을 사용할 수 있다. 3) 검증용 집합 이 데이터 집합은 가끔씩 예비용 집합(holdout partition)으로 불리며 새로운 데이 터를 가지고 선택된 모형의 성과를 평가할 필요가 있을 때 사용된다. 왜 평가용 집합과 검증용 집합을 모두 사용해야 하는가? 다수의 모형을 평가한 후 가장 좋은 성과를 나타낸 모형을 선정하기 위해 평가용 데이터를 사용할 때 다시 한번 또다른 과적합화의 문제에 직면하게 된다. 이러한 문제는 우연한 데이 터의 결과로 말미암아 선택된 모형이 다른 모형보다 더 잘 적합하게 될 가능성을 말한다. 선택된 모형의 성과를 확연하게 향상시키는 평가용 데이터의 임의적 특성들은 그 모형을 새로운 데이터에 적용할 경우에는 나타나지 않을 것이다. 그러므로 평 가용 데이터에 의한 모형의 정확도는 과대평가됐을지도 모른다. 검증할 모형이 많을수록 그 중 하나의 모형은 특히 평가용 데이터의 잡음을 유의적으로 내포할 가능성이 커진다. 이제까지 사용하지 않은 새로운 검증용 데이터를 모형에 적용 한다면 이 모형이 새로운 데이터에 대해 얼마나 좋은 성과를 갖는지에 관한 불편 추정치를 얻을 수 있다. <그림 2.3>은 데이터마이닝 프로세스의 3가지 분할표본 들과 그 분할표본들의 사용과정을 보여준다. 가장 좋은 모형을 찾는 데에 주된 31

32 제2장 데이터마이닝 프로세스 관심을 두고 그 모형이 얼마나 좋은 성과를 나타내는지에 대해서는 덜 관심을 둘 때에는 학습용과 평가용 집합만을 사용할 수 있다. 최근접이웃 알고리즘의 경우 학습용 데이터 자체가 모형에 해당한다. 평가용 과 검증용 집합 및 새로운 데이터의 레코드들은 최근접이웃을 찾기 위해 학습용 데이터의 레코드와 비교된다. -최근접이웃기법은 XLMiner에서 실행되며 이 책 에서 논의한 것처럼 2개의 분할표본의 사용은 단순히 모형을 평가하거나 모형의 성과를 향상시키기 위한 방안이 아니라 분류 또는 예측 프로세스에서 기본적으 로 필요한 부분이다. 그럼에도 불구하고 여전히 평가용 데이터의 오차를 다른 모 형의 평가용 데이터의 오차와 동일한 방식으로 해석할 수 있다. XLMiner는 무작위로 또는 사용자가 정의한 변수에 의해서 데이터 집합을 분할하 는 기능을 갖고 있다. 사용자 정의에 의한 데이터 분할을 위해서는 하나의 변수 가 생성되어야 한다. 그 변수는 t (학습용:training), v (평가용:validation), s (검증 용:test)의 값을 가지며, 레코드별로 해당값을 지정한다. 모형구축 데이터 학습 모형평가 데이터 평가 모형 재평가 (선택적) 데이터 검증 최종 모형을 이용한 예측/분류 새로운 데이터 적용 <그림 2.3> 데이터마이닝 프로세스에서 3가지 데이터 분할방법과 그 역할 32

33 2.6 모형구축 : 선형 회귀분석을 이용한 예 2.6 모형구축 : 선형 회귀분석을 이용한 예 잘 알려진 데이터마이닝 과정인 다중 선형 회귀분석을 이용하여 일련의 데이 터마이닝 작업 중에서 대표적인 단계를 살펴보도록 하자. 이 단계는 새로운 알 고리즘을 적용하기 전에 전반적인 과정을 이해하는 데 도움을 줄 것이다. 그 다 음 단계에서는 데이터 집합에 XLMiner를 이용한 엑셀의 처리과정을 설명하기로 한다. 보스톤 주택 데이터 보스톤 주택 데이터는 여러 개의 측정지표들(예를 들어 범죄율, 학생/교사 비율 등)을 포함한, 보스톤 인근지역의 정보를 담고 있다. 관심대상의 출력변수는 보스 톤 인근지역의 주택가격의 중앙값(median value)이다. 이 데이터 집합은 14개의 변 수를 포함하고 있으며 <표 2.2>에서 각 변수에 대한 내역을 보여주고 있다. 데이 터에 대한 내역은 <그림 2.4>에 예시되어 있다. <표 2.2> 보스톤 주택 데이터의 변수내역 변수이름 변수내역 CRIM 자치시(town)별 1인당 범죄율 ZN 25,000평방피트를 초과하는 거주지역의 비율 INDUS 비소매상업지역이 점유하고 있는 토지의 비율 CHAS 찰스강에 대한 더미변수(강의 경계에 위치한 경우는 1, 아니면 0) NOX 10ppm당 농축 일산화질소 RM 주택 1가구당 평균 방의 개수 AGE 1940년 이전에 건축된 소유주택의 비율 DIS 5개의 보스톤 직업센터까지의 가중평균거리 RAD 방사형 도로까지의 접근성 지수 TAX 10,000달러당 재산세율 PTRATIO 자치시(town)별 학생/교사 비율 B 1000(Bk-0.63) 2, 여기서 Bk는 자치시별 흑인의 비율을 말함 LSTAT 모집단의 하위계층의 비율(%) MEDV 본인소유의 주택가격(중앙값)(단위: $1,000) 33

34 제2장 데이터마이닝 프로세스 <그림 2.4> 보스톤 주택 데이터 이 그림에서 첫 번째 행은 첫 번째 인근지역을 나타내며, 1인당 범죄율이 이고, 25,000평방피트를 초과하는 거주지역의 비율이 18%이며, 찰스강 경계 이외 지역의 비소매상업지역이 점유하고 있는 토지의 비율이 2.31%라는 것을 보여주고 있다. 모형구축 프로세스 이제 보스톤 주택 예제를 이용하여 다양한 모형구축단계를 상세하게 살펴보기 로 한다. 1. 목적을 설정한다. 데이터마이닝 프로젝트의 목적이 보스톤 인근지역의 주택가격(중앙값)을 예 측하는 것이라고 가정한다. 2. 데이터를 획득한다. 이 예제에서는 보스톤 주택 데이터를 사용한다. 예제의 데이터 집합은 별도 로 표본추출할 필요가 없을 만큼 데이터의 크기가 작다. 따라서 데이터 모두 를 사용할 수 있다. 3. 데이터를 탐색, 정제, 그리고 전처리한다. 모든 변수들을 파악하기 위해 변수들의 내역(예를 들어 범죄율, 주택 1가구당 평 균 방의 개수 등)을 먼저 살펴보자. 이 변수내역들은 웹사이트( edu/datasets/boston)에서 제공되고 있으며 BostonHousing.xls 파일의 변수내역 (description) 시트에서 확인가능하다. 모든 데이터는 매우 신뢰할 만하지만 항상 완벽한 것은 아니기 때문에 대개의 경우 변수이름들이 이해하기 어렵고 변수내 역이 모호하거나 누락되기도 한다. 34 이 단계에서 변수들이 어떤 의미를 가지며 또한 이 변수를 모형에 포함시켜 야 하는지에 대해 잠시 고민해 볼 필요가 있다. 예를 들어 TAX 변수를 살펴

35 2.6 모형구축 : 선형 회귀분석을 이용한 예 보자. 처음 볼 때는 주택에 대한 세금이 보통 주택평가액의 함수라고 생각한 다. 즉, 이 모형에는 순환고리가 존재한다. 다시 말해서 예측변수인 TAX 변 수를 사용하여 주택가격을 예측하려고 하지만, TAX 변수 자체는 주택가격에 의해 결정되고 있다. 따라서 TAX는 수치적인 측면에서 주택가격의 매우 좋은 예측변수가 될지 모르나 평가가격이 알려져 있지 않은 주택에 이 모형을 적용 한다면 변수의 유용성에 대한 의문이 생길 수 있다. 다만 다른 모든 변수처럼 TAX 변수는 개별 주택이 아닌, 인근지역의 평균값과 관련되어 있음을 보여주 고 있다. 이 예제에서 사례조사의 목적이 상세히 설명되지는 않았지만, 어떤 단계에서는 모형을 개별 주택에 적용하기를 원할 수 있고 그런 경우에는 인근 지역의 TAX값이 유용한 예측변수가 될 수 있다. 따라서 이 예제에서는 모형 구축에 TAX를 포함시키도록 한다. 이 변수 이외에도 데이터 집합은 또한 추가적인 변수로서 중앙값(MEDV)을 2개의 범주(높음, 낮음)로 나누어서 생성된 CAT.MEDV 변수를 포함하고 있다. [주목해야 할 MEDV, 즉 주택가격(중앙값)은 2가지 측면을 갖고 있는데, 첫 번째는 주 택가격이 1970년대부터 계산되었기 때문에 그 값이 매우 작다는 것이고, 두 번째는 가 장 큰 값인 50 이 많이 존재한다는 것이다. 이러한 결과는 50,000달러 보다 큰 중앙값을 50,000달러로 기록하고 있는 점에서 그 원인을 찾을 수 있다] 실제로 CAT.MEDV 변 수는 MEDV 변수로부터 파생된 범주형 변수이다. MEDV > $30,000이면 CATV = 1이고 MEDV $30,000이면 CATV = 0이다. 따라서 분석대상 사례에 대해서 중앙값들을 기준으로 크고 작은 값으로 범주화하려고 한다면 MEDV 대신에 CAT.MEDV를 사용해야 할 것이다. 이 사례에서는 CAT.MEDV를 필 요로 하지 않으므로 분석에서는 이를 제외한다. 따라서 여기서는 총 13개의 독립변수가 사용된다. 한편, 측정오차 또는 입력오류의 가능성이 있는 극단치를 조사하는 과정이 필요하다. 예를 들어 RM(방의 개수)의 크기에 따라 내림차순으로 정렬시킨 후 의 RM 열이 <그림 2.5>에서 보는 것과 같다고 가정하자. 여기서 79.29는 바로 오차(error)라고 말할 수 있다. 그 이유는 인근지역에 평균 방의 개수가 개를 갖는 주택들이 존재하지 않기 때문이다. 그밖의 모든 값들은 3~9값을 갖는다. 아마도 소수점이 잘못 표기되었다고 볼 수 있으며 7.929로 수정해야 할 것이다(이렇게 가정된 오차는 실제 XLMiner에서 사용된 데이터 집합에서는 나타 나지 않음). 35

36 제2장 데이터마이닝 프로세스 4. 데이터를 축소하고 데이터를 학습용, 평가용, 검증용 데이터 집합으로 분할한다. 이 사례의 데이터 집합은 오직 13개의 데이터를 가지며, 데이터 축소는 필 요하지 않다. 좀더 많은 변수들이 있다면 이 단계에서 다수의 유사 변수들을 좀더 작은 수의 변수들로 병합시키기 위해 주성분 분석(principal components analysis)과 같은 변수축소기법을 적용할 수 있다. 이 사례의 목적은 주택의 중 앙값을 예측하여 예측성과가 얼마나 좋은지를 평가하는 것이다. 데이터에 대 해서는 모형구축을 위한 학습용 집합과 모형의 성과를 보기 위한 평가용 집합 으로 분할한다. 여기서 사용되는 데이터마이닝 기법은 분류 및 예측문제를 위 RM(방의 개수) AGE(소유주택의 비율) DIS(가중평균거리) <그림 2.5> 보스톤 주택 데이터의 극단치 <그림 2.6> 데이터의 분할(XLMiner의 기본값은 데이터를 학습용 데이터 60%, 평가용 데이터 40%, 검증용 데이터 0%로 분할한다) 36

37 2.6 모형구축 : 선형 회귀분석을 이용한 예 한 지도학습과정에 속한다. 즉, 이러한 문제들은 어떤 데이터에 대해서 출력변 수의 집단 또는 값이 알려져 있고 그 데이터를 사용하여 모형을 개발한 후 출 력변수값이 알려지지 않은 다른 데이터에 적용할 수 있는 문제들이다. 엑셀에서 XLMiner Partition을 선택하면 <그림 2.6>과 같이 대화상자가 나 타난다. 여기에서 데이터의 범위를 어떻게 나누고, 분할된 데이터 집합에 어떤 변수를 포함시킬 것인지를 상세히 설정한다. 데이터 분할과정은 다음의 2가지 방식 중 하나로 처리된다. (a) 데이터 집합을 학습용과 평가용으로 구분해 주는 정보(예를 들어 1=학습용, 2=평가용)를 갖는 데이터 분할변수를 이용하여 데이터를 분할한다. (b) 무작위로 데이터를 분할한다. 무작위로 데이터를 분할할 경우, 난수발생 번호를 설정할 수 있는 옵션이 나타난다(이 옵션은 필요할 때 동일한 무작위 데이터 분할을 나중에 반복적으로 이용할 수 있는 것이 장점). 데이터 분할에서 데이터는 2개의 데이터영역(학습용, 평가용 집합)으로 나누 어진다. 학습용 집합은 모형을 구축하기 위해 사용되고 평가용 집합은 모형을 새로운 데이터에 적용할 때 모형이 얼마나 좋은 성과를 갖는지를 보기 위해 사용된다. 각각의 집합에 대해서는 사용할 데이터의 비율을 설정할 필요가 있 다. 그러나 여기서는 사용되지 않았지만, 검증용 데이터 집합이 또한 사용될 수 있다. 데이터마이닝의 일반적인 사용방식은 각 모형에 대해서 다양한 모형조건을 적용해 보면서 다수의 모형을 평가하는 것이다. 따라서 하나의 모형만을 학습 시킨 후 그 모형을 평가용 데이터로 시험한다면, 모형이 얼마나 더 좋은 성과 를 보여줄 것인가에 대한 공정한 판단을 가질 수 있다. 그러나 수많은 모형들 을 학습시킨 후 평가용 데이터를 사용하여 각 모형이 얼마나 좋은 성과를 갖 는지를 보고 가장 좋은 성과를 보이는 모형을 선택할 경우, 평가용 데이터는 더 이상 이 모형이 얼마나 좋은 성과를 나타내는지에 대한 불편추정치를 제공 해 주지 못하게 된다. 평가용 데이터는 가장 좋은 모형을 선택하는 데 역할을 다함으로써 모형 자체의 일부분이 된다. 사실상 많은 알고리즘[예를 들어 분류 와 회귀나무(CART: classification and regression trees)]은 평가용 데이터를 모형구축 알고리즘 계산(예를 들어 나무가지치기)에 포함시킨다. 일반적으로 구축모형은 새로운 데이터보다는 모형을 학습시키는 데 사용된 데이터에서 더 좋은 성과 37

38 제2장 데이터마이닝 프로세스 를 나타낸다. 그러므로 평가용 데이터가 모형 자체 내에서 사용되거나 가장 좋은 모형을 선택하는 데 사용될 경우, 학습용 데이터에 의한 결과처럼 평가 용 데이터를 이용한 모형성과는 과대평가될 수 있다. 한편, 모형구축과정이나 모형선택과정에 사용되지 않은 검증용 데이터는 선 택된 모형이 새로운 데이터를 적용하여 얼마나 좋은 성과를 나타내는지에 대 해 좀더 정확한 추정치를 제공할 수 있다. 따라서 일단 최종 모형이 선택되었 다면 모형이 실제로 얼마나 좋은 성과를 나타내는지에 대한 추정치를 얻기 위 해 그 모형을 검증용 데이터에 적용한다. 5. 데이터마이닝의 작업(분류, 예측, 군집 등)을 결정한다. 이미 앞서 언급한 사례의 작업은 13개의 예측변수를 사용하여 MEDV의 값 을 예측하는 것이다. 6. 사용될 데이터마이닝 기법들(회귀분석, 신경망모형, 계층적 군집분석 등)을 선택한다. 데이터를 학습용과 평가용 집합으로 분할한 후, XLMiner와 학습용 데이터 를 이용하여 다중 선형 회귀모형을 구축할 수 있다. 여기서는 모든 다른 값들 을 고려하여 주택가격(중앙값)을 예측한다. 38 <그림 2.7> 다중 선형 회귀모형을 위한 XLMiner의 사용

2.6 모형구축 : 선형 회귀분석을 이용한 예 7. 알고리즘을 적용하여 데이터마이닝 작업을 수행한다. XLMiner에서 Prediction Multiple Linear Regression을 선택하면, <그림 2.7>과 같은 화면이 나타난다. MEDV 변수는 출력(종속)변수로서 선택되고 CAT.

39 2.6 모형구축 : 선형 회귀분석을 이용한 예 7. 알고리즘을 적용하여 데이터마이닝 작업을 수행한다. XLMiner에서 Prediction Multiple Linear Regression을 선택하면, <그림 2.7>과 같은 화면이 나타난다. MEDV 변수는 출력(종속)변수로서 선택되고 CAT.MEDV 변수를 제외한 나머지 변수들은 모두 입력(독립 또는 예측)변수로 선택된다. <그림 2.8>은 XLMiner를 실행하여 평가용 데이터의 예측값과 학습용 데이터 의 추정값을 출력할 것을 요구하는 설정화면을 보여준다. 여기서는 XLMiner 의 기본적인 회귀모형의 결과값을 생성시키는 과정에 대해서만 설명한다. 좀 더 자세한 옵션 및 이에 대한 결과값에 대해서는 나중에 설명하기로 한다(자 세한 내용은 제5장 또는 XLMiner의 사용자 매뉴얼을 참조하기 바람). 이보다는 예측 결과를 중심으로 살펴보기로 한다. <그림 2.9>는 학습용 데이터의 처음 몇몇 레코드들에 대한 실제값과 예측값, 그리고 잔차(예측오차)를 보여준다. 예측값 은 종종 적합된 값(fitted values) 으로 불리어진다는 것에 유의해야 한다. 왜냐 하면 예측값은 모형이 적합시킨 레코드들이기 때문이다. 평가용 데이터들에 대한 결과값은 <그림 2.10>에 나타나 있다. 학습용과 평가용 데이터에 대한 예측오차는 <그림 2.11>에서 비교된다. <그림 2.8> 출력값 설정하기 39

40 제2장 데이터마이닝 프로세스 XLMiner:다중 선형 회귀모형 - 학습용 데이터의 예측 <그림 2.9> 학습용 데이터를 이용한 예측 XLMiner:다중 선형 회귀모형 - 평가용 데이터의 예측 <그림 2.10> 평가용 데이터를 이용한 예측 (a) 학습용 데이터에 대한 예측결과 - 요약보고서 제곱오차의 총합계(TSS) 평균제곱오차의 제곱근(RMSE) 평균오차 E-07 (b) 평가용 데이터에 대한 예측결과 - 요약보고서 제곱오차의 총합계(TSS) 평균제곱오차의 제곱근(RMSE) 평균오차 <그림 2.11> (a) 학습용 데이터와 (b) 평가용 데이터에 대한 오차율 40 예측오차는 여러 형태로 측정될 수 있다. XLMiner에서 제공하는 3가지 측정 치는 <그림 2.11>에 나타나 있다. 이 그림의 오른쪽에 있는 평균오차(average error)는 잔차(오차)의 평균값을 말한다. 이 두 사례에서 평균오차는 MEDV의 값에 비해서 매우 작은데, 이는 결국 예측값이 평균적으로 균형있게 분포하고 있으며 예측값이 불편추정치임을 말해 준다. 또한 실제값에 비해서는 약간 오 른쪽에 분포하고 있음을 알 수 있다. 물론 이것은 간단히 말해서 오차가 양과

41 2.7 엑셀을 이용한 데이터마이닝 음의 값을 갖고 있으면 균형에서 벗어남을 의미한다. 그러나 이 오차가 얼마 나 큰지에 대해서는 알려주지 않는다. 이 그림에서 왼쪽에 있는 제곱오차의 총합계(TSS 또는 SSE: total sum of squared errors)는 제곱오차를 합산한다. 오차가 양수 또는 음수인 경우 이 값의 공헌도는 동일하다. 그러나 이 합은 기본적인 오차의 크기에 대한 정보를 나타내지는 않는다. 평균제곱오차의 제곱근(RMSE: root mean squared error)은 전체 성과지표 중에 서 가장 유용한 지표이다. 이 지표는 평균제곱오차의 제곱근을 의미하며, 원 시데이터에 대해 사용되는 것과 동일한 척도형태로 양수 또는 음수인지에 대 한 기본적인 오차정보를 제공한다. 예상대로 처음 예측시 모형이 예측하는 평 가용 데이터의 RMSE값($5,337)이 모형을 학습시킬 때 사용된 학습용 데이터 의 RMSE값($4,518)보다 더 크다. 8. 결과를 해석한다. 이 단계는 일반적으로 다른 예측 알고리즘(예를 들어 회귀나무)을 시도해 보 고 어떠한 오차결과를 보여주는지를 살펴본다. 또한 다양한 모형들에 대해서 여러 가지 모형의 조건설정들을 달리 적용해 본다[예를 들어 평가용 데이터에서 더 좋은 성과를 나타내는 축소된 변수군들을 선택하기 위해 다중 회귀모형의 최적변 수군(best subsets) 옵션을 사용할 수 있다]. 최선의 모형(전적으로 평가용 데이터에 대해 가장 낮은 오차를 가지면서 또한 성과가 더 좋은 단순화된 모형)을 선택한 후 에 이 모형을 이용하여 새로운 데이터에 대한 출력변수를 예측한다. 이 단계 에 대해서는 사례분석에서 자세히 다루도록 한다. 9. 모형을 활용한다. 최선의 모형이 선택된 후에 MEDV값이 알려지지 않은 레코드를 갖는 새로 운 데이터에 대해 이 모형을 적용하여 MEDV를 예측한다. 물론 이것은 모형 구축의 궁극적인 목적이다. 2.7 엑셀을 이용한 데이터마이닝 데이터마이닝 프로세스에서 유의해야 할 중요한 측면은 매우 안전하고 확실한 분석을 위해 꼭 대량의 레코드가 필요하지는 않다는 것이다. 분석되는 데이터 집 합이 물론 수백만 개의 레코드를 가질 수 있지만, 다중 선형 회귀모형이나 분류 41

42 제2장 데이터마이닝 프로세스 나무를 사용할 때에는 20,000개의 표본을 사용하여 도출한 결과값이 전체 데이터 집합을 사용하여 얻은 결과값만큼 거의 정확한 결과값을 산출한다. 이러한 원칙 은 투표의 원칙과 같다. 표본추출이 신중하게 이루어졌다면, 2,000명의 투표자들의 데이터를 토대로 1~2 퍼센트 포인트 오차범위 내에서 전체 모집단의 의견을 추정할 수 있다(좀더 자세한 논의는 2.5절의 얼마나 많은 변수들과 데이터가 사용되어야 하는가? 를 참조하 기 바람). 그러므로 대부분의 사례에서 볼 수 있듯이 각각의 데이터 부분집합(학습용, 평 가용, 검증용)에서 요구되는 레코드의 수는 엑셀이 허용하는 행까지 누적될 수 있 다. 물론 이들 레코드들을 엑셀에 저장할 필요가 있으며, 이러한 목적으로 XLMiner의 기본버전은 외부 데이터베이스로부터 레코드를 무작위 표본추출하는 인터페이스를 제공한다. 이와 유사하게 이러한 분석결과를 대용량 데이터베이스에 적용할 필요가 있으 며, 이 목적을 위해 XLMiner의 기본버전에는 모형을 저장하고 외부 데이터베이스 에 모형의 점수를 제공하는 기능을 갖고 있다. 예를 들어 XLMiner는 각 레코드에 대한 예측구매량을 나타내는 추가 열(변수)을 데이터베이스에 생성시킨다. XLMiner는 외부 데이터베이스로부터 표본을 구성하는 기능을 갖는다. 이 표본은 무작위 또는 층화 표본추출로 생성될 수 있다. XLMiner는 또한 학습용 데이터로 부터 얻어진 모형을 사용하여 외부 데이터베이스의 데이터를 분류 또는 예측하 는 기능을 갖고 있다. 데이터마이닝 소프트웨어 : 현재의 시장상황(Herb Edelstein 1) ) 데이터마이닝은 데이터를 설명하거나 예측을 유의적으로 하기 위해 데이터로부터 패턴과 관계를 찾아내는 다양한 분석도구를 사용한다. 다양하고 심도있게 분석할 문 제들이 증가함에 따라서 훨씬 더 강력한 분석도구에 대한 필요성이 제기되고 있다. 일반 조직에서는 수천만 개의 사례(행의 데이터)와 수백 또는 수천 개의 변수들(열의 42 1) Herb Edelstein은 워싱턴 D.C. 인근에 위치한 데이터마이닝의 대표적인 컨설팅회사인 Two Crows 컨설팅( 대표이사이다. 그는 국제적으로 공인된 데이터마이닝과 데이터웨어하 우징 분야의 전문가이며, 이 분야에서 널리 알려진 저자이자 대중적인 강연자이다.

43 2.7 엑셀을 이용한 데이터마이닝 데이터)을 다루기 위해 확장성이 있는 도구를 필요로 한다. 또한 잘 디자인된 그래픽 사용자 인터페이스(GUI: graphical user interface)를 이용할 경우 예측모형을 개발, 관 리, 적용하는 것이 훨씬 쉬워진다. 데이터마이닝은 단순히 특정 기법이나 알고리즘이 아니라 완전한 하나의 프로세스 이다. 산업용 데이터마이닝 분석도구는 이러한 프로세스의 모든 단계를 지원하고, 모든 크기의 데이터베이스를 처리하며, 가장 복잡한 문제들도 다룰 수 있다. 데이터마이닝 소프트웨어는 우선 모든 데이터를 하나로 통합시킬 수 있어야 한다. 데이터마이닝 도구는 다양한 데이터베이스관리 시스템을 통해 데이터베이스에 접근 할 필요가 있으며, 원시데이터로부터 데이터를 통합하고 일부 데이터를 추출하는 기 능을 지원해야 한다. 또한 일부 데이터는 테라바이트(terabyte) 이상의 대용량이기 때 문에 다양한 표본추출방법을 지원할 필요가 있다. 다음으로 데이터마이닝 소프트웨어는 모형구축의 시작단계를 이해하고 제안하기 위해 서 데이터의 탐색과 처리를 수월하게 할 수 있어야 한다. 하나의 데이터베이스에 수백 또는 수천 개의 변수가 있다고 할 때 가장 큰 과제는 데이터를 잘 설명해 주는 변수들 을 선택하고 이를 통해 매우 강건한 예측을 하는 것이다. 시각화 도구는 가장 중요한 변수를 파악하고 대용량 데이터베이스에서 의미있는 패턴을 발견할 수 있게 한다. 어 떤 알고리즘은 특히 가장 관련이 있는 변수들을 선택하기 위한 수단으로 사용하기에 매우 적합하다. 그러나 대개의 경우 가장 좋은 예측변수들은 데이터베이스 안에 있는 변수 자체가 아니라 이 변수들을 수학적으로 결합한 변수들이다. 이로 인해 오히려 평가해야 할 변수의 수가 증가할 뿐만 아니라 더 복잡한 변환이 일 어날 경우 스크립트 언어가 필요해진다. 이때 데이터베이스 분석도구는 DBMS 언어를 사용하여 초기 데이터베이스를 직접적으로 변환시키는 역할을 한다. 모형을 구축하고 평가하는 것은 반복적인 과정이기 때문에 최선의 모형이 결정되기 전에 수십 개 이상의 탐색적 모형들이 개발될 수 있다. 소프트웨어를 이용하여 구축 하는 개별 모형의 경우 모형개발기간이 적당히 소요되지만, 성능 좋은 하드웨어에서 소프트웨어를 구동시키지 않을 경우 컴퓨터 사용량이 실제로는 늘어나게 된다. 어떤 사람들은 이러한 단계가 데이터마이닝의 대부분을 차지한다고 생각하지만, 이 단계 는 보통 전체 데이터마이닝 과정 중 극히 일부에 지나지 않는다. 마지막으로 모형을 구축, 검증, 선택한 후에는 모형을 실제로 적용해 보는 것이 필요 하다. 데이터 중 일부분을 이용하여 구축된 모형은 이제 수백만 개의 사례에 적용되 거나 매초마다 수백 개의 거래를 처리하는 실시간 응용프로그램과 통합될 수 있다. 43

44 제2장 데이터마이닝 프로세스 예를 들어 구축된 모형은 신용평가 또는 부정거래적발 응용프로그램과 통합될 수 있 다. 모형사용기간이 경과함에 따라 필요한 경우 모형을 계속 평가하고 수정, 보완해 야 한다. 데이터마이닝 도구에는 DBMS에 내재되어 있거나 독립적인 프로그램으로서 범용 데 이터마이닝 도구와 특수목적용 데이터마이닝 도구가 있다. 모든 주요 데이터베이스관리 프로그램 공급자들은 자신들의 제품에 데이터마이닝 기능을 포함시켜 왔다. 선두제품군에는 IBM DB2 Intelligent Miner, 마이크로소프트 SQL Server 2005, 오라클 Data Mining, 그리고 테라데이터 Warehouse Miner 등이 있다. 여기서 데이터마이닝의 주요 대상고객은 데이터베이스 전문가들이다. 이 제품들은 DBMS를 사용하여 변수를 변환시키고, 데이터베이스에 모형을 저장하며 데이터 접 근언어를 사용하여 모형구축과 데이터베이스를 평가하는 작업을 수행하는 등 데이 터베이스의 이점을 폭넓게 활용한다. 또한 일부 제품들은 데이터마이닝 모형구축을 위해 별도의 그래픽 인터페이스를 제공한다. DBMS가 병렬처리기능을 가진 제품이라 면 여기에 내재된 데이터마이닝 도구는 대개 이를 활용함으로써 더 좋은 성과를 얻 을 수 있다. 아래에서 설명된 것처럼 데이터마이닝 제품군들은 다양한 부류의 알고 리즘을 제공한다. 독립적인 데이터마이닝 도구들은 하나의 알고리즘 또는 스위트(suite)라고 불리는 알 고리즘들의 모음을 포함하고 있다. 주요 대상고객들은 통계학 전공자들과 데이터 분 석가들이다. 잘 알려진 단일 알고리즘 제품에는 KXEN, RuleQuest Research C5.0, 그리 고 Salford Systems의 CART, MARS 및 Treenet가 있다. 대부분 선도적인 단일 알고리즘 도구들은 제품군 공급자들에게 제품사용에 대한 라이센스를 부여하고 있다. 선두제품 군에는 SAS Enterprise Miner, SPSS의 Clementine, 그리고 Insightful Miner가 있다. 이 제 품들은 다양한 영역의 기능과 모형구축의 생산성을 높이기 위해 특별히 고안된 인터 페이스를 제공하고 있다. 44 많은 스위트 제품들은 뛰어난 시각화 도구를 가지며 이 제품들이 수행하는 기능을 확장시키기 위해 통계패키지와 호환될 수 있는 인터페이스를 제공한다. 또한 대부분 좀더 복잡한 데이터 변환을 위해 절차적 스크립트 언어를 제공하고 있다. 이 제품들 은 전체 데이터마이닝 프로세스를 개관할 수 있도록 작업흐름도를 그래픽 인터페이 스 형태로 보여준다. 스위트 제품군 공급자들은 그들의 데이터마이닝 도구를 자사의 DBMS 도구에 좀더 밀접하게 결합시키고 있다. 예를 들어 데이터 변환은 DBMS에 의 해 처리되고, 데이터마이닝 모형들은 SQL, 절차적 언어코드(C++, Java), 또는 예측 모형 마크업 언어(PMML: predictive model markup language)로 불리는 표준 데이터마이 닝 모형언어를 통해 외부로 출력되어 DBMS에 통합된다.

45 2.7 엑셀을 이용한 데이터마이닝 다른 형태의 도구와는 다르게 특수목적용 도구들은 신용평가, 고객유지, 또는 제품 마케팅과 같은 특정 분석을 위한 응용 프로그램으로서 사용된다. 이 도구의 초점은 예를 들어 주택담보부 대출, 금융서비스와 같은 특정 시장의 요구를 좀더 적극적으 로 반영한다. 주요 대상고객은 특정 응용분야에서 전문지식을 가진 분석가들이다. 그 러므로 인터페이스, 알고리즘, 그리고 심지어 전문용어는 특정 산업, 응용분야, 또는 고객에 맞추어 고안된다. 특수목적용 프로그램은 범용 프로그램에 비해서 유연성이 떨어지는 반면, 이미 해당 분야의 지식이 제품설계에 반영된다는 장점을 가지며 노 력에 비해서 매우 좋은 성과를 제공할 수 있다. SAS, SPSS 등의 데이터마이닝 회사들 은 Fair Isaac와 같은 산업전문기업들처럼 전체 시장을 대상으로 한 분석도구를 제공 한다. 이 책에서 사용되는 도구인 XLMiner는 표본추출기법과 모형평가기능을 모두 갖춘 제 품군이다. 엑셀 자체는 수천 개의 열과 수백만 개의 행으로 구성된 데이터를 처리하 기에 적합하지 않지만, 비즈니스 분석가에게 친숙한 작업공간이고 다른 분석도구를 지원하는 작업플랫폼으로서 사용될 수 있다. 엑셀과 다른 계산엔진을 사용하는 XLMiner와 같은 엑셀 추가설치(add-in) 프로그램은 사용자에게 친숙하며 데이터마이 닝을 프로토타입, 소규모, 그리고 교육용으로 적용하기 위해 표본추출기법과 연계하 여 사용될 수 있다. c2006 Herb Edelstein SAS와 Enterprise Miner는 SAS 기업의 상표이고, CART, MARS 및 TreeNet는 Salford Systems의 상표이다. XLMiner는 Cytel 회사의 상표이고, SPSS와 Clementine은 SPSS 회사의 상표이다. 45

46 제2장 데이터마이닝 프로세스 2.1 다음의 예제에서 데이터마이닝 기법을 사용한다고 가정하고, 여기서 요구하는 작업 이 지도학습인지 또는 자율학습인지 구별하시오. a) 과거의 유사한 고객데이터인 데이터베이스를 참조하여 인구통계학적이고 재 무적인 데이터를 토대로 대출신청자에게 대출할지 여부를 결정하는 것 b) 온라인 서점에서 과거의 거래 구매패턴에 기초하여 추가로 구매할 품목을 고 객에게 추천하는 것 c) 위험상황이 알려져 있는 다른 데이터 패킷(packet)과 비교할 때 네트워크 데이 터 패킷이 바이러스나 해커의 해킹 등으로 말미암아 위험하다고 인식하는 것 d) 성향이 비슷한 고객들로 구성된 세부 집단을 파악하는 것 e) 한 회사가 자신과 유사한 파산회사와 생존회사의 재무데이터와 비교해서 파 산될 것인지를 예측하는 것 f) 트러블 티켓(trouble ticket: 장애보고서)에 기초하여 항공기에 요구되는 수리시간 을 예측하는 것 g) 우편번호 검사를 통해 우편물을 자동으로 분류하는 것 h) 식료품점에서 결제가 끝날 때 자신이 방금 구매한 물품과 이전에 다른 사람들 이 구매한 물품을 토대로 맞춤식의 할인쿠폰을 발행하는 것 트러블 티켓(trouble ticket) 트러블 티켓은 장애를 보고하고 추적해서 고치며, 미흡한 경우 관리전문가에게 전송하 는 기능을 가진 일종의 장애보고서(trouble report)이다. 또한 트러블 티켓은 네트워크 의 장애, 장애를 보고하는 사용자나 어플리케이션, 장애나 기계의 확인 등 사용가능한 정보를 갖고 있는 서류함과 같다. 46

47 제2장 연습문제 2.2 평가용 데이터 집합과 검증용 데이터 집합이 담당하는 역할의 차이점을 설명하시오. 2.3 <그림 2.12>에서 신용대출 신청자들의 데이터베이스로부터 표본을 살펴본 후, 이 표 본이 무작위로 표본추출되었을 가능성과 이것이 유용한 표본인지에 대해서 설명하 시오. <그림 2.12> 신용대출 신청자들의 데이터베이스의 표본 2.4 <그림 2.13>과 <표 2.3>은 한 은행의 데이터베이스의 표본과 변수내역을 보여주고 있다. 이 표본은 대규모의 데이터베이스에서 무작위로 추출되어진 학습용 데이터 집 합이다. 여기서 개인대출(personal loan) 변수는 개인신용대출 신청이 승인되었는 지 여부를 나타내는 반응변수이다. 이 은행은 향후에 이와 유사한 개인신용대출 신 청에 대한 캠페인활동을 계획하기 위해서 신용대출 가능성이 높은 반응고객들을 판 별해 주는 모형을 찾고자 한다. 이 데이터들을 면밀히 조사한 후, 다음 단계에서 무 엇을 해야 하는지를 설명하시오. 47

48 제2장 데이터마이닝 프로세스 <그림 2.13> 은행 데이터베이스의 표본데이터 <표 2.3> 은행 데이터베이스의 변수내역 변수이름 변수내역 ID 고객번호 Age 나이 Experience 경력(년) Income 연간소득($000) ZIPCode 우편번호 Family 가족 수 CCAvg 월별 신용카드 평균사용액($000) Education 학력(1: 대졸; 2: 석사; 3: 박사/전문직) Mortgage 주택담보부 채권값($000) Personal Loan 최근 캠페인에서 제공된 개인신용대출에 대한 고객 수락여부 Securities Account 은행에 증권계좌가 있는지 여부 2.5 모형이 학습용 데이터를 적합시킬 때 이들 데이터의 성과가 0의 오차를 가지는 것이 반드시 좋은 것은 아니다. 그 이유를 과적합화의 개념을 이용하여 설명하시오. 2.6 가망고객을 구매자 또는 비구매자로 분류하는 모형을 적합시키기 위해 어떤 회사는 인구통계 및 구매정보를 포함한 내부데이터로부터 학습용 데이터를 추출하였다. 분 류할 미래데이터는 여기에 포함된 구매를 제외한 인구통계 데이터와 함께 다른 소스 로부터 구입된 목록들이다. 환불지급 은 학습용 데이터에서 유용한 예측변수로 밝혀 졌다. 그러나 이 변수를 모형에 포함시키는 것은 적절하지 않다. 왜 그런가? 48

49 제2장 연습문제 2.7 한 데이터 집합이 1,000개의 레코드와 50개의 변수들을 갖고 있으며, 이 데이터 중 에서 5%가 결측치로서 레코드와 변수에서 무작위로 분포되어 있다. 분석가는 이들 결측치를 제거하기로 결정하였다. 대략 얼마나 많은 레코드를 제거해야 한다고 생각 하는가? 2.8 <표 2.4>의 데이터를 정규화시켜 계산결과를 제시하시오. <표 2.4> 나이 소득금액($) 25 49, , , , , , 레코드 간의 통계적 거리는 몇 가지 방식으로 측정된다. 이 중에서 제곱차이 합계의 제곱근으로 계산되는 유클리드 거리(Euclidean distance)를 살펴보자. <표 2.4>에서 처음 2개의 레코드 간의 거리는 다음과 같다. 데이터를 정규화시킬 경우, 유클리드 거리관점에서 서로 가장 멀리 떨어져 있는 2개 의 레코드는 데이터를 정규화시키기 전과 비교해서 달라지는가? 개의 모형을 분할된 데이터 집합에 적용한다. 모형 A는 모형 B에 비해서 학습용 데 이터에서 훨씬 더 정확하지만 평가용 데이터에서는 다소 덜 정확하다. 최종 모형을 활용하기 위해서는 어느 모형을 선택해야 하는가? 2.11 데이터 집합인 ToyotaCorolla.xls은 네덜란드의 2004년 늦여름중에 판매된 중고차 데이터를 포함하고 있다. 이 파일에는 가격, 사용기간, 주행거리, 마력(HP) 및 기타 상세 사항 등 38개의 속성을 포함하여 1,436개의 레코드가 수록되어 있다. a) XLMiner의 데이터시각화(행렬도표) 기능을 사용하여 데이터를 조사하시오. 변 수 중에서 어떤 변수쌍에서 상관관계가 존재하는가? 49

50 제2장 데이터마이닝 프로세스 b) 이 책의 다음 장에서 설명될 다양한 데이터마이닝 기법을 이용한 데이터 분 석을 계획하고 있다고 하자. 이를 위해 다음과 같이 사용할 데이터를 준비하 시오. 가. 데이터 집합은 2개의 범주형 속성으로서 연료유형(Fuel Type) 과 금속림 (Metallic Rim) 을 포함하고 있다. - 이 변수들을 이진변수로 변환시키는 방법을 설명하시오. - 범주형 데이터를 더미변수로 변환시키기 위해 XLMiner의 기능을 사용 하여 이를 확인하시오. - 모형에서 중복된 정보를 없애기 위해서는 이 새로운 변수들을 어떻게 처리할 것인가? 나. XLMiner의 데이터 분할기능을 이용하여(더미변수를 활용하여) 데이터를 분 할함으로써 지도학습의 데이터마이닝 기법들을 위한 데이터 집합을 준비 하시오. 모든 변수들을 선택하고 난수번호(random seed)에 기본값들을 사 용하여 학습용(50%), 평가용(30%), 검증용(20%) 집합으로 데이터를 분할 하시오. 그리고 이 데이터 분할이 모형구축에서 담당하는 역할에 대해 설 명하시오. 50

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제 KR000****4 설 * 환 KR000****4 송 * 애 김 * 수 KR000****4