고전적데이터분석은연구목적이설정되면그에맞는 1) 통계적가설 (statistical hypothesis), 모형 (model) 을설정하고 2) 데이터수집하여 3) 가설혹은모형의유의성 (significance) 을검정하였다. 이를 Confirmatory ( 확증적 ) Data Analysis 라한다. 다음은 (confirmatory) 데이터분석의예로한남대학생들의용돈이대학평균과같은가를알아보는연구과정을요약한것이다. 연구목적설정 OO 대학생월용돈은한국대학평균 250,000 원과같은가? 추정하려는모수설 통계적가설설정 월평균용돈 귀무가설 :μ=250,000 데이터수집 전체학생중 25 명표본을층화추출하여월용돈조사 일변량분석 : 모평균에대한 적절한통계분석적용 결론 : 모수추정및가설검 통계량계산 x = 193,000, s = 37,000 검정통계량 : X u 193000 175000 t = = = 2.43 ~ t( n 1 = 24) s / n 37000/5 표본의크기 25 가대표본에해당하므로검정통계량은정규분포에따른다. (CLT) 그러므로유의 수준이 0.05 인경우는 1.96 과비교하면된다. 1
1.1 EDA 정의 It is important to understand what you CAN DO before you learn to measure how WELL you seem to have DONE it. This book is about exploratory data analysis, about looking at data to see what it seems to say. It concentrates on simple arithmetic and easy-to-draw pictures. It regards whatever appearances we have recognized as partial descriptions, and tries to look beneath them for new insights. Its concern is with appearance, nor with confirmation. - Exploratory Data Analysis, John W. Tukey, 1977 - CDA ( 확중적데이터분석 ) 와는달리 1977 년 John W. Tukey 가 (Princeton University Bell Lab) 제안한탐색적데이터분석 (EDA: Exploratory Data Analysis) 방법은이미수집된데이터로부터정보를얻어내는일련의방법이다. 1) 이미수집된데이터가가진정보를간편한계산식에의해구해진숫자요약 ( 중앙값, 사분위 ) 과그래프 ( 예 : stem-leaf plot, box plot, scatter plot) 를이용하여찾아내거나 2) 데이터를보다유용하게 ( 정규분포혹은대칭인분포 ) 만들기위하여데이터를재표현 (re-expression = data transformation 예 : log 변환 ) 하거나 3) 데이터가어떤분포에적합한지알아보는방법에관련된데이터분석방법이다. ( 적합성검정 ) 1) EDA is about looking at data to see what it seems to say 데이터가가진정보를데이터의탐색만으로얻는방법이다. 이전통계학이추론통계에의존했다면 EDA 는통계학이기술통계학 (descriptive statistics) 임을강조하고있고통계적가설설정과정이없다. 2) EDA is a detective work. 여러도구 (tools: 기술통계량, 관련그림 ) 와직감 (intuition: 데이터분석경험에서얻는분석 know-how) 이용하여정보 ( 결론 ) 를유추하는분석방법이다. CDA 는판사의 (judge) 작업이라면 EDA 는여러정황을고려하여사건을분석하는탐정과같은역할이다. 3) To learn about data analysis, it is right that each of us try many things that do not work. 데이터로부터정보를얻기위한다양한시도를해야한다. 데이터를다루는풍부한경험 ( 비록성공하지못하더라도 ) 으로부터올바른데이터분석이가능하기때문이다. 2
4) EDA can never be the whole story, but nothing else can be served as the first step. 탐색적데이터분석은분석의모든것은아니지만첫단계가된다. 탐색적데이터분석을통해얻은정보를이용하여통계적가설이나모형을설정하여연구하기도하고의사결정에이용하여정보의정확정도를측정하기도한다. 5) EDA is a paper-pencil method. 컴퓨터 ( 소프트웨어 ) 가보편화되지못하고데이터의수가적을때그래프나통계량들을직접그리거나계산하기에편리하게제안된방법이기때문에이런별명을가지고있다. 요즈음은통계소프트웨어의발달로쉽게그리거나구할수있으므로정보얻는방법, 해석방법을이해하는것이중요하다. 6) Data Mining is a modern EDA. 신용카드, 멤버쉽카드, 교통카드등카드사용에의해데이터가자동수집되고 OLTP(On-Line Transaction Process: 데이터자동수집 ) 수집된데이터를잘저장하는방법 Data Warehousing 기술의발달로 Data Mining ( 대용량의데이터에내재되어있는 patterns 이나 rules 을발견하는방법 ) 이가능해졌다. Data Mining 도일종의 EDA 이다. Data Mining 으로부터얻은정보를이용하여고객관리하는방법을 CRM 이라 (customer relationship management) 한다. 1.2 EDA 4 가지주제 1) Resistance to outliers, missing data, or miscoded data 이상치, 결측치, 입력오류에영향을받지않는 (resistant) 도구를사용한다. EDA 에서수집데이터의숫자요약통계량으로중앙값, 사분위수등을이용하는이유이다. ( 예 ) 1 2 3 4 10 평균 =5 그러나중앙값은 3이된다. 2) Residual is a off-value from the main stream 잔차는각값들이주경향으로부터얼마나벗어나있는지나타내는값이다. 앞의예에서중앙값을중앙 (main stream) 으로사용하는경우잔차는 2 1 0 1 7 이다. 그러므로마지막값에대해왜이런일이발생했는지탐색작업이필요하다. 다른예를살펴보면회귀분석에서직선의경향이벗어난관측치가이상치 (outlier) 인지영향치 (influential) 인지를산점도를이용해판단할수있다. 이상치나영향치나모두잔차 ( 추정회귀직선에서벗어난정도 ) 가크다는공통점은있으나영향치는이상치와는달리다른관측치에비해이상할정도로벗어나있다는근거를제시할수없는관측치를일컫는다. 3
3) Data Re-expression 원래데이터를 Log( 로그 ), Square root( 제곱근 ), Inverse( 역 ) 변환등으로데이터값을변화시키는것을데이터재표현이라한다. 이는데이터의분포의정규성 ( 아니엄밀히말하면대칭성 ), 균일성 (uniformity), 가법성 (additivity) 을얻기위하여시행한다. 통계데이터분석기법의대부분은변수의정규성 ( 적어도대칭성 ) 을가정하고있다. 예를들어페이지 1 에서표본을 25 명이아니라 15 명만뽑았다면검정통계량은더이상정규분포를따르지않는다. ( 즉 CLT: 중심극한정리 ) 이런경우모집단은정규분포를따른다는가정이있어야 t- 분포를이용할수있다. 만약모집단이정규분포를따르지않는다면데이터재표현 ( 변수변환 ) 을통해데이터가정규성을만족하게하여야한다. 다음은두변수간의관계를나타낸그래프, 즉산점도 (scatter plot) 이다. 왼쪽산점도에의하면 Y 와 X 의관계는직선관계가아니다. 대신 Y 를재표현 ( 변수변환 ) 하여 LogY 와 X 에대한산점도 ( 오른쪽 ) 를그리면직선관계가존재한다. ( 직선관계를분석하는것이결과해석이편리 ) Y log Y LOG 변환 X X 4) Graphic presentation EDA 에서는데이터에숨겨진정보를알아보기위하여다양한그래프가이용된다. 다음은키데이터에 ( 변수 ) 대한줄기-잎그림, 상자그림과키와몸무게의관계를나타내는산점도를그린예이다. (SAS Example Data) 4
그래픽표현 SAS CLASS 데이터중키의 ( 단위 : inch) 마지막데이터를 80 으로수정하였음. 몸무게 ( 단위 : pound) 데이터는동일. ( 상자수염그림 ) 키의경우이상치하나존재, 몸무게의흩어짐정도가큼, 좌우대칭분포형태를갖는다. 이상치제외하면모수적데이터분석에문제없음 ( 산점도 ) 키와몸무게간에는직선적관계가존재, 이상치하나있음 1.3 데이터분석의기본철학 탐색적데이터분석 허명회 & 문숭호, 자유아카데미, 2000 과학은이론적통찰 ( 예 : 상대성이론 ), 새로운현상의관찰 (Kepler 행성궤도관련법칙 ) 이나경험을 (Student T-분포 ) 통한새롭고혁신적인이론이만들어지는경우는극히드물고대부분관찰, 실험, 분석등의반복을통해이론이정립된다. 벼품종개량, 새의약품개발, 화학공정개선등이실험계획에의한연구결과가이에해당된다. 5
통계전문가는제시된이론을통계적가설이나통계모형으로설정하고관련데이터를수집하여가설 ( 모형 ) 의유의성을검정하거나 (confirmatory data analysis) 수집된데이터를탐색하여가능한모형이나이론을제시하는역할을 (exploratory data analysis) 담당하고있다. 이처럼 ( 탐색적 ) 데이터분석이타분야의새로운이론발견에기여할수있으려면 1) 그분야에대한지식 2) 모형과데이터 3) 그리고모형과데이터의사이클개념을올바로이해해야한다. 1.3.1 모형과데이터사이클 Confirmatory 모형 (model) Exploratory 데이터 f ( x : θ ) 모수 ( x 1, x 2,..., x n) y = f ( x1, x2,..., xp) 함수 ( y i, x1i, x2i,..., xni), i = 1,2,..., p 과학에서이론이제안되고데이터분석이이루어지는경우보다는데이터로부터새로운이론이나모형을도출하는경우가많고탐색적자료분석에의해제안된이론이나모형은다시 confirmatory 방법에의해유의성이 (significance) 검증되므로모형과데이터는순환사이클을갖는다. 통계적모형은과학적진실이기보다는사실의대표적모형이다. 예를들어, 회귀모형에서는 ( y = a + bx + e ) 설명되어지지않는오차항이존재하고이오차항은 iid ~ N(0, σ 2 ) 을가정한다. 1.3.2 탐색적데이터분석의성공사례 1973 년미국뉴저지주지사는오존수준을안전수준으로낮추기위하여자동차배기가스를현재수준의 2/3 으로줄이는법안입안을요청받았다. 이법안의타당성조사를벨연구소 (Bell Lab) 에의뢰하였다. 7 년간 60 개측정소에서 300 만개측정자료를수집하여 plot 한결과 1) 최고오존수준은요일별차이가없고 => 원인규명이어려움 2) 농촌지역인 Ancora 지역에서높은오존수준보인다는특이한사실을발견하였다. 2) 의원인으로이지역에서 37km 떨어진 Philadelphia 지역의공해물질이바람에날려와서오존수준을높였을가능성이주장되었다. 이주장은오존수준과풍향과의 plot 을통해사실임이밝혀졌다. 6