일변량분석개념 일변량분석은개체의특성을 측정한변수가하나인 통계분석 방법 변수의 종류 ( 수리 통계 ) 이산형 (discrete): 측정결과를셀수있는경우이다. 성별, 직업, 교통량, 나이등이여기해당된다. 연속형 (continuous): 측정결과가무한이 (infinite) 많은변수를연속형형변수라한다. 즉변수의범위 (range) 중어떤구간을설정하더라도측정치가발생할할수있는경우로키, 몸무게, IQ, 소득등이여기에해당된다. ( 자료분석 ) 측정형변수 (metric, measurable, quantitative): 실험개체의측정가능한특성을측정한변수, 측정단위가존재 ; 키, 몸무게, 평점, IQ, 교통량, 사망자수가그예이다. 연속형변수는모두측정형변수이고이산형변수중측정형변수가있을수있다. ( 예 ) 교통사고건수, 나이 ( 년 ) ( 1) 구간 interval : 값의크기가등간 ( 온도, 증가율 ) (2) 비율 ratio : 정대 0 이존재하며두값의비교가배수(times) 가능능 : 대부분측정형 평균 & 표준편차, 중앙값 &IQR 분류형 ( 범주형 ) 변수 (non-metric, classified, categorical, qualitative): 개체를분류하기위해측정된변수를의미하며성별, 결혼여부등이그예이다. (1) 명목형 (nominal) : 개체를분류만한다. 성별, 결혼여부, 학력 (2) 순서형 (ordinal) : 순서를가진다. 성적 (A, B,..) 소득수준 ( 상, 중, 하 ), 리커트척도 (5 점, 매우만족, 만족,, 매우불만족 ) 빈도분석, 비율 분석방법비율추론평균추론분산추론모수적방법 vs. 비모수적방법 1
in EDA 데이터를그래프로표현하여개체를구성한모집단의정보를얻는다. 범주형데이터는바차트로표현되어비율 ( 상대빈도 ) 로요약됨 측정형데이터는데이터의중앙위치, 흩어진정도, 봉우리형태등을 표현 그래프 요약필요성 개별변수에대한일변량분석은변수가가진정보를그래프로요약하거나나주요한숫자값으로 ( 통계량 ) 요약하게된다. 앞에서언급하였듯이그래프요약은변수에대한가정이 ( 확률표본, independently and identically y distributed) 성립하는지진단하게된다. 그래프진단은데이터의좌우대칭 ( 종모양 symmetric, bell shaped), 이상치치진단을하게된다. 그이유는평균이주된도구이기때문이다. 평균은치우침과이상치에취약하다. 확률분포함수 probability densityy functionn 일변량데이터가가진정보은확률밀도함수에의해표현된다. 확률변수표본공간 S 의모든원소 ( 결과 w ) 에실수 x 을대응시킨규칙을확률변수 X ( w) x 확률분포함수확률변수 X 의확률밀도함수 (probability density function, f pdf) 는확률변수 X 가가지는값 x 와그에대응하는확률 px ( ) 을그래프, 수식, 표형태로나타낸것이다. 만약좋은표본이 ( 모집단의축소판 ) 추출되었다면표본의분포는모집단의분포와같다. 그러므로만약모집단의분포 ( 실선 ) 함수를안다면다음을구할수있다. 모집단개체중 2
일부구간 ( 빨간점선구간 ) 에속한개체비율 ( 확률 )? 그러나불행히도표본자료의 분포로부터함수 식 (x) f ( 확률분포함수 : 실선그래프 ) 을아는것은불가능하다. 그러므로일반적으로통계학에서는모집단의분포에대한가정을하거나 ( 예 : 모평균검정을위한 t-검정에서소표본일경우모집단정규분포가정 ) 대표적인분포함수 ( 이항분포, 포아송분포, 지수분포, 감마분포, t-분포, F-분포, 정규분포 ) 를규정하고있다. 데이터 분석 : 확률분포를역할 데이터분석에서는모집단의확률분포함수형태를알고자하는것은아니다다. 모집단의특성을나타내는모수 parameter ( 예 : 평균, 비율, 분산 ) 에대한추정및가설검정이중요하다. 그러면데이터분석에서표본데이터확률분포를시각화하는이유는? 모집단으로부터확률표본기법을통하여얻어지는데이터 중심극한정리 에의하면표본의크기가크면표본평균 ( x ) 의분포는모집단의분포와관계없이 ( 모르더라도 ) 정규분포를따른다의미? CLT 는표본분포함수 (sample distribution) 에대한것이아니라표본평균의분포 (sampling dist.) 에관한것이다. 표본분포함수 ( 실선 ) 는여전히모집단의분포함수 f (x) 와동일하다. 그러니가정이나사전정보없이는그래프만가지고는알수없다. 그러나대표본 (n> 20~30) 일경우표본평균의분포는는 CLT에의해정규분포를따른다. 이것이왜그렇게중요하다. 우리가모집단에관심을가질때모집단자료전체에대한정보 ( 분포함수 ) 를구하는것보다는모집단의자료정보를요약한값 ( 이를모수 : parameter 라함 ) 에관심을갖게된다. 예를들면중앙의위치는?( 평균, 중앙값 ) 자료의흩어진정도는? ( 표준편차, 범위 ) 특히모집단의평균 ( ) 에관심을갖게된다. 이경우모집단의분포를모르더라도 CLT 에의해다음사실을알수있다. ( 이전페이지그림점선그래프참고) x Pr( z / 2 1 s / n ) s x z / 2 : 모평균 95% 신뢰뢰구간 n 만약대표본이아닌경우는 t-t 분포를이용해야되는데이런경우모집단은은정규분포를따르고있음을가정하게된다. 3
(1) B ( p 0.1) 베르누이확률분포를그리시오. (2) 베르누이분포 B( p 0.1) 에서크기 2인확률표본을추출하여표본평균을구하시오 (3) 표본평균을이용하여 95% 신뢰구간을구하고, 구해진신뢰구간이모평균을포함하고있는지판단하시오. (4) 위의 (2)-(3) 작업을 100 번반복하여 100개표본평균을구하고, 100 개 95% 신뢰구간중모평균을포함하지않은신뢰구간의수를적으시오. (5) 얻어진표본평균 100 개를이용하여표본데이터확률분포함수를그리시오. 즉히스토그램을그리시오. (6) 베르누이분포 B( p 0.1) 에서크기 20 인확률표본을추출하여평균을을구하고, 이런작업을 100 번반복하여 100 개표본평균을구하시오. (7) 얻어진표본평균 100 개를이용하여표본데이터확률분포함수를그리시오. 즉히스토그램을그리기 위의동일한작업은 Normal( 10,5) 에서실시하시오. 통계분포함수 (statistical distribution function) 함수 d*(x, 모수 ) p*(x, p, 모수 ) q*(p, 모수 ) r*(n, 모수 ) 기능확률밀도함수확률값, f(x) 분포함수값, F(x) 역분포함수값, F -1 (p) 분포함수따르는데이터 n 개랜덤하게생성 4
http:// /www.statmethods.net/management/index.html ( 데이터관리 ) 제어문 control statement for( 변수 in 연속 ) { 문장 } 연속에지정된값만큼변수값이이변화하면서 문장 을반복실행한다. 5
if ( 조건 ) { 문장 } 조건이만족하면문장이 실행된다. while( 조건 ) { 문장 } 조건이만족하는동안문장반복실행된다. 함수만들기 6
plot(x, y, main=, sub=, xlim=c(a, b), ylab=, type= t ) 그래프함수 자신의 함수활용하기 7
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis 줄기잎그림 stem and leaf + 진단내용 1) 분포의개략적인형태를알수있다. (1) 좌우대칭인가? 아니면 skewed 되었는가? (2) 봉우리 (modal) 는하나인가? 아니면여러개인가? 2) 이상치의존재여부를쉽게파악할수있다. + 데이터 ( 정렬 ) ( 정렬않음 ) + 그리는순서 자료를크기순으로정리한다. 자료의수가많을때는자료정렬을수작업하기어려움으로이단계는무시해도되지만자료를크기순으로정렬해놓으면 plot 을그리기편리하다. 자료를살펴줄기와잎을결정한다. CEO 연봉자료를살펴보면 100 단위를줄기로하고 10 단위이하를잎으로하여 plot 을그리면될것이라는것을알수있다. 줄기수는히스토그램의계급구간수에해당되므로 8~12 정도가적절하다. 적정개수가아닌경우줄기수조정에대해서는다음에다루기로한다. 한열에줄기 (stem) 를먼저그린다. Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 8
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis 위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞에것하나만적으면된다. 굳이반올림하는수고를할필요는없다. 줄기-잎그림의목적은자료의분포형태와이상치를아는것이주된목적이기때문이다. 줄기 - 잎그림 + 엑셀에서콤마가있는파일형식으로저장한후읽어들인다. + ds$ 변수명 ; 오브젝트 ds 내의변수명변수를이용지정 줄기-잎그리기 http://lib.stat.cmu.edu/dasl/stories/singerheights.html 합창단원의키에대한 ( 단위 : inch) 데이터이다. 1) 각파트의줄기-잎그림을그리고해석하시오. 2) 키데이터전체에대한줄기-잎을그리고해석하시오. Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 9
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis + Stem-leaf plot 해석하기 > 자료의분포형태 stem-leaf plot 을통하여자료의분포형태를알수있으므로분포의형태를알수있다. 이는히스토그램과같은역할이다. > 봉우리 ( 최빈값 ) 위치및개수 => 봉우리의개수가집단의개수이다 > 좌우대칭여부 > 자료의범위및분산 > 이상치존재여부및위치 ( 히스토그램과비교 ) 줄기-잎그림을 90 도회전하면히스토그램 ( 이를 bar chart 라고도함 ) 이된다. 히스토그램은자료의값의정보가상실되지만 ( 실제값은알수없고빈도만바의크기로나타난다 ) stemleaf plot 은자료값이나타난다. 그러므로히스토그램에비해더많은정보를얻을수있다. (1) 확률분포함수추정 위의예제처럼 stem-leaf plot 의정점을연결하면확률분포함수를얻게된다. 아래그림은 모집단 CEO 연봉의확률밀도함수의추정형태이고 ( f (x) ) 면적은 1 이다. (2) 대칭, 치우침여부 symmetric (bell-shaped) 좌우대칭, 종모양 skewed to the right positively skewed 우로치우침 skewed to the left negatively skewed 좌로치우침 Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 10
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis 평균과중앙값일치평균 > 중앙값평균 < 중앙값 좌우대칭으로만들려면 자료변환을하면된다. X* X mild pos. X* log( X ) pos. X * 1/ pos. X * 1/ severe X severe X more 2 X* X mild neg. 3 X* X extreme neg. ( 정규성검정 ) Anderson-Darling test for normality ( 연봉모평균에대한 95% 신뢰구간구하기 ) conf.level=0.95 Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 11
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis 히스토그램그리기 우로치우침이있으므로제곱근변환, 혹은로그변환데이터중어느변환이더 좌우대칭분포에가까운지알아보시오. (3) 봉우리위치및개수히스토그램의봉우리는분포의최빈값에해당되는부분으로일반적으로최빈값은하나일가능성이가장높다. 구간설정에따라바로옆의구간이동시에최빈값이되는경향이가끔나타나기도한다. 다음의경우는 bi-modal 분포함수라하지는않는다. 왜냐하면구간을조정하면봉우리가하나로될수있기때문이다. CEO 연봉은단봉형태를갖는다. 단봉 uni-modal 다봉 bi-modal / multi-modal 봉우리가 2 개이상인의미는모집단이하나이상일가능성이많다. 예를들어한남대학생들 100 명의몸무게를조사하여히스토그램을그리면 bi-modal 형태가될가능성이높다. 왜냐하면여자와남자몸무게의차이가나기때문에그런현상이발생한다. 즉측정변수의특성에따라모집단이나누어진다. 용돈을조사하여히스토그램을그려보면아마봉우리가 3-4 개일가능성이있다. 왜? 학년별차이로인하여 이처럼어떤변수를측정하느냐에따라같은모집단이라도봉우리의개수가다를수있다. 봉우리가 2 개이상인경우는집단을분리하여추정및검정을시행하는것이바람직하다. 그러나집단에대한정보가없다면데이터를분리하여분석하는것이쉽지않다. Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 12
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis ( 왜좌우대칭이어야하나?) 1) 회귀분석, 분산분석등대부분의통계분석에서종속변수는정규분포를따르고있다는가정을한다. 만약이것이무너지면 t-검정, F-검정을사용할수없다. 3 학년수업에서배우기를 2) 대표본표본크기 n 의크기? : 자료분석의목적은그래프정리 (bar chart, pie chart) 나숫자적정리 ( 평균, 표준편차 ) 에서끝나는것이아니라이정보를가지고모수 ( 예 : 모집단의평균 ) 를추정하거나그에대한가설을검정하게된다. CEO 30 명의연봉자료를이용하여전체 CEO 의연봉에대해알고싶은것이다. 통계소프트웨어에서출력되는 p- 값은 two-sided( 양측검정 ) 가설검정시값을출력한다. 그러므로위의경우대립가설을 H : 350( 양측검정 ) 설정하면 p-값이 0.0821 로 a 0.05 보다크므로귀무가설을기각할수없으나대립가설을 H : 350( 단측검정 ) 설정하면 p-값이 0.04105 이므로 0.05 보다적어귀무가설을기각하고연봉은높아졌다고결론지을수있다. 그러므로양측검정결과귀무가설이기각되면같은유의수준에서단측검정결과도귀무가설을기각한다. a (4) 범위와흩어진정도 분포의형태를알수있으므로자료의범위 (range= 최대값 - 최소값 ) 와흩어진 (spread) 정도를 알수있다. 흩어진정도 ( 표준편차 ) 범위 (range) (5) 이상치 (outlier) 발견다른관측치에비해매우크거나적은관측치를이상치 (outlier) 라한다. 이런이상치는히스토그램에서쉽게발견될수있다. 히스토그램이나 stem-leaf plot 의경우다른관측치와멀리떨어져있으면이를이상치라한다. CEO 연봉자료에서이상치는연봉이 1103( 백만 ) 인사람이다. 물론이값이이상치인지는검정통계량을이용하여 (Box-plot 이나검정방법을이용하여검정해야하지만우선쉽게찾을수있다는장점이있다. CEO 연봉의경우다른 CEO 에비해연봉을이상적으로높게받는 CEO ( 이를이상치라함 ) 가있음을알수있다. Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 13
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis 이상치가발견되면그해결책은이상치인관측치의원자료를확인, 입력오류인지살펴본다. 오류가있으면정정한다. 이상치의대상인개체를조사해문제가있는개체이면자료에서제외한다. 예를들면 1103( 백만 ) 연봉을받는사람을조사하였더니외국인전문사장이었다. 국내 CEO 연봉으로간주하기어렵다면제외여전이유효한데이터이면자료변환을통하여이문제를해결하게된다. 변수변환 ( 자료변환 ) 을통하여이상치문제가해결되면이는치우침의한부분이된다. + 줄기수조정일반적으로자료의분포형태를잘파악하기위해서는줄기의수가 8-10 개정도되어야한다고한다. 연봉데이터예제에서본것처럼줄기수는변수측정치의범위에의해결정된다. 그러므로줄기의수를조정하여적절한줄기-잎그림을그려야한다. > 줄기수가너무많으면 (squeezed stems) 줄기를일정한수만큼합치는방법을생각하면된다. 만약줄기가 1-20 까지있다면 1-2, 3-4, 5-6,, 19-20 을각각줄기로하면줄기수가 20 개에서 10 개로줄어든다. 이처럼줄기수에따라 2 배, 3 배, 4 배씩줄이면된다. > 줄기수가너무적으면 (stretched stems) 줄기를 2 등분 (double stem) 혹은 5 등분 (five-line stem) 하여사용한다. ( 예 ) double stem: 1 * (1.0~1.4), 1. (1.5~1.9) ( 예 ) five-line stem: 1 * (.0,.1), 1 t (.2,.3), 1 f (.4,.5), 1 s (.6,.7), 1. (.8,.9) Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 14
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis 적정줄기수에관한공식 > Sturges formula L [ 1 log 2 n] ( 예 ) n=30 L=5 > Velleman formula L [ 2 n] ( 예 ) n=30 L=10 > Dixon-Kronmal formula L [ 10log10 n] ( 예 ) n=30 L=14 그러나위의공식에의해줄기수 (L) 를결정하면자료값에따라줄기를결정하기어렵고분포형태를제대로알기어려운문제가있어이공식들은사용되지는않는다. [x] 의의미는 x 보다크지않는최대정수값을의미한다. [2.9]=2 / [3.1]=3 R 활용 - nclass 옵션은구간의개수를결정한다. - freq 옵션은빈도대신상대빈도 ( 확률 ) 을 y- 축으로사용하라는옵션 - 함수 lines() 는확률밀도함수를그리라는옵션 히스토그램그리기 http://lib.stat.cmu.edu/dasl/stories/singerheights.html 합창단원의키에대한 ( 단위 : inch) 데이터이다. 1) 각파트별히스토그램을그리고해석하시오. ( 확률밀도함수도그리시오 ) 2) 키전체에대한히스토그램을그리고해석하시오. Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 15
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis 상자수염그림 box whisker plot Stem and leaf( 줄기-잎 ) plot 은자료의분포의형태 ( 좌우대칭, 단봉 ) 파악과이상치를발견할수있는도구이다. 그러나 S-L plot 만가지고는정확한중앙위치, 자료의사분위값의위치 (25%, 50%, 75% 부분의값들 ), 이상치라시각적으로판단되는관측치가정말이상치인지알수진단해야한다. Box-whisker ( 상자수염 ) 그림은 plot 중앙값 ( 때로평균까지 ) [ 상자안의실선 ], 사분위위치, [ 상자끝단 ], 자료의최대값, 최소값 (whisker), 이상치존재여부 (bullet) 를그려놓은상자형태의그림이다. + Box and whisker plot 그리기상자로부터나온선이수염처럼생겨 Box and whisker plot 이라고하는 Box plot 을그리는순서는다음과같다. [CEO 자료이용 ] [ 순서 1] 자료의최소값, 최대값을이용하여 y 축선을그린다. [ 순서 2] Q1, Q3 를이용하여상자를그린다. 상자의넓이는아무의미가없다. [ 순서 3] 상자가운데중앙값을그리고평균은기호로 (+) 표시한다. 1000 1000 1000 500 500 543 262 500 + 543 462(+)/ 365 262 0 0 0 Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 16
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis [ 순서 4]IQR 을이용하여가상선 (imaginary line) Inner fence, Outer fence 를그린다. 가상 선은실제상자그림에표시되지않는다. 이상치존재여부를표현하기위한임시선이다. IQR=(543-262)=281 Inner fence ( Q1 1. 5 IQR, Q3 1. 5 IQR ) =(-159.5, 964.5) Outer fence ( Q1 3 IQR, Q3 3 IQR ) =(-581, 1386) [ 순서 5] 수염과이상치를표시한다. 관측치중 Inner fence 를넘지않는최대, 최소값까지 수염을그린다. Fence 를넘는관측치를이상치라 (outlier) 한다. outer fence 까지넘는 관측치는 severe ( 극심한 ) 이상치, inner fence 만넘으면 mile 이상치라한다. [CEO 에서 1103 은 mild 이상치 ] outer fence 1000 inner fence 1000 500 + 500 + [ 분포함수 ] Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 17
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis 줄기 - 잎그림 + Box Plot 해석하기분포의형태박스, 박스안의선 ( 중앙값 ), 수염의길이를이용하여분포의형태를짐작할수있다. 박스에 50% 자료가있고박스위부분에 25%, 박스아래부분에 25% 가있다. 박스내에서도중앙선위부분에 25%, 아래부분에 25% 가있으므로분포의형태를알수있다. CEO 연봉은우측으로치우친형태를띠고있음을알수있다. ( 위쪽, 즉확률밀도함수의오른쪽상자와수염부분이왼쪽에비해살짝길다 ) 그러므로평균이중앙값보다크므로역시치우친형태임을알수있다. 확률분포함수는빨간선이다. 단점은봉우리의개수를알지못하는단점이있으므로보완적으로줄기-잎그림그린다. 중앙값, 산포정도, 군집자료관측치의중앙위치, 그리고관측치들의어디에모여있는지 ( 군집 ), 자료값들의흩어진정도를파악할수있다. 중앙값이 350 부근 ( 실제로는 365) 임을알수있다. 값의범위 (range), 사분위값을대략적으로알수있다. Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 18
Exploratory Data Analysis Spring, 2012 Chapter 2. Univariate Analysis 이상치존재판단자료관측치중다른값들에비해지나치게크거나작은관측치, 이상치의존재여부를파악할수있다. 연봉이 1100 이상을받는 CEO 는이상치임을알수있다. 줄기-잎그림을통해서는이상치존재여부를짐작할수있지만, 상자수염그림을통하여판단가능하다. stem-leaf plot 과는관측치값들에대한정보를얻을수없다는단점이있으나표본분포의형태도파악할수있고중앙값과이상치를표시하여표본자료의정보파악이용이하다. 특히 box-whisker plot 은집단간자료의분포차이비교, 모평균차이검정시매우유용한 plot 이다. 상자수염그리기 http://lib.stat.cmu.edu/dasl/stories/singerheights.html 합창단원의키에대한 ( 단위 : inch) 데이터이다. 1) 키데이터전체에대한줄기-잎을그리고해석하시오. 2) 각파트의상자수염그림을한그래프에그리고해석하시오. 상자수염그리기 FASTFOOD.xls 미국 fast-food 레스토랑 5 개의 Drive-through 서비스소요시간을측정한것이다. 레스토랑상자 - 수염그림을한화면에그리고결과를해석하자. Professor Kwon, Sehyug Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 19
숫자요약구하기 : 중앙위치 ( 평균 mean) 크기의중앙, 관측치크기 (magnitude) 의중앙으로모든관측치를합한후데이터크기로나눈값 x x i n ( 치우침 skewness 존재 ) 평균은치우침에취약하므로다음사항을처치한다. (1) 데이터변수변환 ( 예 ) 로그변환, 제곱근변환 (2) 절삭평균 trimmed mean; 양측꼬리일부데이터를제외한평균 (3) Winsorized mean; 양측꼬리부분데이터를바로전데이터로대체하여구한평균 ( 이상치존재 ) 평균은이상치에매우취약하므로제거후평균을계산하다다. R 활용 다시아래이상치가발생 = > 제외해 보자 20
( 중앙값 median) 순서의중앙, 관측치를크기중앙깊이 Median Depth = 순으로 ( 순서통계량 ) 하였을때중앙에위치한한관측치 ( n 1) 2 M x(( n 1) / 2) 숫자요약 : 흩어짐 (spread) ( 분산 variance) 관측치들이평균으로부터떨어진거리의제곱합을데이터크기혹은 ( 크기-1) 로나눈값이다. 관측치들의크기의흩어짐을측정한값이다. ( 표준편차 standard deviation) 2 (x i n x) 2, 2 s ( x i x) 2 n 1 2 분산의양의제곱근이다., s s, 단위가평균과동일하여분산대신신 ( 평균, 표준편차 ) 를숫자요약으로제시한다. 순서통계량 (order statistics) 크기가 n인표본자료의관측치 (observation) ( x 1, x 2,, xn ) 을크기순으로정렬한후가장작은관측치를 x ( 1), 그다음큰관측치를 x (2),,, 가장큰관측치를 x(nn ) 이라표현하고 x (1), x (2),.., x(nn ) 을순서통계량이라한다. 1) x ( 1) x(2)... x( n) 2) 최소값 (min): 4) 중앙값 (median): x n 1 (n이홀수 ) [ x n x n ]/ 2 (nn 이짝수 ) ( ) ( ) ( 1) 2 2 2 Quartile depth = QD MD 1 2 ( 범위 range) 순서의흩어짐에대한측정값, R x(max) x (min) (midrange) x (1), 3) 최대값 (max) x ) : (n 범위도이상치나 치우침에영향을받으므로제삼분위 ~ 제일사분위값을정의한다. 21
Quartile ( 사분위 값 ) 구하기 > 일사분위 (First Quartile, Low Quartile) ) Q1; 자료의 25% 가그값보다작고자료의 75% 가그값보다크게될때그값을큰일사분위라정의한다. > 이사분위 (Second Quartile, Median) Q2=Median; ; 자료의 50% 가그값보다작고자료의 50% 가그값보다크게될때그값을큰이사분위라정의한다. 이를특히히중앙값이라한다. > 삼사분위 (Third Quartile, Upper Quartile) Q3; 자료 75% 가그값보다작고자료의 25% 가그값보다크게될때그값을큰삼사분위라 (Lower percentile) 정의한다다. Inter-Quartile Range (IQR=Q3-Q1); ( 삼사분위값- 일사분위값 ) 을 IQR(= =Q3-Q1) 로정의한다. 깊이 (depth) 각사분위값을구하려면자료의깊이 (depth) 개념을이용하면편리하다다. (Tukey 제안 ) 관측치를크기순으로정렬한후각양쪽끝에서 1 부터번호를매겨그번호를자료의깊이라정의한다. 즉최대값, 최소값의깊이는각 1 이다. Depth( 중앙값 =M)= ( n 1) / 2 이다. CEO 자료에서 Depth(M)= =15.5 이다. 크기순으로정렬했을때 15 번째관측치와 16 번째관측치의평균이다. ( x ( 15) x( 161 ) ) / 2 365 이다. Depth( (Q1)=Depth(Q3)=([Depth(M)]+1)/22 이다. [x]=xx 를넘지않는최대정수. [2.6]=2 CEO 자료에서 Depth(Q1/Q3) )=([15.5]+1)/2=8 이다. Q x ( 2622 이고 Q3 x ( 543이다. 1 8) 18) EDA 에서의 skewness 개념 ( Q Skew 3 ( Q3 M ) ( M Q1 ), 1 ske ew 1 M ) ( M Q1 ) E( X ) 3 왜도 (skewness): 분포의치우침을나타내는값으로 0( 정규분포포, t-분포 ) 이면좌우 3 대칭이고양의값이면우로치우침 (skewed to the right, positively skewed) ), 음의값이면좌로치우침 (skewed to the left, negatively skewed) 이다. 검정통계량은존재하지않는다. 22
kurtosis( 첨도 ): E( X ) 4 분포의첨예 ( 뾰족하다 ) 정도나타내는값으로정규분포는 3, 4 3보다크면완첨 (leptokurtic) 하다고 ( 봉우리가낮고완만하여평균주위에에데이터가있을확률이정규분포에비해낮고꼬리는가는형태 ) 하고 3 보다적으면급첨첨 (platykurtic) 하다한다 ( 봉우리가높고뽀족하며, 꼬리가두꺼운형태). 검정통계량없음. 정규분포를 0 하는경우계산된첨도-3 을첨도값으로주는패키지도있음. 함수 moment() 는패키지 moments 를설치하여야한다. 적률 momnent => k 차적률계산식 E( X ) k R 활용 왜도 =0.97, 우로치우침첨도 =3.591-3=0.591,, 정규분포에비해중심은낮고완만하며꼬리가가늘다. 변동계수 (variation coefficient): 측정단위에따라표준편차의값의크기가달라지므로단위가다른두집단을비교하는경우두표준편차의단위를같게할필요가있다. 이를위하여표준편차를를평균으로나눈값에 100 을곱한값을변동계수 (CV: Coefficient of Variation) 라하고상대대변동 ( 분산 ) s 개념으로정의하고있다. 표본자료의평균이 x, 표준편차가 s 인경우 CV 100(%) x 이다. EXAMPLE 고등학교 3 학년인 A 학생과 B 학생의공부습관을조사하여한달간조사하여 A 학생은평균 3 시간, 표준편차는 0.5, B 학생은 6 시간표준편차 0.8 인결과를얻었다. 어느학생이더꾸준히공부하는습관을가지고있을까? 이에대한한답을위해변동계수를계산하면된다. A 학생공부시간에대한변동계수 = 0.5 / 3 100(%) =16.7 (%) B 학생공부시간에대한변동계수 = 0.8 / 6 100(%) =13.3 (%) 위의계산결과 B 학생이더꾸준히공부하는습관을가지고있다고결론론지을수있다. 23
데이터 정렬 attach(ds) newds=ds[order(ceo.salary),] newds2=ds[order(-ceo.salary),] ] R 활용 FASTFOOD.xls ( 레스토랑드라이브 through 서비스시간 ) 레스토랑별평균, 표준편차, 중위수, 사분위, 그리고 CV 값을계산하시오. (1) 그래프요약 ( 치우침, 이상치 ) 와비교하시오. (2) 변동계수를이용하여레스토랑서비스시간에대한평가를하시오. 24
치우침진단및해결 ( 중심극한정리 ) CLT in R 평균이 0.5 인지수분포로부터표본의크기 n=5, 10, 15, 20 인표본을추출하여평균을구하고, 이런작업을 100 번하여평균에대한히스토그램을을그리시오. split.screen(c(2,2)) 함수를이용하여 4 개히스토그램을한화면에그리시오. 커널분포함수도그리시오. Let (x 1, x 2,, x n ) be an iid sample drawnn from some distribution with an unknown density ƒ. We are interested in estimating the shape of this function ƒ. Itss kernel density estimator is 25
where K( ) is the kernel a symmetric but not necessarily positive function that integrates to one and h > 0 is a smoothing parameter called the bandwidth. A kernel with subscript h is called the scaled kernel and definedd as K h (x) = 1/h K(x/h). Intuitively one wants to choose h as smalll as the dataa allows, however theree is always a trade-off between the bias of the estimator and its variance; more on the choice of bandwidth later. A range of kernel functions are commonly used: uniform, triangular, biweight, triweight, Epanechnikov, normal, and others. The Epanechnikov kernel is optimal in a minimum variance sense, thoughh the loss of efficiency is small for the kernels listed previously, and due d to its convenient mathematical properties, the normal kernel is often used K(x) = ϕ(x), where ϕ is the standard s normal density function. (From Wikipedia) 시각적 진단 o히스토그램이나 상자수염그림의치우침 숫자요약진단 o평균과중위수차이 E( ( X ) 3 o 수리왜도 : 3 ( Q o EDA 왜도 : Ske 3 M ) ( M Q ew 1) ( Q3 M ) ( M Q1 ) o 정규성검정 : Anderson Darling 검정, K-S 검정, Shapiro-Wil ks 검정 26
치우침 해결 X 3, left X 2, mildd left o Power 변환 Y * Y, mildd right ln( Y ), right 1/ Y, severe right 치우침침진단과 해결 http://lib.stat.cmu.edu/dasl/datafiles/nursinghomedat.html (BED~FEXP) 변수의치우침을진단하고치우침을해결하시오. 시각적진단 ( 히스토그램과 Kernel 분포함수이용 ) 과정규성검정활용하여치우침진단하고, 적절한파워변환에의해데이터치우침해결 BED = number of beds in home MCDAYS = annual medical in-patientt days (hundreds) TDAYS = annual total patient days (hundreds) PCREV = annual total patient care revenue ($hundreds) NSAL = annual nursing salaries ($hundreds) FEXP = annual facilities expenditures ($hundreds) RURAL = rural (1) and non-rural (0) homes 27
봉우리문제진단및해결 ( 봉우리개수의미 ) o봉우리개수는서로다른개채집단을의미 o성별을고려하지않은키 / 몸무게데이터, 학년을진단히스토그램활용 고려하지않은월용돈돈지출데이터 해결 집단을분리하여 분석 이상치진단및해결진단 상자- 수염그림해결 이상치 제거 일변량분석 28
모비율 o모비율추정치 o모비율 p 에대한신뢰구간 o 가설 H0 : p p 0 vs. H0 : p p 0 Yes no 정규분포와 t-분포의관계 n이커지면 t(df n) Normal( 0,1) 이다. 소표본 (small sample) 일 경우중심극한정리를사용할 수없으므로표본 평균 x 의 분포는정규분포라할수없다. 대신모집단이정규분포를 따르면다음분포는 t-분포를따르므로소표본인경우모집단 평균가설 검정은 t-분포를 이용한다. x n ~ t( df n 1) 평균 =0, 분산 = s / n n 2 까만선은표준정규분포함수, 빨간점선은 t-분포함수이다. Why? t-분포의분산이크다. 29
모평균 o모평균추정치 o모평균 에대한신뢰구간 o 가설 H0 : 0 vs. H0 : 0 pop. Dist. sample dist. Sampling dist. 30
모평균 차이검정 o모평균추정치 o모평균 1 2 에대한신뢰구간 pop. Dist. o 가설 H 0 : 1 2 vs. H0 : 1 2 sample dist. yes no Sampling dist. 31
METER.txt 이데이터는 47 개월동안 A시전체 (7,000 개 ) 주차요금징수기로부터터수금한주차비이다. CON 은주차비징수대행기관이 7,000 개전체를, CITY 는시청직원이징수한시청주변일부 47 개에서징수한요금이다. 위의데이터를징수요금 95% 이용하여 ( 대행기관, 시청직원직접징수 ) 주차요금 1 년평균 신뢰구간을구하시오. Wealth.txt 지역별기업인의재산, 나이, 지역을 조사한데이터이다. ASIA 와유럽기업가의재산평균차이에대한있는지검정하시오. 95% 신뢰구간을구하고고차이가 32