줄기잎그림 stem and leaf + 진단내용 1) 분포의개략적인형태를알수있다. (1) 좌우대칭인가? 아니면 skewed 되었는가? (2) 봉우리 (modal) 는하나인가? 아니면여러개인가? 2) 이상치의존재여부를쉽게파악할수있다. + 데이터 ( 정렬 ) ( 정렬않음 ) + 그리는순서 자료를크기순으로정리한다. 자료의수가많을때는자료정렬을수작업하기어려움으로이단계는무시해도되지만자료를크기순으로정렬해놓으면 plot 을그리기편리하다. 자료를살펴줄기와잎을결정한다. CEO 연봉자료를살펴보면 100 단위를줄기로하고 10 단위이하를잎으로하여 plot 을그리면될것이라는것을알수있다. 줄기수는히스토그램의계급구간수에해당되므로 8~12 정도가적절하다. 적정개수가아닌경우줄기수조정에대해서는다음에다루기로한다. 한열에줄기 (stem) 를먼저그린다. 8
위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞에것하나만적으면된다. 굳이반올림하는수고를할필요는없다. 줄기-잎그림의목적은자료의분포형태와이상치를아는것이주된목적이기때문이다. 줄기 - 잎그림 + 엑셀에서콤마가있는파일형식으로저장한후읽어들인다. + ds$ 변수명 ; 오브젝트 ds 내의변수명변수를이용지정 줄기-잎그리기 http://lib.stat.cmu.edu/dasl/stories/singerheights.html 합창단원의키에대한 ( 단위 : inch) 데이터이다. 1) 각파트의줄기-잎그림을그리고해석하시오. 2) 키데이터전체에대한줄기-잎을그리고해석하시오. 9
+ Stem-leaf plot 해석하기 > 자료의분포형태 stem-leaf plot 을통하여자료의분포형태를알수있으므로분포의형태를알수있다. 이는히스토그램과같은역할이다. > 봉우리 ( 최빈값 ) 위치및개수 => 봉우리의개수가집단의개수이다 > 좌우대칭여부 > 자료의범위및분산 > 이상치존재여부및위치 ( 히스토그램과비교 ) 줄기-잎그림을 90 도회전하면히스토그램 ( 이를 bar chart 라고도함 ) 이된다. 히스토그램은자료의값의정보가상실되지만 ( 실제값은알수없고빈도만바의크기로나타난다 ) stemleaf plot 은자료값이나타난다. 그러므로히스토그램에비해더많은정보를얻을수있다. (1) 확률분포함수추정 위의예제처럼 stem-leaf plot 의정점을연결하면확률분포함수를얻게된다. 아래그림은 모집단 CEO 연봉의확률밀도함수의추정형태이고 ( f (x) ) 면적은 1 이다. (2) 대칭, 치우침여부 symmetric (bell-shaped) 좌우대칭, 종모양 skewed to the right positively skewed 우로치우침 skewed to the left negatively skewed 좌로치우침 10
평균과중앙값일치평균 > 중앙값평균 < 중앙값 좌우대칭으로만들려면 자료변환을하면된다. X* X mild pos. X* log( X ) pos. X * 1/ pos. X * 1/ severe X severe X more 2 X* X mild neg. 3 X* X extreme neg. ( 정규성검정 ) Anderson-Darling test for normality ( 연봉모평균에대한 95% 신뢰구간구하기 ) conf.level=0.95 11
히스토그램그리기 우로치우침이있으므로제곱근변환, 혹은로그변환데이터중어느변환이더 좌우대칭분포에가까운지알아보시오. (3) 봉우리위치및개수히스토그램의봉우리는분포의최빈값에해당되는부분으로일반적으로최빈값은하나일가능성이가장높다. 구간설정에따라바로옆의구간이동시에최빈값이되는경향이가끔나타나기도한다. 다음의경우는 bi-modal 분포함수라하지는않는다. 왜냐하면구간을조정하면봉우리가하나로될수있기때문이다. CEO 연봉은단봉형태를갖는다. 단봉 uni-modal 다봉 bi-modal / multi-modal 봉우리가 2 개이상인의미는모집단이하나이상일가능성이많다. 예를들어한남대학생들 100 명의몸무게를조사하여히스토그램을그리면 bi-modal 형태가될가능성이높다. 왜냐하면여자와남자몸무게의차이가나기때문에그런현상이발생한다. 즉측정변수의특성에따라모집단이나누어진다. 용돈을조사하여히스토그램을그려보면아마봉우리가 3-4 개일가능성이있다. 왜? 학년별차이로인하여 이처럼어떤변수를측정하느냐에따라같은모집단이라도봉우리의개수가다를수있다. 봉우리가 2 개이상인경우는집단을분리하여추정및검정을시행하는것이바람직하다. 그러나집단에대한정보가없다면데이터를분리하여분석하는것이쉽지않다. 12
( 왜좌우대칭이어야하나?) 1) 회귀분석, 분산분석등대부분의통계분석에서종속변수는정규분포를따르고있다는가정을한다. 만약이것이무너지면 t-검정, F-검정을사용할수없다. 3 학년수업에서배우기를 2) 대표본표본크기 n 의크기? : 자료분석의목적은그래프정리 (bar chart, pie chart) 나숫자적정리 ( 평균, 표준편차 ) 에서끝나는것이아니라이정보를가지고모수 ( 예 : 모집단의평균 ) 를추정하거나그에대한가설을검정하게된다. CEO 30 명의연봉자료를이용하여전체 CEO 의연봉에대해알고싶은것이다. 통계소프트웨어에서출력되는 p- 값은 two-sided( 양측검정 ) 가설검정시값을출력한다. 그러므로위의경우대립가설을 H : 350( 양측검정 ) 설정하면 p-값이 0.0821 로 a 0.05 보다크므로귀무가설을기각할수없으나대립가설을 H : 350( 단측검정 ) 설정하면 p-값이 0.04105 이므로 0.05 보다적어귀무가설을기각하고연봉은높아졌다고결론지을수있다. 그러므로양측검정결과귀무가설이기각되면같은유의수준에서단측검정결과도귀무가설을기각한다. a (4) 범위와흩어진정도 분포의형태를알수있으므로자료의범위 (range= 최대값 - 최소값 ) 와흩어진 (spread) 정도를 알수있다. 흩어진정도 ( 표준편차 ) 범위 (range) (5) 이상치 (outlier) 발견다른관측치에비해매우크거나적은관측치를이상치 (outlier) 라한다. 이런이상치는히스토그램에서쉽게발견될수있다. 히스토그램이나 stem-leaf plot 의경우다른관측치와멀리떨어져있으면이를이상치라한다. CEO 연봉자료에서이상치는연봉이 1103( 백만 ) 인사람이다. 물론이값이이상치인지는검정통계량을이용하여 (Box-plot 이나검정방법을이용하여검정해야하지만우선쉽게찾을수있다는장점이있다. CEO 연봉의경우다른 CEO 에비해연봉을이상적으로높게받는 CEO ( 이를이상치라함 ) 가있음을알수있다. 13
이상치가발견되면그해결책은이상치인관측치의원자료를확인, 입력오류인지살펴본다. 오류가있으면정정한다. 이상치의대상인개체를조사해문제가있는개체이면자료에서제외한다. 예를들면 1103( 백만 ) 연봉을받는사람을조사하였더니외국인전문사장이었다. 국내 CEO 연봉으로간주하기어렵다면제외여전이유효한데이터이면자료변환을통하여이문제를해결하게된다. 변수변환 ( 자료변환 ) 을통하여이상치문제가해결되면이는치우침의한부분이된다. + 줄기수조정일반적으로자료의분포형태를잘파악하기위해서는줄기의수가 8-10 개정도되어야한다고한다. 연봉데이터예제에서본것처럼줄기수는변수측정치의범위에의해결정된다. 그러므로줄기의수를조정하여적절한줄기-잎그림을그려야한다. > 줄기수가너무많으면 (squeezed stems) 줄기를일정한수만큼합치는방법을생각하면된다. 만약줄기가 1-20 까지있다면 1-2, 3-4, 5-6,, 19-20 을각각줄기로하면줄기수가 20 개에서 10 개로줄어든다. 이처럼줄기수에따라 2 배, 3 배, 4 배씩줄이면된다. > 줄기수가너무적으면 (stretched stems) 줄기를 2 등분 (double stem) 혹은 5 등분 (five-line stem) 하여사용한다. ( 예 ) double stem: 1 * (1.0~1.4), 1. (1.5~1.9) ( 예 ) five-line stem: 1 * (.0,.1), 1 t (.2,.3), 1 f (.4,.5), 1 s (.6,.7), 1. (.8,.9) 14
적정줄기수에관한공식 > Sturges formula L [ 1 log 2 n] ( 예 ) n=30 L=5 > Velleman formula L [ 2 n] ( 예 ) n=30 L=10 > Dixon-Kronmal formula L [ 10log10 n] ( 예 ) n=30 L=14 그러나위의공식에의해줄기수 (L) 를결정하면자료값에따라줄기를결정하기어렵고분포형태를제대로알기어려운문제가있어이공식들은사용되지는않는다. [x] 의의미는 x 보다크지않는최대정수값을의미한다. [2.9]=2 / [3.1]=3 R 활용 - nclass 옵션은구간의개수를결정한다. - freq 옵션은빈도대신상대빈도 ( 확률 ) 을 y- 축으로사용하라는옵션 - 함수 lines() 는확률밀도함수를그리라는옵션 히스토그램그리기 http://lib.stat.cmu.edu/dasl/stories/singerheights.html 합창단원의키에대한 ( 단위 : inch) 데이터이다. 1) 각파트별히스토그램을그리고해석하시오. ( 확률밀도함수도그리시오 ) 2) 키전체에대한히스토그램을그리고해석하시오. 15