27 제 3 장수치요약 상자그림 1. 다섯수치요약평균 (Mean) 어떤경우에는상당히불확실하다. 예를들면점수분포가작은값에편중되고큰값쪽으로길게꼬리를뻗고있는경우점수분포가큰값쪽에편중되고작은값쪽으로길게꼬리를뻗고있는경우분포의대칭성여부를알지못하는경우평균은대표값의역할을할수없다. 작은값에편중, 큰값쪽으로꼬리가긴모형 큰값에편중, 작은값쪽으로꼬리가긴모형
28 중위수 (Median) 자료의크기를 ( 자료의수 ) N 이라고할때 (1) N 이홀수중위수 = (N+1)/2 번째자료점 (2) N 이짝수중위수 = N/2 번째와 (N+1)/2 번째자료값의평균 중위수의깊이 (depth) d(m) = (N+1)/2 짝수, 홀수에관계없음 산포의측도 표준편차 전통적인통계방법론 두사분위수의차이 탐색적자료분석에서의산포의측도로사용 ( 강한저항성 ) 두사분위수 (H) 의깊이정의 d(h) = ([d(m)]+1)/2, [x] 는가우스수
29 사분위수 Q1( 제 1 사분위수 ) HL Q2( 중위수 ) M Q3( 제 3 사분위수 ) HU 왜도 (Sewness) 분포의기울어진정도 -1< SKEW <1 SKEW = ( H ( H U U M ) ( M M ) ( M H H L L ) ) +1 에가까울수록오른쪽으로꼬리가긴모형 -1 에가까울수록왼쪽으로꼬리가긴모형 EDA 에서의다섯수치요약 ( 최소값, 제 1 사분위수, 중위수, 제 3 사분위수, 최대값 ) (min, HL, M, HU, max)
30 2 2 0 00 N=65 5 3 1 058 15 10 2 1333458889 d(m)=(65+1)/2=33 22 7 3 0355789 (11) 11 4 11133456678 d(h)=(33+1)/2=17 32 17 5 11122233344456688 15 6 6 147779 M=48, HL=33, HU=58 9 5 7 33478 4 2 8 29 min=0, max=99 2 2 9 09 65 (0, 33, 48, 58, 99) SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)] = (10-15)/(10+15)=-5/25=-0.2 부호가음수임으로이분포는왼쪽으로약간긴꼬리를뻗은분포
31 2. 문자값중위수 M, 4 분위수 H, 8 분위수 E, 16 분위수 D, 32 분위수 C, 64 분위수 B, 128 분위수 - A 자료의크기가 400-500 이상이아닌경우무의미 예 : N=65 인경우 중위수의깊이 : d(m)=(n+1)/2 d(m)=33 4분위수의깊이 : d(h)=([d(m)]+1)/2 d(h)=17 8 분위수의깊이 : d(e)=([d(h)]+1)/2 d(e)=9 16 분위수의깊이 : d(d)=([d(e)]+1)/2 d(d)=5 32 분위수의깊이 : d(c)=([d(d)]+1)/2 * 64 분위수의깊이 : d(b)=([d(c)]+1)/2 * 128 분위수의깊이 : d(a)=([d(b)]+1)/2 * < 수리통계학시험점수자료의문자값전시 > 깊이 문자값 중앙 mid 산포 spr 중위수 M 33 48 48 * 4 분위수 H 17 33 58 45.5 25 8 분위수 E 9 23 73 48 50 16 분위수 D 5 18 78 48 60 끝값 1 1 0 99 49.5 99
32 3. mid와 spr의추이 문자값들사이의관계 (mid 값사이의관계 ) (1) 분포가대칭인경우 M = mid H = mid E = mid D = mid C = mid B = mid A D E H M H E D
33 (2) 분포가왼쪽으로긴꼬리를뻗은경우 M > mid H > mid E > mid D > mid C > mid B > mid A D E H M H E D (3) 분포가오른쪽으로긴꼬리를뻗은경우 M < mid H <mid E < mid D < mid C < mid B <mid A D E H M H E D
34 Spr 값의추이 분포가대략대칭인경우 spr 의추이는첨도를알려준다. 분포가정규분포인경우 문자값 mid spr M * H E D 모표준편차의 1.35 배가 spr(h) 와같으므로의추정치로 pseudo-sigma 는표본표준편차 EDA 의첨도의정의 또는 0. 675 1. 15 1. 535 ~ 2 N(, ) = spr(h)/1.35 pseudo-sigma 에비하여저항력이강하기때문에 EDA 에사용 KURTOE/H = (EU-EL)/(HU-HL)-1.704 = spr(e)/spr(h)-1.704 KURTOD/H = (DU-DL)/(HU-HL)-2.274 =spr(d)/spr(h)-2.274 ( 정규분포의 KURTO 는 0 이다 ) 0. 675 1.35 1. 15 2.30 1. 535 3.07 s
35 ## 구간 (, ) 에서동일한확률밀도를갖는균등분포를고려 문자값 mid spr M * H E D 0. 5 0. 75 0. 875 0. 5 0. 75 0. 875 1.5 1.75 KURTOE/H = 1.5 / -1.704 = -0.204, KURTOD/H = 1.75 / -2.274 = -0.524 KURTO 의값이음수 KURTO 의값이양수 정규분포에비하여중앙에상대적으로많은자료점이집중되고꼬리부분에서는상대적으로자료점이희박정규분포에비하여중앙에상대적으로자료점이희박꼬리부분에서는상대적으로자료가많음
36 ## 중심, 감소율를갖는이중지수분포 (double exponential distribution) 고려 문자값을구해보자.( 위꼬리확률 ) 이므로중위수 M 은 HU = 이고위사분위 HU 는 문자값 mid spr M * H E D f ( x;, ) / 2exp[ x ] P{ X u;, } 1/ 2exp[ u] log e (2) / log e (4) / log e (8) / log e (2) / log e (2) / log e (4) / log e (8) / 0 u x 2log e(2) / 2log e(4) / 2log e(8) / KURTOE/H = loge(4) / loge(2) 1.704 = 0.296 KURTOD/H = loge(8) / loge(2) 2.274 = 0.726 KURTO 의값이양수는정규분포에비하여꼬리가두껍다
4. 전통적인수치요약과의비교 1) 평균의특성 - 편차제곱합을최소화 ( ) 증명 ) 2) 중위수 (M) 의특성 편차절대값을최소화자료값이으로표현하면이홀수이짝수증명 ) 교재참고증가함수와감소함수를구분짖는위치를선택 m N i i x x a 1 2 ) ( min ) / ( 1 N a m x N i i 2 2 1 2 1 ) ( ) ( ) ( m x N m a x a N i i N i i a a N 1 min 1 x a N i i x N N a a a M x N N N 2, ( 1 ) / 2 / 2 / 2, 1)/ ( 37
38 전통적인왜도 (sewness) 와첨도 (urtosis) 의정의 2 m m /( m ) 3 3/ 2 3 /(m2 ) 왜도 = 첨도 = X 4 2 평균이인확률변수의중심차적률의정의는 m m E[( X ) ], 2,3,4! /[( / 2)!2 중심차적률왜도첨도 정규분포, 가짝수 0 0 0, 가홀수 /( 1) 균일분포, 가짝수 0-1.2 0, 가홀수!/ 이중지수분포, 가짝수 0 3 / 2 m 0, 가홀수 ]
39 5. 미니탭을이용한수치요약의계산 데이터불러오기 File > Open Worsheet 데이터
40 문자값작성 Stat > EDA > Letter Values
41 <OUTPUT> Results for: Scores.TXT Letter Value Display: score 분위수범위 Depth Lower Upper Mid Spread N= 65 M 33.0 48.000 48.000 H 17.0 33.000 58.000 45.500 25.000 E 9.0 23.000 73.000 48.000 50.000 D 5.0 18.000 78.000 48.000 60.000 C 3.0 10.000 89.000 49.500 79.000 B 2.0 0.000 90.000 45.000 90.000 1 0.000 99.000 49.500 99.000 6. 상자그림 (BOX PLOT) 다섯수치요약을이용하여시각화하는방법상자그림 ( 상자 - 수염그림 ) < 단순한상자그림의작성방법 > 1) 다섯수치요약 (min, HL, M, HU, max) 를구한다. 2) 위 아래사분위수 (H) 위치에네모형상자를그린다. 상자내에중위수 (M) 에 해당되는위치에 + 표시또는칸막이막대표시를한다. 3) 최소값과최대값의위치에점을찍고이점을상자의양끝과선분으로연결
42 < 대표적인상자그림작성방법 > 1) 다섯수치요약 (min, HL, M, HU, max) 를구한다. 2) 위 아래사분위수 (H) 위치에네모형상자를그린다. 상자내에중위수 (M) 에 해당되는위치에 + 표시또는칸막이막대표시를한다. 3) 다음과같이양쪽안울타리 (inner fence) 값 IF 를계산한다. 그리고, 양쪽바깥울타리 (outer fence) 값 OF 를계산한다. IF IF L U H H L U 1.5spr( H ) 1.5spr( H ) 4) 양쪽안울타리의안쪽에있으면서경계에가장가까운값을찾아낸다. 이자료점을 인접값 (adjacent value) AV 라고한다. 인접값과상자의양끝과연결 AVL HL M HU AVU 5) 안울타리와바깥울타리사이에있는자료점을특이점 (outlier) 으로간주하고그 위치에 * 표시. 바깥울타리의바깥에있는자료점은특별한특이점 (special outlier) 으로간주그위치에 o 표시. + OF OF L U H H L L 3.0spr( H ) 3.0spr( H ) AVL HL M HU AVU + * * o
43 1995 년인구및주택센서스보고에따른경기도 경상남도의시, 군과서울시 부산시구의인구자료 경기도수원 756 성남 869 의정부 276 안양 591 부천 779 광명 351 평택 313 동두천 72 안산 510 고양 518 과천 68 구리 142 남양주 229 오산 70 시흥 133 군포 235 의왕 109 하남 116 양주 95 여주 92 화성 159 파주 163 광주 86 연천 52 포천 119 가평 50 양평 71 이천 155 용인 243 안성 120 김포 108 경상남도창원 482 울산 967 마산 441 진주 330 진해 126 통영 132 사천 113 김해 256 밀양 122 거제 148 의령 38 함안 60 창녕 71 양산 163 고성 60 남해 60 하동 55 산청 43 함양 45 거창 70 합천 62 서울시종로 190 중구 136 용산 254 성동 334 광진 382 동대문 416 중랑 440 성북 490 강북 390 동봉 356 노원 569 은평 485 서대문 360 마포 386 양천 461 강서 503 구로 365 금천 285 영등포 414 동작 422 관악 548 서초 385 강남 535 송파 637 강동 487 부산시중구 64 서구 175 동구 152 영도 506 부산진 453 동래 312 남구 312 북구 278 해운대 302 사하 381 금정 308 강서 67 연제 246 수영 196 사상 296 기장 69 1) < 줄기와잎그림 > < 다섯수치요약 > 9 0 767998557 단위 10(x 첨영 ) 10 1 4301561520 4 2 7234 2 3 51 0 4 3 5 911 0 6 2 7 57 1 8 6 31V M 142 H 93.5 294.5 spr(h) = 201 1 70.5 554.5
44 2) 아래사분위수 93.5와위사분위수 294.5를이용하여상자를그리고, 중위수 142의 위치에 + 표시 I + I 150 300 450 3) 안울타리 (inner fence) 값 IF를계산 IFL = HL - 1.5 spr(h) = 93.5-1.5 201 = -208, IFU = HU + 1.5 spr(h) = 294.5 + 1.5 201 = 596. 바깥울타리 (outer fence) 값 OF를계산 OFL = HL 3.0 spr(h) = 93.5-3.0 201 = -509.5, OFU HU + 3.0 spr(h) = 294.5 + 3.0 201 = 897.5. 4) 아래인접값 AVL은최소값과같은 50, 위인접값 AVU는 591. I + I 150 300 450 600 5) 위안울타리 IFU와바깥울타리 OFU의사이에있는자료점을찾아 * 표시 o 자료는없음. I + I * * * 150 300 450 600 750
45 7. 특이점 정규분포 평균이 이고분산이인정규분포의경우 사분위수 H H = 0.675 이므로 spr(h) = 1.35 안울타리 (inner fence) 값 IF IF = 정규분포에서 2 2. 7 바깥의확률이 0.007, 즉 0.7% 임을알수있다 ( 즉, N=100 인경우특이값으로판정될자료점의수는평균 1 개미만 ) ( 0.675 ) 1.51.35 2. 7 균일분포균일분포 (, ) 에서동일한확률밀도사분위수 H H = 0. 5 이므로 spr(h) = 안울타리 (inner fence) 값 IF IF = ( 0.5 ) 1.5 2 이들값들은양의확률밀도갖는구간 (, ) 를벗어나므로, 균일분포에서는특이점이검출되지않는다.
46 이중지수분포중심 이고감소율 의이중지수분포고려 사분위수 H H = 이므로 spr(h) = 안울타리 (inner fence) 값 IF IF = 이중지수분포에서는 즉, 6.25% 이다. N=100 인수치자료에서특이값으로간주되는자료점의수는 평균 6.25 개씩이나된다. log e (2) / ( log e(2) / ) 1.5 2log e(2) / 4log e (2) / 2log e (2) / P( X 4log (2) / ) exp[ (4log (2) / ] e exp[ 4log e (2)] 2 4 e 1/16 0.0625 종합 ( 결론 ) 균일분포에서는특이값이절대로검출될수없으며, 정규분포에서는간혹검출될수있으나, 이중지수분포에서는꽤빈번히특이점판정이내려진다.
47 8. 여러묶음수치자료의비교 경기도, 경상남도, 서울 부산세그룹별로비교 1) 세그룹의문자값전시 (1) 경기도시군인구 Depth Lower Upper Mid Spread N= 31 M 16.0 142.000 142.000 H 8.5 93.500 294.500 194.000 201.000 E 4.5 70.500 554.500 312.500 484.000 D 2.5 60.000 767.500 413.750 707.500 C 1.5 51.000 824.000 437.500 773.000 1 50.000 869.000 459.500 819.000 (2) 경상남도의시군인구 Depth Lower Upper Mid Spread N= 21 M 11.0 113.000 113.000 H 6.0 60.000 163.000 111.500 103.000 E 3.5 50.000 385.500 217.750 335.500 D 2.0 43.000 482.000 262.500 439.000 1 38.000 967.000 502.500 929.000 (3) 서울 부산의구인구 Depth Lower Upper Mid Spread N= 41 M 21.0 365.000 365.000 H 11.0 278.000 453.000 365.500 175.000 E 6.0 175.000 503.000 339.000 328.000 D 3.5 102.500 541.500 322.000 439.000 C 2.0 67.000 569.000 318.000 502.000 1 64.000 637.000 350.500 573.000
48 2) 세그룹의상자그림 (1) (1) 경기도의시군인구 수부 --------------- 원천남 ---I + I------------------- * * * --------------- --------+---------+---------+---------+---------+--------- 150 300 450 600 750 성 (2) 경상남도의시군인구진 마창 울 ------ 주 산원 산 -I + I----- * * O O ------ +---------+---------+---------+---------+---------+-------n 0 200 400 600 800 1000 (3) 서울 부산의구인구 ---------------- ------------------I + I--------------- ---------------- +---------+---------+---------+---------+---------+------s-p 0 120 240 360 480 600
49 3) 세그룹의상자그림 (2) ----------- 경기도 --I + I--------------- ** * ----------- ------ 경상남도 -I + I----- * * O O ------ ---------- 서울 부산 -----------I + I--------- ---------- +---------+---------+---------+---------+---------+------C5 0 200 400 600 800 1000 [ 미니탭의활용 ] @ BOX-PLOT Graph > Character Graph > Boxplot. @ 미니탭의 stac( 쌓기 ) Manip > Stac/Unstac > Stac Columns.
50 9. 요약 1. EDA의다섯수치요약최소값, 제1사분위수, 중위수, 제3사분위수, 최대값 2. 문자값중위수 M, 사분위수 H, 8분위수 E, 16분위수 D, 32분위수 C 등등 3. 문자값에서의 mid(= 두분위수의중앙값 ) - 왜도 (sewness) 증가하는지, 감소하는지에따라분포의기울기정도, 방향을알수있음 4. 문자값에서 spr( 두분위수의차이 ) - 첨도 (urtosis) 증가하는속도에따라꼬리가얇은분포인지, 두터운분포인지알수있음 5. 미니탭에서의문자값전시를위한메뉴명령 Stat > EDA > Letter Values. 6. 상자그림은기본적인다섯수치요약을그래프화한것 7. 상자그림에서특이점으로판정하는경계선은 HL-1.5Ⅹspr(H), HU+1.5Ⅹspr(H) 특이한특이점을판정하는경계선은 HL-3.0Ⅹspr(H), HU+3.0Ⅹspr(H) 8. 자료가정규분포이면특이점으로판정되는자료점의수는 0.7% 에불과 9. 상자그림은여러묶음의수치자료를비교하기에효율적인그래프적수단동일한척도의수직선에상자그림을그리는것이바람직