3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료
분포형태, 상대적위치, 극단값 분포형태 z-값 체비셰프의원리 경험법칙 극단값찾기
분포형태 : 왜도 (skewness) 분포형태를측정하는중요한척도중하나를 왜도 라고한다. 자료집합의왜도를구하는계산식은조금복잡하다. 통계프로그램을사용하여왜도를쉽게계산할수있다.
분포형태 : 왜도 정대칭 ( 한쪽으로치우치지않음 ) 왜도는 0이다. 평균과중앙값은같다..35 비대칭도 = 0.30 상대도수.25.20.15.10.05 0
분포형태 : 왜도 왼쪽으로치우친경우 ( 왼쪽꼬리분포 ) 왜도는음 (-) 이다. 보통평균은중앙값보다작다. 상대도수.35.30.25.20.15.10.05 0 왜도 =.31
분포형대 : 왜도 오른쪽으로치우친경우 ( 오른쪽꼬리분포 ) 왜도는양 (+) 이다. 보통평균은중앙값보다크다. 상대도수.35.30.25.20.15.10.05 0 왜도 =.31
분포형태 : 왜도 오른쪽으로심하게치우친경우 ( 심한오른쪽고리분포 ) 왜도는양 (+) 이다 ( 종종 1.0보다높다 ). 보통평균은중앙값보다크다..35 왜도 = 1.25.30 상대도수.25.20.15.10.05 0
분포형태 : 왜도 예 : 아파트임대 어느대학가에서표본으로간이아파트 (efficiency apartments ) 70 채가무작위선정되었다. 이아파트의월세는오름차순으로다음슬라이더에나타나있다.
분포형태 : 왜도 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615
분포형태 : 왜도.35 왜도 =.92.30 상대도수.25.20.15.10.05 0
z- 값 z- 값을종종 표준화 ( 된 ) 값 이라고한다. 이는관찰값 x i 와평균과의거리가표준편차의몇배에해당하는지를나타낸다. z i x i s x
z- 값 관찰값의 z- 값은자료에서해당관찰값의상대위치를측정하는척도이다. 표본평균보다작은자료값은 0 보다작은 z- 값을갖는다. 표본평균보다큰자료값은 0 보다큰 z- 값을갖는다. 표본평균과같은자료값은 0 인 z- 값을갖는다.
z- 값 가장작은값 (425) 의 z- 값 x i x 425 490.80 z s 54.74 1.20 월세값의표준화값 -1.20-1.11-1.11-1.02-1.02-1.02-1.02-1.02-0.93-0.93-0.93-0.93-0.93-0.84-0.84-0.84-0.84-0.84-0.75-0.75-0.75-0.75-0.75-0.75-0.75-0.56-0.56-0.56-0.47-0.47-0.47-0.38-0.38-0.34-0.29-0.29-0.29-0.20-0.20-0.20-0.20-0.11-0.01-0.01-0.01 0.17 0.17 0.17 0.17 0.35 0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
체비셰프의원리 어떤자료에있는항목들의적어도 (1-1/z 2 ) 의값은평균에서 z 표준편차크기의범위안에있어야한다. 그리고이때의 z 는 1 보다더큰값이다.
체비셰프의원리 (Chebyshev s theorem) 적어도자료값들의 75% 는평균에서 z = 2 표준편차범위안에있어야한다. 적어도자료값들의 89% 는평균에서 z = 3 표준편차범위안에있어야한다. 적어도자료값들의 z = 4 표준편차 94% 는평균에서 범위안에있어야한다.
체비셰프의원리 예 : z = 1.5 ( x = 490.80 와 s = 54.74) 적어도월세값들의 (1 1/(1.5) 2 ) = 1 0.44 = 0.56 또는 56% 는아래의값들사이에있어야한다. x - z(s) = 490.80 1.5(54.74) = 409 와 x + z(s) = 490.80 + 1.5(54.74) = 573 ( 실제, 86% 의월세값들이 409 와 573 사이에있다.)
경험법칙 (Empirical rule) 종모양분포를가지는자료에대하여 : 정규확률변수값의 +/- 1 표준편차정규확률변수값의 +/- 2표준편차 정규확률변수값의 +/- 3 표준편차 68.26% 가평균의범위안에있다. 95.44% 가평균의범위안에있다. 99.72% 가평균의범위안에있다.
경험법칙 99.72% 95.44% 68.26% 3 1 2 + 1 + 3 + 2 x
극단값찾기 (Detecting outliers) 극단값은자료에서특출나게큰값이나특출나게작은값들을말한다. -3보다작거나 +3보다큰 z-값에해당하는자료값을극단값으로보면된다. 극단값은다음과같은경우일수있다 : 잘못기록된자료값 자료에부정확하게포함된값 자료에제대로포함된값
극단값찾기 가장극단적 z- 값은 -1.20 과 2.27 극단점기준으로 z > 3 을사용하면, 이자료에는극단값이없다. 월세에대한표준화값 -1.20-1.11-1.11-1.02-1.02-1.02-1.02-1.02-0.93-0.93-0.93-0.93-0.93-0.84-0.84-0.84-0.84-0.84-0.75-0.75-0.75-0.75-0.75-0.75-0.75-0.56-0.56-0.56-0.47-0.47-0.47-0.38-0.38-0.34-0.29-0.29-0.29-0.20-0.20-0.20-0.20-0.11-0.01-0.01-0.01 0.17 0.17 0.17 0.17 0.35 0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27
탐색적자료분석 (Exploratory data analysis) 다섯수치요약 상자그림
다섯수치요약 (Five-number summary) 1 최소값 2 3 4 5 1사분위수중앙값 3사분위수최대값
다섯수치요약 최소값 = 425 1사분위수 = 445 중앙값 = 475 3사분위수 = 525 최대값 = 615 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615
상자그림 (Box Plot) 상자의양끝은 1 사분위수와 3 사분위수에위치하게한다. 상자안에수직선을중앙값위치에그린다 (2 사분위수 ). 375 400 425 450 475 500 525 550 575 600 625 Q1 = 445 Q3 = 525 Q2 = 475
상자그림 사분위수간범위 (IQR=Q3-Q 1) 를사용하여상한선과하한선을그린다. 이범위밖의자료는극단값이라고할수있다. 각극단값의위치는 * 로표시한다. 계속됨
상자그림 하한선은 Q1 보다아래쪽 1.5(IQR) 이다. 하한선 : Q1-1.5(IQR) = 445-1.5(80) = 332.5 상한선은 Q3 보다위쪽 1.5(IQR) 이다. 상한선 : Q3 + 1.5(IQR) = 525 + 1.5(80) = 637.5 아파트월세자료에서극단값 (332.5 보다작거나 637.5 보다큰값 ) 은없다.
상자그림 상자의양끝에서한계선내에최소값과최대값까지점선 (whiskers) 을그린다. 375 400 425 450 475 500 525 550 575 600 625 한계선내최소값 = 425 한계선내최대값 = 615
두변수간의연관성측정 (Measures of association between two variables) 공분산 상관계수
공분산 (covariance) 공분산은두변수의선형관계를측정하는척도이다. 양의값은양의관계를나타낸다. 음의값은음의관계를나타낸다.
공분산 공분산은아래와같이계산된다 : s xy ( x i x )( y i y ) n 1 표본의경우 xy ( x )( y ) i x i y N 모집단의경우
상관계수 (correlation coefficient) 상관계수는 -1 에서 +1 사이의값을갖는다. -1 값에가까울수록강한음의선형관계를나타낸다. +1 값에가까울수록강한양의선형관계를나타낸다.
상관계수 상관계수는아래와같이계산된다 : r xy s xy ss x y xy xy x y 표본의경우 모집단의경우
상관계수 상관관계는변수들간의선형관계를측정하는것이지반드시인과관계를측정하는것은아니다. 두변수가높은상관관계를갖는다고해도, 한변수가다른변수의원인이된다는것을의미하지는않는다. 예, 식당의일반적인식사가격과음식의질
공분산과상관계수 어떤골프선수가드라이빙거리와 18 홀점수간에서로관계가있는지에대하여조사하고자한다. 평균드라이빙거리 (yds.) 277.6 259.5 269.1 267.0 255.6 272.9 평균 18 홀점수 69 71 70 70 71 69
공분산과상관계수 x y ( x x ) ( y y ) ( x x )( y y ) i i i i 평균표준편차 277.6 259.5 269.1 267.0 255.6 272.9 69 71 70 70 71 69 10.65-7.45 2.15 0.05-11.35 5.95-1.0 1.0 0 0 1.0-1.0-10.65-7.45 0 0-11.35-5.95 267.0 70.0 합계 -35.40 8.2192.8944
공분산과상관계수 표본공분산 s xy ( ( x i x )( y i y ) 35.40 7.08 n 1 6 1 표본상관계수 r xy s xy 7.08 ss (8.2192)(.8944) x y -.9631
가중평균과그룹화자료 (The weighted mean and working with grouped data) 가중평균 그룹화자료의평균 그룹화자료의분산 그룹화자료의표준편차
가중평균 (weighted mean) 관찰값의중요도를반영한가중치를각각의자료값에부여하여평균을계산할때, 이러한평균을 가중평균 이라고한다. 학점 (GPA) 을계산할때, 가중치는각등급 (grade) 에해당하는학점수이다. 관찰값이중요도에있어서서로다를때, 분석자는각관찰값이가지는중요도를가장잘반영할수있는가중치를선택하여야한다.
가중평균 x wx i i w i 여기서 : x i = i 번째관찰값 w i = i 번째관찰값의가중치
그룹화된자료 (grouped data) 가중평균계산법이그룹화된자료의평균, 분산, 표준편차의대략적인값을구하는데사용된다. 가중평균을계산하기위해, 각계급의중간점을그계급의평균처럼가정하여사용한다. 계급의도수를가중치로사용하여계급중간점들의가중평균을계산한다. 분산과표준편차를계산할때도유사한방법으로계급의도수를가중치로사용한다.
그룹화자료의평균 표본평균 x fm i n i 모집단평균 f i N M i 여기서 : f i = i 계급의 ( 빈 ) 도수 M i = i 계급의중간점
그룹화자료의표본평균 앞선예에서본 70 채의아파트표본월세자료가아래와같이도수분포형식으로그룹화되어있다. Rent ($) Frequency 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6
그룹화자료의표본평균 Rent ($) f i 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6 Total 70 M i 429.5 449.5 469.5 489.5 509.5 529.5 549.5 569.5 589.5 609.5 f i M i 3436.0 7641.5 5634.0 3916.0 3566.5 2118.0 1099.0 2278.0 1179.0 3657.0 34525.0 34,525 x 493.21 70 이런근사값은실제평균인 $490.80과는 $2.41 정도차이가있다.
그룹화된자료의분산 표본의경우 s 2 f i ( M i x ) n 1 2 모집단의경우 2 f i ( M i ) N 2
그룹화자료에서표본분산 Rent ($) f i 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6 Total 70 M i 429.5 449.5 469.5 489.5 509.5 529.5 549.5 569.5 589.5 609.5 M i - x -63.7-43.7-23.7-3.7 16.3 36.3 56.3 76.3 96.3 116.3 (M i - x) 2 4058.96 1910.56 562.16 13.76 265.36 1316.96 3168.56 5820.16 9271.76 13523.36 f i (M i - x) 2 32471.71 32479.59 6745.97 110.11 1857.55 5267.86 6337.13 23280.66 18543.53 81140.18 208234.29 계속
그룹화자료에서표본분산 표본분산 표본표준편차 s 2 = 208,234.29/(70 1) = 3,017.89 s 3,017.89 54.94 이러한근사값은실제표준편차인 $54.74와는겨우 $.20 정도차이가난다.
3 장끝, Part B