수치를이용한자료요약 statistics hmkang@hallym.ac.kr 한림대학교 통계학 강희모 ( 한림대학교 ) 수치를이용한자료요약 1 / 26
수치를 통한 자료의 요약 요약 방대한 자료를 몇 개의 의미있는 수치로 요약 자료의 분포상태를 알 수 있는 통계기법 사용 중심위치의 측도(measure of center) : 어떤 값을 중심으로 분포되어 있는지 나타내는 측도로 평균(mean), 중앙값(median), 최빈값(mode) 퍼진정도의 측도(measure of dispersion) : 자료가 각 중심위치에서 얼마나 흩어져 있는지 나타내는 측도로 분산(variance), 표준편차(standard deviation), 범위(range), 사분위수 범위(interquartile range) 2 / 26
중심위치의 측도 평균(mean, average) 모든 관측값의 합을 자료의 개수로 나눈 값으로 산술평균(arithmetic average)이라고 부름 모평균은 모집단 자료에 대한 평균이며, 그 값을 µ 로 표기 표본평균은 표본자료에 대한 평균이며, 그 값을 X 로 표기 평균은 모든 관측값이 반영되기 때문에 극단적으로 크거나 작은 값( 이상점)에 영향을 많이 받음 절삭평균(trimmed mean)을 사용하면 극단적인 값의 영향을 줄일 수 있음 자료의 성격에 따라 기하평균(geometric mean), 조화평균(harmonic mean)이 있음 x1 + + xn 모평균(µ) = 모든 자료의 합 = 자료의 갯수 N x 1 + + xn 표본평균(x) = 모든 관측값의 합 = 관측값의 갯수 n 3 / 26
중심위치의 측도 평균 : 보기 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 표본평균을 구해보자. 89 74 91 88 72 84 x= 89 + 74 + 91 + 88 + 72 + 84 = 83 6 4 / 26
중심위치의 측도 절삭 평균(trimmed mean) 절삭평균 : 너무 큰 값과 작은 값을 제외한 나머지 자료의 평균으로 보통 절삭한 자료의 비율을 표시하기 위해 α% 절삭평균이라고 표현함 α% 절삭평균은 자료를 순서대로 나열했을 때 상위 α%의 자료와 하위 α%의 자료를 제외한 나머지 자료의 평균 절삭평균 : 보기 피겨스케이팅 경기에서 10명의 심사위원이 한 선수에 대한 채점 결과이다. 10 9 10 9 10 9 10 9 10 2 10% 절삭평균은 얼마인가? 최고점 10점과 최저점 2점을 제외한 나머지 자료 8개의 평균인 9.5점임 5 / 26
중심위치의 측도 사분위수 평균(trimean) 자료를 순서대로 나열한 후 25%, 50%, 75%의 위치에 있는 자료의 값을 각각 제 1사분위수, 제 2사분위수 및 제3사분위수라고 함 이들은 각각 Q1, Q2 및 Q3 로 나타낸다 사분위수 평균은 중앙값과 산술평균의 장점을 취하고자 제안된 것으로 Q1 + 2Q2 + Q3 4 임 6 / 26
중심위치의 측도 중앙값(median) 전체 관측값을 크기 순서로 배열하였을 경우 가운데 위치하는 값 관측값의 크기보다 관측값의 위치가 중요 관측값의 변화에 민감하지 않다. 즉 극단적으로 큰 값이나 작은 값( 이상점)에 영향을 받지 않음 중앙값을 구하는 방법 관측값을 크기 순서로 배열 자료의 개수가 홀수이면 n+1 2 번째 자료값이 n n 2 번째 관측값과 2 자료의 개수가 짝수이면 중간값이나 평균이 중앙값 중앙값 + 1 번째 관측값 사이의 7 / 26
중심위치의 측도 중앙값 : 보기 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 중앙값을 구해보자. 89 74 91 88 72 84 학생들의 성적을 순서대로 배열하면 72 74 84 88 89 91이고 관측값의 갯수가 짝수이기 때문에 62 번째 관측값 84와 26 + 1번째 관측값 88의 평균 86이 중앙값임 다음과 같이 자료가 주어졌다면 중앙값은 얼마인가? 6.4 7.8 8.1 9.2 10.5 중앙값은 5+1 2 = 3번째 값인 8.1임 8 / 26
중심위치의 측도 최빈값(mode) 관측값 중에서 가장 자주 나오는 값 연속형 자료에서 돗수분포표로 자료를 그룹화하여 최대의 돗수를 갖는 계급구간의 중간값을 최빈값으로 함 이산형 자료의 경우 최빈값을 대표값으로 사용하기도 함 최빈값(mode) 보기 다음 자료에서 최빈값은 무엇인가? 2,5,5,3,5,2 위 자료에서 2는 두 번, 3은 한 번, 5는 세 번이므로 5가 최빈값 임 9 / 26
중심위치 척도 표본평균, 중앙값, 최빈값의 비교 표본평균은 중앙값보다 극단적인 값에 민감함 단봉형인 경우, 분포가 대칭이면 표본평균과 중앙값, 최빈값이 같은 값이고 이봉형인 경우, 분포가 대칭이면 표본평균과 중앙값은 같은 값이고 최빈값은 다른 값임 다봉형인 경우는 최빈값이 여러 개이므로 중심위치 척도로 적합치 못함 분포가 대칭이 아니면, 표본평균, 중앙값, 최빈값 모두 다른 값임 자료가 오른쪽에 많은 경우(skewed to the left, 왼쪽으로 뒤틀림)는 중앙값 > 평균 자료가 왼쪽에 많은 경우(skewed to the right, 오른쪽으로 뒤틀림)는 중앙값 < 평균 10 / 26
중심위치 평균, 중앙값, 최빈값 ( 오른쪽으로뒤틀린경우 ) 최빈값 (x 1 ) 중앙값 (x 2 ) 평균 (x 3 ) x 1 x 2 x 3 강희모 ( 한림대학교 ) 수치를이용한자료요약 11 / 26
중심위치 평균, 중앙값, 최빈값 ( 왼쪽으로뒤틀린경우 ) 최빈값 (x 3 ) 중앙값 (x 2 ) 평균 (x 1 ) x 1 x 2 x 3 강희모 ( 한림대학교 ) 수치를이용한자료요약 12 / 26
중심위치 평균, 중앙값, 최빈값 ( 대칭인단봉형인경우 ) 평균, 중앙값, 최빈값 (x) x 강희모 ( 한림대학교 ) 수치를이용한자료요약 13 / 26
중심위치 평균, 중앙값, 최빈값 ( 대칭이고이봉형인경우 ) 최빈값 최빈값 평균, 중앙값 x 1 x 2 x 3 강희모 ( 한림대학교 ) 수치를이용한자료요약 14 / 26
평균비교 평균이다르고분산이같은경우 평균이작은경우 평균이큰경우 강희모 ( 한림대학교 ) 수치를이용한자료요약 15 / 26
퍼진 정도의 측도 분산(variance), 표준편차(standard deviation) 평균의 퍼진 척도로 사용 자료에 합은 항상 0 P 대한 편차(deviation)의 P ( (Xi X) = (Xi µ) = 0) 모분산(population variance)은 P (Xi µ)2 n 모표준편차는 모분산의 양의 제곱근 σ = σ 2 편차의 제곱합 σ = = n 2 표본 분산(sample variance)은 (Xi X)2 n 1 표본표준편차는 표본 분산의 양의 제곱근 S = S 2 편차의 제곱합 S = = n 1 2 P 16 / 26
분산비교 평균이같고분산이다른경우 분산이작은경우 분산이큰경우 강희모 ( 한림대학교 ) 수치를이용한자료요약 17 / 26
퍼진 정도의 측도 분산, 표준편차 : 보기 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 분산과 표준편차를 구해보자. 89 74 91 88 72 84 {(89 83)2 + + (84 83)2 } = 65.6 6 1 s = 65.6 = 8.099382693 s2 = 18 / 26
퍼진 정도의 측도 범위(range) 범위는 (관측값 중에서 최대값) (관측값 중에서 최소값) 범위는 간편하게 구할 수 있고 해석이 용이 양 끝점에서 값이 결정되기 때문에 중간의 관측값을 알 수 없음 극단 적으로 큰 값이나 작은 값( 이상점)에 많은 영향을 받음 범위 : 보기 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 자료의 범위를 구해보자. 89 74 91 88 72 84 범위 = 최대값 최소값 = 91 72 = 19 19 / 26
퍼진 정도의 측도 백분위수(percentile) 백분위수는 관측값을 크기 순서로 배열하였을 때 P (x xp ) p and P (x xp ) 1 p 를 만족하는 xp 임 백분위수는 100 p% 백분위수로 표현 백분위수는 관측값의 규모에는 상관없고, 관측값의 순서에만 상관있음 20 / 26
퍼진 정도의 측도 백분위수 구하기 관측값을 작은 순서로 배열함 관측값의 갯수(n)에 백분율(p)를 곱함 n p가 정수이면, n p 번째로 작은 값과 n p + 1 번째로 작은 관측값의 평균이 100 p 백분위수임 n p가 정수가 아니면, n p의 정수부분에 1을 더한 값 m을 구하고 m번째 작은 관측값을 100 p 백분위수임 21 / 26
퍼진 정도의 측도 사분위수(quartile) 관측값을 크기 순서로 배열하였을 때 전체를 사등분한 값 제 1 사분위수 : Q1 = 제 25백분위수 제 2 사분위수 : Q2 = 제 50백분위수 = 중앙값 제 3 사분위수 : Q3 = 제 75백분위수 사분위수 범위(interquartile range, IQR) : 제 3 사분위수 제 1 사분위수 사분위수 범위는 중앙값을 중심척도로 사용하는 경우 퍼진 정도의 척도로 사용 22 / 26
퍼진정도의측도 사분위수 (quartile) IQR Q 1 Q 2 Q 3 강희모 ( 한림대학교 ) 수치를이용한자료요약 23 / 26
퍼진 정도의 측도 사분위수 : 보기 서울의 한 전철역에서 인천의 한 전철역까지 소요되는 시간을 기록한 자료가 다음과 같다(단위 : 분). 이 자료에서 제 50 백분위수인 중앙값과 제 20 백분위수를 구하자. 42 45 40 44 38 40 37 38 43 41 39 35 78 31 38 44 38 44 38 44 39 45 40 78 이 자료를 오름차순으로 재배열하면 31 40 35 41 37 42 38 43 이고 관측값의 개수가 16이므로 제 50 백분위수는 16 0.5 = 8이므로 8 번째 작은값 40과 9 번째 작은 값 40의 평균인 40이고, 제 20 백분위수는 16 0.2 = 3.2이므로 (3+1)번째 작은 값인 38이 된다. 24 / 26
퍼진 정도의 측도 변동계수(coefficient of variation,cv) 중심위치나 단위가 다른 두 개 이상의 분포의 서로 상대적인 퍼진 정도의 측도 표준편차 변동계수 = 100 표본평균 25 / 26
퍼진 정도의 측도 변동계수 : 보기 한 투자자가 A 회사의 주식과 B 회사의 주식 중 하나를 매입하기 위하여 6일 동안 조사한 두 회사의 마감 가격은 다음과 같다. A 회사 주식과 B 회사 주식 가격의 표본평균, 표준편차, 변동계수 등을 구하여 퍼진 정도를 비교하자. 날짜 1 2 3 A회사 76,300 77,400 77,900 B회사 6,400 7,000 7,400 xa = 77, 417 sa = 861 CVA = 1.11 날짜 4 5 6 A회사 77,200 76,900 78,800 B회사 6,900 7,300 7,600 xb = 7100 sb = 429 CVB = 6.04 26 / 26