CHAPTER 6 기초통계량분석 분류형 ( 범주형 ) 변수데이터에대한정리방법으로는숫자요약인빈도분석과그래프요약인파이차트, 바차트가이용된다. 측정형변수에대한숫자요약은일반적으로자료의중앙위치와자료의흩어진정도를나타내는두개의값으로축약된다. 즉, 크기 n 개의데이터의가진정보가 2 개숫자요약으로축약 (data reduction) 된다. 데이터의중앙위치에대한통계량평균 (mean) 이나중앙값 (median) 이있고흩어진정도를측정하는통계량으로는표준편차 (standard deviation), 범위 (range), IQR 등이있다. 평균은표준편차와중앙값은범위나 IQR 과함께발표되며이들을기초통계량 (elementary statistic) 이라한다. 측정형변수에대한그래프방법으로는히스토그램 (histogram), 줄기-잎그림 (stem and leaf plot), 상자-수염그림 (box-whisker plot) 등이있는데가장유용한것은상자수염그림이다. 설문조사데이터의경우측정형변수는 (1) 측정가능한것에대한개방형문항 ( 예 : 소득, 연령 ) 이나 (2) 리커드척도문항이다. 일반적으로설문조사데이터분석의경우줄기-잎그림, 상자수염그림과같은그래프요약은하지않으므로본책에서도측정형변수에대한그래프요약은생략하기로한다. 리커드척도문항의경우에도 1-5 점으로계량화하여측정형변수분석방법을사용하기도하지만빈도분석 ( 만족비율혹은불만족비율 ) 만으로보고서를작성하기도한다.
116 Chapter 6. 기초통계량분석 6.1. 기초통계량 6.1.1. 중앙위치 (1) 평균 (mean) 평균은관측치의절대크기의중앙이므로모든관측치를더한값을관측치수 (n) 로나눈 값이므로산술평균 (arithmetic average) 과동일한개념이다. n 개의관측치 x, x, K, x ) 의평균은 이다. n 1 x1 + x2 + L+ x x = xi = n n i= 1 ( 예제 )(1, 4, 6, 5, 6, 2) 의평균은 (1+4+6+5+6+2)/6=4 이다. (2) 중앙값 (median) n ( 1 2 n 자료의크기중심인평균과는달리중앙값은자료의순서의중심이다. 자료의중앙값을 계산하기위하여자료의순서통계량 (order statistics) 을먼저구해야한다. 순서통계량이 란관측치를크기순으로정렬한후제일작은값부터 x( 1), x(2), K, x( n) 으로표기하고이를 순서통계량 (order statistics) 이라한다. 만약표본의크기 n 이홀수이면 M = x({ n+1}/ 2), 짝수이면 M [ x + x ) ]/ 2 이중앙값이된다. = ( n / 2) ({ n+ 2}/ 2 1 순서통계량 (order statistics) 크기가 n인표본자료관측치 (observation) x, x, K, x ) 을크기순으로정렬한후가 ( 1 2 n 장작은관측치를 x (1), 가장큰관측치를 x(n) 이라표현하고 x (1), x (2),.., x(n) 을순서 통계량이라한다. 순서통계량에대해다음이성립한다. ⅰ) x( 1) x(2)... x( n) ⅱ) 최소값 (min): x (1) ⅲ) 최대값 (max): x (n) ⅳ) 범위 (range): x( n ) x(1)
6.1. 기초통계량 117 ( 예제 ) 크기 6 인표본관측치 (1, 4, 6, 5, 6, 2) 의순서통계량은 (1, 2, 4, 5, 6, 6) 이다. 최소 값은 x 1, 최대값은 x 6 이고범위는 x x 5 이다. ( 1) = ( 6) = ( 6) (1) = 2깊이 (depth) 사분위값을구하려면자료의깊이 (depth) 개념을이용하면편리하다. (Tukey 제안 ) 관측치를크기순으로정렬한후각양쪽끝에서 1 부터번호를매겨그번호를자료의깊이라정의한다. 즉최대값, 최소값의깊이는각 1 이다. Depth( 중앙값 =M)= ( n +1) / 2 이고사분위깊이는 Depth(Q1)=Depth(Q3)=([Depth(M)]+1)/2 이다. ( 기호 )[x]=x 를넘지않는최대정수. ( 예제 ) 크기 6인표본관측치 (1, 4, 6, 5, 6, 2) 의중앙값길이는 (6+1)/2=3.5 이고, 사분위길이는 ([3.5]+1)/2=(3+1)/2=2 이다. (3) 평균과중앙값비교자료의측정치중다른측정치에비해아주크거나아주작은측정치 ( 극단치 ) 가존재하는경우순서의중심인중앙값과는달리크기의중심인평균은극단치가존재하는쪽으로치우치게된다. 극단치중수집자료에포함하여분석하기에는부적절하게크거나작은측정치를이상치 (outlier) 라한다. 다음은확률분포함수 ( 히스토그램 ) 형태에따른중앙값과평균의관계이다. ( 예제 ) 크기 10 인자료 (1, 2, 3, 4, 5, 6, 7, 8, 9, 55) 의경우평균과중앙값을구하면평균은 x = 10 이고중앙값은 M = [ x( 5) + x(6) ] / 2 = (5 + 6) / 2 = 5. 5 이다. 중앙값길이는 (10+1)/2=5.5 이고사분위길이는 ([5.5+1])/2=3 이다. 그러므로제일사분위 Q1 은 x 4 이다. ( 3) = 위의자료에서중앙위치를나타내는숫자요약으로는중앙값인 5.5 가평균인 10 보다더합리적이다. 이와같이극단치가존재하는경우자료의중앙위치를나타내는통계량
118 Chapter 6. 기초통계량분석 으로중앙값이평균보다더이상적인값이다. 그리고자료에극단치가존재하지않으면중앙값과평균이거의일치하므로자료의중앙위치에대한요약값이라는측면에서는중앙값이평균보다더합리적이다. (4) 평균사용이유데이터의분포가좌우대칭이아닌경우중앙값이평균에비해더합리적인중앙위치값임에도불구하고평균을사용하는이유는다음과같다. 평균에대한수학적전개가용이하고중앙값과는달리평균의분포함수를쉽게구할수있기때문이다. 통계학에서대수의법칙 (Law of Large Number) 과함께가장널리사용되는중심극한정리 (Central Limit Theorem) 에의하면표본의크기 n인큰경우 ( 대표본 ) 모집단의분포에상관없이표본평균의분포함수는정규분포를따른다. 통계량의분포함수를구할수있는것이장점이되는이유는통계량의분포를알아야모수에대한신뢰구간을구하거나모수에대한가설검정이가능하다. 중심극한정리 (Central Limit Theorem): 표본의크기 n이큰경우 (20~30 이상 ) 모집단의분포형태에관계없이표본평균의분포는정규분포를따른다. σ x ~ Normal( μ, n 1, x2,, x ) 2 ) ( x K n x 분포함수 ( x K n x 1, x2,, x ) 1 2 x1, x, K, x n ) x k 정규분포 ( 2 모집단 ( 평균 = μ, 분산 = 2 σ ) μ 6.1.2. 흩어진정도 ( 산포도 : spread) 측정형변수에대한분석에서중앙위치만을알고있으면자료전체에대한정보를얻는데한계를느낀다. 왜냐하면자료의측정치들의흩어진정도나측정치들이가질수있는값의범위는얼마인지는자료의중앙위치만으로알수없다. 같은평균을갖더라도흩어진정도에차이가있으면자료의특성은다르다.
6.1. 기초통계량 119 위의그림은두대학의수능성적자료분포함수이다. 자료의중앙위치값 (320 점 ) 만으로보면두대학신입생들의성적은동일하다고말할수있을것이다. 그러나확률분포함수를살펴보면두대학신입생들의수능성적은전혀다른정보를가지고있음을쉽게알수있다. A 대학의신입생은매우우수한학생이있고상대적으로성적이낮은학생들도있으나 B 대학신입생들의성적은큰차이를보이지않고평균점수에집중되어있다. (1) 범위와 IQR 측정자료의최대값과최소값의차이를범위 (range) 라한다. 범위는계산이편리하다는장점이있으나범위계산할때는두측정치 ( 최대값, 최소값 ) 만사용되므로다른측정치들의정보가전혀고려되지않고이상치나극단치가존재하는경우범위가커지는단점이있다. 크기가 10 인자료 (1, 2, 3, 4, 5, 6, 7, 8, 9, 55) 와같이극단치가존재하면자료의범위는 54 로커지게된다. 극단치가존재하는경우산포도의계산값인범위가커지는단점을보완하기위하여삼사분위값과일사분위값의차이인 IQR 값을산포도로사용하기도하지만이것역시다른측정치의정보는무시되는단점을가지고있다. p%-percentile( p 백분위값 ) 데이터관측치중 p% 가그값보다작고 (1-p)% 가그값보다클때그값을 p% 백분위값이라한다. 일사분위 (First Quartile, Low Quartile) Q1은관측치중 25% 가그값보다작고 75% 가그값보다클때그값을일사분위라정의한다. 이사분위 (Second Quartile, Median) Q2은관측치중 50% 가그값보다작고자료의 50% 가그값보다클때그값을이사분위라정의하고이를특히중앙값이라한다. 삼사분위 (Third Quartile, Upper Quartile) Q3는관측치중 75% 가그값보다작고자료의 25% 가그값보다클때그값을삼사분위라정의한다. 그리고 (Q3-Q1) 을자료의 IQR(Inter-Quartile Range) 라한다.
120 Chapter 6. 기초통계량분석 ( 예제 ) 크기 6 인표본관측치 (1, 4, 6, 5, 6, 2) 의순서통계량은 (1, 2, 4, 5, 6, 6) 이다. 중앙값 의깊이는 ( 6 + 1) / 2 = 3. 5 이고일사분위와삼사분위깊이는 ([ 3.5] + 1) / 2 = 2 이다. 그러 므로일사분위 Q = x 2, 이산분위중앙값 Q = (4 + 5) 4. 5, 삼사분위 1 (2) = Q = x 6 이다. 그러므로 IQR = 6 2 = 4 이다. 3 (5) = 2 = 자료의분포가한쪽으로치우쳐있지않은종모양 (bell shaped) 인경우자료의대략적인 산포도를측정치로범위나 IQR 가계산되기도하지만 IQR 은나무상자그림에주로사 용되고자료의범위보다는최대값과최소값을주로사용하므로그값자체만으로는자료 정리에거의이용되지않는다. (2) 표준편차및분산 자료의산포도측정치로가장많이사용되는분산 (variance) 은각측정치 ( x i ) 들이평균 ( x ) 으로부터떨어진정도 ( 차이 ) 를제곱한값들을합한후자료의수로나눈값이고표준 편차 (standard deviation) 는분산의양의제곱근값으로정의된다. 모집단전체자료의분 2 산을모집단분산 ( σ ), 표준편차를모집단표준편차 (σ : sigma) 라하고표본자료의경 우는표본분산 (s 2 ), 표본표준편차 (s) 라한다. 표준편차나분포는순서통계량에의해자료의흩어진정도를나타내는범위나 IQR 과는 달리측정치들이평균으로부터떨어진정도를숫자로나타낸다. 측정치와평균의차이를 제곱함으로써멀리떨어질수록자료의흩어진정도에더많은영향을미치게된다. 즉표 준편차나분산은자료들이평균으로부터평균적으로얼마나떨어져있는지를나타내는 수치이다. 모집단분산, 표준편차계산식 : 2 = N ( xi u) σ, N i= 1 2 σ = 2 σ n 2 ( x x) 1 n i 2 2 표본분산, 표준편차계산식 : s = = [ xi n( x) ], n 1 n 1 ( 예제 ) 크기가 6 인자료 (1, 4, 6, 5, 6, 2) 의분산과표준편차를구해보자. i= 1 2 i= 1 s = 2 s s 2 6 1 = ( 6 1 i= 1 x i 4) 2 (1 4) = 2 2 + (4 4) 5 + L+ (2 4) 2 = 4.4 s = 4.4 = 2.098
6.1. 기초통계량 121 (n-1) 로나누는이유? 1통계학에서는모집단분산의추정치로표본분산을사용하는데 (n-1) 로나누어계산한표본분산이불편성을 (unbiased) 을갖게된다. 만약표본분산을계산할때표본크기 n 으로나누면편기 (biased) 추정치가된다. 2자유도 (degree of freedom) 에관한문제이다. 자유도는자료로부터통계량을계산하는경우이통계량에대해독립적인정보를갖는자료측정치의개수이다. 독립적인정보란의미는자료의측정치중그통계량을계산하는데필요란측정치가몇개인가하는것이다. 그러므로자료의수와자유도는다를수있다. 예를들어보자. 표본자료 (7, 8, 9, 10, 11) 에서통계량평균을구하는경우 5 개측정치가모두필요하나표준편차를구하는경우는 5 개측정치값이모두필요하지는않다. 표준편차를구하기위해서는우선평균을먼저구하므로 5 개측정치중하나가없어도그값을알수있다. 위표본자료의평균은 9이므로 5 개의측정치중 10 이없어져도 (7, 8, 9, 11), 4 개의측정치와평균 9 만있으면없어진측정치가 10 인지알수있다. 그러므로크기가 n 인표본자료의분산의자유도는 (n-1) 이된다. (3) 평균과표준편차측정형자료에대한기초통계량을정리할때평균과표준편차를사용하는것이좋다. 분산은측정치들을제곱한값들을합한것이므로측정치들을단순히합한평균과는단위가다르지만제곱근을구한표준편차는평균과단위가일치하기때문이다. (4) 표준편차해석표준편차는자료의흩어진정도를나타내는수치이므로이를이용하여측정자료를해석하는데이용할수있다. 예를들어, 수능성적이동일한학생 100 명을대상으로새로운학습방법을적용한후 100 문제를풀게하여평균이 80 점이고표준편차 1 을얻었다고하자. 성적의분포가종모양이라면 100 명학생성적은 77~83 점에대부분분포할것이다. 그러므로학생들의학습능력은동일하다고 (homogeneous) 생각할수있다. 만약표준편차가 10 이라면학생들의점수는 40~100 점사이에있으므로학습능력은다소차이가있음을알수있다. ( 예제 ) 두모집단의분포를비교하는경우표준편차가더유용하게이용된다. 능력이동일한두의사에게진료를받기위해기다리는시간을조사하였더니다음과같았다 ( 단위 : 분 ). 어느의사에게가서진료를받는것이유리할까? 경험적법칙 (Empirical Rule) 에의하면의사 A의경우기다리는시간은 8±3*0.26, 즉 7.22~8.78 분사이이
122 Chapter 6. 기초통계량분석 고의사 B 는 4.14~11.87 분이다. 의사 A 의경우대부분 8 분정도기다리나의사 B 의경우운이좋으면 5 분이내진찰을받을수있으나, 운이나쁘면 11 분이상기 다려야한다. 여러분이면어느의사에게진찰을받으러가겠는가? 데이터평균표준편차 의사 A 9 8 7 7 8 9 9 7 8 8 8 0.26 의사 B 14 7 8 11 15 4 3 6 7 5 8 1.29 참고 Empirical Rule( 경험적규칙 ): 자료의분포가좌우대칭이면다음이성립한다. (1) 전체관측치중적어도 68.3% 는평균 ± 표준편차범위에있다 (2) 전체관측치중적어도 95.5% 는평균 ± 2 * 표준편차범위에있다 (3) 전체관측치중적어도 99.7%( 대부분 ) 는평균 ± 3 * 표준편차범위에있다 (5) 변동계수 (CV: Coefficient of Variation) 측정단위에따라표준편차의값의크기가달라지므로단위가다른두집단을비교하는경우두표준편차의단위를같게할필요가있다. 이를위하여표준편차를평균으로나눈값에 100 을곱한값을변동계수 (CV: Coefficient of Variation) 라하고상대변동 ( 분산 ) 개념으로정의하고있다.
6.2. 설문분석에서의기초통계량사용 123 s 변동계수 : 표본자료의평균이 x, 표준편차가 s 인경우 CV = 100(%) x ( 예제 ) 고등학교 3 학년인 A, B 학생의공부습관을조사하여한달간조사하여 A 학생은평균 3시간, 표준편차는 0.5, B 학생은 6시간표준편차 0.8 인결과를얻었다. 어느학생이더꾸준히공부하는습관을가지고있을까? 이에대한답을위해변동계수를계산하면된다. 위의계산결과 B 학생이더꾸준히공부하는습관을가지고있다고결론지을수있다. A 학생공부시간에대한변동계수 = 0.5 / 3 100(%) =16.7 (%) B 학생공부시간에대한변동계수 = 0.8 / 6 100(%) =13.3 (%) (6) 표준편차와표준오차 표준편차 (standard deviation) 는자료의표준편차이고표준오차 (sampling error) 는표 본평균의표준편차이므로표준오차는 s / n ( 모집단표준편차모를경우 ) 이다. σ / n ( 모집단표준편차를알경우 ) 혹은 6.2. 설문분석에서기초통계량사용 리커드척도나열린문항 (open item: 측정형변수인소득, 판매액, 키등을주관식형태로물어보는경우 ) 형태로조사된문항을분석하는방법으로기초통계량분석을할수있다. 이는문항의응답척도가측정형이기때문이다. 설문데이터기초통계량은중앙값이나범위가아니라평균과표준편차를사용한다. 설문조사에기초통계량분석이란각문항에대해평균과표준편차를구하여문항자료 ( 응답결과 ) 를정리하는방법이다. 응답자들의생각의평균이어디이고그들의생각이얼마나흩어져있는지를측정하는것이다. 설문분석에서기초통계량을구하는것은응답자들의평균리커드점수의평균 (5 점척도의경우 5 점만점에몇점정도 ) 이나응답자들의선택의흩어짐 ( 산포도 ; 표준편차 ) 을구하여응답자들이어느정도만족하고있고그들의의견이얼마나흩어져있는지알수있다. 표준편차가크다는것은사람들의의견이많이상이하다는것이다.
124 Chapter 6. 기초통계량분석 6.2.1. 리커드척도문항에대한기초통계량허점 (1) 리커드척도문항의경우평균의의미는무엇인가? 경상대건물안공간 (Q4) 만족도점수가 2.91 이었다 (7 점만점 ). 강의실공간 (Q6) 만족도는 2.76 이었다. 각각어떻게해석할수있는가? 약간답답하다. 약간보다조금더많이답답하다. 해석하기어렵다. 사실리커드척도문항은점수로계량화 (quantify) 하였지만해석에문제가발생한다. 그러므로이런경우앞에서지적하였듯이만족 ( 만족이상 ) 하는사람들의빈도 ( 비율 ) 나, 불만족 ( 불만족이하 ) 느끼는사람들의빈도 ( 비율 ) 를표로정리 ( 수정된빈도표 ) 하는것이유용하다. (2) 리커드척도의또다른문제점은서로다른응답자집단의리커드점수를비교하는경우발생한다. 예를들어대전서구청과동구청의민원인만족도를비교한다고하자. 대전서구주민의구청만족도는 3.2( 이를 100 점만점으로환산하면 55 점 ) 였고동구주민의구청만족도는 3.5(62.5) 였다. 과연동구청만족도가더높은가? 리커드문항척도응답점수 =( 응답자만족점수 )+( 성향 ) 으로구성되어있어비판적인응답성향을가진응답자집단의경우에는동일만족수준이라도리커드점수가낮을수있다. 그러므로같은만족을느껴도까다로운집단의경우응답점수가낮게된다. 이런데그리커드척도점수평균만으로단순히비교하는것은잘못된것이다. 이런이유로몇년전서울지역구청만족도조사에서꼴찌를한서초구청이반발한것도이런이유에서이다. OO 조사은행만족도 1 위? 라고선전하는은행이있다. 믿을만한가? 제대로조사였을까? [ 예 : 1996 년설문조사수강생들이대전지역 5 개지역대학생만족도를조사한적이있다. 대학생의만족도가제일낮았다. 그럼정말 대학생들의만족도는다른학교에비해서낮은가? 이것은 2 등이느끼는피해의식이아닐까? 2 등은늘 1 등과비교하므로불만족을많이느낀다. (3) 리커드척도문항은집단간비교를위하여조사하면문제가발생한다. 그러므로집단간분석보다는설문조사내의다른문항 ( 주로인구학적변인문항 ) 과의관계를분석하는것이보다적절한분석방법이다. 예를들면, 시설만족도 10 개문항중만족도가가장낮은곳은어디인지조사하거나 ( 만족도문항간평균비교 이를이용하여만족도가장맞은부분에집중적으로투자 ), 성별혹은출신지역별시설만족도의차이는있는가? (t- 검정, 분산분석 ) 조사하는것이다.
6.3. 통계소프트웨어사용방법 125 6.2.2. T-score (T- 점수 ) 연봉책정을위하여각직원들의고과점수를매겨야할필요가있다. 이때팀장의평가 성향에따라점수부여정도가달라질수있으므로팀장의점수 (1-100 점 ) 를그대로사용 하면점수에인색하거나평가점수폭이큰팀장에속한직원은불이익을받게된다. 그렇 다고각직원의평가점수를부여하지않을수없는경우 T- 점수를사용하여점수를변환 하여그점수를이용하여각직원의업무능력점수로사용하면된다. Q : 전체직원총평 가점수평균, 응답자속한팀평균, S Q : 전체직원평가점수표준편차 Q i : i 번째직원평가점수, S Qi Q i : i 번째 : i 번째응답자속한팀표준편차라하면각개인의 T- 점수는 T Qi Qi = Q + SQ * ( ) 이다. S Qi 6.3. 통계소프트웨어사용방법 예제설문 CODING.txt 를 SPSS 데이터로만들어 SURVEY.sav 에저장했고, SAS 경우에는 프로그램을 SURVEY.sas 로저장하였다예제설문에서척도문항 4 개 (SAS: Q14-Q17, SPSS: V14-V17) 에대하여각각기초통계량분석을실시해보자. 6.3.1. SAS 90 참고 ) 설정하고프로그램을실행하자. ( 페이지 89- MEAN, STD 통계 Key-word 를써주면평균과표준편차만출력된다.
126 Chapter 6. 기초통계량분석 다음은 SAS 웹문서출력결과를엑셀로가져가정리한내용이다. 문항 평균값 표준편차 100 점환산 교수강의 3.73 1.22 45.5 질의응답 3.39 1.29 39.8 상담기회 2.34 1.12 22.3 조교 3.48 1.71 41.3 참고 1-5 점리커드점수를 100 점만점으로환산하는방법 : 100점점수 = ( 리커드점수 -1) * 25 < 리커드점수를 100 점만점으로환산하는예 > 5 점척도 7 점척도 3.12 (3.12-1)*25 = 53점 3 (3-1)*25 = 50점 3.12 (3.12-1)*100/6 = 35.3점 4 (3-1)*100/6 = 50점 교수에대한만족도조사중강의에대한만족도가가장높고상담기회에대한만족도가가장낮으므로교수들은학생들에게시간을할애하여상담기회를제공한다면교수에대한만족도를높일수있을것이다. 조교에대한학생들의만족도는 3.48 로다른항목에비해높으므로평균만이용한다면문제가없어보인다. 그러나표준편차가 1.71 로가장높다는것에유념해야한다. 표준편차가높다는것은매우만족하는학생도많은반면매우불만족하는학생의비율도높다는것을의미한다. 만족을느끼는사람이만족정도를말하는것보다불만족하는학생이불만족을말하는빈도가높고 ( 역 ) 효과를더많이내므로비록만족도점수는높으나조교에대해불만족느끼는항목을조사하여긴급히시정해야할것이다. TABULATE procedure 를사용하면더다루기쉬운표를적성할수있다. FORMAT=5.2 옵션은출력결과를 5자리이고소수점 2자리로출력하라는의미이다. TABLE 문의, 앞은행뒤는열의형식지정
6.3. 통계소프트웨어사용방법 127 만약성별 (Q1) 로 Q14-Q17 의평균과표준편차를구하려면다음프로그램을실행한다. 6.3.2. SPSS 메뉴에서다음과같이기술통계를선택한다. 기술통계창에서옵션 (O) 를선택하여원하는기술통계를선택할수있다.
128 Chapter 6. 기초통계량분석 결과는 SAS 출력결과와동일하다. 표에서오른쪽마우스버튼을눌러 복사 를선택한후 엑셀문서로가져가거나 개체복사 를눌러워드문서로가져가이용한다. 6.4. 리커드척도문항비교 6.4.1. 개념 리커드척도문항만족도간평균비교는가능한가? 학생들이느끼는강의 (3.73), 질의응답 (3.39), 상담기회 (2.34) 만족도의차이가있는지통계검정이가능한가? 결론부터말하자면불가능하다. 마치세집단 ( 범주 ) 평균차이검정처럼보여분산분석 (9장참고 ) 이적절한것처럼보이지만분산분석을실시할수있는자료가아니다. 각분야만족도점수는서로독립이아니므로분산분석을실시하여범주의차이를볼수없다. 설문조사에서는범주간평균차이비교를하지않는것이옳다. 굳이해야한다면범주 2개씩짝진 t-검정을여러번 ( kc 2, k : 범주수 ) 실시하면된다. 예를들어 ( 강의, 질의 응답 ), ( 질의응답, 상담기회 ), ( 상담기회, 강의 ) 각각에대해짝진표본평균차이 t- 검정을 실시해야한다. 세개의가설을각각검정한후하나로합치려한다면유의수준을다음 * k 공식에의해고쳐야한다. 1 ( α ) = 0. 05 k 개의귀무가설들을하나로합쳤을때유의 수준이 0.05 가되게하려면이식을만족하는 3 개인경우각귀무가설의유의수준은 0.017 로해야한다. * α 를유의수준으로사용해야한다. 범주가
6.4. 리커드척도문항비교 129 ( 예제 ) 생산기계가두대 A, B 들어왔다. 어느기계성능이좋은지알아보기위하여 8명의전문가를선정하여각기계의성능점수를부여하였다. 기계성능의차이가있는지적절한검정하시오. 점수는정규분포를따른다고가정하자. ( 유의수준 =0.05) 전문가기계 A 기계 B 차이 1 2 3 4 5 6 7 8 74 76 74 69 58 71 66 65 78 79 75 66 63 70 66 67-4 -3-1 3-5 1 0-2 (1) 가설 1귀무가설 : H : μ μ μ 0 (A, B 기계성능에차이가없다 ) 0 a = b d = 2대립가설 : H : μ μ μ 0 (A, B 기계성능에차이가있다 ) 0 a b d 필요한통계량계산 : 측정치의차이평균 ( d ) 과표준편차 ( s d ) 를계산한다. d μ d 0 1.375 0 (2) 검정통계량 : T = d = = = 1. 46 s s / n 2.67 / 8 (3) 결론 d d 임계치검정통계량의절대값이임계치 t( 1 α / 2;7) = 2. 365 보다작으므로귀무가설은 채택되고두기계의성능차이는없다고할수있다. P- 값을계산하면 0.18766 이므로유의수준 0.05 에서는귀무가설채택.
130 Chapter 6. 기초통계량분석 6.4.2. 설문분석에이용 예제설문에서 ( 강의, 질의응답 ), ( 질의응답, 상담기회 ), ( 상담기회, 강의 ) 각각에대한짝진표본평균차이 t-검정을실시해보자. ( 강의, 질의응답 ), ( 질의응답, 상담기회 ), ( 상담기회, 강의 ) 각각이유의수준 0.017에서유의적인차이가있다는결론을얻었다. 그러므로학생들이교수 ( 강의, 질의응답, 상담기회 ) 에느끼는만족도에는유의적인차이가있고강의 (3.73)> 질의응답 (3.39)> 상담기회 (2.34) 순이다.
6.5. 리커드척도문항빈도분석 131 6.5. 리커드척도문항빈도분석 리커드척도문항도보기문항이므로빈도분석으로정리할수있다. 각보기에대한빈도, 상대빈도 ( 퍼센트 %) 작성하거나그래프를그리지만일반적으로 만족 ( 매우만족 + 만족 ) 혹은 불만족 ( 불만족 + 매우불만족 ) 의비율을구하여정리한다. 예제설문에서는 7 점척도로조사하였으므로 (5+6+7) 을만족하는그룹 (1+2+3) 을불만족그룹으로하자. 5 점척도일경우에는 (4+5)= 만족, (1+2)= 불만족으로생각한다. 6.5.1. SAS 다음은 7 점척도인경우만족혹은불만족비율을구하는프로그램이다. 5 점척도인경우 에는만족에관심이있다면 ( 표왼쪽셀 ) 5 대신 4 를, 불만족에관심이있다면 ( 표오른쪽 ) 3 대신 2 를사용하면된다. 만족에관심이있는경우 불만족에관심이있는경우
132 Chapter 6. 기초통계량분석 만족을느끼는사항보다는불만족느끼는사항에의해만족정도가결정되므로교수, 조교 에대한만족도문항 Q14-Q17 에서불만족비율의차이를보고싶다면다음과같이하면 된다. 교수가 상담기회 를제공하는가에대한불만족비율이가장높으므로학생들의만족도를높이기위해서는교수는상담시간을정하여운영할필요가있다. 위의결과는평균을이용하여얻은결과와유사하다. NOCUM 옵션은누적 (cumulative) 통계량을출력하지말라는옵션이다. 그럼만족도문항에대해빈도분석이나기초통계량분석중어는것이옳은가? 빈도와평균분산을함께적어보고서를적성한다. 변수 2 개를만든다. V 는각문항의응답 을 G 는문항번호에대한변수이다. TABLE G*V: G 를행, V 를열로하여교차표작성. NOPERCENT: 샐퍼센트 (%) 출력하지않기. NOCOL: 열퍼센트출력하지않기.
6.5. 리커드척도문항빈도분석 133 NOPERCENT NOCOL 엑셀에서빈도표오른쪽에평균과분산을출력결과를붙인것이다. 이런표를만들때는 굳이만족혹은불만족비율로빈도표를만들필요는없다. 엑셀에서같은셀에두줄을사 용하려면한줄을완성한후 ATL+ENTER 를치면줄이바뀌게되므로글을입력하면된다. 문항 1 2 3 4 5 6 7 평균표준편차 교수강의 7 11 34 43 30 3 2 (%) 5.38 8.46 26.15 33.08 23.08 2.31 1.54 질의응답 11 17 41 42 12 4 3 (%) 8.46 13.08 31.54 32.31 9.23 3.08 2.31 상담기회 35 38 41 13 1 1 1 (%) 26.92 29.23 31.54 10 0.77 0.77 0.77 조교 22 17 26 31 18 8 8 (%) 16.92 13.08 20 23.85 13.85 6.15 6.15 3.73 1.22 3.39 1.29 2.34 1.12 3.48 1.71 5 점척도를사용한경우에는 1, 2, 3, 4, 5 의빈도만있으므로표가더간결하다. 리커드척도문항은위와같이정리하거나만족 ( 혹은불만족 ) 하는사람의비율을표로적성하여발표하면된다.
134 Chapter 6. 기초통계량분석 6.5.2. SPSS 우선 V14-V17 변수에대해데이터변환을해야한다. 각변수에대해따로해주어야하므 로 V14 를예를들어살펴보기로하자. 만약 5점척도라면 1 thru 3-->0 으로변환하고 4 thru 5--> 1 로변환하여야한다. 그리고범위로하지않고개별값으로하려면아래 부분을사용하면된다.
6.5. 리커드척도문항빈도분석 135 마지막열에 V14_G 이라는새로운변수가생긴다. V14_G 변수에대해빈도분석을실시하면만족하는응답자의비율을얻을수있다. default 로소수점 2 자리숫자가만들어지므로 시트아래 폴더를눌러자리수를 지정해주면된다. 불만족비율을얻고싶다면 새로운변수코딩변경 화면창에서다음과같이지정해주면된다.
136 Chapter 6. 기초통계량분석 6.6. 만족도문항역코딩 다음과같이리커드척도문항에서보기를좋은것부터열거한경우예를들어살펴보자. 1. 정부가추진하고있는일자리창출노력에대해당신은얼마나만족하고있습니까? 1매우만족 2만족 3보통 4불만족 5매우불만족리커드척도문항에대해빈도분석만할경우에는매우만족을 1, 만족을 2, 순으로코딩해도문제가없으나 ( 빈도만보는것이므로 ) 기초통계량을구하는경우매우만족은 5 점, 만족은 4점,.. 이런식으로사용하므로문제가발생한다. 그럼코딩할때미리기초통계량계산할것을대비하여 1번선택하면 5 로, 2는 4, 3 은 3, 4는 2, 5는 1 로코딩해야하는가? 이렇게코딩을하다보면코딩오류가많이발생하게되므로코딩할때는그냥번호순으로입력하고나중프로그램에서정정해주면된다. Q99 번문항이 5 점척도이고역으로코딩되어있다고하자. 6.6.1. SAS Q66 의원래값이 1 이면 5 가되고 5 이면 1 이되므로적절하게변환된다. 만약예제설문 처럼 7 점척도였으면 6 대신 8 을사용해주면된다. 6.6.2. SPSS 같은변수메뉴를선택하는것을제외하고는 6.5.2. 절의방법과동일하다.
6.7. 우선순위문항 137 6.7. 우선순위문항 5 장에서는우선순위문항에대한빈도분석을실시하였으나순위를값으로생각하여순위 에대한기초통계량으로구하여표로정리할수있다. 예제설문에서 Q26_1-Q26_5 번문 항 (SPSS 는 V26-V29 문항 ) 에대한각보기의순위점수평균과표준편차를구하여보자. 6.7.1. SAS (1)PROC MEANS 방법 (2)PROC TABULATE 방법
138 Chapter 6. 기초통계량분석 순위는 1~5 까지있으므로순위평균이낮을수록학생들이학과를선택할때중요하게생각한다. 취업 적성 학문적우월성 교수질 선후배관계순이다. 빈도분석결과와일치한다. 우선순위의평균을사용하는경우는 1하나의값으로요약할수있을때 2각문항의순위차이 ( 분산분석 ) 를검정할때이다. (3) 우선순위개수와문항수가같지않다면 만약예제설문과같이조사되지않고우선순위를적으라고한설문조사는어떻게분석할것인가? 다음의예를보자.
6.7. 우선순위문항 139 Q26 의 1 은 1 취업전망, 2 는 2 학문적우월성, 3 은 3 적성, 4 는 4 교수의질, 5 는 5 선후배관계를의미한다. 그리고평균은순위의평균이므로이값이낮은문항이우선 순위가높다. 6.7.2. SPSS 기술통계량 V26 V27 V28 V29 V30 유효수 ( 목록별 ) N 평균 표준편차 119 1.50.69 112 3.33.91 123 1.64.71 112 3.87.75 112 4.56.71 112
140 Chapter 6. 기초통계량분석 6.8. 보고서작성 6.8.1. 리커드척도문항 리커드척도문항에대해서는빈도분석과함께평균과표준편차를함께작성하는것이바람직하다. 다음은예제설문에서 1-2 점을 1점, 3 점을 2점, 4 점을 3점, 5 점을 3점, 6-7 점을 5 점으로하여 Q14-Q17 문항을정리한것이다. 주로 5 점척도를사용하기때문에이렇게예제를재구성하였다. 각항목에대해행퍼센트가가장높은셀에파란색채우기를이용하여보기쉽게하였고만족도점수가가장낮은항목과표준편차가가장곳에빨간색으로강조하였다. 평균점수가낮다는것은만족도가낮다는것을의미하며표준편차가크다는것은응답자의만족점수의변동이크므로응답점수가높은사람은물론낮은사람도많다는것을의미한다. 항목 1 2 3 4 5 평균표준편차 교수 18 34 43 30 5 강의 13.85 26.15 33.08 23.08 3.85 질의 28 41 42 12 7 응답 21.54 31.54 32.31 9.23 5.38 상담 73 41 13 1 2 기회 56.15 31.54 10 0.77 1.54 2.77 1.08 2.45 1.09 1.60 0.82 조교 39 26 31 18 16 30 20 23.85 13.85 12.31 2.58 1.37 교수들의상담기회제공에대한만족도가가장낮으므로교수들은일주일에 2 시간정도시간을할애하여학생에게면담을제공한다면학생만족도를높일수있을것이다. 조교에대한만족도점수는다른항목에비해낮지않지만표준편차가크므로불만족을느끼는학생들의비율이교수강의나질의응답에비해크다는것을의미하므로학생들이불만족을느끼는사항에대해시정할필요가있다.( 표준편차해석 : 6.3.1 절참고 ) 알고가자각항목의평균이다른지 ( 분산분석 ) 표준편차가다른지 (F-검정, Bartlett 검정, Hartley 검정 ) 통계적검정을해야한다 (6.4 절참고 ). 그럼통계적유의성검정은꼭
6.8. 보고서작성 141 필요한가? 그렇지않다. 설문조사에서는항목간차이가있다는것에집중한다. 위표는학교가학생들의만족도를높이기위해서는어떤항목에우선적으로집중해야하느냐를결정할때참고자료로사용할수있다. 사실설문조사에서통계적유의성검정은학문연구의가치밖에는없다. 리커드척도문항을개별적으로그래프화할때는각문항보기의퍼센트에대한 Bar chart 를이용하면된다. 평균, 표준편차는각하나이므로그래프그린다는의미가없다. 그러나위의예제처럼유사한리커드척도항목을비교하고자할때는퍼센트에대한바차트나평균에대한바차트를그리는것이좋다. (1) 평균 Bar chart ( 바차트 ) CTRL 키를누른상태에서마우스를이용하여다음과같이항목과평균을선택하고 아이콘을눌러그래프를그리면된다. 구성원만족도평균 3.00 2.77 2.45 2.58 2.00 1.60 1.00 0.00 교수강의 질의응답 상담기회 조교
142 Chapter 6. 기초통계량분석 (2) 퍼센트 Bar chart ( 바차트 ) 엑셀에서표를복사한후빈도를지우고퍼센트만남긴후마우스로그래프그릴셀들을 다음과같이선택하고아이콘을눌러그래프를그리면된다. 항목별퍼센트에대한그래프를그릴때방법은다음과같이두가지방법이있다. 60 50 40 30 20 10 0 1 점 2 점 3 점 4 점 5 점 교수강의질의응답상담기회조교
6.8. 보고서작성 143 분석결과에대한해석은평균바차트를이용한경우와유사하다. 위의그래프를이용하 면리커드점수별로항목의퍼센트를비교할수있고아래그래프는항목별로리커드 점수분포를알수있다. 60 50 40 30 20 10 0 교수강의질의응답상담기회조교 1 점 2 점 3 점 4 점 5 점 조교에대한만족도를보면매우만족하는 (5 점 ) 학생이있는반면매우불만족비율도높 으므로이를시정할방안을강구해야한다. 교수의상담기회에대한불만족비율이높으므 로상담시간을갖는방안을우선적으로시행할필요가있다. 6.8.2. 우선순위문항 우선순위문항도순위빈도와평균, 표준편차를표로작성하거나그래프를그리면된다.
144 Chapter 6. 기초통계량분석 우선순위평균 5.00 4.00 3.87 3.33 4.56 3.00 2.00 1.64 1.50 1.00 0.00 교수적성취업학문학우 학생들이전공을선택할때취업, 적성을우선적으로고려하고있었고학우관계는큰영향을미치지않았다. ( 평균순위나아래퍼센트바차트로부터얻는정보는동일하다.) 설문조사가이루어진시기가 1 학기초라학생들이대학을들어올때막연히생각했던취업문제, 들어서알고있던적성을택하였다. 그러나학년말이갈수록 MT, 학과단위의모임으로인하여전공을선택하는데선후배 ( 학우 ) 관계가주요항목으로나타나고있다. ( 실제일들에대한논의 ) 다음은순위에대한빈도표를항목별로작성하고그에대한바차트를그린것이다.
6.9. 통계적가설검정 145 70 60 50 40 30 20 10 0 1 순위 2 순위 3 순위 4 순위 5 순위 교수적성취업학문학우 6.9. 통계적가설검정 (optional) 6.9.1. 모수와통계량 모집단데이터특성값을모수 (parameter) 라허고그모수를추정하기위하여표본으로부터 계산된값을통계량 (statistic) 이라한다. 모집단의분포와표본의분포는동일하다. 그러나 통계량의분포는모집단의분포와다를수있다. ( 예 : 중심극한정리 ) 모집단 x x x x x x 표본 x x 모수 : ( μ, σ ) x x x x x ( x, s) 통계량 모집단분포 표본분포
146 Chapter 6. 기초통계량분석 6.9.2. 추정 점추정은 (point estimation) 모집단의모수를하나의값으로추정하는방법이다. 구간추정 은 (interval estimation) 모수값을구간으로추정하는것으로아래그림과같다. 이처럼구 간을설정하기위해서는분포에대한정보가필요하다. 95% 신뢰구간 점추정치 6.9.3. 통계적가설 (statistical hypothesis) 모수에대해알고자하는내용을가설로설정하여표본으로부터구한통계량을이용하여설정한가설의진위여부를검정하는것을가설검정이라 (hypothesis testing) 한다. 통계학에서설정되는통계적가설은모수에대한하나의값으로설정된귀무가설과 (null hypothesis) 과그에대립하는대립가설이 (alternative hypothesis) 있다. 우리의관심은대부분대립가설에있으므로이를연구가설이라 (research hypothesis) 한다. 귀무가설은 =, 차이가없다, 영향을미치지않는다 등으로표현되므로아무내용도없다는뜻의 NULL 이라는이름이부여되어있다. ( 예제 ) 한남대학교대학생의 IQ 가 120 인가를알고알아보고자한다면다음과같다. 귀무가설 : μ = 120 μ = 한남대학생의평균 IQ vs. 대립가설 : μ 120 양측검정 만약 IQ 가 120 이상인가를알아보고자한다면귀무가설은그대로이고대립가설만 μ > 120 으로바꾸면된다. 이를단측가설이라한다.
6.9. 통계적가설검정 147 통계적가설검정은표본으로부터구한통계량을이용하여귀무가설을채택하거나기각한 다. 귀무가설이기각되면대립가설이채택한다. 통계적가설검정에서는다음과같이 2 가지 오류 (error) 가발생한다. 실제 귀무가설참 귀무가설거짓 검정결과 귀무가설기각 1 종오류 (α ) 옳은판단 귀무가설채택 옳은판단 2 종오류 ( β ) 1 종오류 (type I error) 와 2종오류 (type II error) 를동시에최소화하는검정방법은존재하지않으므로 1 종오류값을임의로설정하고 2 종오류를최소화하는검정방법을사용한다. 분석자가임의로설정한 1 종오류를유의수준이라 (significant level) 하고일반적으로 0.1(10% 유의 ), 0.05(5%), 0.01(1% 매우유의 ) 을주로사용한다. 신뢰구간과가설검정은일대일관계가있다. 즉 95% 신뢰구간과 5% 유의수준가설검정 결과는동일하다. 예를들어한남대학생 IQ 의 95% 신뢰구간을구하였더니 ( 100,130) 이었 다면귀무가설에서 H 0 : μ = μ 0, μ 0 의값을 100 에서 130 의값으로설정하면귀무가설은 채택된다. 6.9.4. 유의수준과유의확률 (p- 값 ) 통계적으로유의하다는의미는통계적으로차이가존재한다는것이다. IQ 에있어성별변인이미치는영향이유의하다는것은성별에따른 IQ 의차이가있다는것이고 OO 시설만족도에학년변인문항이유의하다는것은학년에따른만족도차이가있다는것을의미한다. 통계적가설을진위를검정하기위하여계산되는통계량을검정통계량이라한다. OO 대학학생들의 IQ 가대한민국 IQ 평균 120 과같은가? ( 귀무가설은 H : μ 120, 대립 0 = 가설은 H : μ 120 ) 알아볼때검정통계량은다음과같으며이통계량은중심극한정리에 0 x μ0( = 120) 의해정규분포를따른다. T = ~ Normal(0,1) s / n 검정통계량이정규분포를따르므로만약유의수준을 0.05 라설정하였다면표본으로부터 계산된검정통계량값의절대값이 z 1. 96 ( 기각치, 혹은임계치 ) 값보다크면귀무가설을 0.025 =
148 Chapter 6. 기초통계량분석 기각하고 ( 대립가설채택 ) 그렇지않으면귀무가설을채택한다. 다음은유의수준을 0.05 (5%) 로한경우모평균에대한가설검정기각역을나타낸것이다. 표본으로부터계산된검정통계량의값보다크거나작은부분의확률을유의확률이라한 다. 그러므로유의확률이유의수준 ( α ) 보다작다면계산된검정통계량이기각역에들어 감을의미함으로귀무가설이기각된다. 유의확률을 p-값 (p-value) 이라하는데 귀무가설을기각할최소의유의수준 이라고정의하기도한다. 통계소프트웨어는항상검정통계량값과유의확률을함께출력하므로유의확률개념만알면결과해석에문제가없다. 유의확률 (p-값) 이유의수준보다작으면귀무가설을기각하고크면귀무가설을채택한다. 통계소프트웨어는양측검정기준으로유의확률을출력하므로대립가설이단측가설검정 이라면유의확률만 1/2 로해주면된다.
Exercise 149 [ 연습문제 ] (1) 대학교학생으로느끼는점에대한 4 개문항 (Q22~Q25) 에대해기초통계량을계산하고빈도표와함께정리하시오. (2)(1) 의결과에적절한그래프를그리고해석하시오. (3) 팀프로젝트설문지에서리커드척도문항에대한기초통계량분석을실시하고적절한표와그래프로요약하시오. (4) 리커드척도문항은빈도분석과기초통계량분석을할수있다. 이경우두방법의장단점을논하시오.