CHAPTER 8 교차분석 8.1. 교차분석 (cross-tabulation) 개요 8.1.1. 교차분석개념 두분류형 ( 범주형 ) 문항 ( 변수 ) 간의연관관계 (association) 를볼때교차표 ( 분할표 ) 를작성하 여변수들간관계를분석하게된다. 이를교차분석혹은 χ (chi-square) 검정이라한다. 교차분석의의미는두변수의빈도표를교차시켰다는의미이며교차분석에사용되는검 정통계량이 χ -분포를 ( 물론근사통계량이지만 ) 따르기때문에 χ -검정이라한다. 교차표 (cross-tabulation: 분할표 : contingency table) 는각분류형변수에대한빈도표를행과열로결합시켜놓은형태이다. 일반적으로행에는설명변수에해당되는변수를열에는반응변수 ( 종속변수 ) 를놓으면된다. 원인이되는변수를독립변수또는설명변수라하고결과변수를종속변수또는반응변수라한다. 성별 ( 남녀 ) 과전공선택 ( 중국, 경제, 정보통계 ) 문항간관계를알아보고자한다. 두문항 ( 변수 ) 모두분류형변수이므로빈도표를교차시켜놓으면된다. 이때성별에따른전공선택의차이라고재해석할수있으니성별이설명변수, 전공선택은종속변수가된다. 성별을행으로전공선택을열로해서교차표를작성하면된다.
170 Chapter8. 교차분석 중국경제정보통계 남자 n 11 n 1 n 13 여자 n 1 n n 3 8.1.. RxC 교차표와검정통계량 다음은행 (row) 변수의범주가 R 개, 열 (column) 변수의범주가 C 개일때교차표이다. 교차 표작성시행은설명변수 ( 영향을미치는혹은 ~ 따라서 ), 열은종속변수로하는것이일반 적이다. 설명변수 종속변수 1 C 행총합 1 n 11 n 1 c n 1 n c n 1 n 1. n n. : : : : : : R n r1 r 열총합. 1 n. n rc n n r. n n. c n n i. = n ij j n. j = n ij i n = n ij i j n 11 =1 번행, 1 번열의빈도수 ( 위의예제 ) 남자이고중국전공을선택한학생 n 3 = 번행, 3 번열의빈도수 ( 위의예제 ) 여자이고정보통계전공을선택한학생 두변수가관계가없다, 혹은설명변수가종속변수에영향을미치지않는다 ( 예를들어 성별에따른전공선택의차이가없다. ) 의미는두변수 ( 문항 ) 가서로독립이라는의미이다. 두변수가서로독립이라면확률이론에의해 P ( AB) = P( A) P( B) 이성립한다. ( 예 ) P( 남자 경제 )=P( 남자 )P( 경제전공 ) 교차표에서두변수가서로독립이라면셀 ( i, j) 의확률 ( 비율 = 빈도 / 총개수 ) Pij 는 로나타낼수있다. Pi. 은 i-번째행의확률이고 기호로다시표시하면 P. j P i P. j. 으 은 j- 번째열의확률이다. 교차표의빈도
8.1. 교차분석개요 171 nij Pij = n, ni. Pi. =, n n. j P. j = 이고독립이라면 n nij n n P i. j ij = =. 이성립한다. n n n 두변수가독립이라는가정하에 i- 행, j- 열셀의예상빈도는 라하고 n n i.. j 이다. 이를기대빈도 n n Eij 으로나타낸다. 표본으로부터계산된 ( 관측된 ) 빈도를관측빈도라하고 Oij 라 한다. 이사실을이용하여귀무가설 ( 두변수는서로독립이다 ) 을검정하는데다음통계량을 생각할수있을것이다. ( O T = ij E i j ij E ) 위의검정통계량의의미는? 만약두변수가독립이라면 O = E ) 이고 T 값은 0 일것이 ij ( ij ij 다. 즉 T 가 0 에가까우면두변수는관계가없다고결론내릴수있는것이다. 또한이검 정통계량은 χ ( df = ( R 1)( C 1)) 에근사함이밝혀져있다. 기각역 (critical region) 8.1.3. 기대빈도 5 미만문제 교차분석에사용되는 χ ( df = ( R 1)( C 1)) 검정통계량은근사적으로 χ -분포에따른다. 근사조건으로는각셀의기대빈도 ( 관측빈도가아니다 ) 가 5 이상이어야한다. Cochran 은자유도 이상인경우기대빈도 5 이상인셀이전체 0% 만넘으면교차표에서구한검정통계량은 Chi-square 분포에근사한다고했다. 일반적으로 Cochran 의이론을받아들인다. 통계소프트웨어는기대빈도가 5 미만인셀의비율을출력하여사용자에게경고메시지를준다. ( 통계소프트웨어이용방법에서논의 ) 기대빈도가 5 미만인셀의비율이 0% 를넘으면계산된검정통계량은 χ - 분포에근사하지않는다. 이런경우해결책은무엇인가? 1표본의크기 n 을늘리면되지만이미설문이끝난상태이므로해결책이되지못한다. 독립성검정의경우변수의수준을합쳐셀의수를줄이는방법이다. 위의예에서변수 X 의수준중 0 과 1 을합쳐하나의수준으로하
17 Chapter8. 교차분석 면이문제는해결된다. 셀을합칠경우그룹으로할수있는것을합친다. 예를들어수준이 ( 상, 중, 하 ) 인경우 상 과 하 를합치는것은정말어리석은일이다. 수준의의미가상실되기때문이다. (3) 동질성검정의경우 Exact test 를시행하는것이다. 물론이방법은독립성검정에도적용될수있다. 이는근사통계량을이용하는것이아니다. 처음이방법을제안한사람은 Fisher 인데그는 x 분할표의경우제안하였고후에 RxC 분할표로확대되었다. 8.1.4. 수작업 A 학부 1 학생 30 명을대상으로남녀별전공선택 (3 개전공 ) 의차이가있는지알아보고자 하여자료를조사하여다음교차표를얻었다고하자. 성별 전공 A 전공 B 전공 C 전공 Total 남자 75 46 3 144 여자 30 3 4 86 Total 105 78 47 30 (1) 가설 1귀무가설두분류형변수간의관계가없다. 두변수는서로독립이다. 남녀별전공선택의차이는없다. 대립가설관계가있다. 서로독립이아니다. 남녀별전공선택의차이는있다 () 검정통계량 : 만약두변수가서로독립이라면 P( 표본 n 명중 ij 셀에속하는빈도 ) = E n i.. j ij = ( )( ) n.. 위의예에서두변수가독립이라면 P( 남자 A 전공 ) = P( 남자 ) P(A 전공 ) n.. n n.. 이다. 그러므로
8.1. 교차분석개요 173 n1. n. 1 행 1열의기대빈도는 E 11 = ( )( ) n.. = 105 144 / 30 = 65. 7 n.. n.. 다른셀도같은방법 행 3열기대빈도 E = 86 47 / 30 17. 6 3 = 만약귀무가설이성립하면 ( 독립이라면 ) 각셀의 O E ) 는 0에가까운값일것이다. ( ij ij 검정통계량 ( O T = ij E E ij ij ) 는자유도 ( r 1)( c 1) χ - 분포에근사 (approximate) 한다. (75 65.7) (4 17.6) T = +... + = 7.68 ~ χ ( df = ( 1)(3 1) = ) 65.7 17.6 (3) 결론 계산된검정통계량값이 χ 그렇지않으면귀무가설을채택한다. - 분포표로부터구한기각역에속하면귀무가설을기각하고 5.99 기각역 (critical region) 계산된검정통계량이 7.68 이므로기각역에 {> 5.99} 속하므로귀무가설이기각되고성별과전공선택에는관계가있다고할수있다. 그러면어떤관계가있는가? 이것에대한대답은행퍼센트를참고하면된다. 설명변수가행에있으므로 SAS 출력을미리살펴보면남자는 A 전공을, 여자는 B 전공을선호한다고말할수있다. 여자는각전공을골고루택하지만남자는 A 전공을선호하고있다. 대립가설이양측검정의형태인데기각역이왜한쪽방향만고려되느냐고묻고싶은사람이있다면묻기전에생각해보라. 검정통계량의값이어떻게계산되었는지를 그래도이해가되지않으면머리를벽에다세번박으면알게될것이다. 5% 7.68
174 Chapter8. 교차분석 8.1.5. 교차표가주어진경우 교차표가주어진경우에도 SAS 를이용하여 χ - 검정통계량과검정결과를얻을수있다. 교차표가만들어져있는경우각셀의빈도를가중치 (WEIGHT) 로사용하면된다. EXPECTED 옵션은기대빈도출력한다. 빈도, 백분율 ( 비율 ), 행비율, 열 ( 컬럼 ) 비율출력된다.
8.. 설문분석에교차분석적용 175 카이제곱, 우도비카이제곱은같은개념의검정방법이므로독립성검정을위해서는카이 제곱 ( χ ) 검정을이용하면된다. Mantel-Haenszel 카이제곱, 파이계수, 분할계수, 크래머 의 V 통계량은순서형 ( 리커드척도문항이나우선순위문항, 상 / 중 / 하등이이에해당 ) 문항 ( 변수 ) 간상관정도를분석할때사용한다. 유의수준은 Mantel-Haenszel 카이제곱 ( 순서형변수의상관계수로생각하면된다 ) 만주어져있으므로이를사용하면된다. 귀무가설은 상관관계가없다 이다. 8.. 설문분석에교차분석적용 1인구학적변인 ( 일반적으로분류형문항, 즉보기문항 ) 에따른본문항 ( 이문항역시보기문항, 즉페쇄형문항으로리커드척도문항아님 ) 선택의차이는있는지 본문항의폐쇄형문항간응답자의선택에차이는있는지알아보는데교차분석이사용된다. 예제설문의경우다음을알기위해서는교차분석을실시하면된다. 성별 (Q1) 에따른전공선택 (Q7) 차이는있는가? 성별 (Q1) 에따른전공선택시취업의우선순위 (Q6_1) 의차이는있는가? 대학원서접수때원하는전공선택여부 (Q8) 에따른전공선택 (Q7) 의차이는있는가? 교차분석은두문항모두분류형변수이어야하고두문항과관계 ( 이것이연구가설 ) 를보기위하여실시하는것이다. 물론리커드척도문항도폐쇄형문항으로간주하여인구학적변인과교차분석이가능하지만이미척도라는개념에의해분산분석을실시하는것이일반적이다. 이부분에대해서는 8.4 절에서좀더다루기로한다. 우선순위문항도순위가 5 개정도되면점수로간주하여기초통계량분석을할수있으나 3 개정도면 ( 물론무리해서평균, 표준편차를구할수있으나 ) 각우선순위를범주형 ( 페쇄형 ) 변수로간주하여교차분석을실시하는것이더옳은방법이다.
176 Chapter 8. 교차분석 8.3. 통계소프트웨어이용 다음연구주제에대해분석하여보자. 1성별 (Q1) 에따른전공선택 (Q7) 의차이는있는가? 출신지역 (Q3) 에따른전공결정여부 (Q8) 의차이는있는가? 3성별 (Q1) 에따른취업전망우선순위선택 (Q6_1) 의차이는있는가? 4대학원서접수때원하는전공선택여부 (Q8) 에따른전공선택 (Q7) 의차이는있는가? 8.3.1. SAS 성별 (Q1) 에따른전공선택 (Q7) 의차이는있는가? 교차표를작성할때행은설명변수 (~ 따른, ~ 의해 ) 를적어야한다. NOCOL 옵션은열퍼센트를출력하지말라는옵션이고 NOPERCENT 는셀퍼센트 (%) 출력하지말라는옵션이다. CHISQ 는검정통계량을출력하는옵션이다. 교차분석이이옵션을모두사용하자. 의의미는 (Q1*Q7), (Q8)*(Q7) 두개의교차표를출력하라는의미이다. 여자 남자 각셀에는빈도와행백분율만나타나있다. 남녀별차이를보기위해서는각행에서비 율이가장큰셀혹은가장낮은셀에표시하자. 남녀모두중국전공을선호하고있으며
8.3. 통계소프트웨어이용 177 남자의경우그다음전공으로정보통계를생각하고있다. 물론이런해석도카이 - 제곱 ( χ ) 검정결과유의해야가능하다. 그러나꼭통계적유의성이필요한가? 사실우리의 관심은남자, 여자의전공선택비율의순서에만있다고한다면통계적유의성은학문연구에서만중요하지않을까? 유의확률 (p- 값 ) 이 0.0151 이므로남녀별전공선택의차이는있다. 앞의해석이유효하다. 문제가발생했다. 경고에보면기대빈도가 5 미만인셀이전체 33% 이다. 그러므로카이 제곱 ( χ ) 검정을사용할수없다. 이런경우문항 ( 변수 ) 의범주를합쳐수를줄이거나 Fisher 가제안한 Exact 검정을하면된다. 1 기대빈도출력 우선기대빈도를출력하여어느부분이문제인지살펴보자. 빨간박스안에 개셀이기 대빈도 5 미만이다. 그러므로 /6=33(%) 이다.
178 Chapter 8. 교차분석 범주합치기셀의수를줄이려면각문항의셀을합쳐야한다. 그러나성별은범주가 개이므로합치는것은적절하지않고전공도합치기에는문제가있다. 이런경우 Fisher 의 Exact ( 정확 ) 검정을사용하시오. 다음은전공을중국경제를합칠수있다고가정하고실시한분석이다. 여자 남자 5 미만인셀의비율이 0% 이상이므로 χ 검정을사용할수없다. 그러므로 Fisher 의 정확검정을사용해야한다. 만약이런경고가나오지않았다면 유의확률이 0.0305 이므로남녀별전공선택의차이는있다. 그리고해석은 남녀모두중국 / 경제전공을 선호하지만남자는여자에비해중국 / 경제선호정도가낮다. 라하면된다.
8.3. 통계소프트웨어이용 179 3Fisher 의 Exact 검정 EXACT 옵션을사용하면된다. Fisher 의정확검정은초기하분포에기초한다. 유의확률이 0.0115이므로남녀별차이가있다. 남녀모두중국전공을선호하고있으며남자의경우그다음전공으로정보통계를생각하고있다. 출신지역 (Q3) 에따른전공선택 (Q7) 의차이는있는가? Q3 을행으로 Q8 을열로하여교차표를작성한다. 셀의기대빈도가미만인셀의비율이 40% 로 0% 를넘으므로 χ -검정을사용할수없다. 셀을합치거나 Fisher Exact 검정을하면된다. Fisher exact 검정방법은위의예제
180 Chapter 8. 교차분석 (1) 를보기바란다. 셀합치기를다시한번살펴보기로하자. 대전 + 충남, 그외지역으로 나누어보자. 이런식으로하면결측치가 보다적은 수로인식되어 1 로변환된다. 대전 / 충남지역학생은원서접수전에전공을정하였으나기타지역출신자들은지원시성적에맞는전공을선택하기위하여정하는않은비율이높았다. 물론이것은통계적으로유의하지않았지만 ( 유의확률 =0.315) 중요한가? 비율이다르다는것이사실이중요하지않은가? 성별 (Q1) 에따른취업전망우선순위선택 (Q6_1) 차이는있나?
8.3. 통계소프트웨어이용 181 여자 남자 기대빈도경고로인하여 χ -검정을사용할수없다. 우선순위의수가 5 개인경우에는 집단간우선순위점수평균의차이를검정 ( 분산분석혹은 t- 검정 ) 하는것이좋다. 우선순위가 3 개인경우에는교차분석을하는것이적당하다. 만약우선순위개수가 보기문항의수보다적어설문데이터에입력된값이우선순위점수가문항보기번호 인경우다음과같이프로그램하면된다. Q6_1 에는 1 순위로선택된문항보기가있다. 프로그램은동일하지만이제열은더이상우선순위가아니라문항보기이다. 취업학문적성교수선후배 여자 남자 8.3.. SPSS 성별 (V1) 에따른전공선택 (V31) 의차이는있는가?
18 Chapter 8. 교차분석
8.3. 통계소프트웨어이용 183 기대빈도가 5 미만인셀의수가 33% 로 χ - 검정을사용할수없다. 셀을합치거나 Fisher 의 Exact 검정을사용하면되지만 SPSS 는 (X) 교차표경우에만사용결과가출력된다. 셀합치는방법을사용해보자. 1 셀합치기 V31 에서경제와통계를하나의범주로합하여문제를해결하려고한다고가정하자. V1 와 V31G 변수간교차분석을실시하면된다.
184 Chapter 8. 교차분석 아래결과와같이 X 교차표에서만 Fisher Exact 검정결과가나타난다. 8.4. 보고서작성 교차분석결과는교차표와바차트로정리하면된다. 출신지역을대전 (1), 충남 (), 그외 지역 (3) 으로범주를나누었다고가정하자. 출신지역에따른전공선택의차이가있는지알 아보았다.
8.4. 보고서작성 185 다음은 SAS 의웹결과를엑셀에복사한후정리한후워드문서로가져온것이다.
186 Chapter 8. 교차분석 출신지 대전 충남 전공선택 중국 경제 정보통계 75 5 4 89.9 5.95 4.76 16 1 3 80.0 5.0 15.0 총합 84 0 기타 18 3 3 4 75.0 1.5 1.5 총합 109 9 10 18 χ = 4.79, p = 0.3088 출신지역에따른전공선택의차이는유의하지않았다. 출신지역에관계없이중국전공을선호하였으나충남지역출신학생들은 순위로정보통계전공을선호하였다. 다른지역에서는경제나정보통계전공선호에는차이가없었다. 교차분석절차는다음과같다. 1 설명변수문항을행, 종속변수문항을열로하여교차분석을실시한다. 기대빈도 5 미만인셀에대한경고메시지를확인한다. 3기대빈도 5 미만인셀이 0% 이상이면셀합치기 ( 권장 ) 를하거나 Fisher 의 Exact 검정을실시한다. 4 χ -검정통계량의유의성을확인한다. 5통계적으로유의하다면설명변수문항 ( 행 ) 의각보기 ( 범주 ) 에대해행퍼센트가높은순으로정리한다. 행퍼센트비율차이나순서차이를살펴해석한다. 적절한그래프를그리려면우선엑셀에서표를다음과같이정리할필요가있다. 물론이표는위의표를수정한것이아니라 ( 가능하면남겨주는것이좋다 ) 그아래복사한후수정한것이다.
8.4. 보고서작성 187 100 80 60 40 0 0 대전충남기타 중국경제정보통계 인구학적변인에따른리커드척도문항응답의차이 ( 예를들면성별 (Q1) 에따른입학한것에대한만족도의차이 (Q4) 는있는가?) 에대한적절한분석방법은교차분석이아니라분산분석이다. 왜냐하면리커드척도문항은분류형보기문항을척도개념을이용하여측정형변수로변환하였기때문이다. 그럼에도불구하고교차분석을하려면다음과같이하면된다. 선택하는전공 (Q7) 에따른입학한것에따른만족도 (Q4) 의차이는있는지를알아보고자한다. 만족도점수가 7점척도이므로흔히사용되는 5점척도인경우로데이터를변환하자. 6점과 7점은 5점, 5점은 4점, 4점은 3점, 3점은 점, 1점과 점은 1점으로변환하자. 5점척도인경우에는다음프로그램이필요없다. [ 교차분석 ]
188 Chapter 8. 교차분석 [ 기초통계량계산 ] 기대빈도가 5 이하인셀의비율이 67% 로 이를무시하자. χ - 검정방법을사용할수없으나예제이므로 입학에대한만족도 분산분석 매우불만족불만족보통만족매우만족평균표준편차 중국 경제 19 1 39 1 10.83 A 1.19 17.7 19.09 35.45 19.09 9.09 0 3 3 0 3 3.33 A 1.3 0 33.33 33.33 0 33.33 정보 1 4 3 0.8 A 1.14 통계 0 10 40 30 0 검정통계량 =11.37, 유의확률 =0.181 유의확률 =0.48 분산분석결과얻는방법과해석방법은 9장에서다루기로한다. 교차분석, 분산분석결과모두전공선택에따른입학만족의차이는없다고결론내릴수있다. 교차분석은각행의수준에대해 5개비율이나타나므로행변수에의한차이를보기위하여행퍼센트순위차이를보거나 ( 중국전공선택학생은보통 > 불만족. 만족 > 매우불만족 > 매우만족순이고경제전공은불만족, 만족, 매우만족비율이같다 ) 각행에서행퍼센트가가장큰셀을참조하여 ( 중국과정보통계는보통, 경제는불만족, 보통, 매우만족 ) 해석한다. 다소복잡하다. 분산분석은평균하나의값에의해차이가해석되므로입학만족도가가장높은집단은 경제전공선택학생이고정보통계선택학생이만족도가가장낮다고할수있다. 물론 유의확률이 0.48 이므로통계적으로유의한차이는없다.
8.5. McNemar 검정 189 8.5. McNemar 검정 (optional) SPSS 교차분석통계량옵션을보면 McNemar 검정이나온다. 이에대한살펴보기로하자. 수준이짝을이루었다는것은무슨뜻인가? 예를들어보자. 새로운이슈가발생한경우 A 대통령후보에대한지지여부가바뀌었는지알아보거나 ( 물론이경우동일응답자, 즉패널 (panel) 구성 ), 안전벨트착용거부여부가교육전후에바뀌었는지알아보고자할때사용되는방법이다. 전후사이에응답대상이나실험대상이바뀌는경우나, 전현다른것을측정하는경우 ( 즉수준이달라지는경우 ) 는 McNemar 방법을사용할수없다. 다음교차표는 McNemar 검정방법을사용할경우교차표의형태이다. After Yes No Total Before Yes A B A+B No C D C+D Total A+C B+D N 반드시동일실험대상이전후에사용되어야하고같은개념을묻거나실험해야한다. McNemar 는이방법을수준이 개 (Yes, No) 인경우만제안했으나 Bennett & Underwood 가 3 개이상인경우로확대하였다. 편의를위하여수준이 개인경우를가설검정순서를살펴보기로하자. (1) 가설 (hypothesis)
190 Chapter 8. 교차분석 1 귀무가설 : p 1 = p ( 실험전의 yes 비율과실험후의 yes 비율이같다 ) 대립가설 : p1 p ( 양측검정 ) p 1 > p 혹은 p 1 < p ( 단측검정 ) () 검정통계량 (test statistic) 표본추정치 : A + B pˆ 1 =, N A + C pˆ = 표본추정치차이 : N B C pˆ 1 pˆ = N 귀무가설이맞다면 ( B C) / N = 0 이므로이를이용하여 McNemar 는검정통계량으로다음을제안하였고이가성립하기위해서는 (B+C) 가적어도 10 이상이어야한다. z = B C B + C ~ Normal(0,1) EXAMPLE 안전벨트교육효과를알아보기위하여 85 명을임의로선택하여교육전 벨트작용여부와교육후벨트작용여부를조사하여아래표를만들었다. 교육효과가있 는지검정하시오 ( 유의수준 =0.05) 교육후 Yes No Total 교육전 Yes 7 37 41 No 6 15 44 Total 33 5 85 (1) 가설 (hypothesis) 1 귀무가설 : p 1 = p ( 교육전후벨트착용비율의같다.) 대립가설 : p 1 < p ( 교육후벨트착용비율이높아졌다.) 37 6 () 검정통계량 (test statistic): z = = 1. 385 37 + 6 유의확률 p-value= pr ( z 1.38) *=0.084*=0.1658 이므로귀무가설을기각하지못한다.
8.5. McNemar 검정 191 SAS 출력검정통계량은정규분포 B C z = 가아니라 B + C ( B C) χ = 통계량값이다. B + C
19 Chapter 8. 교차분석 [ 연습문제 ] (1) 성별 (Q1) 에따른 대학교에입학한것에대한만족도 (Q4) 차이가있는지교차분석하시오. 7 점척도이므로 1, 점은불만족, 3, 4, 5 점은보통, 6, 7 점은만족으로하여 분석하시오. ()(1) 에서성별을출신지역에바꾸어교차분석하시오. (3) 팀프로젝트설문에서인구학적문항과본문항중교차분석이가능한것에대해분석하고보고서작성하시오.