CHAPTER 7 요인분석과신뢰도계수 7.. 요인분석개념 요인분석 (FA: Factor Analysis 혹은인자분석이라고도함 ) 은사람의지적능력을측정하고이에연관된변수들을이해하려는노력의일환으로 Galton( 회귀분석창시자 ) 에 (888) 의해제안되었고수학적인모형은 Spearman(904 상관계수제안자 ) 에의해발전되었다. 요인분석은변수들의내재된상관관계를이용하여요인을구하고이를이용하여 () 변수들을분류하고 ( 변수그룹에는원변수일부만포함되어있다 ) () 그룹에적절한의미를부여하는 ( 그룹이름부여 ) 분석방법이다. 요인분석의예를보면, 설문조사에서동일한개념을측정하기위해설계된리커드 (Likert) 척도문항들이정말그런지알아보기위한분석방법으로요인분석이사용된다. 물론그문항들의신뢰도 ( 혹은내적일치도 ) 는 Cronbach α로측정된다. 예를들어학생들의학교만족도를측정하기위하여교수강의, 조교, 행정인력, 강의실, 도서실, 전산실습실, 체육시설, 건물만족도를조사하였다고하자. 8 개의만족도항목을그룹화할수있을까? 이에대한해답을요인분석이제공한다. A 기업지원자 48 명의능력에대해측정한 5 개항목점수들을분류 ( 그룹 ) 하고자할때사용된다. 또한기업관련지표에관해 0 개의항목을 ( 매출액, 종업원수, 부채비율, ) 유사한항목끼리분류하고할때사용한다.
5 Chapter 7. 요인분석과신뢰도계수 7... Spearman (904) Spearman 은학생들의 6 과목성적에대한상관계수를구한후상관계수값을이용하여각학생들의과목성적은다음과같이두부분으로나눌수있을것이라생각했다.( 언어, 수리 ) 그러나상관계수값으로과목을분류하는데한계에부딪히게된다. Classic French English Math Discover Music Classic.83.78.7.66.63 French.67.67.65.57 English.64.54.5 Math.45.5 Discover.4 Music 각시험점수 ( 변수 ) 는그림과같이변수간에내재된공통개념 (f: 이를 factor 라함 ) 부분과랜덤부분에해당하는 (η) 부분으로나눌수있을것이다. 물론 f 와 η j 들은서로독립이라고가정하였다. 또한그는학생들의과목성적은일반적재능으로해석되는인자 f 와과목에대한특별재능으로나눌수있다고믿었다. 각점수가설문조사에서는척도문항에해당된다. 아래그림위의까만색부분은공통개념이하나 (fact: 초록부분 ) 인경우를도식화한것이다. 이전페이지관계식을도식화한것이다. 아래부분은 6 개과목에 개의공통개념 (factor: 빨간색 factor: 파란색 ) 이존재할때도식화한그림이다. 굵은선은영향을많이미치는것을의미하므로무엇인지는모르지만공통개념이영향을주는정도가같은과목끼리 ( 변수끼리 ) 묶으면될것이다. 즉고전 (classic), 불어 (French), 영어 (English) 를하나로묶고수학 (Math), 과학 (Discovery), 음악 (Music) 하나로묶을수있을것이다.
7.. 요인분석개념 53 factor Mu cl Di fr en ma λ λ λ 3 λ 4 λ 5 λ 6η 6 η η 5 η η 3 η 4 classic = λ f 4 6 french = λ f english = λ f 3 math = λ f dis cover = λ f music = λ f + η + η 5 4 + η + η 6 + η 3 + η 5 factor factor 7... 상관계수 상관계수 (correlation coefficient) 의의미는두변수간의선형관계 (linear relationship) 정도를 계산한값으로 에서 사이의값을갖는다. 두변수간의선형상관관계정도를나타내 는상관계수계산식은다음과같다. ( xi x)( yi y) r = = ( x x) ( y y) i i S S xx xy S yy 상관계수가완벽한 이면양의상관관계가있는데한변수의값이증가 ( 감소 ) 하면다른 변수의값도증가 ( 감소 ) 할뿐아니라직선을따라움직인다. 이면완벽한음의상관관계 가있는데한변수값이증가 ( 감소 ) 하면다른변수의값이감소 ( 증가 ) 하고직선을따라움직 인다. 0 이면상관관계가전혀없다. 그럼상관계수의값이얼마이면상관관계가존재한 다고할수있나? 이는표본의크기, 변수의분산에따라다라지므로다음방법에의해모 집단상과계수에대한 t- 검정을하면된다. 귀무가설 : 두변수간의상관관계는없다. 상관계수는 0이다. ρ = 0 대립가설 : 두변수간의상관관계가존재한다. ρ 0 검정통계량 t = r ~ t( df = n ) ( r ) /( n )
54 Chapter 7. 요인분석과신뢰도계수 7..3. 요인분석의목적및예제 요인분석은 p 개의변수들이상호어떤관계가있는지결정하여변수들을 m 개의변수그룹으로 (subset) 나누는데목적이있다. 변수에내재된관계를설명할상호독립인인자를얻고몇개의인자로내재된관계를충분히설명할수있는가살펴본다. 인자의부하 (loading) 값에의해변수를그룹화하고 ( 다소 subjective) 변수그룹에적절한이름을붙인다.
7.. 요인분석개념 55 요인분석의가장전형적인예는설문분석에서리커드척도문항 ( 변수 ) 들을유사한문항으로분류할때사용한다. 예를들어학생들의학교만족도를측정하기위하여교수강의, 조교, 행정인력, 강의실, 도서실, 전산실습실, 체육시설, 건물만족도를조사하였다고하자. 8 개의만족도항목을그룹화할수있을까? A 기업지원자 48 명의능력에대해측정한 5 개항목점수들을분류 ( 그룹 ) 하고자할때사용된다. 또한기업관련지표에관해 0 개의항목을 ( 매출액, 종업원수, 부채비율, ) 유사한항목끼리분류하고할때사용한다. 7..4. 요인분석모형및가정 x = L f +η x x... x p l l l l =... l p l p... l... l m... l m pm f f... fm η η +... η p x 는원변수벡터이다. f k, f,..., f m 들은공통인자 ( 요인 : common factor) l ij 들은인자부하 (factor loading) i 번째변수에 j번째요인이미치는영향 η, η,..., η p 특정인자 (specific factor) 한다. η j 는 j번째변수에한정된오차변동 방정식풀기 원변수의상관계수행렬 ( R ) 에대해 R = LL + ψ 성립하므로 R = LIL + ψ = R = ( LP)( LP) + ψ 에의해이를만족하는 L 은무수히많다. ( 무수히많은성질을이용하여요인의부하값을잘구별할수있도록요인회전방법을사용할수있게된다. 가장흔히사용되는방법이 VARIMAX 방법이다.) 요인방정식의해를구하는방법으로가장많이사용되는것이 principal factoring 방법이다.
56 Chapter 7. 요인분석과신뢰도계수 Principal factoring w/ or w/o iteration 변수의상관계수행렬 R 에대한 eigen-value( 고유치 ) 와 eigen-vector( 고유벡터 ) 를구하여 그것을각각 λ... λ λ p, e, e,..., e p 라고하자. 그리고여기서부터구한주성분을 y, y,..., y p 라하자. 그러면요인방정식은다음과같이쓸수있다. x = ye + ye +... + y pe p x = ye + ye +... + y pe p : x p = ye p + ye p +... + y pe pp 요인은 f = y / λ, f = y / λ,, f p = y p / λ p 이므로 x x : x p = = = λ e λ λ e f f + e p f + + λ e λ e λ f f e p f +... + +... + +... + λ p e p f p λ λ p e p f p p e pp f p 요인의부하값은 lij = λ j eij 이고특정인자 ( 오차 ) 는 ψ j = σ j ( l j + l j +... + l jm) 이다. 7..5. 요인의개수와부하 부하 (loading) 값의의미는각요인이원변수를설명하는정도 ( 크기 ) 를나타내며요인은변 수들에내재된관계에서공통부분에해당된다. x x... x p l l l l =... l p l... lm... lm p... l pm f f... fm η η +... η p factor factor Error Common factors 그러므로각요인에서부하값의절대값이큰것들만 ( 음의부호는동일개념의반대척도 ) 선택하여변수들을그룹화하면된다. ()trivial 한요인은제외하자. 원변수 - 개에만부하값이큰요인은제외하자. 이요인에의해묶을수있는변수는 - 개이므로그룹의의미가없기때문이다.
7.. 요인분석개념 57 ()Kaiser 판단 ( 가장많이이용 ): 변수들의상관관계가 0 이면 ( 관계가없으면 ) 상관계수행렬은 R 은항등행렬 I 이다이경우원변수의개수와주성분의개수가같아지고주성분의분산은모두 이므로각주성분이가지는분산평균도 이다. 그러므로상관계수행렬로부터구한고유치가평균인 이상인되어야한다는판단하에고유치가 이상인것만으로요인의개수를정한다. SAS 도이방법에의해요인의개수출력한다. 이방법에의해요인의개수를결정하는것이가장보편적인방법이다. (3)SCREE 그림사용 : 고유치를 y-축, 개수를 x-축으로한산점도인 SCREE 그림을사용하여인자의개수를예상한다. 총변동 80% 에연연하지말고주성분분산설명변동의크기 ( 고유치 ) 가갑자기줄어들기바로전까지의개수로적절한인자개수로사용하면된다. 70 eigen 60 50 40 30 0 0 0 0 4 6 8 0 7..6. 요인회전 (Factor Rotate) 요인분석에서요인의부하값은요인 ( 공통개념 ) 과원변수의상관관계정도를나타내는크기로해석될수있으므로부하값에의해원변수를그룹화한다. 그러나 () 요인의복합성 : 하나의원변수에부하값이큰요인이 개이상존재하거나 () 인자의크기가 0 을중심으로 ± 의작은값이있는경우부하값으로변수를그룹화하는것은불가능하다. 요인회전은각요인이상대적으로큰부하값을갖도록요인을회전 (rotate) 하는것으로 QUARTIMAX rotation, OBLIQUE rotation, PROMAX rotation 방법이있는데가장많이사용되는것은직교회전방법인 VARIMAX 방법이다. VARIMAX 방법은 Kaiser 가제안한것으로간단한구조의측정치로요인행렬의각열내의부하제곱의분산의합을제안하고이분산을최대화하는회전방법이다.
58 Chapter 7. 요인분석과신뢰도계수 7. 설문분석에요인분석이용 7... 사용방법 요인분석이언제설문분석에이용될수있을까? 리커드 (Likert) 척도로조사된문항들을그룹화하는데사용된다. 몇문항들을합쳐하나의지표 (index) 점수로사용할수있느냐를 알아볼때요인분석이사용된다. 위에서원변수 x, x,..., xp 가설문조사의각리커드척 도문항에해당된다. 예제설문에서시설물관련만족정도를묻는문항이 Q4-Q3 으로열문항이다. 이 0 문항을하나로혹은 -3 그룹으로묶어어떤항목을측정하는점수로사용할수있느냐가궁금할것이다. 만약하나로묶어진다면그 0 개문항의 ( 평균 ) 점수가응답자들의시설물만족도점수가되는것이다. 만약 개이상으로묶어진다면각그룹을구성하는문항을고려하여조사자가이름을부여하면된다. 문항을몇개의그룹으로묶을수있느냐는고유치가 이상인요인의수에의해결정되고그룹에어떤문항이묶여지느냐는 loading( 부하 ) 값에의해결정된다. 설문분석에서요인분석이가능하려면다음 조건이만족되어야한다. () 리커드척도문항이어야한다. () 여러문항들을몇개의그룹으로묶으려는목적에서실시해야한다. 7.. 통계소프트웨어사용 [SAS] 예제설문시설물에대한 Q4-Q 번문항을어떻게그룹화할지요인분석하여보자. 요인분석은그룹으로나눌필요가있는리커드 (Likert) 척도문항에 (4 점, 5 점, 7 점척도 ) 대해가능하다. 다음프로그램은리커드척도문항에대한요인분석을실시할때사용되는전형적인프로그램이다. 다른부분은그대로사용하고 DATA = ~ 부분과 VAR = ~ 의 ~ 부분만적절히고쳐주면된다.
7.. 설문분석에요인분석이용 59 ROTATE=VARIMAX 옵션은요인을직교변환하는방법중 VARIANCE 를최대한방법을사용하라는것으로부하값을잘구별할수있다. REORDER 옵션은부하값의크기순서대로출력하라는명령으로변수 ( 문항 ) 를그룹화하는데편리하다. COVARIANCE 변수 ( 문항 ) 들의공분산행렬을이용하여요인을추정한다. 변수들의측정단위가다를경우는상관행렬 (COVARIANCE 를사용하지않으면된다. default) 을사용해야하나설문분석에서문항들은리커드척도이고같은점수척도이므로공분산행렬을권한다. 요인추정방법 (METHOD) 은 default= 주성분방법을선택하였다. 실험실자료나측정자료인경우고유치가 이상인경우만택해도누적설명비율이 80% 이지만리커드척도문항과같이,, 3, 4, 5 이산형데이터인경우누적설명비율이매우낮다.(53%) 그러나설문조사에서요인분석은리커드척도문항분류하는데사용되므로걱정하지말자. 이부분결과를이용하면된다 부하의값의크기가 0.6 이상인 ( 크기값이유사하고 ) 변수 ( 문항 ) 를묶으면 ( 분류하면 ) 된다. 요인 (factor ) 이주로설명하는변수는 Q5-Q8 이므로묶으면되고, 요인 의부하값에
60 Chapter 7. 요인분석과신뢰도계수 의해서는 Q0-Q 을하나로묶을수있을것이다. Q4, Q 도요인 에의해묶을수있을것같으나 0.75 에비해 0.55 면차이가많으므로안묶는것이좋다. 그러므로문항은 ( 강의실만족도 : Q5, Q6, Q7, Q8), ( 정보시설만족도 : Q0, Q) 을묶고나머지문항들은개별문항으로간주하여분석한다. [SPSS] 요인들을구할때상관계수행렬을사용해야변수의변동을사용하는 것을권하다. 요인수를제한하는방법으로고유값이 이상인것만출력하게한다. 아래 와같이설정하기바란다.
7.. 설문분석에요인분석이용 6 다. VARIMAX 방법을권한다. 요인의부하값을잘구별하기위하여직교회전방법을택하는것이좋 회전된성분행렬 V4 V5 V6 V7 V8 V9 V0 V V 성분 출력결과는 SAS 와동일하다..55.534.63.375.64.05.738.5.696-3.67E-0.56.494.33.803.0.754 8.964E-0.553
6 Chapter 7. 요인분석과신뢰도계수 7..3. 보고서작성 리커드척도문항들에대한요인분석결과는다음과같이정리하면된다. Factor Factor Q7 0.74 0. Q8 0.70-0.04 Q6 0.64 0.0 Q5 0.6 0.37 Q9 0.56 0.49 Q0 0.3 0.80 Q 0. 0.75 Q 0.09 0.55 Q4 0.5 0.53 신뢰도계수 0.69 0.68 이제분류된리커드척도문항사용에대해설명해보자. 요인 (factor ) 에의해 Q5-Q8 을묶고강의실만족도라하고요인 에의해 Q0, Q 을묶어정보시설만족도라하였다. 향후분석 ( 회귀분석, 분산분석, 기초통계량분석 ) 에서는묶은변수집단 ( 묶은변수는합보다는평균을이용하는것이바람직하다. 이유는 () 단위맞추기 () 결측치있는경우 ) 을하나로사용하는것이좋다. 물론개별적으로보기도하지만 요인을 개선택하였음에도불구하고누적변동이 55% 밖에되지않는것은 Q8 이빠져있고요인 에서 Q4, Q6, Q8 의부하값이다른문항에비해작기때문이다. 그러나이부분에대해서는굳이언급할필요가없다. 설문분석시요인분석을이용하는주된이유는문항분류라는사실을잊지말아야할것이다. 그리고리커드척도문항과같이실험실측
7.3. 문항의내적일치도 ( 신뢰도계수 ) 63 정자료가아니면누적변동이낮을수밖에없다. 마지막행에는묶은문항의신뢰도계수 ( 내적일치도 ) 를적어주면된다. 이값을구하는방법은다음절에있다. 7.3. 문항의내적일치도 ( 신뢰도계수 ) 7.3.. 내적일치도개념 문항이요인분석에문항이그룹화되면문항들이하나의개념 (index) 을얼마나잘표현하는지를알아보는것을내적일치도 (internal consistency) 를알아본다고하는데이개념을계산한값이 Cronbach alpha(α ) 라한다. 이를문항의신뢰도라하기도한다. 응답자로부터얻은설문응답결과 ( 측정치 : observed value) 는실제응답자의만족점수와측정오차 (measurement error) 로구성되어있다. Y = T + E, cov( T, E) = 0. 그러므로측정치의신뢰계수 (reliability coefficient) 는다음과같이정의된다. cov( Y, T ) σ ( Y, T ) = var( Y ) var( T ) var( T ) = var( Y ) var( T ) var( T ) = var( Y ) 위의측정치신뢰계수는변수가하나인경우인데, 이를변수가여러개인경우 ( 문항이여 러개 ) 로일반화시킨것이 Cronbach α 값이다. p 개문항이있을경우 Y j = T j + E j ( j =,, K, p) 이고 YO = Y j, T0 = T j 라고놓으면다음이성립한다. p α = p i j p = p cov( Y, Y var( Y j i O ) var( Y var( Y O j ) j ) )
64 Chapter 7. 요인분석과신뢰도계수 Cronbach α 는 0 과 사이의값이고 에가까울수록내적일치도가높다. 얼마면높다고할수있는가? 0.6 이상? 0.7 이상? 그러나이런기준에는나는수긍할수없다. 왜냐하면 Cronbach α 값은문항의수가많을수록, 응답자수가많을수록높아지는경향이있기때문이다. 그러므로값의크기가판단의근거가되는것이아니라한문항을제외했을때 Cronbach α 값이적어지느냐, 커지느냐를를보고그문항을제외하느냐그대로두느냐를판단하기바란다. 그러나보고서나논문작성과같이내적일치도값을제시해야하는경우에는전체내적일치도값 (Cronbach α ) 을제시할수밖에는없다. 다시강조하지만이값의크기가중요한것이아니라문항을제외하였을때 CRONBACH 값의변화가더중요하다. 문항의보기가 개 (binary, dichotomous (0,)) 한경우 Cronbach α 신뢰계수는 Kuder- Richardson 0 (KR-0) 신뢰계수가된다. 7.3.. 통계소프트웨어사용 [SAS] 요인분석에의해묶은리커드척도문항에대해서만내적일치도 Cronbach α 를구하면된다. NOCORR 은변수 ( 문항 ) 들의상관계수값을출력하지말라는옵션이다. NOSIMPLE 은변수들의기초통계량 ( 평균, 표준편차 ) 을출력하지말라는옵션이다. ALPHA 는 CRONBACH 값을계산하라는옵션이다.
7.3. 문항의내적일치도 ( 신뢰도계수 ) 65 일반적으로변수를표준화시킨후구한신뢰도계수값이크므로이를이용한다. Q5-Q8 4 개문항모두사용할경우신뢰도계수는 0.69 이다. Q5 를제외하고 Q6-Q8 만사용하면신뢰도계수가 0.59 로떨어진다.( 생략 ) Q8 를제외하고 Q5-Q7 만사용하면신뢰도계수가 0.68 로떨어진다. 그러므로 4 개변수 ( 문항 ) 를묶는것이옳으며신뢰도계수 ( 내적일치도 ) 는 0.68 이다. 변수가 개인경우는제외신뢰도계수가계산될수없다. (Q0, Q) 문항의신뢰도계 수는 0.68 이다.
66 Chapter 7. 요인분석과신뢰도계수 [SPSS] 7.3.3. 보고서작성 신뢰도계수에대한보고서작성은요인분석결과와같이하면된다. 그러므로 7..9 절에있는표하나로요인분석과신뢰도분석정리는충분하다. 어떤책에는신뢰도계수가 0.7 이상되어야문항들을신뢰할만하다고하여 0.7 이하가나오면숫자를고치는경향이있는데그럴필요없다. 묶이는문항수가많고응답자수가많으면신뢰도계수는올라가므로상대적인것이다. 걱정할필요없다. 앞절에서언급하였듯이향후분석에서는각리커드척도문항을따로분석하는것이아니라요인분석결과묶인문항을하나로하여분석을실시하면된다. 리커드척도문항에대한개별정리가필요하면아래와같이정리하면된다.
7.3. 문항의내적일치도 ( 신뢰도계수 ) 67 강의실 (lecture) 만족도는.75(00 점만점에 30 점 ) 이고강의실관련하위만족도가운데강의실시설만족도가가장낮으므로학생들의강의실만족도를높이기위하여강의실시설에많은투자가있어야할것이다. 강의실하위 4 개문항간만족도차이검정을굳이하려면분산분석이아니라 6.4 절에서언급한방법을사용해야한다.
68 Chapter 7. 요인분석과신뢰도계수 [ 연습문제 ] () 예제설문 Q8-Q 문항 ( 교양과목만족도 ) 에대한요인분석을실시하시오. () 요인분석결과묶인문항에대해내적일치도계산하시오. (3)() 에서사용된자료를복사하여 ( 동일자료두번사용 ) 내적일치도계산하고결과에대해논하시오. (4) 팀프로젝트설문지에서리커드척도문항 ( 동일개념을설문한문항들끼리 ) 에대해요인분석을실시하시오. (5)(4) 의결과묶인문항에대해내적일치도 (Cronbach α ) 를계산하시오.