Chapter 6. 정준상관분석 6.1 정준상관분석 정준상관분석 (Canonical Correlation Analysis) 은변수들의군집간선형상관관계를파악하는분석방법이다. 예를들어신체적조건 ( 키, 몸무게, 가슴둘레 ) 과운동력 ( 달리기, 윗몸일으키기, 턱걸이 ) 사이의선형상관관계가있는지알아보고, 관계가있다면어떤관계가있는지분석하는것이다. 정준상관분석은 ( X 1, X,..., X m ) 변수군과 ( Y 1, Y,..., Yn ) 변수군의선형관계를분석한다. p 개원변수를 개의변수군으로나눌수있다고가정하자. x1 x x3 x1 μ 1 Σ11 x = = ~ Normal(, x4 x μ Σ 1... x p Σ1 ) Σ 다음은정준상관분석의특수한예이다. 1) 벡터변수 ( x 1, x ) 에변수가하나이면단순상관계수가된다. ) 하나의벡터변수만변수가하나이면이는다중회귀모형에서결정계수이다. 다중회귀의결정계수는종속변수 ( 변수가하나인벡터 ) 와설명변수의선형결합 ( a X1 + a X +... + a p X p 1 ) 간상관계수가된다. R 6.1.1 정준변수구하기 제일정준변수 두변수군의선형결합간상관계수를가장크게하는선형결합을생각해보자. ρ 1 = max corr( V1, W1 ) where V 1 = a1 x1, W1 = b1 x a= b 0
위의조건을만족하는 a 1, b 1 를제일정준변수 (first canonical variate) 라하고그중다음식을만족하는 a 1, b 1 을구하면된다. 이때 ρ1 을제일정준상관계수 (first canonical correlation) 라한다. var( V 1 ) = var( W1 ) = 1 a1σ 11a1, b1σ b1 제이정준변수 = a x1 W b 이라놓고다음조건을만족하는, b V, = x a 를제이정준변수라한다. (1)V 와 W 은각각 V 1 과 W 1 들과독립이다. () var( V ) = var( W ) = 1 ρ = corr V, ) 을제이정준상관계수라한다. ( W 다른정준변수도같은방법으로구하면된다. 해석의어려움이있어실제사용되는정준변수의수는 개를넘지않는다. 6.1. 정준상관계수개수 두벡터변수의차수중낮은차수수만큼존재한다. 즉변수군을형성하는변수의수가적은변수군의변수수만큼정준상관계수값이존재한다. 한변수군의변수수가 p 이면다른변수군의변수수는 q 이면정준상관계수의수는 min( p, q) 이다. 정준상관계수의유의성검정은다음과같이실시하면된다. (1) H ρ 0 vs. H ρ 0 H Σ 0 vs. H Σ 0 01 : 1 = 01 : 1 () H : ρ 0 vs. H : ρ 0 0 r r = 01 : 1 = 01 : 1 Σˆ k 검정통계량 (1 ˆ T = = Π ρ ) ˆ ˆ i, k = min( q, p q) Σ Σ i= 1 0r r 11 k 검정통계량 T = Π (1 ˆ ρ ), 검정통계량분포 r i= r i α log( Tr ) ~ χ α,( q r+ 1)( p q r + 1) 6.1.3 예제 밀예제자료 (WHEAT.txt) 에서밀의오른쪽면의측정변수 ( 면적, 원주, 길이폭 ) 와아래쪽면의측정변수 ( 면적, 원주, 길이폭 ) 간에상관관계를분석해보자.
6.1 정준상관분석 3 SPSS 에는정준상관분석을위한메뉴가없다. 대신매크로프로그램을실행할수있도록했다. 우선 WHEAT.SAV 데이터를열고매크로프로그램작성을위해편집기를연다. 편집기창이나타나면아래프로그램을작성하고실행한다. Canonical Correlation.sps 파일은 SPSS 가설치된루트파일에있다. SET1, SET 는집단내변수를지정해주면된다. 마침표 (.) 는프로그램문장이끝났음을알려주는것이다. 프로그램이실행되면출력창에가저장된다. 엄청나게많은결과가출력되고데이터에는정준변수 원변수상관계수 변수그룹내의변수들간의상관계수, 변수그룹간변수들의상관계수가된다. 정준상관분석의개략적인결과를예상할수있다. SET1 군에서는 D4 가다른변수와상관관계가낮고, SET 에서는 R4 가군내다른변수와상관관계가낮음을알수있다.
CANONICAL 상관계수 ˆρ 1 ˆρ ˆρ 3 정준상관계수의수는 4 개이다. ( 각그룹내의변수의개수가각각 4 개이므로 ) 정준상관계수는 Corr ( V1, W1) = 0.88, Corr( V, W ) = 0.398, Corr( V 3, W 3) = 0.5, Corr( V 4, W 4) = 0. 004 상관계수이다. 그럼 Corr( V1, W ) 는얼마인가? 당연히 0이다. CANONICAL 상관계수유의성검정 각열은정준상관계수의유의성을검정한다. 귀무가설은 현재열포함이후정준상관계수는 0 이다 이다. 그러므로귀무가설이기각된다는것은그열의정준상관계수는 0 이아니라는것을포함하고있다. 3 번째열의유의확률이 0.03 으로일반적인유의수준 0.05 보다작으므로귀무가설이기각된다. 그러므로제삼정준상관계수는유의하다. 4 열의유의확률은 0.9617 이므로제사정준상관계수는유의하지않다.
6.1 정준상관분석 5 제일, 제이정준변수 RAW( 원점수 ) 와 STANDARDIZED( 표준화점수 ) 개의출력결과가나타나는데 RAW 는변수의원래값으로구한것이고 STANDADIZED 는원변수를표준화하여구한것이다. 밀예제의경우원변수는측정단위다르므로표준화변수를사용하는것이좋다. 다음 V 출력결과는 1 = a1 x1, W1 = b1 x V, = a x1, W = b x a, a, b 이다. 의 1, b 1 아래면변수그룹의제일정준변수 V1 = DOWN1 = 0.016* Z _ D1 0.894* Z _ D 0.16* Z _ D3 0.041* Z _ D4 오른쪽면변수그룹의제일정준변수 W 1 = RIGHT1 = 08* Z _ D1 0.777* Z _ D 0.54* Z _ D3 + 0.54* Z _ D4 단. Z _* = * 평균로각변수의표준화값이다. 표준펀차 이계수를이용하여정준변수이름을붙일수있다. SET1 군의제일정준변수는 D, 제이정준변수 (D1, D3), SET 군의제일정준변수는 R, 제이정준변수는 R3 영향이크므로이를고려하여이름을부여할수있다. 이름을부여하는것은주성분이름부여처럼다소주관적이다. 정준변수와동일군집원변수간의상관관계 계수를이용하기보다는정준변수의이름은정준변수와그그룹변수들간의상관계수값을이용하여명명하는것이좋다. 다시한번강조하지만 V1 과 V, W1 과 W 는서로독립이다. 공통된정보가없다.
아래면변수그룹제일정준변수는면적, 원주, 길이와상관관계가높으므로크기로아래면제이정준변수는길이로이름붙이면적절할것같다. 오른쪽면제일정준변수도크기로이름을붙일수있다. 제일정준변수와제이정준변수의상관계수는 0.88 이었다. 즉오른쪽면의크기가커지면아래면크기도커진다고해석할수있다. 정준변수와다른군집원변수간의상관관계 아래면의크기 ( 제일주성분 ) 는오른쪽면의면적, 원주, 길이, 폭과양의상관관계가존재한다. 상관계수는부호가음인이유는정준변수가반대개념으로계산되었기때문이다. 제일주성분과군내다른변수들간의상관계수를보라. 음이다 (-0.835, -0.994, -0.881, -0.388). 정준변수가계산될때계수가음인것의영향을많이받았기때문이다. 오른쪽면의크기 ( 제일주성분 ) 는아래면의면적, 원주, 길이와양의상관관계가있다. 데이터에는정준변수들이저장되어있다. S1_CV001 은 SET1 의제일정준변수, S_CV001 은 SET 의제일정준변수를의미한다. 산점도행렬을그려보자.
6.1 정준상관분석 7 제일정준변수간상관관계가가장높고 ( 1 ) 그다음은제이정준변수간상관관계 ( ) 이다. 제일과제이정준변수간상관관계는 0이다. (1), () 산점도에서떨어진한두개의점들은변수들간의상관관계면에서이상치이다.
다음은정준변수들간의 Pearson 상관계수를구한결과이다. 위의상관관계를값으로나타낸것이다. 제일, 제이, 제삼, 제사정분변수간상관계수는앞의결과와동일하다.