09 th Week Correlation Analysis 상관관계분석 Jongseok Lee Business Administration Hallym University
변수형태와통계적분석방법 H 0 : X ㅗ Y H 1 : X ~ Y X Categorical Y Categorical Chi-square Test X Categorical Y Numerical One-way ANOVA X Numerical Y Numerical Correlation Analysis
Numerical 49.0 kg 1.284 g/cm 2 X Body Weight ~ Y Bone Mineral Density
BMD, bond mineral density 1.284 g/cm 2
Weight and BMD X Body Weight ~ Y Bone Mineral Density 49.0 kg 1.284 g/cm 2 Is BMD associated with body weight?
Act 1
Scatter Plot : Relationship between Weight and BMD Y BMD (112, 1.591) X Weight
가설 : 귀무가설과대립가설 영가설 / 귀무가설 연구가설 / 대립가설 Null Hypothesis X : Weight Y : BMD Alternative Hypothesis 체중에따른 체중에따른 골밀도에차이가없다. 골밀도에차이가있다. H 0 : X ㅗ Y H 1 : X ~ Y 체중 (X) 은골밀도 (Y) 와 관련이없다 독립이다. 체중 (X) 은골밀도 (Y) 와 관련이있다.
Is BMD associated with body weight? X Body Weight ~ Y Bone Mineral Density 49.0 kg 1.284 g/cm 2 Numerical Numerical
Population Correlation Coefficient X Body Weight ~ Y Bone Mineral Density 49.0 kg 1.284 g/cm 2 Numerical Numerical Correlation Coefficient -1 r xy +1-1 r xy 0 +1
가설의설정 영가설 / 귀무가설 연구가설 / 대립가설 Null Hypothesis X : Weight Y : BMD Alternative Hypothesis 체중에따른 체중에따른 골밀도에차이가없다. 골밀도에차이가있다. r xy = 0 r xy 0 H 0 : X ㅗ Y H 1 : X ~ Y 체중 (X) 은골밀도 (Y) 와 관련이없다 독립이다. 체중 (X) 은골밀도 (Y) 와 관련이있다.
일부분 표본 Sample r xy 전체모두 모집단 Population r xy
Sample Correlation Coefficient 1. 상관관계분석은두변수가 (1) 선형관계를갖는지, (2) 선형관계를갖는다면어느방향인지 (+ 인지아니면 인지 ), 그리고 (3) 그관계가얼마나강한지를파악하기위한것 2. 표본상관계수 r 은모상관계수 r (rho) 의추정치 (estimate) 3. 표본상관계수의범위는항상 -1 r +1 임 (1) +1에가까우면두변수사이에강한양의관계가있음을의미 (2) -1에가까우면두변수사이에강한음의관계가있음을의미 (3) 0에가까우면가까울수록두변수사이에선형관계가없음을의미 4. 곡선관계는매우다양할수있으므로상관관계분석에서는선형관계에만초점 Linear Relationship
직관적이해 X : Weight Y : BMD r xy 귀무가설기각 p-value? -1 H 0 : r xy = 0 0 +1 H 1 : r xy 0 직관 : (1) r XY 가 0 에가까울수록독립이라는증거! (2) r XY 가 +1 또는 -1 에가까울수록관련이있다는증거! H 0 : X ㅗ Y H 1 : X ~ Y 체중 (X) 은골밀도 (Y) 와 관련이없다 독립이다. 체중 (X) 은골밀도 (Y) 와 관련이있다.
SPSS 를이용한상관관계분석
Pearson 상관관계분석결과 상관계수는방향성를갖지않는다. 즉 x 와 y 의상관계수는 y 와 x 의상관계수와같다.
Act 2
Table. Descriptive Statistics
Table. Mean Comparisons of Each Variable according to L-spine BMD Status
Table. Bivariate Correlations between Variables
Relationship between Age and BMD Normal Osteopenia Osteoporosis
체중 골밀도 나이
혼동효과 confounding effect 체중 통제 Control 골밀도 나이
SPSS 를이용한편상관관계분석
편상관관계분석결과
Partial Correlation X Body Weight ~ Y Bone Mineral Density 49.0 kg 1.284 g/cm 2 1. Sample Correlation Coefficient r xy = + 0.248*** ( p =.000, n = 2,106 ) 2. Sample Partial Correlation Coefficient r xy ㅣ z = + 0.326 ( p =.000, n = 2,106 ) where z = Age
체중 골밀도 골량
혼동효과 confounding effect 체중 통제 Control 골밀도 골량
Is BMD associated with body weight? X Body Weight ~ Y Bone Mineral Density 49.0 kg 1.284 g/cm 2 1. Sample Correlation Coefficient r xy = + 0.271*** ( p =.000, n = 547 ) 2. Sample Partial Correlation Coefficient r xy ㅣ z = + 0.050 ( p =.242, n = 547 ) where z = bone mineral content BMD is associated with body weight, really?
Act 3
변수의척도 모상관계수에대한 t 검정을위한필요조건은두변수가 이변량정규분포 를따라야 한다는것이다. 그러나두변수중하나라도 서열척도 인경우이러한조건을만족시 키지못하며, 등갂이상인경우도이러한조건을만족시키지못할수있다. Question 그러면두변수가이변량정규분포를따르지않는다면어떻게해야하는가? 또는두변수중하나라도서열척도라면어떻게해야하는가? 비모수적통계방법인 Kendall's Tau-b 혹은 Spearman Correlation을사용!
모상관계수 Population Correlation Coefficient r x xy y where xy N i 1 ( x i x N )( y i y ) 모공분산 (population covariance)
표본상관계수 Sample Correlation Coefficient r s s x xy s y where s xy n i 1 ( x i x )( n 1 y i y ) 표본공분산 (sample covariance)
표본상관계수 Sample Correlation Coefficient
표본공분산 sample covariance In Excel, use =COVAR(array1,array2)*n/(n-1) r s s x xy s y where s xy n i 1 ( x i x )( y n 1 i y )
PreTxch 152.45 300 270 240 249.35 210 180 150 100 120 140 160 180 200 PreTxBP
공분산과상관계수의이해
공분산의이해 Data Set 1에서 x 가증가함에따라 y 도증가 x 가평균보다작을때는 y 도평균보다작거나같음 ( x 1 =2, y 1 = 13 ) x 가평균보다클때는 y 도평균보다크거나같음 ( x 2 = 6, y 2 = 20) ( x 3 = 7, y 3 = 27 ) 따라서 (x i x) 와 (y i y) 는같은부호또는 0의값을가짐즉 (x i x)(y i y) 는양 (+) 의값또는 0이됨 일반적으로두변수가같은방향으로움직일때, 공분산은큰양수가됨 ( s xy = 17.5 )
공분산의이해 Data Set 2에서 x 가증가함에따라 y 는감소 x 가평균보다작을때는 y 도평균보다크거나같음 ( x 1 =2, y 1 = 27 ) x 가평균보다클때는 y 도평균보다작거나같음 ( x 2 = 6, y 2 = 20) ( x 3 = 7, y 3 = 13 ) 따라서 (x i x) 와 (y i y) 는다른부호또는 0의값을가짐즉 (x i x)(y i y) 는음 (-) 의값또는 0이됨 일반적으로두변수가반대방향으로움직일때, 공분산은큰음수값을가짐 ( s xy = -17.5 )
공분산의이해 Data Set 3 에서 x 가증가함에따라 y 는어느특정한방향으로움직임을보이지않음 따라서 (x i x)(y i y) 는양 (+) 의값, 0, 음 (-) 의값모두가가능 일반적으로두변수가특별한패턴없이움직일때, 공분산은작은값을가짐 ( s xy = -3.5 )
공분산의이해 공분산의부호는두변수의관계가가지는특성을의미 (1) 공분산값이양 (+) 의값이면, 두변수는양의선형관계가있음 (2) 공분산값이음 (-) 의값이면, 두변수는음의선형관계가있음 하지만두변수의관계의강도는표현하지못함즉 값이크다고해서관계의강도가크다 고말할수없음
상관계수의이해 상관계수는두변수의선형관계의강도를표현하기위한것 공분산을각변수의표준편차의곱으로나눔으로써 -1과 +1 사이의값으로표현 상이한자료들의선형관계의강도에대한비교가가능
상관계수의특징 1. 상관계수가공분산에대해갖는장점은표준화되었다는것이다. 즉 (1) 표본상관계수 r 은항상 -1 r +1의범위에있다. (2) r = +1 이면, 두변수는완젂한양의선형관계이다. (3) r = -1 이면, 두변수는완젂한음의선형관계이다. (4) r = 0 이면, 두변수갂에는선형관계가졲재하지않는다. 2. 상관계수는단위를갖지않는다. 따라서측정단위와독립적으로정의된다. 즉하나의변수가취하는모듞값에상수를더하거나빼거나 양의상수를곱하거나나누는변환을해도상관계수는변하지않는다. 3. 상관계수는방향성를갖지않는다. 즉 x 와 y 의상관계수는 y 와 x 의상관계수와같다.
Quiz y=3x 이고 z=5x 의관계가있다. r xy 와 r xz 중어느것이더크겠는가?
PreTxch 300 270 240 210 180 150 100 120 140 160 180 200 PreTxBP 상관계수의의미 그러면두변수의상관계수가 +0.877 라는것은무엇을의미하는가? (1) 두변수가양의선형관계가있다. (2) 0.8 보다크므로 매우강한양 의선형관계가있다. 그러면그수치의의미는? 상관계수가산포도상에서젂체적으로하나의선주위에밀집해있는지를의미 모듞점들의 87.7% 가선위에있다는것을의미하지는않음 상관계수가 0.8 이라는것이 0.4 보다두배선형관계가강하다는것을의미하지않음
결정계수 Coefficient of Determination, R 2 결정계수는 상관계수의제곱값, r 2 으로서다음과같은정보를제공한다. (1) 두변수가공유하는분산의비율로서 (2) 하나의변수의변동이다른변수의변동에의하여설명되는정도를의미한다. 상관계수 r을제곱한값을결정계수 (coefficient of determination) 이라고하고두변수가공유하는분산의비율을말한다. 여기서는 r² = 0.769가된다. 즉, 혈압수치는 cholesterol 수치의 77% 를설명하고있고, 23% 는다른인자에의해설명된다고할수있다. 물론 cholesterol 수치가혈압수치의 77% 를설명하고있다고해도된다.
표본크기의역할 The Role of Sample Size 표본크기가크면당연히모상관계수의실제값에대한좋은추정치를획득함따라서표본이매우큰경우, 상관계수가작더라도유의하게될가능성이높음 This makes it easier for smaller values of the sample correlation coefficient to be considered significant. 이와관련해서혼돆하지말아야할것은 (1) 표본크기로인해유의성이졲재한다는것이강한상관관계를의미하는것은아님 (2) 유의성의증가가변수관계의중요성을의미하는것은아님 A larger sample does not mean that the correlation is stronger nor does its significance imply importance.
상관관계 vs. 인과관계 두변수, X와 Y 사이에상관관계가있다는것이반드시그들사이에직접적인인과관계가있다는것을의미하지않는다. 두변수사이에인과관계가졲재하기위해서는다음세가지조건을만족하여야한다. X Y 1 변수 X가변수 Y보다시갂적으로먼저졲재해야한다. 2 두변수, X와 Y는공변량 (covariates) 이어야한다. 즉상관관계가있어야한다. 3 두변수, X와 Y에다같이원인이되는허구변수 (spurious variable) 가없어야한다. 즉허구변수를통제하여도변수 X와 Y 사이의상관관계가졲재하여야한다. 따라서변수 X와 Y 사이의상관관계가있다는것은인과관계의필요조건이지충분조건은되지못한다. 특히 3번조건인허구변수를밝히는데젂술한편상관계수가사용될수있다.