응용식물통계학 Statistics of Applied Plants Science 친환경식물학부유기농생태학전공황선구
13 장상관분석 1. 상관계수 2. 상관분석의가정과특성 3. 모상관계수의검정과신뢰한계 4. 순위상관 14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 - 실습 -
상관분석 지금까지한가지확률변수에의한현상을검정하였다. 즉, 확률변수의변이를가져오는여러인자들의수준에따른차이또는영향을분석하였다. 그러나생물현상은직접적으로영향하는한가지요인에의하여독립적으로발생하기도하지만다른현상과밀접한상호작용을통하여발생하기도한다. 예 ) 병에저항성을가지는식물은저항성이없는식물보다처리한상태에서잎의길이가크고또한잎색이더욱녹색을띈다. 1. 상관계수 상관분석 : 특정한현상들간에서로관계가있는지와얼마만큼있는지를분석하는통계적방법.
상관분석 표본상관계수 (r, gamma) = r ( 1 r +1) 산포도 ( 산점도 ): 두변수의관계를 X 축, Y 축으로각각설정하고각변수의값을나타내는점을찍어변수간관계를파악할수있는도표 유사한관계관계없음반대의관계 그림출처 : http://m.blog.daum.net/ilovedominic/3206232
상관분석 2. 상관분석의가정과특성 상관분석은두임의변수간의관계에대한분석 분석을위한조건 1 2 3 4 두변수 X와 Y는확률변수및정규분포이면서서로대응되는이변량정규분포 (bivariate normal distribution) 이여야한다. X와 Y의분산은일정상관관계는두변수간직선적인관계를측정하는것. 따라서두확률변수가곡선적인관계를가진다면상관관계의측정이어려우므로직선적인연관가능성을검토하는것임을분명히해야함. 상관관계는두변수간의인과관계가있다는것을말하는것이아니다. 즉, X와 Y가상관관계가있다고해서 X가 Y의원인이라고해석할수없다.
상관분석 3. 모상관계수의검정과신뢰한계 모상관계수 : 상관분석에서는상관관계의정도를나타내는단위, ρ rho gamma 위그림에서모상관계수 ρ 의값에따른표본상관계수 r 의분포는 ρ = 0, 상관관계가없을경우 표본상관계수는평균 0 을중심으로대칭인확률분포. 하지만, ρ = 0.8 이되면표본상관계수는평균 0.8 을중심으로하는비대칭분포. 즉, r 은 ρ 의값에영향을받음.
상관분석 상관계수의수식, 상관계수의신뢰한계 : (r - t α/2,v s r, r + t α/2,v s r ) n 2 r t = 1 r 2 예 ) 저항성과잎수의상관관계를분석하라 (5% 유의수준 ) 저항성 (1: 약 ~ 5: 강 ) 1 2 3 4 5 잎수 5 4 6 7 8 1) 상관계수 = 1 3 5 6 + 2 3 4 6 + 3 3 6 6 + 4 3 7 6 + 5 3 8 6 1 3 2 + 2 3 2 + 3 3 2 + 4 3 2 + 5 3 2 + 5 6 2 + 4 6 2 + 6 6 2 + 7 6 2 + 8 6 2 = 0.9 2) 귀무가설 : 모상관계수는 0이다. 대립가설 : 모상관계수는 0이아니다. n 2 r 5 2 0.9 검정통계량 t = = = 3.58 1 r 2 1 (0.9) 2 3) t 0.05/2,3 = 3.182 이므로 P(t > 3.58) < 0.05, 따라서귀무가설기각 1 r 4) s r 은 r의표준편차, s r = 2 = 1 0.9 2 = 0.25, n 2 5 2 신뢰한계는 r - t α/2,v s r = 0.9-3.182 0.25 = 0.10, r + t α/2,v s r = 0.9 + 3.182 0.25 = 1.69, 1 ( 1 r 1), 즉 신뢰한계는 (0.10, 1). 잎수 s r = 저항성 1 r 2 n 2
상관분석 4. 순위상관 질적변량또는순위변량과같이상관분석의가정이충족되지않는자료일경우비모수방법인순위상관 (rank correlation) 을사용. 실제관측치대신에 X와 Y의관측치 x i 와 y i 의순위를결정하고순위의경향성이같은지여부를 순위상관계수 (r s : Spearman rank correlation coefficient) 를토대로검정. n di 2 수식 ) r s = 1 6 σ i=1 ( 단, d n(n 2 1) i = x i y i )
상관분석 예 ) 벼 12 개체의신장을당해년도와전년도의동일한시기에조사하였다. 다음표를토대로 5% 유의수준에서순위상관을단측검정하자. 벼 1 2 3 4 5 6 7 8 9 10 11 12 전년도 66 62 32 51 36 61 43 64 50 78 57 52 순위 11 9 1 5 2 8 3 10 4 12 7 6 당해년도 65 49 54 54 37 52 43 61 48 78 59 45 순위 11 5 7.5 7.5 1 6 2 10 4 12 9 3 차이 0 4-6.5-2.5 1 2 1 0 0 0-2 3 1) 순위상관계수추정 n di 2 r s = 1 6 σ i=1 = 1 6 83.5 = 1 0.29 = 0.71이다. n n 2 1 12 143 2) 귀무가설 : 모상관계수는 0이다. 대립가설 : 모상관계수는 0이아니다. n 2 r 12 2 0.71 검정통계량 t = = = 3.17 1 r 2 1 0.71 2 3) t 0.05,10 = 2.228 이므로 P(t > 3.17) < 0.05, 따라서귀무가설기각. 전년도와당해년도벼신장의길이는 상관관계가있다.
13 장상관분석 1. 상관계수 2. 상관분석의가정과특성 3. 모상관계수의검정과신뢰한계 4. 순위상관 14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 - 실습 -
회귀분석 두확률변수간에관계가있는지검정 상관분석 두확률변수간에인과관계성립하는지검정 회귀분석 예 ) 사람의몸무게는키와직선적인관계가있다. 키를알면정상적인몸무게를추정할수있으므로비만 여부판단가능 두확률변수 X와 Y 간에 Y=f(X) 의관계가성립할경우 Y는 X에회귀, X가 Y의원인이고 Y에의존함이없이 Y를설명하는변수이므로설명변수 ( 독립변수 ), 여기서 Y는 X의함수가되므로반응변수 ( 종속변수 ). 위의예에서반응변수는몸무게, 키는설명변수
회귀분석 1. 회귀직선의추정 위의예에대한산점도는상관관계에서나타난그림과유사. 회귀분석은상관이있는지없는지질적검사를하는상관분석과달리얼마나 Y를추정할수있는지를 검정하는양적검사이다. 수식 ) y i = തy + b(x i - x), ҧ b = σ n i=1 (x i ҧ n (x i ҧ σ i=1 x)(y i തy) x) 2, 의수식을통해회귀직선의절편은 തy-b xҧ
회귀분석 예 ) 임의로선발된벼 5 개체의뿌리길이와벼의생체중을측정하여아래표와같은결과를얻었다. 벼의 생체중을반응변수 (Y) 로뿌리길이를설명변수 (X) 로하는회귀직선식을구하라. y i = തy + b(x i - x), ҧ b = σ n i=1 (x i x)(y ҧ i തy), തy-b xҧ n (x i x) ҧ 2 b = 575 / 250 = 2.3, തy-b x ҧ = 40 2.3(25) = -17.5 즉, 직선회귀방정식의절편 (a) 은 -17.5. 따라서추정된회귀방정식은 തy = -17.5 +2.3X σ i=1 X Y X-평균 Y-평균 (x i x)(y ҧ i തy) (x i x)2 ҧ 1 15 20-10 -20 200 100 2 20 25-5 -15 75 25 3 25 40 0 0 0 0 4 30 50 5 10 50 25 5 35 65 10 25 250 100 평균 25 40 575 250
회귀분석 앞의예에서회귀방정식을구하였으나이직선식이의미를가지기위해서회귀계수와절편이유의하다는증거가있어야함. 즉, 반응변수 Y가설명변수 X의함수라고할수있는가를밝히는회귀직선의유의성검정이필요. MSE = 모회귀계수의유의성검정은모회귀계수가 0과같은지를검정. 모회귀계수가 0과유의하게다를때비로소독립변수 x로종속변수 y를설명가능 귀무가설 : 모회귀계수는 0이다. 대립가설 : 모회귀계수는 0이아니다. 독립변수로종속변수를설명가능.
회귀분석 (1350 2.3(575)) / 3 = 9.17 = MSE X Y X-평균 Y-평균 (x i x)(y ҧ i തy) (x i x)2 ҧ 1 15 20-10 -20 200 100 2 20 25-5 -15 75 25 3 25 40 0 0 0 0 4 30 50 5 10 50 25 5 35 65 10 25 250 100 평균 25 40 575 250 S a = 9.17 ( 1 5 + 625/250) = 4.98, t = -17.5/4.98 = -3.51. t 분포표에서 t 0.05/2,3 = 3.182, 따라서 귀무가설기각.
회귀분석 결정계수 : 표본자료를회귀분석으로검정함에적합성이있는가를결정하는계수 앞의예제의결정계수 (r 2 ) 를구하여라. 575 2 / (250 1350) = 0.97963. 앞의예제에서뿌리길이는생체중의변이중약 98% 를설명한다.
13 장상관분석 1. 상관계수 2. 상관분석의가정과특성 3. 모상관계수의검정과신뢰한계 4. 순위상관 14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 - 실습 -
실습준비 R과 R studio 설치 https://cran.r-project.org/bin/windows/base/ R 다운로드후설치 https://www.rstudio.com/products/rstudio/download/#download RStudio 1.2.1335 - Windows 7+ 다운로드후설치 통계교재 RAW files 다운로드 https://drive.google.com/drive/folders/0b98qpkk5ejemynj1aja1zvjwmzg
실습준비 프로그램검색에서 Rstudio 검색후실행 (R 아님에주의 )
실습 File 클릭 New Project 클릭 RAW file 다운경로지정 ( 분석대상파일경로지정 ) 후 open
실습 1 psds_data 압축해제한폴더지정
실습 상관계수구하기 > etfs <- sp500_px[row.names(sp500_px)>"2012-07-01",sp500_sym[sp500_sym$sector=="etf",'symbol']] > install.packages( corrplot ) > library(corrplot)
실습 > corrplot(cor(etfs),method="ellipse")
실습 > corrplot(cor(etfs),method= number")
실습 > cor(sp500_px$tmo, sp500_px$pki, method="pearson") [1] 0.3658109 > cor(sp500_px$tmo, sp500_px$pki, method="spearman") [1] 0.3868074 > plot(sp500_px$tmo, sp500_px$pki,xlab="tmo",ylab="pki")
실습 > install.packages("ggplot2") > library(ggplot2) >ggplot(sp500_px,aes(x=tmo,y=pki))+geom_point(size=1,colour="blue")+stat_smooth(method=lm,level=.95,colou r="red") + ggtitle("scatter plot : TMI vs PKI + 선형회귀선 ") + theme(plot.title=element_text(size=20))