응용식물통계학 Statistics of Applied Plants Science 친환경식물학부유기농생태학전공황선구
14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 15 장공분산분석 1. 공분산분석의통계적모형 2. 공분산분석에의한처리효과검정 3. 공분산분석과정 - 실습 -
회귀분석 두확률변수간에관계가있는지검정 상관분석 두확률변수간에인과관계성립하는지검정 회귀분석 예 ) 사람의몸무게는키와직선적인관계가있다. 키를알면정상적인몸무게를추정할수있으므로비만 여부판단가능 두확률변수 X와 Y 간에 Y=f(X) 의관계가성립할경우 Y는 X에회귀, X가 Y의원인이고 Y에의존함이없이 Y를설명하는변수이므로설명변수 ( 독립변수 ), 여기서 Y는 X의함수가되므로반응변수 ( 종속변수 ). 위의예에서반응변수는몸무게, 키는설명변수
회귀분석 1. 회귀직선의추정 위의예에대한산점도는상관관계에서나타난그림과유사. 회귀분석은상관이있는지없는지질적검사를하는상관분석과달리얼마나 Y를추정할수있는지를 검정하는양적검사이다. 수식 ) y i = തy + b(x i - x), ҧ b = σ n i=1 (x i ҧ n (x i ҧ σ i=1 x)(y i തy) x) 2, 의수식을통해회귀직선의절편은 തy-b xҧ
회귀분석 예 ) 임의로선발된벼 5 개체의뿌리길이와벼의생체중을측정하여아래표와같은결과를얻었다. 벼의 생체중을반응변수 (Y) 로뿌리길이를설명변수 (X) 로하는회귀직선식을구하라. y i = തy + b(x i - x), ҧ b = σ n i=1 (x i x)(y ҧ i തy), തy-b xҧ n (x i x) ҧ 2 b = 575 / 250 = 2.3, തy-b x ҧ = 40 2.3(25) = -17.5 즉, 직선회귀방정식의절편 (a) 은 -17.5. 따라서추정된회귀방정식은 തy = -17.5 +2.3X σ i=1 X Y X-평균 Y-평균 (x i x)(y ҧ i തy) (x i x)2 ҧ 1 15 20-10 -20 200 100 2 20 25-5 -15 75 25 3 25 40 0 0 0 0 4 30 50 5 10 50 25 5 35 65 10 25 250 100 평균 25 40 575 250
회귀분석 앞의예에서회귀방정식을구하였으나이직선식이의미를가지기위해서회귀계수와절편이유의하다는증거가있어야함. 즉, 반응변수 Y가설명변수 X의함수라고할수있는가를밝히는회귀직선의유의성검정이필요. MSE = 모회귀계수의유의성검정은모회귀계수가 0과같은지를검정. 모회귀계수가 0과유의하게다를때비로소독립변수 x로종속변수 y를설명가능 귀무가설 : 모회귀계수는 0이다. 대립가설 : 모회귀계수는 0이아니다. 독립변수로종속변수를설명가능.
회귀분석 (1350 2.3(575)) / 3 = 9.17 = MSE X Y X-평균 Y-평균 (x i x)(y ҧ i തy) (x i x)2 ҧ 1 15 20-10 -20 200 100 2 20 25-5 -15 75 25 3 25 40 0 0 0 0 4 30 50 5 10 50 25 5 35 65 10 25 250 100 평균 25 40 575 250 S a = 9.17 ( 1 5 + 625/250) = 4.98, t = -17.5/4.98 = -3.51. t 분포표에서 t 0.05/2,3 = 3.182, 따라서 귀무가설기각.
회귀분석 결정계수 : 표본자료를회귀분석으로검정함에적합성이있는가를결정하는계수 앞의예제의결정계수 (r 2 ) 를구하여라. 575 2 / (250 1350) = 0.97963. 앞의예제에서뿌리길이는생체중의변이중약 98% 를설명한다.
14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 15 장공분산분석 1. 공분산분석의통계적모형 2. 공분산분석에의한처리효과검정 3. 공분산분석과정 - 실습 -
공분산분석 표본평균간의차이검정 : 분산분석 분산분석검정전제 1 2 서로독립적인처리 주어진인자에대한처리의반응이동일
공분산분석 처리에대한반응이다른인자에의존적이거나다른인자를조절할수없는실험자료는검정하기 어렵다. 자료처리에서오는반응과처리대상의상태에서오는반응을분리하기가어렵기때문. 예 ) 비료의신제품이우수하다는가설을검정하고자실험을수행할때이미사용되어오던비료와새로개발된비료를여러수준으로재배중인작물에처리하고일정한시간후에작물의생장량을기록하였다. 그결과, 비료신제품이기존과차이가없다는결론을얻었다. 하지만, 재분석결과동일처리구에서도생장량의차이가커서이로인해처리간차이가드러나지않는다는사실을알게되었다. 이경우신제품이작물의키에따라반응이달랐고이때문에생장량의차이에의해나타난것임을알았고이검정에서키에따라나타나는생장량의차이와비료의효과를분리하는것이중요한과제이다.
공분산분석 따라서분산분석은독립변수에대한다른집단간에종속변수값의차이를검정하는방법인데반해공분산분석은직접통제하기어려운잠재변수 ( 외생변수 ) 를제거한후독립변수에대한종속변수를검정하는방법. 분산분석은표본평균값을토대로처리가간차이를비교 공분산분석은처리간차이를검정하기위해서관측치에서부터실험오차뿐만아니라공변수의함수에의한값을제한보정평균을 (adjusted mean) 을토대로검정. 예 ) 연령이다른흡연자와비흡연자의총콜레스테롤수치를비교하자. 독립변수 - 흡연자, 비흡연자 종속변수 콜레스테롤수치 잠재변수 ( 외생변수 ) - 연령
14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 15 장공분산분석 1. 공분산분석의통계적모형 2. 공분산분석에의한처리효과검정 3. 공분산분석과정 - 실습 -
실습준비 R과 R studio 설치 https://cran.r-project.org/bin/windows/base/ R 다운로드후설치 https://www.rstudio.com/products/rstudio/download/#download RStudio 1.2.1335 - Windows 7+ 다운로드후설치 통계교재 RAW files 다운로드 https://drive.google.com/drive/folders/0b98qpkk5ejemynj1aja1zvjwmzg
실습준비 프로그램검색에서 Rstudio 검색후실행 (R 아님에주의 )
실습 File 클릭 New Project 클릭 RAW file 다운경로지정 ( 분석대상파일경로지정 ) 후 open
실습 1 psds_data 압축해제한폴더지정
실습
실습 Student's T test 서로다른두집단의차이분석중독립표본 T 검정 에사용하는통계분석 단일검정, alternative 에는 greater / 큰지, less / 작은지, two.sided / 같은지 를검정.
실습 독립표본 대응표본
실습
실습
실습 분산분석은일반적으로카이제곱검정과 F 검정이용. 카이제곱검정 : 단일표본의모집단이정규분포이며분산을알고있는경우에적용. 하지만, 통계과정에서이를알고있는경우가드물기때문에모집단을알고있지않은경우의 F 검정을중심으로분석.
실습 분산분석 ( 여러그룹간의통계적인유의미한차이를검정하는분석 ; ANOVA) 의토대가되는재표본추출과정 1 데이터를한곳에수집 2 데이터를각그룹에같은수로다시추출 3 각그룹의평균을기록 4 각그룹의평균에대한분산을기록 5 2~4 단계를여러번반복 ( 예 : 1000번 ) 6 이렇게수집된분산을통해 p값을계산 분산분석을위해 aovp 함수를통해순열검정실시 순열검정 : 두개이상의표본을함꼐결합하여관측값들을무작위로 ( 또는전부를 ) 지표본으로추출하는과정 ( 임의화검정, 임의순열검정, 정확검정 ) Iter 은순열검정을위한반복수 Pr(Prob) 값이 p 값 (p value)
실습 두그룹의평균비교를위하여순열검정대신 t 검정을사용할수잇는것처럼 F 통계량을기반으로한 ANOVA 통계검정도있다. Df 는자유도, Sum Sq 는제곱합, Mean Sq 는평균제곱, F value 는 F 통계량. 위의경우는변이요인이하나인일원분산분석 (One-way ANOVA) 이다. 만약변이요인이두개인경우는이원분산분석 (Two-way ANOVA) 를이용
실습 다음의표와같이 A, B, C 의웹페이지에대한방문자의수를비교하자. 위의자료와같이 row column 형태의자료는카이제곱검정에의하여검정가능하다. 카이제곱검정의통계적이론방법, 즉카이제곱분포에대한 p 값
실습 카이제곱검정의재표본추출방법 만약표본수가매우낮을경우에아래와같이 Fisher 의정확검정방법을사용하여더정확한 p 값을얻을수있다.