Coelaton Analyss 개념 Bvaate analyss 측정형두변수간의관계분석 상관관계? 두측정형변수의산점도 : 상호직선적관련성을상관계수 (Coelaton Coeffcent 측정. 잠재설명 ( 원인 변수 (X s 상관관계, 잠재변인과결과변수 (Y 의상관관계 Peason 상관계수 측정형변수직선관계정도 cov( X, Y E( X E( X E( Y E( Y va( X va( Y va( X va( Y ( (3 ( ( x x( y y ( x x ( y y 산점도 (scatte plot 그리기 가로축은항상입력변인 (X 를나타내고, 세로축은다른입력요소또는결과 (Y 를나타냄. 각각의점들은짝으로이루어진데이터 (X,Y 임 얻는정보 In coelaton: 두변수간함수관계 In egesson: 이상치 / 영향치 ( 옆그림번호참고, 등분산성진단 ( 이상치 (outle ( 이상치 + 영향치 (3 영향치 (nfluental obsevaton 등분산성? 개체들이직선주위로퍼지는정도가 fan 모양 5 Infomatonal Pesentaton (Fall, 007
Coelaton Analyss 가설검정 상관계수유의성검정 H 0: ρ0 ( 두변수의상관관계존재하지않음 T n ~ t( n 비모수 (nonpaametc 상관계수 관측치의개수가 0~5개미만이거나관측치가가질수있는값의수준이 5~0개미만 H 0 : ρ ρ 0 ( 두변수의상관계수가 ρ 0 이다 T + 0.5ln ~ + ρ0 N(0.5ln, ρ n 3 0 작년상관계수가 07 0.7 이었다. n5 조사결과올해상관계수는 0.78이다. 다르다고할수있나? 귀무가설 : ρ0.7 + + ρ0 0.5ln 0.5ln 수작업에의한계산 ρ0 T R을이용하자. n 3 상관계수차이검정 ~ N (0, 귀무가설 (H 0 : ρ x ρ y ( 두모집단상관계수는동일하다. + z( x 0.5 ln z z( x z( y /( n 3 + /( n x x x + +, z( y 0.5 ln y y y ~ N (0, 3 6 Infomatonal Pesentaton (Fall, 007
Coelaton Analyss 실습 데이터 PCS.xls 5개 notebook PC의성능평가점수 (Pefomance 와소비자평가점수 (Ratng 를조사한자료이다. 산점도를그리고해석하시오. 상관계수를구하고선형관계가있는지검정하시오. 유의수준 5% Notebook Pefomance Ratng AMS Tech Roadste 5CTA380 5 67 Compaq Amada M700 9 78 Compaq Posgna Notebook 50 53 79 Dell Inspon 3700 C466GT 94 80 Dell Inspon 7500 R500VT 36 84 Dell Lattude Cp A366XT 84 76 Enpowe ENP-33 Po 84 77 Gateway Solo 9300LS 6 9 HP Pavlon Notebook PC 85 83 IBM ThnkPad I Sees 480 83 78 Mco Expess NP7400 89 77 Mcon TansPot NX PII-400 0 78 NEC Vesa SX 9 78 Scepte Soundx 500 4 73 Sony VAIO PCG-F340 87 77 데이터불러오기 attach( 해서반드시사용데이터를가져오자. 산점도그리기 plot( 함수 xlmc( 최소, 최대, ylmc( 최소, 최대 사용가능 man 그림제목 xlab x-축제목, ylab y-축제목 7 Infomatonal Pesentaton (Fall, 007
Coelaton Analyss 실습 4 ablne( 추정회귀선 (ftted egesson lne 을긋는다. peson Coelaton 구하기 이상치로판단되는 8 번관측치제외하고상관계수를구해보자. 8 Infomatonal Pesentaton (Fall, 007
Regesson Analyss 개념, 절차 회귀분석이란 ( 두변수의인과관계가존재? Yf(x y를종속변수 x를설명변수 ( 독립변수 라한다. ( 함수관계중가장간단한직선관계 : Ya+bX 단순회귀 ( 선형 모형 : Ya+bX+e ( 오차 오차의가정 : 정규성, 등분산성, 독립성 e ~ dn( (0, σ 상관분석과유사 ( 상관계수 과회귀계수 b 의관계 유래 Fancs Galton(8-9 e t Y a + bx + e 유전학자, 98명의성인자녀키와부모키의관계 부모키 ( 아버지키 + 어머니키 / 여자키는.08배 ( 아버지키 33.73+ 0.56( 아들키 Kal Peason (857-936 수학적함수 ( 모형 관계설정및 OLS 추정치계산 Peason 상관계수계산식유도 회귀분석과정 ( 회귀모형설정 종속변수 (Y 및설명변수 (X 설정 : ( 예 성능이소비자평가에영향을줄것이다. Y 소비자평가, X 성능 데이터수집및입력 (y, x,,,, n(5 ( 산점도그리기 직선관계존재여부? 오차의가정, 등분산문제 ( 소비자평가 a + b( 성능 + e 9 Infomatonal Pesentaton (Fall, 007
Regesson Analyss 절차 (3 회귀계수 (a, b 추정 추정한다는것은? 데이터에가장적합한직선도출 (ftted LINE 방법 OLS 추정치 n n mn Q( e mn ( Y a bx a, b a, b OLS 추정치 ˆ ( x x( y y b aˆ βˆ x ( x x y β (4 선형회귀모형유의성검정 Ftted lne ( 적합선 의유의성 Y a + bx + e Q n ( y ˆ 설명변수가유의하지않다, 설명하지못한다, b0 ˆ α βx 0 α 모형 ( 모형내변수전체 의유의성 H n 0 : b b... bp 0 Q x ( ˆ ˆ y α βx 0 귀무가설 : 모형내모든설명변수는유의하지않다 β Yˆ aˆ + bˆ X 변동분할 -총변동 (Total Sum of Squaes, SST SSTO ( y y y -회귀변동(Regesson Sum of Squaes, SSR SSR ( yˆ y eˆ ( Y ˆ Y -오차변동(Eo Sum of Squaes, SSE SSE ( y yˆ Y ( Y Y Yˆ Y 변동 자유도 자숭합 평균자승합 F df SS MS 모형 p SSR MSRSSR/p MSR/MSE 오차 n-p- SSE MSESSE/(n-p- ~F(,n- 총변동 n- R ( 결정계수 SSR/SST ± R 0 X Infomatonal Pesentaton (Fall, 007 x 개별설명변수 Syy 귀무가설 : H0 : b k 0 b ˆ Sxx Sxx (, ( x x Syy y y Sxy ( x x( y y ˆ β β ~ t( n s ( ˆ β s (βˆ MSE Sxx
Regesson Analyss 절차 3 / 예제 (5 회귀진단 (skp hee 오차의추정치잔차 (esdual 활용 ˆ ( ˆ e Y Y 방법 : ( 표준화 잔차 (y-축 와예측치 (x-축 산점도 선형성 오차가정 3가지 : 정규성, 등분산성, 독립성 이상치, 영향치진단 당분간은산점도에서이상치, 영향치진단하여미리제외하자. In R ( ( 데이터읽기 데이터 PCS.xls ( 계속 5 개 notebook PC 의성능평가점수 (Pefomance 와소비자평가점수 (Ratng 를조사한자료이다. 모형설정 산점도 (done aleady 회귀계수추정 회귀모형유의성검정 F- 검정 t- 검정 회귀진단및잔차진단 (optonal ( 소비자평가 a + b ( 성능 + e ( 산점도그리기 ( 이전슬라이드참고 직선의경향이보인다. 이상치존재하는것같다. Infomatonal Pesentaton (Fall, 007
Regesson Analyss 예제결과 (3-4 회귀계수추정및모형유의성진단 lm( 함수 선형모형형 (lnea model 결과 eg 에저장됨 names( 함수 eg 데이터에저장된변수가표현 summay( 함수 선형모형결과에대한표현 ( 소비자평가 5.8 + 0. 45( 성능 설명변수 Pefomance 유의성 모형의유의성과동일 회귀계수 b 에대한유의성 t- 값 4.49, F 값 0.69 (t F 유의확률은서로동일하다. 유의하다. 결정계수0.608 설명변수가종속변수변동 60.% 설명 Sqt 는상관계수와동일, 부호 > 기울기 b 의부호 MSE: 오차추정치 ssqt(mse3053 최종모형 ( 소비자평가 5.8 + 0.45( 성능 성능이높을수록소비자평가높아진다. 성능 점높아지면소비자평가 0.45 점증가한다. Infomatonal Pesentaton (Fall, 007
Regesson Analyss 예제결과 / 실습 (5 회귀진단및잔차진단 (optonal hee 8 번째개체가이상관측치이다. Resduals: 잔차 (R, fted.values: 예측치 Ŷ 번개체는영향치에해당된다 (Cook s dstance 참고 이상치인 8 번의 Ratng 값을제외하고 (NA 재분석 ( 원래는이상치도제외하는것을권함 진단에필요한 4 개의그림이동시에그려지다. 4 번째그려지는그래프만이용하면된다. 데이터 CEO.XLS 회사자본 ( 단위 : 백만불 이많을수록 CEO 연봉 ( 단위 : 천불 이많을것이라는생각에조사한자료이다. ( 산점도 ( 회귀계수추정및회귀모형유의성진단 (3 결과해석 ( 유의성, 부호, 값크기 (4 잔차진단 (optonal 3 Infomatonal Pesentaton (Fall, 007