제 4 장회귀분석

Similar documents
<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

G Power

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

슬라이드 1

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

PowerPoint 프레젠테이션

MATLAB for C/C++ Programmers

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

R t-..

슬라이드 1

Microsoft PowerPoint - IPYYUIHNPGFU

시스템경영과 구조방정식모형분석

Microsoft Word - SPSS_MDA_Ch6.doc

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

PowerPoint Presentation

슬라이드 1


statistics

선형모형_LM.pdf

비선형으로의 확장

MATLAB for C/C++ Programmers

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

untitled

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

시계열분석의개요 (the nature of time series analysis) 확률과정 (stochastic processes) 이란시간으로순서가매겨진확률변수들의집합임. 만일확률변수 y 가연속이라면 y(t) 라고표기하지만이산이라면 y t 라고표기함 ( 대부분의경제자

가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

Microsoft Word - ch2_simple.doc

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

슬라이드 1

슬라이드 1

exp

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

에듀데이터_자료집_완성본.hwp

Statistics Basic_ko_chapter_04


(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

Microsoft PowerPoint - LM 2014s_Ch4.pptx

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

자료의 이해 및 분석

제 4 장수요와공급의탄력성

PowerPoint Template

R

Microsoft Word - LectureNote.doc

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

표본재추출(resampling) 방법

한국정책학회학회보


Microsoft PowerPoint - Info R(3) pptx

Resampling Methods

PowerPoint 프레젠테이션

실험 5

PowerPoint Presentation

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

<B0E6B7CEBAD0BCAE2E687770>

<B3EDB4DC28B1E8BCAEC7F6292E687770>

제 3강 역함수의 미분과 로피탈의 정리

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는


슬라이드 1

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

Microsoft Word - ch8_influence.doc

Microsoft Word - 동태적 모형.doc


1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

실험. Multimeter 의사용법및기초회로이론 Multimeter 의사용법 멀티미터 (Multimeter) 는저항, 전압, 전류등을측정할수있는계측기로서전면은다음그림과같다. 멀티미터를이용해서저항, 전압, 전류등을측정하기위해서는다음그림과같은프로브 (probe) 를멀티미터

14-X25-JSJ.hwp

<4D F736F F D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>

자료분석론 - 국민건강영양조사 분석

2011년 제 9회 최우수상.hwp

<BFACB1B8C0B1B8AEB0ADB7C92E687770>

4 _ 한국지역정보화학회기획세미나발표논문집

(001~006)개념RPM3-2(부속)

Microsoft Word - skku_TS2.docx

Microsoft Word - ch3_residual.doc

Microsoft PowerPoint - chap06-2pointer.ppt

슬라이드 1

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS


고객관계를 리드하는 서비스 리더십 전략

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

<4D F736F F F696E74202D20BBF3B0FCBAD0BCAE5FC0CCB7D0B0ADC0C72E BC0D0B1E220C0FCBFEB5D>

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

용역보고서

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)


<4D F736F F F696E74202D FC0E5B4DCB1E220BCF6BFE4BFB9C3F8205BC8A3C8AF20B8F0B5E55D>

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

Microsoft Word - src.doc

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

untitled

Transcription:

회귀의역사적유래 (historical origin of the regression) 회귀 (regression) 라는용어는유전학자 Francis Galton(1886) 에의해처음사용된데서유래함. 그의논문에서 비정상적으로크거나작은부모의아이들키는전체인구의평균신장을향해움직이거나회귀 (regression) 하는경향이있다. 고주장

회귀의역사적유래 (historical origin of the regression) 또한그의친구 Karl Pearson(1903) 은 1,000 명이상의자료를수집하여 Galton 의보편적회귀의법칙 (law of universal regression) 을다음과같이확인함. 키가큰아버지집단의아들의평균신장은아버지보다키가작았고, 키가작은아버지집단의아들의평균신장은아버지보다키가컸다. 즉, 아들의키는아버지의키와상관없이전체남자들의평균신장을향해회귀한다는것임.

회귀분석의개요 (the nature of regression analysis) 자연및사회현상의여러가지요인들을자료분석의관점에서변수 (variable) 라규정하고, 이러한변수들간의상호관련성을찾으려고시도하는경우가많이있음. 어떤변수가다른변수에영향을주고받는경우영향을주는변수를독립변수 ( 설명변수 : independent variable) 라하고, 영향을받는변수를종속변수 ( 반응변수 : dependent variable or response variable) 라고하며, 이두변수간의관계식, 관계정도에관심을갖게됨. 이와같이변수들간의관련성을수식을통하여표현할수있다면한변수의변화로부터다른변수의변화를예측 (prediction) 할수있음. 또한어떤변수가다른변수의변화에영향을주고있는가도판단할수있게됨.

회귀분석의개요 (the nature of regression analysis) 회귀분석 (regression analysis) 이란하나의종속변수와하나또는 2 개이상의독립변수들간의관련성을규명할수있는수학적모형을측정된변수들의자료로부터회귀식을추정하는통계적방법임. 회귀분석은본질적으로인과관계가있는두변수간의함수식을분석대상으로하며, 다음과같이두가지측면에서이용됨. 첫째, 관측된두변수의값을기초로두변수간의함수관계가성립하는지, 만약함수관계가성립한다면어떤특징을갖는함수관계 ( 예 : 1 차선형관계 ) 인지이해하는데이용됨. 둘째, 그값이알려진독립변수를기초로종속변수의값을추정또는예측하는데이용됨. 결국회귀분석은 종속변수가하나이상의독립변수에어떻게의존하고있는가를분석 하는과정을의미함.

회귀분석의개요 (the nature of regression analysis) 종속변수에대하여독립변수가하나이면단순회귀모형 (simple regression model), 독립변수가 2 개이상인경우에는다중회귀모형 (multiple regression model) 이라함. 독립변수가하나인단순선형회귀모형 (simple linear regression model) 은다음의식과같이나타낼수있음 ( 선형 =1 차함수 ). y i =β 0 +β 1 x i +ε i, i=1, 2,, n 여기서 β 0, β 1 은자료로부터추정해야할모수 (parameter) 로 β 0 는절편 (intercept), β 1 은기울기 (slope) 이며 ε i 는오차항 (error term), n 은관측된자료의수를나타냄. 위식의오차항 ε i 는독립적으로평균이 0 이고분산이 σ 2 인정규분포를따른다고가정함 [N(0, σ 2 )].

모집단의회귀선에서 β 0, β 1 을구할수는없고, 단지관측된두변수 x, y의표본값으로부터회귀계수 (regression coefficient) 를추정해야함. β 0, β 1 의추정량을각각 β 0, β 1 이라하며, y i 의추정값은 y i 으로, 이는다음의식과같음. ^ ^ ^ y i =β 0 +β 1 x i 위식은모집단회귀직선에추정식이며, 이를추정된회귀직선 (estimated regression line) 또는최소제곱회귀직선이라고함. ^ ^ 그리고 β 0, β 1 은추정된회귀계수임. ^ ^ ^

회귀분석의가정 회귀분석의핵심은회귀계수 (regression coefficient) 를구하고, 또한이회귀계수가통계적으로어느정도의미가있는지를파악하는데있음. 회귀분석에는다음과같은가정 (assumption) 이있음. 각독립변수간에는상관관계가없음. 만일상관관계가존재하게되면각독립변수의회귀계수는왜곡되어의미를상실할가능성이큼. 독립변수와종속변수간에는통계적으로유의한인과관계가있어야함. 즉, 인과관계가존재하지않거나존재하더라도유의하지못한회귀식은의미가없음.

회귀분석의가정 모든회귀계수가유의한지를검정한후해당회귀식을해석해야함. 만일회귀계수중에서어느하나라도통계적으로유의하지않으면해당독립변수가종속변수에미치는인과관계는거의없음. 독립변수와종속변수간에는통계적으로유의한인과관계가있어야함. 즉, 인과관계가존재하지않거나존재하더라도유의하지못한회귀식은의미가없음. 오차항 (error term) ε i 는독립적으로평균이 0 이고분산이 σ 2 인정규분포를따른다고가정함 [N(0, σ 2 )].

회귀계수의추정 Excel 에서회귀계수 (regression coefficient) 를구하는방법은두가지임. 함수마법사에서 통계 -INTERCEPT 와 통계 -SLOPE 함수를이용하는방법 이방법은단순회귀모형의분석에만사용이가능함. 데이터 - 데이터분석의분석도구에서 회귀분석 을이용하는방법

함수마법사를클릭하고 통계 -INTERCEPT 함수를선택함 (β 0 ). ^

Known_y s 에는 y 변수지정, Known_x s 에는 x 변수지정

산점도에의한회귀모형의추정 데이터영역전체를지정한후삽입-차트-분산형을설정

산점도에의한회귀모형의추정 산점도의한점을찍은후마우스오른쪽클릭-추세선추가

함수마법사를클릭하고 통계 -SLOPE 함수를선택함 (β 1 ). ^

Known_y s 에는 y 변수지정, Known_x s 에는 x 변수지정

Excel 의메뉴에서데이터 - 데이터분석을클릭한후 회귀분석 을선택하고확인버튼을누름.

회귀분석에서각변수 (Y, X) 지정, 이름표 (L) 사용, 신뢰수준 (F) ^ 설정, 잔차 (y-y) 를선택한후확인버튼누름.

회귀분석대화상자에서체크박스의내용은다음과같음. 상수에 0 을사용 : 절편이없는 ( 원점통과 ) 회귀선을의미함. 신뢰수준 : 입력된신뢰수준 ( 여기서는 95%) 에따라회귀계수의신뢰구간을구함. ^ 잔차 : 잔차 y-y 를출력함. 잔차도 : 잔차를 x 축에따라도시, 모형의적합성과오차의독립성을검토함. 표준잔차 : 표준된된잔차를도시, ±3 범위를넘는이상값을검색함. 선적합도 : 관측값과추정값을도시함. 정규확률도 : 오차항 ( 잔차항 ) 이정규분포를따르는가를검토하고, 직선에가까우면정규분포라고판단함.

회귀분석의결과에대한해석 F- 검정 (F-test) F- 검정은 t- 검정과는달리회귀식전체에대한유의성을검정함. 즉, t- 검정의경우는각독립변수가개별적으로유의한지를보고자하는것임. 회귀식전체가유의한지여부를검정한다는것은 모든회귀계수가 0 이라는귀무가설 (H 0 ) 의기각여부를검정하는것임. 따라서귀무가설이기각되지않고채택된다면해당회귀식은의미가없게됨.

회귀분석의결과에대한해석 F- 검정 (F-test) 예를들어 F- 검정을하는쉬운방법은 유의한 F- 값 이 0.05(95% 신뢰수준 ) 또는 0.01(99% 신뢰수준 ) 보다큰지또는작은지여부를보면됨. α=0.05(or 0.01)< 유의한 F- 값 : 귀무가설 (H 0 ) 채택 해당회귀식은유의하지않음 ( 의미가없음 ). α=0.05(or 0.01)³ 유의한 F- 값 : 귀무가설 (H 0 ) 기각 해당회귀식은유의함 ( 의미가있음 ).

회귀분석의결과에대한해석 t- 검정 (t-test) 회귀계수의 t- 값이의미하는바는해당회귀계수가통계적으로얼마나유의한지를나타내는지표임. 만일해당회귀계수의 t- 값이유의하지않으면통계적으로그회귀계수는사실상 0 으로간주됨. 회귀계수의 t- 값을점검하는것을 t- 검정 (t-test) 이라고하며다음과같이가설을검정하는것임. 귀무가설 H 0 : β i =0 대립가설 H 1 : β i ¹0 여기서 β i =0 는 i 번째독립변수를나타냄.

회귀분석의결과에대한해석 t- 검정 (t-test) 일반적으로 t- 검정을하는경우 95% 신뢰수준을가정함. 즉, 유의수준을 5% 로함 (α=0.05). 이와같은가설을검정하는것은양측검정 (two-tailed test) 을의미하기때문에대략 t- 값 (t- 통계량 ) 의절대값이 2 와비슷하거나작으면 ( 크면 ) 귀무가설 (H 0 ) 을채택 ( 기각 ) 함. 2 > t- 값 (t- 통계량 ) : 귀무가설 (H 0 ) 채택 해당회귀계수는유의하지않음 ( 의미가없음 ). 2 < t- 값 (t- 통계량 ) : 귀무가설 (H 0 ) 기각 해당회귀계수는유의함 ( 의미가있음 ).

회귀분석의결과에대한해석 t-검정 (t-test) 또다른회귀계수에대한검정방법으로는다음과같음. α=0.05<p-값 : 귀무가설 (H 0 ) 채택 해당회귀계수는유의하지않음 ( 의미가없음 ). α=0.05³p-값 : 귀무가설 (H 0 ) 기각 해당회귀계수는유의함 ( 의미가있음 ).

회귀분석의결과에대한해석 결정계수 (coefficient of determination) 결정계수 R 2 는주어진자료에의하여추정된회귀식이해당자료를얼마나잘설명하고있는지여부를보여주는값임. 이값은 0 과 1 사이의값으로나타나는데 1 에가까울수록추정된회귀식이해당자료를잘설명하고있다고할수있음 (0 R 2 1). 단순회귀분석의경우결정계수는독립변수 x 와종속변수 y 의상관계수의제곱과같음.

회귀분석의결과에대한해석 조정된결정계수 (adjusted R 2 ) 일반적으로결정계수값그자체보다는조정된결정계수값으로판단함. 회귀모형에서독립변수의수가많을수록결정계수값이증가할것이며, 그결과가장좋은모형으로여겨질우려가있음. 이와같은단점을보완하기위해독립변수의수가증가함에따라벌칙을부과하도록고안한것이조정된결정계수임. 그리고조정된결정계수값이크다고무조건좋은것도아님. 왜냐하면결정계수값은독립변수의수가많아도증가하며, 더욱이독립변수간에상관관계가존재하더라도커지기때문임.

회귀분석의결과에대한해석 통계학성적 (Y) 85 74 76 90 85 87 94 98 81 91 76 74 수학성적 (X) 65 50 55 65 55 70 65 70 55 70 50 55 ^y i =30.043+0.897x i r 2 =0.7438 여기서 x 와 y 는회귀직선의의미가있는지를검정함. 두변수간직선관계가존재하면 β i 가 0 이아닐것이고, 직선관계가없으면 β 1 는 0 임. 회귀식에대한검정 H 0 : β i =0 vs. H 1 : β i ¹0 회귀계수에대한검정 H 0 : β 0 =0 vs. H 1 : β 0 ¹0 H 0 : β 1 =0 vs. H 1 : β 1 ¹0

회귀분석의결과에대한해석

회귀분석의결과에대한해석 매출액 (y) 425 370 200 580 620 650 700 490 610 290 320 350 400 518 545 광고비 (x) 23 21 16 34 32 36 40 37 35 20 20 21 23 21 30 ^y i = 10.59 + 16.89x i, r 2 =0.7949 (0.1573) (7.0973) d.f.=13 [0.8774] [0.0000] F-통계량 [F(1, 13)]=50.372 ( ) 안은 t-통계량, [ ] 안은 P-값임.

회귀분석의결과에대한해석

다중회귀모형의추정 (estimation of multiple regression) 자연및사회현상을설명하는데있어서종속변수의변화가하나의독립변수만으로충분히설명할수없는경우가많음. 따라서독립변수를적절히여러개선택하여이들의함수로서종속변수를설명하는것이더정확할수있음. 이경우의회귀모형을다중회귀모형이라하며, 이는다음의식과같이나타낼수있음 y i =β 0 +β 1 x 1i +β 2 x 2i + +β k x ki +ε i, i=1, 2,, n 여기서 β 0, β 1, β 2,, β k 는추정해야할회귀계수이고, ε i 는독립적으로 N(0, σ 2 ) 을따르는오차항임. ^ ^ ^ ^ 다중회귀모형에서도회귀계수들의추정값 β 0, β 1, β 2,, β k 는최소제곱법 (least square method) 에의해구할수있고, 각회귀계수들에대한검정도단순회귀모형에서와동일하게진행됨.

다중회귀모형의추정 (estimation of multiple regression) Excel 의메뉴에서데이터 - 데이터분석을클릭한후 회귀분석 을선택하고확인버튼을누름.

다중회귀모형의추정 (estimation of multiple regression) 회귀분석에서각변수 (Y, X) 지정, 이름표 (L) 사용, 신뢰수준 (F) ^ 설정, 잔차 (y-y) 를선택한후확인버튼누름.

다중회귀모형의추정 (estimation of multiple regression) 회귀분석의결과에대한해석 회귀계수들중 x1 변수 ( 수학점수 ) 에대한 P- 값은 0.014 로 α=0.05 보다작으므로귀무가설 H 0 : β 1 =0 을기각하여종속변수 ( 통계학점수 ) 에유의하게영향을미치지만, x2 변수 ( 결석횟수 ) 에대한 P- 값은 0.064 로 α=0.05 보다크므로귀무가설 H 0 : β 2 =0 을기각할수없어결석횟수는통계학점수에유의하게기여하지못하고있음. 분산분석표에서 F- 값 21.80 이고, 이에대응하는 P- 값 ( 유의한 F) 은 0.0003 으로유의수준 α=0.05 보다작으므로귀무가설 H 0 : β 1 =β 2 =0 을기각하여독립변수들중적어도하나이상의변수는종속변수를설명하는데유의하게기여함. ^y i =53.68 +0.61x 1-1.93x 2 r 2 =0.8289

다중회귀모형의추정 (estimation of multiple regression) 다중공선성 (multicollinearity) 회귀모형에서종속변수의변동을설명하거나예측하기위해서사용된독립변수들은실제로대부분서로독립이아님. 이와같이다중공선성이란독립변수들간에밀접한상관관계가존재하는것을말하며, 이와같은경우에는독립변수의계수가정확히추정되지못하는문제가발생함. 예를들어 y=1+2x 의회귀모형에 x 와동일한변수인 z 를포함시킨후추정하게되면 y=1+1.5x+0.5z 또는 y=1-1.3x+3.3z 등과같이 x 와 z 계수의합이 2 가되는선형식은모두추정회귀선으로사용될수있음. 이와같이서로밀접한선형관계에있는변수들의계수는정확히추정할수없을뿐만아니라기대와는달리반대의부호를갖는추정치를얻는경우도종종있음.

다중회귀모형의추정 (estimation of multiple regression) 다중공선성 (multicollinearity) 다중공선성이존재하는경우 z 가포함된상태에서는 x 가 y 의변동을추가적으로설명할것이없으므로독립변수모두를제외시킬수는없지만그중하나는다른변수가회귀모형에포함되어있는한제외시킬수있음. 다중공선성이존재하는경우정확한추정치를구하는방법은계량경제학교재를참고하기바람. 여기서는할수있는방법은다중공선성이있는변수들중에서분석자의판단에따라일부의변수를제외시키는방법임. 그리고변수를제외시킨후다시회귀계수에대한가설검정을해야함.

다중회귀모형의추정 (estimation of multiple regression) 더미변수를포함한회귀분석 지금까지회귀분석에서의독립변수는그값의크기를측정할수있는정량적변수들 (quantitative variables) 이었음. 그러나경우에따라서는종속변수의값은개별관측대상이속하는집단의특성에의해서도영향을받기도함. 즉, 범주형변수들 (categorical variables) 인계절 (seasons), 월 (months), 지역 (regions) 등과같은자료의경우임. 이와같이특정요인들 ( 범주형변수들 ) 에의하여영향을받는지를살펴보고자할때더미변수 ( 가변수 : dummy variable) 를사용함. 더미변수를포함하는경우다중회귀모형은다음과같음. y=β 0 +β 1 x 1 +β 2 D+ε

다중회귀모형의추정 (estimation of multiple regression) 더미변수를포함한회귀분석 예 : 건국대학교주변휴대폰대리점관련자료를가정함. 분산분석표에서 F- 값 69.84 이고, 이에대응하는 P- 값 ( 유의한 F) 은 0.0002 로유의수준 α=0.05 보다작으므로귀무가설 H 0 : β 1 =β 2 =0 을기각하여독립변수들중적어도하나이상의변수는종속변수를설명하는데유의하게기여함. x1( 훈련시간 ) 의계수에대한검정결과귀무가설을기각하여 y 에유의하게영향을미치지만, 더미변수 D 의계수에대한검정결과귀무가설을기각할수없음. 즉, 더미변수가회귀모형에포함되어있더라도 y 의변동을설명하는데는 x1 이필요하지만 x1 이포함된상태에서 D 는 y 의변동에추가적으로설명할것이없음을의미함. y=8.8056+0.4356x 1 +1.778D

다중회귀모형의추정 (estimation of multiple regression) 여러개의더미변수를포함한회귀분석 앞의예에서와같이범주형변수의범주가 2 개인경우 1 개의더미변수를이용하여분석할수있었음. 즉, 건국대학교근처이면 1, 아니면 0 의값을가짐으로써휴대폰대리점들을구분할수있었음. 그러나만일변수의범주가 3 개이상이면하나의더미변수로는모두를구분할수없음. 예를들어지역이 A, B, C 이면 2 개의더미변수를사용 A 지역이면 D 1 =1, D 2 =0 B 지역이면 D 1 =0, D 2 =1 C 지역이면 D 1 =0, D 2 =0 따라서회귀식은 y=β 0 +β 1 x 1 +β 2 x 2 +β 3 D 1 +β 4 D 2 +ε 이됨.

다중회귀모형의추정 (estimation of multiple regression) 여러개의더미변수를포함한회귀분석 지역분류가 3 곳이므로더미변수는다음과같이 2 개를사용함. A 지역이면 D 1 =1, D 2 =0 B 지역이면 D 1 =0, D 2 =1 C 지역이면 D 1 =0, D 2 =0 따라서매출액 (y) 은광고비 (x 1 ), 보너스 (x 2 ), D 1, D 2 의독립변수로표현될수있음. 즉, 회귀식은다음과같음. y=β 0 +β 1 x 1 +β 2 x 2 +β 3 D 1 +β 4 D 2 +ε

다중회귀모형의추정 (estimation of multiple regression) 여러개의더미변수를포함한회귀분석 분산분석표에서 F- 값 91.638 이고, 이에대응하는 P- 값 ( 유의한 F) 은 0.0000 으로유의수준 α=0.05 보다작으므로귀무가설 H 0 : β 1 =β 2 =β 3 =β 4 =0 을기각하여독립변수들중적어도하나이상의변수는종속변수를설명하는데유의하게기여함. y=471.57+1.38x 1 +0.82x 2-261.14D 1-201.54D 2 A 지역의경우 (D 1 =1, D 2 =0) y=471.57+1.38x 1 +0.82x 2-261.14(1)-201.54(0) B 지역의경우 (D 1 =0, D 2 =1) y=471.57+1.38x 1 +0.82x 2-261.14(0)-201.54(1) C 지역의경우 (D 1 =0, D 2 =0) y=471.57+1.38x 1 +0.82x 2-261.14(0)-201.54(0) 모든독립변수들의회귀계수의 t- 값이 2 의절대값보다큰값을가지며, P- 값도 α=0.05 보다작으므로귀무가설을기각하여 y 에유의하게영향을미치는것으로나타남.