회귀분석 올림픽 100m 우승기록 2004년 9월과학저널 Nature에발표된 Oxford 대학교의임상병리학자인 Andrew Tatem과그의연구진의논문 1900~2004년까지의남성과여성의육상 100m 우승기록을분석하고앞으로최고기록이어떻게변할것인지를예측 2008년베이징올림픽에서남자의우승기록은 9.73±0.144(9.586, 9.874), 여자는 10.57±0.232(10.338, 10.802) 로예측 실제기록은남자 9.69, 여자 10.78 1
2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사연구 : 1992년 Whipp와 Ward의 Nature 논문 - 3974년에여성의마라톤기록이남성의기록을능가할것이라고예측 2
1896 년아테네올림픽부터 2012 년런던올림픽까지 100 미터 육상경기우승기록 ( 참고 Rendell, 2003) 여자는 1928 년암스테르담올림픽부터육상 100 미터시작 연도우승기록연도우승기록연도우승기록연도우승기록남자여자남자여자남자여자남자여자 1896 12-1928 10.8 12.2 1964 10 11.4 1992 9.96 10.82 1900 11-1932 10.3 11.9 1968 9.95 11.08 1996 9.84 10.94 1904 11-1936 10.3 11.5 1972 10.14 11.07 2000 9.87 10.75 1908 10.8-1948 10.3 11.9 1976 10.06 11.08 2004 9.85 10.93 1912 10.8-1952 10.4 11.5 1980 10.25 11.06 2008 9.69 10.78 1920 10.8-1956 10.5 11.5 1984 9.99 10.97 2012 9.63 10.75 1924 10.6-1960 10.2 11.0 1988 9.92 10.54 2016?? 3
다변량자료 (multivariate data) 어떤대상에대해여러가지변수들을관측한자료들의집합 예 ) 신체검사 - 신장, 체중, 비만도, 시력, 혈액형,... 예 ) 경제지표 ( 연도별 ) - GNP, 실업률, 수출액, 수입액,... 4
자료의형태 관측값 변수 1 변수 2 변수 p - 관측값간에는관계가없음 독립적인관측값 5
주요관심사 : 변수들간의관계 1 변수들간에관계가있는가? 2 어떤관계가존재하는가? 3 관계의정도는? 4 관계식을유도할수있는가? 관계식을통해다른값에대한예측이가능 6
산점도 (scatter plot) 이변량자료인경우, 즉, 자료가쌍을이룬두변수의값으로표시된경우 자료를 축과 축으로이루어진이차원평면상에점으로표시하여시각적으로두변수의관계를파악할수있는그림 관심 1과 2에대한정보를얻을수있으나 3과 4에대한정보를얻기에는역부족 7
올림픽육상 100m 우승기록 8
상관분석 (correlation analysis) 표본공분산 (sample covariance) 이변량자료의 자료와 자료가공간상에서얼마나 퍼져있는가를나타내는측도 표본공분산 = 자료와 자료가선형관계가있는경우공분산의부호 (+,-) 는 선형관계의기울기부호와일치 9
표본상관계수 (sample correlation coefficient) 와 에대해표준화시킨표본공분산으로두변수의 직선관계정도를나타내는측도 Pearson 의표본상관계수 간이식 : 10
올림픽육상 100m 우승기록 (1900~2004년) 통계량 남자여자기록연도기록연도 24 18 평균 10.318 1954.333 11.23 1968.667 제곱합 2558.401 91690624 2273.387 69771024 교차제곱합 483681.1 397789 남자 = 483681.1-24 10.318 1954.333 = -270.433 여자 = 397789-18 11.23 1968.667 = -157.32 남자표본공분산 = -270.433/(24-1) = -11.758 여자표본공분산 = -157.32/(18-1) = -9.254 11
남자 : =91690624-24 1954.333 2 = 24573.33 남자 : =2558.401-24 10.318 2 =3.376 여자 : =69771024-18 1968.667 2 = 9352 여자 : =2273.387-18 11.23 2 =3.355 연도와우승기록간에는매우높은음의상관관계가존재 12
상관계수는두변수간에선형관계가있는지를알아보는데 사용하는것이지인과관계를나타내는것은아님 4 에대한정보를얻을수없음 13
회귀모형 (Regression Model) 두변수의인과관계를유도 input system output 입력변수 : 설명변수 (explanatory variable), 독립변수 (independent variable) 출력변수 : 반응변수 (response variable), 예 ) 광고비와판매량 예 ) 공부량과시험성적 종속변수 (dependent variable) 예 ) ( 비료량, 평균강수량, 평균일조량 ) 과옥수수수확량 14
관계식을유도하고유도된관계식을이용하여 에대응하는 를예측하거나원하는 값을얻기위해대응하는 를조절 15
단순선형회귀모형 (simple linear regression model) 한개의설명변수와반응변수의관계를직선관계로가정 - 설명변수는조절가능한값 ( 확률변수가아님 ) 으로가정 - 반응변수는정확하게예측할수없음 - ( 예 ) 동일한광고비를투자해도판매량은다름 - ( 예 ) 올림픽 100m 육상우승기록 - ( 예 ) 평균강수량, 평균일조량? 조건부 16
직선관계에의해설명되지않는부분에대한오차항을가법 (additive) 형태로포함한모형 모형으로설명되어지는부분 모형으로도설명안되는부분 - 미지의모수절편 와기울기 을추정 - 기울기 은 를한단위변화시킬때 의평균변화량 선형은모수 와 에대해선형 - 은선형회귀모형인가? - 는선형회귀모형인가? 17
추정방법 오차 (error) : 실제관측자료와가상의회귀직선의차 잔차 (residual) : 실제관측자료와추정된회귀직선의차 - : 의추정값 - 추정된회귀계수직선 : 추정된직선이좋은직선인가아닌가에대한기준설정이 필요 18
1 최소절대편차법 (Least absolute deviation method) 2 최소제곱법 (Least squares method) 장점 : 에대해미분가능하여최소로만드는 를쉽게찾을수있음 19
최소제곱법, 최소제곱추정값 :, - 최소제곱추정량 :, 20
올림픽육상 100m 우승기록 (1900~2004 년 ) 남자 :,,, - - - 추정회귀식 : 연도 여자 :,,, - - - 추정회귀식 : 연도 21
22
회귀모수의추론 오차항가정 들은서로독립 ( 독립성 ) 들의분산은 ( 등분산성 ) 들은정규분포를따름 ( 정규성 ) indep 23
잔차의검토 오차는우리가알수없는값이므로자료에서얻어진오차의 추정값인잔차를이용하여오차항의가정을검토 : - 원점을지나는회귀모형을가정하는경우 ( ), 잔차의합이 0 이라는보장이없음 절편에대한검정결과 를기각시키지 못할지라도모형식에서절편에대한항을일반적으로 제거하지않음 24
잔차그림 : (, ) 의산점도 1 2 3 1 특정한패턴이없으며등분산성만족 2 가커지면서 의표준편차가커지는경향이있음 등분산성가정을만족하지않음 3 가 와 2차곡선의관계를가짐 모형의관계식이잘못됨 25
등분산성 : 의폭이 에관계없이일정한지확인 - 등분산성을만족하지않는경우 : 반응변수의변환 - 두번째그림과같은경우 log 정규성 : 히스토그램, Q-Q plot, Jarque-Bera test( 왜도와첨도 ), Shapiro-Wilk 검정, Kolmogrov-Smirov 검정 26
독립성 : 패턴이있는지를확인 - 자료가시간별로되어있는경우, 시간에따른잔차의산점도를그려어떤패턴을가지는가를확인 - 시간또는 에따라잔차를정렬한후잔차 ( ) 에대한산점도작성 27
회귀모수의추론 회귀모형 이고서로독립이면 28
기울기에대한추론 는 들의선형결합으로표시될수있기때문에 정규분포를따름 29
결론 : - 또는 의추정량은? 30
Review iid 을추출한경우, 표본분산 : iid, iid, indep,,, 31
회귀모형에서는 분자 분모 ( 자유도 ) 는? = SSE 개의자료중 는자유롭게어떠한값도가질수 있으나나머지두개는위의두제약조건에의해결정 자유도는 32
일반적으로자유도 = 자료의개수 - 추정한모수의개수 간이식 : - - 의추정량 33
구간추정 - - 의 % 신뢰구간 34
가설검정 - 설명변수와반응변수간에선형관계가없는지또는없는지는모형식에서 이 0인지아닌가를검정하여확인할수있음 - 가설 vs ( 대부분양측검정실시 ) - 검정통계량 : 35
올림픽육상 100m 우승기록 (1900~2004 년 ) 남자 : = 24, = -270.433, = 24573.33, = 3.376 - 남자 : 의 95% 신뢰구간 -0.011 ± 2.074 = -0.011 ± 0.0018 [-0.0092, -0.0128] 가설검정 : 연도가증가하면기록은단축되며연평균 0.011 초단축 36
여자 : = 18, = -157.32, = 9352, = 3.355 -, 여자 : 의 95% 신뢰구간 -0.0168 ± 2.12 = -0.011 ± 0.0046 [-0.0122, -0.0214] 가설검정 : 연도가증가하면기록은단축되며연평균 0.0168 초단축 37
절편 ( ) 에대한추론 회귀분석에서 의절편 ( 가 0일때 의평균값 ) 이며최소제곱법의추정하는과정에서잔차의합을 0으로만들어주는역할을하기때문에 의포함여부 ( ) 에대한추론은일반적으로하지않음 들의선형결합 정규분포를따름 38
의구간추정 ± 39
올림픽육상 100m 우승기록 (1900~2004 년 ) 성별 남자 여자 31.816 44.304 24 18 MSE 0.018 0.0443 1954.333 1968.667 24573.33 9352 2.074 2.12 표준오차 (SE) 1.673 4.285 남자 : 31.816±2.074 1.673 = [28.346, 35.286] 여자 : 44.304±2.12 4.285 = [35.22, 53.388] 40
에대한추론 들의선형결합 - 가 와멀어질수록분산은커지고 가 일때분산이 가장작음 41
의 % 신뢰구간 ± 42
올림픽육상 100m 우승기록 (1900~2004년) 2000년 ( 남자 : 9.87, 여자 : 10.75) - 남자 31.816-0.011 2000 = 9.816 - 여자 44.304-0.0168 2000 = 10.704 신뢰구간 - 남자 SE = 0.0477, 여자 SE = 0.0843 - 남자 95% 신뢰구간 9.816±2.074 0.0477 = [9.717, 9.915] - 여자 95% 신뢰구간 10.704±2.12 0.0843 = [10.525, 10.883] 43
새로운 에서의 에대한예측값 예측오차 : - 와 는독립 - 44
의 % 예측구간 ± 45
올림픽육상 100m 우승기록 (1900~2004년) 2016년 - 남자 31.816-0.011 2016 = 9.64 - 여자 44.304-0.0168 2016 = 10.435 예측구간 - 남자 SE = 0.1468, 여자 SE = 0.2395 - 남자예측구간 : 9.64±2.074 0.1468 = [9.336, 9.944] - 여자예측구간 : 10.435±2.12 0.2395 = [10.129, 11.145] 46
결정계수 (coefficient of determination) 모형이자료를어느정도적합한가를나타내는측도 변동분해 SST SSR SSE - SST: y의총변동 - SSR: 모형으로설명되는변동 - SSE: 모형으로설명되지않는변동 SSR SSE SST SST 상관계수의제곱 47
- - 1에가까우면경우 : SST에서 SSR이차지하는부분이크기때문에회귀모형이관측결과를잘설명한다고할수있음 - 0에가까운경우 : 모형선택이잘못됐거나자료가많이퍼져있는경우 이경우 이작다고해서모형이잘못되었다고할수없음 남자 : 여자 : 48
Andrew Tatem의주장 - 남자기록 > 여자기록이되는연도는? 31.816-0.011연도 > 44.304-0.0168연도 2153.224년이후 2156년올림픽 통계학관점에서다른접근방법 남녀기록의기울기에차이가있는가? 있다면얼마나있는가? 남녀자료를하나의데이터세트로병합하여분석 가변수 (dummy variable): - : 번째자료가여자이면 1 아니면 0 49
분석모형 - 남자이면 - 여자이면 기록의기울기가다른가? 인지아닌지를가설검정 50