2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

Similar documents
<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

PowerPoint 프레젠테이션

슬라이드 1

G Power

제 4 장회귀분석

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

MATLAB for C/C++ Programmers

슬라이드 1

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1

자료의 이해 및 분석

<4D F736F F D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

PowerPoint 프레젠테이션

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

Microsoft Word - ch2_simple.doc

비선형으로의 확장

Microsoft PowerPoint - LM 2014s_Ch4.pptx

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

MATLAB for C/C++ Programmers

시스템경영과 구조방정식모형분석

PowerPoint Presentation

R t-..

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표


Microsoft Word - SPSS_MDA_Ch6.doc

Microsoft PowerPoint - IPYYUIHNPGFU

R

고객관계를 리드하는 서비스 리더십 전략

Chapter 8 단순선형회귀분석과 상관분석

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

Microsoft PowerPoint - Info R(3) pptx


Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

선형모형_LM.pdf

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

untitled

22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

- 1 -

exp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

eda_ch7.doc

슬라이드 1

01

슬라이드 1

Microsoft Word - skku_TS2.docx

Microsoft Word - LectureNote.doc

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

statistics

<C0E5B7C1BBF328BEEEB8B0C0CCB5E9C0C729202D20C3D6C1BE2E687770>


Resampling Methods

표본재추출(resampling) 방법

Microsoft Word - SAS_Data Manipulate.docx

가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차

공기업정책학석사학위논문 비성과적요인이개인성과평가 결과에미치는영향분석 사사례중심으로 년 월 서울대학교행정대학원 공기업정책학과 고동신

슬라이드 1

(001~006)개념RPM3-2(부속)

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

슬라이드 1

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

<4D F736F F F696E74202D FC0E5B4DCB1E220BCF6BFE4BFB9C3F8205BC8A3C8AF20B8F0B5E55D>

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Microsoft Word - 동태적 모형.doc

슬라이드 1

데이터마이닝 제 1강

Survey Analyst 2012 년하반기사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 다음중일반적으로가장높은응답률을확보할수있는조사방법은? 2. 다음중우편조사의특성과가장거리가먼것은? 3. 연구방법으로서의연역적접근법과귀납적접근법에관한설명으로틀린것은? 4. 참여

abstract.dvi

Statistics Basic_ko_chapter_04

untitled

<5B30385DC0D3BBF3C8ADC7D0B0CBBBE72DC0E5BBF3BFEC2E687770>


Survey Analyst 2013 년 1 회사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 질문지문항작성원칙에부합하는질문을모두짝지은것은? 2. 연역법과귀납법에관한설명으로옳은것은? 3. 설문조사에관한옳은설명을모두짝지은것은? 제공카페 : Daum 사회조사분석사 G

Microsoft Word - sbe13_reg.docx

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

4 _ 한국지역정보화학회기획세미나발표논문집

통계적 학습(statistical learning)

Microsoft Word - ch8_influence.doc


동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

14-X25-JSJ.hwp

Microsoft Word - ch3_residual.doc

시계열분석의개요 (the nature of time series analysis) 시계열자료 (time series data) 연도별 (annual), 분기별 (quarterly), 월별 (monthly), 일별 (daily) 또는시간별 (hourly) 등시간의경과 (

Microsoft Word - Chapter9.doc

<B0E6B7CEBAD0BCAE2E687770>

<B3EDB4DC28B1E8BCAEC7F6292E687770>

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS

슬라이드 1

Microsoft PowerPoint - ANOVA pptx

Microsoft Word - sbe_anova.docx

Microsoft Word - multiple

Transcription:

회귀분석 올림픽 100m 우승기록 2004년 9월과학저널 Nature에발표된 Oxford 대학교의임상병리학자인 Andrew Tatem과그의연구진의논문 1900~2004년까지의남성과여성의육상 100m 우승기록을분석하고앞으로최고기록이어떻게변할것인지를예측 2008년베이징올림픽에서남자의우승기록은 9.73±0.144(9.586, 9.874), 여자는 10.57±0.232(10.338, 10.802) 로예측 실제기록은남자 9.69, 여자 10.78 1

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사연구 : 1992년 Whipp와 Ward의 Nature 논문 - 3974년에여성의마라톤기록이남성의기록을능가할것이라고예측 2

1896 년아테네올림픽부터 2012 년런던올림픽까지 100 미터 육상경기우승기록 ( 참고 Rendell, 2003) 여자는 1928 년암스테르담올림픽부터육상 100 미터시작 연도우승기록연도우승기록연도우승기록연도우승기록남자여자남자여자남자여자남자여자 1896 12-1928 10.8 12.2 1964 10 11.4 1992 9.96 10.82 1900 11-1932 10.3 11.9 1968 9.95 11.08 1996 9.84 10.94 1904 11-1936 10.3 11.5 1972 10.14 11.07 2000 9.87 10.75 1908 10.8-1948 10.3 11.9 1976 10.06 11.08 2004 9.85 10.93 1912 10.8-1952 10.4 11.5 1980 10.25 11.06 2008 9.69 10.78 1920 10.8-1956 10.5 11.5 1984 9.99 10.97 2012 9.63 10.75 1924 10.6-1960 10.2 11.0 1988 9.92 10.54 2016?? 3

다변량자료 (multivariate data) 어떤대상에대해여러가지변수들을관측한자료들의집합 예 ) 신체검사 - 신장, 체중, 비만도, 시력, 혈액형,... 예 ) 경제지표 ( 연도별 ) - GNP, 실업률, 수출액, 수입액,... 4

자료의형태 관측값 변수 1 변수 2 변수 p - 관측값간에는관계가없음 독립적인관측값 5

주요관심사 : 변수들간의관계 1 변수들간에관계가있는가? 2 어떤관계가존재하는가? 3 관계의정도는? 4 관계식을유도할수있는가? 관계식을통해다른값에대한예측이가능 6

산점도 (scatter plot) 이변량자료인경우, 즉, 자료가쌍을이룬두변수의값으로표시된경우 자료를 축과 축으로이루어진이차원평면상에점으로표시하여시각적으로두변수의관계를파악할수있는그림 관심 1과 2에대한정보를얻을수있으나 3과 4에대한정보를얻기에는역부족 7

올림픽육상 100m 우승기록 8

상관분석 (correlation analysis) 표본공분산 (sample covariance) 이변량자료의 자료와 자료가공간상에서얼마나 퍼져있는가를나타내는측도 표본공분산 = 자료와 자료가선형관계가있는경우공분산의부호 (+,-) 는 선형관계의기울기부호와일치 9

표본상관계수 (sample correlation coefficient) 와 에대해표준화시킨표본공분산으로두변수의 직선관계정도를나타내는측도 Pearson 의표본상관계수 간이식 : 10

올림픽육상 100m 우승기록 (1900~2004년) 통계량 남자여자기록연도기록연도 24 18 평균 10.318 1954.333 11.23 1968.667 제곱합 2558.401 91690624 2273.387 69771024 교차제곱합 483681.1 397789 남자 = 483681.1-24 10.318 1954.333 = -270.433 여자 = 397789-18 11.23 1968.667 = -157.32 남자표본공분산 = -270.433/(24-1) = -11.758 여자표본공분산 = -157.32/(18-1) = -9.254 11

남자 : =91690624-24 1954.333 2 = 24573.33 남자 : =2558.401-24 10.318 2 =3.376 여자 : =69771024-18 1968.667 2 = 9352 여자 : =2273.387-18 11.23 2 =3.355 연도와우승기록간에는매우높은음의상관관계가존재 12

상관계수는두변수간에선형관계가있는지를알아보는데 사용하는것이지인과관계를나타내는것은아님 4 에대한정보를얻을수없음 13

회귀모형 (Regression Model) 두변수의인과관계를유도 input system output 입력변수 : 설명변수 (explanatory variable), 독립변수 (independent variable) 출력변수 : 반응변수 (response variable), 예 ) 광고비와판매량 예 ) 공부량과시험성적 종속변수 (dependent variable) 예 ) ( 비료량, 평균강수량, 평균일조량 ) 과옥수수수확량 14

관계식을유도하고유도된관계식을이용하여 에대응하는 를예측하거나원하는 값을얻기위해대응하는 를조절 15

단순선형회귀모형 (simple linear regression model) 한개의설명변수와반응변수의관계를직선관계로가정 - 설명변수는조절가능한값 ( 확률변수가아님 ) 으로가정 - 반응변수는정확하게예측할수없음 - ( 예 ) 동일한광고비를투자해도판매량은다름 - ( 예 ) 올림픽 100m 육상우승기록 - ( 예 ) 평균강수량, 평균일조량? 조건부 16

직선관계에의해설명되지않는부분에대한오차항을가법 (additive) 형태로포함한모형 모형으로설명되어지는부분 모형으로도설명안되는부분 - 미지의모수절편 와기울기 을추정 - 기울기 은 를한단위변화시킬때 의평균변화량 선형은모수 와 에대해선형 - 은선형회귀모형인가? - 는선형회귀모형인가? 17

추정방법 오차 (error) : 실제관측자료와가상의회귀직선의차 잔차 (residual) : 실제관측자료와추정된회귀직선의차 - : 의추정값 - 추정된회귀계수직선 : 추정된직선이좋은직선인가아닌가에대한기준설정이 필요 18

1 최소절대편차법 (Least absolute deviation method) 2 최소제곱법 (Least squares method) 장점 : 에대해미분가능하여최소로만드는 를쉽게찾을수있음 19

최소제곱법, 최소제곱추정값 :, - 최소제곱추정량 :, 20

올림픽육상 100m 우승기록 (1900~2004 년 ) 남자 :,,, - - - 추정회귀식 : 연도 여자 :,,, - - - 추정회귀식 : 연도 21

22

회귀모수의추론 오차항가정 들은서로독립 ( 독립성 ) 들의분산은 ( 등분산성 ) 들은정규분포를따름 ( 정규성 ) indep 23

잔차의검토 오차는우리가알수없는값이므로자료에서얻어진오차의 추정값인잔차를이용하여오차항의가정을검토 : - 원점을지나는회귀모형을가정하는경우 ( ), 잔차의합이 0 이라는보장이없음 절편에대한검정결과 를기각시키지 못할지라도모형식에서절편에대한항을일반적으로 제거하지않음 24

잔차그림 : (, ) 의산점도 1 2 3 1 특정한패턴이없으며등분산성만족 2 가커지면서 의표준편차가커지는경향이있음 등분산성가정을만족하지않음 3 가 와 2차곡선의관계를가짐 모형의관계식이잘못됨 25

등분산성 : 의폭이 에관계없이일정한지확인 - 등분산성을만족하지않는경우 : 반응변수의변환 - 두번째그림과같은경우 log 정규성 : 히스토그램, Q-Q plot, Jarque-Bera test( 왜도와첨도 ), Shapiro-Wilk 검정, Kolmogrov-Smirov 검정 26

독립성 : 패턴이있는지를확인 - 자료가시간별로되어있는경우, 시간에따른잔차의산점도를그려어떤패턴을가지는가를확인 - 시간또는 에따라잔차를정렬한후잔차 ( ) 에대한산점도작성 27

회귀모수의추론 회귀모형 이고서로독립이면 28

기울기에대한추론 는 들의선형결합으로표시될수있기때문에 정규분포를따름 29

결론 : - 또는 의추정량은? 30

Review iid 을추출한경우, 표본분산 : iid, iid, indep,,, 31

회귀모형에서는 분자 분모 ( 자유도 ) 는? = SSE 개의자료중 는자유롭게어떠한값도가질수 있으나나머지두개는위의두제약조건에의해결정 자유도는 32

일반적으로자유도 = 자료의개수 - 추정한모수의개수 간이식 : - - 의추정량 33

구간추정 - - 의 % 신뢰구간 34

가설검정 - 설명변수와반응변수간에선형관계가없는지또는없는지는모형식에서 이 0인지아닌가를검정하여확인할수있음 - 가설 vs ( 대부분양측검정실시 ) - 검정통계량 : 35

올림픽육상 100m 우승기록 (1900~2004 년 ) 남자 : = 24, = -270.433, = 24573.33, = 3.376 - 남자 : 의 95% 신뢰구간 -0.011 ± 2.074 = -0.011 ± 0.0018 [-0.0092, -0.0128] 가설검정 : 연도가증가하면기록은단축되며연평균 0.011 초단축 36

여자 : = 18, = -157.32, = 9352, = 3.355 -, 여자 : 의 95% 신뢰구간 -0.0168 ± 2.12 = -0.011 ± 0.0046 [-0.0122, -0.0214] 가설검정 : 연도가증가하면기록은단축되며연평균 0.0168 초단축 37

절편 ( ) 에대한추론 회귀분석에서 의절편 ( 가 0일때 의평균값 ) 이며최소제곱법의추정하는과정에서잔차의합을 0으로만들어주는역할을하기때문에 의포함여부 ( ) 에대한추론은일반적으로하지않음 들의선형결합 정규분포를따름 38

의구간추정 ± 39

올림픽육상 100m 우승기록 (1900~2004 년 ) 성별 남자 여자 31.816 44.304 24 18 MSE 0.018 0.0443 1954.333 1968.667 24573.33 9352 2.074 2.12 표준오차 (SE) 1.673 4.285 남자 : 31.816±2.074 1.673 = [28.346, 35.286] 여자 : 44.304±2.12 4.285 = [35.22, 53.388] 40

에대한추론 들의선형결합 - 가 와멀어질수록분산은커지고 가 일때분산이 가장작음 41

의 % 신뢰구간 ± 42

올림픽육상 100m 우승기록 (1900~2004년) 2000년 ( 남자 : 9.87, 여자 : 10.75) - 남자 31.816-0.011 2000 = 9.816 - 여자 44.304-0.0168 2000 = 10.704 신뢰구간 - 남자 SE = 0.0477, 여자 SE = 0.0843 - 남자 95% 신뢰구간 9.816±2.074 0.0477 = [9.717, 9.915] - 여자 95% 신뢰구간 10.704±2.12 0.0843 = [10.525, 10.883] 43

새로운 에서의 에대한예측값 예측오차 : - 와 는독립 - 44

의 % 예측구간 ± 45

올림픽육상 100m 우승기록 (1900~2004년) 2016년 - 남자 31.816-0.011 2016 = 9.64 - 여자 44.304-0.0168 2016 = 10.435 예측구간 - 남자 SE = 0.1468, 여자 SE = 0.2395 - 남자예측구간 : 9.64±2.074 0.1468 = [9.336, 9.944] - 여자예측구간 : 10.435±2.12 0.2395 = [10.129, 11.145] 46

결정계수 (coefficient of determination) 모형이자료를어느정도적합한가를나타내는측도 변동분해 SST SSR SSE - SST: y의총변동 - SSR: 모형으로설명되는변동 - SSE: 모형으로설명되지않는변동 SSR SSE SST SST 상관계수의제곱 47

- - 1에가까우면경우 : SST에서 SSR이차지하는부분이크기때문에회귀모형이관측결과를잘설명한다고할수있음 - 0에가까운경우 : 모형선택이잘못됐거나자료가많이퍼져있는경우 이경우 이작다고해서모형이잘못되었다고할수없음 남자 : 여자 : 48

Andrew Tatem의주장 - 남자기록 > 여자기록이되는연도는? 31.816-0.011연도 > 44.304-0.0168연도 2153.224년이후 2156년올림픽 통계학관점에서다른접근방법 남녀기록의기울기에차이가있는가? 있다면얼마나있는가? 남녀자료를하나의데이터세트로병합하여분석 가변수 (dummy variable): - : 번째자료가여자이면 1 아니면 0 49

분석모형 - 남자이면 - 여자이면 기록의기울기가다른가? 인지아닌지를가설검정 50