통계학 개론 - PDF Free Download

패널자료의 기초통계분석 2014. 6. 14.

복습 상관된관측치의분석 다수준분석 일반화추정방정식 반복측정분산분석 (RM ANOVA) 조건부로지스틱회귀분석 패널분석 2

복습 패널자료의장점 횡단면자료는변수들간정적 (static) 관계만을추정할수있는데비해, 패널자료는동적 (dynamic) 관계를추정할수있다. 개체들의관찰되지않은이질성 (unobserved heter ogeneity) 요인을모형에서고려할수있다. 횡단면자료, 시계열자료에비해더많은정보와변동성 (variability) 을제공하며, 선형회귀모형에서다중공선성 (multi-collinearity) 문제를완화시킬수있다. 3

복습 패널자료의단점 데이터수집이어려우며, 결측치가발생할가능성이크다. 국가, 지역이패널그룹일경우패널그룹간상관관계가있을수있다. 개인이패널그룹일경우시간변수의길이가짧다. 4

복습 패널데이터의정렬 패널분석을하기전 tsset, xtset 을사용하여데이터를정렬한다. tsset 패널변수명 ( 개체 ) 시간변수명 ( 시간 ) xtset 패널변수명시간변수명 xtset 다음에오는패널변수는반드시숫자변수이어야한다. 문자변수 숫자변수 : encode 숫자변수 문자변수 : decode 5

복습 패널데이터의유형 균형패널 vs. 불균형패널 균형패널 : 각개체의데이터포괄기간이서로동일한경우 불균형패널 : 각개체의데이터포괄기간이서로동일하지않은경우 시간갭 (time gap) 이있는패널 vs. 시간갭이없는패널 6

패널데이터관리 : reshape use P_data3_5, clear (NLS Women 14-24 in 1968) db reshape reshape long pop, i(state) j(year) * Stata 에서패널데이터분석을위해서는데이터구조가반드시 long type 이어야한다. 7

복습 기초통계분석 8

기초통계분석 : xtsum use P_data4_1, clear tsset id t 전체관측치 40 개의평균임금 xtsum lwage un fem /* 패널데이터에대한기초통계량계산 */ Variable Mean Std. Dev. Min Max Observations lwage 전체 overall 6.408696.3435133 5.56068 7.00307 N = 40 패널그룹간 between.309375 5.818473 6.930582 n = 10 패널그룹내 within.1721947 5.751323 6.723056 T = 4 union overall.4.4961389 0 1 N = 40 between.4743416 0 1 n = 10 within.1961161 -.35 1.15 T = 4 fem overall.1.3038218 0 1 N = 40 between.3162278 0 1 n = 10 within 0.1.1 T = 4 시간불변변수 (time-invariant variable) 의 within 변환표준편차는 0 이된다. 9

기초통계분석 : xtsum /* overall */ su lwage un fem /* between, 각개체별로시계열평균값을구한뒤그값을사용하여그룹간특성측정 */ by id, sort: egen float lwage_m=mean(lwage) egen byte tag1=tag(id) su lwage_m if tag1==1 Variable Obs Mean Std. Dev. Min Max lwage_m 10 6.408696.3093751 5.818472 6.930583 /* within */ su lwage Variable Obs Mean Std. Dev. Min Max lwage 40 6.408696.3435133 5.56068 7.00307 gen lwage_with=(lwage-lwage_m+r(mean)) su lwage_with Variable Obs Mean Std. Dev. Min Max lwage_with 40 6.408696.1721947 5.751323 6.723056 10

기초통계분석 : xttab use P_data4_3 tsset id t 11

기초통계분석 : xttab use P_data4_3 xttab union /* 패널데이터에서빈도표산출 */ tab 실행결과와일치 Overall Between Within union Freq. Percent Freq. Percent Percent 0 7 58.33 2 66.67 87.50 1 5 41.67 2 66.67 62.50 Total 12 100.00 4 133.33 75.00 3 명패널개체의각 4 개시계열관측치중 0 이한번이라도있는경우와 1 이한번이라도있는빈도수 노조에계속가입해있었거나잠깐이라도가입한적이있는사람을대상으로한평균적인노조가입기간 노조에가입해있었던사람들은평균적으로전체조사기간중 62.5% 의기간에노조에가입해있었음. 12

기초통계분석 : xttrans use P_data4_2, clear tsset idcode year 13

기초통계분석 : xttrans use P_data4_2, clear xttrans msp, freq /* 조건부전이확률 (conditional transiton probability) 계산 */ 1 if 다음기의배유자 married, 1 if married, spouse 여부 spouse present present 0 1 Total 0 7,697 1,866 9,563 80.49 19.51 100.00 1 1,133 13,100 14,233 7.96 92.04 100.00 Total 8,830 14,966 23,796 현재시점의배우자 37.11 62.89 100.00 여부 현재배우자가있는사람이다음기에배우자가없을확률 = 1133/14233 14

패널그래프작성 15

패널그래프작성 : tsline use P_data5_1, clear tsset firm year db tsline /* 패널개체의시계열변화그래프작성 */ 16

패널그래프작성 : tsline use P_data5_1, clear tsset firm year db tsline /* 패널개체의시계열변화그래프작성 */ 17

패널그래프작성 : tsline use P_data5_1, clear tsset firm year db tsline /* 패널개체의시계열변화그래프작성 */ 18

패널그래프작성 : tsline use P_data5_1, clear tsset firm year 각회사별로그래프그리기 db tsline 19

패널그래프작성 : tsline use P_data5_1, clear tsset firm year 패널개체별로 Y 축스케일을다르게지정 db tsline 20

패널그래프작성 : xtline use P_data5_1, clear tsset firm year db xtline /* 패널개체의시계열변화그래프작성 */ xtline f c, byopts(yrescale) recast(line) lpattern(solid longdash) 21

패널그래프작성 : xtline use P_data5_1, clear tsset firm year xtline f, overlay scheme(s2mono) 22

패널그래프작성 : xtgraph use P_data5_1, clear tsset firm year findit xtgraph xtgraph invest, list /* 패널평균값과그신뢰구간을그릴수있음 */ 23

패널그래프작성 : xtgraph ci invest if year==1935 /* 연속형변수의모평균의신뢰구간 */ Variable Obs Mean Std. Err. [95% Conf. Interval] invest 5 122.764 60.19088-44.35269 289.8807 tsset year firm /* 각회사별 20 년동안의평균 invest 수준 */ xtgraph invest 24

복습 패널자료분석 : Between Effects 모형 패널데이타의시계열특성을고려하지않고개체간변동만을고려하는모형이다. 각개체의시계열관측치그룹의평균값을이용하여계수를추정한다. y it = α + βx it + u i + e it i: 개인 t: 시간 u i : 시간에따라변하지않는패널개체특성을나타내는오차항 e it : 시간과패널개체에따라변하는순수오차항 = α + β + u i + 25

복습 패널자료분석 : 고정효과 (fixed effect) 모형 오차항 u i 를확률변수 (random variable) 가아닌추정해야할모수 (parameter) 로간주한다. 기울기모수는모든패널개체에대해동일하지만, 상수항 (α + u i ) 는개체별로달라진다. y it = α + β x it + u i + e it (1) = (α + u i ) + β x it + e it i: 개인 t: 시간 u i : 시간에따라변하지않는패널개체특성을나타내는오차항 e it : 시간과패널개체에따라변하는순수오차항 26

복습 패널자료분석 : 고정효과 (fixed effect) 모형 y it = α + β x it + u i + e it (1) = (α + u i ) + β x it + e it = α + β + u i + (2) (1)-(2): within 변환을적용한추정모형 (y it - ) = (x it - ) +( e it - ) 고정효과모형추정방법 1 패널개체별더미변수이용 y it = α i + βx it + e it 고정효과모형추정방법 2 27

복습 패널자료분석 : 확률효과 (random effect) 모형 u i 를확률변수로가정한다. u i ~ N(0, ) Between effect 모형과고정효과 (fixed effect) 모형의 weighted average 로파라미터를추정한다. 패널간정보와패널내정보를모두활용하며, 시간에따라변하지않는변수의효과를추정할수있다는장점이있다. 설명변수의외생성이성립하지않는다면파라미터추정이정확하게되지못하는단점이있다. 28

패널 GLS(generalized least squares)

패널데이타를합동 (pooled) OLS 로 추정할경우의가정 모든패널개체에대해모든시점에서오차항의기대값이 0 이되어야한다. 모든패널개체에대해모든시점에서오차항의분산이 σ 2 이어야한다. ( 동분산성 homoskedasticity) 패널개체와시간에따라오차항의분산이변하지않아야한다. 패널개체의오차항이서로상관관계가없어야한다. 동시적상관 (contemporaneous correlation) 이없어야한다. 한개체의서로다른시점의오차항사이에상관관계가없어야한다. 자기상관 (autocorrelation, serial correlation) 이없어야한다. 오차항과설명변수사이에상관관계가존재하지않는다. 설명변수의외생성 (exogeneity) 을만족한다. 이러한가정이위배되는경우 OLS 추정량에문제가있을수있으나, 패널데이터는오차항에이분산성이나자기상관이존재할가능성이있다. 30

패널자료분석 : OLS use P_data6_1, clear tsset state year /* fatal: 교통사고사망률, perinck: 1 인당소득, spircons: 1 인당술소비량 */ 31

패널자료분석 : OLS reg fatal perinck spircons /* 7 년관측치를 pooling 하여 OLS 로추정 */ Source SS df MS Number of obs = 336 F( 2, 333) = 65.17 Model 30.6372951 2 15.3186476 Prob > F = 0.0000 Residual 78.2782148 333.235069714 R-squared = 0.2813 Adj R-squared = 0.2770 Total 108.91551 335.325120925 Root MSE =.48484 fatal Coef. Std. Err. t P>t [95% Conf. Interval] perinck -.1493585.0131816-11.33 0.000 -.1752881 -.1234289 spircons.1685464.0434461 3.88 0.000.0830829.2540098 _cons 3.817989.1654515 23.08 0.000 3.492527 4.143451 소득이높을수록교통사고사망률은낮아지고, 술소비량이많을수록교통사고사망률이높아진다. 32

패널자료분석 : OLS OLS 추정량이최우수선형불편추정량 (best linear unbiased estimator, BLUE) 이되기위해서는모든시점 t 에서의오차항 it 의공분산행렬이항등행렬이어야한다. 패널그룹간오차항의상관관계가존재하지않아야하고, 오차항의분산은 σ 2 로서로같아야한다. 33

공분산행렬 (Covariance Matrix ) 공분산 (Covariance) 두측도가어떻게조화롭게변하는지, 얼마나상호영향을주며변하는지를나타냄 두변량의공유된성격이나독립성을나타내는데유용 공분산행렬 : n 개의 dimension 에서의공분산을행렬로나타낸것 C n n = cov( x, x) cov( y, x) cov( z, x) cov( x, cov( y, cov( z, y) y) y) cov( x, z) cov( y, z) cov( z, z) 34

패널자료분석 : GLS /* 공분산행렬가정에위해되는경우효율적인추정량을구하기위해 GLS 사용 */ xtgls fatal perinck spircons /* GLS, generalized least squares */ Cross-sectional time-series FGLS regression Coefficients: generalized least squares Panels: homoskedastic Correlation: no autocorrelation 동분산성을가정한다. Estimated covariances = 1 Number of obs = 336 Estimated autocorrelations = 0 Number of groups = 48 Estimated coefficients = 3 Time periods = 7 Wald chi2(2) = 131.51 Log likelihood = -232.0139 Prob > chi2 = 0.0000 fatal Coef. Std. Err. z P>z [95% Conf. Interval] perinck -.1493585.0131226-11.38 0.000 -.1750783 -.1236387 spircons.1685464.0432517 3.90 0.000.0837746.2533182 _cons 3.817989.1647112 23.18 0.000 3.495161 4.140817 OLS 와동일추정계수, 표준오차가 OLS 보다약간작다. 35

패널자료분석 : GLS xtgls fatal perinck spircons, nmk /* nmk 옵션사용시 OLS 와동일결과 */ Cross-sectional time-series FGLS regression Coefficients: generalized least squares Panels: homoskedastic Correlation: no autocorrelation Estimated covariances = 1 Number of obs = 336 Estimated autocorrelations = 0 Number of groups = 48 Estimated coefficients = 3 Time periods = 7 Wald chi2(2) = 130.33 Log likelihood = -232.0139 Prob > chi2 = 0.0000 fatal Coef. Std. Err. z P>z [95% Conf. Interval] perinck -.1493585.0131816-11.33 0.000 -.1751939 -.1235231 spircons.1685464.0434461 3.88 0.000.0833936.2536992 _cons 3.817989.1654515 23.08 0.000 3.49371 4.142268 OLS 와동일한결과를보여준다. 36

패널자료분석 : GLS( 오차항에서패널개체간이분산성가정 ) xtgls fatal perinck spircons, panel(hetero) Cross-sectional time-series FGLS regression Coefficients: generalized least squares Panels: heteroskedastic Correlation: no autocorrelation 패널개체간이분산성을가정한다. Estimated covariances = 48 Number of obs = 336 Estimated autocorrelations = 0 Number of groups = 48 Estimated coefficients = 3 Time periods = 7 48 개패널개체의오차항의분산을추정하였다. Wald chi2(2) = 234.36 Prob > chi2 = 0.0000 fatal Coef. Std. Err. z P>z [95% Conf. Interval] perinck -.1206468.0086248-13.99 0.000 -.137551 -.1037425 spircons.0777905.0341464 2.28 0.023.0108648.1447161 _cons 3.544183.1024056 34.61 0.000 3.343472 3.744894 37

패널자료분석 : GLS( 오차항에서패 널개체간이분산성가정 ) xtgls fatal perinck spircons, panel(hetero) /* 모형추정후 e-class 에저장된내용을확인한다. */ ereturn list scalars: e(n) = 336 ( 전체표본수, 48 x 7) e(n_g) = 48 ( 패널개체수 ) e(n_t) = 7 ( 패널개체의시계열관측개체개수중가장큰값 ) e(g_min) = 7 e(g_avg) = 7 e(g_max) = 7 /* 행렬의구체적인값을확인한다 */ mat list e(sigma) 오차항의공분산행렬추정치 symmetric e(sigma)[48,48] c1 c2 c3 c4 c5 c6 c7 c8 c9 r1.09190281 r2 0.46693412 r3 0 0.05563616 r4 0 0 0.11937386 r5 0 0 0 0.01913816 38

패널개체간이분산성검정 /* 제약모형 (restricted model): 오차항의분산이패널그룹에따라다르지않고모두같다. */ xtgls fatal perinck spircons estimates store R_model Log likelihood = -232.0139 /* 비제약모형 (unrestricted model): 오차항의분산이패널그룹에따라다르다. */ xtgls fatal perinck spircons, panel(hetero) igls nolog estimates store UR_model Log likelihood = -125.482 /* LR(likelihood ratio; 우도비 ) test */ lrtest UR_model R_model, df(47) 48 개분산 ( 비제약모형 ) - 1 개분산 ( 제약모형 ) Likelihood-ratio test LR chi2(47)= 213.06 (Assumption: R_model nested in UR_model) Prob > chi2= 0.0000 오차항의등분산성을기각한다. 39

패널자료분석 : GLS ( 오차항에서자기상관가정 ) xtgls fatal perinck spircons, corr(ar1) ϵ it = ρ ϵ it-1 + u it Cross-sectional time-series FGLS regression 추정된자기상관계수 Coefficients: generalized least squares Panels: homoskedastic Correlation: common AR(1) coefficient for all panels (0.8166) Estimated covariances = 1 Number of obs = 336 Estimated autocorrelations = 1 Number of groups = 48 Estimated coefficients = 3 Time periods = 7 Wald chi2(2) = 16.09 Prob > chi2 = 0.0003 fatal Coef. Std. Err. z P>z [95% Conf. Interval] perinck -.068442.0170604-4.01 0.000 -.1018798 -.0350042 spircons.0598057.0622353 0.96 0.337 -.0621733.1817847 _cons 2.909977.2405364 12.10 0.000 2.438534 3.381419 40

패널자료분석 : GLS( 패널개체별로 서로다른 1 계자기상관계수가정 ) xtgls fatal perinck spircons, corr(psar1) ϵ it = ρ i ϵ it-1 + u it Cross-sectional time-series FGLS regression Coefficients: generalized least squares Panels: homoskedastic Correlation: panel-specific AR(1) Estimated covariances = 1 Number of obs = 336 Estimated autocorrelations = 48 Number of groups = 48 Estimated coefficients = 3 Time periods = 7 Wald chi2(2) = 19.72 Prob > chi2 = 0.0001 fatal Coef. Std. Err. z P>z [95% Conf. Interval] perinck -.0722611.0170753-4.23 0.000 -.1057281 -.0387942 spircons -.0094098.0535401-0.18 0.860 -.1143466.0955269 _cons 3.03828.233805 12.99 0.000 2.580031 3.496529 41

자기상관검정 : Wooldridge 검정 findit xtserial xtserial fatal perinck spircons Wooldridge test for autocorrelation in panel data H0: no first-order autocorrelation F( 1, 47) = 6.175 Prob > F = 0.0166. 5% 유의수준에서 1 계자기상관이존재한다. 42

패널자료분석 : GLS( 동시적상관가정 ) 동시적상관 (contemporaneous correlation) corr(ϵ it, ϵ jt ) 0, 모든 i j에대해 시점 t에서서로다른패널개체의오차항사이에상관관계가존재한다. 이분산성도가정된다. 43

패널자료분석 : GLS( 동시적상관가정 ) xtgls fatal perinck spircons, panel(corr) Cross-sectional time-series FGLS regression n(n+1)/2 = (48 *49)/2 Coefficients: generalized least squares Panels: heteroskedastic with cross-sectional correlation Correlation: no autocorrelation 이분산성과동시적상관을함께가정한다. Estimated covariances = 1176 Number of obs = 336 Estimated autocorrelations = 0 Number of groups = 48 Estimated coefficients = 3 Time periods = 7 Wald chi2(2) = 22.85 Prob > chi2 = 0.0000 fatal Coef. Std. Err. z P>z [95% Conf. Interval] perinck -.1340037.0282983-4.74 0.000 -.1894673 -.0785401 spircons.1456812.0765297 1.90 0.057 -.0043144.2956767 _cons 3.654852.322744 11.32 0.000 3.022285 4.287418 추정하는모수의개수 (1,176) 가관측개체수 ( 336) 보다많아추정결과의신뢰성에문제가있다. Note: you estimated at least as many quantities as you have observations. 44

패널자료분석 : GLS( 이분산성, 자기상관가정 ) xtgls fatal perinck spircons, corr(ar1) panel(hetero) Cross-sectional time-series FGLS regression Coefficients: generalized least squares Panels: heteroskedastic Correlation: common AR(1) coefficient for all panels (0.8166) Estimated covariances = 48 Number of obs = 336 Estimated autocorrelations = 1 Number of groups = 48 Estimated coefficients = 3 Time periods = 7 Wald chi2(2) = 27.48 추정해야할모수는 52개 Prob > chi2 = 0.0000 fatal Coef. Std. Err. z P>z [95% Conf. Interval] perinck -.0563742.0119293-4.73 0.000 -.0797552 -.0329933 spircons -.0416077.0480484-0.87 0.387 -.1357808.0525655 _cons 2.821765.1703268 16.57 0.000 2.48793 3.155599 45

과제제출 한글 /MS Word 문서사용 구성 연구목적 연구방법 연구결과 : STATA output 을붙이고하단에해석추가 결론 6/25( 수 ) 까지이메일로제출 46