제 4 강횡단면자료분석 (Cross-sectional data analysis) Part I. 이진반응모형 (Binary response model)) Part II. 제한종속변수모형 (limited dependent variable regression model) Part III. 기타이슈들 Part I. 이진반응모형 (Binary response model)) I. 종속변수가두가지로분류되는질적변수 이진반응모형 A. 종속변수가이러한질적변수일경우 i. E( yt xt xtk) 종속변수가양적변수일경우처럼주어진설명변수의 2,, : II. 값에서종속변수의기대값또는평균값으로해석되기보다는종속변수가 1 인값을갖는일이일어날확률로해석되어야함 확률모형 (probability model 이라고함 ) b. 예 ) 성인남성의노동시장참여 (Labor Force Participation), 선거에서투표자들이특정정당선택, 주식투자참여, SUV 보유 등개별경제주체들이부딪히는미시적선택의문제에광범위하게적용됨 B. 이진반응모형에대한세가지접근방법 i. 선형확률모형 (Linear Probability Model: LPM) 프로빗모형 (Probit Model) i 로짓모형 (Logit Model) 선형확률모형 A. 개별경제주체들의선택을다음과같은더미변수로나타낼수있음 i. i iv. 1 자가운전출근 y = 0 대중교통출근 1. y 는 ( 이산적 ) 확률변수이고다음과같은확률밀도함수를가짐 y 1 y ( ) (1 ), 0,1 f y = p p y =, p 는 y가 1의값을취할확 i. E(y)=p. 종속변수를그확률적부분과고정된부분으로나눔 1. y = E( y) +ε= p+ε 이확률은자가운전과대중교통출근의출근시간차이에의존한다고가정 1. x = ( 대중교통출근시간 자가운전출근시간 ) 2. 그관계는선형이라고가정 E( y) = p=β +β x 이렇게주어지는다음과같은선형회귀모형을 LPM 이라고함
y = E( y ) +ε =β +β x +ε 1. t t t t t B. LPM 의문제 i. 이분산성. V ( ε ) = V ( y ) = p ( 1 p ) t t i i III. dp = β ) : 더욱심각 dx 1. ˆp = b1+ b2x : ˆp 은 0과 1사이를벗어난값을가지기쉬움 x 의변화가일정한율로확률 p 에영향을미침 ( 2 프로빗모형 (The Probit Model) A. 프로빗모형 i. 선택확률 p 가 [0,1] 의구간에놓이도록하기위해서는설명변수와 p 사이에선형이아닌비선형의관계가요구됨 이러한관계에 F: R [0,1] 의함수를사용할수있으며, 누적확률분포함수가이러한성질을갖는함수임 i 이러한비선형관계를특히표준정규분포의누적확률분포함수를이용하여표현하는경우이를프로빗모형이라하며, 이때사용되는함수를특별히프로빗함수라고부르기도함 1. z 1 2.5u 프로빗함수 : F( z) = P[ Z z] = e du 2π 2. 프로빗모형 : p = PZ [ β 1+β 2x] = F( β 1+β 2x) B. 프로빗모형의추정 최우추정법 i. 예컨대, 세명에대해 y 1 = 1, y 2 = 1 and y 3 = 0 이관측되고이들의설명변수 값이 x 1 = 15, x 2 = 20 and x 3 = 5 관측됨 y 1 = 1, y 2 = 1 and y 3 = 0 를관측하게될확률은? 1. y 의확률함수는베르누이분포로부터주어지고이를프로빗모형과 결합하면 f y F x F x y yi 1 yi ( i) = [ ( β 1+β2 i)] [1 ( β 1+β 2 i)], i = 0,1 b. 세명이무작위로추출될경우 y 1, y 2 및 y 3 에대한결합확률분포함 f ( y, y, y ) f( y ) f( y ) f( y ) = 로주어짐 수는 3 3 i. y 1 = 1, y 2 = 1 및 y 3 = 0 이관찰될확률은 Py [ = 1, y = 1, y = 0] = f(1,1,0) = f(1) f(1) f(0) 3 { } = F[ β +β (15)] F[ β +β (20)] 1 F[ β +β (5)] : 우도함수 (likelihood function) i 최우추정법 : 주어진표본의값이관측될확률또는우도를극대화하는값 b 1 과 b 2 를 β 1 와 β 2 의추정치로구하는것
1. 최우추정량의소표본성질은대개의경우알려져있지않으나, 대표본에서일치추정량이고유효추정량이며정규분포를한다는것이알려짐 2. 대부분통계패키지들은프로빗모형에대한최우추정치를구하는명령어를포함하고있음 C. 프로빗모형의해석 i. x 한단위의변화가 y = 1 일확률에미치는영향은? D. 실례 i. dp df() t dt = = f ( β +β x) β, t = β+β x, f () : 표준정규분포의 dx dt dx 1. 2 확률밀도함수. dp/dx 의부호는 β 2 의부호에의해결정됨 b. β+βx 가 0 근처일때 f ( β 1+β2x) 의값도최대화되며따라서 x 의변화에따른확률의변화도가장커짐 c. 반면에 β+βx 의절대값이이매우큰경우, 예컨대 3 정도되는값일경우 f ( β 1+β2x) 는거의 0에가까워지면따라서 x의변화는확률에거의영향을미치지못함 어떤개인이 y=1 을선택할확률을예측 p = F( β +β x) pˆ = Fb ( 1+ bx 2 ) 1. 2. 어떤기준값, 예컨대 0.5 를사용하여이개인의선택을예측 1 pˆ > 0.5 yˆ = 0 pˆ 0.5 b1+ b2xi = 0.0644 + 0.0299xi z-values (.161) (2.916) 1. b 1 : 통근시간의차이가 0 인개인들은대중교통출근을하는것으로나타나고있으나그통계적유의성은없음 2. b 2 : 자가운전출근시간에비해대중교통출근시간이길수록개인들이통근시자가운전을선택할확률이커짐 3. 현재대중교통출근시간이자가운전출근시간에비해 20 분더길경우대중교통시간의증가의영향의크기? dpˆ = f( b1+ b2x) b2 = f( 0.0644 + 0.0299 20)(0.0299) dx = f (.5355)(0.0299) = 0.3456 0.0299 = 0.0104 b. 1 분의대중교통출근시간의증가는자가운전선택확률을약 1% 증가시킴 4. 대중교통출근시간이자가운전출근시간에비해 30 분긴어느개인이자가운전으로출근하게될확률?
pˆ = F( b + b x) = F( 0.0644 + 0.0299 30) =.798 b. 기준값 0.5 보다큼으로이개인은자가운전을선택할것으로예측됨 IV. 로짓모형 (The Logit Model) A. 프로빗모형의대안으로흔히사용됨 i. 유일한차이점은사용되는확률분포함수 로짓모형에서는로지스틱 (logistic) 분포의확률분포함수가사용됨 1. L 이로지스틱확률변수라하면그확률밀도함수는 l e f() l =, < l < l ( 1+ e ) 2. 2. 대응되는누적분포함수는정규분포와는달리닫힌형태로표현되며이점이분석을다소용이하게함 1 F() l = p[ L l] = 1 + e i 로짓모형에있어서, y=1 일확률 p 는 1 p = P L β+β x = F β+β x = 1 + e β+β l [ ] ( ) ( x) 이를이용하여프로빗모형에서와마찬가지방법으로최우추정량을구할수있으며, 그결과에대한해석역시정규분포확률밀도함수를로지스틱확률밀도함수로대체하면마찬가지임
Part II. 제한종속변수모형 (limited dependent variable regression model) I. 토빗모형 (The Tobit Model) A. 토빗모형 i. 종속변수의관측값은연속이나일부에대해서만이용가능한경우 (censored sample) cf. truncated sample 1. 주택구입에대한지출액? : 주택을구입하지않은소비자들에대해서는관측치가존재하지않는다 이경우종속변수에대한정보가있는소비자그룹 ( 주택을구입한그룹과 ) 그렇지않은그룹으로구분되며, 이두그룹들모두설명변수에대한정보 ( 가구구성원의수, 소득, 이자율등 ) 는이용가능 b. 이경우종속변수의관측치가이용가능하지않은그룹을 0 원지출했다고놓고추정을하던, 아니면무시하고관측치가이용가능한그룹에대해서만추정을하던통상적최소제곱추정은잘못된결과를낳게됨 2. 어떤가게의아이스크림수요? : 아이스크림이매진된날의수요는아이스크림박스의수용용량으로나타남 이경우역시아이스크림이매진될날의수요에대한관측치는이용가능하지않음 3. 기혼여성의임금수준을결정하는요인? : 노동시장에참여한여성만이용가능함 ( 즉받는임금수준이 reservation wage 보다높은경우만관측됨 ) 주택구입지출모형및추정 = β + β + ε if β1+ β2 + ε > 0 y 1. i i i x x i i 소득과주택구입지출자료가모두이용가능주택구입지출자료는이용가능하지않으나소득자료는이용가능 소득
= 0 otherwise 간단히 y max ( 0, β β x ε ) = + + 로쓸수있다. i i i II. 이때, 종속변수에대한관측이가능하지않은그룹 (n2) 은무시하고관측이가능한그룹의관측치 (n1) 만을가지고추정을하는경우 i. 편향 (biased) 될뿐아니라비일치추정이됨 ( 아이스크림수요?) 오직 n1 그룹만을가지고회귀선을긋는것은, n1 과 n2 그룹을모두고려하는경우와다르게됨 1. 토빗모형에대한추정은최우추정법에기반을두며종속변수의값을관찰할수없는관측치를다른관측치들과달리취급하여접근함 b. 원래의미의토빗모형 (Type I 토빗모형 ) 은 censoring 에영향을미치는요인과종속변수에영향을미치는요인이동일하고같은방향으로영향을미칠경우사용해야함 즉토빗모형은예컨대앞서주택지출의예에서설명변수로소득을포함시킨다는것은소득이주택구입에대한결정과주택에대한지출의크기에같은방향으로영향을미치는것을전제로하는것임 i. 여름휴가비와가구구성원의수의관계 1. 문제는여름휴가비는여름휴가를가기로결정한가구에대해서만관찰이가능하며가구구성원의수는일단휴가를가기로결정한경우여름휴가비의크기에양의영향을미치지만여름휴가를가기로결정하는데는부의영향을미침 담배광고와담배흡연량의관계 1. 담배광고가담배흡연경험에미치는영향은크나담배흡연량에는영향을미치지못함 i 아이스크림수요와날씨의관계표본선택 (sample selection) 의문제 Type II 토빗모형, 헥킷모형 A. 자료의무작위추출 i. 자료가무작위로추출 (random sampling) 되었을경우통상적최소제곱추정은유효함 표본의추출과정이무작위가아닌경우통상적추정방법은문제를낳음 : 자료선택편차 (sample selection bias) 1. 기혼여성의임금결정요인의연구
기혼여성의임금자료의수집과정 : 오직노동시장에참여하기로결정한기혼여성의시장임금자료를관측할뿐임 b. 이때관측되는일하는주부들만의자료에대해최소제곱추정을할경우, 이는잘못된결과를낳음 c. 이는우리가관측하는자료가무작위표본이아니고, 우리가고려하지않은체계적인과정 ( 즉기혼주부의노동시장참여결정 ) 에의해선택된자료이기때문임 B. 헥킷모형 (Heckit Model) 자료선택편차의교정 i. 두번의추정과정을포함함 1. 첫째단계에서는위예에서먼저기혼여성의노동시장참여선택결정을설명하는프로빗모형을먼저추정함 2. 둘째단계에서는첫번째단계의추정결과로부터자료선택편차에대한정보를취득하고이를교정한상태에서최소제곱추정을적용함 이는둘째단계의회귀식의설명변수에첫번째단계의추정에서얻어지는 Inverse Mills Ratio 를설명변수로포함시킴으로써이루어진다. i. y = 1[ + x + > 0] α α ν : 1 단계선택방정식 1i 1i i y2i = x2iγ + ui : 2 단계주방정식 i E ( y x, y = 1) = x γ+δλ( α ˆ +α ˆ x ) 2i 2i 1i 2i 1i ( α+α ˆ ˆ x) ( ˆ ˆ x) f λ( α ˆ ˆ 1+α 2x) = : Inverse Mills Ratio 1 F α +α b. 이때둘째단계에있어서포함되는설명변수는첫번째단계에있어서포함되는설명변수와다를수있음 3. 최우추정법의적용이힘들경우그대안으로사용 일치추정이나유효추정은아님
Part III. 기타이슈들 A. 순차선택모형 (Ordered Choice Models) i. 종종선택의대안들이순서가매겨져있는경우가있으며이경우이를고려해야함 1. 서베이의문항이소득수준을물었을때 매우나쁨 나쁨 보통 좋음 매우좋음 과같은식으로 (5 점척도, 7 점척도 ) 주어졌을때, 2. 교사가학생의봉사활동점수를매기는데에있어서 A, B, C, D, F 를선택해서줄때 3. S&P 에서채권의등급을매길때 4. 사실이들은어떤연속적인값을갖는변수들로부터결과한것으로볼수있음 ( 소득수준, 봉사활동의수준, 기업의신뢰성정도등등 ) 이러한경우, 선택의대안들에대해순위를 1 부터쭉매길수있으며, 이경우 1, 2,3,.. 은기수적의미가아닌서수적의미임 1. 서베이답을숫자로바꿀때 (coding) 1,2,3,4,5 로매기나여기서는 2 가 1 의두배라는의미가아님 따라서여기에그냥 OLS 를적용하는것은부적절함 i 종속변수가이러한형태의서수적의미의숫자로주어질때 ordered probit 이나 ordered logit 모형을사용하게되며이는최우추정법을통해추정함 y = β + β x + ε : i i i i y 관측가능하지않은기업의신뢰도 y δ δ δ i. i 1, δ < δ, yi δ3 < y i, 2 y i 3 > D,C,B,A 관찰된기업의채권등급이 B 라하면, 이확률은다음과같이주어짐 ( δ2 i = β1+ β2 i + εi δ3) prob y x ( δ β β ε δ β β ) = prob x x 2 i i 3 i i 이때, ε의확률분포를안다면우도함수를구축할수있으며, 최우추정법을적용할수있다. 1. 정규분포를가정할경우 ordered probit, 로지스틱분포를가정할경우 ordered logit 모형이된다. iv. 사실이진선택모형도이러한식으로접근하는것이가능함 1. McFadden 의합리적선택이론에기반을둔프로빗모형 A. 어떤가구 i 의주택구입은관측가능하지않은효용
지수 (utility index) Ii 에의존하며, 이는관측가능한설명변수예컨대소득에의해결정됨 I = β + β x. B. i i C. 주택에대한구입 (Y=1) 결정은이러한효용지수가 어떤수준 ( 문턱수준 -threshold level) I i 을넘어서게 되면이루어지게된다고가정. D. 이러한문턱수준역시관찰가능하지않으나그것이표준정규분포를한다는가정을할수있음 ( 정규분포를가정하면효용지수의 rescaling 을통해항상정규화가가능함 ) E. 이경우가구 i 가주택을구입할확률은표준정규분포의 CDF F() 에의해다음과같이주어진다. i. ( 1 ) ( ) p = P y = x = P I I i i i ( β β ) ( β β ) = P Z + x = F + x i i i 이는다름아닌 probit 모형이며최우추정법에의 해추정 ( 효용지표 : I ˆ ˆ ˆi = β1+ β2x i ) B. 다중선택모형 (Multinomial Choice Models) i. 순서 ( 혹은순위 ) 가매겨지지않은대안들에대한선택 1. 출근방법? 버스, 지하철, 택시, 자전거.. 2. 초고속인터넷? KT, 하나로, 기타, 3. 냉장고구입? 삼성, LG, 대우, 4. 정경계열학생들의전공선택? 경제, 정치외교, 행정등등 이진선택모형의 자연스러운 확장인 multinomial logit model 이나 multivariate probit model 이사용될수있음 1. multinomial logit model logit 모형에서 1 p = P L β+β x = F β+β x = 1 + e β+β i. [ ] ( ) ( x) ( β β x) 1+ 2 p 1 1+ e = = e ( β1+ β2x) ( β1+ β2x) 1 p 1+ e e ( β1+ β2x), b. 세개의대안 A( 자가운전 ), B( 버스 ), C( 지하철 ) 가있을경우 (C 를기준이되는대안으로선택시 )
i. i PA ( ) PC ( ) ( βa1+ βa2 x ) = e, PB ( ) PC ( ) ( βb1+ βb2 x ) = e ( Independence of Irrelevant Alternatives(IIA) ) ( βa1+ βa2x) e PA ( ) =, ( βa1+ βa2x) ( βb1+ βb2x) 1 + e + e ( βb1+ βb2x) e PB ( ) =, ( βa1+ βa2x) ( βb1+ βb2x) 1 + e + e 1 PC ( ) = + ( β 1+ β 2x) ( β 1+ β 2x) e + e 1 A A B B 따라서우도함수는다음과같이구축된다 L PA ( ) PB ( ) PC ( ) = i j k c. 이러한 multinomial logit 모형은선택대안들이서로뚜렷한차이를지니는경우에적용될수있다 i. IIA 가부적절한제약인상황에서는다른대안 multivariate probit model 이나 nested logit model 을고려해야함 (Beyond the scope of this course!) C. 가산자료모형과포아송회귀 (Count Data Models and Poisson Regression) i. 가산자료모형은어떤일이일어나는횟수에초점을맞추는모형임 1. 종속변수는 0,1,2,3, 과같은형태의비음정수의형태를띄며이는실 제횟수를나타낸다는점에서앞서의 ordered choice 모형에서의순 위와는다름 일년에한개인이개인병원을방문하는횟수 b. 특정한교차로에서한달에일어나는교통사고의수 c. 어떤기업이일년에출원하는특허의수 2. 여기서는앞서와마찬가지로 확률 을설명하고예측하는데관심을 가짐 가산자료와관련하여기초가되는확률분포는포아송분포임 Y 가포아송확률변수일경우, 그확률함수는다음과같이주어짐 y e Pr ( ) λ λ Y = y =, y = 0,1,2, y! 1. 이확률함수는하나의모수 λ에의존하며, 이는확률변수 Y 의평균이 자분산임. 즉 E( Y ) = λ. ( 어떤일이일어나는평균횟수 )
2. 회귀모형에서 E ( Y ) 를일련의설명변수들의함수로서설명하고자함. ( ) E Y =λ=β + β x? 3. E( Y) 0 이어야하므로다음과같이회귀식을정의 xi ( ) =λ = e β+β E Y i i i 최우추정법이나비선형최소제곱추정법을적용할수있음. 최우추정법 1. y 1 = 1, y 2 = 2 및 y 3 = 4 로관측되고 x 1 = 15, x 2 = 20 and x 3 = 35 로관측되었을경우 ( 특허횟수가종속변수, 연구개발투자액 ( 억원 ) 이설명변수 ) 2. 세명이무작위로추출될경우 y 1, y 2 및 y 3 에대한결합확률분포함수는 f ( y, y, y ) f( y ) f( y ) f( y ) = 로주어짐 3 3 y 1 = 1, y 2 = 2 및 y 3 = 4 이관찰될확률은 Py [ = 1, y = 2, y = 4] = f(1,2,4) = f(1) f(2) f(4) 3 ( ) ( ) ( ) ( ) ( ) ( ) e e e e e e = 1! 2! 4! exp β 1+β215 β 1+β215 exp β 1+β215 2 β 1+β220 exp β 1+β215 4 β 1+β235 b. 이렇게주어지는우도함수를극대화시키는 βˆ ˆ 1, β2 를찾으면됨. ˆ ˆ ˆ x c. λ= e β +β 을계산할수있으며이를통해예컨대, 어떤기업 이연구개발투자를 20 억원을할경우일년에 2 개이상의특허를획득할확률을계산할수있음 λˆ λ Pr Y 2 = 1 e e ˆˆ λ ( ) iv. 포아송회귀의문제점 1. 포아송분포는평균과분산이같다는성질을가지나자료의분포가이러한성질을가정하기가어려운경우가있을수있음 2. 이경우활용되는방법이 Negative Binomial Model 임 (beyond the scope of this course)