<4D F736F F D20BCF6B8AEC5EBB0E8C7D020C1A B0AD202D20C8BEB4DCB8E9BAD0BCAE2E646F63>

Similar documents
<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt


생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

歯4차학술대회원고(장지연).PDF

슬라이드 1

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

Microsoft PowerPoint - LN05 [호환 모드]

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

확률 및 분포

비선형으로의 확장

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

슬라이드 1

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

G Power

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

슬라이드 1

statistics

Microsoft Word - SAS_Data Manipulate.docx

Microsoft PowerPoint - SBE univariate5.pptx

歯안주엽홍서연원고.PDF

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

확률과통계6

외국인투자유치성과평가기준개발

슬라이드 1

제 4 장회귀분석


한국정책학회학회보

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

Microsoft Word - 동태적 모형.doc

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Contents 확률분포 (probability distribution) 이항분포 (binomial distribution) 초기하분포 (hypergeometric distribution) 포아송분포 (poisson distribution) 2

MATLAB for C/C++ Programmers

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

Microsoft Word - EDA_Univariate.docx

Microsoft PowerPoint - MDA DA pptx



PowerPoint 프레젠테이션

확률과통계4

Microsoft Word - skku_TS2.docx

Lecture12_Bayesian_Decision_Thoery

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

<323320B9DABAB4C8A32E687770>

표본재추출(resampling) 방법

슬라이드 1

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

Chapter4.hwp

Microsoft Word - Ch3_Derivative2.docx

에듀데이터_자료집_완성본.hwp

10. ..

Microsoft Word - LectureNote.doc

수리통계학

1) 주거이동과관련된이론적배경및선행연구들에대한자세한사항은조성진 (2014), 문근식 이현석 (2016) 등참고. 특정주거지 ( 주택 ) 에서의거주기간이아닌이주여부 / 계획을종속변수로하여로짓 (Logit) 이나프로빗 (Probit) 모형등을이용하여분석한연구들도많이있다 (

eda_ch7.doc

슬라이드 1

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]


시스템경영과 구조방정식모형분석

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>


(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])


2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

II. 기존선행연구

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Probability Overview Naive Bayes Classifier Director of TEAMLAB Sungchul Choi

슬라이드 1


cat_data3.PDF

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

슬라이드 1

슬라이드 1

100, Jan. 21, 호, Jan. 21, , Jan. 21, 2005

R

(001~006)개념RPM3-2(부속)

제 3강 역함수의 미분과 로피탈의 정리

Microsoft PowerPoint - Info R(3) pptx


비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

Microsoft PowerPoint - IPYYUIHNPGFU

PowerPoint 프레젠테이션

Resampling Methods

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.


PowerPoint 프레젠테이션

<3131BFF92D3828C6D0B3CEBFACB1B82DC0CCBBF3C8A D38302E687770>

韓國開發硏究제 33 권제 3 호 ( 통권제 112 호 ) 재직자직업훈련관련공적재정의구조와성과 : 효과분석 이철인 ( 서울대학교사회과학대학경제학부교수 ) 유경준 ( 한국개발연구원선임연구위원 ) Training Incentives in the Korean Levy-Gran

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

Microsoft PowerPoint - SPSS14_모듈별 구성소개

<C3D6C1BEBFCFBCBA2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D31C8A3292E687770>

Microsoft Word - Ch2_Function_math.docx

Transcription:

제 4 강횡단면자료분석 (Cross-sectional data analysis) Part I. 이진반응모형 (Binary response model)) Part II. 제한종속변수모형 (limited dependent variable regression model) Part III. 기타이슈들 Part I. 이진반응모형 (Binary response model)) I. 종속변수가두가지로분류되는질적변수 이진반응모형 A. 종속변수가이러한질적변수일경우 i. E( yt xt xtk) 종속변수가양적변수일경우처럼주어진설명변수의 2,, : II. 값에서종속변수의기대값또는평균값으로해석되기보다는종속변수가 1 인값을갖는일이일어날확률로해석되어야함 확률모형 (probability model 이라고함 ) b. 예 ) 성인남성의노동시장참여 (Labor Force Participation), 선거에서투표자들이특정정당선택, 주식투자참여, SUV 보유 등개별경제주체들이부딪히는미시적선택의문제에광범위하게적용됨 B. 이진반응모형에대한세가지접근방법 i. 선형확률모형 (Linear Probability Model: LPM) 프로빗모형 (Probit Model) i 로짓모형 (Logit Model) 선형확률모형 A. 개별경제주체들의선택을다음과같은더미변수로나타낼수있음 i. i iv. 1 자가운전출근 y = 0 대중교통출근 1. y 는 ( 이산적 ) 확률변수이고다음과같은확률밀도함수를가짐 y 1 y ( ) (1 ), 0,1 f y = p p y =, p 는 y가 1의값을취할확 i. E(y)=p. 종속변수를그확률적부분과고정된부분으로나눔 1. y = E( y) +ε= p+ε 이확률은자가운전과대중교통출근의출근시간차이에의존한다고가정 1. x = ( 대중교통출근시간 자가운전출근시간 ) 2. 그관계는선형이라고가정 E( y) = p=β +β x 이렇게주어지는다음과같은선형회귀모형을 LPM 이라고함

y = E( y ) +ε =β +β x +ε 1. t t t t t B. LPM 의문제 i. 이분산성. V ( ε ) = V ( y ) = p ( 1 p ) t t i i III. dp = β ) : 더욱심각 dx 1. ˆp = b1+ b2x : ˆp 은 0과 1사이를벗어난값을가지기쉬움 x 의변화가일정한율로확률 p 에영향을미침 ( 2 프로빗모형 (The Probit Model) A. 프로빗모형 i. 선택확률 p 가 [0,1] 의구간에놓이도록하기위해서는설명변수와 p 사이에선형이아닌비선형의관계가요구됨 이러한관계에 F: R [0,1] 의함수를사용할수있으며, 누적확률분포함수가이러한성질을갖는함수임 i 이러한비선형관계를특히표준정규분포의누적확률분포함수를이용하여표현하는경우이를프로빗모형이라하며, 이때사용되는함수를특별히프로빗함수라고부르기도함 1. z 1 2.5u 프로빗함수 : F( z) = P[ Z z] = e du 2π 2. 프로빗모형 : p = PZ [ β 1+β 2x] = F( β 1+β 2x) B. 프로빗모형의추정 최우추정법 i. 예컨대, 세명에대해 y 1 = 1, y 2 = 1 and y 3 = 0 이관측되고이들의설명변수 값이 x 1 = 15, x 2 = 20 and x 3 = 5 관측됨 y 1 = 1, y 2 = 1 and y 3 = 0 를관측하게될확률은? 1. y 의확률함수는베르누이분포로부터주어지고이를프로빗모형과 결합하면 f y F x F x y yi 1 yi ( i) = [ ( β 1+β2 i)] [1 ( β 1+β 2 i)], i = 0,1 b. 세명이무작위로추출될경우 y 1, y 2 및 y 3 에대한결합확률분포함 f ( y, y, y ) f( y ) f( y ) f( y ) = 로주어짐 수는 3 3 i. y 1 = 1, y 2 = 1 및 y 3 = 0 이관찰될확률은 Py [ = 1, y = 1, y = 0] = f(1,1,0) = f(1) f(1) f(0) 3 { } = F[ β +β (15)] F[ β +β (20)] 1 F[ β +β (5)] : 우도함수 (likelihood function) i 최우추정법 : 주어진표본의값이관측될확률또는우도를극대화하는값 b 1 과 b 2 를 β 1 와 β 2 의추정치로구하는것

1. 최우추정량의소표본성질은대개의경우알려져있지않으나, 대표본에서일치추정량이고유효추정량이며정규분포를한다는것이알려짐 2. 대부분통계패키지들은프로빗모형에대한최우추정치를구하는명령어를포함하고있음 C. 프로빗모형의해석 i. x 한단위의변화가 y = 1 일확률에미치는영향은? D. 실례 i. dp df() t dt = = f ( β +β x) β, t = β+β x, f () : 표준정규분포의 dx dt dx 1. 2 확률밀도함수. dp/dx 의부호는 β 2 의부호에의해결정됨 b. β+βx 가 0 근처일때 f ( β 1+β2x) 의값도최대화되며따라서 x 의변화에따른확률의변화도가장커짐 c. 반면에 β+βx 의절대값이이매우큰경우, 예컨대 3 정도되는값일경우 f ( β 1+β2x) 는거의 0에가까워지면따라서 x의변화는확률에거의영향을미치지못함 어떤개인이 y=1 을선택할확률을예측 p = F( β +β x) pˆ = Fb ( 1+ bx 2 ) 1. 2. 어떤기준값, 예컨대 0.5 를사용하여이개인의선택을예측 1 pˆ > 0.5 yˆ = 0 pˆ 0.5 b1+ b2xi = 0.0644 + 0.0299xi z-values (.161) (2.916) 1. b 1 : 통근시간의차이가 0 인개인들은대중교통출근을하는것으로나타나고있으나그통계적유의성은없음 2. b 2 : 자가운전출근시간에비해대중교통출근시간이길수록개인들이통근시자가운전을선택할확률이커짐 3. 현재대중교통출근시간이자가운전출근시간에비해 20 분더길경우대중교통시간의증가의영향의크기? dpˆ = f( b1+ b2x) b2 = f( 0.0644 + 0.0299 20)(0.0299) dx = f (.5355)(0.0299) = 0.3456 0.0299 = 0.0104 b. 1 분의대중교통출근시간의증가는자가운전선택확률을약 1% 증가시킴 4. 대중교통출근시간이자가운전출근시간에비해 30 분긴어느개인이자가운전으로출근하게될확률?

pˆ = F( b + b x) = F( 0.0644 + 0.0299 30) =.798 b. 기준값 0.5 보다큼으로이개인은자가운전을선택할것으로예측됨 IV. 로짓모형 (The Logit Model) A. 프로빗모형의대안으로흔히사용됨 i. 유일한차이점은사용되는확률분포함수 로짓모형에서는로지스틱 (logistic) 분포의확률분포함수가사용됨 1. L 이로지스틱확률변수라하면그확률밀도함수는 l e f() l =, < l < l ( 1+ e ) 2. 2. 대응되는누적분포함수는정규분포와는달리닫힌형태로표현되며이점이분석을다소용이하게함 1 F() l = p[ L l] = 1 + e i 로짓모형에있어서, y=1 일확률 p 는 1 p = P L β+β x = F β+β x = 1 + e β+β l [ ] ( ) ( x) 이를이용하여프로빗모형에서와마찬가지방법으로최우추정량을구할수있으며, 그결과에대한해석역시정규분포확률밀도함수를로지스틱확률밀도함수로대체하면마찬가지임

Part II. 제한종속변수모형 (limited dependent variable regression model) I. 토빗모형 (The Tobit Model) A. 토빗모형 i. 종속변수의관측값은연속이나일부에대해서만이용가능한경우 (censored sample) cf. truncated sample 1. 주택구입에대한지출액? : 주택을구입하지않은소비자들에대해서는관측치가존재하지않는다 이경우종속변수에대한정보가있는소비자그룹 ( 주택을구입한그룹과 ) 그렇지않은그룹으로구분되며, 이두그룹들모두설명변수에대한정보 ( 가구구성원의수, 소득, 이자율등 ) 는이용가능 b. 이경우종속변수의관측치가이용가능하지않은그룹을 0 원지출했다고놓고추정을하던, 아니면무시하고관측치가이용가능한그룹에대해서만추정을하던통상적최소제곱추정은잘못된결과를낳게됨 2. 어떤가게의아이스크림수요? : 아이스크림이매진된날의수요는아이스크림박스의수용용량으로나타남 이경우역시아이스크림이매진될날의수요에대한관측치는이용가능하지않음 3. 기혼여성의임금수준을결정하는요인? : 노동시장에참여한여성만이용가능함 ( 즉받는임금수준이 reservation wage 보다높은경우만관측됨 ) 주택구입지출모형및추정 = β + β + ε if β1+ β2 + ε > 0 y 1. i i i x x i i 소득과주택구입지출자료가모두이용가능주택구입지출자료는이용가능하지않으나소득자료는이용가능 소득

= 0 otherwise 간단히 y max ( 0, β β x ε ) = + + 로쓸수있다. i i i II. 이때, 종속변수에대한관측이가능하지않은그룹 (n2) 은무시하고관측이가능한그룹의관측치 (n1) 만을가지고추정을하는경우 i. 편향 (biased) 될뿐아니라비일치추정이됨 ( 아이스크림수요?) 오직 n1 그룹만을가지고회귀선을긋는것은, n1 과 n2 그룹을모두고려하는경우와다르게됨 1. 토빗모형에대한추정은최우추정법에기반을두며종속변수의값을관찰할수없는관측치를다른관측치들과달리취급하여접근함 b. 원래의미의토빗모형 (Type I 토빗모형 ) 은 censoring 에영향을미치는요인과종속변수에영향을미치는요인이동일하고같은방향으로영향을미칠경우사용해야함 즉토빗모형은예컨대앞서주택지출의예에서설명변수로소득을포함시킨다는것은소득이주택구입에대한결정과주택에대한지출의크기에같은방향으로영향을미치는것을전제로하는것임 i. 여름휴가비와가구구성원의수의관계 1. 문제는여름휴가비는여름휴가를가기로결정한가구에대해서만관찰이가능하며가구구성원의수는일단휴가를가기로결정한경우여름휴가비의크기에양의영향을미치지만여름휴가를가기로결정하는데는부의영향을미침 담배광고와담배흡연량의관계 1. 담배광고가담배흡연경험에미치는영향은크나담배흡연량에는영향을미치지못함 i 아이스크림수요와날씨의관계표본선택 (sample selection) 의문제 Type II 토빗모형, 헥킷모형 A. 자료의무작위추출 i. 자료가무작위로추출 (random sampling) 되었을경우통상적최소제곱추정은유효함 표본의추출과정이무작위가아닌경우통상적추정방법은문제를낳음 : 자료선택편차 (sample selection bias) 1. 기혼여성의임금결정요인의연구

기혼여성의임금자료의수집과정 : 오직노동시장에참여하기로결정한기혼여성의시장임금자료를관측할뿐임 b. 이때관측되는일하는주부들만의자료에대해최소제곱추정을할경우, 이는잘못된결과를낳음 c. 이는우리가관측하는자료가무작위표본이아니고, 우리가고려하지않은체계적인과정 ( 즉기혼주부의노동시장참여결정 ) 에의해선택된자료이기때문임 B. 헥킷모형 (Heckit Model) 자료선택편차의교정 i. 두번의추정과정을포함함 1. 첫째단계에서는위예에서먼저기혼여성의노동시장참여선택결정을설명하는프로빗모형을먼저추정함 2. 둘째단계에서는첫번째단계의추정결과로부터자료선택편차에대한정보를취득하고이를교정한상태에서최소제곱추정을적용함 이는둘째단계의회귀식의설명변수에첫번째단계의추정에서얻어지는 Inverse Mills Ratio 를설명변수로포함시킴으로써이루어진다. i. y = 1[ + x + > 0] α α ν : 1 단계선택방정식 1i 1i i y2i = x2iγ + ui : 2 단계주방정식 i E ( y x, y = 1) = x γ+δλ( α ˆ +α ˆ x ) 2i 2i 1i 2i 1i ( α+α ˆ ˆ x) ( ˆ ˆ x) f λ( α ˆ ˆ 1+α 2x) = : Inverse Mills Ratio 1 F α +α b. 이때둘째단계에있어서포함되는설명변수는첫번째단계에있어서포함되는설명변수와다를수있음 3. 최우추정법의적용이힘들경우그대안으로사용 일치추정이나유효추정은아님

Part III. 기타이슈들 A. 순차선택모형 (Ordered Choice Models) i. 종종선택의대안들이순서가매겨져있는경우가있으며이경우이를고려해야함 1. 서베이의문항이소득수준을물었을때 매우나쁨 나쁨 보통 좋음 매우좋음 과같은식으로 (5 점척도, 7 점척도 ) 주어졌을때, 2. 교사가학생의봉사활동점수를매기는데에있어서 A, B, C, D, F 를선택해서줄때 3. S&P 에서채권의등급을매길때 4. 사실이들은어떤연속적인값을갖는변수들로부터결과한것으로볼수있음 ( 소득수준, 봉사활동의수준, 기업의신뢰성정도등등 ) 이러한경우, 선택의대안들에대해순위를 1 부터쭉매길수있으며, 이경우 1, 2,3,.. 은기수적의미가아닌서수적의미임 1. 서베이답을숫자로바꿀때 (coding) 1,2,3,4,5 로매기나여기서는 2 가 1 의두배라는의미가아님 따라서여기에그냥 OLS 를적용하는것은부적절함 i 종속변수가이러한형태의서수적의미의숫자로주어질때 ordered probit 이나 ordered logit 모형을사용하게되며이는최우추정법을통해추정함 y = β + β x + ε : i i i i y 관측가능하지않은기업의신뢰도 y δ δ δ i. i 1, δ < δ, yi δ3 < y i, 2 y i 3 > D,C,B,A 관찰된기업의채권등급이 B 라하면, 이확률은다음과같이주어짐 ( δ2 i = β1+ β2 i + εi δ3) prob y x ( δ β β ε δ β β ) = prob x x 2 i i 3 i i 이때, ε의확률분포를안다면우도함수를구축할수있으며, 최우추정법을적용할수있다. 1. 정규분포를가정할경우 ordered probit, 로지스틱분포를가정할경우 ordered logit 모형이된다. iv. 사실이진선택모형도이러한식으로접근하는것이가능함 1. McFadden 의합리적선택이론에기반을둔프로빗모형 A. 어떤가구 i 의주택구입은관측가능하지않은효용

지수 (utility index) Ii 에의존하며, 이는관측가능한설명변수예컨대소득에의해결정됨 I = β + β x. B. i i C. 주택에대한구입 (Y=1) 결정은이러한효용지수가 어떤수준 ( 문턱수준 -threshold level) I i 을넘어서게 되면이루어지게된다고가정. D. 이러한문턱수준역시관찰가능하지않으나그것이표준정규분포를한다는가정을할수있음 ( 정규분포를가정하면효용지수의 rescaling 을통해항상정규화가가능함 ) E. 이경우가구 i 가주택을구입할확률은표준정규분포의 CDF F() 에의해다음과같이주어진다. i. ( 1 ) ( ) p = P y = x = P I I i i i ( β β ) ( β β ) = P Z + x = F + x i i i 이는다름아닌 probit 모형이며최우추정법에의 해추정 ( 효용지표 : I ˆ ˆ ˆi = β1+ β2x i ) B. 다중선택모형 (Multinomial Choice Models) i. 순서 ( 혹은순위 ) 가매겨지지않은대안들에대한선택 1. 출근방법? 버스, 지하철, 택시, 자전거.. 2. 초고속인터넷? KT, 하나로, 기타, 3. 냉장고구입? 삼성, LG, 대우, 4. 정경계열학생들의전공선택? 경제, 정치외교, 행정등등 이진선택모형의 자연스러운 확장인 multinomial logit model 이나 multivariate probit model 이사용될수있음 1. multinomial logit model logit 모형에서 1 p = P L β+β x = F β+β x = 1 + e β+β i. [ ] ( ) ( x) ( β β x) 1+ 2 p 1 1+ e = = e ( β1+ β2x) ( β1+ β2x) 1 p 1+ e e ( β1+ β2x), b. 세개의대안 A( 자가운전 ), B( 버스 ), C( 지하철 ) 가있을경우 (C 를기준이되는대안으로선택시 )

i. i PA ( ) PC ( ) ( βa1+ βa2 x ) = e, PB ( ) PC ( ) ( βb1+ βb2 x ) = e ( Independence of Irrelevant Alternatives(IIA) ) ( βa1+ βa2x) e PA ( ) =, ( βa1+ βa2x) ( βb1+ βb2x) 1 + e + e ( βb1+ βb2x) e PB ( ) =, ( βa1+ βa2x) ( βb1+ βb2x) 1 + e + e 1 PC ( ) = + ( β 1+ β 2x) ( β 1+ β 2x) e + e 1 A A B B 따라서우도함수는다음과같이구축된다 L PA ( ) PB ( ) PC ( ) = i j k c. 이러한 multinomial logit 모형은선택대안들이서로뚜렷한차이를지니는경우에적용될수있다 i. IIA 가부적절한제약인상황에서는다른대안 multivariate probit model 이나 nested logit model 을고려해야함 (Beyond the scope of this course!) C. 가산자료모형과포아송회귀 (Count Data Models and Poisson Regression) i. 가산자료모형은어떤일이일어나는횟수에초점을맞추는모형임 1. 종속변수는 0,1,2,3, 과같은형태의비음정수의형태를띄며이는실 제횟수를나타낸다는점에서앞서의 ordered choice 모형에서의순 위와는다름 일년에한개인이개인병원을방문하는횟수 b. 특정한교차로에서한달에일어나는교통사고의수 c. 어떤기업이일년에출원하는특허의수 2. 여기서는앞서와마찬가지로 확률 을설명하고예측하는데관심을 가짐 가산자료와관련하여기초가되는확률분포는포아송분포임 Y 가포아송확률변수일경우, 그확률함수는다음과같이주어짐 y e Pr ( ) λ λ Y = y =, y = 0,1,2, y! 1. 이확률함수는하나의모수 λ에의존하며, 이는확률변수 Y 의평균이 자분산임. 즉 E( Y ) = λ. ( 어떤일이일어나는평균횟수 )

2. 회귀모형에서 E ( Y ) 를일련의설명변수들의함수로서설명하고자함. ( ) E Y =λ=β + β x? 3. E( Y) 0 이어야하므로다음과같이회귀식을정의 xi ( ) =λ = e β+β E Y i i i 최우추정법이나비선형최소제곱추정법을적용할수있음. 최우추정법 1. y 1 = 1, y 2 = 2 및 y 3 = 4 로관측되고 x 1 = 15, x 2 = 20 and x 3 = 35 로관측되었을경우 ( 특허횟수가종속변수, 연구개발투자액 ( 억원 ) 이설명변수 ) 2. 세명이무작위로추출될경우 y 1, y 2 및 y 3 에대한결합확률분포함수는 f ( y, y, y ) f( y ) f( y ) f( y ) = 로주어짐 3 3 y 1 = 1, y 2 = 2 및 y 3 = 4 이관찰될확률은 Py [ = 1, y = 2, y = 4] = f(1,2,4) = f(1) f(2) f(4) 3 ( ) ( ) ( ) ( ) ( ) ( ) e e e e e e = 1! 2! 4! exp β 1+β215 β 1+β215 exp β 1+β215 2 β 1+β220 exp β 1+β215 4 β 1+β235 b. 이렇게주어지는우도함수를극대화시키는 βˆ ˆ 1, β2 를찾으면됨. ˆ ˆ ˆ x c. λ= e β +β 을계산할수있으며이를통해예컨대, 어떤기업 이연구개발투자를 20 억원을할경우일년에 2 개이상의특허를획득할확률을계산할수있음 λˆ λ Pr Y 2 = 1 e e ˆˆ λ ( ) iv. 포아송회귀의문제점 1. 포아송분포는평균과분산이같다는성질을가지나자료의분포가이러한성질을가정하기가어려운경우가있을수있음 2. 이경우활용되는방법이 Negative Binomial Model 임 (beyond the scope of this course)