Ch. 1 Introducton 1.1. 범주형자료분석이란자연과학, 사회과학은물론의학관련분야에까지범주형자료분석은널리활용되고있다. 기업의부실여부판단, 새로운의학치료법에대한가치평가, 사람들의의견에영향을주는요인들에대한평가등범주형자료에대한분석의필요성은증가하고있다. 그러나범주형자료분석은다른일반적인분석과는달리모형이다소복잡하고결과해석이용이하지않아 1.1.1. 변수 (varable) 와자료 (data) 자료수집의대상이되는모집단의특성을변수 (varable) 라하고변수의측정치를관측치 (observaton) 라하며, 자료 (data) 는이런변수와관측치로이루어진숫자모임이다. 직장인의식습관중아침식사여부, 점심메뉴, 음주횟수, 비만도에관심이있다면이들각각을변수라한다. 변수라는의미는각측정치가각직장인마다변하기때문이다. 측정된각직장인들의변수측정치를관측치라한다. 각변수를열, 각학생들의측정치를행으로하여만들어진행렬을자료행렬 (data matrx) 이라하고이를자료라한다. 변수와자료가구별되기도하지만때로는변수를자료와혼용하여사용하기도하는데본강의에서도자료와변수를굳이구별하지는않겠다. 1.1.. 자료종류변수의형태에따라자료분석방법이결정되므로자료에적합한분석방법을찾으려면측정할변수의형태를구별할수있어야한다. 자료분석에서의변수분류방법은측정할수있거나셀수있는측정형 (measurable 혹은 numercal) 변수와개체나집단을분류하는데사용되는분류형 (categorcal) 변수로나누어진다. 측정형변수는양적 (quanttatve) 변수, 개체의특성에따라집단을분류하는분류형변수는질적 (qualtatve) 변수라고분류되기도한다. 측정형 (metrc) 양적 (quanttatve) 비측정형 (non-metrc) 분류형 (classfed) 범주형 (categorcal) 질적 (qualtatve) 측정가능하거나셀수있는것에대한자료 ( 변수 ) 로크기를가지고있다. ( 예 ) 키, 몸무게, 매출액, 나이, 교통량, 물가지수개체를분류하는데사용되는자료 ( 변수 ) 순서형 (ordnal): 순서가있는분류 ( 예 ) 학년, 소득수준 ( 상, 중, 하 ), 병의단계 명목형 (nomnal): 단지분류만 ( 예 ) 성별, 거주지, 취업유무, 병의종류 1
Ch. 1 Introducton 수리통계에서는변수를나누는경우이산형 (dscrete), 연속형 (contnuous) 으로나누는데이는위의자료분류와는다름에유의하기바란다. 측정형변수를 nterval, rato(steven, 1951) 로나누기도하지만본강의에서는구별하지않기로한다. nterval 은크기를가지고있고크기의차이에의해상대적비교가가능한경우 ( 예 : 온도, 지능지수 ) 이다. Rato 는 nterval 자료의성질에 0 을가지므로값들의비가의미를갖는경우로대부분의측정형변수 ( 예 : 키, 몸무게, 소득 ) 이다. 반응변수와설명변수통계모형 ( 인과관계 ) 에서는영향을주는변수와그변수들에의해영향을받는변수가존재한다. 영향을받는변수를종속변수 (dependent), 반응변수 (response) 라하고모형의왼쪽에위치하므로 Y 변수라고도한다. 영향을주는변수들독립변수 (ndependent), 설명변수 (explanatory) 라하며모형의오른쪽에위치하며 X변수라한다. 일반적통계모형 Y f ( X1, X,..., X p ) e 각분석방법에서모형은 범주형자료분석범주형자료분석이란반응변수가하나이고범주형인통계 1) 모형의유의성과 ) 설명변수의유의성을알아보는방법이다. ( 인과 ) 모형을분석하여 o 설명변수가하나이고범주형인경우교차분석 (cross-tabulaton) 혹은분할표분석 (contngency table) 이용하기 o 설명변수가 개이상이고모두측정형변수혹은측정형변수와분류형변수혼합 Logstc Regresson Model( 로지스틱회귀모형 ) 혹은 Logt Model ( 로짓모형 ): 반응변수가 분류 (bnary, dchotomous) 이거나수준이 3 개이상인경우는 ordnal( 순서형 ) 분류형변수일경우사용된다. 반응변수의수준이 3 개이상이고순서형인경우에만 Logt 모형이라고부르기도한다. o 설명변수가 개이상이고모두분류형변수인경우 Log-Lnear Model( 로그선형모형 )
Ch. 1 Introducton 변수가하나인일변량분석에서는범주형자료에대한분석방법은무엇인가? 숫자적요약으로는비율을구하는것이고그래프적요약으로는파이차트, 바차트등다양한그래프에각항목 ( 수준 ) 의비율을나타내면된다. 반응변수가측정형이고두개이상인경우이고독립변수가모두범주형인경우는다변량분산분석 (Multvarate ANOVA), 독립변수가측정형, 범주형이함께있는경우는연립방정식회귀모형방법을사용하면된다. 1.. 표본추출모형범주형자료분석은통계모형에의한분석방법이므로반응변수에대한확률적분포에대한가정이필요하다. 회귀분석이나분산분석에서종속변수 ( 반응변수 ) 에대한가정은정규분포다. Y b0 b1 x1 b x.. b p x p e 범주형자료분석에서는반응변수에대한확률모형으로이항분포 (bnomal dst.) 와포아송분포 (Posson dst.), 다항분포 (multnomal dst.) 가중심역할을한다. 1..1. Posson samplng 일정한시간에어떤사건 (event) 이발생하는횟수에대한분포로사용된다. 예를들면한남대학교앞도로일주일교통사건발생건수, 하루병원을찾는환자들의수에대한분포가 Posson 분포를따른다. Posson 분포의확률밀도함수는 x exp f ( x), x 0,1,... x! Posson 분포의평균 이고표준편차는 이다. 분포의특징 o 한남대도서관분실사고발생횟수가포아송분포를따르고평균 회이면 3 주동안사고발생횟수는평균이 6 포아송분포를따른다. 그러면 3 주동안사고가 전혀발생하지않을확률은? o 변수 X, X,..., X n 0 6 6 e P ( X 0) 0! 0.00 1 이서로독립이고각각포아송분포 ( ) 를따르면변수의합 n X ~ Posson( 1... n ) 따른다. 1 3
Ch. 1 Introducton o 포아송분포는평균값 ( ) 이커지면표준편차 ( ) 도증가한다. 일반적으로평균이커짐에따라 ( 교통량발생평균이커짐에따라 ) 표준편차가증가하는자료에대한모형화에유용하다. 다른분포와의관계 o Posson 분포는 n 인경우정규분포 (, ) 에근사한다. o Posson 분포를따르는사건이발생하는사이시간은지수분포 (exponental) 를따른다. 지수분포확률밀도함수는 1 x / f ( x) e 이다. 평균과표준편차는모두 이다. o X ~ exp( ) 이고 Y ~ Posson( x / ) 인경우 Pr( X x) Pr( Y 1) 이다. 1... Bnomal samplng 성공 / 실패두가지결과만발행하는시행을 Bernoull tral 이라한다. 즉동전을던지는실험에서앞면 / 뒷면, 제품검사에서불량 / 정품이나타나는시행을말한다. 베르누이시행에서성공 (success) 확률이 p인경우분포함수는다음과같다. x 1 x f ( x) p (1 p), x 0, 1 이런베르누이시행을 n번하는경우성공횟수 X에대한분포가이항분포이다. n x nx f ( x) P( X x n, p) p p x (1 ), x 0,1,, n 이항분포의평균은 p 이고표준편차는 npq 이다. 다른분포의관계 o n, p 0 이면 Posson 분포 ( np ) 에근사한다. o n 이면정규분포 ( np, npq ) 에근사한다. (Normal Approxmaton to Bnomal) 4
Ch. 1 Introducton 1..3. Multnomal samplng 시행의결과가 개이상인경우, 예를회사의면접을본경우합격, 불합격뿐아니라보류라는결과가있는경우사건발생수는다항분포 (multnomal) 분포를따른다. m! f ( x, x, p, x m p 1 1 x x xn p 1 p, ) 1 x1! x! xn! xn n, 1..4. 비율에대한추론 ( 일변량 ) 범주형반응변수에대한확률모형으로포아송분포, 이항분포, 다항분포를고려하였으나추정치, 표준오차추론에있어서는동일한결과를가지며로지스틱모형 (logstc) 이나로그선형모형 (log-lnear) 의모수에대한추론에서도동일한결과를가지므로구별하여사용하지는않을것이다. 여기서는이항분포모수 p 에대한 maxmum Lkelhood Estmator(MLE: 최대우도추정량 ) 을구하는방법을살펴보자. 만약제품의불량률 p 를모르는제품에서 10 개를임의로추출하여불량여부를조사하였더니 6개였다. 이때우도함수 (lkelhood functon) 는 10 6 l( p x) f ( x 6 p) p (1 p) 6 우도함수는? 표본으로부터얻은자료가발생할가능성이다. 불량개수가 0 이라면우도함수는 10 0 l( p x) f ( x 0 p) p (1 p) 0 4 10 1.0 0. 0.4 0.6 0.8 1.0 그러므로 0개인경우는 p ˆ 0, 6 개인경우는 p ˆ 0. 6. 일반화하여보자. n x l( p x) f ( x p) p p x (1 ) nx 이항분포 ( 총시행회수 : n) 로부터성공개수가 X 개관측되었다면이항분포의모수 p 에대한 MLE? 5
Ch. Two-way contngency table.1. Two-way Contngency Table ( 이차원분할표 ) 맛보기.1.1. 예제 하나의범주형자료에정리방법으로사용되는것이빈도표 ( 혹은다양한차트 ) 를작성하는 것이다. 예를들어정보통계학과학생 10 에대한출신지조사결과다음을얻었다. 출신지 대전 충남 기타지역 빈도 ( 비율 ) 40(33.3%) 30(5%) 50(41.7%) 동일학생 10 명들에대해 OO 후보지지여부를물어아래결과를얻었다. OO 후보지지반대 빈도 ( 비율 ) 80(66.7%) 40(33.3%) 두범주형변수간의연관성 (assocaton) 을알아보기위해한범주형변수에대한빈도표는열로, 다른범주형변수에대한빈도표는행으로하여교차표 (cross-tabulaton) 를작성하게되는데이를이차원분할표 (two-way contngency table) 이라한다. 일반적으로영향을미친다고생각되는변수 (~ 따라서 ) 를행으로, 영향을받는다고생각되는것을변수 (~ 차이가있다 ) 를열로하여교차표를작성하면된다. 위의예제에서출신지별 OO 후보지지여부차이가있는지알아보기위하여분할표를작성하여보자. 위의두표만으로는분할표를작성할수없다. 조사할때학생들의 ( 출신지, OO 후보지지여부 ) 를조사하여분할표를작성해야한다. OO 후보출신지 지지 반대 합계 대전 30(75%) 10(5%) 40 충남 10(33.3%) 0(66.7%) 30 기타지역 40(80%) 10(0%) 50 합계 80 40 10 괄호안에표시된비율은행비율 (row percentage) 로출신지별후보지지여부의차이를알수있다. 대전출신자와기타지역출신자의 OO 후보지지도가높고충남지역출신자들은반대비율이높음을알수있다. 실제출신지별후보지지여부의차이는유의한가? ( 통계적가설검정분할표검정 ) 6
Ch. Two-way contngency table.1.. 분할표확률구조두개의범주형변수를각각 X 와 Y 로표시하고각각 I, J 수준을갖고있다고하자. X 를행으로 Y 를열로하여분할표를만들면 IxJ 개의결합조건이존재한다. 이를 IxJ 분할표 (contngency table) 혹은교차표 (cross-tabulaton table) 라한다. X 1 Y 1 C Total 11 ( 11 ) 1 1 ( 1 ) 1c ( c1 ) c ( c ) 1 R r1 r rc r Total 1 c 는 (X, Y) 가 ( 행, j 열 ) 에속할확률로 Pr( X, Y j) 이다. j j j : Jont dstrbuton of (X, Y) ( 결합밀도함수 ) j : Margnal dstrbuton of (X) ( 주변밀도함수 ) j : Margnal dstrbuton of (Y) ( 주변밀도함수 ) j j 예제를살펴보면 (3x 분할표 ).1.1. 예제는 출신지에 따른 후보 지지여부의 차이가 있는지 알아보기 위하여 모집단으로부터표본 10 명을추출하여조사한것이다. 그러므로분할표의셀의빈도는 j 의추정치로사용될수있다. pj fj n ˆ j 표본에서의결합밀도함수는 ˆ 11 30 /10 0.5 ( 대전, 지지 ), 10 /10 0. 08 ( 대전, 반대 ) ˆ 1 ˆ ˆ 1 10 /10 0.08, 0 /10 0. 17 ˆ 11 ˆ 3 40 /10 0.33, 10 /10 0. 08 ( 기타, 반대 ) 모두의합은당연히? 지지여부변수 Y 에대한주변밀도함수는 ˆ 1 ˆ 80 /10 0.67 ( 지지 ), 40 /10 0. 33 ( 반대 ) 7
Ch. Two-way contngency table HOMEWORK#1-1 출신지변수 X에대한주변밀도함수? X= 가주어졌을때 Y의조건부확률분포함수 (condtonal) ˆ 1 10 / 30 0.33 ( 충남출신자중지지하는사람비율 ) ˆ 0 / 30 0.67 ( 충남출신자중반대하는사람비율 ).1.3. Independence ( 독립성 ) Defnton ( 정의 ) 두변수의 jont probablty 가각변수의 margnal probablty 의곱과같다면두변수는통계적 ( 서로 ) 으로독립 (statstcally ndependent) 한다. j j (cf) p( AB) P( A) P( B) 이면 A, B 는서로독립이다. Defnton ( 정의 ) X 의값이주어졌을경우변수 Y의조건부 (condtonal) 확률은다음과같이정의한다. j j (cf) B 가주어진경우 A 조건부확률은 P( AB) p( A B) 이다. P( B) Theorem ( 정리 ) 두변수서로독립이면조건부확률에대해다음이성립한다. j j HOMEWORK#1- 위정리를증명하시오. 8
Ch. Two-way contngency table.1.4. 반응변수에대한확률모형범주형자료분석의경우반응변수에대한확률모형은반응변수수준이 개인경우이항분포나포아송분포를가정하거나 3개이상인경우는다항분포를가정하게된다. 다행히도범주형자료분석의추론의경우어떤확률모형을가정하든동일한결과를가져오므로어떤확률모형을가정할것인지에대한걱정은할필요가없다... x 분할표 (Comparng proportons) 다음은 x 분할표이다. X Y 1 1 11 1 1..1. Dfference of proportons ( 비율차이검정 ) x 분할표의경우두변수간연관성 (assocaton) 분석하는경우 -검정대신두집단간비율차이검정으로대신할수있다. 변수의수준이 개인경우인경우 bnary( 이진, dchotomous) 변수라하고 3 개이상인경우를 poly-chotomous 라한다. 이진변수의경우일반적으로성공, 실패로만나눌수있으므로 (Bernoull 시행 ) 성공확률이 p 이면실패확률은 ( 1 p) 이다. 그러므로 x 분할표를다음과같이쓸수있을것이다. x 분할표의경우행의변수 X=1 일경우성공률이 1 이면실패율은 ( 11) 이고 X= 일경우성공률이 이면실패율은 ( 1 1) 이다. X Y 성공 실패 1 ) 1 ) 1( 11 11 ( 1 1 ( 1 ) 1 ) ( Theorem-1 x 분할표에서는두반응변수가서로독립이다 1 [ 증명 ] [Tp]X 와 Y가독립이다.( P( XY ) P( X ) P( Y ) ) P ( Y 1 X 1) P( Y 1 X ) 이런식으로증명하시오. 9
Ch. Two-way contngency table Example Harvard 대학에서심장마비증세에아스피린 (asprn) 이효과가있는지알아보기위하여한그룹에는위약을다른그룹에는아스피린을투여하여 5년이지난후심장마비발생여부를조사하여다음표를얻었다. (Alan Agrest textbook page 17) 약 치명적심장마비 발생 건강 Placebo ( 위약 ) 189 10,845 아스피린 104 10,933 약의종류와심장마비발생여부와연관성이있는가? ( 즉약의종류에따른심장마비여부차이는있는가?) 분석은위약복용자의심장마비발생율과아스피린복용자의심장마비발생율의차이가있는지검정하는것과동일하다. 189 위약복용자심장마비발생률 1 의추정치는 ˆ 1 p1 0. 0171 11,034 이고아스피린 104 복용자심장마비발생율 1 의추정치는 ˆ p 0. 0094 이다. 11,037 비율차이검정순서 o 귀무가설 : H 0 : 1 ( 위약복용자심장마비발생율은아스피린복용자의그것과 동일하다 ) o 대립가설 : H a : 1 ( 같지않다 ) x1 x o 통계량 : ( p1 p ) ( ) n1 n Recall Bnomal( n, ) : Bernoull 시행 x1 ~ 1 1 Theorem- 두집단이서로독립이고표본의크기 ( n 1, n ) 가크다면 [ 증명 ] 1(1 1) (1 ) ( p1 p ) ~ Normal( 1 1, ) 이다. n1 n 10
Ch. Two-way contngency table Example 심장마비증상에대한아스피린효과실험. ( 계속 ) ( p1 p ) (0.0171 0.0094) o 검정통계량 : T 5. 13 p1(1 p1) p (1 p ) 0.0171(1 0.0171) 0.0094(1 0.0094) n n 11,034 11,037 1 o 결론 : 유의수준을 5% 라 (신뢰수준 95%) 하면기각값은 (crtcal value) 1.96 이다. 검정통계량의값이기각값보다크므로귀무가설을기각한다. 심장마비발생율은차이는있다. 그러므로아스피린복용자의심장마비발생율이위약복용자보다낮으므로아스피린은심장마비억제효과가있음을알수있다. o 신뢰구간 : ( p 1 p ) z / p (1 p 1 n 1 1 ) p (1 p 0.0077 1.96(0.0015) (0.005,0.011) n )... Relatve rsk 와 Odds Rato Relatve rsk 두비율의값의차이는두비율이 0.5 근처일경우보다는 0 이나 1 일경우더중요한의미를갖는다. 예를들어두집단의비율의차이가 0.0077 인경우 (0.0171, 0.0094) 가 (0.5, 0.5077) 보다는상대적중요성을갖는다. 이를개념화한값이 relatve rsk ( 상대위험도 ) 이다. 1 상대위험도 Example 심장마비증상에대한아스피린효과실험. ( 계속 ) ˆ 1 0.0171 상대위험도추정치 1. 8 ˆ 0.0094 위약복용그룹의심장마비발생율이 8% 나높다. (0.5, 0.5077) 경우에는상대위험도가 1.015 로같은 0.0077 차이이지만상대위험도는 1.5% 밖에되지않는다. Odds Odds 는성공확률을실패확률로나눈값으로다음과같으며축구나농구등둘이하는경기에서배팅 (bettng) 을하는경우이익배당의근거가된다. 성공확률이라고하면 Odds 는다음과같이정의되며반응변수의 ( 실패율대비 ) 성공률이라고해석될수있다. Odds 1 11
Ch. Two-way contngency table Example 한국과폴란드의경기에서한국이이길확률을 0.1 라고하면한국의 Odds 는 1 0.1 0.9 1 9 이다. Odds 의의미는한번이기기위해서는 9 번지는경기를한다는것이다. 즉질 가능성이 9 배가된다는것이다. 폴란드의 Odds 는 9 이므로이길가능성이 9 배가 된다는것이다. 이 Odds 는축구나농구와같이두팀이하는경기의 bettng 의 배당금배분의근거가된다. 한국에거는사람은 1$ 을걸면 9$ 배당금을받지만 폴란드에거는사람은 9$ 을걸어야 1$ 을배당받게된다. Odds rato 1 /(1 1) Odds rato /(1 ) Odds raton 의값은음의실수값을가지며두반응변수가서로독립이면 ( 1 ) Odds rato 는 1이다. Odds rato 가 1보다크면 1행변수의 ( 반응변수 1: 예위약 ) 성공률이 행변수의 ( 반응변수 : 예아스피린 ) 성공률이보다높다는것이고 1 보다작으면반응변수 의성공률이더높음을의미한다. Odds rato 가 1 에서멀어질수록두반응변수는독립성에서멀어진다. Property-1 x 분할표에서행과열을바꾸어도 Odds rato 는변하지않는다. [ 증명 ] 위 property 의의미는반응변수 ( 행 ) 와설명변수 ( 열 ) 가바뀌어도 Odds rato 가 동일하므로변수를구별할필요는없다. (relatve rsk 는행과열이바뀌면 달라진다 ) Odds rato 추정치 Odds rato 추정치 ˆ p1 /(1 p1) n11n where n j 는 행 j열빈도 p /(1 p ) n1n1 1
Ch. Two-way contngency table Example 심장마비증상에대한아스피린효과실험. ( 계속 ) 위약복용자 Odds rato 189 0. 0174 심장마비발생 ( 성공 ) 률은 0.0174 로 10845 1.74 명의심장마비가일어나는동안 100 명은무사하다. 아스피린복용자 Odds rato 104 0. 0095 심장마비발생 ( 성공 ) 률은 0.0095 로 10933 0.95 명의심장마비가일어나는동안 100 명은무사하다. Odds rato 추정치 ˆ n11n 18910933 1. 83 n n 10845104 1 1 위약복용자의심장마비발생률은아스피린복용자의심장마비발생율보다 83% 높다. (0.5, 0.5077) 경우에는상대위험도가 1.015 로같은 0.0077 차이이지만상대위험도는 1.5% 밖에되지않는다. Odds rato 추론두반응변수가서로독립인지 ( 연관성검정 ) 어떻게검정할수있을까? 의값은 0 과 을가지고독립인경우는 1 이다. 그러므로좌우비대칭형태의분포를가지므로 대신 ln( ) 생각해보자. 두변수가독립이면 ln( 1) 0 이고 ( 한개념에서 ) 좌우대칭의형태를갖는다. ( 예 : ln 4 1. 39, ln( 1/ 4) 1. 39 ) 1 1 1 1 표본의크기가커지면 ln( ˆ) appnormal(ln( ), ) n n n 11 1 1 n 1 1 1 1 그러므로 ln( ) 의 95% 신뢰구간은 ( ln( ˆ) z / ) n n n n 11 1 1 1 1 1 1 ln( ˆ) z / n Odds raton 의 95% 신뢰구간은 11 n1 n1 n e 이다. Example 심장마비증상에대한아스피린효과실험. ( 계속 ) ln( ˆ) ln(1.83) 0.605 이므로 1 1 1 1 ln( ) 의 95% 신뢰구간은 ( 0.605 1.96 )(0.365, 0.846) 189 10933 104 10845 0.365 0.846 의 95% 신뢰구간은 ( e, e )(1.44,.33) 신뢰구간이 1을포함하고않고 1 이상이므로위약의심장마비발생율이더높다고결론지을수있다. 13
Ch. Two-way contngency table Relatve rsk 와 Odds rato 11 Odds rato=relatve rsk ( ) 111 두반응변수의성공확률이 0 에가까우면 ( 아스피린예제의경우 ) Odds rato 는 Relatve rsk 와유사한값을갖는다. ( 아스피린예 : 1.83 1. 8 ) 두반응변수의성공의상대적비교를 ( 예 : 위약과아스피린간심장마비발생율의상대적비교 ) 할때는 Relatve rsk 값을가지고해야한다. 즉위약이아스피린에비해 1.8 배심장마비걸릴가능성이높다고말할수있다. Odds rato 는 ( 실패율대비 ) 성공률의비율이므로앞에해석과는거리가멀다. 위의관계식을이용하면 Relatve rsk 를구할수없는경우 Odds rato( 반응변수와설명변수를바꾸어도계산이가능 ) 를이용하여계산가능하다. Example 흡연이폐암에영향을미치는지알아보기위하여폐암증상으로병원을찾아온 환자 00명과이환자들에일반환자 명을짝지어일반환자 400명의흡연여부를조사하였다. ( 이런연구를 retrospectve study 혹은 case-control study라한다.) 흡연 폐암증상 폐암환자 일반환자 ( 대조군 ) 예 140 100 아니오 60 300 흡연에따른폐암발생비율에대해알아보도록하자. 흡연자의폐암발생비율 ( 11 ) 과비흡연자의폐암발생비율 ( 1 ) 을이용한다? 그러나폐암환자의비율이 1/3 로고정되어있으므로 11, 1 을구하는것은의미가없다. 대신폐암환자중흡연비율 ( 140 / 00 0. 7 ) 과일반환자중흡연 비율 ( 100 / 400 0. 5 ) 을구할수있다. 즉설명변수가주어졌을경우반응변수의 조건부확률을구할수있다. Odds rato 의경우는반응변수와설명변수의 구별이없으므로 Odds rato 의추정치는 ˆ 140300 7 이다. 흡연경험자의 60100 Odds rato 추정값은폐암발생환자의경우 [140/00]/[60/00]=.33 이고폐암미 발생자의경우 Odds rato 는 0.33 이다. 의학연구결과폐암발생율은매우낮으므로 Odds rato 를 relatve rsk 로해석하여 흡연경험자가비흡연자에비해약 7 배폐암발생율이높다고말할수있다. 14
Ch. Two-way contngency table HOMEWORK#-1 Theorem-1, Theorem-, Property-1 을증명하시오. = HOMEWORK#- 다음은조사결과에대해답하시오. [Clogg and Shockey 1988] 총기등록법 사형제도 찬성 반대 찬성 784 36 반대 311 66 1) 반응변수와설명변수가무엇인지밝히시오. ) 두변수의연관성을비율차이검정에의해분석하시오. [ 유의수준 =5%] 3) Relatve rsk 추정치를구하고해석하시오. 4) Odds rato 추정치를구하고해석하시오. 5) Odds rato 를이용하여두변수가서로독립인지검정하시오. [ 유의수준 =5%] HOMEWORK#-1 Theorem-1, Theorem-, Property-1 을증명하시오. HOMEWORK#- 다음은조사결과에대해답하시오. [Clogg and Shockey 1988] 총기등록법 사형제도 찬성 반대 찬성 784 36 반대 311 66 6) 반응변수와설명변수가무엇인지밝히시오. 7) 두변수의연관성을비율차이검정에의해분석하시오. [ 유의수준 =5%] 8) Relatve rsk 추정치를구하고해석하시오. 9) Odds rato 추정치를구하고해석하시오. 10) Odds rato 를이용하여두변수가서로독립인지검정하시오. [ 유의수준 =5%] 페이지 14 의예제연구를 retrospectve study(look nto the past) 라 ( 이를 case-control 연구라고도한다.) 하는데이경우반응변수의주변분포 (margnal dst.) 가주어져있다. 15
Ch. Two-way contngency table 이미실험결과가나타난 ( 폐암 ) 조사자를대상으로폐암발생여부를물으므로반응변수의주변확률이주어지고일반적인방법으로 Odds rato 를구하지못해 Odds 와 Relatve Rsk 의관계식에의해 ˆ (Odds rato 의추정치 ) 구했다. 위의연구방법을관측연구라하는데이는실제영향을제대로파악하지못하는문제가있다. 즉흡연이폐암발생에직접적인영향을미쳤는지는알수없다. 관측연구의또다른방법은독립변수와반응변수의그룹을동시에조사하는 Cross-sectonal 연구가있다. 이것이우리가일반적으로보는 x 분할표이다. 폐암이흡연발생여부에영향을미치는것을보기위해서는실험을해야한다. 건강상태가양호한사람들을두집단 ( 실험군, 대조군 ) 나눈후실험집단은흡연하게하고, 대조군에는흡연하지못하게하여일정시간 (5 년 ) 이지난후두집단의흡연비율의차이를검정하면된다. 이런실험방법을실험연구라한다. Cohort 연구는피시험자가어느그룹에속할지정한후실험을한다는것이실험연구와다르다. 이두연구를 prospectve study 라한다. Homework #- 의예제는 prospectve study 예제이다. 그러므로일반적인방법에의해 Odds rato 의추정치를구하면된다. Odds rato 와 relatve rsk 의관계식을이용하여야하는예제는 Homework#3 이다..4. IxJ contngency table 분석하기 지금까지는 IxJ 분할표의특별한케이스인 x 분할표에대한검정을살펴보았는데, 이를정리하면다음과같다. 1) 분할표를작성할때는항상행은설명변수, 열은종속변수로한다. ) x 분할표에서설명변수와종속변수의독립성검정은각수준 ( 이를집단 ) 의성공률의차이검정과같다. ( y1 x1 y1 x X 와 Y는독립 ) 3) x 분할표에서설명변수와종속변수의독립성검정은각설명변수의 Odds rato 가 1 인것을검정하는것과같다. Odds rato 의신뢰구간을구하여 1 을포함하고있으면서로독립이고, 1 이면분자집단성공확률이높다고하고, 1 이면분모 1 /(1 1) 집단의성공확률이높다. ( 1X 와 Y는독립 ) /(1 ) 11 4) Odds rato 와 relatve rsk 의관계 Odds rato=relatve rsk ( ) 와 odds rato 는 1 11 설명변수와반응변수의위치에상관없이계산될수있으므로 retrospectve study( 이경우 16
Ch. Two-way contngency table 종속변수각수준의응답자가정해져있어일반분할표검정이불가능 ) 의분할표분석이가능하다. ( 페이지 14 참고 ) 5) 설명변수와종속변수가모두순서형인경우 설명변수 X 가증가함에따라 Y 가증가한다고할수있나? 두변수간의상관관계분석이가능하다. concordant 한짝이많으면 X 가증가하면 Y 가증가한다고볼수있을것이다. 반대로 dscordant 한짝이많으면 X 증가에따라 Y 는감소한다고결론지을수있다. 물론 ted 가많은경우는 X 와 Y의관계 (assocaton) 가없다고할수있다. ( 페이지 17 참고 ) 이절에서는 IxJ 분할표검정을의한방법들을살펴보기로하자. 이검정들을좁은의미의 IxJ 분할표범주형자료분석이라한다. 물론이절에서언급되는방법들은 x 분할표에도적용할수있다. 다음은 IxJ 분할표이다. 귀무가설 ( 모집단 ) 하에서설정된결합확률 j 로부터계산된기대빈도를 Ej 라하자. X Y 1 C Total 1 11 ( E 11 ) 1 ( E 1 ) 1c ( E 1 c ) 1 ( E 1) ( E ) c ( E c ) 1 R r1 r rc r Total 1 c.4.1. Goodness of ft 1900 Karl Pearson 에제안한방법으로 multnomal( 다항 ) dstrbuton 의확률이귀무가설에서설정한값과동일한지를검정한다. 1) 귀무가설 ( 일정한분포함수를갖는다 ) 하에서셀의기대확률을 이라하면이셀의기대빈도 (expected frequency) 는 E n 이자. ) 실제자료에의해관측된빈도관측빈도 (observed frequency) O 라하자. 3) ( E - O ) 의값들이크면귀무가설을기각하게될것이고그렇지않으면귀무가설을 채택한다. 17
Ch. Two-way contngency table Pearson Ch-square Statstc ( -검정통계량 ) 다음을 ( 피어슨 ) -통계량이라하면표본의크기가크면근사적으로 1)) 분포를따른다. ( 자유도 =(r-1)(c- ( O E ) T ~ ( df E ( c 1)) O 는관측빈도, 그러므로 E n, n = 총응답자수, = 귀무가설하에서 번째셀의기대확률, E 는기대빈도이다. f (x) 0.15 자유도 1 자유도 =5 자유도 =10 자유도 0 10 0 30 40 분포 예제 1: Mendel 의유전법칙이방법에대한초기예제는 Mendel 의유전법칙에관한것이다. 세대잡종은노란 75%, 초록 5% 라는이론의사실여부를알아보기위하여 n 803 을조사하였더니 60 가노란색, 001 이초록색이었다. 노란색 초록색 관측빈도 60 001 기대확률 0.75 0.5 18
Ch. Two-way contngency table 6017.3 005.8 ( O E ) (60 6017.3) (001 005.8) 검정통계량 T E 6017.3 005.8 0. 015 기각치 ( df 1, 0.05) 3. 84 보다작으므로귀무가설채택. 예제 : 어떤자료가임의의분포를따르는가? x x x x x x x x x x x populaton: f (x)? 구간 C 1 C C 3 C 4 C 5 C 6 C 7 C 8 관측도수 O 1 O O 4 O 4 O 5 O 6 O 7 O 8 모집단의분포가 f (x)? ( 예 : 정규분포 ) 따를까? 19
Ch. Two-way contngency table 구간 C 1 C C 3 C 4 C 5 C 6 C 7 C 8 기대도수 E 1 E E 4 E 4 E 5 E 6 E 7 E 8 표본분포가설정한모집단분포와동일하다면 관측도수와 (observed frequency) 기대도수는 (expected frequency) 비슷한값일것이다. 즉 O1 E1, O E,, Ok Ek ( 위예에서는 k 8 ) k ( O ) 1 검정통계량 (test statstcs)? E T ~ ( df k c 1) c= 모수추정개수 E 이를 - 적합성검정방법이라한다. 예제 3: 주사위예제주사위로게임을하려고주사위를하나샀다. 이주사위각면이나올확률이동일한지 (far) 알아보기위하여실험을하기로하였다. 주시위를 1,000 번던져다음결과가나왔다. 눈금 1 3 4 5 6 빈도 150 160 165 155 170 00 귀무가설 : 각눈금이나올확률은모두 1/6 로같다. X= 주사위눈금 f ( x) 1/ 6 for x 1,,..., 6 대립가설 : 각눈금이나올확률이모두 1/6 은아니다. 주사위눈금 X는귀무가설의확률분포 f (x) 를따르지않는다. 검정통계량 눈금 1 3 4 5 6 관측빈도 ( O ) 150 160 165 155 170 00 0
Ch. Two-way contngency table 기대빈도 ( E ) 166.7 166.7 166.7 166.7 166.7 166.7 기대빈도는귀무가설이맞다는가정하에서계산한다. (150 166.7) (160 166.7) (00 166.7) 검정통계량 : T... 9. 49 ~ ( df 6 1) 166.7 166.7 166.7 기대빈도계산을위하여어떤모수도추정하지않았으므로 c 0 이다. 결론 : p-값이 0.091 이므로귀무가설을기각하지못한다. 주사위는 far 하다. 다른측면에서보면검정통계량 (9.49) 이유의수준 5% 의임계치 (crtcal value) 11.07 보다작으므로귀무가설을기각하지못한다. 0.091 예제 4: Bnomal Dstrbuton 베르누이시행을 n번독립적으로시행했을경우 X를성공한회수라하면 n x nx f ( x) p (1 p) for x 0,1,..., n c Bnomal (n, p) 평균 E( X ) np, 분산 V ( X ) np(1 p) 남녀출산비율이 0.5 인지알아보기위하여아이들이 3 명이 1,000 가구를대상으로남자아이의수를조사하여다음표를얻었다. 남자아이수 0 1 3 빈도 100 350 400 150 귀무가설 : 남자아이수는이항분포 (n=3, p=0.5) 를따른다. 3 x 3-x X= 남자아이수 f ( x) (0.5) (1-0.5) for x 0,1,, 3 x 1
Ch. Two-way contngency table 대립가설 : X 는이항분포를따르지않는다. 검정통계량 남자아이수 0 1 3 관측빈도 ( O ) 100 350 400 150 기대확률 0.15 0.375 0.375 0.15 기대빈도 ( E ) 15 375 375 375 기대빈도는귀무가설이맞다는가정하에서계산한다. 3 0 3 3 1 3 f ( x 0) (0.5) (1-0.5) 0.15 0, f ( x 1) (0.5) (1-0.5) 0. 375 1 (100 15) (150 15) 검정통계량 : T... 13. 3 ~ ( df 4 1) 15 15 기대빈도계산을위하여어떤모수도추정하지않았으므로 c 0 이다. 결론 : p-값이 0.004 이므로귀무가설을기각한다. ( 혹은검정통계량값 13.3 이임계치 7.8 보다크므로 ) 그러므로남자아이의수는성공확률이 0.5 인이항분포를따르지않는다. 예제 5. Posson Dstrbuton Posson 분포는 n, p 0 인이항분포로부터유도된다. [ np 수리통계참고 ] X 를관심이있는사건이발생할회수라하면 x e f ( x ) for x 0,1,,..., 평균 E (X ) 분산 V (X ) x! 하나은행에서지난한달동안조사하였더니한시간에평균 6 명의고객이방문하고그방문회수는포아송분포를따르고있음을알았다. 그럼 10 분동안고객이한명도찾아오지않을확률은?
Ch. Two-way contngency table e (1) np 61/ 6 1 P( X 0 X ~ Posson( 1)) 0. 36788 0! 다음은한남대학교정문을통과하는차량의수가 Posson 분포를따르는지알아보기위하여 1 분마다차량통과회수를 300 회조사하였다. 아래자료를이용하여 Posson 분포를따르는지검정하시오. ( 유의수준 =0.05) 통과차량 0 1 3 4 5 6 7 1 0 관측빈도 0 54 74 67 45 5 11 4 귀무가설 : 위의자료는 Posson 분포를따른다. 대립가설 : Posson 분포를따르지않는다. 각셀의기대빈도를구하기위해서는 Posson 분포의모수를 () 알아야한다. x e p( x), x 0,1,, x! 표본자료로부터모수 p의추정치를 ( ˆ) 구하면 ˆ (0 0 154 7 4) / 300. 67 그러므로기대확률과기대빈도는다음 Posson 확률분포에의해계산하면된다. e p( x).67.67 x! 통과차량 0 1 3 4 5 6 7 x 관측빈도 0 54 74 67 45 5 11 4 기대확률 0.069 0.185 0.47 0. 0.147 0.078 0.035 0.013 기대빈도 0.7 55.5 74.1 66 44.1 3.4 10.5 3.9 (0 0.7) (54 55.5) (4 3.9) 검정통계량 : T 0. 34 0.7 55.5 3.9 3
Ch. Two-way contngency table 결론 : 표로부터임계치는 ( 자유도 =8-1-1=6, 0.05) =1.59 이므로귀무가설이채택되고 이자료는 Posson 분포를따른다고할수있다. ( 자유도계산시 1 을더빼주는이유는포아송분포의모수 를알지못하므로자료를이용하여추정하였기때문이다. 예제 6. 정규분포이산형확률모형에대한적합성검정의경우는구간 ( 셀 ) 을분석자가나눌필요는없다. 이항분포나포아송분포의예를보면변수가가질수있는값이이산이므로각값을셀로설정하면된다. 그러나연속형의경우는한값에대한확률은존재하지않는다. 그러므로자료에의해구간을나누고그구간을셀로하여적합성검정을실시하면된다. 자료의범위 표본으로부터히스토그램 귀무가설에서 설정한분포 기대확률을이용하여기대빈도 ( 적합성검정을실시하면된다. 기대확률 E ) 를구하고히스토그램의관측빈도 ( O ) 를이용하여 ( x) 1 (, ) f x e 평균 =, 표준편차 = 4
Ch. Two-way contngency table 다음키 (nch) 자료가정규분포를따름을보이시오. (n=19) 65 69 56 6 63 57 59 6 6 59 51 64 56 66 7 64 67 57 66 귀무가설 : 자료는정규분포를따른다. / 대립가설 : 정규분포를따르지않는다. 정규분포의모수는평균과표준편차다. 추정치 : x 6, s 5. 19 개추정 범위 =7-51=1 구간의폭 1/ 6 4 자료로부터빈도표 ( 히스토그램 ) 만들기 셀 ( 구간 ) 51-54 55-58 59-6 63-66 67-70 71-74 관측빈도 1 4 5 6 1 연속구간 50.5-54.5-58.5-6.5-66.5-70.5-54.5 58.5 6.5 66.5 70.5 74.5 연속구간? 이산구간을연속일때 Pr( x 54) 0 그러나 x 54 가존재 기대확률구하기 SAS 정규분포함수이용하는프로그램 표준화 표준정규분포이용 표준정규분포누적밀도함수 lz lu 5
Ch. Two-way contngency table 셀 ( 구간 ) 51-54 55-58 59-6 63-66 67-70 71-74 관측빈도 1 4 5 6 1 기대확률 0.06 0.18 0.9 0.7 0.14 0.04 기대빈도 1.16 3.34 5.48 5.1.7 0.8 (1 1.16) (4 3.34) (1 0.8) 검정통계량 : T... 0. 58 1.16 3.34 0.8 임계치 : ( df 6 1, 0.05) 7. 81 ( -분포표) 검정통계량이임계치보다작으므로귀무가설은채택되고자료는정규분포를따르고있다고할수있다. HOMEWORK #4-1 여러분이가진동전의앞면과뒷면이나올확률이동일한지알아보는실험을하고그동전이 far 한지검정하시오. HOMEWORK #4- 다음은 10 개지역에폭격회수를조사한자료이다. Posson 분포를따르고있음을보이시오. 0 1 3 4 5 6 7 8 9 10 11 1 폭격 4 16 16 18 15 9 6 5 3 4 3 0 1 6
Ch. Two-way contngency table HOMEWORK #4-3 다음은전구수명자료이다. 지수분포를따름을보이시오. 3 136 90 47 3 446 11 486 773 18 338 348 766 86 6 904 11 184 43 403 1 x / f ( x ) e ( 평균, 분산 )= (, ) SAS 함수 : PROBGAM ( x /,1) x.4.. Independence Test 귀무가설 : 두변수는서로독립이다. ( j j from P(AB)=P(A)P(B)) 그러므로 귀무가설하에서각셀의기대빈도는 Ej n j (n 는총응답자수 ) 이에대한검정으로 1900 Karl Pearson 의 - 검정이용한다. 표본의크기가크다면다음이성립한다. ( Oj Ej ) T, j Ej ( nj Ej ), j Ej ~ ( df ( r 1)( c 1)) Lkelhood Rato Ch-Square nj ( nn j ), j n nj n n, j j n j from j ~ Multnomal, j G Oj log( ) ( Oj log( )) ~ ( df ( I 1)( J 1)) E, j j Karl Pearson Ch-square 통계량과 LR Ch-square 통계량은 asymptotcally equvalent 하다. Karl Pearson Ch-square 통계량과 LR Ch-square 통계량은분할표의범주들의순서에 nvarant 하다. 범주의순서를바꾸어도계산된검정통계량값은변하지않는다. 7
Ch. Two-way contngency table 예제년소득에따른직업만족도의차이는있는가를알아보기위한예제 [ 계속 ] 직업만족도 Very Lttle Moderately Very Satsfed Dssatsfed Dssatsfed Satsfed <6,000 0 4 80 8 6,000~15,000 38 104 15 15,000~5,000 13 8 81 113 >5,000 7 18 54 9 실제분석에서는다음과같이프로그램을하는것이좋다. nocol 옵션은열퍼센트를출력하지말라는것이고 nopercent 는백분율을출력하지말라는것이다. 8
Ch. Two-way contngency table O j E j (0 14.175) 14.175 (4 4.693) 4.693 (9 78.193)... 78.193 11.98 G 9
Ch. Two-way contngency table 표본의크다? ( 대표본 : large sample) 일반적으로각셀의기대치가 5 이상이면대표본으로간주하여 -분포를따른다고 한다. R. A. Fsher 에의하면 5 미만이셀의개수가전체셀의개수의 0% 을넘지 않으면근사통계량으로 결과에항상 5 미만인셀의비율이나타난다. -분포를사용해도된다고했다. 그래서 SAS 출력 만약대표본조건을만족하지못하면 1) 총응답자의수를늘려라. (n 을크게하면 ) ) 열이나행의인접범주 ~3 를합쳐열이나행의범주수를줄여라. 예를들어페이지 17 예제를보면 (Moderate Satsfed + Very Satsfed)=Satsfed 로합치거나 (15,000~5,000)+5,000 이상 =15,000 이상으로합쳐셀의수를줄일수있다. 반드시인접범주를합치면합치는범주가새로운개념을나타낼수있어야한다. 직업이범주인경우 ( 공무원, 전문직, 무직, 자영업, 회사원 ) 인경우는두개의범주를합쳐하나로만들기에는다소어려운점이있다. 3) Fsher 의 Exact 를검정방법을사용한다. ( 추후논의 ) 30
Ch. Two-way contngency table HOMEWORK #4-4 Homework3-1 에대해독립성검정 ( 남편의만족도와아내의만족도 ) 인 -검정하시오. 일단셀의기대빈도크기에대한경고 (warnng) 를무시하고분석한결과를해석하시오. 그리고셀의기대빈도 5 이하인셀이많이나오면범주를합쳐분석하고결과를해석하시오..3. Summary Measures of Assocaton.3.1. Odds Rato for IxJ 분할표 일반적으로 IxJ 분할표의 Odds Rato 들을정보의희생 (loss of nformaton) 없이는하나의값으로표현할수없다. 만약왼쪽그림과같이인접한열과행들의 Odds rato 들을구하는경우는그값의크기가유사하면 weghted average 에의해대표값을구할수있다. 이부분에대해서는나중에다루기로한다..3.. Measure of Ordnal Assocaton 종속변수와설명변수모두가범주형이되순서형인경우 설명변수 X 가증가함에따라 Y 가증가한다고할수있나? 모두측정형변수인경우는상관분석이나회귀분석을이용하여이질문에대답할수있다. 그러나순서형범주형은엄밀히말하면 metrc 이아니므로동일한분석은불가능하다. 대신순서형이 monotoncty 인 (X, Y 가크기순으로정렬할수있음 ) 성질을이용하여유사한개념 높은반응변수를갖는개체 (subject) 는무엇인가? 분석한다. 두변수 (X, Y) 의각수준에서두개체의짝을순서화하는경우만약 X 의값 ( 수준 ) 이클때 Y 의값이큰개체들의짝을 concordant, X 의값이클때 Y 값이작은개체들의짝을 dscordant, X 와 Y 에서동일한분류를갖는개체의짝을 ted 라고한다. concordant 한짝이많으면 X 가증가하면 Y 가증가한다고볼수있을것이다. 반대로 dscordant 한짝이많으면 X 증가에따라 Y 는감소한다고결론지을수있다. 물론 ted 가많은경우는 X와 Y의관계 (assocaton) 가없다고할수있다. 31
Ch. Two-way contngency table 예제 년소득에따른직업만족도의차이는있는가를알아보기위한조사결과다음을 얻었다고하자. [General Socal Survey, Noruss, 1988] 직업만족도 Very Lttle Moderately Very Satsfed Dssatsfed Dssatsfed Satsfed <6,000 0 4 80 8 6,000~15,000 38 104 15 15,000~5,000 13 8 81 113 >5,000 7 18 54 9 소득이범주형변수로분류되어있고직업만족도는 Lkert 척도로조사되어있으므로둘다순서형범주형자료이다. 만약소득을분류하지않고금액으로조사된자료를이용하여두변수의관계를분석하려면 Logstc 방법이다. [ 나중에다루기로한다 ] (<6,VD) 셀의개체와 (6-15,LD) 의개체짝은 concordant 하다. 즉 (<6,VD) 에서 0 개개체, (6-15,LD) 에서 38 개개체의쌍 760 개는모두 concordant 하다. 그러므로 (<6,VD) 셀의개체는파랑셀부분의개체들과짝을이루면그짝은모두 concordant 이다. 같은방법으로 Concordant 짝의수를계산하면 C 0(38 104 15 8 81113 18 54 9) 4(104 15 81113 54 9) 80(15 113 9) (8 81113 18 54 9) 38(81113 54 9) 104(113 9) 13(18 54 9) 8(54 9) 81*9 109,50 같은방법으로 Dscordant 짝의수를계산하면 D 4( 13 7) 80( 38 13 8 7 18)... 113(7 18 54) 84,915 Intutvely, C>D 이면 X 값의증가함에따라 Y 값이증가한다고할수있다. 즉 X 는 Y 에영향에양의영향을미친다. ( 소득수준이높아질수록직업의만족도는높다.) 어떻게검정할것인가? 다음을고려해보자. c d where c = 모집단 concordant, c d 1 1 의값을갖고 Gamma 의추정치는 d C D ˆ 이다. C D = 모집단 dscordant 만약 1 이면완전한선형관계이고 X가증가하면 Y도증가한다. 만약 1이면완전한선형관계이고 X가증가하면 Y는감소한다. 만약 0 이면 X와 Y는관계가없다. 위의예제에서 ˆ 0. 17 약한양의상관관계가존재한다. ( 자세한내용은추후토론 ) 3
Ch. Two-way contngency table x 분할표의경우 는다음과같이 Yule s Q 로 ( 이는벨기에통계학자 Quetelet 을기리기위하여 ) 단순화된다. 11 Q 11 1 1 1 1 HOMEWORK#3 흡연에따른폐암발생여부를조사하기위해폐암환자와그렇지않은 환자의흡연정도를조사한자료이다. [Doll & Hll 1988] 일인흡연량 폐암 폐암 일반환자 None 7 61 <5 55 49 5-14 489 570 15-4 475 431 5-49 93 154 50+ 38 1 1) 반응변수와설명변수가무엇인지밝히시오. ) 일일담배량 5미만과 5 이상으로재그룹하여 x 분할표를만든후 A. 두변수의연관성을비율차이검정에의해분석하시오. B. Relatve rsk 추정치를구하고해석하시오. C. Odds rato 추정치를구하고해석하시오. D. Odds rato 를이용하여두변수가서로독립인지검정하시오. [ 유의수준 =5%] 3) Ordnal Assocaton Measure 인 를구하고해석하시오..4.. Independence Test ( 계속 ) ( Oj Ej ) T, j Ej ( nj Ej ), j Ej ~ ( df ( r 1)( c 1)) x 분할표 Example( 계속 ) 심장마비증세에아스피린의효과 ( 페이지 10) 두변수의독립성 ( 심장마 비증상에아스피린약의효과가있는가?) 을알아보는방법은 3 가지이다. 33
Ch. Two-way contngency table 약 치명적심장마비 발생 건강 Placebo ( 위약 ) 189 10,845 아스피린 104 10,933 1) 집단의성공률차이검정 ( 두집단모비율차이검정 : 검정통계량 T=5.13, 페이지 11) 모비율차이에대한 95% 신뢰구간은 (0.005, 0.011) 의미는? ) Odds rato ˆ 1. 83 ( 심장마비발생확률이 83% 높다. 페이지 13) Odds rato 에대한 95% 신뢰구간은 (1.44,.33) 이다. 의미는? 3) 검정 : 귀무가설 : 약변수와심장마비변수는서로독립이다. p-값이 0.001 보다더작으므로귀무가설을기각하고두변수는관계 (assocaton) 가있다고말한다. 귀무가설이기각되면행퍼센트를관찰하여크기나크기순서를따져해석하면된다. x 분할표의경우는하나의행퍼센트만비교하면된다. 아스피린복용자의마비비율이 0.94, 위약복용자는 1.71 이므로아스피린복용자는위약복용자보다 54.9% ( 위약복용자는 81.9% 높다 ) 밖에되지않는다. (relatve rsk 와동일하다 ) Recall: 성공률이내우낮을때는 relatve rsk 와 odds rato 는거의같다. 34
Ch. Two-way contngency table Resdual 앞절에서는 x 분할표에서는 검정결과를 relatve rsk 개념에서해석하는방법을살펴보았으나이런해석은 IxJ 분할표에서는불가능하다. 분할표의검정통계량의값에가장영향을많이미치는셀이어느것인가알아보는통계량으로잔차개념을사용한다. 다음을셀의수정잔차라 (adjusted resdual) 하고귀무가설 ( 두변수가독립 ) 하에서는표준정규분포를따른다고한다. 그러므로수정잔차의절대값이 ~3 을벗어나면그셀이귀무가설을기각하는데많은영향을미쳤다고할수있다. Oj Ej ~ Normal(0,1) under H o Ej (1 p )(1 p j ) 일반표준화잔차 (standardzed resdual) 는분산이 1 보다작은문제가있어수정잔차를 사용한다. e ( O E ) / E ~ Normal(0, 1) j j j j Example 다음은성별에따른정당지지성향의차이가있는지알아보기위하여총 980 명을대상으로실시한설문조사결과를정리한것이다. 공화당무소속민주당합계 남성 191 47 165 403 여성 5 73 79 577 합계 416 10 444 980 우선앞절에서살펴보았던독립성검정을위한 - 검정을실시해보자. 35
Ch. Two-way contngency table p-값이 0.03 으로 0.05 보다적으므로귀무가설 ( 성별변수와정당변수는서로독립 ) 이기각되고성별에따라지지정당이달라진다고결론내릴수있다. 그러면어떻게다른가? 이답변을위하여행퍼센트를보면된다. 남성의경우공화당지지율이가장높고여성의경우민주당지지율이높다고말하면된다. 만약위의결과를행퍼센트개념이아니라수정잔차개념에서해석하여보자. 191171 (1 행, 1 열 ) 의수정잔차값 :. 6 171(1 416 / 980)(1 403 / 980) 47 49.3 (1 행, 열 ) 의수정잔차값 : 0. 46 49.3(1 10 / 980)(1 403 / 980) 같은방법으로구하면 공화당무소속민주당 남성 191 (.6) 47 (-0.46) 165 (-.9) 여성 5 (-.6) 73 (-0.46) 79 (.9) 36
Ch. Two-way contngency table 공화당과민주당에서성별차이가나타나고있다 ( 수정잔차가 이상의값 ) 여성은민주당지지자가많고남성은공화당지지자가많은반면여성은공화당지지자가남성은민주당지지자가적다. 수정잔차와행퍼센트의해석방법에는큰차이가없고수정잔차는수작업으로계산해야한다는불편함으로인하여주로행퍼센트에의해결과를해석하게된다. 일반적으로이방법을따르는데때로는간과되는부분 ( 민주당지지의차이부분 ) 이생긴다. HOMEWORK #5-1 다음은학교창립이념에따른정신분열의기원에의견의차이가있는지알아보기위하여조사한결과이다. [Gallagher et al. 1987] 정신분열기원유전적인환경적인유전 + 환경창립이념 다방면 90 1 78 의학적 13 1 6 정신분석학적 19 13 50 1) 독립성검정을위한 -검정을실시하시오, ) 행퍼센트를이용하여결과를해석하시오. 3) 수정잔차를이용하여결과를해석하시오. Parttonng Ch-square IxJ 분할표를 분포의성질에따라분할할수있다. 자유도가각각 a, b 이고서로독립인 Ch-square 변수의합은자유도가 ( a b ) 인 Ch-square 를따른다. 왜하는가? 분할표를몇개의 sub 분할표로나누어분석함으로써관심이있는범주들간의차이혹은범주들간그룹간의차이를볼수있다. IxJ 분할표를다음논리에의해분할하면각분할표의 G (L-R Ch-square) 통계량의합은 IxJ 분할표의 G 통계량의합과같다. (*: Pearson 의 Ch-square 에서는성립하지않으나 Pearson 의 ch-square 통계량과 L-R ch-square 통계량은근사적으로 equvalent 하므로상관없다. 페이지 7) sub 분할표의자유도의합은 IxJ 분할표의자유도와같다. IxJ 분할표각셀은 sub 분할표에단한번만나타난다. IxJ 분할표주변합은 sub 분할표에단한번만나타난다. 뭔가무척이나복잡하다. 간단한 sub 분할표만드는방법을살펴보면다음과같다. x3 분할표 37
Ch. Two-way contngency table Example 성별에따른지지여당차이 [ 페이지 3] 성별에따른무소속 vs 민주당지지의차이는없다. 성별에따른공화당 vs 비공화당의차이는존재하고남자가공화당지지비율이높다. =7.006 ( 페이지 33) 3x3 분할표 HOMEWORK #5- Homework #5-1 의 3x3 분할표를위와같이분할하고각 sub 분할표에대해실시하고해석하시오. [Gallagher et al. 1987] 검정을 38
Ch. Two-way contngency table.4.3. More on Lnear Assocaton 변수 X, Y 가모두순서형변수이면그변수들간선형관계를 (lnear assocaton) 이용하여두변수의독립성 (ndependence 관계 ) 분석할수있다. 행변수 ( 독립변수, X) 의범주를크기순으로정렬하고각범주를 u1 u u3... 로점수화하고열변수 ( 반응변수, Y) 범주를크기순으로정렬한후각범주를 v v... 를 1 v3 점수화하자. 두범주의개념차이가크기가크면점수의차이를크도록점수화한다. 이점수를이용하여두변수간의가중상관계수를구하면다음과같다. 이를 Pearson cross moment correlaton coeffcent 라한다. r uv j nj ( un )( v j n j ) / n, j j ( u ) ( ) n v j n j j [ u n ][ v j n j ] n j n 여기서 nj 는관측빈도 O j, n 은표본의총크기를의미한다. 물론우리는손으로이것을계산할필요는없다. 상관계수의값은 1 과 1사이의값을갖고 0이면두변수는상관관계가없다 ( 독립성 ) 고결론내린다. Pearson 상관계수이외에도두순서형변수의상관관계에대한계산값은여러개존재하는데이는대부분 Pearson 상관계수로부터유도되었다. Ph Coeffcent( 파이계수 ), Cramer s V, 분할계수가그예이다. 상관계수의유의성은검정은 Mantel-Haenszel Ch- Square (M-H) 검정통계량이라불리는 M 에의해실시한다. M ( n 1) r ~ ( df 1) when n s large. Example 년소득에따른직업만족도의차이는있는가 [ 예제계속 ] 직업만족도 Very Lttle Moderately Very Satsfed Dssatsfed Dssatsfed Satsfed <6,000 0 4 80 8 6,000~15,000 38 104 15 15,000~5,000 13 8 81 113 >5,000 7 18 54 9 DATA ONE; DO INCOME=1 TO 4; DO JOB=1 TO 4; INPUT NIJ@@;OUTPUT; END; END; 39
Ch. Two-way contngency table CARDS; 0 4 80 8 38 104 15 13 8 81 113 7 18 54 9 ; RUN; PROC FREQ DATA=ONE; WEIGHT NIJ; TABLE INCOME*JOB /CHISQ MEASURES CL NOPERCENT NOCOL; RUN; 두변수의상관관계검정은 Measures 옵션에의해출력된아래결과중 Pearson 상관계수, Spearman 상관계수를이용하면된다. 양의상관관계가존재하므로 ( 신뢰한계 ( 구간 ) 가 0 을포함하고있지않고값이양의값이다 ) 소득이높아질수록직업만족도가높아짐을알수있다. 두변수의독립성검정을위한 검정결과는유의하지않았으므로 Ch-square 검정결과는소득수준은직업만족도에영향을미치지않는다. 독립성을검정을위한 검정결과의해석은행퍼센트로하고상관관계를위한검정결과는상관계수해석방법과동일하게한다. 독립성검정을분할표검정모두에적용되지만, 상관관계분석은두변수모두순서형일때적용가능하다. 40
Ch. Two-way contngency table 빨간박스안의통계량들은페이지 17 의 (Gamma) 과유사한것으로두순서형변수간의선형관계를검정하는통계량이다. (Concordant, Dscordant) 페이지 17 의 Gamma 값 (0.17) 과위의감마가일치하지않는것은조금다른계산공식을사용하였기때문이다. 수작업할필요는없으니 SAS 출력결과를이용하여해석하면된다. In SAS, C nj ( nkl nkl ), D nj ( nkl nkl ) j kl j klj j kl j kl j 점수를바꾸면순서형변수에점수를부여하는것은다소임의적이나등간 (equal-dstance) 점수이면 ( 이를 monotonc score 라함 ) 검정통계량의값은변하지않으므로별문제는없다. 물론각범주의점수를등간으로하지않으면변하지만 Cochran Armtage Trend 반응변수가이진 (bnary : 예성공 / 확률 ) 변수이고설명변수가순서형인경우설명변수범주의크기에따라반응변수의비율이어떻게변하는지알아보는것이다. 검정통계량은다음과같다. 41
Ch. Two-way contngency table where DATA PAIN; INPUT DOSE ADVERSE $ COUNT @@; CARDS; 0 NO 6 0 YES 6 1 NO 6 1 YES 7 NO 3 YES 9 3 NO 18 3 YES 14 4 NO 9 4 YES 3 ; PROC FREQ DATA=PAIN; WEIGHT COUNT; TABLES DOSE*ADVERSE /TREND CHISQ NOPERCENT NOCOL; RUN; 약의복용량 (0, 1,, 3, 4) 에따른부작용 (No: 없음 /Yes: 있음 ) 의차이를살펴본것이다. 비율의추세 (trend) 직선 dl 유의하고음의통계량값을가지므로부작용비율 (No/Yes) 은낮아지는경향이있다. 4
Ch. Two-way contngency table HOMEWORK #5-3 Homework #-3-1 자료를이용하여다음에답하시오. 셀의기대빈도에대한경고는무시하고다음을실시하시오. 남편만족도와아내만족도는서로독립인가? 독립성 -검정: 이미숙제했음 설명변수 ( 남편만족도 ), 반응변수 ( 아내만족도 ) 에대한상관관계분석을실시하고해석하시오. 아내만족도를두범주 (Never vs 나머지 3 범주 ) 로분할표를다시작성하고 Cochran- Armtage trend 분석을실시하시오. HOMEWORK #5-3 Homework #-3-1 자료를이용하여다음에답하시오. 셀의기대빈도에대한경고는무시하고다음을실시하시오. 남편만족도와아내만족도는서로독립인가? 독립성 -검정: 이미숙제했음 설명변수 ( 남편만족도 ), 반응변수 ( 아내만족도 ) 에대한상관관계분석을실시하고해석하시오. 아내만족도를두범주 (Never vs 나머지 3 범주 ) 로분할표를다시작성하고 Cochran- Armtage trend 분석을실시하시오..4.4. Exact Test R. A. Fsher 전통적인분석도구가실제적인연구에항상적합한것은아니다. 대포로참새를잡으려고할뿐아니라명중시키지못하기도한다. 대표본자료분석방법은간단한실험자료에적합하지않다. 지금까지살펴본 -검정통계량은근사통계량이었다. 셀의기대빈도가 5 미만인셀이 (Thn cell) 없다면 ( 혹은 R. A. Fsher 는 5 미만셀의수가전체셀의 0% 넘지않으면 ) ( Oj Ej ) 검정통계량 j Ej 은 ( Oj 는 nj 와같다 ) ( df ( r 1)( c 1)) 에근사한다. 그러나만약표본의크기가적거나 ( 소표본 ) thn cell 의조건이만족되지않으면? ( 해결 방법은페이지 30 참고 : 1) 셀합치기 ) 표본늘리기 ) 우리는더이상 -분포를사용하지못한다. 그래서 R. A. Fsher 는 Exact ( 더이상근사분포가아니다 ) Test 를제안하였다. 43
Ch. Two-way contngency table Fsher s exact test x 분할표를먼저생각해보자. X Y 1 Total 1 n 11 1 n 1 Total 1 n n n 1 n n n n 두변수가독립이면주변빈도 (margnal frequency) 의조건부확률로부터구할수있다. 다음초기하분포를 (hyper-geometrc dstrbuton) 생각해보자. 두변수가독립일때 (odds rato =1) (1,1) 셀의빈도가 n11 일확률밀도함수는 n1 n 11 n n n n 1 1 n 11 총표본 n 로부터변수 Y의 1 범주주변빈도합 n1 만큼뽑을때변수 X의범주 1 에서 n11 명을뽑고변수 X 의범주 에서 ( n1 n11) n1 명을뽑을확률이다. 주변빈도합이 주어지면 ( 총 4개 ) n11 의값만주어져도다른 3 셀의빈도를계산할수있다. 독립성검정을위하여 p-값개념을이용하자. 표본으로부터얻어진결과가나올확률과그이상 ( 혹은이하, 귀무가설의모수위치에따라결정 ) 의결과들이나올확률을 p-값이라한다. 다음예를들어보자. Example A 선수는승률이 0.6 이라고주장한다. 이주장의진실여부를알아보기위하여 10 게임을조사하였더니 A 가 4 번이겼다. A 의주장은사실인가? 귀무가설 : A 의승률은 0.6 이다. p 0. 6 대립가설 : p 0. 6 ( 반대의경우는결코발생할수없다. 왜냐하면 pˆ 0. 4 이므로 ) 검정통계량 : 대표본일경우우리는 ˆp ~ z-분포에근사한다는사실을이용하여가설 검정할수있으나 n=10 개인소표본인경우에는이근사통계량을사용할수없다. 대신 p-값을구해보자. p value Pr( X 4 X ~ Bnomal(10,0.6)) : 귀무가설하에서 측정된 4 번이하이길확률을 p- 값이라한다. p- 값 4 6 p value Pr( X 4 X ~ B(10,0.6)) 0. 1664 In SAS, p=probbnml(0.6,10,4) 44
Ch. Two-way contngency table p-값이유의수준 0.05 보다크므로귀무가설을기각하지못한다. A 의승률이 0.6 이아니라고말할근거가없다. 이제분할표독립성검정을위한검정통계량으로돌아가자. Fsher s Tea Drnker 예제를중심으로검정방법을살펴보자. Example 영국여성은차를마실때그차에우유를먼저부었는지차를먼저부었는지알수있다고주장하였다. 이에 R. A. Fsher는이주장에대한검정을위하여여성 8명을대상으로조사를실시하여다음결과를얻었다. 추측실제 우유 차 Total 우유 3 1 4 차 1 3 4 Total 4 4 8 귀무가설 : 두변수는서로독립이다. 실제와추측간에는상관이없다. 즉여성의추측은실제차의상태와관계가없다. ( 1) 대립가설 : 두변수는관계가있다. 즉실제차의상태와예측간에는상관관계가존재한다. ( 1) 검정통계량 : 소표본이므로분할표독립성검정을위한없다. - 검정방법을사용할수 4 4 44 3 1 4 0 p-값 : p value Pr( n11 3 n11 ~ HG(8,4,4, n11)) 0.9 0.014 0. 43 8 8 4 4 유의수준 0.05 보다크므로귀무가설을기각하지못한다. 즉영국여성은우유나차중어느것을먼저따랐는지맞출수있다는주장을지지할수없다. DATA ONE; INPUT TEA $ GUESS $ NIJ @@; CARDS; M M 3 M T 1 T M 1 T T 3 ; RUN; PROC FREQ DATA=ONE; WEIGHT NIJ; TABLE TEA*GUESS/EXACT NOCOL NOPERCENT; RUN; 45
Ch. Two-way contngency table 배 Comments 1) Randomzaton Test: 유의수준 0.05 에서기각역은어떻게설정되어야하는가? 이질문은 (1,1) 셀의빈도가얼마이상이나오면귀무가설을기각해야하는가와같다. (1,1) 셀이 4 가나올확률은 0.014 이다. 그러므로 4 가나오면기각한다고하면아직유의수준 0.05 가안된다. 만약 (1,1) 셀이 3 이상 (3 과 4) 이나오면귀무가설을기각한다고하면 0.43 으로 0.05 를넘는다. 그러면어쩌라. 이때필요한개념이 Randomzaton 이다. (1,1) 셀이 4 가나오면귀무가설을무조건기각하고 3 이나오면 0.157 의확률로귀무가설을기각하면된다. 0.157 확률을가진다? 난수표를이용하여 3자리임의의수를뽑는다. 이값이 0.157 보다작으면귀무가설을기각하면된다. Pr( reject H 0 ) E(Pr( reject H 0 ) n11) 0.014 0.157 0.9 0.05 ) 만약 (1,1) 셀의크기가 (,1) 의셀의크기보다적으면 p-값을계산할때 (1,1) 셀의빈도이하인경우확률을다더하면된다. 즉대립가설은 1 이다. 위의 SAS 출력에서하단측 p-값에해당. p value Pr( n11 3 n11 ~ HG(8,4,4, n11)) 0. 9857 3) Exact Test 를 IxJ 분할표에도확대되었다. [ 자세한내용은생략 ] SAS 에서 Exact 옵션을쓰면 IxJ 분할표에대한 Exact Test 검정결과를출력한다. 출력결과는양측검정결과만출력한다. [SAS 는 Mehta and Patel (1983) 의 network algorthm 사용 ] Mehta, C.R. and Patel, N.R. (1983), "A Network Algorthm for Performng Fsher's Exact Test n r c Contngency Tables," Journal of the Amercan Statstcal Assocaton, 78, 47-434. 46
Ch. Two-way contngency table HOMEWORK #6-1 다음은치료종류 ( 일반치료, 방사선치료 ) 와후두암치료의관계를알아보고자조사한자료이다. [Mandenhall et.al (1984)] 암치료치료방법 Yes NO 일반 1 방사선 15 3 수작업계산하여 p-값을구하시오. 유의수준 0.05 에서기각역을구하시오. SAS 를이용하여 Fsher Exact test 를실시하고결과를해석하시오. HOMEWORK #6- Homework #-3-1 자료에서 SAS 를이용하여 Exact Test 를실시하고결과를해석하시오. 47
Ch. 3 Logstc Regresson 장에서는두범주형변수의관계를 ( 독립성 ) 분석하는 IxJ 분할표분석을살펴보았다. 이를정리하면 대표본 ( 기대빈도가 5 미만인셀이없거나전체셀개수의 0% 넘지않으면 ) 인경우두변수의독립성검정은 Pearson 검정, LR Ch-square( G ) 방법을사용한다. 소표본분할표는 Fsher s exact test 를한다. x 분할표는두모집단비율차이검정, Odds Rato 검정, Ch-square 검정을할수있다. Ch-square 검정은수집자료가어떤분포를따르는지적합성에 (Goodness of ft) 이용할수있다. 두범주형변수가순서형이면선형상관분석을할수있다. Pearson cross moment ( 검정은 Mantel-Haenszel 검정 ), 이와유사한 Ph-coeffcent, Gamma ( ), Kendall 등이있다. 설명변수가순서형이고반응변수가이진형인 (bnary) 경우 Cochran-Armtage Trend 방법을사용하여반응변수의성공률의직선변화를살펴볼수있다. Ch-square 분할표를 sub 분할표로분할하여관심있는범주들간의상관관계를살펴볼수있다. 분할표분할은원래분할표가유의한경우 (Ch-square 통계량이기각값보다커귀무가설을기각 ) 사용해야한다. 다음은분할방법을요약한것이다. Hermt Contrast 방법 1 3 4 Generatng Herarchcal Structure 1 3 4 분할표검정은두범주형변수의상관관계를 (assocaton) 분석하는데사용할수있으나변수가 3 개이상이고설명변수들의반응변수에대한효과를분석하려면모형화가 (modelng) 필요하다. 이모형들을 Generalzed Lnear Model (GLM: 일반화선형모형 ) 이라한다. GLM 은반응변수가측정형인경우분석하는회귀분석 (Regresson), 분산분석 (ANOVA: Analyss of Varance) 은물론반응변수가범주형인경우사용하는 Logstc, Log- Lnear Model 까지포함하고있다. http://wolfpack.hannam.ac.kr sprng, 013 48
Ch. 3 Logstc Regresson 3.1. Generalzed Lnear Model Neder & Wedderburn(197) 의해제안된모형을일반화한 GLM 은 3 가지성분에 (component) 의해 정의된다. 1)random component: 반응변수의 확률분포함수 인식 )systematc component: 설명변수의 (predctor 라고도함 ) 선형함수규정 3) lnk: systematc 성분과 random 성분의기대값사이의함수관계를표현. 3.1.1. GLM 의성분 (component) Random component 랜덤성분은 natural exponental famly( 자연대수군집 ) 의분포로부터추출된서로독립인관측치 Y ( Y1, Y,... Yn ) 로구성되어있다. 즉각관측치 Y 의확률밀도함수는다음과같다. f ( y ; ) a( ) b( y ) exp[ yq( )], 는모수 (parameter) Posson 분포 ( 분할표의셀의관측빈도 ), Bnomal 분포 ( 성공회수 ), Standard Normal 분포 ( 일반회귀분석 ) 가 natural exponental famly 에속한다. 모수 ( ) 의값은관측치마다변할수있다. Q( ) 를자연대수모수라한다. Systematc component 설명변수로구성된행렬 X ( 자료행렬 data matrx 혹은 desgn matrx), 모형의모수벡터를 라하자. 다음의 lnear predctor ( 선형예측치 ) 가 GLM 의 systematc 성분이다. X 0 1x1 x... p xp j xj for 1,,... n j Lnk component Random 성분과 systematc 성분을연결하는성분을의미한다. 관측치 Y 의기대치를 E( Y ) 라하자. 이때 는 g( ) 식에의해 와연결된다. lnk 함수 g 는미분가능한단조함수이다. (monotonc dfferental functon) g( ) j x j j 연결함수의간단한형태는 dentty lnk ( 항등연결 ) 인 모형이며일반적인회귀모형이다. g( ) 이다. 이것은평균반응 E ( y ) j xj 0 1x1 x j... x 평균을자연대수모수로변환하는연결함수를 Canoncal Lnk 라한다. 즉 Canoncal p p Lnk 에서는 g ) Q( ) ( x x x... x j j j 0 1 1 p p 이다. Canoncal Lnk 가 가장일반적인연결함수이다. http://wolfpack.hannam.ac.kr sprng, 013 49
Ch. 3 Logstc Regresson 3.1.. Logt model 범주가 개인경우 ( 이진, bnary 예 ; 성공 / 실패, 범주값을 0, 1 로표시할수있다. 이진변수는성공확률이 Pr(Y 1) 인 Bernoull 분포를따른다 ) 범주형확률밀도함수는 y 1 y f ( y ; ) (1 ) (1 )[ /(1 )] (1 ) exp[ y y ln( )] : NE Famly 1 자연대수모수 Q( ) ln( ) 은 odds rato 의 ln 값으로 의 Logt 이라한다. 이 Logt 1 연결을사용하는 GLM 을 Logt 모형이라한다. ln( ) j xj 0 1x1 x... p x 1 j p 3.1.3. Log Lnear model 분할표의셀의빈도 n 는 Posson 분포를따른다고가정한다. 셀 E( n j ) m 라하면 n 의확률밀도함수는 n 의기대빈도를 exp( m )( m ) f n ; m ) n! n 1 exp( m )( ) exp[ n n! ( 자연대수모수 Q ) ln( m ) 이다. ( ln( m ) = j xj 0 1x1 x... p xp j ln( m )] : NE Famly 3.1.4. GLM 모형분석방법 Random 성분, Systematc 성분, Lnk 함수에의해 GLM 분석방법을정리하면다음과같다. Random 연결함수 Systematc 성분 Model ( 분석방법 ) 성분 ( 반응변수 ) ( 설명변수 ) Normal Identty ( 항등 ) 연속 ( 측정 ) Regresson Normal Identty 범주 ANOVA Normal Identty Mxed ( 연속 + 범주 ) Regresson wth Indcator ANCOVA Bnomal Logt Mxed Logstc Regresson Posson Log Mxed Log-Lnear Multnomal Generalzed Logt Mxed Multnomal response 전통적인분석방법은반응변수를변환하여일정한분산을갖는정규분포에근사시켜최소자승방법을 (Least Square Method) 사용한다 ( 일반적인회귀분석 ). 이와는대조적으로 GLM 에서는반응변수가더이상정규분포가아니거나근사하지않으므로추정방법은 http://wolfpack.hannam.ac.kr sprng, 013 50
Ch. 3 Logstc Regresson 최소자승법과다르다. GLM 에서는연결함수의선택과 Random 성분의선택은별개이고 log 우도함수는 (lkelhood functon) strctly concave 하므로 ML estmate( 최대우도추정치 ) 가존재한다. ML 추정치는 Fsher s scorng 이라는 teraton algorthm 에의해계산된다. 이추정치계산은연결함수나 Random 성분의확률변수선택에상관없이적용될수있다. 3.. Logstc Regresson 반응변수 Y 를이진변수라하자. 예를들어성공 / 실패, 취업 / 미취업, 만족 / 불만족등범주가 개인변수를이진변수라하며자료코딩시는 0, 1 로한다. 이진변수의확률밀도함수는성공확률이 Pr(Y 1) 인 Bernoull 시행이다. 그러므로 Y 의기대치는 이고분산은 ( 1 ) 이다. 독립인이진변수에의한성공횟수 ( Y ) 의분포는 Bnomal 분포이다. 3..1. Lnear Probablty Model ( 선형확률모형 ) 이진반응변수에대해선형모형 ( Y ) ( x) x 을선형확률모형이라한다. 이를 E 0 1 Identty Lnk ( 항등연결 ) 이라한다. 성공확률이설명변수 x 의값에따라선형적 (lnear) 으로변한다. 이모형은이항랜덤성분과항등연결함수를갖는 GLM 이다. 이모형은 x 의큰값, 작은값에따라성공확률 ( ) 이음수이거나 1 이상의값으로추정될수있는구조적문제를갖고있다. 분산 V ( Y ) (1 ) 은일정하지않고성공확률이 0 이나 1 로가까워짐에따라분산은 0 에가까워진다. 그러므로더이상일반추정치는 MVLUE 는아니다. 3... Logstc Regresson Model 선형확률모형은구조적문제가있다. 성공확률 ( ) 은 x 와선형적인관계가있다기보다는비선형가정할수있다. x 의변화량은 가 0 이나 1 에가까이있을때영향력이적을것이다. 이관계를 S-형태곡선으로나타낼수있을것이다. ( x) log t( ( x)) ln( ) 0 1x 1 ( x) exp( 0 1x) ( x) 1 exp( x) 0 1 1 1 0 (x) 1 0 0 x http://wolfpack.hannam.ac.kr sprng, 013 51
Ch. 3 Logstc Regresson 위의변환을 log odds 변환모형을 Logt 모형이라한다. 즉 x 가 로감에따라성공확률은 1 의부호에따라 0( 1 0 ) 혹은 1( 1 0 ) 에근사한다. 만약 1 가 0 이면 ( x) 반응변수는설명변수 x 와독립이다 ( 영향을받지않는다 ). 1 ( x)[1 ( x)] 이므로 x ( x) 1/ 에서기울기가가장급하며 ( 크며 ) 이클수록기울기가급해진다. 1 Inference ( 추정 ) Logt 모형에서회귀계수 (, 1,,..., p ) 의추정및검정 MLE (Maxmum Lkelhood Estmate) 에대한 Wald (1943) 연구로부터모수에대한대표본신뢰구간은다음과같다. z / ASE( ) : ASE = Asymptotc Standard Error ( 근사표준오차 ) ' ' * ( 1,,.., q ) 를모형의모수 subset 이고 * ( 1,,.., q ) 0 을검정한다고하자. ( 예를들면첫번째설명변수의유의성을검정하려면 H 0, 만약 번째, 3 번째설명 0 : 1 변수의유의성을검정하려면 H 0 : 3 0 이다 ) L1 을 Full-모형에서의로그우도함수, ' L 을 Reduced-모형 ( * ( 1,,.., q ) 0 라하고모형을축소 ) 에서의로그우도함수라하면다음이성립한다. 이를 GLM 의 Devance( 벗어남 ) 라정의한다. Reduced 모형의우도함수가 Full 모형의우도함수값의차이가적으면귀무가설에서유의하지않다고설정한설명변수 ( 회귀계수 ) 는반응변수를유의적으로설명하지못하다는것이다. GLM 의 Devance l ln( ) [ln l ln l1] [ L L1 ] ~ ( q) : l1 위의결과는 Theorem 우도비 ~ 으로부터 ( 유사결과 : 페이지 7 참고 ) Wald(1943) 는모수추정치의대표본정규분포근사이론에근거하여다음을증명하였다. ˆ ' ˆ ˆ ˆ * ( Cov( * )) * ~ ( q) : Wald 통계량 Logt 모형의계수추정에대한자세한내용은 Alan Agrest (1990), Wley publcaton- page 11-117 참고하기바란다. http://wolfpack.hannam.ac.kr sprng, 013 5
Ch. 3 Logstc Regresson 3..3. Inverse CDF( 역함수 ) Lnks 페이지 61 에서성공확률 ( (x) ) 함수의형태는 ( 1 0 ) 인경우누적분포함수의 (cumulatve probablty densty functon) 의형태와유사하다. 만약 1 0 인경우는 x 대신 x 대치하면같은곡선을얻는다. 이사실을 ( x) F( ) : F 는누적확률밀도함수 ) 이용하여누적밀도함수의 ( 0 1x 역함수를연결함수로갖는 GLM 을얻을수있다. 1 F ( ( x)) 0 1x 1 0 인경우 logstc 회귀모형 ( x) exp( 0 1x) /[1 exp( 0 1x)] 은 Logstc 분포의확률밀도함수와유사하다. 1 exp( ( x ) / ) Logstc 확률밀도함수 (pdf) f ( x, ) 평균 =, 분산 = [1 exp( ( x ) / )] 3 1 Logstc 누적확률밀도함수 (cdf) F ( x, ) [1 exp( ( x ) / )] 1 0 인경우 logstc 회귀모형 ( x) exp( 0 1x) /[1 exp( 0 1x)] 은 Logstc 분포의확률밀도함수와유사하다. Logstc regresson 선은만약 F 가 0, 1 인표준 CDF 이면 ( x) F( 0 1x) 형태를갖는다. 이선은평균이 / 이고분산이 CDF 이다. 즉 Logt 변환은 logstc CDF 의역함수이다. 3 인 Logstc 분포함수의 Probt model 만약 F 가표준화정규분포 CDF 이면 ( x) ( 0 1x) 는 Probt 모형이다. 정규분포의꼬리가 Logstc 분포의꼬리보다얇으므로 (x) 가더빨리 0 이나 1 로 접근한다. 1 Pr obt( ( x)) ( ( x)) 0 1x 3..4. 모형추정 Lnear probablty model: ˆ ( x) 0 1x ˆ( x) Logt model: ln( ) 0 1x 1 ˆ( x) 1 Probt model: ( ˆ( x)) 0 1x http://wolfpack.hannam.ac.kr sprng, 013 53
Ch. 3 Logstc Regresson Example Thymdne 주사후셀의증식활동지수 (LI) 와암환자고통완화연구 : 고통이 완화된것을성공이라고간주하고이를 1 로코딩하였다. LI 의 14 수준에서 7 환자들이 ( 관측치 ) 조사되었다. LI 총환자수고통완화환자수 (x) 관측치 8 0 0 10 0 0 1 3 0 0 14 3 0 0 16 3 0 0 18 1 1 1 0 3 /3 1 1/ 4 1 0 0 6 1 1 1 8 1 1 1 3 1 0 0 34 1 1 1 38 3 /3 DATA CANCER; INPUT LI CASE GOOD @@; CARDS; 8 0 10 0 1 3 0 14 3 0 16 3 0 18 1 1 0 3 1 4 1 0 6 1 1 8 1 1 3 1 0 34 1 1 38 3 ; RUN; TITLE 'Lnear Lnk Functon'; PROC GENMOD DATA=CANCER; MODEL GOOD/CASE=LI /LINK=IDENTITY DIST=NORMAL; OUTPUT OUT=OUT1 PRED=YHAT_LI; RUN; TITLE 'Logt Lnk Functon'; PROC GENMOD DATA=CANCER; MODEL GOOD/CASE=LI /LINK=LOGIT DIST=BIN; OUTPUT OUT=OUT PRED=YHAT_LO; RUN; TITLE 'Probt Lnk Functon'; PROC GENMOD DATA=CANCER; http://wolfpack.hannam.ac.kr sprng, 013 54
Ch. 3 Logstc Regresson MODEL GOOD/CASE=LI /LINK=PROBIT; OUTPUT OUT=OUT3 PRED=YHAT_PR; RUN; DATA FIN; MERGE OUT1 OUT OUT3; RUN; PROC PRINT DATA=FIN;RUN; 프로그램설명 GENMOD 는 GENeralzed lnear MODel 의약어이다. Model 은모형을설정한다. 반응변수 = 종속변수들형태를갖춘다. LINK 는연결함수를지정한다. Lnear Probablty Model 에서는반응변수는정규분포함수설정 (DIST=Normal) Logt model 에서는반응변수분포를이항분포로설정 Probt 에서는 DIST 가필요없다. OUTPUT 문 (statement) 은모형추정결과를저장한다. OUT 옵션은결과를저장하는 SAS data 이름을지정한다. 어떤추정결과를저장할지지정한다. PRED=YHAT1 는예측치 (predcted value) 를 YHAT1 변수명에저장한다. P= RES= / U= / L= Lnear Prob. Model ˆ ( x ) 0.507 0.088* LI ( L L1 ) 설명변수 LI 는유의하다. 양의부호 (0.088) 를가지므로 LI 가증가할수록병완화비율은높아진다 http://wolfpack.hannam.ac.kr sprng, 013 55
Ch. 3 Logstc Regresson Logt Model ˆ( x) ln( ) 3.771 0.1449* LI 1ˆ( x) 1 ˆ( x) 1 exp ( 3.771 0.1449* LI ) 설명변수 LI 는유의하다. 양의부호 (0.1449) 를가지므로위의식에서 LI 가증가할수록병완화비율높아진다 Probt Model 1 ( ˆ( x )).3178 0.0878* LI ˆ ( x) (.3178 0.0878* LI ) 설명변수 LI 는유의하다. 양의부호 (0.038) 를가지므로위의식에서 LI 가증가할수록병완화비율높아진다 http://wolfpack.hannam.ac.kr sprng, 013 56
Ch. 3 Logstc Regresson ˆ ( x) 그래프그리기 SYMBOL1 I=L3 V=NONE C=BLACK; Symbol: 선들에대한옵션 SYMBOL I=L3 V=NONE C=RED; SYMBOL3 I=L3 V=NONE C=BLUE; V= value C=color I=nterpolate AXIS1 ORDER=0 TO 1 BY 0.5 Axs 는축에관한옵션 LABEL=('PHI_HAT'); AXIS ORDER=8 TO 38 BY 10 ORDER= 눈금, LABEL= 축이름 LABEL=('LI LEVEL'); TITLE 'PHI HAT BY MODELs'; PROC GPLOT DATA=FIN; PLOT (YHAT_LI YHAT_LO YHAT_PR)*LI /OVERLAY VAXIS=AXIS1 HAXIS=AXIS; RUN; 그래프를한꺼번에 http://wolfpack.hannam.ac.kr sprng, 013 57
Ch. 3 Logstc Regresson Recall: 회귀분석에서의접근 [1999년 1학기강의 ] 종속변수가분류형변수인경우설명변수와인과관계를살펴보는데사용된다. 종속변수의수준이 3 개이상인경우 LOGISTIC 모형을사용하는것이아니라 CATMOD 를사용해야한다고언급한책이있다. 그러나 CATMOD 는 CATegorcal data MODelng 의약어로분류변수자료모형화이며, LOGISTIC 모형은 CATMOD 기법의한부분입니다. LOGISTIC 모형은종속변수의수준이 3 개이상인경우에도가능하나종속변수가분류형변수중 ordnal( 순서형명목형 : nomnal) 일경우만가능하다. 순서형변수? 기업의크기 ( 대, 중, 소 ), 건강상태 ( 양호, 보통, 불량 ), 학점 (A, B, C, D) 등크기순서에의해분류된경우 ODDs 개념 (Bettng 의기준이된다 ) p/(1-p): 어떤사건이발생할가능성 [p=0.5 일경우 1이다. 기준 ] 한국이 00 년 16 강에들어갈확률 0.1 이면 1/9 이 Odds 이다. => 1$ bettng, 9$ return 브라질이 00 년 16 강에들어갈확률 0.8 이면 4 가 Odds 이다. => 4$ bettng, 1$ return OLS 방법의단점 결정계수가매우낮고회귀계수의 t-검정통계량값이맞다. E(Y)=Prob(Y= 발생 ) 이므로해석의어려움이있다. 실제값은 0, 1, 이나예측치는그값이발생할확률이다. 분류형변수특성상이분산의가능성이높다. ODDS TRANSFORMATION p/(1-p) 를 odds transformaton 이라한다. p=pr(y=1) 일확률이라하자. p 는 0과 1사이이므로 odds 는 0과 이다. Log 변환을하면 LOG{p/(1-p)} 는 -와 사이의값이므로 p LOGIT ( p) ln( ) 0 1X1 X.. p X p e 1 p 1 => p ( 0 1X1 X.. p X p e) 1 e http://wolfpack.hannam.ac.kr sprng, 013 58
Ch. 3 Logstc Regresson 모형의적합성검정및회귀계수유의성검정 Log L, AIC(Akake Informaton Crteron) Schwartz Crteron=> Adjusted 결정계수와유사한개념 회귀계수의유의성검정은 Wald 의 Ch-square 검정통계량을이용한다. The LOGISTIC Procedure Response Profle Ordered Value Y Count 1 0 33 1 3 Event No Event PROC LOGISTIC DATA=LOGIT; MODEL Y=X1-X5/CTABLE INFLUENCE; OUTPUT OUT=OUT1 P=YHAT; RUN; PROC PRINT DATA=OUT1; RUN; Model Fttng Informaton and Testng Global Null Hypothess BETA=0 Intercept Intercept and Crteron Only Covarates Ch-Square for Covarates AIC 9.094 13.541. SC 94.68 6.587. - LOG L 90.094 1.541 88.553 wth 5 DF (p=0.0001) Score.. 41.640 wth 5 DF (p=0.0001) Analyss of Maxmum Lkelhood Estmates 모형의유의성검정 => 모든회귀계수는 0이다. P-값이 0.0001 이므로귀무가설기각표준화회귀계수 Parameter Standard Wald Pr > Standardzed Odds Varable DF Estmate Error Ch-Square Ch-Square Estmate Rato INTERCPT 1 18.4986 15.669 1.3937 0.378.. X1 1-0.3601 0.4981 0.59 0.4696-8.9764 0.698 X 1-0.3064 0.870 1.1397 0.857-1.09019 0.736 X3 1-0.344 0.333 1.133 0.871-8.376680 0.709 X4 1 0.0000 0.064 0.0010 0.9744 0.0589 1.00 X5 1-5.7610 5.9634 0.9333 0.3340-3.41615 0.003 Assocaton of Predcted Probabltes and Observed Responses Concordant =100.0% Somers' D = 1.000 Dscordant = 0.0% Gamma = 1.000 Ted = 0.0% Tau-a = 0.508 (1056 pars) c = 1.000 설명변수유의성검정 => 회귀계수는 0 이다. P- 값이 0.05 이하인설명변수만유의 http://wolfpack.hannam.ac.kr sprng, 013 59
Ch. 3 Logstc Regresson Classfcaton Table Correct Incorrect Percentages Prob Non- Non- Sens- Spec- False False Level Event Event Event Event Correct tvty fcty POS NEG 0.000 33 0 3 0 50.8 100.0 0.0 49.. 0.00 31 9 3 9.3 93.9 90.6 8.8 6.5 0.040 31 9 3 9.3 93.9 90.6 8.8 6.5 [ 생략 ] 0.500 31 9 3 9.3 93.9 90.6 8.8 6.5 0.50 31 30 93.8 93.9 93.8 6.1 6.3 0.540 31 30 93.8 93.9 93.8 6.1 6.3 0.560 31 30 93.8 93.9 93.8 6.1 6.3 0.580 31 30 93.8 93.9 93.8 6.1 6.3 [ 생략 ] 0.740 31 30 93.8 93.9 93.8 6.1 6.3 0.760 31 30 93.8 93.9 93.8 6.1 6.3 0.780 31 30 93.8 93.9 93.8 6.1 6.3 0.800 30 30 3 9.3 90.9 93.8 6.3 9.1 0.80 30 30 3 9.3 90.9 93.8 6.3 9.1 0.840 30 30 3 9.3 90.9 93.8 6.3 9.1 [ 생략 ] 0.980 30 30 3 9.3 90.9 93.8 6.3 9.1 1.000 0 3 0 33 49. 0.0 100.0. 50.8 Senstvty=Event 반응중 Event 로예측된비율 Specfcty=No event 중 No Event 로예측된비율 어떤 Phat 값을기준으로반응변수 ( 종속변수 ) 를분류할지결정해야한다. 결정은분석자의주관에의한다. 일반적으로 0.5 를기준으로하면무방하나, Classfcaton Table 의정보를이용해오분류 (msclassfcaton) cost 가가장적은영역의 Phat 를이용하는것이바람직하다. 영향치나이상치를발견하는검정통계량이다. C, Cbar 는 Cook dstance 에근거를두고있다. DIFDEV, DIFCHISQ 는 ll-ftted 관측치를발견하는사용된다. 이예제에서는나는 0.6 을선택했다. http://wolfpack.hannam.ac.kr sprng, 013 60
Ch. 3 Logstc Regresson The LOGISTIC Procedure WARNING: The valdty of the model ft s questonable. Regresson Dagnostcs Pearson Resdual Covarates Case (1 unt = 0.06) Number X1 X X3 X4 X5 Value -8-4 0 4 6 8 1 36.7000-6.8000-89.5000 54.1000 1.7000 0 * 4.0000 3.3000-3.5000 0.9000 1.1000 0.1531 * 3-61.6000-10.8-103. 4.7000.5000 0 * 4-1.0000-18.1000-8.8000 36.000 1.1000 8.10E-7 * 5 18.9000-3.8000-50.6000 6.4000 0.9000 3.477E-6 * 6-57.000-61.000-56.000 11.0000 1.7000 0 * 7 3.0000-0.3000-17.4000 8.0000 1.0000 6.518E-6 * 8-5.1000-194.5-5.8000 6.5000 0.5000 0 * 9 17.9000 0.8000-4.3000.6000 1.0000 0.4861 * 10 5.4000-106.1 -.9000 3.8000 1.5000 0 * [ 생략 ] Devance Resdual Hat Matrx Dagonal INTERCPT Dfbeta Case (1 unt = 0.08) (1 unt = 0.06) (1 unt = 6.14) Number Value -8-4 0 4 6 8 Value 0 4 6 8 1 16 Value -8-4 0 4 6 8 1 0 * 1.38E-17 * 0 * 0.153 * 0.70 * 0.168 * 3 0 * 6.13E-40 * 0 * 4 1.146E-6 *.8E-10 * 1.E-11 * 5 4.917E-6 * 3.749E-9 * 1.59E-10 * 6 0 * 1.5E-6 * 0 * 7 9.18E-6 * 1.186E-8 * 6.64E-10 * 8 0 *.08E-34 * 0 * 9 0.6513 * 0.984 * 14.9499 * 10 0 * 1.3E-18 * 0 * [ 생략 ] X1 Dfbeta X Dfbeta X3 Dfbeta Case (1 unt = 5.9) (1 unt = 4.15) (1 unt =.87) Number Value -8-4 0 4 6 8 Value -8-4 0 4 6 8 Value -8-4 0 4 6 8 1 0 * 0 * 0 * 0.183 * -0.365 * 0.138 * 3 0 * 0 * 0 * 4-111E-13 * -658E-14 * -107E-13 * 5-153E-1 * -857E-13 * -191E-1 * 6 0 * 0 * 0 * 7-466E-1 * -49E-1 * -446E-1 * 8 0 * 0 * 0 * 9-15.8791 * 0.639 * -1.3060 * 10 0 * 0 * 0 * [ 생략 ] X4 Dfbeta X5 Dfbeta C http://wolfpack.hannam.ac.kr sprng, 013 61
Ch. 3 Logstc Regresson Case (1 unt = 3.51) (1 unt = 5.66) (1 unt = 489) Number Value -8-4 0 4 6 8 Value -8-4 0 4 6 8 Value 0 4 6 8 1 16 1 0 * 0 * 0 * -0.647 * -0.1391 * 0.1857 * 3 0 * 0 * 0 * 4 5.99E-1 * -981E-14 * 1.84E- * 5 5.81E-11 * -114E-1 * 4.53E-0 * 6 0 * 0 * 0 * 7 1.93E-10 * -558E-1 * 5.04E-19 * 8 0 * 0 * 0 * 9 6.7576 * -9.053 * 75.6 * 10 0 * 0 * 0 * CBAR DIFDEV DIFCHISQ Case (1 unt =.7) (1 unt =.73) (1 unt =.7) Number Value 0 4 6 8 1 16 Value 0 4 6 8 1 16 Value 0 4 6 8 1 16 1 0 * 0 * 0 * 0.0553 * 0.1016 * 0.0787 * 3 0 * 0 * 0 * 4 1.84E- * 1.31E-1 * 6.56E-13 * 5 4.53E-0 *.4E-11 * 1.1E-11 * 6 0 * 0 * 0 * 7 5.04E-19 * 8.5E-11 * 4.5E-11 * 8 0 * 0 * 0 * 9 13.176 * 13.6419 * 13.4539 * 10 0 * 0 * 0 * OBS X1 X X3 X4 X5 Y _LEVEL_ YHAT 1 36.7-6.8-89.5 54.1 1.7 0 0 1.00000 4.0 3.3-3.5 0.9 1.1 0 0 0.97710 3-61.6-10.8-103. 4.7.5 0 0 1.00000 4-1.0-18.1-8.8 36. 1.1 0 0 1.00000 5 18.9-3.8-50.6 6.4 0.9 0 0 1.00000 6-57. -61. -56. 11.0 1.7 0 0 1.00000 7 3.0-0.3-17.4 8.0 1.0 0 0 1.00000 8-5.1-194.5-5.8 6.5 0.5 0 0 1.00000 9 17.9 0.8-4.3.6 1.0 0 0 0.80888 10 5.4-106.1 -.9 3.8 1.5 0 0 1.00000 [ 생략 ] 64 60.3 59.5 7.0 6.6.0 1 0 0.00000 65 17.9 16.3 0.4 105.6 1.0 1 0 0.0040 66 4.7 1.7-7.8 118.6 1.6. 0 0.03417 Yhat 는 Pr(Y=Event) 의예측치이므로 Yhat 의값이 1 에가까우면그관측치는 Event(Y=1) 로분류된다. 앞에서는분류기준을 0.6 으로설정하였으므로 Yhat 의값이 0.6 보다크면관측치를 1 그룹 ( 성공 ; event) 으로분류하고 0.6 이하이면 0 그룹 ( 실패 ; non-event) 으로분류한다. 66 번째관측치는실패그룹으로분류된다. http://wolfpack.hannam.ac.kr sprng, 013 6
Ch. 3 Logstc Regresson 유의한설명변수를찾는방법 [Selecton of Varables] 일반회귀모형과동일하게변수선택을할수있다. [opton 도동일하다 ] PROC LOGISTIC DATA=LOGIT; MODEL Y=X1-X5/SELECTION=STEPWISE SLENTRY=0.05; RUN; NOTE: Model buldng termnates because the last varable entered s removed by the Wald statstc crteron. Summary of Stepwse Procedure Varable Number Score Wald Pr > Step Entered Removed In Ch-Square Ch-Square Ch-Square 1 X 1 31.0487. 0.0001 X3 4.7115. 0.0300 3 X3 1..8334 0.093 Analyss of Maxmum Lkelhood Estmates Parameter Standard Wald Pr > Standardzed Odds Varable DF Estmate Error Ch-Square Ch-Square Estmate Rato INTERCPT 1 1.1717 0.8103.0908 0.148.. X 1-0.1738 0.0568 9.3800 0.00-6.859194 0.840 PROC LOGISTIC DATA=LOGIT; MODEL Y=X/CTABLE INFLUENCE; OUTPUT OUT=OUT1 P=YHAT; RUN; PROC PRINT DATA=OUT1; Classfcaton Table Correct Incorrect Percentages Prob Non- Non- Sens- Spec- False False Level Event Event Event Event Correct tvty fcty POS NEG [ 생략 ] 0.300 3 30 1 95.4 97.0 93.8 5.9 3. 0.30 3 30 1 95.4 97.0 93.8 5.9 3. 0.340 3 30 1 95.4 97.0 93.8 5.9 3. 0.360 3 30 1 95.4 97.0 93.8 5.9 3. 0.380 3 30 1 95.4 97.0 93.8 5.9 3. 0.400 3 30 1 95.4 97.0 93.8 5.9 3. 0.40 31 30 93.8 93.9 93.8 6.1 6.3 0.440 31 30 93.8 93.9 93.8 6.1 6.3 0.460 31 30 93.8 93.9 93.8 6.1 6.3 0.480 31 31 1 95.4 93.9 96.9 3.1 6.1 0.500 31 31 1 95.4 93.9 96.9 3.1 6.1 0.50 31 31 1 95.4 93.9 96.9 3.1 6.1 0.540 31 31 1 95.4 93.9 96.9 3.1 6.1 0.560 31 31 1 95.4 93.9 96.9 3.1 6.1 0.580 31 31 1 95.4 93.9 96.9 3.1 6.1 http://wolfpack.hannam.ac.kr sprng, 013 63
Ch. 3 Logstc Regresson 0.600 30 31 1 3 93.8 90.9 96.9 3. 8.8 0.60 30 31 1 3 93.8 90.9 96.9 3. 8.8 [ 생략 ] OBS X1 X X3 X4 X5 Y _LEVEL_ YHAT 1 36.7-6.8-89.5 54.1 1.7 0 0 0.99999 4.0 3.3-3.5 0.9 1.1 0 0 0.6453 3-61.6-10.8-103. 4.7.5 0 0 1.00000 [ 생략 ] 9 17.9 0.8-4.3.6 1.0 0 0 0.07990 10 5.4-106.1 -.9 3.8 1.5 0 0 1.00000 [ 생략 ] 65 17.9 16.3 0.4 105.6 1.0 1 0 0.15956 66 4.7 1.7-7.8 118.6 1.6. 0 0.06913 9 번째관측치가오분류. 그리고대체로 Yhat 의값들이 0 혹은 1 로부터멀어져중앙값으로쏠리는경향이있다 ( 예 ; 관측치 ). 그러나오분류비율은이전모형에비해감소하였다. 적은설명변수로분류의효율을높였다. 만약 0.5 에의해집단을분류하려면다음프로그램이용 DATA FIN; SET OUT1; IF (YHAT>0.5) THEN GROUP= NON-EVENT ; IF (YHAT<=0.5) THEN GROUP= EVENT ; RUN; PROC PRINT DATA=FIN; RUN; http://wolfpack.hannam.ac.kr sprng, 013 64
Ch. 3 Logstc Regresson Recall: 다변량분석측면 [001년 1학기 ] 판별분석 (DA) 은판별변수가모두측정형 ( 연속형 : contnuous, measurement, metrc)) 인경우사용할수있다. 물론 decson tree 방법 (CART, CHAID) 인경우판별변수가이산형이나순서형분류형변수인경우도가능하지만 로지스틱회귀분석 (logstc regresson) 은혹은 Logt( 로짓 ) 회귀분석과동일하고차이가있다면종속변수가 ( 독립변수 ) 이진 (bnary: 가질수있는값이실패 / 성공, 정품 / 불량등과같이가질수있는값이 개인경우 ) 인경우분석하는것이다. 일반회귀분석은종속변수가연속형이어야한다. 로지스틱회귀분석에서종속변수값은 0, 1( 사건 : 성공, 불량 ) 로입력된다. 칠면조예제를생각해보자. 야생칠면조는경우 y=1, 사육칠면조는 y=0 으로하여회귀분석하면된다. 로지스틱회귀분석에서는종속변수가 1 혹은 0 을가질확률을추정하게된다. 그러므로이확률을이용하여개체를분류할수있다. 즉어떤개체에대해 Pr(y=1) 의추정치가 0.5 보다크면야생칠면조로 0.5 보다작으면사육칠면조로분류하면된다. 로지스틱회귀분석은이진형반응변수뿐아니라반응변수가순서형 (ordnal) 분류형인경우사용할수있습니다. 예를들면종속변수가고객의신용도이고이변수가 ( 상, 중, 하 ) 분류되어있는경우사용할수있습니다. 종속변수의수준이 3 개이상인경우 LOGISTIC 모형을사용하는것이아니라 CATMOD 를사용해야한다고언급한책이있다. 그러나 CATMD 는 CATegorcal data MODelng 의약어로분류변수자료모형화이며, LOGISTIC 모형은 CATMOD 기법의한부분입니다 일반선형회귀모형 y f ( x) 1 x1 x.. p x p e, e ~ dn (0, ) 로지스틱회귀모형의종속변수는 0 과 1 두값만가지므로 ( 더이상정규분포를따르지않는다 ) 결정계수 (R ) 가매우낮고 F-검정이나 t-검정을사용하여모형, 회귀계수추정을할수없다. ODDS & ODDS transformaton p/(1-p): 어떤사건이발생할가능성 [p=0.5 일경우 1이다. 기준 ] 한국이 00 년 16 강에들어갈확률 0.1 이면 1/9 이 Odds 이다. => 1$ bettng, 9$ return 브라질이 00 년 16 강에들어갈확률 0.8 이면 4 가 Odds 이다. => 4$ bettng, 1$ return odds transformaton: p*=p/(1-p) http://wolfpack.hannam.ac.kr sprng, 013 65
Ch. 3 Logstc Regresson 로지스틱회귀모형 종속변수를 Pr( Y 1) 라고생각해보면종속변수는어떤사건이일어날확률이 p (Y=1) 된다. 그리고여기에 ODDS 변환을해보자. * p p 1 p 확률 p 가 (0,1) 사이의값을가지므로 * p 는 (0, ) 값을가진다. ln( p ) 변환을하면이 * 변수는 (-,) 값을가지므로다음과같은모형을생각해볼수있다. p ln( ) 1 x1 x.. p x p e : 로지스틱모형 1 p 위의모형을다시쓰면다음과같다. { 1x1 x.. px p} e p Pr( Y 1 x) e { x x x 1 1.. p p} 1 e p Pr( Y 1 x) 1 e 1 { 1x1 x.. px p} e 모형의적합성검정및회귀계수유의성검정모형전체의유의성은 Log L, AIC(Akake Informaton Crteron) Schwartz Crteron 을이용하고 (Adjusted 결정계수와유사한개념 ) 회귀계수의유의성검정은 Wald 의 Chsquare 검정통계량을이용한다. 칠면조예제를사용해 Logstc 회귀분석을실시하자. 자료읽기 & Logstc 분석맛보기 http://wolfpack.hannam.ac.kr sprng, 013 66
Ch. 3 Logstc Regresson 결과해석 자료의수가 33 사육 19 마리야생 14 Event=1: Pr(Y=1) 사육 [ 중간생략 ] 모형의유의성검정전체적으로는유의 설명변수각각에대한유의성검정, 그나마다소유의해보이는변수들에대한유의성검정결과출력 : 유의한변수가보이지않는다. 매우유의하지않은변수들의유의성검정결과출력 http://wolfpack.hannam.ac.kr sprng, 013 67
Ch. 3 Logstc Regresson 변수선택프로그램 & 결과해석 방법은 STEPWISE 방법이고 SLE=0.(ENTRY) SLS=0.1(STAY) 이다. 로지스틱에서는이정도값을사용하면된다. 최종적으로선택된변수는 TIN 변수이다. 반드시넣고싶은변수포함하여변수선택 최종적으로선택된변수는 TIN 변수하나만이지만처음 9 개변수모두를넣고로지스틱분석한결과 ULN 이가장유의하였다 (p-값 =0.7918). 그래서변수선택을하되처음 개의변수를반드시포함하라는옵션이 INCLUDE= 이다. 이경우 MODEL 문에포함하기원하는변수를반드시제일앞에써야한다. 최종적으로선택된변수는 TIN 변수와 ULN 이다. 이두개외에다른변수는유의하지않았다. http://wolfpack.hannam.ac.kr sprng, 013 68
Ch. 3 Logstc Regresson 개체판별하기 CTABLE 은 Classfcaton table 로개체분류를위한정보를제공한다. 앞에서 EVENT 는 DOMESTIC( 사육 ) 칠면조였다. Event 를 Event 로정분류사육을사육으로분류 Non-Event 를 Non-Event 로정분류야생을야생으로분류 non-event( 야생 ) 를 EVENT( 사육 ) 로오분류 EVENT( 사육 ) 를 non-event( 야생 ) 으로오분류 0.3 을 cut-off 값으로하면어떨지 만약 Pr(Y=1) 예측치값이 0.3 보다크면 Event( 사육 ) 으로 0.3 보다크면야생으로분류하면된다. http://wolfpack.hannam.ac.kr sprng, 013 69
Ch. 3 Logstc Regresson 0.4 에서도오분류는동일하게 4 개이다. 차이가있다면 event 를 Non-event 로오분류할가능성이높다는것이다. 그러므로 cost 를생각하여 cut-off 선택은분석자자유. 새로운개체분류하기 _LEVEL_= 에는 Event 의수준을나타낸다. 출력결과를보면모두 DOMESTIC 이다. PHAT 는 Pr(y=1:event) 의추정치이므로 0.5 이상이면 Event 로분류하고그미만이면 nonevent 로분류한다. 우리는앞에서 0.3 을 cut-off 로하였으므로 19 번째개체는 DOMESTIC 으로분류되어야한다. 이것이 오분류이고 cut-off 가 0.3 인 경우 Event( 사육 ) 라고잘못분류할 개중에하나이다. (19 번째, 30 번째, 36 번째 ): Wld=>Domestc 으로오분류 83 번째새로운개체는 Nonevent 인 Wld( 야생 ) 으로분류한다. phat=0.1081 http://wolfpack.hannam.ac.kr sprng, 013 70
Ch. 3 Logstc Regresson HOMEWORK #6-3 TAX.txt TAX.txt 자료는다음변수에대한자료이다. 다음절차에의해 Logstc 분석을실시하시오. 1) 적절한변수를선택하고 ( 유의수준 =0.1) ) 분석결과를해석하시오. 3) Classfcaton Table 을보고적절한 Phat 기준을선택하시오. ( 분류에참고 ) 종속변수 : PREP( 세금보고전문가이용 =1, 자신이직접 =0) 독립변수 : 1)MA ( 결혼여부, 1= 결혼, 0= 미혼 ) Indcator 변수 )SE ( 자기사업 =1, 취업 =0) Indcator 변수 3)DEP ( 부양가족수 ) : 측정형변수 ( 연속형 ) 4)TR ( 세금효율 :rate) : 측정형변수 ( 연속형 ) 5)INCOME ( 소득 ) : 측정형변수 ( 연속형 ) HOMEWORK #7 다음자료는혈압 (X) 에따른심장병발병확률 (Y) 의차이가있는지알아보기위하여조사한자료이다. 111.5 11,5 131.5 141.5 151.5 161.5 176.5 191.5 혈압이구간으로추정되어있으므로모형적합시에는구간의중앙값을사용하시오. 1) Logt Model 을적합 (ft) 하고결과를해석하시오. http://wolfpack.hannam.ac.kr sprng, 013 71
Ch. 3 Logstc Regresson ) Probt Model 을적합 (ft) 하고결과를해석하시오. 3) 원자료, Logt Model 예측치, Probt Model 예측치의산점도그래프를하나의그래프에나타내시오. 3.3. Logt model for categorcal explanatory varable 3.. 절에서는설명변수가연속형 ( 측정형 ) 인경우 Logt 모형을살펴보았다. 여기서는설명변수가범주형 (categorcal) 일때분석방법을다루기로하겠다. 사실설명변수가범주형이고 lnk 함수가 Logt 이면다음장에살펴볼 Log-lnear 모형과같지만간단한예제형식으로살펴보기로하자. 3.3.1. Logt model for Ix table 반응변수설명변수 (X) 1 R 성공실패합계 y1 x1 n 11 y1 x n 1 y 1 x n 1 y 1 xr n r1 y0 x1 1 y1 x1 n 1 n 1 y0 x 1 y1 x n n y0 x 1 y1 x n n y0 xr 1 y1 xr n r n r 예제자료 156 5 84 71 139 85 99 43 http://wolfpack.hannam.ac.kr sprng, 013 7
Ch. 3 Logstc Regresson Logt model ln( 1 ) --- (1) 모형에대한분석은일원분산분석 (one-way ANOVA) 이랑동일하다. 설명변수가 연속형이면 1 x 로회귀분석과같다. 단지종속변수가 y 가아니라 ln( ) 이다. 는행의효과인데이는요인효과와동일하다. 는로짓의평균이고 ( 종속변수평균 ) 가높을수록 행의 logt 값은크고만약각행의총빈도가고정이면 ( y 1 x 는증가한다. y 1 x n ) 반응변수는성공 / 실패만있으므로모수가 ( 설명변수수준인 인경우, 즉 행의성공확률 ) 인 Bernoull 분포를따른다. 그러므로 행의성공회수 ( n 1 ) 는 Bnomal ( n n, p y1 x ) 분포를따른다. 그리고 행의효과가없다면 ( 설명변수의요인효과가없다면, 1... r 0 ) Logt model 은 다음과같이줄어든다. 1... r 0 1 x1 1 x... 1 xr 그러므로독립성 검정이란동일하다. 1 ln( ) 3.3.. Logt models for hgher dmenson 범주형인설명변수가 개이상이고반응변수가 진인경우 Logt model 을사용할수있다. 설명의편리를위하여설명변수가 개 ( 요인 A, 요인 B) 일때알아보기로하자. 두설명변수수준을각각 I, J 라하자. 그러면 1 이다. 그러므로분할표는 IxJx 형태이고 Logt model 은 ln( 1 j j ) y1 j y0 j j --- () 이모형에대한분석은교차항이 (nteracton) 없는이원 (two-way) 분산분석과동일하다. 만약각행의총빈도가고정이면 ( ) 반응변수는성공 / 실패만있으므로모수가 y 1 xj n j ( 설명변수수준인 (, j) 인 Bernoull 분포를따른다. 그러므로 행의성공 회수 ( n j1 ) 는 Bnomal ( n n, p y1j ) 분포를따른다. 한설명변수 ( 요인 ) A 의 ( 주 ) 효과가없다면 (... 0 ) Logt model 은다음과같이줄어든다. 물론요인 1 r B 의주효과에대해서도같은이론이적용될수있다. ln( 1 ) j http://wolfpack.hannam.ac.kr sprng, 013 73
Ch. 3 Logstc Regresson 3.3.3. 예제 : 범주형인설명변수가하나이고종속변수가 bnary 인경우혈압에따른심장병발병비율의차이가있는지알아보기위하여조사된자료이다. [Cornfeld (196) Homework#7 자료와동일 ] 혈압이구간으로측정되어있으므로이를범주형척도로인지하자. Homework#7 에서는 Logt Regresson Model 을사용하려면설명변수가측정형이어야하므로구간의중앙값으로 (111.5, 11.5,, 176.5, 191.5) 사용하였다. ML (Maxmum Lkelhood) 추정치 Saturated model (1) 에대하여 { } 의선택제약조건에상관없이 { } 는일정하고이에 대한 ML 추정치는표본 Logt 이다. 즉, ˆ ˆ 1 log(3 /153) 3.93 Logt Regresson Model Logt Regresson model 에의해모형을추정하면 추정치 ln( y1 x y0 x ) 6.08 0.043x x sample obs(ml) logt (BP) logt ˆ ˆ 1) Logt regresson model 의회귀계수의유의성추정은 WALD 통계량에의한다. ˆ T ~ z(0,1) (SAS 에출력 ) ASE( AsymStdErr) http://wolfpack.hannam.ac.kr sprng, 013 74
Ch. 3 Logstc Regresson ) Pearson Ch-square 통계량 ( n ˆ ) j nj ~ ( df ( r 1)( c 1) nˆ 1.4 e nˆ j 는 logt model 에의해추정된기대도수 : ( 예 ) 0. 194 1.4 1 e j 43*0.194=8.4 분할표검정에의하면 3) Lkelhood Rato Test G nj nj log( ) ~ ( df ( r 1)( c 1) nˆ nˆ j 는 logt model 에의해추정된기대도수로 1) 와동일하다. j LOG-LOG Lnk ln( ln( ( x )) x http://wolfpack.hannam.ac.kr sprng, 013 75
Ch. 4 Log-lnear Model 3 장에서는종속변수 ( 반응변수 ) 가이진형 (bnary) 인경우이고설명변수가하나이고측정형인경우분석방법인 Logt Regresson model, Probt model 을살펴보았다. 물론마지막절에서는설명변수가분류형일경우 Logt regresson model 이어떻게이용될수있는지살펴보았지만, 이것이이장에서다룰 Log-lnear 분석몫이다. Log-lnear 분석은종속변수와독립변수가모두범주형 ( 분류형 ) 인경우인과관계를분석하는방법이다. 이분석에서는분할표의셀빈도를변수들 ( 설명변수들과반응변수 ) 의관계로표현한다. 반응변수가이진형이면 Log-lnear 분석은 Logt 분석과동일하다. 종속변수가이진형이고설명변수가 개이상이고 Mxed( 측정형, 분류형 ) 인경우는 Logstc Regresson model 을사용하면된다. [ 페이지 44~ 회귀분석측면참고 : PROC LOGISTIC 절차에서도 /SELECTION=MODEL, 즉변수선택이가능, LOGISTIC 분석은개체분류하는판별분석에도사용된다. 페이지 51 참고 ]. Recall Homework #8: 페이지 57 의 Homework6-3 문제수정 TAX.txt 자료는다음변수에대한자료이다. 다음절차에의해 Logstc 분석을실시하시오. 1) 적절한변수를선택하고 ( 유의수준 =0.1) 분석결과를해석하시오. ( 회귀분석 ) ) 판별분석을실시하고 Classfcaton Table 을보고적절한 Phat 기준을선택하시오. ( 분류에참고 ) 3) 새로운사람의정보는다음과같다. 세금보고전문기업은이사람에게 DM 발송을할필요가있겠는가? 결혼, 자기사업, 부양가족 =10 명, 세금효율 =3, 소득 =1.3 종속변수 : PREP( 세금보고전문가이용 =1, 자신이직접 =0) 독립변수 : 1)MA ( 결혼여부, 1= 결혼, 0= 미혼 ) Indcator 변수 )SE ( 자기사업 =1, 취업 =0) Indcator 변수 3)DEP ( 부양가족수 ) : 측정형변수 ( 연속형 ) 4)TR ( 세금효율 :rate) : 측정형변수 ( 연속형 ) 5)INCOME ( 소득 ) : 측정형변수 ( 연속형 ) 4.1. Log-lnear Model for dmenson IxJ 분할표의총 N(=*j) 개의셀에서 n 개의표본을추출하는다항분포를고려하자. 다항분포에서확률 j 가 차원분할표의 ( dmenson contngency table) 결합밀도함수를형성한다. 만약반응이서로독립이면 j j for 1,,..., I and j 1,,..., J 이다. 그러므로가셀의기대도수 Ej mj n j 이다. Log-lnear 모형에서는확률 j 대신 mj 를사용하여모형을설정한다. X 분할표에대해예제 ( 성별에따른사후세계믿음여부차이 ) 를통해 Log-lnear model 을설명해보기로하자. http://wolfpack.hannam.ac.kr sprng, 013 76
Ch. 4 Log-lnear Model 믿는다 안믿는다 남자 435 147 여자 375 134 0.16 ( df 1) 이므로성별의차이는없다. 4.1.1. Independence model 만약두변수간에독립을가정하면 (,,j) 셀의기대빈도의 Log 는다음과같다. ln mj ln n ln ln j 행변수 ( 일반적으로독립변수 ) 를 X, 열변수를 ( 종속변수 ) Y 라하면위의식은 Log-lnear model of ndependence mj X ln --- (1) Y j where X ln ( ln h ) / I, Y ln j ( ln h ) / J, h h ln n ( ln h ) / I ( ln h ) / J. h h X 제약조건 0 X Y Y j 모수, 는평균에대한편차 (devaton) 이다. http://wolfpack.hannam.ac.kr sprng, 013 77
Ch. 4 Log-lnear Model ln mˆ j 믿는다안믿는다 남자 6.069 5.010 여자 5.935 4.876 X 분할표의경우 Independence model 의모수해석은 m11m ln ln( ) ln m11 ln m ln m1 ln m1 m1m1 X Y X Y X Y X ( 1 1 ) ( ) ( 1 ) ( Y 1 ) 0 X 제약조건 0 Y j 과 ln mj X Y j 을이용하여식 (1) 의모수에대한 추정치를구하면다음과같다. 유일근 ( 독립모형에서는각요인에서모수가중복적으로정의되어 ) 이아니므로요인의마지막수준을 0 으로하거나 ( 방법 1: SAS GENMOD) 첫수준을 0 으로하거나 ( 방법 : SAS GENMOD) 모수의합을 0 으로한방법 ( 방법 3: SAS CATMOD) 으로모수를추정할수있다. X 1 방법 1 4.876 0.134 0 1.059 0 방법 6.069 0-0.134 0-1.059 방법 3 5.47 0.067-0.067 0.59-0.59 X Y 1 Y X 1 행 열을보면 ln m1 1 4.876 0.134 0 5.01 ln(149.9) Y 그리고어떤방법을사용하더라도요인의주효과 (man effect) 를나타내는모수간차이는항상동일하다. 예를들어 1 Y Y 1. 059 이다. 그러므로 ˆ ˆ ln ln( ) 1. 059 이고 odds 1 1.059 (435134) rato 의추정치 ˆ 는 e. 88 이다. (x 분할표방법과동일 = exp[ ] ) (375147) http://wolfpack.hannam.ac.kr sprng, 013 78
Ch. 4 Log-lnear Model 4.1.. Saturated model 만약변수들간에독립이성립하지않는다고가정하자. 그리고 n j ln m, j n n j j, J n n I j j, n n j I J j 라놓고 X n n.. Y XY, n j n.., j nj n n j n.. 라하면다음과같이놓을수있다. j X X j XY j lg m XY XY, 제약조건 0 j j --- () j 모수의개수 1 개, X 형태의비중복모수수 (I-1), Y j 는 (J-1), j XY 는 (I-1)X(J-1) 이므로총모수수는 IJ 개이다. 이경우모수의수가가자많으므로 꽉찼다 는의미의 saturated model 이라한다. (cf) Independence model = reduced model ( 귀무가설이성립할경우 ) 식 (1) Saturated model = full model 식 () 식 () 와같은모형을 herarchcal model ( 층화모형 ) 이라한다. 층화모형이란차수항이 높은요인이있으면저차항은반드시포함되어있는것이다. XY j 이있으면 X, Y j 이 들어있는경우이다. 층화모형이선호되는이유는낮은차수항이포함되지않으면고차항에 ( 교차효과와비슷 ) 대한해석이어렵기때문이다. 그리고 nj ln mj, n n j j, J n n I j j, n n j I J j 라놓고 X n n.. Y XY, n j n.., j nj n n j n.. 라하면다음과같이놓을수있다. mj X X j XY j ln, 제약조건 0 --- () 위의모형은교차 (nteracton) 항이있는 two-way ANOVA 모형과동일하다. 는평균에 X 대한편차이므로만약 0 이면 행셀들의기대치 ( 물론 log 기대빈도의평균 ) 는전체분할표의기대치보다높다. XY j j XY j X http://wolfpack.hannam.ac.kr sprng, 013 79
Ch. 4 Log-lnear Model Saturated model 의모수의수는 1 ( I 1) ( J 1) ( I 1)( J 1) IJ 이고 ndependent model 의모수수는 1 ( I 1) ( J 1) I J 1이고만약모든 0 이면두변수는서로 독립이다. XY j X 분할표의경우 Saturated model 의모수해석은 m11m ln ln( ) ln m11 ln m ln m1 ln m1 m1m1 X X XY X X XY ( 1 1 11 ) ( ) ( XY XY XY XY 11 1 1 X 1 X XY 1 ) ( X X 1 XY 1 ) 조건 0 에의해 XY j j XY j XY XY XY XY 11 1 1 XY log 411 XY 11 그러므로 0 ( 독립 ) 이면 Odds rato 는 1이된다. (Recall: 독립 ) 식 () 는 m j exp X X XY ( j j ) 이고셀확률 j mj mab 는 j XY ( j ) exp X X ( j exp j X X j XY ) IxJ 분할표에서는 (I-1)x(J-1) 개의연관성모수만을중복되지않게정의할수있고독립성검정은 (I-1)x(J-1) 개의모수들이 0 인지를검정한다. 그러므로 X 에서는 1 개의모수가 odds rato 를결정한다. 다음은예제자료 (x 분할표 ) 의연관성관련모수를추정한예이다. XY 11 XY 1 XY 1 XY 방법 1 0.056 0 0 0 방법 0.014-0.014-0.014 0.014 방법 3 0 0 0 0.056 XY XY XY XY ln 11 1 1 ˆ 0. 056 0.056 e 1. 057 http://wolfpack.hannam.ac.kr sprng, 013 80
Ch. 4 Log-lnear Model 4.1.3 SAS 사용예제 [Independence model] 75page 76page 74page http://wolfpack.hannam.ac.kr sprng, 013 81
Ch. 4 Log-lnear Model 74page[ ] 기대도수와관측도수는같다. (saturated model) 4.. Log-lnear Model for 3 dmenson 인과관계연구에서중요한것은예측변수 (predctor) 와통제변수 (control varable) 를어떻게잘선택하냐하는것이다. 하나의반응변수와하나의설명변수간의관계를연구할때그관계에영향을미치는변량 (covarate) 을조정해야한다. 예를들어간접흡연의효과를알아보기위하여남편이흡연하는아내들의폐암발생율과남편이비흡연자인아내들의폐암발생율을비교할수있을것이다. 종속변수는폐암발생여부, 설명변수는남편흡연여부이다. 이경우인과관계를제대로분석하려면여자의나이, 사회학적수준, 근무환경등을조정해야한다. 4..1. Partal Assocaton 변수가 3개 (X, Y, Z) 이고모두범주형 ( 분류형 ) 이라면다항분할표를얻을수있다. 이경우 Z 의값에따라 X-Y 분할표를얻을수있다. 이분할표를 partal table 이라하고 z 는 controlled 되었다고한다. partal table 을결합하여얻어진분할표를 X-Y margnal table 이라하는데이경우 z는무시되었다고본다. http://wolfpack.hannam.ac.kr sprng, 013 8
Ch. 4 Log-lnear Model 4... Death Penalty Example 다음 Table 5.1 은 Radelet(1981) 의 xx 분할표로살인사건의피고 (defendant) 인종에따른사형판결 (death penalty) 의차이는있는지알아보고자조사한자료이다. 총관측치수는 36 명. 종속변수는 Death penalty, 설명변수는 Defendant race, 그리고 control 변수가 vctm race 이다. 빨간박스안은 Vctm( 피해자 ) 의인종을무시하고구한사형언도받은사람비율이다. 이것만보면흑인의사형언도비율은약 10%, 백인의사형언도비율은 1% 로흑인이낮다. [Table 5.] 그러나 vctm 인종을고려하여보자. Vctm 이백인일때피의자흑인의사형언도비율은 4.9%(=17.5-1.6) 높고 vctm 이흑인일때피의자백인의사형언도비율은흑인에비해 5.8% 낮다. 즉 vctm 인종을 control 하면흑인의사형언도비율이높다. control 변수를고려하면왜두변수간의관계의방향이변하는가? Table 5.3. 을보자. Table 5.3 의 Odds rato 를계산할때는셀이 0 인셀이있어각셀에 0.5 을더하여계산하였다. Margnal (vctm 인종이무시 ) 값을살펴보면 Defendant 가백인인경우흑인보다사형언도받을가능성은 1.18 배이다. Partal (vctm 의인종이 control) 을보면 vctm 인종이백인인경우 (Level1) 백인 defendant 사형언도가능성은흑인의 0.67 배, vctm 이흑인일경우 0.79 배로 margnal 의결과와반대가된다. 이는왜그럴까? vctm 인종과 defendant 인종간의 odds rato 의값이매우높다. 즉 vctm 백인인경우 defendant 백인이흑인에비해 5.99 배이다. http://wolfpack.hannam.ac.kr sprng, 013 83
Ch. 4 Log-lnear Model vctm 인종이백인이많고백인이백인을많이살해하므로 vctm 인종만을고려하지않으면백인이흑인에비해사형언도받을가능성이높다고결론지을수있으나 vctm 인종을고려하면해석은달라진다. 다음은 margnal 과 partal 의효과의차이를보여준것이다. 동그라미는 defendant 인종과 vctm 인종의결합에서관측치크기이다. 이렇게 margnal 과 partal 효과가달라지는경우를 Smpson Paradox 라한다. http://wolfpack.hannam.ac.kr sprng, 013 84
Ch. 4 Log-lnear Model 4..3. Independence 종류 변수 X, Y, Z 3 개있다고가정하자. 식 (5.10) 의 mutual ndependence 는 log-lnear model log( m jk ) X Y j Z k 식 (5.1) 은 log-lnear model log( m jk ) X Y j Z k XZ k 식 (5.15) 은 log-lnear model log( mjk ) X Y j Z k XZ k YZ jk 4..4. Margnal vs. condtonal Independence 다음자료는변수 X( 성별 ), Y( 소득수준 ), Z( 전공 ) 의연관성분석을위한자료라하자. 전공이주어진경우성별과소득수준과의연관성은 odds rato 에의해계산되는데 0.18 0.18 0.0 0.3 Lberal art: 1, Scence: 1 서로독립 (condtonal) 0.1 0.1 0.08 0.08 전공을무시한성별과소득수준과의연관성은 odds rato 에의해계산되는데 0. 0.4 독립이아님 (margnal) 0. 0. http://wolfpack.hannam.ac.kr sprng, 013 85
Ch. 4 Log-lnear Model 전공을무시할때소득수준의 hgh 의 odds rato 의경우여학생보다남학생이 배높다. 왜이런경우가? 해답은성별과전공, 소득수준과전공의 condtonal adds rato 는 6이다. 소득이주어진경우전공과학의전공선택은남자가 6 배높고, 성별이주어진경우소득수준이높은사람은과학전공자가인문과학전공자보다 6배높다. 만약 Y 가 (X, Z) 와 jont 독립이라면 양변을 k 에대해합하면 j jk j k j (X, Z) 와독립이라면 X, Y 는 condtonally, margnally 독립이다. 이다 (condtonally ndependence). 만약 이므로 X, Y 는 margnal 독립이다. 그러므로 Y 가 Three-factor nteracton model log( m jk ) X Y j Z k XY j XZ k YZ jk http://wolfpack.hannam.ac.kr sprng, 013 86
Ch. 4 Log-lnear Model 4.3. Log-lnear models for 3 dmenson log( m jk ) X Y j Z k XY j XZ k YZ jk XYZ jk (X, Y, Z) 모두독립 (XY, Z) Z는 (X, Y) 와독립 (XY, YZ) Y 가주어진경우 X와 Z가독립 (XY, YZ, XZ) X, Y, Z 의어떤쌍도서로조건적독립이아니고 3차교차항이없다. (XYZ) X, Y, Z 의어떤쌍도서로조건적독립이아니고각쌍의 odds rato 가다른변수에따라변한다. http://wolfpack.hannam.ac.kr sprng, 013 87
Ch. 4 Log-lnear Model Example Ths analyss reproduces the predcted cell frequences for Bartlett's data usng a log-lnear model of no three-varable nteracton (Bshop, Fenberg, and Holland 1975, p. 89). Cuttngs of two dfferent lengths ( Length=short or long) are planted at one of two tme ponts (Tme=now or sprng), and ther survval status ( Status=dead or alve) s recorded. 3 차교차항만유의하지않으므로모형은다음과같다. log( m jk ) X Y j Z k XY j XZ k YZ jk http://wolfpack.hannam.ac.kr sprng, 013 88