Categorical Data Analysis Ch. 1 Introduction 1.1. 범주형자료분석이란자연과학, 사회과학은물론의학관련분야에까지범주형자료분석은널리활용되고있다. 기업의부실여부판단, 새로운의학치료법에대한가치평가, 사람들의의견에영향을주는요인들에대한평가등범주

Size: px
Start display at page:

Download "Categorical Data Analysis Ch. 1 Introduction 1.1. 범주형자료분석이란자연과학, 사회과학은물론의학관련분야에까지범주형자료분석은널리활용되고있다. 기업의부실여부판단, 새로운의학치료법에대한가치평가, 사람들의의견에영향을주는요인들에대한평가등범주"

Transcription

1 Ch. 1 Introducton 1.1. 범주형자료분석이란자연과학, 사회과학은물론의학관련분야에까지범주형자료분석은널리활용되고있다. 기업의부실여부판단, 새로운의학치료법에대한가치평가, 사람들의의견에영향을주는요인들에대한평가등범주형자료에대한분석의필요성은증가하고있다. 그러나범주형자료분석은다른일반적인분석과는달리모형이다소복잡하고결과해석이용이하지않아 변수 (varable) 와자료 (data) 자료수집의대상이되는모집단의특성을변수 (varable) 라하고변수의측정치를관측치 (observaton) 라하며, 자료 (data) 는이런변수와관측치로이루어진숫자모임이다. 직장인의식습관중아침식사여부, 점심메뉴, 음주횟수, 비만도에관심이있다면이들각각을변수라한다. 변수라는의미는각측정치가각직장인마다변하기때문이다. 측정된각직장인들의변수측정치를관측치라한다. 각변수를열, 각학생들의측정치를행으로하여만들어진행렬을자료행렬 (data matrx) 이라하고이를자료라한다. 변수와자료가구별되기도하지만때로는변수를자료와혼용하여사용하기도하는데본강의에서도자료와변수를굳이구별하지는않겠다 자료종류변수의형태에따라자료분석방법이결정되므로자료에적합한분석방법을찾으려면측정할변수의형태를구별할수있어야한다. 자료분석에서의변수분류방법은측정할수있거나셀수있는측정형 (measurable 혹은 numercal) 변수와개체나집단을분류하는데사용되는분류형 (categorcal) 변수로나누어진다. 측정형변수는양적 (quanttatve) 변수, 개체의특성에따라집단을분류하는분류형변수는질적 (qualtatve) 변수라고분류되기도한다. 측정형 (metrc) 양적 (quanttatve) 비측정형 (non-metrc) 분류형 (classfed) 범주형 (categorcal) 질적 (qualtatve) 측정가능하거나셀수있는것에대한자료 ( 변수 ) 로크기를가지고있다. ( 예 ) 키, 몸무게, 매출액, 나이, 교통량, 물가지수개체를분류하는데사용되는자료 ( 변수 ) 순서형 (ordnal): 순서가있는분류 ( 예 ) 학년, 소득수준 ( 상, 중, 하 ), 병의단계 명목형 (nomnal): 단지분류만 ( 예 ) 성별, 거주지, 취업유무, 병의종류 1

2 Ch. 1 Introducton 수리통계에서는변수를나누는경우이산형 (dscrete), 연속형 (contnuous) 으로나누는데이는위의자료분류와는다름에유의하기바란다. 측정형변수를 nterval, rato(steven, 1951) 로나누기도하지만본강의에서는구별하지않기로한다. nterval 은크기를가지고있고크기의차이에의해상대적비교가가능한경우 ( 예 : 온도, 지능지수 ) 이다. Rato 는 nterval 자료의성질에 0 을가지므로값들의비가의미를갖는경우로대부분의측정형변수 ( 예 : 키, 몸무게, 소득 ) 이다. 반응변수와설명변수통계모형 ( 인과관계 ) 에서는영향을주는변수와그변수들에의해영향을받는변수가존재한다. 영향을받는변수를종속변수 (dependent), 반응변수 (response) 라하고모형의왼쪽에위치하므로 Y 변수라고도한다. 영향을주는변수들독립변수 (ndependent), 설명변수 (explanatory) 라하며모형의오른쪽에위치하며 X변수라한다. 일반적통계모형 Y f ( X1, X,..., X p ) e 각분석방법에서모형은 범주형자료분석범주형자료분석이란반응변수가하나이고범주형인통계 1) 모형의유의성과 ) 설명변수의유의성을알아보는방법이다. ( 인과 ) 모형을분석하여 o 설명변수가하나이고범주형인경우교차분석 (cross-tabulaton) 혹은분할표분석 (contngency table) 이용하기 o 설명변수가 개이상이고모두측정형변수혹은측정형변수와분류형변수혼합 Logstc Regresson Model( 로지스틱회귀모형 ) 혹은 Logt Model ( 로짓모형 ): 반응변수가 분류 (bnary, dchotomous) 이거나수준이 3 개이상인경우는 ordnal( 순서형 ) 분류형변수일경우사용된다. 반응변수의수준이 3 개이상이고순서형인경우에만 Logt 모형이라고부르기도한다. o 설명변수가 개이상이고모두분류형변수인경우 Log-Lnear Model( 로그선형모형 )

3 Ch. 1 Introducton 변수가하나인일변량분석에서는범주형자료에대한분석방법은무엇인가? 숫자적요약으로는비율을구하는것이고그래프적요약으로는파이차트, 바차트등다양한그래프에각항목 ( 수준 ) 의비율을나타내면된다. 반응변수가측정형이고두개이상인경우이고독립변수가모두범주형인경우는다변량분산분석 (Multvarate ANOVA), 독립변수가측정형, 범주형이함께있는경우는연립방정식회귀모형방법을사용하면된다. 1.. 표본추출모형범주형자료분석은통계모형에의한분석방법이므로반응변수에대한확률적분포에대한가정이필요하다. 회귀분석이나분산분석에서종속변수 ( 반응변수 ) 에대한가정은정규분포다. Y b0 b1 x1 b x.. b p x p e 범주형자료분석에서는반응변수에대한확률모형으로이항분포 (bnomal dst.) 와포아송분포 (Posson dst.), 다항분포 (multnomal dst.) 가중심역할을한다 Posson samplng 일정한시간에어떤사건 (event) 이발생하는횟수에대한분포로사용된다. 예를들면한남대학교앞도로일주일교통사건발생건수, 하루병원을찾는환자들의수에대한분포가 Posson 분포를따른다. Posson 분포의확률밀도함수는 x exp f ( x), x 0,1,... x! Posson 분포의평균 이고표준편차는 이다. 분포의특징 o 한남대도서관분실사고발생횟수가포아송분포를따르고평균 회이면 3 주동안사고발생횟수는평균이 6 포아송분포를따른다. 그러면 3 주동안사고가 전혀발생하지않을확률은? o 변수 X, X,..., X n e P ( X 0) 0! 이서로독립이고각각포아송분포 ( ) 를따르면변수의합 n X ~ Posson( 1... n ) 따른다. 1 3

4 Ch. 1 Introducton o 포아송분포는평균값 ( ) 이커지면표준편차 ( ) 도증가한다. 일반적으로평균이커짐에따라 ( 교통량발생평균이커짐에따라 ) 표준편차가증가하는자료에대한모형화에유용하다. 다른분포와의관계 o Posson 분포는 n 인경우정규분포 (, ) 에근사한다. o Posson 분포를따르는사건이발생하는사이시간은지수분포 (exponental) 를따른다. 지수분포확률밀도함수는 1 x / f ( x) e 이다. 평균과표준편차는모두 이다. o X ~ exp( ) 이고 Y ~ Posson( x / ) 인경우 Pr( X x) Pr( Y 1) 이다 Bnomal samplng 성공 / 실패두가지결과만발행하는시행을 Bernoull tral 이라한다. 즉동전을던지는실험에서앞면 / 뒷면, 제품검사에서불량 / 정품이나타나는시행을말한다. 베르누이시행에서성공 (success) 확률이 p인경우분포함수는다음과같다. x 1 x f ( x) p (1 p), x 0, 1 이런베르누이시행을 n번하는경우성공횟수 X에대한분포가이항분포이다. n x nx f ( x) P( X x n, p) p p x (1 ), x 0,1,, n 이항분포의평균은 p 이고표준편차는 npq 이다. 다른분포의관계 o n, p 0 이면 Posson 분포 ( np ) 에근사한다. o n 이면정규분포 ( np, npq ) 에근사한다. (Normal Approxmaton to Bnomal) 4

5 Ch. 1 Introducton Multnomal samplng 시행의결과가 개이상인경우, 예를회사의면접을본경우합격, 불합격뿐아니라보류라는결과가있는경우사건발생수는다항분포 (multnomal) 분포를따른다. m! f ( x, x, p, x m p 1 1 x x xn p 1 p, ) 1 x1! x! xn! xn n, 비율에대한추론 ( 일변량 ) 범주형반응변수에대한확률모형으로포아송분포, 이항분포, 다항분포를고려하였으나추정치, 표준오차추론에있어서는동일한결과를가지며로지스틱모형 (logstc) 이나로그선형모형 (log-lnear) 의모수에대한추론에서도동일한결과를가지므로구별하여사용하지는않을것이다. 여기서는이항분포모수 p 에대한 maxmum Lkelhood Estmator(MLE: 최대우도추정량 ) 을구하는방법을살펴보자. 만약제품의불량률 p 를모르는제품에서 10 개를임의로추출하여불량여부를조사하였더니 6개였다. 이때우도함수 (lkelhood functon) 는 10 6 l( p x) f ( x 6 p) p (1 p) 6 우도함수는? 표본으로부터얻은자료가발생할가능성이다. 불량개수가 0 이라면우도함수는 10 0 l( p x) f ( x 0 p) p (1 p) 그러므로 0개인경우는 p ˆ 0, 6 개인경우는 p ˆ 일반화하여보자. n x l( p x) f ( x p) p p x (1 ) nx 이항분포 ( 총시행회수 : n) 로부터성공개수가 X 개관측되었다면이항분포의모수 p 에대한 MLE? 5

6 Ch. Two-way contngency table.1. Two-way Contngency Table ( 이차원분할표 ) 맛보기.1.1. 예제 하나의범주형자료에정리방법으로사용되는것이빈도표 ( 혹은다양한차트 ) 를작성하는 것이다. 예를들어정보통계학과학생 10 에대한출신지조사결과다음을얻었다. 출신지 대전 충남 기타지역 빈도 ( 비율 ) 40(33.3%) 30(5%) 50(41.7%) 동일학생 10 명들에대해 OO 후보지지여부를물어아래결과를얻었다. OO 후보지지반대 빈도 ( 비율 ) 80(66.7%) 40(33.3%) 두범주형변수간의연관성 (assocaton) 을알아보기위해한범주형변수에대한빈도표는열로, 다른범주형변수에대한빈도표는행으로하여교차표 (cross-tabulaton) 를작성하게되는데이를이차원분할표 (two-way contngency table) 이라한다. 일반적으로영향을미친다고생각되는변수 (~ 따라서 ) 를행으로, 영향을받는다고생각되는것을변수 (~ 차이가있다 ) 를열로하여교차표를작성하면된다. 위의예제에서출신지별 OO 후보지지여부차이가있는지알아보기위하여분할표를작성하여보자. 위의두표만으로는분할표를작성할수없다. 조사할때학생들의 ( 출신지, OO 후보지지여부 ) 를조사하여분할표를작성해야한다. OO 후보출신지 지지 반대 합계 대전 30(75%) 10(5%) 40 충남 10(33.3%) 0(66.7%) 30 기타지역 40(80%) 10(0%) 50 합계 괄호안에표시된비율은행비율 (row percentage) 로출신지별후보지지여부의차이를알수있다. 대전출신자와기타지역출신자의 OO 후보지지도가높고충남지역출신자들은반대비율이높음을알수있다. 실제출신지별후보지지여부의차이는유의한가? ( 통계적가설검정분할표검정 ) 6

7 Ch. Two-way contngency table.1.. 분할표확률구조두개의범주형변수를각각 X 와 Y 로표시하고각각 I, J 수준을갖고있다고하자. X 를행으로 Y 를열로하여분할표를만들면 IxJ 개의결합조건이존재한다. 이를 IxJ 분할표 (contngency table) 혹은교차표 (cross-tabulaton table) 라한다. X 1 Y 1 C Total 11 ( 11 ) 1 1 ( 1 ) 1c ( c1 ) c ( c ) 1 R r1 r rc r Total 1 c 는 (X, Y) 가 ( 행, j 열 ) 에속할확률로 Pr( X, Y j) 이다. j j j : Jont dstrbuton of (X, Y) ( 결합밀도함수 ) j : Margnal dstrbuton of (X) ( 주변밀도함수 ) j : Margnal dstrbuton of (Y) ( 주변밀도함수 ) j j 예제를살펴보면 (3x 분할표 ).1.1. 예제는 출신지에 따른 후보 지지여부의 차이가 있는지 알아보기 위하여 모집단으로부터표본 10 명을추출하여조사한것이다. 그러므로분할표의셀의빈도는 j 의추정치로사용될수있다. pj fj n ˆ j 표본에서의결합밀도함수는 ˆ / ( 대전, 지지 ), 10 / ( 대전, 반대 ) ˆ 1 ˆ ˆ 1 10 / , 0 / ˆ 11 ˆ 3 40 / , 10 / ( 기타, 반대 ) 모두의합은당연히? 지지여부변수 Y 에대한주변밀도함수는 ˆ 1 ˆ 80 / ( 지지 ), 40 / ( 반대 ) 7

8 Ch. Two-way contngency table HOMEWORK#1-1 출신지변수 X에대한주변밀도함수? X= 가주어졌을때 Y의조건부확률분포함수 (condtonal) ˆ 1 10 / ( 충남출신자중지지하는사람비율 ) ˆ 0 / ( 충남출신자중반대하는사람비율 ).1.3. Independence ( 독립성 ) Defnton ( 정의 ) 두변수의 jont probablty 가각변수의 margnal probablty 의곱과같다면두변수는통계적 ( 서로 ) 으로독립 (statstcally ndependent) 한다. j j (cf) p( AB) P( A) P( B) 이면 A, B 는서로독립이다. Defnton ( 정의 ) X 의값이주어졌을경우변수 Y의조건부 (condtonal) 확률은다음과같이정의한다. j j (cf) B 가주어진경우 A 조건부확률은 P( AB) p( A B) 이다. P( B) Theorem ( 정리 ) 두변수서로독립이면조건부확률에대해다음이성립한다. j j HOMEWORK#1- 위정리를증명하시오. 8

9 Ch. Two-way contngency table.1.4. 반응변수에대한확률모형범주형자료분석의경우반응변수에대한확률모형은반응변수수준이 개인경우이항분포나포아송분포를가정하거나 3개이상인경우는다항분포를가정하게된다. 다행히도범주형자료분석의추론의경우어떤확률모형을가정하든동일한결과를가져오므로어떤확률모형을가정할것인지에대한걱정은할필요가없다... x 분할표 (Comparng proportons) 다음은 x 분할표이다. X Y Dfference of proportons ( 비율차이검정 ) x 분할표의경우두변수간연관성 (assocaton) 분석하는경우 -검정대신두집단간비율차이검정으로대신할수있다. 변수의수준이 개인경우인경우 bnary( 이진, dchotomous) 변수라하고 3 개이상인경우를 poly-chotomous 라한다. 이진변수의경우일반적으로성공, 실패로만나눌수있으므로 (Bernoull 시행 ) 성공확률이 p 이면실패확률은 ( 1 p) 이다. 그러므로 x 분할표를다음과같이쓸수있을것이다. x 분할표의경우행의변수 X=1 일경우성공률이 1 이면실패율은 ( 11) 이고 X= 일경우성공률이 이면실패율은 ( 1 1) 이다. X Y 성공 실패 1 ) 1 ) 1( ( 1 1 ( 1 ) 1 ) ( Theorem-1 x 분할표에서는두반응변수가서로독립이다 1 [ 증명 ] [Tp]X 와 Y가독립이다.( P( XY ) P( X ) P( Y ) ) P ( Y 1 X 1) P( Y 1 X ) 이런식으로증명하시오. 9

10 Ch. Two-way contngency table Example Harvard 대학에서심장마비증세에아스피린 (asprn) 이효과가있는지알아보기위하여한그룹에는위약을다른그룹에는아스피린을투여하여 5년이지난후심장마비발생여부를조사하여다음표를얻었다. (Alan Agrest textbook page 17) 약 치명적심장마비 발생 건강 Placebo ( 위약 ) ,845 아스피린 ,933 약의종류와심장마비발생여부와연관성이있는가? ( 즉약의종류에따른심장마비여부차이는있는가?) 분석은위약복용자의심장마비발생율과아스피린복용자의심장마비발생율의차이가있는지검정하는것과동일하다. 189 위약복용자심장마비발생률 1 의추정치는 ˆ 1 p ,034 이고아스피린 104 복용자심장마비발생율 1 의추정치는 ˆ p 이다. 11,037 비율차이검정순서 o 귀무가설 : H 0 : 1 ( 위약복용자심장마비발생율은아스피린복용자의그것과 동일하다 ) o 대립가설 : H a : 1 ( 같지않다 ) x1 x o 통계량 : ( p1 p ) ( ) n1 n Recall Bnomal( n, ) : Bernoull 시행 x1 ~ 1 1 Theorem- 두집단이서로독립이고표본의크기 ( n 1, n ) 가크다면 [ 증명 ] 1(1 1) (1 ) ( p1 p ) ~ Normal( 1 1, ) 이다. n1 n 10

11 Ch. Two-way contngency table Example 심장마비증상에대한아스피린효과실험. ( 계속 ) ( p1 p ) ( ) o 검정통계량 : T p1(1 p1) p (1 p ) ( ) ( ) n n 11,034 11,037 1 o 결론 : 유의수준을 5% 라 (신뢰수준 95%) 하면기각값은 (crtcal value) 1.96 이다. 검정통계량의값이기각값보다크므로귀무가설을기각한다. 심장마비발생율은차이는있다. 그러므로아스피린복용자의심장마비발생율이위약복용자보다낮으므로아스피린은심장마비억제효과가있음을알수있다. o 신뢰구간 : ( p 1 p ) z / p (1 p 1 n 1 1 ) p (1 p (0.0015) (0.005,0.011) n )... Relatve rsk 와 Odds Rato Relatve rsk 두비율의값의차이는두비율이 0.5 근처일경우보다는 0 이나 1 일경우더중요한의미를갖는다. 예를들어두집단의비율의차이가 인경우 (0.0171, ) 가 (0.5, ) 보다는상대적중요성을갖는다. 이를개념화한값이 relatve rsk ( 상대위험도 ) 이다. 1 상대위험도 Example 심장마비증상에대한아스피린효과실험. ( 계속 ) ˆ 상대위험도추정치 1. 8 ˆ 위약복용그룹의심장마비발생율이 8% 나높다. (0.5, ) 경우에는상대위험도가 로같은 차이이지만상대위험도는 1.5% 밖에되지않는다. Odds Odds 는성공확률을실패확률로나눈값으로다음과같으며축구나농구등둘이하는경기에서배팅 (bettng) 을하는경우이익배당의근거가된다. 성공확률이라고하면 Odds 는다음과같이정의되며반응변수의 ( 실패율대비 ) 성공률이라고해석될수있다. Odds 1 11

12 Ch. Two-way contngency table Example 한국과폴란드의경기에서한국이이길확률을 0.1 라고하면한국의 Odds 는 이다. Odds 의의미는한번이기기위해서는 9 번지는경기를한다는것이다. 즉질 가능성이 9 배가된다는것이다. 폴란드의 Odds 는 9 이므로이길가능성이 9 배가 된다는것이다. 이 Odds 는축구나농구와같이두팀이하는경기의 bettng 의 배당금배분의근거가된다. 한국에거는사람은 1$ 을걸면 9$ 배당금을받지만 폴란드에거는사람은 9$ 을걸어야 1$ 을배당받게된다. Odds rato 1 /(1 1) Odds rato /(1 ) Odds raton 의값은음의실수값을가지며두반응변수가서로독립이면 ( 1 ) Odds rato 는 1이다. Odds rato 가 1보다크면 1행변수의 ( 반응변수 1: 예위약 ) 성공률이 행변수의 ( 반응변수 : 예아스피린 ) 성공률이보다높다는것이고 1 보다작으면반응변수 의성공률이더높음을의미한다. Odds rato 가 1 에서멀어질수록두반응변수는독립성에서멀어진다. Property-1 x 분할표에서행과열을바꾸어도 Odds rato 는변하지않는다. [ 증명 ] 위 property 의의미는반응변수 ( 행 ) 와설명변수 ( 열 ) 가바뀌어도 Odds rato 가 동일하므로변수를구별할필요는없다. (relatve rsk 는행과열이바뀌면 달라진다 ) Odds rato 추정치 Odds rato 추정치 ˆ p1 /(1 p1) n11n where n j 는 행 j열빈도 p /(1 p ) n1n1 1

13 Ch. Two-way contngency table Example 심장마비증상에대한아스피린효과실험. ( 계속 ) 위약복용자 Odds rato 심장마비발생 ( 성공 ) 률은 로 명의심장마비가일어나는동안 100 명은무사하다. 아스피린복용자 Odds rato 심장마비발생 ( 성공 ) 률은 로 명의심장마비가일어나는동안 100 명은무사하다. Odds rato 추정치 ˆ n11n n n 위약복용자의심장마비발생률은아스피린복용자의심장마비발생율보다 83% 높다. (0.5, ) 경우에는상대위험도가 로같은 차이이지만상대위험도는 1.5% 밖에되지않는다. Odds rato 추론두반응변수가서로독립인지 ( 연관성검정 ) 어떻게검정할수있을까? 의값은 0 과 을가지고독립인경우는 1 이다. 그러므로좌우비대칭형태의분포를가지므로 대신 ln( ) 생각해보자. 두변수가독립이면 ln( 1) 0 이고 ( 한개념에서 ) 좌우대칭의형태를갖는다. ( 예 : ln , ln( 1/ 4) ) 표본의크기가커지면 ln( ˆ) appnormal(ln( ), ) n n n n 그러므로 ln( ) 의 95% 신뢰구간은 ( ln( ˆ) z / ) n n n n ln( ˆ) z / n Odds raton 의 95% 신뢰구간은 11 n1 n1 n e 이다. Example 심장마비증상에대한아스피린효과실험. ( 계속 ) ln( ˆ) ln(1.83) 이므로 ln( ) 의 95% 신뢰구간은 ( )(0.365, 0.846) 의 95% 신뢰구간은 ( e, e )(1.44,.33) 신뢰구간이 1을포함하고않고 1 이상이므로위약의심장마비발생율이더높다고결론지을수있다. 13

14 Ch. Two-way contngency table Relatve rsk 와 Odds rato 11 Odds rato=relatve rsk ( ) 111 두반응변수의성공확률이 0 에가까우면 ( 아스피린예제의경우 ) Odds rato 는 Relatve rsk 와유사한값을갖는다. ( 아스피린예 : ) 두반응변수의성공의상대적비교를 ( 예 : 위약과아스피린간심장마비발생율의상대적비교 ) 할때는 Relatve rsk 값을가지고해야한다. 즉위약이아스피린에비해 1.8 배심장마비걸릴가능성이높다고말할수있다. Odds rato 는 ( 실패율대비 ) 성공률의비율이므로앞에해석과는거리가멀다. 위의관계식을이용하면 Relatve rsk 를구할수없는경우 Odds rato( 반응변수와설명변수를바꾸어도계산이가능 ) 를이용하여계산가능하다. Example 흡연이폐암에영향을미치는지알아보기위하여폐암증상으로병원을찾아온 환자 00명과이환자들에일반환자 명을짝지어일반환자 400명의흡연여부를조사하였다. ( 이런연구를 retrospectve study 혹은 case-control study라한다.) 흡연 폐암증상 폐암환자 일반환자 ( 대조군 ) 예 아니오 흡연에따른폐암발생비율에대해알아보도록하자. 흡연자의폐암발생비율 ( 11 ) 과비흡연자의폐암발생비율 ( 1 ) 을이용한다? 그러나폐암환자의비율이 1/3 로고정되어있으므로 11, 1 을구하는것은의미가없다. 대신폐암환자중흡연비율 ( 140 / ) 과일반환자중흡연 비율 ( 100 / ) 을구할수있다. 즉설명변수가주어졌을경우반응변수의 조건부확률을구할수있다. Odds rato 의경우는반응변수와설명변수의 구별이없으므로 Odds rato 의추정치는 ˆ 이다. 흡연경험자의 Odds rato 추정값은폐암발생환자의경우 [140/00]/[60/00]=.33 이고폐암미 발생자의경우 Odds rato 는 0.33 이다. 의학연구결과폐암발생율은매우낮으므로 Odds rato 를 relatve rsk 로해석하여 흡연경험자가비흡연자에비해약 7 배폐암발생율이높다고말할수있다. 14

15 Ch. Two-way contngency table HOMEWORK#-1 Theorem-1, Theorem-, Property-1 을증명하시오. = HOMEWORK#- 다음은조사결과에대해답하시오. [Clogg and Shockey 1988] 총기등록법 사형제도 찬성 반대 찬성 반대 ) 반응변수와설명변수가무엇인지밝히시오. ) 두변수의연관성을비율차이검정에의해분석하시오. [ 유의수준 =5%] 3) Relatve rsk 추정치를구하고해석하시오. 4) Odds rato 추정치를구하고해석하시오. 5) Odds rato 를이용하여두변수가서로독립인지검정하시오. [ 유의수준 =5%] HOMEWORK#-1 Theorem-1, Theorem-, Property-1 을증명하시오. HOMEWORK#- 다음은조사결과에대해답하시오. [Clogg and Shockey 1988] 총기등록법 사형제도 찬성 반대 찬성 반대 ) 반응변수와설명변수가무엇인지밝히시오. 7) 두변수의연관성을비율차이검정에의해분석하시오. [ 유의수준 =5%] 8) Relatve rsk 추정치를구하고해석하시오. 9) Odds rato 추정치를구하고해석하시오. 10) Odds rato 를이용하여두변수가서로독립인지검정하시오. [ 유의수준 =5%] 페이지 14 의예제연구를 retrospectve study(look nto the past) 라 ( 이를 case-control 연구라고도한다.) 하는데이경우반응변수의주변분포 (margnal dst.) 가주어져있다. 15

16 Ch. Two-way contngency table 이미실험결과가나타난 ( 폐암 ) 조사자를대상으로폐암발생여부를물으므로반응변수의주변확률이주어지고일반적인방법으로 Odds rato 를구하지못해 Odds 와 Relatve Rsk 의관계식에의해 ˆ (Odds rato 의추정치 ) 구했다. 위의연구방법을관측연구라하는데이는실제영향을제대로파악하지못하는문제가있다. 즉흡연이폐암발생에직접적인영향을미쳤는지는알수없다. 관측연구의또다른방법은독립변수와반응변수의그룹을동시에조사하는 Cross-sectonal 연구가있다. 이것이우리가일반적으로보는 x 분할표이다. 폐암이흡연발생여부에영향을미치는것을보기위해서는실험을해야한다. 건강상태가양호한사람들을두집단 ( 실험군, 대조군 ) 나눈후실험집단은흡연하게하고, 대조군에는흡연하지못하게하여일정시간 (5 년 ) 이지난후두집단의흡연비율의차이를검정하면된다. 이런실험방법을실험연구라한다. Cohort 연구는피시험자가어느그룹에속할지정한후실험을한다는것이실험연구와다르다. 이두연구를 prospectve study 라한다. Homework #- 의예제는 prospectve study 예제이다. 그러므로일반적인방법에의해 Odds rato 의추정치를구하면된다. Odds rato 와 relatve rsk 의관계식을이용하여야하는예제는 Homework#3 이다..4. IxJ contngency table 분석하기 지금까지는 IxJ 분할표의특별한케이스인 x 분할표에대한검정을살펴보았는데, 이를정리하면다음과같다. 1) 분할표를작성할때는항상행은설명변수, 열은종속변수로한다. ) x 분할표에서설명변수와종속변수의독립성검정은각수준 ( 이를집단 ) 의성공률의차이검정과같다. ( y1 x1 y1 x X 와 Y는독립 ) 3) x 분할표에서설명변수와종속변수의독립성검정은각설명변수의 Odds rato 가 1 인것을검정하는것과같다. Odds rato 의신뢰구간을구하여 1 을포함하고있으면서로독립이고, 1 이면분자집단성공확률이높다고하고, 1 이면분모 1 /(1 1) 집단의성공확률이높다. ( 1X 와 Y는독립 ) /(1 ) 11 4) Odds rato 와 relatve rsk 의관계 Odds rato=relatve rsk ( ) 와 odds rato 는 1 11 설명변수와반응변수의위치에상관없이계산될수있으므로 retrospectve study( 이경우 16

17 Ch. Two-way contngency table 종속변수각수준의응답자가정해져있어일반분할표검정이불가능 ) 의분할표분석이가능하다. ( 페이지 14 참고 ) 5) 설명변수와종속변수가모두순서형인경우 설명변수 X 가증가함에따라 Y 가증가한다고할수있나? 두변수간의상관관계분석이가능하다. concordant 한짝이많으면 X 가증가하면 Y 가증가한다고볼수있을것이다. 반대로 dscordant 한짝이많으면 X 증가에따라 Y 는감소한다고결론지을수있다. 물론 ted 가많은경우는 X 와 Y의관계 (assocaton) 가없다고할수있다. ( 페이지 17 참고 ) 이절에서는 IxJ 분할표검정을의한방법들을살펴보기로하자. 이검정들을좁은의미의 IxJ 분할표범주형자료분석이라한다. 물론이절에서언급되는방법들은 x 분할표에도적용할수있다. 다음은 IxJ 분할표이다. 귀무가설 ( 모집단 ) 하에서설정된결합확률 j 로부터계산된기대빈도를 Ej 라하자. X Y 1 C Total 1 11 ( E 11 ) 1 ( E 1 ) 1c ( E 1 c ) 1 ( E 1) ( E ) c ( E c ) 1 R r1 r rc r Total 1 c.4.1. Goodness of ft 1900 Karl Pearson 에제안한방법으로 multnomal( 다항 ) dstrbuton 의확률이귀무가설에서설정한값과동일한지를검정한다. 1) 귀무가설 ( 일정한분포함수를갖는다 ) 하에서셀의기대확률을 이라하면이셀의기대빈도 (expected frequency) 는 E n 이자. ) 실제자료에의해관측된빈도관측빈도 (observed frequency) O 라하자. 3) ( E - O ) 의값들이크면귀무가설을기각하게될것이고그렇지않으면귀무가설을 채택한다. 17

18 Ch. Two-way contngency table Pearson Ch-square Statstc ( -검정통계량 ) 다음을 ( 피어슨 ) -통계량이라하면표본의크기가크면근사적으로 1)) 분포를따른다. ( 자유도 =(r-1)(c- ( O E ) T ~ ( df E ( c 1)) O 는관측빈도, 그러므로 E n, n = 총응답자수, = 귀무가설하에서 번째셀의기대확률, E 는기대빈도이다. f (x) 0.15 자유도 1 자유도 =5 자유도 =10 자유도 분포 예제 1: Mendel 의유전법칙이방법에대한초기예제는 Mendel 의유전법칙에관한것이다. 세대잡종은노란 75%, 초록 5% 라는이론의사실여부를알아보기위하여 n 803 을조사하였더니 60 가노란색, 001 이초록색이었다. 노란색 초록색 관측빈도 기대확률

19 Ch. Two-way contngency table ( O E ) ( ) ( ) 검정통계량 T E 기각치 ( df 1, 0.05) 보다작으므로귀무가설채택. 예제 : 어떤자료가임의의분포를따르는가? x x x x x x x x x x x populaton: f (x)? 구간 C 1 C C 3 C 4 C 5 C 6 C 7 C 8 관측도수 O 1 O O 4 O 4 O 5 O 6 O 7 O 8 모집단의분포가 f (x)? ( 예 : 정규분포 ) 따를까? 19

20 Ch. Two-way contngency table 구간 C 1 C C 3 C 4 C 5 C 6 C 7 C 8 기대도수 E 1 E E 4 E 4 E 5 E 6 E 7 E 8 표본분포가설정한모집단분포와동일하다면 관측도수와 (observed frequency) 기대도수는 (expected frequency) 비슷한값일것이다. 즉 O1 E1, O E,, Ok Ek ( 위예에서는 k 8 ) k ( O ) 1 검정통계량 (test statstcs)? E T ~ ( df k c 1) c= 모수추정개수 E 이를 - 적합성검정방법이라한다. 예제 3: 주사위예제주사위로게임을하려고주사위를하나샀다. 이주사위각면이나올확률이동일한지 (far) 알아보기위하여실험을하기로하였다. 주시위를 1,000 번던져다음결과가나왔다. 눈금 빈도 귀무가설 : 각눈금이나올확률은모두 1/6 로같다. X= 주사위눈금 f ( x) 1/ 6 for x 1,,..., 6 대립가설 : 각눈금이나올확률이모두 1/6 은아니다. 주사위눈금 X는귀무가설의확률분포 f (x) 를따르지않는다. 검정통계량 눈금 관측빈도 ( O )

21 Ch. Two-way contngency table 기대빈도 ( E ) 기대빈도는귀무가설이맞다는가정하에서계산한다. ( ) ( ) ( ) 검정통계량 : T ~ ( df 6 1) 기대빈도계산을위하여어떤모수도추정하지않았으므로 c 0 이다. 결론 : p-값이 이므로귀무가설을기각하지못한다. 주사위는 far 하다. 다른측면에서보면검정통계량 (9.49) 이유의수준 5% 의임계치 (crtcal value) 보다작으므로귀무가설을기각하지못한다 예제 4: Bnomal Dstrbuton 베르누이시행을 n번독립적으로시행했을경우 X를성공한회수라하면 n x nx f ( x) p (1 p) for x 0,1,..., n c Bnomal (n, p) 평균 E( X ) np, 분산 V ( X ) np(1 p) 남녀출산비율이 0.5 인지알아보기위하여아이들이 3 명이 1,000 가구를대상으로남자아이의수를조사하여다음표를얻었다. 남자아이수 빈도 귀무가설 : 남자아이수는이항분포 (n=3, p=0.5) 를따른다. 3 x 3-x X= 남자아이수 f ( x) (0.5) (1-0.5) for x 0,1,, 3 x 1

22 Ch. Two-way contngency table 대립가설 : X 는이항분포를따르지않는다. 검정통계량 남자아이수 관측빈도 ( O ) 기대확률 기대빈도 ( E ) 기대빈도는귀무가설이맞다는가정하에서계산한다 f ( x 0) (0.5) (1-0.5) , f ( x 1) (0.5) (1-0.5) (100 15) (150 15) 검정통계량 : T ~ ( df 4 1) 기대빈도계산을위하여어떤모수도추정하지않았으므로 c 0 이다. 결론 : p-값이 이므로귀무가설을기각한다. ( 혹은검정통계량값 13.3 이임계치 7.8 보다크므로 ) 그러므로남자아이의수는성공확률이 0.5 인이항분포를따르지않는다. 예제 5. Posson Dstrbuton Posson 분포는 n, p 0 인이항분포로부터유도된다. [ np 수리통계참고 ] X 를관심이있는사건이발생할회수라하면 x e f ( x ) for x 0,1,,..., 평균 E (X ) 분산 V (X ) x! 하나은행에서지난한달동안조사하였더니한시간에평균 6 명의고객이방문하고그방문회수는포아송분포를따르고있음을알았다. 그럼 10 분동안고객이한명도찾아오지않을확률은?

23 Ch. Two-way contngency table e (1) np 61/ 6 1 P( X 0 X ~ Posson( 1)) ! 다음은한남대학교정문을통과하는차량의수가 Posson 분포를따르는지알아보기위하여 1 분마다차량통과회수를 300 회조사하였다. 아래자료를이용하여 Posson 분포를따르는지검정하시오. ( 유의수준 =0.05) 통과차량 관측빈도 귀무가설 : 위의자료는 Posson 분포를따른다. 대립가설 : Posson 분포를따르지않는다. 각셀의기대빈도를구하기위해서는 Posson 분포의모수를 () 알아야한다. x e p( x), x 0,1,, x! 표본자료로부터모수 p의추정치를 ( ˆ) 구하면 ˆ ( ) / 그러므로기대확률과기대빈도는다음 Posson 확률분포에의해계산하면된다. e p( x) x! 통과차량 x 관측빈도 기대확률 기대빈도 (0 0.7) ( ) (4 3.9) 검정통계량 : T

24 Ch. Two-way contngency table 결론 : 표로부터임계치는 ( 자유도 =8-1-1=6, 0.05) =1.59 이므로귀무가설이채택되고 이자료는 Posson 분포를따른다고할수있다. ( 자유도계산시 1 을더빼주는이유는포아송분포의모수 를알지못하므로자료를이용하여추정하였기때문이다. 예제 6. 정규분포이산형확률모형에대한적합성검정의경우는구간 ( 셀 ) 을분석자가나눌필요는없다. 이항분포나포아송분포의예를보면변수가가질수있는값이이산이므로각값을셀로설정하면된다. 그러나연속형의경우는한값에대한확률은존재하지않는다. 그러므로자료에의해구간을나누고그구간을셀로하여적합성검정을실시하면된다. 자료의범위 표본으로부터히스토그램 귀무가설에서 설정한분포 기대확률을이용하여기대빈도 ( 적합성검정을실시하면된다. 기대확률 E ) 를구하고히스토그램의관측빈도 ( O ) 를이용하여 ( x) 1 (, ) f x e 평균 =, 표준편차 = 4

25 Ch. Two-way contngency table 다음키 (nch) 자료가정규분포를따름을보이시오. (n=19) 귀무가설 : 자료는정규분포를따른다. / 대립가설 : 정규분포를따르지않는다. 정규분포의모수는평균과표준편차다. 추정치 : x 6, s 개추정 범위 =7-51=1 구간의폭 1/ 6 4 자료로부터빈도표 ( 히스토그램 ) 만들기 셀 ( 구간 ) 관측빈도 연속구간 연속구간? 이산구간을연속일때 Pr( x 54) 0 그러나 x 54 가존재 기대확률구하기 SAS 정규분포함수이용하는프로그램 표준화 표준정규분포이용 표준정규분포누적밀도함수 lz lu 5

26 Ch. Two-way contngency table 셀 ( 구간 ) 관측빈도 기대확률 기대빈도 (1 1.16) (4 3.34) (1 0.8) 검정통계량 : T 임계치 : ( df 6 1, 0.05) ( -분포표) 검정통계량이임계치보다작으므로귀무가설은채택되고자료는정규분포를따르고있다고할수있다. HOMEWORK #4-1 여러분이가진동전의앞면과뒷면이나올확률이동일한지알아보는실험을하고그동전이 far 한지검정하시오. HOMEWORK #4- 다음은 10 개지역에폭격회수를조사한자료이다. Posson 분포를따르고있음을보이시오 폭격

27 Ch. Two-way contngency table HOMEWORK #4-3 다음은전구수명자료이다. 지수분포를따름을보이시오 x / f ( x ) e ( 평균, 분산 )= (, ) SAS 함수 : PROBGAM ( x /,1) x.4.. Independence Test 귀무가설 : 두변수는서로독립이다. ( j j from P(AB)=P(A)P(B)) 그러므로 귀무가설하에서각셀의기대빈도는 Ej n j (n 는총응답자수 ) 이에대한검정으로 1900 Karl Pearson 의 - 검정이용한다. 표본의크기가크다면다음이성립한다. ( Oj Ej ) T, j Ej ( nj Ej ), j Ej ~ ( df ( r 1)( c 1)) Lkelhood Rato Ch-Square nj ( nn j ), j n nj n n, j j n j from j ~ Multnomal, j G Oj log( ) ( Oj log( )) ~ ( df ( I 1)( J 1)) E, j j Karl Pearson Ch-square 통계량과 LR Ch-square 통계량은 asymptotcally equvalent 하다. Karl Pearson Ch-square 통계량과 LR Ch-square 통계량은분할표의범주들의순서에 nvarant 하다. 범주의순서를바꾸어도계산된검정통계량값은변하지않는다. 7

28 Ch. Two-way contngency table 예제년소득에따른직업만족도의차이는있는가를알아보기위한예제 [ 계속 ] 직업만족도 Very Lttle Moderately Very Satsfed Dssatsfed Dssatsfed Satsfed <6, ,000~15, ,000~5, >5, 실제분석에서는다음과같이프로그램을하는것이좋다. nocol 옵션은열퍼센트를출력하지말라는것이고 nopercent 는백분율을출력하지말라는것이다. 8

29 Ch. Two-way contngency table O j E j ( ) ( ) ( ) G 9

30 Ch. Two-way contngency table 표본의크다? ( 대표본 : large sample) 일반적으로각셀의기대치가 5 이상이면대표본으로간주하여 -분포를따른다고 한다. R. A. Fsher 에의하면 5 미만이셀의개수가전체셀의개수의 0% 을넘지 않으면근사통계량으로 결과에항상 5 미만인셀의비율이나타난다. -분포를사용해도된다고했다. 그래서 SAS 출력 만약대표본조건을만족하지못하면 1) 총응답자의수를늘려라. (n 을크게하면 ) ) 열이나행의인접범주 ~3 를합쳐열이나행의범주수를줄여라. 예를들어페이지 17 예제를보면 (Moderate Satsfed + Very Satsfed)=Satsfed 로합치거나 (15,000~5,000)+5,000 이상 =15,000 이상으로합쳐셀의수를줄일수있다. 반드시인접범주를합치면합치는범주가새로운개념을나타낼수있어야한다. 직업이범주인경우 ( 공무원, 전문직, 무직, 자영업, 회사원 ) 인경우는두개의범주를합쳐하나로만들기에는다소어려운점이있다. 3) Fsher 의 Exact 를검정방법을사용한다. ( 추후논의 ) 30

31 Ch. Two-way contngency table HOMEWORK #4-4 Homework3-1 에대해독립성검정 ( 남편의만족도와아내의만족도 ) 인 -검정하시오. 일단셀의기대빈도크기에대한경고 (warnng) 를무시하고분석한결과를해석하시오. 그리고셀의기대빈도 5 이하인셀이많이나오면범주를합쳐분석하고결과를해석하시오..3. Summary Measures of Assocaton.3.1. Odds Rato for IxJ 분할표 일반적으로 IxJ 분할표의 Odds Rato 들을정보의희생 (loss of nformaton) 없이는하나의값으로표현할수없다. 만약왼쪽그림과같이인접한열과행들의 Odds rato 들을구하는경우는그값의크기가유사하면 weghted average 에의해대표값을구할수있다. 이부분에대해서는나중에다루기로한다..3.. Measure of Ordnal Assocaton 종속변수와설명변수모두가범주형이되순서형인경우 설명변수 X 가증가함에따라 Y 가증가한다고할수있나? 모두측정형변수인경우는상관분석이나회귀분석을이용하여이질문에대답할수있다. 그러나순서형범주형은엄밀히말하면 metrc 이아니므로동일한분석은불가능하다. 대신순서형이 monotoncty 인 (X, Y 가크기순으로정렬할수있음 ) 성질을이용하여유사한개념 높은반응변수를갖는개체 (subject) 는무엇인가? 분석한다. 두변수 (X, Y) 의각수준에서두개체의짝을순서화하는경우만약 X 의값 ( 수준 ) 이클때 Y 의값이큰개체들의짝을 concordant, X 의값이클때 Y 값이작은개체들의짝을 dscordant, X 와 Y 에서동일한분류를갖는개체의짝을 ted 라고한다. concordant 한짝이많으면 X 가증가하면 Y 가증가한다고볼수있을것이다. 반대로 dscordant 한짝이많으면 X 증가에따라 Y 는감소한다고결론지을수있다. 물론 ted 가많은경우는 X와 Y의관계 (assocaton) 가없다고할수있다. 31

32 Ch. Two-way contngency table 예제 년소득에따른직업만족도의차이는있는가를알아보기위한조사결과다음을 얻었다고하자. [General Socal Survey, Noruss, 1988] 직업만족도 Very Lttle Moderately Very Satsfed Dssatsfed Dssatsfed Satsfed <6, ,000~15, ,000~5, >5, 소득이범주형변수로분류되어있고직업만족도는 Lkert 척도로조사되어있으므로둘다순서형범주형자료이다. 만약소득을분류하지않고금액으로조사된자료를이용하여두변수의관계를분석하려면 Logstc 방법이다. [ 나중에다루기로한다 ] (<6,VD) 셀의개체와 (6-15,LD) 의개체짝은 concordant 하다. 즉 (<6,VD) 에서 0 개개체, (6-15,LD) 에서 38 개개체의쌍 760 개는모두 concordant 하다. 그러므로 (<6,VD) 셀의개체는파랑셀부분의개체들과짝을이루면그짝은모두 concordant 이다. 같은방법으로 Concordant 짝의수를계산하면 C 0( ) 4( ) 80( ) ( ) 38( ) 104(113 9) 13( ) 8(54 9) 81*9 109,50 같은방법으로 Dscordant 짝의수를계산하면 D 4( 13 7) 80( ) ( ) 84,915 Intutvely, C>D 이면 X 값의증가함에따라 Y 값이증가한다고할수있다. 즉 X 는 Y 에영향에양의영향을미친다. ( 소득수준이높아질수록직업의만족도는높다.) 어떻게검정할것인가? 다음을고려해보자. c d where c = 모집단 concordant, c d 1 1 의값을갖고 Gamma 의추정치는 d C D ˆ 이다. C D = 모집단 dscordant 만약 1 이면완전한선형관계이고 X가증가하면 Y도증가한다. 만약 1이면완전한선형관계이고 X가증가하면 Y는감소한다. 만약 0 이면 X와 Y는관계가없다. 위의예제에서 ˆ 약한양의상관관계가존재한다. ( 자세한내용은추후토론 ) 3

33 Ch. Two-way contngency table x 분할표의경우 는다음과같이 Yule s Q 로 ( 이는벨기에통계학자 Quetelet 을기리기위하여 ) 단순화된다. 11 Q HOMEWORK#3 흡연에따른폐암발생여부를조사하기위해폐암환자와그렇지않은 환자의흡연정도를조사한자료이다. [Doll & Hll 1988] 일인흡연량 폐암 폐암 일반환자 None 7 61 < ) 반응변수와설명변수가무엇인지밝히시오. ) 일일담배량 5미만과 5 이상으로재그룹하여 x 분할표를만든후 A. 두변수의연관성을비율차이검정에의해분석하시오. B. Relatve rsk 추정치를구하고해석하시오. C. Odds rato 추정치를구하고해석하시오. D. Odds rato 를이용하여두변수가서로독립인지검정하시오. [ 유의수준 =5%] 3) Ordnal Assocaton Measure 인 를구하고해석하시오..4.. Independence Test ( 계속 ) ( Oj Ej ) T, j Ej ( nj Ej ), j Ej ~ ( df ( r 1)( c 1)) x 분할표 Example( 계속 ) 심장마비증세에아스피린의효과 ( 페이지 10) 두변수의독립성 ( 심장마 비증상에아스피린약의효과가있는가?) 을알아보는방법은 3 가지이다. 33

34 Ch. Two-way contngency table 약 치명적심장마비 발생 건강 Placebo ( 위약 ) ,845 아스피린 ,933 1) 집단의성공률차이검정 ( 두집단모비율차이검정 : 검정통계량 T=5.13, 페이지 11) 모비율차이에대한 95% 신뢰구간은 (0.005, 0.011) 의미는? ) Odds rato ˆ ( 심장마비발생확률이 83% 높다. 페이지 13) Odds rato 에대한 95% 신뢰구간은 (1.44,.33) 이다. 의미는? 3) 검정 : 귀무가설 : 약변수와심장마비변수는서로독립이다. p-값이 보다더작으므로귀무가설을기각하고두변수는관계 (assocaton) 가있다고말한다. 귀무가설이기각되면행퍼센트를관찰하여크기나크기순서를따져해석하면된다. x 분할표의경우는하나의행퍼센트만비교하면된다. 아스피린복용자의마비비율이 0.94, 위약복용자는 1.71 이므로아스피린복용자는위약복용자보다 54.9% ( 위약복용자는 81.9% 높다 ) 밖에되지않는다. (relatve rsk 와동일하다 ) Recall: 성공률이내우낮을때는 relatve rsk 와 odds rato 는거의같다. 34

35 Ch. Two-way contngency table Resdual 앞절에서는 x 분할표에서는 검정결과를 relatve rsk 개념에서해석하는방법을살펴보았으나이런해석은 IxJ 분할표에서는불가능하다. 분할표의검정통계량의값에가장영향을많이미치는셀이어느것인가알아보는통계량으로잔차개념을사용한다. 다음을셀의수정잔차라 (adjusted resdual) 하고귀무가설 ( 두변수가독립 ) 하에서는표준정규분포를따른다고한다. 그러므로수정잔차의절대값이 ~3 을벗어나면그셀이귀무가설을기각하는데많은영향을미쳤다고할수있다. Oj Ej ~ Normal(0,1) under H o Ej (1 p )(1 p j ) 일반표준화잔차 (standardzed resdual) 는분산이 1 보다작은문제가있어수정잔차를 사용한다. e ( O E ) / E ~ Normal(0, 1) j j j j Example 다음은성별에따른정당지지성향의차이가있는지알아보기위하여총 980 명을대상으로실시한설문조사결과를정리한것이다. 공화당무소속민주당합계 남성 여성 합계 우선앞절에서살펴보았던독립성검정을위한 - 검정을실시해보자. 35

36 Ch. Two-way contngency table p-값이 0.03 으로 0.05 보다적으므로귀무가설 ( 성별변수와정당변수는서로독립 ) 이기각되고성별에따라지지정당이달라진다고결론내릴수있다. 그러면어떻게다른가? 이답변을위하여행퍼센트를보면된다. 남성의경우공화당지지율이가장높고여성의경우민주당지지율이높다고말하면된다. 만약위의결과를행퍼센트개념이아니라수정잔차개념에서해석하여보자 (1 행, 1 열 ) 의수정잔차값 : (1 416 / 980)(1 403 / 980) (1 행, 열 ) 의수정잔차값 : (1 10 / 980)(1 403 / 980) 같은방법으로구하면 공화당무소속민주당 남성 191 (.6) 47 (-0.46) 165 (-.9) 여성 5 (-.6) 73 (-0.46) 79 (.9) 36

37 Ch. Two-way contngency table 공화당과민주당에서성별차이가나타나고있다 ( 수정잔차가 이상의값 ) 여성은민주당지지자가많고남성은공화당지지자가많은반면여성은공화당지지자가남성은민주당지지자가적다. 수정잔차와행퍼센트의해석방법에는큰차이가없고수정잔차는수작업으로계산해야한다는불편함으로인하여주로행퍼센트에의해결과를해석하게된다. 일반적으로이방법을따르는데때로는간과되는부분 ( 민주당지지의차이부분 ) 이생긴다. HOMEWORK #5-1 다음은학교창립이념에따른정신분열의기원에의견의차이가있는지알아보기위하여조사한결과이다. [Gallagher et al. 1987] 정신분열기원유전적인환경적인유전 + 환경창립이념 다방면 의학적 정신분석학적 ) 독립성검정을위한 -검정을실시하시오, ) 행퍼센트를이용하여결과를해석하시오. 3) 수정잔차를이용하여결과를해석하시오. Parttonng Ch-square IxJ 분할표를 분포의성질에따라분할할수있다. 자유도가각각 a, b 이고서로독립인 Ch-square 변수의합은자유도가 ( a b ) 인 Ch-square 를따른다. 왜하는가? 분할표를몇개의 sub 분할표로나누어분석함으로써관심이있는범주들간의차이혹은범주들간그룹간의차이를볼수있다. IxJ 분할표를다음논리에의해분할하면각분할표의 G (L-R Ch-square) 통계량의합은 IxJ 분할표의 G 통계량의합과같다. (*: Pearson 의 Ch-square 에서는성립하지않으나 Pearson 의 ch-square 통계량과 L-R ch-square 통계량은근사적으로 equvalent 하므로상관없다. 페이지 7) sub 분할표의자유도의합은 IxJ 분할표의자유도와같다. IxJ 분할표각셀은 sub 분할표에단한번만나타난다. IxJ 분할표주변합은 sub 분할표에단한번만나타난다. 뭔가무척이나복잡하다. 간단한 sub 분할표만드는방법을살펴보면다음과같다. x3 분할표 37

38 Ch. Two-way contngency table Example 성별에따른지지여당차이 [ 페이지 3] 성별에따른무소속 vs 민주당지지의차이는없다. 성별에따른공화당 vs 비공화당의차이는존재하고남자가공화당지지비율이높다. =7.006 ( 페이지 33) 3x3 분할표 HOMEWORK #5- Homework #5-1 의 3x3 분할표를위와같이분할하고각 sub 분할표에대해실시하고해석하시오. [Gallagher et al. 1987] 검정을 38

39 Ch. Two-way contngency table.4.3. More on Lnear Assocaton 변수 X, Y 가모두순서형변수이면그변수들간선형관계를 (lnear assocaton) 이용하여두변수의독립성 (ndependence 관계 ) 분석할수있다. 행변수 ( 독립변수, X) 의범주를크기순으로정렬하고각범주를 u1 u u3... 로점수화하고열변수 ( 반응변수, Y) 범주를크기순으로정렬한후각범주를 v v... 를 1 v3 점수화하자. 두범주의개념차이가크기가크면점수의차이를크도록점수화한다. 이점수를이용하여두변수간의가중상관계수를구하면다음과같다. 이를 Pearson cross moment correlaton coeffcent 라한다. r uv j nj ( un )( v j n j ) / n, j j ( u ) ( ) n v j n j j [ u n ][ v j n j ] n j n 여기서 nj 는관측빈도 O j, n 은표본의총크기를의미한다. 물론우리는손으로이것을계산할필요는없다. 상관계수의값은 1 과 1사이의값을갖고 0이면두변수는상관관계가없다 ( 독립성 ) 고결론내린다. Pearson 상관계수이외에도두순서형변수의상관관계에대한계산값은여러개존재하는데이는대부분 Pearson 상관계수로부터유도되었다. Ph Coeffcent( 파이계수 ), Cramer s V, 분할계수가그예이다. 상관계수의유의성은검정은 Mantel-Haenszel Ch- Square (M-H) 검정통계량이라불리는 M 에의해실시한다. M ( n 1) r ~ ( df 1) when n s large. Example 년소득에따른직업만족도의차이는있는가 [ 예제계속 ] 직업만족도 Very Lttle Moderately Very Satsfed Dssatsfed Dssatsfed Satsfed <6, ,000~15, ,000~5, >5, DATA ONE; DO INCOME=1 TO 4; DO JOB=1 TO 4; INPUT NIJ@@;OUTPUT; END; END; 39

40 Ch. Two-way contngency table CARDS; ; RUN; PROC FREQ DATA=ONE; WEIGHT NIJ; TABLE INCOME*JOB /CHISQ MEASURES CL NOPERCENT NOCOL; RUN; 두변수의상관관계검정은 Measures 옵션에의해출력된아래결과중 Pearson 상관계수, Spearman 상관계수를이용하면된다. 양의상관관계가존재하므로 ( 신뢰한계 ( 구간 ) 가 0 을포함하고있지않고값이양의값이다 ) 소득이높아질수록직업만족도가높아짐을알수있다. 두변수의독립성검정을위한 검정결과는유의하지않았으므로 Ch-square 검정결과는소득수준은직업만족도에영향을미치지않는다. 독립성을검정을위한 검정결과의해석은행퍼센트로하고상관관계를위한검정결과는상관계수해석방법과동일하게한다. 독립성검정을분할표검정모두에적용되지만, 상관관계분석은두변수모두순서형일때적용가능하다. 40

41 Ch. Two-way contngency table 빨간박스안의통계량들은페이지 17 의 (Gamma) 과유사한것으로두순서형변수간의선형관계를검정하는통계량이다. (Concordant, Dscordant) 페이지 17 의 Gamma 값 (0.17) 과위의감마가일치하지않는것은조금다른계산공식을사용하였기때문이다. 수작업할필요는없으니 SAS 출력결과를이용하여해석하면된다. In SAS, C nj ( nkl nkl ), D nj ( nkl nkl ) j kl j klj j kl j kl j 점수를바꾸면순서형변수에점수를부여하는것은다소임의적이나등간 (equal-dstance) 점수이면 ( 이를 monotonc score 라함 ) 검정통계량의값은변하지않으므로별문제는없다. 물론각범주의점수를등간으로하지않으면변하지만 Cochran Armtage Trend 반응변수가이진 (bnary : 예성공 / 확률 ) 변수이고설명변수가순서형인경우설명변수범주의크기에따라반응변수의비율이어떻게변하는지알아보는것이다. 검정통계량은다음과같다. 41

42 Ch. Two-way contngency table where DATA PAIN; INPUT DOSE ADVERSE $ CARDS; 0 NO 6 0 YES 6 1 NO 6 1 YES 7 NO 3 YES 9 3 NO 18 3 YES 14 4 NO 9 4 YES 3 ; PROC FREQ DATA=PAIN; WEIGHT COUNT; TABLES DOSE*ADVERSE /TREND CHISQ NOPERCENT NOCOL; RUN; 약의복용량 (0, 1,, 3, 4) 에따른부작용 (No: 없음 /Yes: 있음 ) 의차이를살펴본것이다. 비율의추세 (trend) 직선 dl 유의하고음의통계량값을가지므로부작용비율 (No/Yes) 은낮아지는경향이있다. 4

43 Ch. Two-way contngency table HOMEWORK #5-3 Homework #-3-1 자료를이용하여다음에답하시오. 셀의기대빈도에대한경고는무시하고다음을실시하시오. 남편만족도와아내만족도는서로독립인가? 독립성 -검정: 이미숙제했음 설명변수 ( 남편만족도 ), 반응변수 ( 아내만족도 ) 에대한상관관계분석을실시하고해석하시오. 아내만족도를두범주 (Never vs 나머지 3 범주 ) 로분할표를다시작성하고 Cochran- Armtage trend 분석을실시하시오. HOMEWORK #5-3 Homework #-3-1 자료를이용하여다음에답하시오. 셀의기대빈도에대한경고는무시하고다음을실시하시오. 남편만족도와아내만족도는서로독립인가? 독립성 -검정: 이미숙제했음 설명변수 ( 남편만족도 ), 반응변수 ( 아내만족도 ) 에대한상관관계분석을실시하고해석하시오. 아내만족도를두범주 (Never vs 나머지 3 범주 ) 로분할표를다시작성하고 Cochran- Armtage trend 분석을실시하시오 Exact Test R. A. Fsher 전통적인분석도구가실제적인연구에항상적합한것은아니다. 대포로참새를잡으려고할뿐아니라명중시키지못하기도한다. 대표본자료분석방법은간단한실험자료에적합하지않다. 지금까지살펴본 -검정통계량은근사통계량이었다. 셀의기대빈도가 5 미만인셀이 (Thn cell) 없다면 ( 혹은 R. A. Fsher 는 5 미만셀의수가전체셀의 0% 넘지않으면 ) ( Oj Ej ) 검정통계량 j Ej 은 ( Oj 는 nj 와같다 ) ( df ( r 1)( c 1)) 에근사한다. 그러나만약표본의크기가적거나 ( 소표본 ) thn cell 의조건이만족되지않으면? ( 해결 방법은페이지 30 참고 : 1) 셀합치기 ) 표본늘리기 ) 우리는더이상 -분포를사용하지못한다. 그래서 R. A. Fsher 는 Exact ( 더이상근사분포가아니다 ) Test 를제안하였다. 43

44 Ch. Two-way contngency table Fsher s exact test x 분할표를먼저생각해보자. X Y 1 Total 1 n 11 1 n 1 Total 1 n n n 1 n n n n 두변수가독립이면주변빈도 (margnal frequency) 의조건부확률로부터구할수있다. 다음초기하분포를 (hyper-geometrc dstrbuton) 생각해보자. 두변수가독립일때 (odds rato =1) (1,1) 셀의빈도가 n11 일확률밀도함수는 n1 n 11 n n n n 1 1 n 11 총표본 n 로부터변수 Y의 1 범주주변빈도합 n1 만큼뽑을때변수 X의범주 1 에서 n11 명을뽑고변수 X 의범주 에서 ( n1 n11) n1 명을뽑을확률이다. 주변빈도합이 주어지면 ( 총 4개 ) n11 의값만주어져도다른 3 셀의빈도를계산할수있다. 독립성검정을위하여 p-값개념을이용하자. 표본으로부터얻어진결과가나올확률과그이상 ( 혹은이하, 귀무가설의모수위치에따라결정 ) 의결과들이나올확률을 p-값이라한다. 다음예를들어보자. Example A 선수는승률이 0.6 이라고주장한다. 이주장의진실여부를알아보기위하여 10 게임을조사하였더니 A 가 4 번이겼다. A 의주장은사실인가? 귀무가설 : A 의승률은 0.6 이다. p 0. 6 대립가설 : p 0. 6 ( 반대의경우는결코발생할수없다. 왜냐하면 pˆ 0. 4 이므로 ) 검정통계량 : 대표본일경우우리는 ˆp ~ z-분포에근사한다는사실을이용하여가설 검정할수있으나 n=10 개인소표본인경우에는이근사통계량을사용할수없다. 대신 p-값을구해보자. p value Pr( X 4 X ~ Bnomal(10,0.6)) : 귀무가설하에서 측정된 4 번이하이길확률을 p- 값이라한다. p- 값 4 6 p value Pr( X 4 X ~ B(10,0.6)) In SAS, p=probbnml(0.6,10,4) 44

45 Ch. Two-way contngency table p-값이유의수준 0.05 보다크므로귀무가설을기각하지못한다. A 의승률이 0.6 이아니라고말할근거가없다. 이제분할표독립성검정을위한검정통계량으로돌아가자. Fsher s Tea Drnker 예제를중심으로검정방법을살펴보자. Example 영국여성은차를마실때그차에우유를먼저부었는지차를먼저부었는지알수있다고주장하였다. 이에 R. A. Fsher는이주장에대한검정을위하여여성 8명을대상으로조사를실시하여다음결과를얻었다. 추측실제 우유 차 Total 우유 차 Total 귀무가설 : 두변수는서로독립이다. 실제와추측간에는상관이없다. 즉여성의추측은실제차의상태와관계가없다. ( 1) 대립가설 : 두변수는관계가있다. 즉실제차의상태와예측간에는상관관계가존재한다. ( 1) 검정통계량 : 소표본이므로분할표독립성검정을위한없다. - 검정방법을사용할수 p-값 : p value Pr( n11 3 n11 ~ HG(8,4,4, n11)) 유의수준 0.05 보다크므로귀무가설을기각하지못한다. 즉영국여성은우유나차중어느것을먼저따랐는지맞출수있다는주장을지지할수없다. DATA ONE; INPUT TEA $ GUESS $ CARDS; M M 3 M T 1 T M 1 T T 3 ; RUN; PROC FREQ DATA=ONE; WEIGHT NIJ; TABLE TEA*GUESS/EXACT NOCOL NOPERCENT; RUN; 45

46 Ch. Two-way contngency table 배 Comments 1) Randomzaton Test: 유의수준 0.05 에서기각역은어떻게설정되어야하는가? 이질문은 (1,1) 셀의빈도가얼마이상이나오면귀무가설을기각해야하는가와같다. (1,1) 셀이 4 가나올확률은 이다. 그러므로 4 가나오면기각한다고하면아직유의수준 0.05 가안된다. 만약 (1,1) 셀이 3 이상 (3 과 4) 이나오면귀무가설을기각한다고하면 0.43 으로 0.05 를넘는다. 그러면어쩌라. 이때필요한개념이 Randomzaton 이다. (1,1) 셀이 4 가나오면귀무가설을무조건기각하고 3 이나오면 의확률로귀무가설을기각하면된다 확률을가진다? 난수표를이용하여 3자리임의의수를뽑는다. 이값이 보다작으면귀무가설을기각하면된다. Pr( reject H 0 ) E(Pr( reject H 0 ) n11) ) 만약 (1,1) 셀의크기가 (,1) 의셀의크기보다적으면 p-값을계산할때 (1,1) 셀의빈도이하인경우확률을다더하면된다. 즉대립가설은 1 이다. 위의 SAS 출력에서하단측 p-값에해당. p value Pr( n11 3 n11 ~ HG(8,4,4, n11)) ) Exact Test 를 IxJ 분할표에도확대되었다. [ 자세한내용은생략 ] SAS 에서 Exact 옵션을쓰면 IxJ 분할표에대한 Exact Test 검정결과를출력한다. 출력결과는양측검정결과만출력한다. [SAS 는 Mehta and Patel (1983) 의 network algorthm 사용 ] Mehta, C.R. and Patel, N.R. (1983), "A Network Algorthm for Performng Fsher's Exact Test n r c Contngency Tables," Journal of the Amercan Statstcal Assocaton, 78,

47 Ch. Two-way contngency table HOMEWORK #6-1 다음은치료종류 ( 일반치료, 방사선치료 ) 와후두암치료의관계를알아보고자조사한자료이다. [Mandenhall et.al (1984)] 암치료치료방법 Yes NO 일반 1 방사선 15 3 수작업계산하여 p-값을구하시오. 유의수준 0.05 에서기각역을구하시오. SAS 를이용하여 Fsher Exact test 를실시하고결과를해석하시오. HOMEWORK #6- Homework #-3-1 자료에서 SAS 를이용하여 Exact Test 를실시하고결과를해석하시오. 47

48 Ch. 3 Logstc Regresson 장에서는두범주형변수의관계를 ( 독립성 ) 분석하는 IxJ 분할표분석을살펴보았다. 이를정리하면 대표본 ( 기대빈도가 5 미만인셀이없거나전체셀개수의 0% 넘지않으면 ) 인경우두변수의독립성검정은 Pearson 검정, LR Ch-square( G ) 방법을사용한다. 소표본분할표는 Fsher s exact test 를한다. x 분할표는두모집단비율차이검정, Odds Rato 검정, Ch-square 검정을할수있다. Ch-square 검정은수집자료가어떤분포를따르는지적합성에 (Goodness of ft) 이용할수있다. 두범주형변수가순서형이면선형상관분석을할수있다. Pearson cross moment ( 검정은 Mantel-Haenszel 검정 ), 이와유사한 Ph-coeffcent, Gamma ( ), Kendall 등이있다. 설명변수가순서형이고반응변수가이진형인 (bnary) 경우 Cochran-Armtage Trend 방법을사용하여반응변수의성공률의직선변화를살펴볼수있다. Ch-square 분할표를 sub 분할표로분할하여관심있는범주들간의상관관계를살펴볼수있다. 분할표분할은원래분할표가유의한경우 (Ch-square 통계량이기각값보다커귀무가설을기각 ) 사용해야한다. 다음은분할방법을요약한것이다. Hermt Contrast 방법 Generatng Herarchcal Structure 분할표검정은두범주형변수의상관관계를 (assocaton) 분석하는데사용할수있으나변수가 3 개이상이고설명변수들의반응변수에대한효과를분석하려면모형화가 (modelng) 필요하다. 이모형들을 Generalzed Lnear Model (GLM: 일반화선형모형 ) 이라한다. GLM 은반응변수가측정형인경우분석하는회귀분석 (Regresson), 분산분석 (ANOVA: Analyss of Varance) 은물론반응변수가범주형인경우사용하는 Logstc, Log- Lnear Model 까지포함하고있다. sprng,

49 Ch. 3 Logstc Regresson 3.1. Generalzed Lnear Model Neder & Wedderburn(197) 의해제안된모형을일반화한 GLM 은 3 가지성분에 (component) 의해 정의된다. 1)random component: 반응변수의 확률분포함수 인식 )systematc component: 설명변수의 (predctor 라고도함 ) 선형함수규정 3) lnk: systematc 성분과 random 성분의기대값사이의함수관계를표현 GLM 의성분 (component) Random component 랜덤성분은 natural exponental famly( 자연대수군집 ) 의분포로부터추출된서로독립인관측치 Y ( Y1, Y,... Yn ) 로구성되어있다. 즉각관측치 Y 의확률밀도함수는다음과같다. f ( y ; ) a( ) b( y ) exp[ yq( )], 는모수 (parameter) Posson 분포 ( 분할표의셀의관측빈도 ), Bnomal 분포 ( 성공회수 ), Standard Normal 분포 ( 일반회귀분석 ) 가 natural exponental famly 에속한다. 모수 ( ) 의값은관측치마다변할수있다. Q( ) 를자연대수모수라한다. Systematc component 설명변수로구성된행렬 X ( 자료행렬 data matrx 혹은 desgn matrx), 모형의모수벡터를 라하자. 다음의 lnear predctor ( 선형예측치 ) 가 GLM 의 systematc 성분이다. X 0 1x1 x... p xp j xj for 1,,... n j Lnk component Random 성분과 systematc 성분을연결하는성분을의미한다. 관측치 Y 의기대치를 E( Y ) 라하자. 이때 는 g( ) 식에의해 와연결된다. lnk 함수 g 는미분가능한단조함수이다. (monotonc dfferental functon) g( ) j x j j 연결함수의간단한형태는 dentty lnk ( 항등연결 ) 인 모형이며일반적인회귀모형이다. g( ) 이다. 이것은평균반응 E ( y ) j xj 0 1x1 x j... x 평균을자연대수모수로변환하는연결함수를 Canoncal Lnk 라한다. 즉 Canoncal p p Lnk 에서는 g ) Q( ) ( x x x... x j j j p p 이다. Canoncal Lnk 가 가장일반적인연결함수이다. sprng,

50 Ch. 3 Logstc Regresson Logt model 범주가 개인경우 ( 이진, bnary 예 ; 성공 / 실패, 범주값을 0, 1 로표시할수있다. 이진변수는성공확률이 Pr(Y 1) 인 Bernoull 분포를따른다 ) 범주형확률밀도함수는 y 1 y f ( y ; ) (1 ) (1 )[ /(1 )] (1 ) exp[ y y ln( )] : NE Famly 1 자연대수모수 Q( ) ln( ) 은 odds rato 의 ln 값으로 의 Logt 이라한다. 이 Logt 1 연결을사용하는 GLM 을 Logt 모형이라한다. ln( ) j xj 0 1x1 x... p x 1 j p Log Lnear model 분할표의셀의빈도 n 는 Posson 분포를따른다고가정한다. 셀 E( n j ) m 라하면 n 의확률밀도함수는 n 의기대빈도를 exp( m )( m ) f n ; m ) n! n 1 exp( m )( ) exp[ n n! ( 자연대수모수 Q ) ln( m ) 이다. ( ln( m ) = j xj 0 1x1 x... p xp j ln( m )] : NE Famly GLM 모형분석방법 Random 성분, Systematc 성분, Lnk 함수에의해 GLM 분석방법을정리하면다음과같다. Random 연결함수 Systematc 성분 Model ( 분석방법 ) 성분 ( 반응변수 ) ( 설명변수 ) Normal Identty ( 항등 ) 연속 ( 측정 ) Regresson Normal Identty 범주 ANOVA Normal Identty Mxed ( 연속 + 범주 ) Regresson wth Indcator ANCOVA Bnomal Logt Mxed Logstc Regresson Posson Log Mxed Log-Lnear Multnomal Generalzed Logt Mxed Multnomal response 전통적인분석방법은반응변수를변환하여일정한분산을갖는정규분포에근사시켜최소자승방법을 (Least Square Method) 사용한다 ( 일반적인회귀분석 ). 이와는대조적으로 GLM 에서는반응변수가더이상정규분포가아니거나근사하지않으므로추정방법은 sprng,

51 Ch. 3 Logstc Regresson 최소자승법과다르다. GLM 에서는연결함수의선택과 Random 성분의선택은별개이고 log 우도함수는 (lkelhood functon) strctly concave 하므로 ML estmate( 최대우도추정치 ) 가존재한다. ML 추정치는 Fsher s scorng 이라는 teraton algorthm 에의해계산된다. 이추정치계산은연결함수나 Random 성분의확률변수선택에상관없이적용될수있다. 3.. Logstc Regresson 반응변수 Y 를이진변수라하자. 예를들어성공 / 실패, 취업 / 미취업, 만족 / 불만족등범주가 개인변수를이진변수라하며자료코딩시는 0, 1 로한다. 이진변수의확률밀도함수는성공확률이 Pr(Y 1) 인 Bernoull 시행이다. 그러므로 Y 의기대치는 이고분산은 ( 1 ) 이다. 독립인이진변수에의한성공횟수 ( Y ) 의분포는 Bnomal 분포이다 Lnear Probablty Model ( 선형확률모형 ) 이진반응변수에대해선형모형 ( Y ) ( x) x 을선형확률모형이라한다. 이를 E 0 1 Identty Lnk ( 항등연결 ) 이라한다. 성공확률이설명변수 x 의값에따라선형적 (lnear) 으로변한다. 이모형은이항랜덤성분과항등연결함수를갖는 GLM 이다. 이모형은 x 의큰값, 작은값에따라성공확률 ( ) 이음수이거나 1 이상의값으로추정될수있는구조적문제를갖고있다. 분산 V ( Y ) (1 ) 은일정하지않고성공확률이 0 이나 1 로가까워짐에따라분산은 0 에가까워진다. 그러므로더이상일반추정치는 MVLUE 는아니다 Logstc Regresson Model 선형확률모형은구조적문제가있다. 성공확률 ( ) 은 x 와선형적인관계가있다기보다는비선형가정할수있다. x 의변화량은 가 0 이나 1 에가까이있을때영향력이적을것이다. 이관계를 S-형태곡선으로나타낼수있을것이다. ( x) log t( ( x)) ln( ) 0 1x 1 ( x) exp( 0 1x) ( x) 1 exp( x) (x) x sprng,

52 Ch. 3 Logstc Regresson 위의변환을 log odds 변환모형을 Logt 모형이라한다. 즉 x 가 로감에따라성공확률은 1 의부호에따라 0( 1 0 ) 혹은 1( 1 0 ) 에근사한다. 만약 1 가 0 이면 ( x) 반응변수는설명변수 x 와독립이다 ( 영향을받지않는다 ). 1 ( x)[1 ( x)] 이므로 x ( x) 1/ 에서기울기가가장급하며 ( 크며 ) 이클수록기울기가급해진다. 1 Inference ( 추정 ) Logt 모형에서회귀계수 (, 1,,..., p ) 의추정및검정 MLE (Maxmum Lkelhood Estmate) 에대한 Wald (1943) 연구로부터모수에대한대표본신뢰구간은다음과같다. z / ASE( ) : ASE = Asymptotc Standard Error ( 근사표준오차 ) ' ' * ( 1,,.., q ) 를모형의모수 subset 이고 * ( 1,,.., q ) 0 을검정한다고하자. ( 예를들면첫번째설명변수의유의성을검정하려면 H 0, 만약 번째, 3 번째설명 0 : 1 변수의유의성을검정하려면 H 0 : 3 0 이다 ) L1 을 Full-모형에서의로그우도함수, ' L 을 Reduced-모형 ( * ( 1,,.., q ) 0 라하고모형을축소 ) 에서의로그우도함수라하면다음이성립한다. 이를 GLM 의 Devance( 벗어남 ) 라정의한다. Reduced 모형의우도함수가 Full 모형의우도함수값의차이가적으면귀무가설에서유의하지않다고설정한설명변수 ( 회귀계수 ) 는반응변수를유의적으로설명하지못하다는것이다. GLM 의 Devance l ln( ) [ln l ln l1] [ L L1 ] ~ ( q) : l1 위의결과는 Theorem 우도비 ~ 으로부터 ( 유사결과 : 페이지 7 참고 ) Wald(1943) 는모수추정치의대표본정규분포근사이론에근거하여다음을증명하였다. ˆ ' ˆ ˆ ˆ * ( Cov( * )) * ~ ( q) : Wald 통계량 Logt 모형의계수추정에대한자세한내용은 Alan Agrest (1990), Wley publcaton- page 참고하기바란다. sprng, 013 5

53 Ch. 3 Logstc Regresson Inverse CDF( 역함수 ) Lnks 페이지 61 에서성공확률 ( (x) ) 함수의형태는 ( 1 0 ) 인경우누적분포함수의 (cumulatve probablty densty functon) 의형태와유사하다. 만약 1 0 인경우는 x 대신 x 대치하면같은곡선을얻는다. 이사실을 ( x) F( ) : F 는누적확률밀도함수 ) 이용하여누적밀도함수의 ( 0 1x 역함수를연결함수로갖는 GLM 을얻을수있다. 1 F ( ( x)) 0 1x 1 0 인경우 logstc 회귀모형 ( x) exp( 0 1x) /[1 exp( 0 1x)] 은 Logstc 분포의확률밀도함수와유사하다. 1 exp( ( x ) / ) Logstc 확률밀도함수 (pdf) f ( x, ) 평균 =, 분산 = [1 exp( ( x ) / )] 3 1 Logstc 누적확률밀도함수 (cdf) F ( x, ) [1 exp( ( x ) / )] 1 0 인경우 logstc 회귀모형 ( x) exp( 0 1x) /[1 exp( 0 1x)] 은 Logstc 분포의확률밀도함수와유사하다. Logstc regresson 선은만약 F 가 0, 1 인표준 CDF 이면 ( x) F( 0 1x) 형태를갖는다. 이선은평균이 / 이고분산이 CDF 이다. 즉 Logt 변환은 logstc CDF 의역함수이다. 3 인 Logstc 분포함수의 Probt model 만약 F 가표준화정규분포 CDF 이면 ( x) ( 0 1x) 는 Probt 모형이다. 정규분포의꼬리가 Logstc 분포의꼬리보다얇으므로 (x) 가더빨리 0 이나 1 로 접근한다. 1 Pr obt( ( x)) ( ( x)) 0 1x 모형추정 Lnear probablty model: ˆ ( x) 0 1x ˆ( x) Logt model: ln( ) 0 1x 1 ˆ( x) 1 Probt model: ( ˆ( x)) 0 1x sprng,

54 Ch. 3 Logstc Regresson Example Thymdne 주사후셀의증식활동지수 (LI) 와암환자고통완화연구 : 고통이 완화된것을성공이라고간주하고이를 1 로코딩하였다. LI 의 14 수준에서 7 환자들이 ( 관측치 ) 조사되었다. LI 총환자수고통완화환자수 (x) 관측치 /3 1 1/ /3 DATA CANCER; INPUT LI CASE CARDS; ; RUN; TITLE 'Lnear Lnk Functon'; PROC GENMOD DATA=CANCER; MODEL GOOD/CASE=LI /LINK=IDENTITY DIST=NORMAL; OUTPUT OUT=OUT1 PRED=YHAT_LI; RUN; TITLE 'Logt Lnk Functon'; PROC GENMOD DATA=CANCER; MODEL GOOD/CASE=LI /LINK=LOGIT DIST=BIN; OUTPUT OUT=OUT PRED=YHAT_LO; RUN; TITLE 'Probt Lnk Functon'; PROC GENMOD DATA=CANCER; sprng,

55 Ch. 3 Logstc Regresson MODEL GOOD/CASE=LI /LINK=PROBIT; OUTPUT OUT=OUT3 PRED=YHAT_PR; RUN; DATA FIN; MERGE OUT1 OUT OUT3; RUN; PROC PRINT DATA=FIN;RUN; 프로그램설명 GENMOD 는 GENeralzed lnear MODel 의약어이다. Model 은모형을설정한다. 반응변수 = 종속변수들형태를갖춘다. LINK 는연결함수를지정한다. Lnear Probablty Model 에서는반응변수는정규분포함수설정 (DIST=Normal) Logt model 에서는반응변수분포를이항분포로설정 Probt 에서는 DIST 가필요없다. OUTPUT 문 (statement) 은모형추정결과를저장한다. OUT 옵션은결과를저장하는 SAS data 이름을지정한다. 어떤추정결과를저장할지지정한다. PRED=YHAT1 는예측치 (predcted value) 를 YHAT1 변수명에저장한다. P= RES= / U= / L= Lnear Prob. Model ˆ ( x ) * LI ( L L1 ) 설명변수 LI 는유의하다. 양의부호 (0.088) 를가지므로 LI 가증가할수록병완화비율은높아진다 sprng,

56 Ch. 3 Logstc Regresson Logt Model ˆ( x) ln( ) * LI 1ˆ( x) 1 ˆ( x) 1 exp ( * LI ) 설명변수 LI 는유의하다. 양의부호 (0.1449) 를가지므로위의식에서 LI 가증가할수록병완화비율높아진다 Probt Model 1 ( ˆ( x )) * LI ˆ ( x) ( * LI ) 설명변수 LI 는유의하다. 양의부호 (0.038) 를가지므로위의식에서 LI 가증가할수록병완화비율높아진다 sprng,

57 Ch. 3 Logstc Regresson ˆ ( x) 그래프그리기 SYMBOL1 I=L3 V=NONE C=BLACK; Symbol: 선들에대한옵션 SYMBOL I=L3 V=NONE C=RED; SYMBOL3 I=L3 V=NONE C=BLUE; V= value C=color I=nterpolate AXIS1 ORDER=0 TO 1 BY 0.5 Axs 는축에관한옵션 LABEL=('PHI_HAT'); AXIS ORDER=8 TO 38 BY 10 ORDER= 눈금, LABEL= 축이름 LABEL=('LI LEVEL'); TITLE 'PHI HAT BY MODELs'; PROC GPLOT DATA=FIN; PLOT (YHAT_LI YHAT_LO YHAT_PR)*LI /OVERLAY VAXIS=AXIS1 HAXIS=AXIS; RUN; 그래프를한꺼번에 sprng,

58 Ch. 3 Logstc Regresson Recall: 회귀분석에서의접근 [1999년 1학기강의 ] 종속변수가분류형변수인경우설명변수와인과관계를살펴보는데사용된다. 종속변수의수준이 3 개이상인경우 LOGISTIC 모형을사용하는것이아니라 CATMOD 를사용해야한다고언급한책이있다. 그러나 CATMOD 는 CATegorcal data MODelng 의약어로분류변수자료모형화이며, LOGISTIC 모형은 CATMOD 기법의한부분입니다. LOGISTIC 모형은종속변수의수준이 3 개이상인경우에도가능하나종속변수가분류형변수중 ordnal( 순서형명목형 : nomnal) 일경우만가능하다. 순서형변수? 기업의크기 ( 대, 중, 소 ), 건강상태 ( 양호, 보통, 불량 ), 학점 (A, B, C, D) 등크기순서에의해분류된경우 ODDs 개념 (Bettng 의기준이된다 ) p/(1-p): 어떤사건이발생할가능성 [p=0.5 일경우 1이다. 기준 ] 한국이 00 년 16 강에들어갈확률 0.1 이면 1/9 이 Odds 이다. => 1$ bettng, 9$ return 브라질이 00 년 16 강에들어갈확률 0.8 이면 4 가 Odds 이다. => 4$ bettng, 1$ return OLS 방법의단점 결정계수가매우낮고회귀계수의 t-검정통계량값이맞다. E(Y)=Prob(Y= 발생 ) 이므로해석의어려움이있다. 실제값은 0, 1, 이나예측치는그값이발생할확률이다. 분류형변수특성상이분산의가능성이높다. ODDS TRANSFORMATION p/(1-p) 를 odds transformaton 이라한다. p=pr(y=1) 일확률이라하자. p 는 0과 1사이이므로 odds 는 0과 이다. Log 변환을하면 LOG{p/(1-p)} 는 -와 사이의값이므로 p LOGIT ( p) ln( ) 0 1X1 X.. p X p e 1 p 1 => p ( 0 1X1 X.. p X p e) 1 e sprng,

59 Ch. 3 Logstc Regresson 모형의적합성검정및회귀계수유의성검정 Log L, AIC(Akake Informaton Crteron) Schwartz Crteron=> Adjusted 결정계수와유사한개념 회귀계수의유의성검정은 Wald 의 Ch-square 검정통계량을이용한다. The LOGISTIC Procedure Response Profle Ordered Value Y Count Event No Event PROC LOGISTIC DATA=LOGIT; MODEL Y=X1-X5/CTABLE INFLUENCE; OUTPUT OUT=OUT1 P=YHAT; RUN; PROC PRINT DATA=OUT1; RUN; Model Fttng Informaton and Testng Global Null Hypothess BETA=0 Intercept Intercept and Crteron Only Covarates Ch-Square for Covarates AIC SC LOG L wth 5 DF (p=0.0001) Score wth 5 DF (p=0.0001) Analyss of Maxmum Lkelhood Estmates 모형의유의성검정 => 모든회귀계수는 0이다. P-값이 이므로귀무가설기각표준화회귀계수 Parameter Standard Wald Pr > Standardzed Odds Varable DF Estmate Error Ch-Square Ch-Square Estmate Rato INTERCPT X X X X X Assocaton of Predcted Probabltes and Observed Responses Concordant =100.0% Somers' D = Dscordant = 0.0% Gamma = Ted = 0.0% Tau-a = (1056 pars) c = 설명변수유의성검정 => 회귀계수는 0 이다. P- 값이 0.05 이하인설명변수만유의 sprng,

60 Ch. 3 Logstc Regresson Classfcaton Table Correct Incorrect Percentages Prob Non- Non- Sens- Spec- False False Level Event Event Event Event Correct tvty fcty POS NEG [ 생략 ] [ 생략 ] [ 생략 ] Senstvty=Event 반응중 Event 로예측된비율 Specfcty=No event 중 No Event 로예측된비율 어떤 Phat 값을기준으로반응변수 ( 종속변수 ) 를분류할지결정해야한다. 결정은분석자의주관에의한다. 일반적으로 0.5 를기준으로하면무방하나, Classfcaton Table 의정보를이용해오분류 (msclassfcaton) cost 가가장적은영역의 Phat 를이용하는것이바람직하다. 영향치나이상치를발견하는검정통계량이다. C, Cbar 는 Cook dstance 에근거를두고있다. DIFDEV, DIFCHISQ 는 ll-ftted 관측치를발견하는사용된다. 이예제에서는나는 0.6 을선택했다. sprng,

61 Ch. 3 Logstc Regresson The LOGISTIC Procedure WARNING: The valdty of the model ft s questonable. Regresson Dagnostcs Pearson Resdual Covarates Case (1 unt = 0.06) Number X1 X X3 X4 X5 Value * * * E-7 * E-6 * * E-6 * * * * [ 생략 ] Devance Resdual Hat Matrx Dagonal INTERCPT Dfbeta Case (1 unt = 0.08) (1 unt = 0.06) (1 unt = 6.14) Number Value Value Value * 1.38E-17 * 0 * * 0.70 * * 3 0 * 6.13E-40 * 0 * E-6 *.8E-10 * 1.E-11 * E-6 * 3.749E-9 * 1.59E-10 * 6 0 * 1.5E-6 * 0 * E-6 * 1.186E-8 * 6.64E-10 * 8 0 *.08E-34 * 0 * * * * 10 0 * 1.3E-18 * 0 * [ 생략 ] X1 Dfbeta X Dfbeta X3 Dfbeta Case (1 unt = 5.9) (1 unt = 4.15) (1 unt =.87) Number Value Value Value * 0 * 0 * * * * 3 0 * 0 * 0 * 4-111E-13 * -658E-14 * -107E-13 * 5-153E-1 * -857E-13 * -191E-1 * 6 0 * 0 * 0 * 7-466E-1 * -49E-1 * -446E-1 * 8 0 * 0 * 0 * * * * 10 0 * 0 * 0 * [ 생략 ] X4 Dfbeta X5 Dfbeta C sprng,

62 Ch. 3 Logstc Regresson Case (1 unt = 3.51) (1 unt = 5.66) (1 unt = 489) Number Value Value Value * 0 * 0 * * * * 3 0 * 0 * 0 * E-1 * -981E-14 * 1.84E- * E-11 * -114E-1 * 4.53E-0 * 6 0 * 0 * 0 * E-10 * -558E-1 * 5.04E-19 * 8 0 * 0 * 0 * * * 75.6 * 10 0 * 0 * 0 * CBAR DIFDEV DIFCHISQ Case (1 unt =.7) (1 unt =.73) (1 unt =.7) Number Value Value Value * 0 * 0 * * * * 3 0 * 0 * 0 * E- * 1.31E-1 * 6.56E-13 * E-0 *.4E-11 * 1.1E-11 * 6 0 * 0 * 0 * E-19 * 8.5E-11 * 4.5E-11 * 8 0 * 0 * 0 * * * * 10 0 * 0 * 0 * OBS X1 X X3 X4 X5 Y _LEVEL_ YHAT [ 생략 ] Yhat 는 Pr(Y=Event) 의예측치이므로 Yhat 의값이 1 에가까우면그관측치는 Event(Y=1) 로분류된다. 앞에서는분류기준을 0.6 으로설정하였으므로 Yhat 의값이 0.6 보다크면관측치를 1 그룹 ( 성공 ; event) 으로분류하고 0.6 이하이면 0 그룹 ( 실패 ; non-event) 으로분류한다. 66 번째관측치는실패그룹으로분류된다. sprng, 013 6

63 Ch. 3 Logstc Regresson 유의한설명변수를찾는방법 [Selecton of Varables] 일반회귀모형과동일하게변수선택을할수있다. [opton 도동일하다 ] PROC LOGISTIC DATA=LOGIT; MODEL Y=X1-X5/SELECTION=STEPWISE SLENTRY=0.05; RUN; NOTE: Model buldng termnates because the last varable entered s removed by the Wald statstc crteron. Summary of Stepwse Procedure Varable Number Score Wald Pr > Step Entered Removed In Ch-Square Ch-Square Ch-Square 1 X X X Analyss of Maxmum Lkelhood Estmates Parameter Standard Wald Pr > Standardzed Odds Varable DF Estmate Error Ch-Square Ch-Square Estmate Rato INTERCPT X PROC LOGISTIC DATA=LOGIT; MODEL Y=X/CTABLE INFLUENCE; OUTPUT OUT=OUT1 P=YHAT; RUN; PROC PRINT DATA=OUT1; Classfcaton Table Correct Incorrect Percentages Prob Non- Non- Sens- Spec- False False Level Event Event Event Event Correct tvty fcty POS NEG [ 생략 ] sprng,

64 Ch. 3 Logstc Regresson [ 생략 ] OBS X1 X X3 X4 X5 Y _LEVEL_ YHAT [ 생략 ] [ 생략 ] 번째관측치가오분류. 그리고대체로 Yhat 의값들이 0 혹은 1 로부터멀어져중앙값으로쏠리는경향이있다 ( 예 ; 관측치 ). 그러나오분류비율은이전모형에비해감소하였다. 적은설명변수로분류의효율을높였다. 만약 0.5 에의해집단을분류하려면다음프로그램이용 DATA FIN; SET OUT1; IF (YHAT>0.5) THEN GROUP= NON-EVENT ; IF (YHAT<=0.5) THEN GROUP= EVENT ; RUN; PROC PRINT DATA=FIN; RUN; sprng,

65 Ch. 3 Logstc Regresson Recall: 다변량분석측면 [001년 1학기 ] 판별분석 (DA) 은판별변수가모두측정형 ( 연속형 : contnuous, measurement, metrc)) 인경우사용할수있다. 물론 decson tree 방법 (CART, CHAID) 인경우판별변수가이산형이나순서형분류형변수인경우도가능하지만 로지스틱회귀분석 (logstc regresson) 은혹은 Logt( 로짓 ) 회귀분석과동일하고차이가있다면종속변수가 ( 독립변수 ) 이진 (bnary: 가질수있는값이실패 / 성공, 정품 / 불량등과같이가질수있는값이 개인경우 ) 인경우분석하는것이다. 일반회귀분석은종속변수가연속형이어야한다. 로지스틱회귀분석에서종속변수값은 0, 1( 사건 : 성공, 불량 ) 로입력된다. 칠면조예제를생각해보자. 야생칠면조는경우 y=1, 사육칠면조는 y=0 으로하여회귀분석하면된다. 로지스틱회귀분석에서는종속변수가 1 혹은 0 을가질확률을추정하게된다. 그러므로이확률을이용하여개체를분류할수있다. 즉어떤개체에대해 Pr(y=1) 의추정치가 0.5 보다크면야생칠면조로 0.5 보다작으면사육칠면조로분류하면된다. 로지스틱회귀분석은이진형반응변수뿐아니라반응변수가순서형 (ordnal) 분류형인경우사용할수있습니다. 예를들면종속변수가고객의신용도이고이변수가 ( 상, 중, 하 ) 분류되어있는경우사용할수있습니다. 종속변수의수준이 3 개이상인경우 LOGISTIC 모형을사용하는것이아니라 CATMOD 를사용해야한다고언급한책이있다. 그러나 CATMD 는 CATegorcal data MODelng 의약어로분류변수자료모형화이며, LOGISTIC 모형은 CATMOD 기법의한부분입니다 일반선형회귀모형 y f ( x) 1 x1 x.. p x p e, e ~ dn (0, ) 로지스틱회귀모형의종속변수는 0 과 1 두값만가지므로 ( 더이상정규분포를따르지않는다 ) 결정계수 (R ) 가매우낮고 F-검정이나 t-검정을사용하여모형, 회귀계수추정을할수없다. ODDS & ODDS transformaton p/(1-p): 어떤사건이발생할가능성 [p=0.5 일경우 1이다. 기준 ] 한국이 00 년 16 강에들어갈확률 0.1 이면 1/9 이 Odds 이다. => 1$ bettng, 9$ return 브라질이 00 년 16 강에들어갈확률 0.8 이면 4 가 Odds 이다. => 4$ bettng, 1$ return odds transformaton: p*=p/(1-p) sprng,

66 Ch. 3 Logstc Regresson 로지스틱회귀모형 종속변수를 Pr( Y 1) 라고생각해보면종속변수는어떤사건이일어날확률이 p (Y=1) 된다. 그리고여기에 ODDS 변환을해보자. * p p 1 p 확률 p 가 (0,1) 사이의값을가지므로 * p 는 (0, ) 값을가진다. ln( p ) 변환을하면이 * 변수는 (-,) 값을가지므로다음과같은모형을생각해볼수있다. p ln( ) 1 x1 x.. p x p e : 로지스틱모형 1 p 위의모형을다시쓰면다음과같다. { 1x1 x.. px p} e p Pr( Y 1 x) e { x x x p p} 1 e p Pr( Y 1 x) 1 e 1 { 1x1 x.. px p} e 모형의적합성검정및회귀계수유의성검정모형전체의유의성은 Log L, AIC(Akake Informaton Crteron) Schwartz Crteron 을이용하고 (Adjusted 결정계수와유사한개념 ) 회귀계수의유의성검정은 Wald 의 Chsquare 검정통계량을이용한다. 칠면조예제를사용해 Logstc 회귀분석을실시하자. 자료읽기 & Logstc 분석맛보기 sprng,

67 Ch. 3 Logstc Regresson 결과해석 자료의수가 33 사육 19 마리야생 14 Event=1: Pr(Y=1) 사육 [ 중간생략 ] 모형의유의성검정전체적으로는유의 설명변수각각에대한유의성검정, 그나마다소유의해보이는변수들에대한유의성검정결과출력 : 유의한변수가보이지않는다. 매우유의하지않은변수들의유의성검정결과출력 sprng,

68 Ch. 3 Logstc Regresson 변수선택프로그램 & 결과해석 방법은 STEPWISE 방법이고 SLE=0.(ENTRY) SLS=0.1(STAY) 이다. 로지스틱에서는이정도값을사용하면된다. 최종적으로선택된변수는 TIN 변수이다. 반드시넣고싶은변수포함하여변수선택 최종적으로선택된변수는 TIN 변수하나만이지만처음 9 개변수모두를넣고로지스틱분석한결과 ULN 이가장유의하였다 (p-값 =0.7918). 그래서변수선택을하되처음 개의변수를반드시포함하라는옵션이 INCLUDE= 이다. 이경우 MODEL 문에포함하기원하는변수를반드시제일앞에써야한다. 최종적으로선택된변수는 TIN 변수와 ULN 이다. 이두개외에다른변수는유의하지않았다. sprng,

69 Ch. 3 Logstc Regresson 개체판별하기 CTABLE 은 Classfcaton table 로개체분류를위한정보를제공한다. 앞에서 EVENT 는 DOMESTIC( 사육 ) 칠면조였다. Event 를 Event 로정분류사육을사육으로분류 Non-Event 를 Non-Event 로정분류야생을야생으로분류 non-event( 야생 ) 를 EVENT( 사육 ) 로오분류 EVENT( 사육 ) 를 non-event( 야생 ) 으로오분류 0.3 을 cut-off 값으로하면어떨지 만약 Pr(Y=1) 예측치값이 0.3 보다크면 Event( 사육 ) 으로 0.3 보다크면야생으로분류하면된다. sprng,

70 Ch. 3 Logstc Regresson 0.4 에서도오분류는동일하게 4 개이다. 차이가있다면 event 를 Non-event 로오분류할가능성이높다는것이다. 그러므로 cost 를생각하여 cut-off 선택은분석자자유. 새로운개체분류하기 _LEVEL_= 에는 Event 의수준을나타낸다. 출력결과를보면모두 DOMESTIC 이다. PHAT 는 Pr(y=1:event) 의추정치이므로 0.5 이상이면 Event 로분류하고그미만이면 nonevent 로분류한다. 우리는앞에서 0.3 을 cut-off 로하였으므로 19 번째개체는 DOMESTIC 으로분류되어야한다. 이것이 오분류이고 cut-off 가 0.3 인 경우 Event( 사육 ) 라고잘못분류할 개중에하나이다. (19 번째, 30 번째, 36 번째 ): Wld=>Domestc 으로오분류 83 번째새로운개체는 Nonevent 인 Wld( 야생 ) 으로분류한다. phat= sprng,

71 Ch. 3 Logstc Regresson HOMEWORK #6-3 TAX.txt TAX.txt 자료는다음변수에대한자료이다. 다음절차에의해 Logstc 분석을실시하시오. 1) 적절한변수를선택하고 ( 유의수준 =0.1) ) 분석결과를해석하시오. 3) Classfcaton Table 을보고적절한 Phat 기준을선택하시오. ( 분류에참고 ) 종속변수 : PREP( 세금보고전문가이용 =1, 자신이직접 =0) 독립변수 : 1)MA ( 결혼여부, 1= 결혼, 0= 미혼 ) Indcator 변수 )SE ( 자기사업 =1, 취업 =0) Indcator 변수 3)DEP ( 부양가족수 ) : 측정형변수 ( 연속형 ) 4)TR ( 세금효율 :rate) : 측정형변수 ( 연속형 ) 5)INCOME ( 소득 ) : 측정형변수 ( 연속형 ) HOMEWORK #7 다음자료는혈압 (X) 에따른심장병발병확률 (Y) 의차이가있는지알아보기위하여조사한자료이다 , 혈압이구간으로추정되어있으므로모형적합시에는구간의중앙값을사용하시오. 1) Logt Model 을적합 (ft) 하고결과를해석하시오. sprng,

72 Ch. 3 Logstc Regresson ) Probt Model 을적합 (ft) 하고결과를해석하시오. 3) 원자료, Logt Model 예측치, Probt Model 예측치의산점도그래프를하나의그래프에나타내시오 Logt model for categorcal explanatory varable 3.. 절에서는설명변수가연속형 ( 측정형 ) 인경우 Logt 모형을살펴보았다. 여기서는설명변수가범주형 (categorcal) 일때분석방법을다루기로하겠다. 사실설명변수가범주형이고 lnk 함수가 Logt 이면다음장에살펴볼 Log-lnear 모형과같지만간단한예제형식으로살펴보기로하자 Logt model for Ix table 반응변수설명변수 (X) 1 R 성공실패합계 y1 x1 n 11 y1 x n 1 y 1 x n 1 y 1 xr n r1 y0 x1 1 y1 x1 n 1 n 1 y0 x 1 y1 x n n y0 x 1 y1 x n n y0 xr 1 y1 xr n r n r 예제자료 sprng, 013 7

73 Ch. 3 Logstc Regresson Logt model ln( 1 ) --- (1) 모형에대한분석은일원분산분석 (one-way ANOVA) 이랑동일하다. 설명변수가 연속형이면 1 x 로회귀분석과같다. 단지종속변수가 y 가아니라 ln( ) 이다. 는행의효과인데이는요인효과와동일하다. 는로짓의평균이고 ( 종속변수평균 ) 가높을수록 행의 logt 값은크고만약각행의총빈도가고정이면 ( y 1 x 는증가한다. y 1 x n ) 반응변수는성공 / 실패만있으므로모수가 ( 설명변수수준인 인경우, 즉 행의성공확률 ) 인 Bernoull 분포를따른다. 그러므로 행의성공회수 ( n 1 ) 는 Bnomal ( n n, p y1 x ) 분포를따른다. 그리고 행의효과가없다면 ( 설명변수의요인효과가없다면, 1... r 0 ) Logt model 은 다음과같이줄어든다 r 0 1 x1 1 x... 1 xr 그러므로독립성 검정이란동일하다. 1 ln( ) Logt models for hgher dmenson 범주형인설명변수가 개이상이고반응변수가 진인경우 Logt model 을사용할수있다. 설명의편리를위하여설명변수가 개 ( 요인 A, 요인 B) 일때알아보기로하자. 두설명변수수준을각각 I, J 라하자. 그러면 1 이다. 그러므로분할표는 IxJx 형태이고 Logt model 은 ln( 1 j j ) y1 j y0 j j --- () 이모형에대한분석은교차항이 (nteracton) 없는이원 (two-way) 분산분석과동일하다. 만약각행의총빈도가고정이면 ( ) 반응변수는성공 / 실패만있으므로모수가 y 1 xj n j ( 설명변수수준인 (, j) 인 Bernoull 분포를따른다. 그러므로 행의성공 회수 ( n j1 ) 는 Bnomal ( n n, p y1j ) 분포를따른다. 한설명변수 ( 요인 ) A 의 ( 주 ) 효과가없다면 (... 0 ) Logt model 은다음과같이줄어든다. 물론요인 1 r B 의주효과에대해서도같은이론이적용될수있다. ln( 1 ) j sprng,

74 Ch. 3 Logstc Regresson 예제 : 범주형인설명변수가하나이고종속변수가 bnary 인경우혈압에따른심장병발병비율의차이가있는지알아보기위하여조사된자료이다. [Cornfeld (196) Homework#7 자료와동일 ] 혈압이구간으로측정되어있으므로이를범주형척도로인지하자. Homework#7 에서는 Logt Regresson Model 을사용하려면설명변수가측정형이어야하므로구간의중앙값으로 (111.5, 11.5,, 176.5, 191.5) 사용하였다. ML (Maxmum Lkelhood) 추정치 Saturated model (1) 에대하여 { } 의선택제약조건에상관없이 { } 는일정하고이에 대한 ML 추정치는표본 Logt 이다. 즉, ˆ ˆ 1 log(3 /153) 3.93 Logt Regresson Model Logt Regresson model 에의해모형을추정하면 추정치 ln( y1 x y0 x ) x x sample obs(ml) logt (BP) logt ˆ ˆ 1) Logt regresson model 의회귀계수의유의성추정은 WALD 통계량에의한다. ˆ T ~ z(0,1) (SAS 에출력 ) ASE( AsymStdErr) sprng,

75 Ch. 3 Logstc Regresson ) Pearson Ch-square 통계량 ( n ˆ ) j nj ~ ( df ( r 1)( c 1) nˆ 1.4 e nˆ j 는 logt model 에의해추정된기대도수 : ( 예 ) e j 43*0.194=8.4 분할표검정에의하면 3) Lkelhood Rato Test G nj nj log( ) ~ ( df ( r 1)( c 1) nˆ nˆ j 는 logt model 에의해추정된기대도수로 1) 와동일하다. j LOG-LOG Lnk ln( ln( ( x )) x sprng,

76 Ch. 4 Log-lnear Model 3 장에서는종속변수 ( 반응변수 ) 가이진형 (bnary) 인경우이고설명변수가하나이고측정형인경우분석방법인 Logt Regresson model, Probt model 을살펴보았다. 물론마지막절에서는설명변수가분류형일경우 Logt regresson model 이어떻게이용될수있는지살펴보았지만, 이것이이장에서다룰 Log-lnear 분석몫이다. Log-lnear 분석은종속변수와독립변수가모두범주형 ( 분류형 ) 인경우인과관계를분석하는방법이다. 이분석에서는분할표의셀빈도를변수들 ( 설명변수들과반응변수 ) 의관계로표현한다. 반응변수가이진형이면 Log-lnear 분석은 Logt 분석과동일하다. 종속변수가이진형이고설명변수가 개이상이고 Mxed( 측정형, 분류형 ) 인경우는 Logstc Regresson model 을사용하면된다. [ 페이지 44~ 회귀분석측면참고 : PROC LOGISTIC 절차에서도 /SELECTION=MODEL, 즉변수선택이가능, LOGISTIC 분석은개체분류하는판별분석에도사용된다. 페이지 51 참고 ]. Recall Homework #8: 페이지 57 의 Homework6-3 문제수정 TAX.txt 자료는다음변수에대한자료이다. 다음절차에의해 Logstc 분석을실시하시오. 1) 적절한변수를선택하고 ( 유의수준 =0.1) 분석결과를해석하시오. ( 회귀분석 ) ) 판별분석을실시하고 Classfcaton Table 을보고적절한 Phat 기준을선택하시오. ( 분류에참고 ) 3) 새로운사람의정보는다음과같다. 세금보고전문기업은이사람에게 DM 발송을할필요가있겠는가? 결혼, 자기사업, 부양가족 =10 명, 세금효율 =3, 소득 =1.3 종속변수 : PREP( 세금보고전문가이용 =1, 자신이직접 =0) 독립변수 : 1)MA ( 결혼여부, 1= 결혼, 0= 미혼 ) Indcator 변수 )SE ( 자기사업 =1, 취업 =0) Indcator 변수 3)DEP ( 부양가족수 ) : 측정형변수 ( 연속형 ) 4)TR ( 세금효율 :rate) : 측정형변수 ( 연속형 ) 5)INCOME ( 소득 ) : 측정형변수 ( 연속형 ) 4.1. Log-lnear Model for dmenson IxJ 분할표의총 N(=*j) 개의셀에서 n 개의표본을추출하는다항분포를고려하자. 다항분포에서확률 j 가 차원분할표의 ( dmenson contngency table) 결합밀도함수를형성한다. 만약반응이서로독립이면 j j for 1,,..., I and j 1,,..., J 이다. 그러므로가셀의기대도수 Ej mj n j 이다. Log-lnear 모형에서는확률 j 대신 mj 를사용하여모형을설정한다. X 분할표에대해예제 ( 성별에따른사후세계믿음여부차이 ) 를통해 Log-lnear model 을설명해보기로하자. sprng,

77 Ch. 4 Log-lnear Model 믿는다 안믿는다 남자 여자 ( df 1) 이므로성별의차이는없다 Independence model 만약두변수간에독립을가정하면 (,,j) 셀의기대빈도의 Log 는다음과같다. ln mj ln n ln ln j 행변수 ( 일반적으로독립변수 ) 를 X, 열변수를 ( 종속변수 ) Y 라하면위의식은 Log-lnear model of ndependence mj X ln --- (1) Y j where X ln ( ln h ) / I, Y ln j ( ln h ) / J, h h ln n ( ln h ) / I ( ln h ) / J. h h X 제약조건 0 X Y Y j 모수, 는평균에대한편차 (devaton) 이다. sprng,

78 Ch. 4 Log-lnear Model ln mˆ j 믿는다안믿는다 남자 여자 X 분할표의경우 Independence model 의모수해석은 m11m ln ln( ) ln m11 ln m ln m1 ln m1 m1m1 X Y X Y X Y X ( 1 1 ) ( ) ( 1 ) ( Y 1 ) 0 X 제약조건 0 Y j 과 ln mj X Y j 을이용하여식 (1) 의모수에대한 추정치를구하면다음과같다. 유일근 ( 독립모형에서는각요인에서모수가중복적으로정의되어 ) 이아니므로요인의마지막수준을 0 으로하거나 ( 방법 1: SAS GENMOD) 첫수준을 0 으로하거나 ( 방법 : SAS GENMOD) 모수의합을 0 으로한방법 ( 방법 3: SAS CATMOD) 으로모수를추정할수있다. X 1 방법 방법 방법 X Y 1 Y X 1 행 열을보면 ln m ln(149.9) Y 그리고어떤방법을사용하더라도요인의주효과 (man effect) 를나타내는모수간차이는항상동일하다. 예를들어 1 Y Y 이다. 그러므로 ˆ ˆ ln ln( ) 이고 odds (435134) rato 의추정치 ˆ 는 e. 88 이다. (x 분할표방법과동일 = exp[ ] ) (375147) sprng,

79 Ch. 4 Log-lnear Model Saturated model 만약변수들간에독립이성립하지않는다고가정하자. 그리고 n j ln m, j n n j j, J n n I j j, n n j I J j 라놓고 X n n.. Y XY, n j n.., j nj n n j n.. 라하면다음과같이놓을수있다. j X X j XY j lg m XY XY, 제약조건 0 j j --- () j 모수의개수 1 개, X 형태의비중복모수수 (I-1), Y j 는 (J-1), j XY 는 (I-1)X(J-1) 이므로총모수수는 IJ 개이다. 이경우모수의수가가자많으므로 꽉찼다 는의미의 saturated model 이라한다. (cf) Independence model = reduced model ( 귀무가설이성립할경우 ) 식 (1) Saturated model = full model 식 () 식 () 와같은모형을 herarchcal model ( 층화모형 ) 이라한다. 층화모형이란차수항이 높은요인이있으면저차항은반드시포함되어있는것이다. XY j 이있으면 X, Y j 이 들어있는경우이다. 층화모형이선호되는이유는낮은차수항이포함되지않으면고차항에 ( 교차효과와비슷 ) 대한해석이어렵기때문이다. 그리고 nj ln mj, n n j j, J n n I j j, n n j I J j 라놓고 X n n.. Y XY, n j n.., j nj n n j n.. 라하면다음과같이놓을수있다. mj X X j XY j ln, 제약조건 () 위의모형은교차 (nteracton) 항이있는 two-way ANOVA 모형과동일하다. 는평균에 X 대한편차이므로만약 0 이면 행셀들의기대치 ( 물론 log 기대빈도의평균 ) 는전체분할표의기대치보다높다. XY j j XY j X sprng,

80 Ch. 4 Log-lnear Model Saturated model 의모수의수는 1 ( I 1) ( J 1) ( I 1)( J 1) IJ 이고 ndependent model 의모수수는 1 ( I 1) ( J 1) I J 1이고만약모든 0 이면두변수는서로 독립이다. XY j X 분할표의경우 Saturated model 의모수해석은 m11m ln ln( ) ln m11 ln m ln m1 ln m1 m1m1 X X XY X X XY ( ) ( ) ( XY XY XY XY X 1 X XY 1 ) ( X X 1 XY 1 ) 조건 0 에의해 XY j j XY j XY XY XY XY XY log 411 XY 11 그러므로 0 ( 독립 ) 이면 Odds rato 는 1이된다. (Recall: 독립 ) 식 () 는 m j exp X X XY ( j j ) 이고셀확률 j mj mab 는 j XY ( j ) exp X X ( j exp j X X j XY ) IxJ 분할표에서는 (I-1)x(J-1) 개의연관성모수만을중복되지않게정의할수있고독립성검정은 (I-1)x(J-1) 개의모수들이 0 인지를검정한다. 그러므로 X 에서는 1 개의모수가 odds rato 를결정한다. 다음은예제자료 (x 분할표 ) 의연관성관련모수를추정한예이다. XY 11 XY 1 XY 1 XY 방법 방법 방법 XY XY XY XY ln ˆ e sprng,

81 Ch. 4 Log-lnear Model SAS 사용예제 [Independence model] 75page 76page 74page sprng,

82 Ch. 4 Log-lnear Model 74page[ ] 기대도수와관측도수는같다. (saturated model) 4.. Log-lnear Model for 3 dmenson 인과관계연구에서중요한것은예측변수 (predctor) 와통제변수 (control varable) 를어떻게잘선택하냐하는것이다. 하나의반응변수와하나의설명변수간의관계를연구할때그관계에영향을미치는변량 (covarate) 을조정해야한다. 예를들어간접흡연의효과를알아보기위하여남편이흡연하는아내들의폐암발생율과남편이비흡연자인아내들의폐암발생율을비교할수있을것이다. 종속변수는폐암발생여부, 설명변수는남편흡연여부이다. 이경우인과관계를제대로분석하려면여자의나이, 사회학적수준, 근무환경등을조정해야한다 Partal Assocaton 변수가 3개 (X, Y, Z) 이고모두범주형 ( 분류형 ) 이라면다항분할표를얻을수있다. 이경우 Z 의값에따라 X-Y 분할표를얻을수있다. 이분할표를 partal table 이라하고 z 는 controlled 되었다고한다. partal table 을결합하여얻어진분할표를 X-Y margnal table 이라하는데이경우 z는무시되었다고본다. sprng, 013 8

83 Ch. 4 Log-lnear Model 4... Death Penalty Example 다음 Table 5.1 은 Radelet(1981) 의 xx 분할표로살인사건의피고 (defendant) 인종에따른사형판결 (death penalty) 의차이는있는지알아보고자조사한자료이다. 총관측치수는 36 명. 종속변수는 Death penalty, 설명변수는 Defendant race, 그리고 control 변수가 vctm race 이다. 빨간박스안은 Vctm( 피해자 ) 의인종을무시하고구한사형언도받은사람비율이다. 이것만보면흑인의사형언도비율은약 10%, 백인의사형언도비율은 1% 로흑인이낮다. [Table 5.] 그러나 vctm 인종을고려하여보자. Vctm 이백인일때피의자흑인의사형언도비율은 4.9%(= ) 높고 vctm 이흑인일때피의자백인의사형언도비율은흑인에비해 5.8% 낮다. 즉 vctm 인종을 control 하면흑인의사형언도비율이높다. control 변수를고려하면왜두변수간의관계의방향이변하는가? Table 5.3. 을보자. Table 5.3 의 Odds rato 를계산할때는셀이 0 인셀이있어각셀에 0.5 을더하여계산하였다. Margnal (vctm 인종이무시 ) 값을살펴보면 Defendant 가백인인경우흑인보다사형언도받을가능성은 1.18 배이다. Partal (vctm 의인종이 control) 을보면 vctm 인종이백인인경우 (Level1) 백인 defendant 사형언도가능성은흑인의 0.67 배, vctm 이흑인일경우 0.79 배로 margnal 의결과와반대가된다. 이는왜그럴까? vctm 인종과 defendant 인종간의 odds rato 의값이매우높다. 즉 vctm 백인인경우 defendant 백인이흑인에비해 5.99 배이다. sprng,

84 Ch. 4 Log-lnear Model vctm 인종이백인이많고백인이백인을많이살해하므로 vctm 인종만을고려하지않으면백인이흑인에비해사형언도받을가능성이높다고결론지을수있으나 vctm 인종을고려하면해석은달라진다. 다음은 margnal 과 partal 의효과의차이를보여준것이다. 동그라미는 defendant 인종과 vctm 인종의결합에서관측치크기이다. 이렇게 margnal 과 partal 효과가달라지는경우를 Smpson Paradox 라한다. sprng,

85 Ch. 4 Log-lnear Model Independence 종류 변수 X, Y, Z 3 개있다고가정하자. 식 (5.10) 의 mutual ndependence 는 log-lnear model log( m jk ) X Y j Z k 식 (5.1) 은 log-lnear model log( m jk ) X Y j Z k XZ k 식 (5.15) 은 log-lnear model log( mjk ) X Y j Z k XZ k YZ jk Margnal vs. condtonal Independence 다음자료는변수 X( 성별 ), Y( 소득수준 ), Z( 전공 ) 의연관성분석을위한자료라하자. 전공이주어진경우성별과소득수준과의연관성은 odds rato 에의해계산되는데 Lberal art: 1, Scence: 1 서로독립 (condtonal) 전공을무시한성별과소득수준과의연관성은 odds rato 에의해계산되는데 독립이아님 (margnal) sprng,

86 Ch. 4 Log-lnear Model 전공을무시할때소득수준의 hgh 의 odds rato 의경우여학생보다남학생이 배높다. 왜이런경우가? 해답은성별과전공, 소득수준과전공의 condtonal adds rato 는 6이다. 소득이주어진경우전공과학의전공선택은남자가 6 배높고, 성별이주어진경우소득수준이높은사람은과학전공자가인문과학전공자보다 6배높다. 만약 Y 가 (X, Z) 와 jont 독립이라면 양변을 k 에대해합하면 j jk j k j (X, Z) 와독립이라면 X, Y 는 condtonally, margnally 독립이다. 이다 (condtonally ndependence). 만약 이므로 X, Y 는 margnal 독립이다. 그러므로 Y 가 Three-factor nteracton model log( m jk ) X Y j Z k XY j XZ k YZ jk sprng,

87 Ch. 4 Log-lnear Model 4.3. Log-lnear models for 3 dmenson log( m jk ) X Y j Z k XY j XZ k YZ jk XYZ jk (X, Y, Z) 모두독립 (XY, Z) Z는 (X, Y) 와독립 (XY, YZ) Y 가주어진경우 X와 Z가독립 (XY, YZ, XZ) X, Y, Z 의어떤쌍도서로조건적독립이아니고 3차교차항이없다. (XYZ) X, Y, Z 의어떤쌍도서로조건적독립이아니고각쌍의 odds rato 가다른변수에따라변한다. sprng,

88 Ch. 4 Log-lnear Model Example Ths analyss reproduces the predcted cell frequences for Bartlett's data usng a log-lnear model of no three-varable nteracton (Bshop, Fenberg, and Holland 1975, p. 89). Cuttngs of two dfferent lengths ( Length=short or long) are planted at one of two tme ponts (Tme=now or sprng), and ther survval status ( Status=dead or alve) s recorded. 3 차교차항만유의하지않으므로모형은다음과같다. log( m jk ) X Y j Z k XY j XZ k YZ jk sprng,

cat_data3.PDF

cat_data3.PDF ( ) IxJ ( 5 0% ) Pearson Fsher s exact test χ, LR Ch-square( G ) x, Odds Rato θ, Ch-square Ch-square (Goodness of ft) Pearson cross moment ( Mantel-Haenszel ), Ph-coeffcent, Gamma (γ ), Kendall τ (bnary)

More information

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포 생존분석의 추정과 비교 : 보충자료 이용희 December, 8 Cotets 생존함수와 위험함수. 생존함수와 위험함수....................................... 예제: 지수분포.......................................... 예제: 와이블분포.........................................

More information

Microsoft Word - SAS_Data Manipulate.docx

Microsoft Word - SAS_Data Manipulate.docx 수학계산관련 함수 함수 형태 내용 SIN(argument) TAN(argument) EXP( 변수명 ) SIN 값을계산 -1 argument 1 TAN 값을계산, -1 argument 1 지수함수로지수값을계산한다 SQRT( 변수명 ) 제곱근값을계산한다 제곱은 x**(1/3) = 3 x x 1/ 3 x**2, 세제곱근 LOG( 변수명 ) LOGN( 변수명 )

More information

G Power

G Power G Power 부산대학교통계학과조영석 1. G Power 란? 2. G Power 설치및실행 2.1 G Power 설치 2.2 G Power 실행 3. 검정 (Test) 3.1 가설검정 (Test of hypothesis) 3.2 검정력 (Power) 3.3 효과크기 (Effect size) 3.4 표본수산정 4. 분석 4.1 t- 검정 (t-test) 4.2

More information

R t-..

R t-.. R 과데이터분석 집단의차이비교 t- 검정 양창모 청주교육대학교컴퓨터교육과 2015 년겨울 t- 검정 변수의값이연속적이고정규분포를따른다고할때사용 t.test() 는모평균과모평균의 95% 신뢰구간을추청함과동시에가설검증을수행한다. 모평균의구간추정 - 일표본 t- 검정 이가설검정의귀무가설은 모평균이 0 이다 라는귀무가설이다. > x t.test(x)

More information

Microsoft PowerPoint - SBE univariate5.pptx

Microsoft PowerPoint - SBE univariate5.pptx 이상치 (outlier) 진단및해결 Homework 데이터 ( Option.XLS) 결과해석 치우침? 평균이중앙값에비해다소크다. 그러나이상치때문이지치우친것같지않음. Toys us 스톡옵션비율이이상치 해결방법 : Log 변환? 아니다치우쳐있지않기때문에제거 제거후 : 평균 :.74, 중위수 :.7 31 치우침과이상치 데이터 : 노트북평가점수 우로치우침과이상치가존재

More information

nonpara6.PDF

nonpara6.PDF 6 One-way layout 3 (oneway layout) k k y y y y n n y y K yn y y n n y y K yn k y k y k yknk n k yk yk K y nk (grand mean) (SST) (SStr: ) (SSE= SST-SStr), ( 39 ) ( )(rato) F- (normalty assumpton), Medan,

More information

Microsoft Word - EDA_Univariate.docx

Microsoft Word - EDA_Univariate.docx 일변량분석개념 일변량분석은개체의특성을 측정한변수가하나인 통계분석 방법 변수의 종류 ( 수리 통계 ) 이산형 (discrete): 측정결과를셀수있는경우이다. 성별, 직업, 교통량, 나이등이여기해당된다. 연속형 (continuous): 측정결과가무한이 (infinite) 많은변수를연속형형변수라한다. 즉변수의범위 (range) 중어떤구간을설정하더라도측정치가발생할할수있는경우로키,

More information

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션 응용식물통계학 Statistics of Applied Plants Science 친환경식물학부유기농생태학전공황선구 13 장상관분석 1. 상관계수 2. 상관분석의가정과특성 3. 모상관계수의검정과신뢰한계 4. 순위상관 14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 - 실습 - 상관분석 지금까지한가지확률변수에의한현상을검정하였다.

More information

(Hyunoo Shim) 1 / 24 (Discrete-time Markov Chain) * 그림 이산시간이다연쇄 (chain) 이다왜 Markov? (See below) ➀ 이산시간연쇄 (Discrete-time chain): : Y Y 의상태공간 = {0, 1, 2,..., n} Y n Y 의 n 시점상태 {Y n = j} Y 가 n 시점에상태 j 에있는사건

More information

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63> 제 3 강계량경제학 Review Par I. 단순회귀모형 I. 계량경제학 A. 계량경제학 (Economerics 이란? i. 경제적이론이설명하는경제변수들간의관계를경제자료를바탕으로통 계적으로추정 (esimaion 고검정 (es 하는학문 거시소비함수 (Keynse. C=f(Y, 0

More information

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표 Vector Differential: 벡터 미분 Yonhee Lee October 7, 08 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표기법을 정의하는 방법이다 보통 스칼라(scalar)에 대한 미분은 일분수 함수 f : < < 또는 다변수 함수(function

More information

R

R R 과데이터분석 상관관계 양창모 청주교육대학교컴퓨터교육과 2015 년여름 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 1 / 20 상관관계 양적변수quantitative variables 사이의관계relationships를나타내기위하여상관계수correlation coefficients를사용한다. ± 기호를사용하여관계의방향을나타낸다.

More information

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은 2013 년도연구용역보고서 공공기관임금프리미엄추계 - 2013. 12.- 이연구는국회예산정책처의연구용역사업으로수행된것으로서, 보고서의내용은연구용역사업을수행한연구자의개인의견이며, 국회예산정책처의공식견해가아님을알려드립니다. 연구책임자 한국노동연구원선임연구위원정진호 공공기관임금프리미엄추계 2013. 12. 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영

More information

Microsoft Word - sbe13_reg.docx

Microsoft Word - sbe13_reg.docx Statstcs 4 Busness and Economcs (Regresson) 상관계수 상관계수정의 두변수간의선형관계정도를나타내는값 COV ( X, Y ) E( X E( X ))( Y E( Y )) 정의 : V ( X ) V ( Y ) V ( X ) V ( Y ) 표본상관계수 : r ˆ ( ( x ( x x) x) ( x x x)( y x)( y /( n 1)

More information

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut 경영학을 위한 수학 Fial Eam 5//(토) :-5: 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오.. (각 6점) 다음 적분을 구하시오 4 ( ) (a) ( )4 8 8 (b) d이 성립한다. d C C log log (c) 이다. 양변에 적분을 취하면 log C (d) 라 하자. 그러면 d 4이다. 9 9 4 / si (e) cos si

More information

Microsoft Word - SPSS_MDA_Ch6.doc

Microsoft Word - SPSS_MDA_Ch6.doc Chapter 6. 정준상관분석 6.1 정준상관분석 정준상관분석 (Canonical Correlation Analysis) 은변수들의군집간선형상관관계를파악하는분석방법이다. 예를들어신체적조건 ( 키, 몸무게, 가슴둘레 ) 과운동력 ( 달리기, 윗몸일으키기, 턱걸이 ) 사이의선형상관관계가있는지알아보고, 관계가있다면어떤관계가있는지분석하는것이다. 정준상관분석은 (

More information

확률과통계6

확률과통계6 확률과통계 6. 이산형확률분포 건국대학교스마트 ICT 융합공학과윤경로 (yoonk@konkuk.ac.kr) 6. 이산형확률분포 6.1 이산균일분포 6.2 이항분포 6.3 초기하분포 6.4 포아송분포 6.5 기하분포 6.6 음이항분포 * ( 제외 ) 6.7 다항분포 * ( 제외 ) 6.1 이산균일분포 [ 정의 6-1] 이산균일분포 (discrete uniform

More information

(001~006)개념RPM3-2(부속)

(001~006)개념RPM3-2(부속) www.imth.tv - (~9)개념RPM-(본문).. : PM RPM - 대푯값 페이지 다민 PI LPI 알피엠 대푯값과산포도 유형 ⑴ 대푯값 자료 전체의 중심적인 경향이나 특징을 하나의 수로 나타낸 값 ⑵ 평균 (평균)= Ⅰ 통계 (변량)의 총합 (변량의 개수) 개념플러스 대푯값에는 평균, 중앙값, 최 빈값 등이 있다. ⑶ 중앙값 자료를 작은 값부터 크기순으로

More information

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에대하여 AB=BA 1 가성립한다 2 3 (4) 이면 1 곱셈공식및변형공식성립 ± ± ( 복호동순 ), 2 지수법칙성립 (은자연수 ) < 거짓인명제 >

More information

statistics

statistics 수치를이용한자료요약 statistics hmkang@hallym.ac.kr 한림대학교 통계학 강희모 ( 한림대학교 ) 수치를이용한자료요약 1 / 26 수치를 통한 자료의 요약 요약 방대한 자료를 몇 개의 의미있는 수치로 요약 자료의 분포상태를 알 수 있는 통계기법 사용 중심위치의 측도(measure of center) : 어떤 값을 중심으로 분포되어 있는지

More information

Chapter 분포와 도수분석

Chapter 분포와 도수분석 2 χ Chapter 10 분포와도수분석 Chi-square dist n & the analysis of frequencies 2014/5/22 2 χ 10.2 분포의수리적특징 2 χ 의정의 (definition) Z,, Z ~ independent N(0,1) 1 n n i = 1 Z ~ χ 2 2 i n Y µ 2 eg.. Z = i Y ~ N( µσ,

More information

Microsoft PowerPoint - MDA DA pptx

Microsoft PowerPoint - MDA DA pptx 판별분석개념 Indvdual Drected Technque 측정변수 ( 항목 ) 에의한개체분류 분류되어있는집단간의차이를의미있게설명해줄수있는독립변수들을찾아내어 변수의선형결합으로판별식 (Dscrmnant functon) 을만들어낸다. 이판별식을이용하여분류하고자하는개체의집단을판별 데이터유형 집단변수 : 범주형혹은이진형 판별변수 : 측정형 ( 등간척도포함 ) 사례

More information

연구보고서 2009-05 일반화선형모형 (GLM) 을이용한 자동차보험요율상대도산출방법연구 Ⅰ. 요율상대도산출시일반화선형모형활용방법 1. 일반화선형모형 2 연구보고서 2009-05 2. 일반화선형모형의자동차보험요율산출에적용방법 요약 3 4 연구보고서 2009-05 Ⅱ. 일반화선형모형을이용한실증분석 1. 모형적용기준 < > = 요약 5 2. 통계자료및통계모형

More information

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt 수명분포및신뢰도의 통계적추정 포항공과대학교산업공학과전치혁.. 수명및수명분포 수명 - 고장 까지의시간 - 확률변수로간주 - 통상잘알려진분포를따른다고가정 수명분포 - 확률밀도함수또는 누적 분포함수로표현 - 신뢰도, 고장률, MTTF 등신뢰성지표는수명분포로부터도출 - 수명분포추정은분포함수관련모수의추정 누적분포함수및확률밀도함수 누적분포함수 cumulav dsbuo

More information

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a 조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a) b) 조사연구 주제어 패널조사 횡단면가중치 종단면가중치 선형혼합모형 일반화선형혼 합모형

More information

<B0A3C3DFB0E828C0DBBEF7292E687770>

<B0A3C3DFB0E828C0DBBEF7292E687770> 초청연자특강 대구가톨릭의대의학통계학교실 Meta analysis ( 메타분석 ) 예1) The effect of interferon on development of hepatocellular carcinoma in patients with chronic hepatitis B virus infection?? -:> 1998.1 ~2007.12.31 / RCT(2),

More information

자료의 이해 및 분석

자료의 이해 및 분석 어떤실험이나치료의효과를측정할때독립이아닌표본으로부터관찰치를얻었을때처리하는방법 - 동일한개체에어떤처리를하기전과후의자료를얻을때 - 가능한동일한특성을갖는두개의개체에서로다른처리를하여그처리의효과를비교하는방법 (matching) 1 예제 : 혈청 cholesterol 치를줄이기위해서 12 명을대상으로운동과함께식이요법의효과를 측정하기위한실험실시 2 식이요법 - 운동실험전과후의

More information

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션 응용식물통계학 Statistics of Applied Plants Science 친환경식물학부유기농생태학전공황선구 14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 15 장공분산분석 1. 공분산분석의통계적모형 2. 공분산분석에의한처리효과검정 3. 공분산분석과정 - 실습 - 회귀분석 두확률변수간에관계가있는지검정

More information

Microsoft PowerPoint - 26.pptx

Microsoft PowerPoint - 26.pptx 이산수학 () 관계와그특성 (Relations and Its Properties) 2011년봄학기 강원대학교컴퓨터과학전공문양세 Binary Relations ( 이진관계 ) Let A, B be any two sets. A binary relation R from A to B, written R:A B, is a subset of A B. (A 에서 B 로의이진관계

More information

Microsoft Word - Chapter8.doc

Microsoft Word - Chapter8.doc CHAPTER 8 교차분석 8.1. 교차분석 (cross-tabulation) 개요 8.1.1. 교차분석개념 두분류형 ( 범주형 ) 문항 ( 변수 ) 간의연관관계 (association) 를볼때교차표 ( 분할표 ) 를작성하 여변수들간관계를분석하게된다. 이를교차분석혹은 χ (chi-square) 검정이라한다. 교차분석의의미는두변수의빈도표를교차시켰다는의미이며교차분석에사용되는검

More information

Microsoft PowerPoint - MDA DA pptx

Microsoft PowerPoint - MDA DA pptx SPSS 2 집단 ( 데이터및준비 ) 데이터 TURKEY.SAV 미국 Kansas 주립대학 Dr. Michael Finnegan 교수는야생칠면조와사육칠면조를구별하기위하여수컷칠면조 82마리에대해 9개항목을조사하였다. ID: 칠면조 id HUM: 상완골길이 ULN: 척골길이 CAR: car metacarus 길이 COR: 오탁상길이 RAD: 요골길이 FEMUR:

More information

01

01 2019 학년도대학수학능력시험 9 월모의평가문제및정답 2019 학년도대학수학능력시험 9 월모의평가문제지 1 제 2 교시 5 지선다형 1. 두벡터, 모든성분의합은? [2 점 ] 에대하여벡터 의 3. 좌표공간의두점 A, B 에대하여선분 AB 를 로외분하는점의좌표가 일때, 의값은? [2점] 1 2 3 4 5 1 2 3 4 5 2. lim 의값은? [2점] 4. 두사건,

More information

PowerPoint Presentation

PowerPoint Presentation 09 th Week Correlation Analysis 상관관계분석 Jongseok Lee Business Administration Hallym University 변수형태와통계적분석방법 H 0 : X ㅗ Y H 1 : X ~ Y X Categorical Y Categorical Chi-square Test X Categorical Y Numerical

More information

Microsoft PowerPoint - IPYYUIHNPGFU

Microsoft PowerPoint - IPYYUIHNPGFU 분산분석 분산분석 (ANOVA: ANALYSIS OF VARIANCE) 두개이상의모집단의차이를검정 예 : 회사에서세종류의기계를설치하여동일한제품을생산하는경우, 각기계의생산량을조사하여평균생산량을비교 독립변수 : 다른변수에의해영향을주는변수 종속변수 : 다른변수에의해영향을받는변수 요인 (Factor): 독립변수 예에서의요인 : 기계의종류 (I, II, III) 요인수준

More information

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770> 25 강. 수열의극한참거짓 2 두수열 { }, {b n } 의극한에대한 < 보기 > 의설명중옳은것을모두고르면? Ⅰ. < b n 이고 lim = 이면 lim b n =이다. Ⅱ. 두수열 { }, {b n } 이수렴할때 < b n 이면 lim < lim b n 이다. Ⅲ. lim b n =0이면 lim =0또는 lim b n =0이다. Ⅰ 2Ⅱ 3Ⅲ 4Ⅰ,Ⅱ 5Ⅰ,Ⅲ

More information

모수검정과비모수검정 제 6 강 지리통계학

모수검정과비모수검정 제 6 강 지리통계학 모수검정과비모수검정 제 6 강 지리통계학 통계적추정의목적 연구자가주장하는연구가설을입증하기위한것 1 연구목적에맞는연구가설을설정 2 연구목적과수집된자료에부합되는적절한통계적검정방법을선택 3 귀무가설과연구가설 ( 대립가설 ) 을진술 4 유의수준을결정한후각분포유형에따라분포표를이용하여임계치를구하고기각역을설정 5 통계적검정유형에필요한통계량을각검정유형의공식을이용하여계산 6

More information

제 3강 역함수의 미분과 로피탈의 정리

제 3강 역함수의 미분과 로피탈의 정리 제 3 강역함수의미분과로피탈의정리 역함수의미분 : 두실수 a b 와폐구갂 [ ab, ] 에서 -이고연속인함수 f 가 ( a, b) 미분가능하다고가정하자. 만일 f '( ) 0 이면역함수 f 은실수 f( ) 에서미분가능하고 ( f )'( f ( )) 이다. f '( ) 에서 증명 : 폐구갂 [ ab, ] 에서 -이고연속인함수 f 는증가함수이거나감소함수이다 (

More information

Microsoft PowerPoint Relations.pptx

Microsoft PowerPoint Relations.pptx 이산수학 () 관계와그특성 (Relations and Its Properties) 2010년봄학기강원대학교컴퓨터과학전공문양세 Binary Relations ( 이진관계 ) Let A, B be any two sets. A binary relation R from A to B, written R:A B, is a subset of A B. (A 에서 B 로의이진관계

More information

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할 저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,

More information

Microsoft PowerPoint - LN05 [호환 모드]

Microsoft PowerPoint - LN05 [호환 모드] 계량재무분석 I Chapter 6 & 7 Probability Distribution II 경영대학재무금융학과 윤선중 0 Objectives 확률변수 이산확률분포 (Discrete Random Variables): 셀수있는확률변수 연속확률분포 (Continuous Random Variables): 셀수없는경우의수 이산확률변수 분포의대표값 기대치 (Expected

More information

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770> 삼각함수. 삼각함수의덧셈정리 삼각함수의덧셈정리 삼각함수 sin (α + β ), cos (α + β ), tan (α + β ) 등을 α 또는 β 의삼각함수로나 타낼수있다. 각 α 와각 β 에대하여 α >0, β >0이고 0 α - β < β 를만족한다고가정하 자. 다른경우에도같은방법으로증명할수있다. 각 α 와각 β 에대하여 θ = α - β 라고놓자. 위의그림에서원점에서거리가

More information

확률과통계4

확률과통계4 확률과통계 4. 확률변수와확률분포 건국대학교스마트 ICT 융합공학과윤경로 (yoonk@konkuk.ac.kr) 4. 확률변수와확률분포 4.1 확률변수와확률분포의개념 4.2 결합확률분포 4.3 주변확률분포 4.4 조건부확률분포 4.5 확률변수의독립 4.1 확률변수와확률분포의개념 [ 정의 4-1] 확률변수 (random variable) 표본공간의각원소를실수값으로

More information

제 4 장회귀분석

제 4 장회귀분석 회귀의역사적유래 (historical origin of the regression) 회귀 (regression) 라는용어는유전학자 Francis Galton(1886) 에의해처음사용된데서유래함. 그의논문에서 비정상적으로크거나작은부모의아이들키는전체인구의평균신장을향해움직이거나회귀 (regression) 하는경향이있다. 고주장 회귀의역사적유래 (historical

More information

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할 저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,

More information

= ``...(2011), , (.)''

= ``...(2011), , (.)'' Finance Lecture Note Series 사회과학과 수학 제2강. 미분 조 승 모2 영남대학교 경제금융학부 학습목표. 미분의 개념: 미분과 도함수의 개념에 대해 알아본다. : 실제로 미분을 어떻게 하는지 알아본다. : 극값의 개념을 알아보고 미분을 통해 어떻게 구하는지 알아본다. 4. 미분과 극한: 미분을 이용하여 극한값을 구하는 방법에 대해 알아본다.

More information

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0) FGB-P8-3 8 학번수학과권혁준 8 년 5 월 9 일 Lemma p 를 C[, ] 에속하는음수가되지않는함수라하자. 이때 y C, C[, ] 가미분방정식 y t + ptyt, t,, y y 을만족하는해라고하면, y 는, 에서연속적인이계도함수를가지게확 장될수있다. Proof y 은 y 의도함수이므로미적분학의기본정리에의하여, y 은 y 의어떤원시 함수와적분상수의합으로표시될수있다.

More information

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료 3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료 분포형태, 상대적위치, 극단값 분포형태 z-값 체비셰프의원리 경험법칙 극단값찾기 분포형태 : 왜도 (skewness) 분포형태를측정하는중요한척도중하나를 왜도 라고한다. 자료집합의왜도를구하는계산식은조금복잡하다. 통계프로그램을사용하여왜도를쉽게계산할수있다.

More information

슬라이드 1

슬라이드 1 Prncples of Econometrcs (3e) 013 년 1 학기 윤성민 8.1. 이분산의본질 ( 예 ) 식료품지출 / 식료품지출과소득에관한 40 개표본 8.1 이분산의본질 3 8.1 이분산의본질 4 8.1 이분산의본질 동분산가정 5 8.1 이분산의본질 이분산가정 6 8.1

More information

<4D6963726F736F667420576F7264202D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>

<4D6963726F736F667420576F7264202D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378> 6. Relaton and Statstcal Weather Forecastng (관 계와 통계적인 일기예보) 6.1 Background 대기운동은 비선형이므로 결정론적인 의미에서 완벽하게 예측될 수 없다. 보완책으 로 통계적인 방법이 유용하고 예보의 일부로 사용된다. 1 수치예보모델 없이 순수하게 통계 모형만을 이용하는 경우 단시간 예보나 아주 긴 시간(수주이상)

More information

시스템경영과 구조방정식모형분석

시스템경영과 구조방정식모형분석 2 st SPSS OPEN HOUSE, 2009 년 6 월 24 일 AMOS 를이용한잠재성장모형 (Latent Growth Model ) 세명대학교경영학과김계수교수 (043) 649-242 gskim@semyung.ac.kr 목차. LGM개념소개 2. LGM모형종류 3. LGM 예제 4. 결과치비교 5. 정리및요약 2 적합모형의판단방법 Tips SEM 결과해석방법

More information

[INPUT] 뒤에는변수와관련된정보를표기한다. [CARDS;] 뒤에는각각의변수가가지는관측값들을표기한다. >> 위의프로그램에서데이터셋명은 wghtclub 이고, 변수는 idno, name, team, strtwght, endwght 이다. 이중 name 과 team 은

[INPUT] 뒤에는변수와관련된정보를표기한다. [CARDS;] 뒤에는각각의변수가가지는관측값들을표기한다. >> 위의프로그램에서데이터셋명은 wghtclub 이고, 변수는 idno, name, team, strtwght, endwght 이다. 이중 name 과 team 은 SAS 의기본형식 1. INPUT 문 DATA wghtclub; INPUT idno 1-4 name $ 6-24 team $ strtwght endwght; loss=strtwght -endwght; CARDS; 1023 David Shaw red 189 165 1049 Amelia Serrno yellow 145 124 1219 Alan Nance red

More information

슬라이드 1

슬라이드 1 장연립방정식을 풀기위한반복법. 선형시스템 : Guss-Sedel. 비선형시스템 . 선형시스템 : Guss-Sedel (/0) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정식을푸는반복법중에서 가장보편적으로사용되는방법이다. 개의방정식에서 인 ( 대각원소들이모두 0 이아닌 ) 경우를다루자. j j b j b j j j

More information

제 12강 함수수열의 평등수렴

제 12강 함수수열의 평등수렴 제 강함수수열의평등수렴 함수의수열과극한 정의 ( 점별수렴 ): 주어진집합 과각각의자연수 에대하여함수 f : 이있다고가정하자. 이때 을집합 에서로가는함수의수열이라고한다. 모든 x 에대하여 f 수열 f ( x) lim f ( x) 가성립할때함수수열 { f } 이집합 에서함수 f 로수렴한다고한다. 또 함수 f 을집합 에서의함수수열 { f } 의극한 ( 함수 ) 이라고한다.

More information

<3131BFF92D3828C6D0B3CEBFACB1B82DC0CCBBF3C8A D38302E687770>

<3131BFF92D3828C6D0B3CEBFACB1B82DC0CCBBF3C8A D38302E687770> - 가구소득을중심으로 - 이상호 * Ⅰ. 들어가며 ) 30..,, (Unobserved Heterogenety).. NLS(966~) PSID(968~), BHPS(99~), GSOEP(984~). 990 994 998, (998~). 2~3...,. * (shlee@kl.re.kr). 66_ 노동리뷰 (Korean Labor and Income Panel

More information

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정 . 선형시스템 : GussSedel. 비선형시스템. 선형시스템 : GussSedel (/0) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. GS 방법은선형대수방정식을푸는반복법중에서 가장보편적으로사용되는방법이다. 개의방정식에서 인 ( 대각원소들이모두 0 이아닌 ) 경우를다루자. j j b j j b j j 여기서 j b j j j 현재반복단계

More information

슬라이드 1

슬라이드 1 Principles of Economerics (3e) Ch. 4 예측, 적합도, 모형화 013 년 1 학기 윤성민 4.1 OLS 예측 (1) 점예측 x0 y0 - 설명변수일때, 종속변수의값을예측하고자함 y ˆ = b + 0 1 b x 0 Ch. 4 예측, 적합도, 모형화 /60 4.1 OLS 예측 예측오차 (forecas error), f 예측오차의기대값

More information

Microsoft PowerPoint - PDF3 SBE 20080417.pptx

Microsoft PowerPoint - PDF3 SBE 20080417.pptx 연속형 확률밀도함수 연속형 확률분포함수? 데이터 히스토그램의 정상을 연결하면 확률분포함수가 된다. 이를 이용하여 데이터(표본)의 분포(이는 모집단의 분포와 동일)를 구 하게 된다. 그러나 함수를 구하는 것은 불가능해 보인다. 그래서 현실에서는 확률분포를 가정하게 된다. (예)기다리는 시간: 지수분포, 측정 오 차: 정규분포 Gauss(천문학자): 행성들간 거리

More information

nonpara1.PDF

nonpara1.PDF Chapter 1 Introduction 1 Introduction (parameter) (assumption) (rank), (median) p-value distribution free, assumption free, statistical inference based on ranks 11 Nonparametric? John Arbuthnot (1710)

More information

(Microsoft PowerPoint - Ch6_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

(Microsoft PowerPoint - Ch6_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345]) 수치해석 Numercal Analyss 6009 Ch6. Roots: Open Methods 개방법 : 한개의초기값에서시작하거나구간내에근을포함하지않을수도있는두개의초기값에서시작한다. 구간법과개방법의비교 (a 구간법 ( 이분법 (b 개방법 발산하는경우 (c 개방법-수렴하는경우 Numercal Analyss 6. 단순고정점반복법 (/3 f ( = 0 을재배열하여유도

More information

untitled

untitled R 과함께하는통계학의이해 빅북이라명명된이책은지식공유의세계적인흐름에동참하고지적인업적들이세상과인류의지식이되도록하며, 누구나쉽게접근하고활용할수있는환경을만들고자한다. 이책의저작권은빅북 (www.bigbook.or.kr) 에있으며모든용도로활용할수있다. 다만상업용출판을하고자하는경우에는사전에문서로된허락을받아야한다. 공유와협력의교과서만들기운동본부 R 과함께하는 통계학의이해

More information

수리통계학

수리통계학 제 강통계학 Revew Part I. 확률론 (Probablty Theory) I. 확률변수 (Radom Varable) 와확률분포 A. 확률변수 는표본공간 Ω 상에서정의되는 real valued fucto 임. 어떤확률적실험의결과로나올수있는모든가능한결과에대해어떤. 실수값이대응되어야함 하나의실험에대해여러가지의확률변수가정의될수있음. 주사위던지는실험 : 던진결과나오는값을대응시켜주는확률변수

More information

PowerPoint Presentation

PowerPoint Presentation 5 불대수 IT CookBook, 디지털논리회로 - 2 - 학습목표 기본논리식의표현방법을알아본다. 불대수의법칙을알아본다. 논리회로를논리식으로논리식을논리회로로표현하는방법을알아본다. 곱의합 (SOP) 과합의곱 (POS), 최소항 (minterm) 과최대항 (mxterm) 에대해알아본다. 01. 기본논리식의표현 02. 불대수법칙 03. 논리회로의논리식변환 04.

More information

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론 수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론 Ⅱ. 선행연구고찰 집적경제메커니즘의유형공유메커니즘매칭메커니즘학습메커니즘 내용기업이군집을형성하여분리불가능한생산요소, 중간재공급자, 노동력풀등을공유하는과정에서집적경제발생한지역에기업과노동력이군집을이뤄기업과노동력사이의매칭이촉진됨에따라집적경제발생군집이형성되면사람들사이의교류가촉진되어지식이확산되고새로운지식이창출됨에따라집적경제발생

More information

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션 System Software Experiment 1 Lecture 5 - Array Spring 2019 Hwansoo Han (hhan@skku.edu) Advanced Research on Compilers and Systems, ARCS LAB Sungkyunkwan University http://arcs.skku.edu/ 1 배열 (Array) 동일한타입의데이터가여러개저장되어있는저장장소

More information

표본재추출(resampling) 방법

표본재추출(resampling) 방법 표본재추출 (resampling) 방법 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 1 / 18 학습내용 개요 CV(crss-validatin) 검증오차 LOOCV(leave-ne-ut crss-validatin) k-fld CV 편의-분산의관계분류문제에서의 CV Btstrap 박창이 ( 서울시립대학교통계학과

More information

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임.   가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다. 마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. http://min7014.iptime.org/math/2017063002.htm 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다. https://goo.gl/edxsm7 http://min7014.iptime.org/math/2018010602.pdf

More information

한국정책학회학회보

한국정책학회학회보 한국정책학회보제 22 권 2 호 (2013.6): 181~206 정부신뢰에대한연구 - 대통령에대한신뢰와정부정책에대한평가비교를중심으로 * - 주제어 : 민주화이후정부신뢰, 대통령신뢰, 정부정책만족도 Ⅰ. 서론 182 한국정책학회보제 22 권 2 호 (2013.6) 정부신뢰에대한연구 183 Ⅱ Ⅲ Ⅳ Ⅴ Ⅱ. 정부신뢰에대한이론적논의 184 한국정책학회보제 22

More information

용역보고서

용역보고서 여러고장모드를갖는자료분석방법 2009. 1. ( 주 ) 한국신뢰성기술서비스 목차 여러고장모드를갖는자료분석방법...3 1. 개요...3 2. 분석방법및예제...4 2.1 CFM(Competing Failure Mode) 분석...4 2.2 Mixed Weibull 분석...4 2.3 Mixed Weibull 예제...5 3. 요약정리...9 ii http://www.korts.co.kr

More information

아시아연구 16(1), 2013 pp. 105-130 중국의경제성장과보험업발전간의 장기균형관계 Ⅰ. 서론 Ⅲ. 실증분석 1. 분석방법 < 그림 1> 중국의보험밀도와국민 1 인당명목 GNI 성장추이 보험밀도 국민 1 인당명목 GNI < 그림 2> 중국의주요거시경제지표변화추이 총저축액 금리, 물가, 실업률 < 표 1> 변수정의 변수명 정의 자료출처 LTP

More information

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사 회귀분석 올림픽 100m 우승기록 2004년 9월과학저널 Nature에발표된 Oxford 대학교의임상병리학자인 Andrew Tatem과그의연구진의논문 1900~2004년까지의남성과여성의육상 100m 우승기록을분석하고앞으로최고기록이어떻게변할것인지를예측 2008년베이징올림픽에서남자의우승기록은 9.73±0.144(9.586, 9.874), 여자는 10.57±0.232(10.338,

More information

Microsoft PowerPoint - chap06-2pointer.ppt

Microsoft PowerPoint - chap06-2pointer.ppt 2010-1 학기프로그래밍입문 (1) chapter 06-2 참고자료 포인터 박종혁 Tel: 970-6702 Email: jhpark1@snut.ac.kr 한빛미디어 출처 : 뇌를자극하는 C프로그래밍, 한빛미디어 -1- 포인터의정의와사용 변수를선언하는것은메모리에기억공간을할당하는것이며할당된이후에는변수명으로그기억공간을사용한다. 할당된기억공간을사용하는방법에는변수명외에메모리의실제주소값을사용하는것이다.

More information

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로 3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로성립한다. Theorem 7 두함수 f : X Y 와 g : X Y 에대하여, f = g f(x)

More information

Microsoft Word - LectureNote.doc

Microsoft Word - LectureNote.doc 5. 보간법과회귀분석 . 보간법 Iterpolto. 서론 응용예 : 원자간 pr-wse tercto Tlor Seres oe-pot ppromto 를사용할수없는이유 Appromte / t 3 usg Tlor epso t.! P! 3 4 5 6 7 P 3-3 -5-43 -85 . Newto Tlor Seres 와의관계 te dvded derece Forwrd

More information

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할 저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,

More information

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다.   우리나라경 KDI정책포럼제221호 (2010-01) (2010. 2. 10) 내용문의 : 이재준 (02-958-4079) 구독문의 : 발간자료담당자 (02-958-4312) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. http://www.kdi.re.kr 우리나라경기변동성에대한요인분석및시사점 이재준 (KDI 부연구위원 ) * 요 약,,, 1970. * (,

More information

Chap 6: Graphs

Chap 6: Graphs 그래프표현법 인접행렬 (Adjacency Matrix) 인접리스트 (Adjacency List) 인접다중리스트 (Adjacency Multilist) 6 장. 그래프 (Page ) 인접행렬 (Adjacency Matrix) n 개의 vertex 를갖는그래프 G 의인접행렬의구성 A[n][n] (u, v) E(G) 이면, A[u][v] = Otherwise, A[u][v]

More information

Resampling Methods

Resampling Methods Resampling Methds 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 1 / 18 학습내용 개요 CV(crss-validatin) 검증오차 LOOCV(leave-ne-ut crss-validatin) k-fld CV 편의-분산의관계분류문제에서의 CV Btstrap 박창이 ( 서울시립대학교통계학과 )

More information

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드] 제 강.1 통계적기초 확률변수 (Radom Variable). 확률변수 (r.v.): 관측되기전까지는그값이알려지지않은변수. 확률변수의값은확률적실험으로부터결과된다. 확률적실험은실제수행할수있는실험뿐아니라가상적실험도포함함 (ex. 주사위던지기, [0,1] 실선에점던지기 ) 확률변수는그변수의모든가능한값들의집합에대해정의된알려지거나알려지지않은어떤확률분포의존재가연계됨 반면에,

More information

고객관계를 리드하는 서비스 리더십 전략

고객관계를 리드하는  서비스 리더십 전략 제 13 장분산분석 1 13.1 일원분산분석 13. 분산분석 - 무작위블럭디자인 13.3 이원분산분석 - 팩토리얼디자인 분산분석 (ANOVA) - 두개이상의집단들의평균값을비교하는데사용. 일원분산분석 - 처치변수가한개인분산분석. 1. 분산분석의원리 A 3.0 8.0 7.0 5.0 5.0 6.0 4.0 7.0 6.0 4.0 평균 5.0 6.0 B 3.0 9.0

More information

슬라이드 1

슬라이드 1 대한의료관련감염관리학회학술대회 2016년 5월 26일 ( 목 ) 15:40-17:40 서울아산병원동관 6층대강당서울성심병원김지형 기능, 가격, 모든것을종합 1 Excel 자료정리 2 SPSS 학교에서준다면설치 3 통계시작 : dbstat 4 Web-R : 표만들기, 메타분석 5 R SPSS www.cbgstat.com dbstat 직접 dbstat 길들이기

More information

exp

exp exp exp exp exp exp exp exp exp exp exp exp log 第 卷 第 號 39 4 2011 4 투영법을 이용한 터빈 블레이드의 크리프 특성 분석 329 성을 평가하였다 이를 위해 결정계수값인 값 을 비교하였으며 크리프 시험 결과를 곡선 접합 한 결과와 비선형 최소자승법으로 예측한 결과 사 이 결정계수간 정도의 오차가 발생하였고

More information

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS 제장 비모수 검정(nonparametric analysis) 모집단의 분포를 알 수 없거나 모집단이 정규분포를 따른다고 가정할 수 없는 경우에는 모수적 검정을 사용할 수 없다. 이 경우에 자료의 부호나 순위로 가설 검정을 실시하며 이러한 검정 방법을 비모수 검정이라고 한다. 제절 적합도 검정(goodness of fit test) 주어진 자료가 어떠한 통계적

More information

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션 실습 1 배효철 th1g@nate.com 1 목차 조건문 반복문 System.out 구구단 모양만들기 Up & Down 2 조건문 조건문의종류 If, switch If 문 조건식결과따라중괄호 { 블록을실행할지여부결정할때사용 조건식 true 또는 false값을산출할수있는연산식 boolean 변수 조건식이 true이면블록실행하고 false 이면블록실행하지않음 3

More information

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345]) 수치해석 6009 Ch9. Numerical Itegratio Formulas Part 5. 소개 / 미적분 미분 : 독립변수에대한종속변수의변화율 d vt yt dt yt 임의의물체의시간에따른위치, vt 속도 함수의구배 적분 : 미분의역, 어떤구간내에서시간 / 공간에따라변화하는정보를합하여전체결과를구함. t yt vt dt 0 에서 t 까지의구간에서곡선 vt

More information

확률 및 분포

확률 및 분포 확률및분포 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 확률및분포 1 / 15 학습내용 조건부확률막대그래프히스토그램선그래프산점도참고 박창이 ( 서울시립대학교통계학과 ) 확률및분포 2 / 15 조건부확률 I 첫째가딸일때두아이모두딸일확률 (1/2) 과둘중의하나가딸일때둘다딸일확률 (1/3) 에대한모의실험 >>> from collections import

More information

용역보고서

용역보고서 신뢰성샘플링검사의설계방법 ( 정수관측중단시험 ) 9.. ( 주 ) 한국신뢰성기술서비스 목차 신뢰성샘플링검사의설계방법 ( 정수관측중단시험 ).... 개요.... 기호및용어정의.... 샘플링검사의설계방법... 3. 정수중단시샘플링검사설계방법...4 4. 신뢰성샘플링시험계획예제...5 hp://www.kors.co.kr 신뢰성샘플링검사의설계방법 ( 정수관측중단시험

More information

슬라이드 1

슬라이드 1 빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 9 주차 예측모형에대한평가 Assessment of Predictive Model 최종후, 강현철 차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들

More information

Y 1 Y β α β Independence p qp pq q if X and Y are independent then E(XY)=E(X)*E(Y) so Cov(X,Y) = 0 Covariance can be a measure of departure from independence q Conditional Probability if A and B are

More information

자료분석론 - 국민건강영양조사 분석

자료분석론 - 국민건강영양조사 분석 2014. 5. 10 ( 토 ) 자료분석론 국민건강영양조사자료 - 자료분석 (2) 서울대학교보건대학원 홍지민 강의순서 1) 국민건강영양조사이해 (4/19) - 자료의개요및원시자료 DB 2) 가중치및자료분석개요 (4/26) 3) 국민건강영양조사자료활용실습 (5/10) 2014-05-10 2 목차 자료분석개요 복합표본설계자료회귀분석 복합표본설계자료로지스틱회귀분석

More information

프로그래밍개론및실습 2015 년 2 학기프로그래밍개론및실습과목으로본내용은강의교재인생능출판사, 두근두근 C 언어수업, 천인국지음을발췌수정하였음

프로그래밍개론및실습 2015 년 2 학기프로그래밍개론및실습과목으로본내용은강의교재인생능출판사, 두근두근 C 언어수업, 천인국지음을발췌수정하였음 프로그래밍개론및실습 2015 년 2 학기프로그래밍개론및실습과목으로본내용은강의교재인생능출판사, 두근두근 C 언어수업, 천인국지음을발췌수정하였음 CHAPTER 9 둘중하나선택하기 관계연산자 두개의피연산자를비교하는연산자 결과값은참 (1) 아니면거짓 (0) x == y x 와 y 의값이같은지비교한다. 관계연산자 연산자 의미 x == y x와 y가같은가? x!= y

More information

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라 제 절 two way ANOVA 제절 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라고 한다. 교호작용은 두 변수의 곱에 대한 검정으로 유의확률이 의미있는 결과라면 두 변수는 서로 영향을

More information

슬라이드 1

슬라이드 1 빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 7 주차 회귀분석 Regression Analysis 최종후, 강현철 차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 -

More information

외국인투자유치성과평가기준개발

외국인투자유치성과평가기준개발 2010 년도연구용역보고서 외국인투자유치의성과평가기준개발 - 2010. 10. - 이연구는국회예산정책처의연구용역사업으로수행된것으로서, 보고서의내용은연구용역사업을수행한연구자의개인의견이며, 국회예산정책처의공식견해가아님을알려드립니다. 책임연구원 국립부경대학교지역사회연구소권오혁 수신 : 대한민국국회예산정책처장귀하. 2010 10 : : : : 요약문 I. 서론 1.

More information

슬라이드 제목 없음

슬라이드 제목 없음 계량치 Gage R&R 1 Gage R&R 의변동 반복성 (Equipment Variation) : EV- 계측장비에의한변동 - 동일측정자가동일조건에서반복하여발생된측정값의범위로부터계산되므로 Gage의변동을평가하게됨. 재현성 (Operator / Appraiser Variation) : AV- 평가자에의한변동 - 서로다른측정자가동일조건에서측정한값의차이로부터 계산되므로측정자에의한변동을평가함.

More information

(Hyunoo Shim) 1 / 26 조건부생명확률 (coningen probabiliy) 이란? 사망의순서 ( 조건이됨 ) 를고려한생명확률동시생존자 / 최종생존자생명확률 : 사망이 x이든 y이든가리지않음 ( 대칭적 ) [ 조건부생명확률 : x와 y의사망순서를고려함 ( 비대칭적 ) ➀ 기호 : 예를들어, q 1 xy a) 사망순서 : 숫자 1, 2, 3,...

More information

Microsoft Word - ch3_residual.doc

Microsoft Word - ch3_residual.doc REGRESSION / 3 장. 잔치분석 50 Chapter 3 잔차분석 이론이나경험에의해변수간의회귀모형을설정하고 y = α + βx ( 선형 : lnearty), 관측치가 ( x, y ), = 1,,..., n 얻어지면이를이용하여회귀분석을실시한다. 설정된회귀모형에 는오차항에대한 3가지가정 e ~ dnormal(0, σ ) 을한다. ( 정규성 normalty,

More information

자료의 이해 및 분석

자료의 이해 및 분석 7. 평균치비교 1 두집단간평균차이검정 2 연속형변수 Interval scale( 간격척도 ) : 20 C, 30 C,, 변수간의가감가능 Ratio scale( 비척도 ) : 12, 13세, 변수간의가감승제모두가능 범주형자료로변환하여다양한분석가능 ( 연령 10 대, 20 대, 30 대.) 3 범주형자료의기술 분할표 (Contingency table) : 범주형자료를각변수별값의

More information

Microsoft PowerPoint - Info R(3) pptx

Microsoft PowerPoint - Info R(3) pptx Coelaton Analyss 개념 Bvaate analyss 측정형두변수간의관계분석 상관관계? 두측정형변수의산점도 : 상호직선적관련성을상관계수 (Coelaton Coeffcent 측정. 잠재설명 ( 원인 변수 (X s 상관관계, 잠재변인과결과변수 (Y 의상관관계 Peason 상관계수 측정형변수직선관계정도 cov( X, Y E( X E( X E( Y E( Y

More information