2014. 5. 10 ( 토 ) 자료분석론 국민건강영양조사자료 - 자료분석 (2) 서울대학교보건대학원 홍지민
강의순서 1) 국민건강영양조사이해 (4/19) - 자료의개요및원시자료 DB 2) 가중치및자료분석개요 (4/26) 3) 국민건강영양조사자료활용실습 (5/10) 2014-05-10 2
목차 자료분석개요 복합표본설계자료회귀분석 복합표본설계자료로지스틱회귀분석 실습 2014-05-10 3
변수의연관성분석방법 종속변수분석분석방법 SAS 연속형평균추정 proc means 평균비교 T- 검정 / 분산분석 proc ttest/ proc anova 관련성분석 회귀분석 proc reg/ proc glm 범주형비율추정 proc freq 비율비교카이검정 proc freq 관련성분석로지스틱회귀분석 proc logistic 2014-05-10 4
자료분석개요 그룹간연관성및관련성분석 : 상관분석, 카이제곱분석 그룹간평균차이검정 : T-test, 분산분석, 공분산분석 종속변수와독립변수의연관성분석 : 회귀분석 상관분석, 카이제곱분석 - 독립변수와종속변수의구분없이두변수간의연관성및관련성검토 상관분석 (correlation analysis) : 두정량적자료의선형적연관성측정척도예 ) 신장과체중 카이제곱검정 (chisquare test) : 두범주형자료의관련성검정예 ) 성별과만성질환유무, 소득수준과교육수준 2014-05-10 5
자료분석개요 분산분석, 공분산분석 - 분산분석 (ANOVA) : 두집단이상의모평균차이분석 예 ) 소득수준별만성질환유병률 - 공분산분석 (ANCOVA) : 분산분석 + 회귀분석 : 종속변수에영향을미칠것으로판단되는공변량 (covariate) 의효과를동시에고려하는분석방법 범주형변수와양적변수모두있는경우분석가능 예 ) 연령을고려한소득수준별만성질환유병률 2014-05-10 6
회귀분석개요 변수간의연관성을통계적방법을이용하여분석 종속변수 (Y) 와독립변수 (Xi) 의관련성, 인과성, X 군에따른 Y 차이파악 일반선형모형 : Y= β 0 + β 1 X 1 + β 2 X 2 + + β k X k + ε 귀무가설 (H 0 ) : βi=0 선형회귀분석가정 : 독립변수와종속변수의선형관계, 오차항의독립성, 정규성, 등분산성 - 독립변수가연속이면일반회귀분석, 독립변수가연속, 범주형을모두포함하는경우일반선형모형 (GLM: Generalized Linear Model) 으로분석 GLM: 오차항과평균에대한선형회귀모형의가정을확장한개념 2014-05-10 7
회귀분석개요 회귀분석유형 1) 종속변수와독립변수의관계 : 회귀계수들의함수표현형태 선형 (linear) Y= β 0 + β 1 X 1 + β 2 X 2 + ε 비선형 (nonlinear) Y= e (β1x1+ β2x2) + ε 2) 독립변수의수 단순 (simple) 다중 (multiple) Y= β 0 + β 1 X 1 + ε Y= β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ε 2014-05-10 8
자료분석 (SAS) 자료원 : 제 3 회자료활용워크샵 복합표본설계자료에서종속변수가연속인경우, 설명변수유형에상관없이 proc surveyreg 프로시져사용 2014-05-10 9
복합표본설계회귀분석 (SAS) 단순임의표본설계 프로그램 proc reg data=hn10_all; model HE_BMI=age; run; 복합표본설계 proc surveyreg data=hn10_all NOMCAR; strata kstrata; cluster psu; weight wt_itvex; model HE_BMI=age; run; 2014-05-10 10
proc surveyreg(sas) proc surveyreg 기본구조 - 복합표본설계에기반하여회귀모형에대한회귀계수추정, 모형의효과검정등 - domain 문 : 세부집단별분석시사용 by 또는 where 로세부집단을지정하는경우전체자료의표본설계정보가포함되지않음 해당세부집단의정보만사용하여분산추정량의편의가발생할수있음 2014-05-10 11
proc surveyreg(sas) model 문 - 독립변수중범주형변수있는경우, class 문에지정후, option 이용하여계수추정치출력 - option solution : 범주형독립변수회귀계수추정치출력 clparm : 회귀계수추정치 95% 신뢰구간출력 : 범주형독립변수가있는경우, solution, clparm 함께지정필요 2014-05-10 12
T-test 단순임의표본설계 프로그램 proc ttest data=hn10_all; class sex; var HE_BMI run; 복합표본설계 proc surveyreg data=hn10_all NOMCAR; strata kstrata; cluster psu; weight wt_itvex; class sex; model HE_BMI=sex/ solution; run; 두그룹간평균비교 - 등분산여부검정후평균의동질성검정 예시 : 성별에따른 BMI 차이여부 H 0 : 성별에따라 BMI 차이가없다 2014-05-10 13
2014-04-26 14
공분산분석 가설 대상 모형 19 세이상성인 성, 연령보정시소득수준별 BMI 평균이동일한가 HE_BMI= β 0 + β 1 sex+ β 2 age + β 3 incm + ε 독립변수연속형 : age 범주형 : sex, incm 프로그램 2014-05-10 15
공분산분석 프로그램 결과 2014-05-10 16
dummy variable 회귀분석에서범주형변수설정 - 범주형변수개수 -1 개의더미이용 - 더미변수사용시기준집단변경이용이하나, 효율성을떨어뜨릴수있음 예 ) 연령그룹별 BMI 평균비교 age_g age_1 age_2 age_3 E(Y) 19 세이상 45 세미만 1 1 0 0 β 0 +β 1 45 세이상 65 세미만 2 0 1 0 β 0 +β 2 65 세이상 3 0 0 1 β 0 he_bmi= μ 0 + μ 1 age_1+ μ 2 age_2 + ε 2014-05-10 17
dummy variable 2014-05-10 18
dummy variable 결과 - 상수항 : 기준집단의 BMI 평균 - 기준집단 : age_g=3 65 세이상 BMI 평균은 23.79 - 회귀계수 : 기준집단과비교집단의평균차이 19 세이상 45 세미만연령집단과평균 BMI 는 0.61 차이 ( 유의 ) 2014-05-10 19
설명변수기준집단변경 범주형설명변수기준변경 - default : 최대값기준 - 범주형변수의내림차순정렬후 surveyreg 문에 order 옵션지정 : 다른값기준은옵션으로설정불가, 변수값수정또는추가생성하여분석 2014-05-10 20
옵션지정후변경됨 2014-05-10 21
2014-05-10 22
보정평균 (adjusted mean) 회귀모형에보정변수포함하여분석시보정된결과산출 예 ) 연령, 소득수준보정시성별 BMI 보정평균추정예 ) 연령, 비만, 흡연보정시성별공복혈당보정평균추정 SURVEYREG 프로시져보정평균설정 - ESTIMATE, LSMEANS 문에서보정값또는비율지정보정변수 : 연속형변수평균, 범주형변수 1/ 그룹의수보정변수외독립변수 : 보정변수산출집단 1/ 그외 0 HE_BMI= β 0 + β 1 sex 1 + β 2 age 2 + β 3 incm 3 + ε 2014-05-10 23
보정평균 (adjusted mean) 예 ) 연령, 소득수준보정된성별 ( 남 =1, 여 =2) BMI 평균산출 - estimate 문과 lsmeans 문사용 2014-05-10 24
성, 연령, 소득수준별 BMI 평균공분산분석추정회귀계수표와동일 0.6575 차이 표본조사연령, 소득수준보정시성별 BMI 보정평균은남자 30.25, 여자 29.59 이며, 성별보정평균의차이는유의함 2014-05-10 25
lsmeans 문사용해도동일한보정평균추정치산출 2014-05-10 26
로지스틱회귀분석 목적 : 범주형종속변수와독립변수의관계규명 로지스틱회귀모형 ln P(X) 1 P(X) = α + β 1X 1 + β 2 X 2 + +β k X k α, β : 회귀계수, X k ; 독립변수 β 의의미 ln P(X) 1 P(X) = α + βx P(X) 1 P(X) = exp (α + βx) - 독립변수가 X 일때 : odds(x)=exp(α + βx) 독립변수가 X +1 일때 : odds(x+1)=exp(α + β(x + 1)) Odds ratio = Odds(X+1) Odds(X) = exp(α+β(x+1)) exp(α+βx) = exp (β) 해석 : X 한단위증가할때증가분 ( 독립변수연속인경우 ) 2014-05-10 27
(a) (b) (c) 2014-05-10 28
로지스틱회귀분석 가설 H 0 : 모든회귀계수는 0이다. H 1 : 적어도하나의회귀계수는 0이아니다. 유형 - 독립변수의수에따라 : 단순 vs. 다중 - 종속변수의형태에따라 : binary vs. nominal vs. ordinal - 연결함수의종류에따라 : 로짓모형 vs. 로그선형모형 OR 해석 - OR=1 이면독립변수와종속변수가서로관련성없음 - 유의한경우오즈비의신뢰구간은 1 을포함하지않음 2014-05-10 29
복합표본설계로지스틱회귀분석 단순임의설계 proc logistic data=hn10_all; model OBE(event= 1 )=age; run; 복합표본설계 proc surveylogistic data=hn10_all; strata kstrata; cluster psu; weight wt_itvex; model OBE(event= 1 )=age; run; 연령 1 세증가시비만일오즈가 1.033 배증가 2014-05-10 30
복합표본설계로지스틱회귀분석 독립변수가범주형변수인경우 : class 지정 ( 소득변수 : 하, 중하, 중상, 상 ) 2014-05-10 31
복합표본설계로지스틱회귀분석 범주형독립변수기준설정 : default 는가장높은범주기준 - 기준변경시옵션사용 (param=ref ref= 기준값 ) 2014-05-10 32
독립변수별기준설정 전체독립변수기준설정 2014-05-10 33
결과변수기준설정 default: 낮은종속변수값에대해추정 Model 문에서 event option 지정 - 기준에따라계수추정값의부호는반대, 오즈비추정값은역수로변경됨 2014-05-10 34
exp(0.4947)=0.967 계수추정값부호반대, 오즈비값역수로변경 ( 해석주의 ) 2014-05-10 35
세부집단분석및결과해석 세부집단별분석 : domain 문이용 - 세부집단의결과를각각도출가능 단순로지스틱회귀분석 - 독립변수가연속형변수인경우 : 독립변수 1단위변화에따른종속변수의오즈비변화량 - 독립변수가범주형변수인경우 : 기준집단에대비다른집단의오즈비차이 다중로지스틱회귀분석 - 다른독립변수를통제한상태에서 2014-05-10 36
다중로지스틱회귀분석 예 ) 소득수준이비만여부에미치는영향 : 성, 연령보정 - 성, 연령의보정효과가있는것으로나타났음 (p<0..0001) - 소득수준 하 인사람에비해 중하 인사람은성별과연령을보정하였을때, 비만일오즈가 1.112 배높은것으로나타남 ( 통계적으로유의하지않음 ) 2014-05-10 37
결과 dataset 저장 ODS OUTPUT 문이용 - data set 으로저장하고자하는분석결과표이름과생성할 data set 이름부여 추정회귀계수와 t- 검정결과표 : parameterestimates 독립변수유의성검정결과표 : effects R2 등적합성통계량 : fitstatistics 보정평균표 : estimates 2014-05-10 38
2014-05-10 39
proc export 문 결과엑셀내보내기 2014-05-10 40
실습예제 2014-05-10 41
Macro 2014-05-10 42
Macro 2014-05-10 43
Macro 2014-05-10 44
Macro 2014-05-10 45
예제 1) Q) 한국인의당뇨유병률및관리현황분석, 1998~2005 년 Choi, Y. J., Kim, H. C., Kim, H. M., Park, S. W., Kim, J., & Kim, D. J. (2009). Prevalence and Management of Diabetes in Korean Adults Korea National Health and Nutrition Examination Surveys 1998 2005. Diabetes Care, 32(11), 2016-2020. Objectives : 당뇨유병률변화및관리현황분석 Research Design & Methods 연구대상자 : 한국 30 세이상성인, - 공복시혈당검사수치가없는경우제외, - 금식여부확인되지않은대상자제외분석방법 : surveyfreq, surveyreg 결과변수 : - 당뇨유병률변화 - 당뇨과거력 : 의사로부터확진받은경험 - 적절한당뇨관리 : AIC of 6.5 or 7.0% Results & Conclusions: - 1998 년부터 2005 년까지한국성인의전체당뇨유병률은급격한증가를보이지않았으나, 과겨력이있는사람은빠르게증가하였음 (p<0.0001). - 그러나여전히선진국과비교할때적절한관리가이뤄지지않고있음. :2005 년당뇨과거력자가운데 AIC 7.0 미만은 43.5%, 6.5% 미만은 22.9% 2014-05-10 46
예제 2) Q) 2007 년부터 2009 년자료를통합하여소득수준별비만유병률을산출 자료통합 : 가중치부여 검진조사자료비만여부 (he_obe) 변수이용 proc surveyfreq 사용 - 소득수준 incm 변수 2014-05-10 47
2014-04-26 48
2014-05-10 49
예제 2) wt_pooled wt_pooled Wt_pooled 2014-05-10 50
예제 1) 2014-05-10 51
예제 3) Q) 국민건강영양조사제 5 기 (2010 년 ~2012 년 ) 자료를통합하여우리나라만성폐쇄성폐질환 (COPD) 의유병률, 삶의질분석 1) COPD 유병률파악 2) COPD 질환군과정상군의삶의질 (EQ-5D) 비교 2014-05-10 52
예제 3) 연구대상자선정 - 폐기능검사수행자대상 : 값이없는경우제외 - COPD 질환군정의 : 폐기능검사에서 1 초간노력성호기량 (Forced expiratory volume in one second, FEV1) 대노력성폐활량 (Forced Vital Capacity, FVC) 비율이 70% 미만인경우 (GOLD data, 2009) 2014-05-10 53
1) 유병률파악 예 ) 2010 년 2014-05-10 54
예제 3) 2014-05-10 55
예제 3) 2) 삶의질분석 : - EQ-5D : 다차원적선호도에근거한건강관련삶의질측정 운동능력, 자기관리, 일상활동, 통증 / 불편감, 불안 / 우울 5 개문항에대해 3 가지수준 ( 지장없음 / 다소지장 / 완전지장 ) 으로응답 - 국건영자료에서한국인질가중치모형이용하여산출하였음 ( 건강설문조사 EQ5D 변수이용 ) : 지수의범위는 0-1, 높을수록삶의질이높음을의미 2014-05-10 56
예제 3) 과제 Q) 국민건강영양조사제 5 기 (2010 년 ~2012 년 ) 자료를통합하여우리나라만성폐쇄성폐질환 (COPD) 의유병률, 삶의질분석 1) COPD 유병률파악 - 성별 COPD 유병률 2) COPD 질환군과정상군의삶의질 (EQ-5D) 비교 - 성, 연령보정시 COPD 질환군과정상군의삶의질평균이동일한가 2014-05-10 57
예제 4) Q) 국민건강영양조사 2010 년자료를이용하여청소년의자살시도, 자살생각에대한위험요인분석 연구대상자 : 청소년 (12 세 ~18 세 ) 종속변수 : 자살시도여부 독립변수 - 성별, 연령, 가구소득, 건강설문조사중흡연, 음주, 수면시간, 스트레스, 우울감여부, 체중조절등 proc surveylogistic 2014-05-10 58
References 국민건강영양조사홈페이지 https://knhanes.cdc.go.kr/ 국민건강영양조사원시자료이용지침서제 5 기 (2010-2012) 2011 년국민건강영양조사자료활용워크샵, 질병관리본부 2012 국민건강통계, 질병관리본부 2014-05-10 59