제 12 기보건복지통계고위과정 2011. 9. 5 ~ 2012. 1. 5 2011 년 9 월강의일정 석식 : 오후 5시30분 오후 6시30분 1교시 : 오후 6시40분 오후 7시30분 2교시 : 오후 7시40분 오후 8시30분 3교시 : 오후 8시40분 오후 9시30분 년월일회주제 5 (1) 입학식및특강 2011 9 15 (2) 22 (3) Stata 소개및활용 ( 인하대학교사회의학교실교수황승식 ) Stata를이용한데이터관리 I ( 인하대학교사회의학교실교수황승식 ) 통계개념, 용어정리 ( 국립암센터암통계연구과장남병호 ) 가설검정과모수추정, 통계적추론 ( 국립암센터암통계연구과장남병호 ) 29 (4) Stata를이용한데이터관리 II ( 인하대학교사회의학교실교수황승식 ) Stata를이용한기술통계량 ( 인하대학교사회의학교실교수황승식 ) 강의일정은운영상변동될수있습니다. 주소 : ( 우 ) 410-769 경기도고양시일산동구일산로 323번지대표전화 1588-8110 홈페이지 http://www.edu.ncc.re.kr ( 우 410-769) 경기도고양시일산동구일산로 323 전화 031)920-1954 홈페이지 http://edu.ncc.re.kr
Stata 소개및활용 Stata 를이용한데이터관리 I 인하대학교사회의학교실교수 황승식
PROFILE 성명 ( 한글 ) 황승식 ( 한자 ) 黃勝植소속인하대학교사회의학교실직위조교수전공역학 ( 환경 ) 전화번호연구실 (02)380-2193 e-mail cyberdoc@inha.ac.kr 주요학력및경력 내용학력 1995.03-2001.02 서울대학교의과대학의학과 ( 의학사 ) 2003.03-2006.02 서울대학교대학원의학과 ( 의학박사 ) 학위논문명 : 황사의건강영향에대한역학연구경력 2002.03-2005.02 서울대학교의과대학예방의학교실 ( 전공의 ) 2005.03-2007.06 국립암센터암등록역학연구부 ( 전임의 ) 2007.07-2008.02 질병관리본부질병예방센터만성병조사팀 ( 책임연구원 ) 2008.03 - 현재인하대학교사회의학교실조교수 연구논문및저서 주요연구논문및저서 1. Min Kyung Lim, Young-Hee Ju, Silvia Franceschi, Jin-Kyoung Oh, Hyun-Ju Kong, Seung-Sik Hwang, Sue-Kyung Park, Sung-Il Cho, Woon-Mok Sohn, Dong-Il Kim, Keun-Young Yoo, Sung-Tae Hong, Hai-Rim Shin. Clonorchis Sinensis infection and increasing risk of cholangiocarcinoma in the Republic of Korea. Am J Trop Med Hyg 2006; 75(1): 93-96 [IF: 2.482] 2. Yun-Chul Hong, Seung-Sik Hwang, Jin Hee Kim, Kyoung-Ho Lee, Hyun-Jung Lee, Kwan-Hee Lee, Seung-Do You, and Dae-Seon Kim. Metals in particulate pollutants affect peak expiratory flow of schoolchildren. Environ Health Perpect 2007; 115(3): 430-434 [IF: 5.342] 3. Ji-Ho Choi, Qing-Song Xu, So-Yeon Park, Jin-Hee Kim, Seung-Sik Hwang, Kwan-Hee Lee, Hyun-Jung Lee, and Yun-Chul Hong. Seasonal variation of effect of air pollution on blood pressure. J Epidemiol Community Health 2007; 61: 314-318 [IF: 3.003] 4. Soo-Jeong Cho, Jung-Hwan Yoon, Seung-Sik Hwang, Hyo-Suk Lee. Do young hepatocellular carcinoma patients with relatively good liver function have poorer outcomes than elderly patients? J Gastroen Hepatol 2007; 22(8): 1226-1231 [IF: 1.718] 5. Kang YA, Lee HW, Hwang SS, Um SW, Han SK, Shim YS, Yim JJ. Usefulness of whole-blood interferon-gamma assay and interferon-gamma enzyme-linked immunospot assay in the diagnosis of active pulmonary tuberculosis. Chest 2007; 132: 959-965 [IF: 4.008] 6. Shin HR, Park SH, Hwang SY, Kim JE, Jung KW, Won YJ, Hwang SS, Yim Seon-Hee, Choi KS, Park EC, Park SY, Kim JW, Lee HP. Trends in cervical cancer mortality in Korea 1993-2002. Int J Cancer 2007 Aug; 122(2): 393-397 [IF: 4.700] 7. Hye-Ryoun Kim, Seung Sik Hwang, Hyun Ji Kim, Sang Min Lee, Chul-Gyu Yoo, Young Whan Kim, Sung Koo Han, Young-Soo Shim, and Jae-Joon Yim. Impact of extensive drug resistance on treatment outcomes in non-hiv infected adults with multidrug-resistant tuberculosis. Clin Infect Dis 2007 Nov; 45(10): 1290-1295 [IF: 6.510] 8. Jeong IG, Han KS, Joung JY, Choi WS, Hwang SS, Yang SO, Seo HK, Chung JS, Lee KH. Analysis of changes in the total lymphocyte and eosinophil count during immunotherapy for metastatic renal cell carcinoma: correlation with response and survival. J Korean Med Sci 2007 Dec; 22(S): S122-S128 [IF: 0.650] 9. Myung SK, Yoo KY, Oh SW, Park SH, Seo HG, Hwang SS, Park SK. Meta-analysis of studies investigating one-year effectiveness of transdermal nicotine patches for smoking cessation. Am J Health-Sys Pharm 2007 Dec; 64(23): 2471-2476 [IF: 1.437] 10. Kim HR, Hwang SS, Ro YK, Jeon CH, Ha DY, Park SJ, Lee CH, Lee SM, Yoo CG, Kim YW, Han SK, Shim YS, Yim JJ. Solid-organ malignancy as a risk factor for tuberculosis. Respirology 2008 May;13:413-419. [IF: 1.264]
Stata and the Newcomer 2011 년 9 월 15 일 ( 목 ) 황승식 cyberdoc@inha.ac.kr @cyberdoc73-1 -
- 2 -
2004 년 3 월 29 일덴마크병원에서회의장면 (From Svend Juul, Stata and the Newcomer) A: 우리연구진의연구능력을향상시키고싶습니다. 기능이좋고, 설치가쉬우며, 가격도적당한통계패키지가필요합니다. 아, 그래프를그리는능력도포함해서요. B: Stata 가정답이겠네요. A: 그렇진않은듯한데요. 사람들말이처음배우기가어렵다고합니다. 전임연구자라면몰라도, 우리병원의젊은의사연구자들은사용법을익히기위해몇주씩투자할여력이없어요. B: 제가듣기에 SPSS 가더사용하기편하다고들었는데요. A: 하지만그건너무비싸요. 엑셀은어떤가요? - 3 -
리뷰창 Review window: Past commands. Click to paste in Command window 변수창 Variables window: List of variables in open data set. Click to paste in Command window. 결과창 Results window: Output and past commands 명령어창 Command window: Current command 엥? 결과창이어디로갔어? - 4 -
사용자의첫인상 안예뻐보인다. ( 특히뷰어창.) 동작이혼란스럽다. 사용설명서 [GSW] 가헷갈린다. 난 Stata 사용을포기할래! 너무비전문적이네. 난그렇게똑똑하지못해. - 5 -
왜 Stata 를쓰는가? From www.stata.com 다양한통계및데이터관리기능이종합 전문출판물수준의그래프 전문출판물수준의그래프를연구성과에포함시켜시각적효과가능 Online tutorial: Stata 에서그래프그리는기본기능소개 빠르고, 정확하고, 쉬운사용 서로다른다양한컴퓨터환경호환 Stata 개발약사 1984.1: Bill Gould 와 Sean Becketti 에의해최초개발 1985.1: Stata 1.0 발매 1988.6: Stata 2.0 1989.12: Statistics with Stata (Hamilton, L 저 ) 발간 1995.1: Stata 4.0 Windows 3.1 판 1999.1: Stata 6, 웹고려 2003.1: Stata 8, 그래픽기능강화 2005.8: Stata 9, Mata 2007.6: Stata 10 2009.7: Stata 11, 변수관리자, 다중대치 2011.7: Stata 12, SEM - 6 -
왜 Stata 를쓰는가? From www.stata.com 손쉬운이해, 확장가능한구조 뛰어난기술및교육자료지원 방대한사용자층 Widely used Stata 는 150 개국가이상에서사용, 모든연구분야의전문가들이사용 한국공식판매처 제이슨티지 JasonTG (www.jasontg.com) 사용에필요한매뉴얼과기타출판물다양하게발간 적당한가격 - 7 -
How does Stata compare with SAS and SPSS? Mitchell, NM (2005). Strategically using General Purpose Statistics Packages: A Look at Stata, SAS and SPSS. Statistical Consulting Group: UCLA Academic Technology Services. 아래링크에서원문이용가능 http://www.ats.ucla.edu/stat/technicalreports/num ber1_editedfeb_2_2007/ucla_atsstat_tr1_1.1_0 207.pdf - 8 -
Stata >> SAS> SPSS 라이센스정책 비용 : 영구라이센스 Stata/SE 비용약 150만원 기간 : 영구적! 설치 : 한번이상설치필요없음 추가비용 : 분리된모듈에대해추가비용지불불필요 설치와업데이트 Stata > SPSS >> SAS 시디한장 라이센스코드만정확하게입력 약 5분소요 200 MB 하드디스크공간필요. - 9 -
Stata = SAS > SPSS 지원구조 기술지원 공식웹사이트 : www.stata.com 설명 : webuse 명령어 온라인도움말 : help 명령어 ( 예. help ttest) 추가서적 : Stata Press 부가프로그램 : findit 명령어 Stata 저널 교육훈련 : 온라인코스 Features 분산분석 (ANOVA): SPSS = SAS > Stata 데이터배포용이성 : Stata = SPSS > SAS 외부데이터불러오기 : SPSS > Stata > SAS Stat/Transfer 프로그램사용필요 ( 별도구입 ) 확장성 : Stata > SAS > SPSS - 10 -
Stat/Transfer http://www.stattransfer.com/ 에서데모버전이용가능 그래프 Stata > SAS >> SPSS Features 선형혼합모형 (Linear Mixed Models) SAS >> SPSS > Stata 로지스틱회귀분석 Stata >> SAS = SPSS logit, clogit, ologit, mlogit 명령어 - 11 -
예. 단순로지스틱회귀분석 SAS proc logistic data = "c:\mydata\hsb2" desc; model female = read / expb; run; Stata logistic female read logit female read SPSS logistic regression female with read. 특징 결측자료처리 : SAS = Stata >> SPSS 검정력분석 : SAS = SPSS > Stata 조사통계자료분석 : Stata >> SAS = SPSS 생존분석 : Stata = SAS >> SPSS 가중치분석 : Stata > SAS >> SPSS - 12 -
통계패키지조합을고려한다면? Stata + SAS 서로단점을훌륭하게보완 조사통계자료분석 : Stata > SAS 방대한규모데이터셋관리 : SAS > Stata 부트스트랩, 잭나이프, 몬테카를로기법 : Stata > SAS 복잡한로데이터불러오기 : SAS > Stata 가중치처리 : Stata > SAS Stat/Transfer 이용외부파일형식불러오기 SPSS가일부종류의분산분석에서더강력 마우스지원 마우스우선사용자환경은결과반복및재현어려움. SPSS > Stata >> SAS - 13 -
명령어구조비교 Stata > SAS >> SPSS Stata, 적게입력하고적게얻기 SAS, 많이입력하고많이얻기 SPSS 는잘정의된명령어구문지원부족 Stata mlogit y x1 x2 x3 SAS Proc logistic; model y=x1 x2 x3 / link=glogit; run; SPSS NOMREG y WITH x1 x2 x3 / PRINT = PARAMETER SUMMARY CPS MFI. 모형추적관찰 Stata > SAS >> SPSS 교육용이성 Stata > SAS >> SPSS 표본수산출 Stata=SAS >> SPSS. 기본 sampsi 및생존분석용 stpower 명령어 - 14 -
임상연구자를위한 Stata 의장점 1. 직관적인 명령문입력방식으로결과재현및검증가능 2. 표본수산출명령어기본내장 3. 역학통계명령어기본내장 (help epitab) 4. 회귀분석모형추적관찰및가정검증편리 5. 범주형자료분석 ( 특히, 로지스틱회귀분석 ) 명령어강력 6. 진단검사의타당도및신뢰도평가편리 7. 간단한명령문으로효과적인프리젠테이션용그래프작성가능 Stata 참고자료 help, findit 명령어 Stata공식홈페이지 : www.stata.com UCLA 통계학과사이트 : www.ats.ucla.edu/stat/stata 한국 Stata 학회 : www.stata.co.kr Stata공식카페: cafe.naver.com/stata - 15 -
- 16 -
의학보건학연구자를위한 Stata 입문역자 : 황승식, 박소희, 남병호 국립암센터출판부 2009 년 1 월 [ 도서 ] STATA 기초적이해와활용저자민인식최필선 출판사한국STATA학회 2008년 9월 - 17 -
[ 도서 ] STATA 기초통계와회귀분석저자민인식최필선 출판사한국STATA학회 2009년 2월 수고하셨다는, 마, 확신을갖고있읍니다. - 18 -
통계개념, 용어정리 가설검정과모수추정, 통계적추론 국립암센터암통계연구과장 남병호
제 12 기 보건복지통계고위과정 암통계연구과남병호 2011 년 9 월 22 일 보건복지통계고위과정의목표 1 통계적용어들 (Statistical vocabulary) 을전반적으로살펴봄 전반부 2 통계분석의방법들을살펴보고그결과들을해석 3 통계분석을위한소프트웨어 (Stata) 의사용방법을실습 후반부 4 5 다양한연구영역에서어떻게통계분석이이루어지는지살펴봄 ( 임상시험연구, 역학연구등각분야의전문가들의강의를통해실질적인통계분석을살펴봄 ) 보건, 복지분야의다양한통계들이어떻게생성되며정책에어떻게반영이되는지실무전문가들을통해알아봄 Company Name - 1 -
강의개요 1. 통계분석의개념 2. 통계용어 : Population, Sample, Population parameter, Sample statistic, 등등 3. Population parameter와 Sample statistic의관계 4. Normal distribution 5. Central Limit Theorem(CLT) 6. 통계추론 (Statistical Inference): Population parameter 측정 (Estimation), 가설검정 (Hypothesis testing) Company Name 학습목표 1. 통계분석의의미를파악 2. 주요통계용어들의의미와산출방법들을익힘 3. 모집단 (Population), 표본 (Sample), 평균 (Mean), 중간값 (Median), 범위 (Range), 분산 (Variance), 등등 4. Population parameter와 Sample statistic의관계를이해 5. Normal distribution의특성을이해 6. Central Limit Theorem의중요성을인식 7. Statistical inference의두영역인estimation과 Hypothesis testing이란 무엇인가를이해 Company Name - 2 -
Vocabulary( 용어 ) 통계분석 (Statistical analysis): 관심의대상이가지고있는어떠한특성에대한연구 (analysis of characteristics of subjects of interest) ex) 대통령후보들의지지도분석, 담배와암발생과의관계, Red wine이심장병발생을억제함, 등등 대상 (Subjects of interest): 사람, 세포, 혈액, 동물, 등등 특성 (Characteristics): 변수 (Variable)- 대상의측정가능한성질 (Measurable properties of subjects) : 각연구마다분명하게제시하여야하며반드시 Unit을표기하여야함 ex) 나이 ( 년 ) ( 예, 45, 67), SBP(mmHg) ( 예, 140, 159), 위암 ( 병기 )( 예, 1기, 2기 ) Company Name Data elements(data points): 나이 -45, 67, SBP(mmHg) 129, 130, stage1, stage2 모집단 (Population): 관심대상의총집단 (Collection of all subjects of interest) ex) 암에걸린한국남자, 국립암센터에서일하는모든간호원들, 40 세이상의비만 (BMI>=25) 여성, 등등 표본 (Sample): 모집단의부분집합 (Subset) ex) 모집단- 암에걸린한국남자, 표본1 - 암에걸린 50세이상의한국남자표본 2-100명의무작위로추출된암에걸린한국남자 Company Name - 3 -
Diagram Population Sample Sample 암에걸린 50 세이상의한국남자 Population 암에걸린한국남자 다양한표본추출이가능함 : 어떻게, 얼마만큼의 sample 을추출할것인가? Company Name Vocabulary( 용어 ) 모집단의크기 (Population size, N): 모집단에들어있는 subjects 의수 표본의크기 (Sample size, n): 표본에들어있는 subjects 의수 모수 (Population parameter): Descriptive measure based on a population, 간단히 Parameter 라고도함 표본통계량 (Sample statistic): Descriptive measure based on a sample, 간단히통계량 (Statistic) 이라고도함 ex) Parameter- N (Population size), 모집단평균나이, 모집단의 Response rate, 모집단의 5년생존율, 등등 Statistic- n (Sample size), 표본평균나이, 표본의 Response rate, 표본의 5년생존율, 등등 Company Name - 4 -
Population parameter 와 Sample statistic 과의관계 대부분의경우 Population 자료전체를측정하고분석하기란거의불가능하고또비현실적임 : -Population size가너무큼 -큰비용 -많은시간과노력 따라서모집단에서잘추출된표본을분석하고그결과로모집단에대하여추론하는경우가대부분. Company Name Example ex) Population- 65세이상의남자, N(population size) = 5 Variable(X)- 과거 3년동안병원의의사한테진료를받은회수 Subject number 과거 3 년동안병원의의사한테진료를받은회수 1 2 2 4 3 6 4 10 5 18 이자료를볼때얻을수있는정보 : - 총 5 명이 population size - 3 명이총 6 번이하로병원을방문함 - 10 번이상의사한테진료를받은사람은자주의사를보아야하는만성질환을앓고있거나자주관찰해야하는급성질환을앓았을수있음 Company Name - 5 -
만약모집단수가 500명, 혹은 5000명이되면모든 Data points를눈으로관찰하여위와같이 65세이상의남자들의 과거 3년동안병원의의사한테진료를받은회수 에대하여이해하기란거의불가능하다. 따라서일반적으로어느모집단의관심있는변수 ( 들 ) 을요약하여그특성들을이해하는것이필요함. Company Name Population parameters - Location parameter: Mean 과 Median Population Mean (µ): 모집단의평균값 (average value) center of leverage, balance µ = (2 + 4 + 6 + 10 + 18) / 5 = 40/5 = 8 0.01 0 2 4 6 8 10 12 14 16 18 Mean (2-8)+(4-8)+(6-8) = (-6)+(-4)+(-2) = -12 =12 (10-8)+(18-8) = 2+10 =12 Population Median( 모집단중앙값 ): 하위 50% < median < 상위 50% Population median = 6 Company Name - 6 -
- Variability(Dispersion) parameter: Range, Variance 와 Standard Deviation Population Range = maximum minimum=18-2=16 (minimum, maximum)=(2,18) Population Variance (σ 2 )( 분산 ): 각각의값이평균값과얼마나떨어져있는가에대한측정 (mean squared deviation from the mean) X X-µ (X- µ) 2 2 2 8 = -6 (-6) 2 = 36 4 4 8 = -4 (-4) 2 = 16 6 6 8 = -2 (-2) 2 = 4 10 10 8 = 2 2 2 = 4 18 18-8 = 10 10 2 = 100 Sum(X-µ)/5 = {(-6) + (-4) + (-2) + (2) + (10)} / 5 = 0 / 5 = 0 σ 2 = {{(-6) 2 + (-4) 2 + (-2) 2 + 2 2 + 10 2 } / 5 = (36 + 16 + 4 + 4 + 100) / 5 = 160 / 5 = 32 Company Name Population Standard Deviation ( 표준편차 ) 2 σ = 32 = 5.7 - 표준편차의절대적인수치는그자체로커다란의미를갖지는않는다. 왜냐하면이수치는변수가어떠한 unit으로측정되었는가에따라변하기때문. - 표준편차는여러집단을비교할때상대적인의미로서중요. ex) Population1(X 1 ) Population2(X 2 ) X 2 - µ 2 (X 2 - µ 2 ) 2 2 6 6-8=-2 4 4 7 7-8=-1 1 6 8 8-8=0 0 10 9 9-8=1 1 18 10 10-8=2 4 µ 1 = 8, σ 1 =5.7 2 σ 2 µ 2 = 8 σ 2 = 1.4 =(4+1+0+1+4)/5 = 10/5 = 2 Company Name - 7 -
두모집단의분포 75% mean median 25% 0 5 10 15 20 75% Mean, median 25% population1 population2 Population1 과 Population2 를비교해보면? Company Name 대부분의경우모집단의자료를직접분석하기란거의불가능하고, 실질적이지도못하며시간과비용이너무많이소요됨. 따라서모집단을대표할수있는표본을추출하여분석함으로모집단의 parameter에대하여유추할수있음 Company Name - 8 -
sampling, sample statistics - 무작위표본추출 (simple random sampling(srs)): 모집단을대표할수있는표본추출 - 표본통계량 (sample statistics): size(n), 표본평균값 (sample mean, X ), 표본분산 (sample variance, S 2 ), 표본표준편차 (sample standard deviation, S), 표본범위 (sample range), 등등 2 6 10 4 18 2, 4, 6 2, 4, 10 2, 4, 18 2, 6, 10 2, 10, 18 4, 6, 10 4, 6, 18 4, 10,18 6, 10,18 Population, N=5 2, 6, 18 Sample, n=3 Company Name ex) Population sample of size n=3 2,4,6,10,18 2, 4, 6 2, 4, 10 2, 4, 18 2, 6, 10 2, 6, 18 2, 10, 18 4, 6, 10 4, 6, 18 4, 10, 18 6, 10, 18 - 각표본이선택될확률 = 가능한 1 = 10 1 총 sample수 Company Name - 9 -
[Sample] X 1 X 2 X 3 2 4 6 2 4 10 2 4 18 2 6 10 2 6 18 2 10 18 4 6 10 4 6 18 4 10 18 6 10 18 sample mean ( X ) (2+ 4+ 6)/3=12/3=4.0 (2+ 4+10)/3=16/3=5.3 (2+ 4+18)/3=24/3=8.0 (2+ 6+10)/3=18/3=6.0 (2+ 6+18)/3=26/3=8.7 (2+10+18)/3=30/3=10.0 (4+ 6+10)/3=20/3=6.7 (4+ 6+18)/3=28/3=9.3 (4+10+18)/3=32/3=10.7 (6+10+18)/3=34/3=11.3 sample range (max min) 6-2=4 10-2=8 18-2=16 10-2=8 18-2=16 18-2=16 10-4=6 18-4=14 18-4=14 18-6=12 Company Name sample mean 의분포 0 5 10 15 20 sample range 의분포 0 5 10 15 20 Company Name - 10 -
Sample mean 과 Range 의분포 Sample mean 과 Range 의분포는각 Sample 에따라서변함. Sampling distribution: sampling distribution of the sample statistics(e.g., ) 이모든 sample mean의평균값은어떻게될까? (4.0+5.3+8.0+6.0+8.7+10.0+6.7+9.3+10.7+11.3)/10 = 80/10 = 8 = µ 모든 Sample mean 들의평균값은모집단의평균값과똑같음평균적으로한 Sample의평균 ( X ) 은모집단의평균값과같음 Sample mean( X ) 은 Population mean(µ) 의 unbiased estimator X Company Name 이모든 sample mean 들의분산 (variance), 와, σ X 표준편차 (standard deviation), 는? 2 σ X X μ 4.0-8.0=-4.0 5.3-8.0=-2.7 8.0-8.0=0 6.0-8.0=-2.0 8.7-8.0=0.7 10.0-8.0=2.0 6.7-8.0=-1.3 9.3-8.0=1.3 10.7-8.0=2.7 11.3-8.0=3.3 ( X μ) (-4.0) 2 =16.0 (-2.7) 2 =7.3 0 2 =0 (-2.0) 2 =4.0 (0.7) 2 =0.5 (2.0) 2 =4.0 (-1.3) 2 =1.7 (1.3) 2 =1.7 (2.7) 2 =7.3 (3.3) 2 =10.9 2 2 σ X = (16.0+7.3+0+4.0+0.5+4.0+1.7+1.7+7.3+10.9)/10=53.4/10=5.34 σ X σ N n = 5.34 = 2.3 = = n N 1 5.7 3 5 5 3 1 Company Name - 11 -
Normal distribution μ X Company Name Normal distribution 의특징 : 1. mean 을중심으로대칭 2. mean = median = mode 3. mean(µ) 과 variance(σ 2 ) 로그분포의특성을파악할수있음 4. 68% 정도가 µ ± σ 안에분포되어있음 95% 정도가 µ ±2σ 안에분포되어있음 99% 정도가 µ ±3σ 안에분포되어있음 μ 3σ μ 2σ μ σ μ μ + σ 68% 95% 99% μ 2σ + μ + 3σ Company Name - 12 -
Central Limit Theorem Suppose we have a population with mean µ and standard deviation σ. If we take simple random samples of size n with replacement from the population, for large n, the sampling distribution of the sample means is approximately normally distributed with μ = X μ, σ = X σ n Where, in general, n 30 is sufficiently large Company Name 140 120 100 80 60 40 20 0 Sample X ~ Uniform(0, Distribution 1), of n=500 X, n=30 n=5 Company Name - 13 -
통계적추론 (Statistical Inference) 알수없는모집단의 parameter 에대하여표본의통계를이용하여추론하는것 (Inference about unknown population parameter based on the sample statistics) μ? X,n sample population Statistical inference Estimation Hypothesis testing( 거의모든통계분석 ) Company Name 모수추정 (Parameter Estimation) 알수없는모집단의모수 (parameter) 에대하여표본통계를근거로추정하는것 ex) : 위의예제 population: 65세이상의남자, Variable: 과거 3년동안병원의의사한테진료를받은회수 Unknown parameter: 과거 3년동안병원의의사한테진료를받은회수의모집단의평균치 (µ) Suppose we have a sample of (2,4,6), X =(2+4+6)/3 = 12/3 = 4 -> under-estimate What if we have a sample of (4,10,18)? X =(4+10+18)/3 = 32/3 = 10.7 -> over-estimate 대부분의경우우리는단하나의표본만을수집하게되며이표본에서산출된통계가알고자하는 parameter를과대추정한것인지, 과소추정한것인지, 혹은맞게추정한것인지알수가없다. 따라서알지못하는 parameter 를추정할때에는우리가범할수있는 Error의허용치를결정해야하며그수치를반드시제시하여야한다. Company Name - 14 -
Estimate 의종류 * estimator( 추정량 ): sample statistics * estimate( 추정치 ): sample statistics 의값 point estimate( 점추정치 ): best single number estimate for a population parameter ex) X for µ (confidence) interval estimate( 구간추정치 ): range of values with a level of confidence attached ex) 95% 신뢰구간 : X ± (margin of error) margin of error는신뢰수준에따라그값이변화함 : 신뢰수준이높을수록그값이커짐 X 90% 신뢰구간 95% 신뢰구간 99% 신뢰구간 Company Name 신뢰구간의해석 95% 신뢰구간 : 어느한신뢰구간이참 parameter의값을포함할확률이 95% 이다. under-estimate over-estimate ex) 대통령후보의지지율측정, 이명박 40% ± 3%(95% 신뢰수준 ) -> 95% 신뢰구간 = (40-3=37%, 40+3=43%) Company Name - 15 -
가설검정 (Hypothesis testing) 대부분의통계분석 parameter에대하여먼저연구자의가설을세우고표본의통계량을근거로그가정을검정하는방법예제 ) 모든 3상의임상시험 H 0 : 현재의치료법과새로운치료법의 survival rate이같다 H 1 : 새로운치료법이더좋은survival rate를보인다. H 0 : 귀무가설 H 1 : 연구가설 Company Name 가설검정 (Hypothesis testing) H 0 : S =0 H 1 : S > 0 검정통계량분포 기각치 검정값이기각치보다작으면귀무가설 (H 0 ) 채택 검정값이기각치보다크면귀무가설 (H 0 ) 기각 Company Name - 16 -
H 0 : S =0 H 1 : S < 0 기각치 검정통계량분포 검정값이기각치보다작으면귀무가설 (H 0 ) 기각 검정값이기각치보다크면귀무가설 (H 0 ) 채택 Company Name H 0 : S =0 H 1 : S 0 검정통계량분포 기각치 검정값이기각치밖에있으면귀무가설 (H 0 ) 기각 검정값이기각치안에들어가면귀무가설 (H 0 ) 채택 검정값이기각치밖에있으면귀무가설 (H 0 ) 기각 Company Name - 17 -
감사합니다!!! - 18 -
12 기 3 주차 보건복지통계고위과정 암통계연구과남병호 2011 년 9 월 22 일 학습내용 Normal distribution Standard Normal distribution t distribution One sample procedure (μ) Estimation, Power, Sample size, Hypothesis testing Two sample procedure(μ 1 -μ 2 ) Estimation, Hypothesis testing - 1 -
정규분포 (Normal Distribution) 만약 Variable X ( 예, SBP) 가 Normal Distribution 을가지고그평균값이 μ, 분산이 σ 2 이면 mean Variance σ 2 X ~ N(μ, ) SBP~N(108,14 2 ), mmhg Systolic Blood Pressure 는 Normal distribution 을가지고그평균값은 108 이고표준편차는 14 임. SBP 의분포도 52 66 80 94 108 122 136 150 164 σ σ σ σ μ-4 μ-3 μ-2 μ- μ μ+ μ+2 μ+3 μ+4σ σ σ σ - 2 -
Population of SBP μ = 108 σ = 14 P(X>120) P(X>120)=? 모집단에서한사람의 SBP를뽑았을때그 SBP가 120보다클확률은? ( 몇 % 가 SBP의값이 120보다큰가?) 108 120 표준정규분포 (Standard Normal Distribution) σ 2 σ X ~ N(μ, ) Z= (X - μ) / : Transformation: 각 X 값에서평균값을빼고그값을표준편차로나눔 Z ~ N(0, 1) : Normal Distribution 을가지고그평균값이 0, 표준편차가 1 인경우를 Standard Normal Distribution 이라고함 - 3 -
Area=Probability X Z Total area=1 52 66 80 94 108 122 136 150 164-4 -3-2 -1 0 1 2 3 4 P(X>120) = P [ X- μ > 120- μ ] = P [ (X- μ ) / σ > (120- μ ) / σ ] = P [ Z > (120-108) / 14 ] = P [ Z > 12 / 14 ] = P [ Z > 0.86 ] P(X>120) P(Z>0.86) 108 120 X 0 0.86 Z - 4 -
From the Central Limit Theorem(CLM), for large samples(n 30) X ~ N(μ X, X ) μ X = μ σx = σ / n σ (X - μ X ) / X σ 2 σ = (X - μ) /( / n ) = Z ~N(0,1) From the Z table P(Z<0)=0.5 P(Z>0)=0.5 P(-1.645<Z<1.645) = 0.90 P(-1.96 <Z <1.96 ) = 0.95 P(-2.576<Z< 2.576) = 0.99-4 -3-2 -1 0 1 2 3 4 68% 90% 95% 99% - 5 -
P(Z>0.86) = 1 - P(Z<0.86) = 1 0.8051 = 0.1949 = 19.49% P(Z<0.86)=0.8051 P(Z>0.86)=0.1949 0 0.86 예 ) 우리나라중년 (30-49세) 남녀의콜레스테롤이 Normal Distribution을가지고그평균과표준편차가다음과같다. X ~ N(192, 24 2 ), Y ~ N(185, 28 2 ) 몇 % 의중년남자가콜레스테롤수치가 200이넘을까? P(X>200)=? 평균 표준편차 남자 192 24 여자 185 28 P(X>200) 192 200 X - 6 -
P(X>200) = P [ X- μ >200 - μ ] = P [(X-μ)/ σ> (200- μ )/ σ] = P [ Z > (200-192)/24 ] = P [ Z > 8/24 ] = P [ Z > 0.33 ] P(Z>0.33 ) P(Z > 0.33) = 1 P(Z 0.33) = 1 0.6293 = 0.3707 0 0.33 답 ) 약 37% 정도의중년남자가콜레스테롤수치가 200이넘는다. 통계적추론 (Statistical Inference) Estimation Hypothesis testing μ? population X,n sample Estimation for μ Hypothesis testing about μ - 7 -
One population : unknown parameter μ Estimating μ : - point estimate for μ 예 ) 국립암센터의 ER(Emergency Room) 에서주말에평균적으로기다리는시간은얼마나될까? 주말에국립암센터 ER을찾는환자중에무작위로 100명을뽑아그들의기다리는시간의평균을냄 X = 42.7 분 또다른무작위 sample 을구함 X = 35.1 분 42.7분과 35.1분중에어느것이더적합한estimate인가? 환자와병원의입장에서는 35.1분이더바람직하다. 하지만통계적으로는어느것이더좋은가? - 8 -
point estimate만으로는충분한 estimation이될수없음얼마만큼이 point estimate( X ) 가 population의 true mean value(μ) 에가까운가를제시하여야함. 어떻게? Confidence Interval( 신뢰구간 ) for μ 어떻게신뢰구간을구축할것인가? 1 먼저신뢰수준을정함 ( 예. 95%, 99%, 90%) 2 신뢰수준에따른 margin of error를구함 X + margin of error (2 가지요소 : 1 신뢰수준 2 Variability) ( X margin of error, X + margin of error) - 9 -
- Confidence Interval for μ 95% 의신뢰구간 : p(? < μ <? ) = 0.95 Standard Normal distribution Z p( -1.96 < Z < 1.96 ) = 0.95 p( -1.96 < ( X- μ)/ σ/ n < 1.96 ) = 0.95 p( X - 1.96 σ/ n < μ < X + 1.96 σ/ n ) = 0.95 μ 의 95% 신뢰구간은 X ± 1.96 σ/ n ( X - 1.96 σ/ n, X + 1.96 σ/ n ) 1.96 σ/ n = margin of error for 95% confidence level margin of error = Z σ/ n Z : 신뢰수준에따른 Z(Standard Normal distribution) 의값 95% : Z=1.96 90% : Z=1.64 99% : Z=2.576-10 -
예 ) 95% 신뢰수준인경우 0.95 0.025=0.05/2 0.025=0.05/2-1.96 0 1.96 Z 대부분의경우우리는 μ, σ 모두알수가없음 σ를알수없는경우 Sample의표준편차인 S로대신함 μ? σ? X = X /n s 2 = (X-X) 2 /(n-1) n X S μ ^ = X σ ^ = s Margin of error = Z s/ n - 11 -
예 ) 국립암센터에서위암수술을받은환자중 293명을무작위로추출하였음그들의평균나이는? ci age n = 293, X = 56.8, S/ n = 0.66 95% C.I = X ± 1.96 s/ n = 56.8 ± 1.96(0.66) = 56.8 ± 1.3 ( 56.8-1.3, 56.8 + 1.3 ) ( 55.5, 58.1 ) Variable Obs Mean Std. Err. [95% Conf. Interval] -------------+----------------------------------------------------------------------------- age 293 56.78498.6590719 55.48785 58.08212 만약 Sample size가작으면 (n < 30), 더이상Central Limit Theorem이효력이없음 모집단이 normal distribution을가진다고가정하면 (X - μ) /( S / n ) = t distribution을가짐 t distribution 은반드시 degrees of freedom(d.f) 을가지며 df=n-1-12 -
t d.f 의변화에따른 t distribution 의변화 http://www.econtools.com/jevons/java/graphics2d/tdist.html z 예 ) 고혈압에걸리는평균연령? 95% 신뢰구간으로 estimate 하세요무작위로 12 명의고혈압환자를추출하여그들이고혈압으로진단되었을당시의나이를기록했음 32.8 40.0 41.8 42.0 45.4 47.0 48.5 50.0 51.0 52.0 54.0 59.2 X = (32.5 + 40.0 + +59.2) /12 = 46.9 47 S 2 = {(32.8-46.9) 2 + (40.0-46.9) 2 + + (59.2-46.9) 2 }/(12-1) = 7.2 2 S = 7.2 2 = 7.2-13 -
=> 95% 의신뢰구간 => X ± t s/ n => 46.9 ± t (7.2)/ 12 => 46.9± 2.201 (7.2)/ 12 => ( 42.33, 51.47 ) 95% 신뢰구간을위한 t 값은? df = n-1 =11 t =2.201 ci age_hyper Margin of error = 4.57 Variable Obs Mean Std. Err. [95% Conf. Interval] ----------------+------------------------------------------------------------------------------- age_hyper 12 46.90833 2.067404 42.35801 51.45866 Summary for confidence interval(σ is unknown) 1 n 30 X ± Z S/ n Margin of error 2 n < 30 : population 이 Normal distribution 임 X ± t S/ n Margin of error - 14 -
Precision & Sample size 예 ) mean age at hypertension 1 how much error can be tolerated in the estimate (how close must the estimate be to the true mean μ )? 2 What level of confidence is desired? => E(margin of error) = Z σ/ n E = Z σ/ n n = Z σ / E n = (Z σ / E) 2 예 ) 고혈압이처음발생하는나이를측정하기위해 sample을추출하려고한다. 95% 의신뢰수준을가지며오차 (margin of error) 는참평균값에서2년이내로측정하려고한다. 몇명의sample이필요한가? 95% 신뢰수준 -- > Z = 1.96 E = 2, σ =? - 15 -
- 대부분의경우 σ를알수없음 1 이전의비슷한연구에서정보를얻음 2 문헌고찰을통해비슷한연구에서정보를얻음 3 pilot study를시행하며s(sample의표준편차 ) 를산출, 이용함. σ = 7.2 n = (Z σ / E) 2 = {(1.96 7.2)/2} 2 = 49.979 n = 50명 Hypothesis Testing about μ H 0 : μ=μ 0 H 0 : μ=μ 0 H 0 : μ=μ 0 or or H 1 : μ μ 0 H 1 : μ>μ 0 H 1 : μ<μ 0 양측가설 (Two-sided) 단측가설 (One-sided) H 0 : Null Hypothesis( 귀무가설 ) 기존의존재하는가설 H 1 : Alternative Hypothesis, Research Hypothesis( 대립가설 ) 연구자가보여주고자, 증명하고자하는가설 - 16 -
예 ) 2003년에우리나라 50대남성의평균혈압 (SBP) 이 130, 표준편차가 15라고전국조사에서발표되었다. 2005년에한연구자는여러가지스트레스의증가, 바쁘게돌아가는생활, 불규칙한식사등으로인해우리나라 50대남성의평균혈압이 2003년도에비해증가되었다고추정하고이를증명하고자함. H 0 : μ = 130 : 평균 SBP는변하지않음. H 1 : μ > 130 : 평균 SBP는증가함. 다음의예들을살펴보자무작위로 50대남성100명을추출하여그들의 SBP를측정하였다. 그결과 예 1) X = 130 : H 0 is most likely true 예2) X = 150 : H 1 is most likely true 예3) X = 135 :? - 17 -
5 Steps in Tests Hypothesis concerning μ Steps 1. Set up Hypothesis Select level of significance 2. Select appropriate test statistic( 검정통계량 ) 3. Final the critical value Generate decision rule 4. Compute the test statistic Example H 0 : μ=μ 0 H 1 : μ>μ 0 =0.05 X - μ 0 Z, n > 30 = s / n Reject H 0 if Z>Z 1- α Do not Reject H 0 if Z>Z 1- : Critical value Z 1- α α α 5. Draw a conclusion about H 0 by comparing the test statistic Test Statistics( 검정통계량 ) X - μ 0 Case1: σ known Z =, 거의없음 σ / n X - μ Case2: σ not known (n>30) 0 Z = s / n Case3: σ not known (n<30) Normal distribution X - μ 0 t = s / n, df=n-1-18 -
=> 95% 의신뢰구간 => X ± t s/ n => 46.9 ± t (7.2)/ 12 => 46.9± 2.201 (7.2)/ 12 => ( 42.33, 51.47 ) 95% 신뢰구간을위한 t 값은? df = n-1 =11 t =2.201 ci age_hyper Margin of error = 4.57 Variable Obs Mean Std. Err. [95% Conf. Interval] ----------------+------------------------------------------------------------------------------- age_hyper 12 46.90833 2.067404 42.35801 51.45866 Summary for confidence interval(σ is unknown) 1 n 30 X ± Z S/ n Margin of error 2 n < 30 : population 이 Normal distribution 임 X ± t S/ n Margin of error - 19 -
Power = 1 - β ( 검정력 ) = P(Reject H 0 H 1 is true) = Probability of rejecting correctly when is H 1 true p-value : Probability of observing a value as extreme or more extreme than the observed test statistic under H 0 = P(Type 1 error H 0 is true) p-value가작으면작을수록 H 0 가 True일가능성은점점더작아진다. 그기준은 α(level of significance) 임. p-value < α vs. p-value > α Important values of Critical values 1) H 0 : μ=μ 0 H 1 : μ<μ 0 [Lower-tailed test] α Z α Decision Rule 0.005-2.576 0.01-2.326 0.025-1.96 0.05-1.645 0.1-1.282 Reject H 0 if Z < Zα P(Z < Zα) =α - 20 -
EX1) α = 0.05 Reject region -1.645 0 Z 2) H 0 : μ=μ 0 H 1 : μ>μ 0 [Upper-tailed test] α Z 1-α Decision Rule 0.005 2.576 0.01 2.326 0.025 1.96 0.05 1.645 0.1 1.282 Reject H 0 if Z > Zα - 21 -
EX2) α = 0.05 Reject region 0 1.645 Z 3) H 0 : μ=μ 0 H 1 : μ=μ 0 [Two-tailed test] α Z 1-α/2 Decision Rule 0.01 2.576 0.05 1.96 0.1 1.645 Reject H 0 if Z > Z 1-α/2-22 -
EX3) α = 0.05 Reject region Reject region -1.96 0 Z 1.96 예 ) SBP 의예 무작위로 50 대남자 108 명을추출하여그들의 SBP 를측정하였음 X = 135 1) H 0 : μ = 130 H 1 : μ >130 α = 0.05 2) Test statistic n 30, σ is known (=15) Z = (X - μ) / (σ / n ) - 23 -
3) Critical Value of Z Z 1- α =1.645 4) Z = (X - μ) / (σ / n ) = (135-130)/(15/ 108 ) = 3.46 5) 3.46 > 1.645 Reject H 0 with α = 0.05 결론 : 2003 년에비해 2005 년에 50 대남성의평균 SBP 가 130 보다증가되었다는통계적으로유의한증거를제시함 Precision & Sample size in test of hypothesis testing concerning μ Power 에영향을미치는 3 가지요소 : 1 Sample size n 2 α = level of significance = p(type I error) 3 effect size(es) = μ 0 - μ 1 / σ Standardized difference on means specified under H 0 and H 1 n, α, ES Power - 24 -
X under H 0 100 X under H 0 X under H 1 100 110 120 130 X under H 0 X under H 1 β Power α - 25 -
만약에 α 를증가시킨다면? Power 는증가함 X under H 0 X under H 1 Power β α Power = p{ Z > z 1- α - μ 0 - μ 1 / (σ/ n) } 예 ) H 0 : μ = 100 H 1 : μ >100 초등학교 1 학년남학생들의 IQ α = 0.05, μ 0 = 100, μ 1 = 105, σ = 20, n =100 Power = p( Z > 1.645-100 105 /20/ n ) = p( Z > 1.645 2.5 ) = p( Z > -0.855 ) = 1 - p( Z > -0.855 ) = 1 0.1949 = 0.8051 = 80.5% - 26 -
Sample size calculation n = { (Z 1-α + Z 1-β ) / ES } 2 ES = 0.5 Z 1- α = 1.645 α = 0.05 Z 1- β = 1.28 β =0.1 0 Z 1- β =1.28 n = {(1.645 + 1.28 )/0.5} 2 = 34.2 35 명 Using p-values in hypothesis testing 1) H 0 : μ = μ 0 H 1 : μ μ 0 Reject H 0 if p-value α 2) H 0 : μ = μ 0 H 1 : μ >μ 0 or H 0 : μ = μ 0 H 1 : μ < μ 0 Reject H 0 if p-value / 2 α Two-sided test One-sided test - 27 -
예 ) 국립암센터에서위암수술을받는환자중에서 290명을무작위로추출하였음. 그중에서남자는 189명, 여자는 101명이었음. 남여모두 BMI( 체질량지수 ) 를측정하였음 H 0 : μ 남자 = 24 H 1 : μ 남자 24 α = 0.05 One-sample t test ------------------------------------------------------------------------------------------------------- Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] -------------+----------------------------------------------------------------------------------------- bmim 189 23.60537.2344117 3.222628 23.14295 24.06778 ------------------------------------------------------------------------------------------------------- mean = mean(bmim) t = -1.6835 Ho: mean = 24 degrees of freedom = 188 Ha: mean < 24 Ha: mean!= 24 Ha: mean > 24 Pr(T < t) = 0.0470 Pr( T > t ) = 0.0939 Pr(T > t) = 0.9530 p-value = 0.0939 > 0.05 do not reject H 0 at α = 0.05 50% 의유의수준으로는남자의평균 BMI 가 24 와는유의하게다르다는것을증명못함 - 28 -
Statistical Inference concerning μ 1 - μ 2 H 0 : μ 1 =μ 2 H 1 : μ 1 =μ 2 or μ 1 -μ 2 = 0 H 0 : μ 1 =μ 2 H 1 : μ 1 >μ 2 or μ 1 -μ 2 > 0 H 0 : μ 1 =μ 2 H 1 : μ 1 <μ 2 or μ 1 -μ 2 < 0 [4 Cases] Case1: Two independent populations - population variances are known(i.e., σ 12, σ 22 are known) Case2: Two independent populations - population variances are not known, but assumed to be equal (σ 12 = σ 22 ) Case3: Two independent populations - population variances are not known, and possibly unequal (σ 12 σ 2 2 ) Case4: Two independent populations - the data are matched or paired - 29 -
Case2 와 Case4 의경우가대부분임 μ 1 n 1 X 1 S1 n 2 X 2 S2 σ 1 μ 2 σ 2 population1 sample1 population2 sample2 Case 2 : 1. N 1 >=30 and n 2 >=30 Confidence Interval: (X 1 X 2 ) + Z 1-α/2 S p 1 1 n 1 n 2 Test statistic: Z = (X1 X2) S p 1 1 n 1 n 2-30 -
2. n 1 <30 or n 2 <30 Confidence Interval: (X 1 X 2 ) + t 1-α/2 S p 1 1 n 1 n 2 (X 1 X 2 ) Test statistic: t =, df=n 1 +n 2-2 S 1 1 p n 1 n 2 S p : Pooled estimate of the common standard deviation S p = (n 1-1)s 12 -(n 2-1)s 2 2 n1 + n2-2 예 ) 국립암센터에위암으로수술받은환자들중 290 명을무작위로추출하여그들의체질량지수 (BMI) 를측정함. 이들중남자는 189 명, 여자는 101 명임 μ 1 = 남자의평균 BMI μ 2 = 여자의평균 BMI μ 1 - μ 2 n 1 = 189, n 2 = 109, 가정 : σ 12 = σ 2 2-31 -
tabstat bmi, stats(mean median iqr n) by (sex) Summary for variables: bmi by categories of: sex sex mean p50 iqr N -----------+----------------------------------------------------- men 23.60537 23.3564 4.249172 189 women 24.48381 24.06392 4.511496 101 -----------+----------------------------------------------------- Total 23.91131 23.58387 4.44322 290 ------------------------------------------------------------------ 1) Estimate the μ 1 - μ 2 : 95% 신뢰구간 (X 1 X 2 ) /Z 1-α /2 S p 1/n 1 + 1/n 2 Sp = {(n 1 1)s 12 + (n 2 1)s 22 } /(n 1 +n 2 2) = {(189 1)3.22 2 + (101 1)3.61 2 } /(189 +101 2) = 3.36 Z = 1.96 (23.60 24.48) ± 1.96*3.36 * 1/189 + 1/101-0.88 ± 0.81 (-0.88 0.81, -0.88 + 0.81) (-1.69, -0.07) - 32 -
만약 95% 신뢰구간이 0 을포함하지않으면 H 0 : μ 1 = μ 2 H 1 : μ 1 μ 2 Two-sided test 위의상황에서 H 0 을 α = 0.05 수준에서 reject 하는것과 같은결과임 2) Hypothesis testing for μ 1 - μ 2 i) H 0 : μ 1 = μ 2 H 1 : μ 1 μ 2 => 남자와여자의체질량지수는같지않음 α = 0.05 test statistic : Z Z=(X 1 X 2 ) /S p 1/n 1 + 1/n 2 Decision Rule : Reject H 0 if Z 1.96-33 -
Z = (X 1 X 2 ) /S p 1/n 1 + 1/n 2 = (3.60*24.48)/3.36 (1/189 + 1/101) = 0.88/0.44 = 2.11 Reject H 0 5% 의기각유의수준 (level of significance) 에서남자의평균 BMI 수치가여자의평균 BMI 수치와통계적으로유의하게다름 Two-sample t test with equal variances ------------------------------------------------------------------------------------------------------------- Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] --------------+--------------------------------------------------------------------------------------------- 1 189 23.60537.2344117 3.222628 23.14295 24.06778 2 101 24.48381.3594738 3.612667 23.77062 25.19699 --------------+--------------------------------------------------------------------------------------------- combined 290 23.91131.1986823 3.383438 23.52026 24.30235 -------------+---------------------------------------------------------------------------------------------- diff -.8784394.4145325-1.694337 -.0625418 ------------------------------------------------------------------------------------------------------------- diff = mean(1) - mean(2) t = -2.1191 Ho: diff = 0 degrees of freedom = 288 Ha: diff < 0 Ha: diff!= 0 Ha: diff > 0 Pr(T < t) = 0.0175 Pr( T > t ) = 0.0349 Pr(T > t) = 0.9825-34 -
만약분석하고자하는 variable이정규분포를따르지않고 skewed된분포를가질경우는어떻게할것인가? 1 여러가지의 transformation 기법 ( 예, 로그전환으로변환하여두그룹간의평균값을비교 ) 2 비모수적 (non-parametric) 인방법으로두그룹을비교 ( 예, Wilcoxon rank sum test) 3 범주형변수를만들어 proportion을비교 ( 예, BMI 30 (obese) vs. BMI < 30 (non-obese) 두그룹에서obese의 proportion을비교 ) Case 4: two dependent populations the data are matched or paired 1 한다이어트프로그램이효과적으로몸무게를줄일수가있는가? 2 시간에따른변화 (time1, time2) 3 matched pair case control study(one to one) 예 ) 어느 Weight loss program 의효과를분석하기위하여 10 명을무작위로추출하여먼저그들의몸무게를측정하고 6 주동안의 program 을마친후에또한번그들의몸무게를측정하였다. 그자료는다음과같음 - 35 -
+--------------------------------------------------------+ subject initial final X d = weight weight X before -X after --------------------------------------------------------- 1. 1 64 64 0 2. 2 59 57 2 3. 3 63 60 3 4. 4 57 53 4 5. 5 55 52 3 --------------------------------------------------------- 6. 6 62 54 8 7. 7 65 64 1 8. 8 51 53-2 9. 9 69 62 7 10. 10 72 68 4 +---------------------------------------------------------+ 1) N(#paired) 30, - Estimating for μ d X d ± Z 1-(α/2) s d / n - Test statistic Z = (X d - μ d )/ (s d / n) 2) N(#paired) < 30, - Estimating for μ d X d ± t 1-(α/2) s d / n df = n-1 - Test statistic t = (X d - μ d )/ s d / n df = n-1-36 -
Estimating μ d : 95% confidence interval(α = 0.05) X d ± t 1-(α/2) s d / n X d = 3.0, s d / n = 3.02/ 10 = 0.95 t 1-(α/2), df=9 = 2.262 => 3.0 ± 2.262 * 0.95 => 3.0 ± 2.15 => (3.0 2.15, 3.0 + 2.15 ) => (0.85, 5.15) Hypothesis testing H 0 : μ d = 0 (No change) H 1 : μ d > 0 (Change) μ d = initial weight final weight α = 0.05 Reject H 0 if p-value 0.05-37 -
ttest weight1=weight2 Paired t test ---------------------------------------------------------------------------------------------------- Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ------------+--------------------------------------------------------------------------------------- weight1 10 61.7 2.016873 6.377913 57.13752 66.26248 weight2 10 58.7 1.795364 5.677441 54.6386 62.7614 ------------+--------------------------------------------------------------------------------------- diff 10 3.9545214 3.018462.8407226 5.159277 ----------------------------------------------------------------------------------------------------- mean(diff) = mean(weight1 - weight2) t = 3.1429 Ho: mean(diff) = 0 degrees of freedom = 9 Ha: mean(diff) < 0 Ha: mean(diff)!= 0 Ha: mean(diff) > 0 Pr(T < t) = 0.9941 Pr( T > t ) = 0.0119 Pr(T > t) = 0.0059 ttest change=0 One-sample t test ---------------------------------------------------------------------------------------------------- Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ------------+-------------------------------------------------------------------------------------- change 10 3.9545214 3.018462.8407226 5.159277 ---------------------------------------------------------------------------------------------------- mean = mean(change) t = 3.1429 Ho: mean = 0 degrees of freedom = 9 Ha: mean < 0 Ha: mean!= 0 Ha: mean > 0 Pr(T < t) = 0.9941 Pr( T > t ) = 0.0119 Pr(T > t) = 0.0059 p = 0.0059 < 0.05 결론 : Weight loss program 이효과적임을 α = 0.05 수준에서증명함 - 38 -
감사합니다!!! - 39 -