의학보건학통계분석워크샵첫시간강의용 - 순천향대학교의과대학 의료정보학교실 & 의료 IT 공학과 교수안재억 통계문의관련이메일 mediclspss@naver.com 010-9400-9472 http://cafe.naver.com/medicalspss Http://fb.com/jaeoukahn
저자소개 순천향대학교의과대학 예방의학교실전문의 서울대학교보건대학원역학 (Epidemiology) 전공 의학보건학통계분석 - SPSS Workshop (1998 ~ 현재 ) 현재소속은순천향대학교의료과학대학의료 IT 공학과
목적및현황 대학 & 3 차병원전임의 & 조교수들의통계학공부어떻게시작할것인가? 진급을하려면 SCI 논문필수 Journal Review 를하거나, 논문사독해주려면통계학지식필요 병원 EMR 등으로관찰적연구를위한자료는매우풍부해지고얻기쉬워짐 예과 2 학년때배운통계학은대부분수학과에서가르쳐기억도안나고
예방의학실습때예방의학교수님이열심히가르쳐준곳도있지만, 임상과목과국시준비로잊혀지고.. 전공의수련하고군의관갖다오고, 내인생이어떻게되는지미지수였는데, 대학병원전임의들어가야할상황이거나, 전임강사, 조교수..3 차병원.. 여기까지 수련의시절해보지않았고관심도없었던분야인데안하면안되는상황에직면 더욱이개업가상황이불투명
의학통계학워크샵 시작이반이다.. 어디까지배울것인가? 맨마지막페이지 어디까지강의로배우고, 그다음은무슨책으로어떻게혼자공부할것인가?
의학보건학통계분석시험문제 (SPSS Multiple Quiz Bank) https://www.facebook.com/groups/medicalspssquiz
Association of Coronary CT Angiography or Stress Testing With Subsequent Utilization and Spending Among Medicare Beneficiaries JAMA, November 16, 2011 Vol 306, No. 19
Statistical Analysis
Effect of an Implantable Gentamicin-Collagen Sponge on Sternal Wound Infections Following Cardiac Surgery A Randomized Trial
the 2 study groups were analyzed with 2-sided X2 testing that used data from across all sites after checking for treatment site interaction. For all secondary efficacy and subgroup analyses, a nominal P value of less than.05 (2-sided) was adopted to indicate statistical significance, and the results were considered descriptive. Descriptive statistical comparisons between the treatment groups were performed using the X2 test or the Fisher exact test as appropriate for the categorical secondary efficacy end points. The t test or Wilcoxon rank sum test were used as appropriate for comparison of continuous secondary efficacy end points. The log-rank tests were used to compare the time to first sternal wound infection between the 2 study groups. Kaplan-Meier survival curves of time to first sternal wound infection also were presented.
최근 5 년간내과학회지통계 ( 총 240 편 ) 모수적통계분석 (Parametric) T-test (Student,Unpaired,Independent) Paired-T test (Dependent) 논문편수 비모수적통계분석 (Non-Parametric) 128 Mann-Whitney U test 8 Wilcoxon rank test signed ANOVA test 33 Kruskal-Wallis test Correlation (Pearson) Chi-square test (Pearson) 31 Spearman correlation 140 Fisher s exact test 논문편수 34 9 10 10 42
최근 5 년간내과학회지통계 ( 총 240 편 ) 모수적통계분석 논문편수 Repeated Measures ANOVA 4 Regression analysis 22 Logistic Regression analysis (Odds Ratio) 40 McNemar test 3 ROC Curve (Sensitivity, Specificity) 17 Survival analysis 32
네이버카페 : 의학보건학통계분석
자료, 정보, 지식 자료 (data) By me : 관찰이나실험에의해 즉자료는인간행위를하는모든이가창출 정보 (information) By data : 자료를통해문헌으로만들어짐 정보는지식이아님. 신뢰성확신? ( 골다공증 Breast Ca) 지식 (knowledge) By article : 수많은논문을통해책으로발표
호르몬제복용유방암환자에 258 억원승소평결 호르몬대체제를복용한뒤유방암에걸린미국의한여성이제약사들을상대로낸소송에서 2 천 700 만달러 ( 한화 258 억원상당 ) 의승소평결을받았다. 미국아칸소주의연방법원배심원단은 6 일유방암환자도너스크로긴이호르몬대체제가유방암발병의위험을증대시킨다는점을충분히고지하지않았다며제약사인와이어스와업존을상대로낸소송에서이같이평결했다. 배심원단은지난달에도이들제약사에게징벌적배상책임을물어스크로긴에게 275 만달러를지급하도록평결을내렸었다. 스크로긴의법정대리인인조에리틀페이지변호사는 이번평결은아칸소주뿐만아니라전국의여성들에게큰의미있는승리 라고말했다.
조선일보에서검색
그림 1.1 자료와정보와지식의관계환자또는생물학적과정은자료를생성하며, 자료는임상의사에의해관찰되어진다.
인간은지식을공부하는데대학시절을모두보냄 Epidemiology SPSS & R, SAS.. 40 여가지 Data 를모으기위해서 DBMS 필요 - Data 가해석되려면역학 & 통계적지식과자료처리를위해통계프로그램이사용되어져야함. 자료를분석하여논문을작성하는것은정보를만드는것이지지식이되는것이아님.
보건의료의컴퓨터응용수준을체계화 6 가지수준의모델로제시복잡성수준또는인간의개입의존수준을체계화하여, 보건의료분야의컴퓨터응용을구조적으로나타냄
통계기초자료 (data) page10 생의학적인관점에서볼때자료는변수 (variable) 와사례 ( 事例 : case) 의집합. 관찰된변수 (variable) 는 4 가지특성 명목척도 (Norminal): 남, 녀 / 조직소견 1/2/3 순위척도 (Ordinal): Grade 1,2,3,4 간격척도 (Interval): 순위와비의중간개념 비척도 : 정확한 0 의개념및가감승제가능
Data in SPSS or Excel
Data Scale in SPSS
자료의기원 연구방법에따라 Observational study ( 관찰적연구 ) Case report Case series report Case Control study Cross sectional study Cohort study Experimental study ( 실험적연구 ) ( 본인이얻은자료가어디에속하는지파악하셔야함 )
연구방법에따른자료의최소수 Observational study ( 관찰적연구 ) Case report : data 최소 1-2 개증례보고 Case series report : data 10~20 임상적고찰 Case Control study : data 20~30 환자대조군 ( 로지스틱회귀분석을하려면 200~300) Cross sectional study : 적어도 1,000~2,000 Cohort study : data 최소 1000-2000 + Time( 생존분석등 ) Experimental study ( 실험적연구 ) -(Paired or 반복측정분산분석 )
자료의표현 기술적통계 ( 단일변수 ) 명목, 서열변수는 : 빈도 간격, 비척도는 : 중심값 ( 평균 ) & 산포도 ( 표준편차 ) 140 성별 30 신장 120 100 20 빈도 80 60 40 20 0 표준편차 =.46 평균 = 1.31 N = 190.00 빈도 10 0 186.0 182.0 178.0 174.0 170.0 166.0 162.0 158.0 154.0 150.0 146.0 142.0 표준편차 = 8.71 평균 = 167.2 N = 190.00 1.00 1.50 2.00 성별 신장
자료의표현 기술적통계 ( 단일변수 ) 명목, 서열변수는 : 빈도 간격, 비척도는중심값 ( 평균 ) & 산포도 ( 표준편차 ) 분석통계 (2 변수이상의비교 ) 평균치비교 빈도비교 두연속변수비교 Risk factor 추정 (O.R-Binary Logistic Regression)
자료의비교 (Comparison of Data) 분석통계 (2 변수이상의비교 ) 평균치비교 (T-Test, ANOVA, ANCOVA) 두연속변수비교 ( 상관, 회귀 ) 빈도비교 ( 교차분석 - 카이제곱검정 ) 연구분야에따라 Risk 추정 : 질병의위험요인폭로비폭로연구시 민감도, 특이도계산 : Screening 검사연구시 비교를하여야 Data 에서 Information 을유추할수있음.
Table 1 은 T-Test or ANOVA and Chisquare test
비교후통계 (p) 사용이유 자료에서정보를유추하는과정에서확률론적인오류를최소화하기위해, 확률값을첨부 천안주민 10 명 GOT 값이 23±10 서울주민 10 명 GOT 값이 28±8 이므로서울살면간기능검사인지오티의값이높다 ( 믿을만한정보인가?) 믿지못하겠다면몇명쯤조사하면믿겠는가? 왜믿지못하는가?
천안 서울 P-value GOT (n=10) 23±10 28±8? GOT (n=100) 23±10 28±8? GOT (n=1,000) 23±10 28±8? GOT (n=10,000) 23±10 28±8? GOT (n=100,000) 23±10 28±8? 표에적절한통계검정을하여 P-value 를첨가하는이유는?
천안주민 10 명조사 B 형간염항원양성 3 명서울주민 10 명조사 B 형간염항원양성 6 명이므로서울살면 B 형간염항원에걸릴확률이 2 배높다. 1. 나는위자료가우리학회지에실린정보이므로믿는다. 2. 정보로서채택하기가좀그렇다. 3. 그럼몇명이나검사해보면정보로서채택하겠는가? 그럼이값에적합한확률적검정방법은?
이예는왜그럴듯할까? 3 년간 S 대병원에입원했던소아 ABC 특이뇌암환자가 10 명이있었는데이들에게서특이 abc 유전자를갖은환자는 3 명뿐이었습니다. 대조군으로선택한일반소아환자 10 명에서는이유전자의양성자가 6 명이어서아마도이소아 ABC 특이뇌암의원인은특이 abc 유전자의결여로오는것으로추정되었다. 소아뇌암 10 명 ABC 유전자양성 3 명소아위암 10 명 ABC 유전자양성 6 명 앞의예제와차이점은무엇인가?
P =? 동전을던져앞면이나올확률은? 주사위를던져 1 이나올확률은? 주사위를 2 개던져 1 과 5 가나올확률은? 내가산로또가일등으로당첨될확률은? 위확률은계산기로아래는통계프로그램으로 GOT (n=100) 23±10 28±8 : 이값이우연에의한차이가아니라고할수있는확률을 Gosset 이만든 t 검정으로구하여확률값을제시해보시오? 모든학회지는이 P-value 를적어야한다. 왜 (Why)??? 안달면안돼???
SPSS 일단같이화면띄우면서강의.. 논문속의통계표 PPT File 실제논문도같이화면에띄움 책예제파일준비시킴
SCI(E) 전쟁을위해당신이선택해야할것은? SCI(E) 는 P 를아주좋아합니다 SPSS 제 1 추천 한가지라도제대로 ( M 16) EXCEL 자료입력시 (?) 기초통계 Medcalc (SPSS 계산안되는몇몇처리 ROC) SigmaPlot, Stata ( 그래픽 Good) R & SAS 예방의학전문의나보건통계학자, 연구원 ( 임상의사에겐적합치않음 ) R 이무료라는이유도사용량증가하나임상의사에게는글쎄? 총알이있어야논문을쓰지.
기초공부 ( 인강 )
Parametric 1. T = T Test = Student T test = Independent T Test 2집단의평균치비교 2. P = Paired T Test = Dependent T Test 3. A = Anova = Oneway ANOVA (Analysis of Variance) 3집단이상에서평균치비교 4. CR = Correlation & Regression 두연속변수의연관성 5. COS = Chi-square test / Odds Ratio / Sensitivity & Specificity 6. 두범주형변수의관련성 / 위험비산출 / 진단검사에서의 1 차검사의민감도, 특이도 Non-Parametric 1. M = Mann-Whitney (Wilcoxon rank sum) 2. W = Wilcoxon signedrank or Sign test 3. K = Kruscal-Wallis 4. S,K = Spearman & Kendall 5. F = Fisher's Exact test
M16 총은있으나 총알없으면? M16 은? 총알을 M16 장착 훌륭한총알만많으면총싸줄사람은많음.
연구자료코딩 ( 총탄장전 ) 1. 기존전산화된자료를얻어와 SPSS 자료로변환하는방법 기존자료는 SPSS 에서사용되는포멧이아니므로다른 DB 포멧을변환하는방법공부 전산과직원에게의뢰, 또는 doctor@sch.ac.kr 2. 처음부터종이로된문서에서자료를얻어 SPSS 나기타 DB 프로그램에입력시키는방법 환자챠트, 설문조사자료, 실험실자료 1+2 ( 가장완벽한자료 )
3. 엑셀등에서설문형태로만들어이메일로전달 - 직접입력 - 이메일로받는방법 ( 예 - 다중지능설문파일 - 세로를가로로바꾸는 SPSS Transpose 명령어사용 ) 4. 웹으로설문형태로입력받는방법 5. 기타.. 결론은완벽한파일만든후분석시작
자료코딩시주의할점 ( 특히엑셀 )
직접코딩시주의할점 ( 특히엑셀 )
글로쓴데이터는정보변환?
전자의무기록은이런코딩방지
혼자공부하려면 연구방법론 SCI(E) 급의논문을쓰려면연구방법론책도 2-3 권정도차분히읽으셔야함.. 의학연구방법론 Youtube & Googling 통계프로그램설명서 - 한나래출판사 1. 의학보건학통계분석 2. 임상자료의분석, 생존자료분석 - 송경일 3. 의학통계의이해 유근영
Statpages.org : Link All
워크샵하는곳 : 1 년에 1~2 회 장단점소개 한국역학회 : 중급이상 보건정보통계학회 SPSS 회사 안재억교수워크샵 Café.naver.com/medicalspss
수강후한말씀먼저읽고
나보다먼저공부하고간경쟁자찾아보고
좋은총알이어디에숨어있나찾아보시기바랍니다 통계문의연락 : 010-9400-9472 카톡이제일빨라요. (Fb.com/jaeoukahn) 빨리가려면혼자가고, 멀리가려면함께가라.. 다음 PPT File 은논문속의표형태공부
대학에계시면진급해야하니논문많이쓰는비법 혼자열심히잘쓴다 ( 훌륭하신분 ) 통계나연구방법론에박식하여이쪽저쪽도움주고끼어들어간다 ( 더훌륭한분 )