연세대학교의과대학연구부 BCU letter 제 3 호 September 2012 Biostatistics Collaboration Unit E-Mail: mrss@yuhs.ac TEL: 02-2228-2585 편집인 : 김현창발행인 : 윤주헌 이번소식지에는일본 Kobe 에서개최된국제의학통계학회인 IBC 2012 참석후기와 BCU 에서지원하여 2012 년 8 월 Stroke 지에출판된논문의이용후기및지원후기를실었습니다. Basic Biostatistics note 에서는표준편차 (SD) 와표준오 차 (SE) 를소개하였고 Hot issue in Clinical Research 에서는 ROC curve 를설명하였습니다. IBC 2012 참석후기 강대용박사 ( 연세의대, BCU) 지난 2012년 8월 26일부터 31일까지일본 Kobe에서제26차 International Biometric Conference (IBC) 가개최되었다. 이학회는 Statistics in Medicine, Biometrics, Biometrika 등의통계방법론관련연구논문을발표하는전세계의생물 / 의학통계학자들이 2년마다만나는알찬학문적교류의장이다. 6일동안총 520명이참석하였다. 지리적으로가까운한국리저널에서는아쉽게도생물통계연구회회원 30명이참석하였다. 특히이번컨퍼런스에서는 생존분석 과 임상시험 에관련된다양한세션을준비하여발표및토의가이루어졌다. 최근임상연구에서많이사용되고있는통계방법에대한 Short Courses (One day full) 개설로학회는시작되었다. Group Sequential and Adaptive Methods for the Design of Clinical Trials Joint Modeling Approaches in Longitudinal Studies Using Random Effects Clinical Trial Data Analysis Using R Identifying Genes for Complex and Mendelian Traits Using Next Generation Sequence Data 비용과시간이부담되어듣지는못했지만어떤내용인지궁금하여프로그램내용으로아쉬움을달랬다. 20년전 'weighted Kappa statistics' 를가르쳐주신파리 6대학 Mary 교수님을만났다. 오랜만에불어도하고다시학생으로돌아간기분이었다. 너무나많은세션들이동시에진행되었지만 생존분석 관련세션에는늘만원이라서서들을정도로인기가높았다. 책에서나접할수있는생존분석의대가들이직접좌장, 발표는물론열띤토의까지하는모습들이매우인상적이었다. 아래의유익한세션을소개한다 ( 웹사이트에접속하면발표자료의초록을다운받아볼수있다 ). The landmark approach to event history analysis (Houwelingen 교수, Leiden University) Interval Censoring (Turnbull 교수, Cornell University) Competing Risks (Keiding 교수, University of Copenhagen) 제27차 IBC 2014는이태리피렌체에서 2014년 7월 6일부터 14일에개최될예정이다. 언젠가서울에서도개최되길바라면서한국생물통계연구회회원은물론임상연구에 advanced, extended 통계적방법이필요한연구자들의많은참여와관심이있기를기원한다. ( IBC 2012, 상세보기및초록다운로드 : http://www.secretariat.ne.jp/ibc2012/programme.html )
BCU 이용후기및지원후기 뇌경색은우리나라에서단일질환제1의사망원인이며특히, 고령층에서발병률이높은매우중요한건강문제이다. 다행히뇌경색으로인한사망률은급성기치료의발달과고혈압과같은위험인자조절로최근 10년사이에크게감소하고있다. 뇌경색환자의적절한치료를위해서는뇌경색의발병기전과위험인자에대한검사가중요하다. 뇌경색의기전은동맥경화성, 심인성, 소공경색등이있으나, 약 40% 의환자에서는그기전이잘밝혀지지않는다. 기전이밝혀지지않는이유로는검사를하였으나특별한원인을발견하지못한경우, 두신경과학교실가지이상의원인을발견한경우, 그리고충분한검사를하지않은경우가있다. 지금까지남효석뇌경색연구에서는이렇게원인이뚜렷하지않은환자를제외하고분석한연구가대부분이었다. 본연구에서는뇌경색원인검사가뇌경색의기전을밝혀줄뿐아니라장기사망률에도영향을준다는사실을확인하고자하였다. 10년동안연세뇌졸중데이터베이스에등재된 3278명을대상으로장기간추적조사한자료를분석한결과, 37% 의환자에서뇌경색의원인이뚜렷하지않았다. 이중, 뇌경색원인검사를받지않은환자군에서 3개월예후가좋지않았다 (49.6% vs 24.5%; P<0.001). 추적기간동안 781 (23.8%) 명이사망하였으며, 전체환자에서 30일사망률은 3.8%, 1 년사망률은 10.5%, 3년사망률은 18.4% 이었으나, 뇌경색원인검사를받지않은환자군에서는 30일사망률, 12.7%, 1년사망률 25.5%, 3년사망률 35.7% 로사망률이 2~3배가량높았다. 일반인구에서나뇌경색환자에서나사망률은성별과나이에따라서크게달라지기때문에이를보정한분석이필요하였으며, 특히뇌경색환자가일반인구집단에비하여얼마나사망률이높은지를보여줄수있는방법을찾기위하여의과대학연구부통계지원실에자료분석과해석에대한자문을구하였다.
예방의학교실, BCU 김현창 이연구는장기간뇌경색환자를장기간추적조사하여환자의예후관련요인을밝히는전형적인환자코호트연구로볼수있다. 많은수의뇌경색환자를진단시부터표준화된방법으로자료를수집하고사망여부를장기간추적관찰한데이터베이스가구축되어있기때문에환자의예후및예후관련요인을평가할수있었다. 이미연구부통계지원실 (BCU) 의이혜선조교가일차상담및분석을수행하여뇌경색의발병기전별로구분한 6개그룹의생존곡선을그리고, 생존분석을통하여 6개그룹간사망위험도를비교하였다. 여기에더하여일반인구집단에비하여사망률이얼마나높은지를전체환자는물론, 6개그룹각각에대하여평가할수있는방법이있는지를문의하여연구자와몇차례논의를거쳐추가분석을수행하였다. Figure 2. Kaplan Meier survival curve and Cox regression survival curve according to the stroke subtypes. 성별, 연령등이서로다른인구집단들간에질병발생률, 유병률, 사망률을비교하려면무엇보다성과연령의차이를 보정하는것이중요하다. 그방법으로크게직접표준화방법 (direct standardization) 과간접표준화방법 (indirect standardization) 이있는데, 이번연구에서는간접법을쓰기로하였다. 그이유는전체뇌경색환자 3278 명중 3 년동안 사망이 547 건발생하여비교적큰자료로보이지만, 이를다시 6 개그룹으로나누어보면가장작은그룹의경우는 94 명의환자중 3 년동안사망은 9 건에불과하다. 이처럼표준화하고자하는대상인구의수 ( 또는관찰사건수 ) 가충분치 않은경우에는, 연령과성별의차이를보정하기위하여여러셀로나누면각셀에해당하는숫자가매우작아져서직 접법으로표준화한정보는매우불안정한값이된다. 이런경우간접표준화방법을사용하는것이더유리하다. 간접 법은표준인구에서의특수사망률 ( 이경우는통계청사망자료에서구한우리나라전체인구의성별, 연령별사망률 ) 을연구대상집단의 ( 이경우는뇌경색환자 6 개그룹 ) 연령성별구조를가정하였을때기대되는사망수를계산한후 에실제각그룹에서실제관찰된사망수와비교하는것이다. 최종결과물은실제관찰사망자수를기대사망자수로 나누어서구하는표준화사망비 (standardized mortality ratio) 로표현하며, 1 보다크면연구대상집단의사망률이표준인 구보다높다는것을의미한다. Table 3. Population-adjusted standardized mortality ratio and rate* Subgroup Observed Expected Standardized mortality rate, Number of Standardized mortality ratio* number of number of per 100,000 person-years patients deaths deaths estimate 95% CI estimate 95% CI All 3278 547 242.17 2.26 2.08 to 2.45 41.0 35.0 to 47.3 LAC 489 25 36.80 0.68 0.45 to 0.99 9.2 15.8 to 0.3 CE 682 190 40.07 4.74 4.10 to 5.45 109.3 90.6 to 130.1 LAA 811 139 70.90 1.96 1.65 to 2.31 37.0 25.2 to 50.3 SOD 94 9 1.89 4.76 2.32 to 8.74 32.0 11.3 to 65.9 UM 349 59 30.74 1.92 1.47 to 2.46 36.9 19.0 to 58.5 UN 696 70 51.59 1.36 1.07 to 1.70 11.3 2.1 to 22.4 UI 157 55 10.19 5.40 4.11 to 6.97 136.6 96.5 to 185.6 환자군과일반인구의비교, 환자군과다른환자군의비교, 또는환자군내에서서브그룹간의비교연구에서연구대상 자수가충분치않은경우는간접적인방법으로성, 연령등의차이를보정하는것도유용한방법이될수있다.
Basic Biostatistics Note 표준편차 (Standard Deviation) 와표준오차 (Standard Error) SD (Standard Deviation, 표준편차 ) vs. SE (Standard Error, 표준오차 ) SD 모집단을대표하는표본을뽑았을때, 그표본자료를요약하는지표중하나로써, 표본자료의값들이표본평균으로부터얼마나떨어져있는지를측정하는척도이다. 예를들면, 표준편차가클수록자료는표본평균으로부터멀리산포되어있고, 작을수록근처에밀집되어있다고말할수있다. SE 통계분석의목적은모집단을표본을통해추정및검정하는것이다. 모든모수의추정에는필연적으로오차가수반되는데, 이를표준오차라고한다. 즉, 모수의추정량의정확성을나타내주는척도이다. 예를들면, 표본평균의표준오차가크다면, 표본평균이모집단의평균과상당한차이를가진다는의미이다. SD와 SE의표기예시 Table 1. Baseline characteristics (n = 328) Characteristics Mean ± SD Age (yr) 61.5 ± 7.1 Height (cm) 157.4 ± 4.7 Weight (kg) 56.8 ± 7.4 Body mass index (kg/m 2 ) 22.9 ± 2.8 Table 2. Linear regression analysis β (SE) P-value Lumbar spine BMD Age -0.34 (0.001) < 0.001 Weight 0.32 (0.005) < 0.001 egfr 0.13 (0.015) 0.031 β, regression coefficient; SE, standard error. Hot Issue in Clinical Research ROC (Receiver Operating Characteristic) curve 한경화 ( 연세의대, BCU) 정의 ROC curve는 Receiver Operating Characteristic curve의줄임말로진단방법의유용성을평가하는방법으로널리사용되고있다. 진단결과가이분형인경우사용할수있는진단방법의유용성평가지표는다음과같다. 민감도 (Sensitivity): 질병을가지고있는사람이진단에서양성의결과를얻을확률 특이도 (Specificity): 질병을가지고있지않은사람이진단에서음성의결과를얻을확률 양성예측도 (Positive predictive value: PPV): 진단결과양성인사람이실제로질병을가지고있을확률 음성예측도 (Negative predictive value: NPV): 진단결과음성인사람이실제로질병을가지고있지않을확률 정확도 (Accuracy): 진단결과와질병유무가일치할확률 ROC curve는진단결과에따라민감도 (sensitivity) 와특이도 (specificity) 의변화를평면상에표현한것이다. 따라서, 진단결과가이분형인경우뿐만아니라 5점척도로평가된질병의중증도와같은순위형이거나혈압또는병변의크기와같이연속형인경우에도그기준을바꿔가며민감도와특이도를계산하면 ROC curve를그릴수있다. 적용가능한경우 ROC curve 아래의면적 (AUC, area under the curve) 으로질병유무에대한변별력을평가할수있고, 1에가까울수록좋은진단방법이라할수있다. 따라서 AUC의비교를통해둘이상의진단도구간의질병유무에대한변별력을비교및평가할수있다. 또한, ROC curve는질병유무에대한기준점이알려져있지않은주요인자에대해민감도와특이도를최적화시키는 cut-off point를찾아내기위해이용할수있다. 비교분석방법 각지표들의두집단간비교는서로독립적인두집단에시행한경우에는 Chi-square test나 Fisher s exact test를, 두가지진단검사를동일한대상에대해수행한경우에는 McNemar s test 나 logistic regression with GEE(Generalized Estimating Equation) approach로분석할수있다. AUC의경우에는서로독립적인두집단에시행한경우에는 z-test를, 두가지진단검사를동일한대상에대해수행한경우에는 Delong et al.(comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics 1988;44:837-845.) 이제안한비모수적방법으로비교분석할수있다.
분석가능한 Software SAS, SPSS, MedCalC, R software등으로가능하다. 단, SPSS로는 AUC의비교분석이불가능하다. 확장개념 생존시간과생존여부를고려한 Time-dependent ROC curve, 여러평가자가여러진단도구를이용하여평가한경우에쓰이는 MRMC (Multi-Reader Multi-Case) ROC curve 등이있다. 논문사례 Hong et al., Analysis of Tumor Markers in the Cytological Fluid Obtained from Computed Tomography-Guided Needle Aspiration Biopsy for the Diagnosis of Non-small Cell Lung Cancer. J Thorac Oncol., 2011;6: 1330 1335. Figure1 은 Tumor marker 인 CYFRA 21-1, CEA, SCC 의 malignant lesion 진단에대한 ROC curve 를그린결과이다. 논문에서는각 marker 의 accuracy 가최대가되는경우를 cut-off value 로계산하였고 AUC 는각각 0.8660, 0.8626, 0.6803 으로계산되었다. 더나아가이들간에유의한차이가있는지검정하는분석도가능하다 ( 결과생략 ). 다음호의 Basic biostatistics note 주제는정규성검정 (Normality test), Hot Issue 주제는다중비교 (Multiple Comparison) 를다룰예정입니다.