Anesth Pain Med 2015; 10: 6-15 http://dx.doi.org/10.17085/apm.2015.10.1.6 종설 G Power 소프트웨어를이용한반복측정디자인의표본수산출 중앙대학교의과대학마취통증의학과 강현 Sample size determination for repeated measures design using G Power software Hyun Kang Department of Anesthesiology and Pain Medicine, Chung-Ang University College of Medicine, Seoul, Korea Repeated measures designs are widely used in the field of anesthesiology because they allow the detection of within-person change over time and provide a higher statistical power for detecting differences than a single measure design while reducing the costs and efforts to conduct a study. However, the complex process of calculating the sample size for repeated measures design requires profound statistical knowledge and also programming skills in some instances. In the present article, the author describes 1) the basic statistics for repeated measures design, 2) the explanation for G Power software, and 3) how to calculate the sample size using an example. (Anesth Pain Med 2015; 10: 6-15) Key Words: Received: October 8, 2014. Accepted: December 19, 2014. G Power, Power calculation, Repeated measures design, Sample size determination, Sphericity. 서 모든임상연구자들은임상적으로의미있는연구를올바르게시행하여연구결과가임상에적절히적용되어환자들과의료진에게조금이라도도움이되고자노력한다. 올바른임상연구를시행하기위하여, 우리는연구의가설을설정하고, 계획을세우며, 대상을설정하여연구를진행한 Corresponding author: Hyun Kang, M.D., Ph.D., Department of Anesthesiology and Pain Medicine, Chung-Ang University College of Medicine, 102, Heukseok-ro, Dongjak-gu, Seoul 156-755, Korea. Tel: 82-2-6299-2586, Fax: 82-2-6299-2575, E-mail: roman00@naver.com This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 론 다. 연구대상전체 ( 모집단 ) 를대상으로연구하면, 가설에대한진실을얻을수있지만, 연구대상전체를연구하기는어려우며, 실제로모집단전체를조사하는것은대부분의경우불가능하며또한비효율적이다. 심지어는모집단전체를조사하는경우가표본을조사하는경우보다부정확할경우도있다. 그렇기때문에연구대상전체를대표할수있는표본을뽑아, 표본의자료를분석하여모집단의정보 ( 모수 ) 를추측하는방법을사용하게된다. 이때연구가설및질문에답할수있는적절한표본의수를결정하는것은대단히중요한문제가된다. 많은경우에연구자는자신의임의로, 아니면자원이허락하는범위내에서만표본수를결정하여연구를진행하곤한다. 이는자체로논리적이지못하기도하지만, 윤리적이지못하기도하다. 필요한수이상으로표본수를증가시키는것은시간, 돈, 그리고제한된자원의낭비를초래하며, 연구대상자를필요이상의위험에노출시킬수있다. 또한연구자가연구에서보고자하는평가변수뿐만아니라다른변수까지통계적으로유의하게만들어, 우리가연구에서진실로유효성을평가하고자하는변수가무엇인지밝혀내기어려운일이발생할수있다. 반대로표본수가충분하지않으면연구결과의검정력이충분하게커지지않아의미있는차이를발견하기어려우며, 적절한표본수를가진연구에서시행되었다면유의성이확보되어의료현장에적용될수있었던결과가유의성이확보되지않아의료현장에적용되지않는오류를범할수있다. 연구자들이연구에서얻어내고자하였던질문에대한결과또한신뢰성이떨어지게된다. 따라서연구를진행하는데있어표본수를적절하게산정하는것은연구가비용효과적으로그리고윤리적으로시행되는데있어필수적인요소이며, 연구시행에서보고자했던효과를관찰할수있는기회를늘릴수있다 [1,2]. 마취통증의학과의사들이시행하는연구에는자료들이서로연관되어있으며, 반복적으로측정된자료 (repeated measures data) 를대상으로시행한경우를흔히볼수있다. 이러한자료에는 1) 동일한개체 (subject) 를대상으로시간의진행에따라여러번측정을하는연구, 2) 동일한개체에 6
강현 :Sample size for repeated measures design 7 서각각다른치료를받게한후측정하는연구, 3) 동일한개체에서몸의다른부분에서측정한연구, 4) 각각의사례군 (case) 와대조군 (control) 에서개체를개별적으로짝짓기한연구 (individual matched study) 등이포함된다. 위의예들은연구계획들에있어서로본질적으로다르지만, 모두가지고있는공통점은자료들간에서로연관 (correlated) 되어블록 (block) 을이루고있다는점이다. 블록은시간의진행에따라여러번측정한경우, 여러번다른치료를시행한경우, 몸의다른부분에서관찰한경우에는개체 (subject) 내에서, 개별적으로짝지어진연구에서는사례군과대조군에서의개체간에블록을이루고있다. 측정값이블록을이루고있을경우자료들은블록간보다는블록내에서좀더비슷한양상을보이게된다. 일반적으로결과가한번발생한블록내에서는같은결과가다시발생할가능성이높으며, 블록내의측정된자료들은일정한양상을가지고있을가능성이크다. 예를들어수술후구토가발생한환자에서시간이진행되더라도다시구토가발생할가능성이높으며, 고혈압환자에서측정한혈압은지속적으로높은혈압을가질가능성이크다. 여기에서동일한개체는대상자간에비해비슷한반응을나타낼가능성이높으므로, 반응은연관 (correlated) 되어있다고할수있다. 이와같은연관되어블록을이루고있는자료를수집하는데에는다음과같은중요한장점들이있다. 첫째는동일한개체에서반복되어측정된자료를모으면대상자의수를늘리지않고, 즉표본의수를늘리지않고, 연구의검정력을높일수있다. 이는연구에사용되는비용, 자원및노력의소모를줄일수있게한다. 둘째로주요변수를시간의흐름에따라반복해서수집하는것은개체의시간에따른변화를좀더명확하게평가하게할수있다. 셋째로자료들이연관되어있으므로그자체로혼란변수 (confounding factor) 의영향을줄일수있다. 이렇듯반복되어측정된자료를이용한연구는결과를한번만측정하는연구보다많은이점을가지고있지만, 통계나프로그래밍에대한상당한지식을요구하며, 때로는분석에필요한통계방법에따른표본수산정방법을찾을수없어, 통계를전공하지않은연구자들에게있어표본수의산출은아주어려운일이될수있다. 또한독립적인측정을시행한연구들과는달리동일한개체에서얻어진반복측정된자료들간에는상관관계를가지며, 이러한상관관계는표본수를산정하는데있어반드시고려되어야만한다 [3,4]. 본문헌에서는첫째, 반복측정자료분석에있어표본수산출을위해필요한기본적인통계에대한설명둘째, G Power 프로그램에대한설명, 마지막으로 G Power를이용한반복측정자료를위한표본수산정을예를들어설명 하기로한다. 반복측정자료 (repeated measures data) 의분석을위한통계실험의대상이되는단위를개체 (subject) 라부르고, 동일한개체에대하여 2회이상반복해서측정이이루어지는자료를반복측정자료 (repeated measures data) 라한다. 반복측정을시행한연구에서측정된자료에영향을미치는원인을반복요인이라부른다. 반복요인으로는시간, 용량, 농도, 온도등이있을수있다. 두가지진통제의효과를비교하는연구가있다고가정하자. 임의로집단을나누어한집단은대조군 (control group) 으로약을복용하지않고, 다른집단은실험군 (experimental group) 으로약을복용한후통증을측정하였다고하자. 이경우두집단을구성하는개체들은물론다르다. 이자료를분석할경우, 이표본 t검정 (unpaired t-test) 가적당하다고할수있다. 두가지진통제의효과를비교하는다른연구를생각해보도록하자. 개체들간의통증에는서로차이가있을수있으므로개체내에서진통제의복용전, 후의통증의차이를보는것이더효율적이라생각할수있다. 즉개체간에는통증의차이가존재하므로, 각개체를고정하여연구를진행할경우개체자체가블록의효과를갖기때문에자료들은연관되어있다고할수있다. 이경우약을복용하지않은경우와약을복용한경우는동일한개체에서측정되었으므로독립일수없어대응 t검정 (paired t-test) 로분석하는것이적절하다. 반복이둘인경우는대응 t검정으로분석할수있으나, 반복수준의수가둘을넘어서는경우는반복측정분산분석을시행하게된다. 이것은짝지워지지않은자료에서군이 2개일경우이표본 t검정을사용하고군이둘을넘어서면분산분석 (analysis of variance) 을시행하는것과같은원리이다. 반복측정자료분산분석에서는처리들간의비교에있어개체내변동을분리하여분석하게되어각각의개체가대조그룹 ( 블록 ) 의역할을함으로비교성이높아지는장점을지닌다. 즉개체간의변이를줄이기위해스스로가블록이되는것이다. 따라서반복측정에대한연구를계획할때분산및반복측정된자료들간의상관관계양상을파악하여지정하는것이대단히중요하다. 이를제대로파악하여지정하지못하면표본수및검정력계산뿐아니라결과의분석까지정확하지않게된다. 상관관계의양상은복잡도 (complexity) 의정도에따라 1) 상관관계가없음 ( 독립적관찰 ), 2) 상관관계가동일함, 3) 상관관계내에일정한법칙이있음 4) 일정한양상이없음등의 4가지형태로분류해볼수있다 (Table 1). 독립적관찰
8 Anesth Pain Med Vol. 10, No. 1, 2015 Table 1. Patterns for Correlation 1) None 2) Constant 3) 1 st Order Correlation 4) No pattern 은상관관계가전혀없는것으로, 상관관계를지니고있을것으로생각되는반복측정자료에서는의미가없는경우가많다. 하지만블록의수가반복관찰의횟수보다상대적으로많을때와같이상관관계의영향이무시할수있을정도로작을경우생각해볼수있다. 상관관계가동일한경우는모든측정된자료내에서일정한상관관계를가정하는것으로이때의상관계수를급내상관계수 (intra-class correlation) 이라고한다. 상관관계내에서발생하는일정한법칙의경우이에대한많은모델이발전되어왔다. 이중중가장흔한예는일차자기상관 (first-order autoregressive, AR1) 으로선형자기상관관계의특별한경우라고할수있다. 일차자기상관은시간이지나감에따라, 혹은시간사이의거리의증가에따라반복측정자료간의상관관계가지수함수적으로감소한다는가정을바탕으로한다. 일정한양상이없는경우는자료가어떻게상관되어있는지에대한가정이없으며, 따라서각각의측정사이의상관관계는측정마다다르게나타날수있다. 일정한패턴이없을경우우리는 n (n 1)/2개 (n은측정횟수 ) 만큼의상관관계를측정할필요가있으며, 다양한횟수의관찰이있게될수록상관관계에대한정확한추정은어려워진다. 어떤변수를반복해서측정할경우분산 (variance) 은다양한양상을지닐수있다. 예를들어실험환경에따라서, 혈액내의대사물의농도의분산은시간에따라증가하기도, 감소하기도, 혹은변하지않기도할것이다. 따라서분산을정확하게파악하거나예측하는것이중요하며, 이전의데이터가없어서분산의양상을알수없을경우에는분산의양상에대한가정이필요할수있다. 이들중분산양상에 대한가장간단한가정은반복측정간의동일한분산을가정하는것이다. 반복측정자료의분석방법에는크게두가지접근방법이있다. 첫째방법은정해져있는선형모형에서분석이출발한일변량 (univariate) 분석이고, 둘째방법은다변량 (multivariate) 분석이있다. 두방법의선택은분석에서종속변수의앞서설명한분산과상관관계에의해결정되는분산-공분산행렬 ( 혹은표준편차-상관계수행렬 ) 의형태에대한구형성 (sphericity) 가정에따라달라진다. 구형성가정을만족하면 (mauchly 등의구형성검정등을통해검정가능하다.) 분산-공분산행렬의각요소가동일한값으로표현되며, 통계량 F ( 검정통계량분산비 ) 가해당하는자유도를정확히가지고 F분포하게되어서이경우는일변량분석을시행하는것이더욱적합하다. 반면에구형성가정이만족안될경우일변량분석을행하면통계량 F는정확하게 F분포를따르지않게되어검정력 ( 처리효과에유의한차이가있을경우이를감지해내는능력 ) 이떨어지게된다. 따라서이경우다변량분석을행하게된다. 반복측정자료의분석을위한방법에서다변량분석방법으로는 Pillai의 trace, Wilks의 lamda, Hoeliing의 trace, Roy의최대근 (maximum root) 등이있다. 다변량분석은분산-공분산행렬에대한어떤가정이없이도가능하지만, 개체의수가적은경우는 F의분포의자유도가떨어지게되어검정력이매우떨어지게된다. 따라서구형성가정이만족이되지않더라도, 아주크게벗어나지않는다면어느정도수정을거쳐일변량분석을시행할수있는데, 이에대한대응책으로구형성가정이크게벗어나지않는범위안에서자유도의손실을줄이고일변량분석을행하는 Greenhouse-Geisser, Hyunh-Feldt방법등이있다 [5]. G Power를이용한표본수산정반복측정자료를수집하는연구를계획하고수행하는데있어, 표본수를산정하기위해우리는반복측정자료에대한분석방법에따라다양한표본수산출공식을적용할수있다. 이중에는간단한공식을적용하여계산할수있는경우도있지만, 때로는계획된분석에대한표본수산정및검정력계산에대한입증된공식이없는경우도있다. 이러한경우에는컴퓨터시뮬레이션을시행하여표본수및검정력계산을시행하는수밖에없다. 또한대부분의경우에서계산과정이복잡하여일반적인프로그램으로는계산이불가능하며, 계산이가능한프로그램중에는폭넓은통계에대한이해와소프트웨어의프로그램밍에대한지식을필요한경우들이많다. 아니면상업적프로그램들로값이비싸실제사용이어려운경우가많
강현 :Sample size for repeated measures design 9 다. 저자는폭넓은통계와프로그래밍에대한지식이필요하지않도록 GUI (graphic user interface) 기법이적용된프로그램중에서값이비싸실제사용이어렵지않도록무료로다운받을수있는 G Power (version 3.0) 를이용하여표본수산출및검정력계산에대한과정을보여주고자한다. G Power는다양한통계분석법에대하여사용이간편한표본수산정및검정력계산을쉽게할수있는프로그램이다. 또한 www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3. 에서무료로다운받을수있다. G Power에서는다양한통계학적분석 (F test, t test, χ2 test, Z test와 exact test) 에대한표본수및검정력의계산이가능하다. 일반적으로 G Power를이용한표본수산출및검정력의계산은다음과같은순서로진행한다. 1. 적절한통계학적검정방법을선택한다. 표본수를산정하는데있어첫번째과정중의하나는연구종료후데이터를분석할통계적방법을선택하는것이다. 그리고분석할통계적방법에맞는표본수산출및검정력계산방법을선택하는것이다. 예를들어연구자들이진통제에대한반응을보는연구를시행하는데연령에따른보정을한분석을하기로하였다. 연구자들은연령을공변량 (covariate) 로설정한공분산분석 (analysis of covariance, ANCOVA) 을이용하여분석하기로계획하였다. 이경우계획된분석방법이 t-test가아니기때문에, t-test에근거한표본수산출을하는것은부적절하다. 표본수의산정에이용되는통계방법과데이터분석에사용된통계방법이다르다면표본수가지나치게크거나, 작아지게되며, 이는연구결과를적절하게해석하는일을힘들게만들어, 시험자체를다시시행하는편이낫거나, 종료된연구결과를출판하지못하게하는일이발생할수있다. G Power에서는크게두가지방법으로통계검정방법의선택이가능하다. 1) 분포에근거한통계검정방법의선택 Test family 메뉴를이용하여 Exact, F tests, t tests, χ2 tests, z tests를선택한다. 2) 디자인에근거한통계검정방법의선택 Statistical test 메뉴를이용하여선택한다. 이메뉴는화면의맨위에위치한 toolbar의 test 메뉴에서, 통계학적검정을시행하고자하는변수 (correlation and regression, means, proportions, variance, generic) 와연구의디자인을선택함으로서시행할수있다. 2. 가능한 5가지검정력계산방법중한가지를선택한다. 이과정은구하고자하는변수와주어진변수를고려하여선택할수있다. 이과정은 Type of power analysis 탭을다음 5가지중한가지로선택함으로써선정할수있다. Table 2. Input Parameters for Sample Size Calculation for Repeated Measures Design α err prob Input parmeter Power (1-β err prob) Effect size f Number of groups Number of measurement Corr among rep measures Nonsphericity correction (ε) Explanation The probability for type I error, The probability of reject the null hypothesis when the null hypothesis is true.; usually set at 0.01 or 0.05. The probability of reject the null hypothesis when the null hypothesis is false, 1-β (type II error); usually set at 0.8 or 0.9. Minimum effect size difference to be detected by the investigator Number of groups Number of repeated measurement Correlations among pairs of the repeated measurements Correlation factor (0 ε 1), meet sphericity assumption as ε approach 1 1) A priori ( 검정력 1-β, 유의수준 α, 선별하고자하는모집단의효과크기를이용하여표본수 N을산출함 ) 2) Compromise ( 효과크기, 표본수 N, 오차확률비 q = β/α ( 두오차의상대적심각도를나타냄 ) 를이용하여유의수준 α, 검정력 1-β를계산함 ) 3) Criterion ( 검정력 1-β, 효과크기, 표본수를이용하여유의수준 α, 그리고이와연관된결정 criterion을제공함 ) 4) Post-hoc ( 유의수준 α, 효과크기, 표본수 N을이용하여검정력 1-β을제공함 ) 5) Sensitivity ( 유의수준 α, 검정력 1-β, 표본수 N을이용하여모집단의효과크기를계산함 ) 3. 분석을위해필요한변수를입력하고 calculate를선택한다. 변수는분석의종류에따라달라지나, 반복측정분산분석에서필요한입력변수는 Table 2과같다. 화면의왼편에있는 Determine버튼을누르면, 선택된통계기법에해당되는효과크기를계산할수있는 Effect size drawer 창이열리게되며, 이를통해효과크기를계산할수있다. G Power 를이용한반복측정자료표본수산정의예 저자는반복측정자료의분석에대한가장간단한단변량분석에서부터, 복잡한다변량분석에이르기까지, 표본수및검정력계산과정을통증측정을한가상의연구를예로들어설명을하고자한다. 앞서언급하였듯이단변량분석의시행을위해서는구형성가정을만족한다는가정에만족하여야한다. 구형성가
10 Anesth Pain Med Vol. 10, No. 1, 2015 정은 1) 반복측정된모든자료의분산이동일하고 2) 반복측정된자료들의쌍들사이의상관관계가동일하다는요소를만족한다면, 성립된다. 구형성가정이만족될경우, 다변량분석을시행하는것보다단변량분석을사용하는편이검정력을높일수있다 [6]. 하지만, 구형성가정은매우강력한가정으로, 가정이위반되는경우가흔하며, 가정에대한두가지요소중특히반복측정된자료들의쌍들간의상관관계가동일하다는가정이위반되는경우가흔히발생한다. 예를들어시간이진행됨에따라다섯번반복측정된자료가있다고가정했을때, 첫번째와두번째측정한값들사이의상관계수가첫번째와다섯번째측정한값들의상관관계보다크다는것은거의확실하다고할수있다. 만일구형성가정이위반된다면, F-value 값이커지게되어군내, 군간, 군내-군간의교호작용에있어 1종오류를범 하게될가능성이높아지게된다. 이로인해유의하지않은자료를유의하게잘못분석, 해석하는오류를범하게될수있다. 군내혹은군내-군간의교호작용의분석및해석에서이러한잘못을보정하기위하여 noncentrality parameter와 F- 분포의자유도에 Hyunh 등이제시한상관인자 (correlation factor) ε를곱해줄수있다 [5]. 구형성가정을만족하게된다면 ε = 1이되며, 구형성가정의위배가심해질수록 1 n 1 에접근하게된다 ( 여기에서 n은반복측정횟수를의미한다 ). 따라서반복측정분석에대한표본수산출및검정력계산에있어구형성가정에대한고려는필수적이며, 이에대한고려는계산결과에큰영향을미친다. 단변량분석 G Power는군간, 군내, 군내-군간의교호작용에대한단변량분석에서표본수산정및검정력계산을할수있는매우유사한, 각각의분석에대한별도의방법및과정들을제공한다. 저자는각각의방법에대하여가상의예를들어 G Power를이용한계산과정에대하여설명하고자한다. 1. 효과크기가정해져있는경우 Fig. 1. G Power input window. 두가지진통제가수술후통증에미치는효과를보는연구가있다고가정한다. A라는약은수술후통증의조절을위하여전통적으로사용되어온약이며, B라는약은새로개발된약이라고한다. 두가지약의효과를판정하기위하여, 수술후 2시간, 4시간, 6시간에 100 mm 시각통증점수 (visual analogue scale) 를사용하여통증을측정하기로하였다. 이전의연구에서각시간사이에시각통증점수들사이의상관관계는 0.5였으며, 연구자들은 a =.05, 검정력 80% 를적용하여표본수의계산을수행하고자한다. 만일찾아내고자하는효과크기가알려져있다면이과정은매우쉽게적용할수있다. 본예에서는 Cohen이제시한 F-분포에서중간크기의효과크기 (effect size = 0.25) 를선 Table 3. Formulae for Sample Size Calculation of Repeated Measures Design (Univariate Case) Null hypothesis Effect size Degree of freedom Noncentrality parameter Between effects Within effects Between-within interactions Levels of between factor: k, Levels of repeated measures factor: m, Population correlation among repeated measures: ρ, Nonsphericity correction; ε.
강현 :Sample size for repeated measures design 11 별하기위한표본수를산정하고자한다 [7]. 먼저군간비교에서표본수산출을해보도록하겠다. G Power를연후, Test > Means > Repeated measures, Between factors, ANOVA-approach로들어가면다음과같은화면이나온다 (Fig. 1). 여기에서 Type of power analysis를 A prioir: Compute required sample size-given α, power, and effect size로설정하고, 효과크기 0.25를찾아내기로하였으므로, Effect size f에 0.25를, a =.05로하였으므로, a err prob에 0.05를, 검정력이 80% 이므로, Power 0.8를, A, B 두군을비교하고있으므로, Number of groups에 2를, 2시간, 4 시간, 6시간에 3번측정하므로, Number of measurement에 3 을, 각시간사이에시각통증점수들사이의상관관계는 0.5 였으므로, Corr among rep measures에 0.5를넣고 calculate 버튼을누르면, Total sample size 86이계산된다. 화면의우측에있는 Output parameters에나오는값들은 Table 3에있는공식으로도계산이가능하다. 계산과동시에화면위편에는귀무가설과대립가설의분포와, a, β 오류값, 그리고표본수선정에대한결정을내리는통계값 (critical F) 이나오는그림을출력한다 (Fig. 2). 이도표는마우스의오른쪽을클릭해서복사, 저장, 인쇄가 가능하다. 이도표에서표시된 F = 3.95457이 Output parameters 의 Critical F에도표기됨을확인할수있다. 또한 Protocol of power analysis 탭을누르면, 계산후입력및출력값이자동적으로표기된것을확인할수있다. 이값들또한동일한방식으로저장, 인쇄가가능하다. X-Y plot for a range of value 단추를누른후, Plot창내의 Graph 탭을누르면 X축, Y축의변수, X축의범위, 변수선택값에따른그래프를그릴수있으며, Table 탭을누르면이에대한표를출력할수있다. 다음으로군내비교에서의표본수산출을시행해보도록하겠다. Test > Means > Repeated measures, Within factors, ANOVA approach로들어가면, 군간비교와비슷한화면이나온다. 군간비교의화면과다른점은 Nonsphericity correction ε에해당되는칸이생긴다는점이다. 이수치는앞서언급한상관인자 (correlation factor) 이다. 본예는단변량분석을위한예제로, 구형성가정을한다고생각할것이므로 Nonsphecicity correction ε에 1을삽입하고, 나머지변수들은군간에서의계산과동일하게적용하면 Total sample size가 28명으로계산됨을알수있다. 교호작용에서의표본수산정은 Test > Means > Repeated measures, Within-between interactions, ANOVA approach로들어가서, 군내비교에서와동일한변수를삽입하면, Total sample size가 28명으로계산된다. 2. 효과크기가정해져있지않은경우 Fig. 2. Figure output window. 다음으로위와비슷한연구디자인에서효과크기가정해지지않은경우를생각해보도록하겠다. 실제로대부분의연구에서효과크기가정해져있지않은경우가많으며효과크기가연구에적용될수있는지에대한이론이많다. 따라서임의로효과크기를정할경우이값에대한논리적근거를제시할수있어야한다. 만일선별해내고자하는효과크기가알려져있지않다면, Table 4. The Results of Pilot Test (Univariate Case) 2 hr 4 hr 6 hr μ i ㆍ n i Group A Group B μ ㆍ j 50 45 35 37.5 35 37.5 10 10 20 Values are population mean of VAS for each group and time point. μ iㆍ : means for each group, μ ㆍj: means for each time point, n i: sample size of each group. SR = The symmetric matrices SR specify two different covariance structures between measurements taken at different times. The main diagonal contains the SDs of the measurements at each time, and the off-diagonal elements contain the correlations between pairs of measurements taken at different times.
12 Anesth Pain Med Vol. 10, No. 1, 2015 효과크기는대립가설하에모집단의특성을나타내는변수들로부터구할수밖에없다. 이때연구자들은변수에대한정보를얻어야만되는데, 방법에는 1) 이전연구 (previous study) 에서자료를얻는법, 2) 예비연구 (pilot study) 를시행하는법, 3) 경험에의해얻어지는방법등이있다. 이방법들중이전연구에서자료를얻는경우는, 문헌에서표본수산정을위한충분한변수를얻을수없는경우가많으므로, 연구자들이이전에시행한연구가아니라면, 이전연구에대한문헌의저자들과접촉하여변수에대한정보를구할수밖에없는경우가많다. 본예에서는이전에시행된연구가없었으므로연구진들은표본수의산정을위해두약에서 10명씩을대상으로예비연구를시행하였으며, 결과는 Table 4와같았다고가정한다. 단변량분석의예이므로구형성가정을만족시키기위하여반복측정된모든자료의분산이동일하고반복측정된자료들의쌍들사이의상관관계가동일하다고가정한다. 이를바탕으로군간의차이를선별하기위한표본수를산정하도록하겠다. Test > Means > Repeated measures, Between factors, ANOVA-approach로들어가면 Fig. 1의화면이나오게된다. 이화면에서 Determine 단추를누르면, Effect size drawer가열린다 (Fig. 3). 여기에서평균을알고있으므로, select procedure에서 Effect size from means로설정하고, 군이 A, B 로 2개이므로 Numbers of groups를 2로, 표준편차가 14로동일하므로, SD σ within each group에 14를 A군과 B군의평균이 과 35이고, 10명씩을대상으로하였으므로 Mean에는 과 35을 Size에는 10을넣는다. 이후 calculate and transfer to main windows를 click하면 effect size 0.1786이계 산되어 main 화면으로이동되게된다. 이화면에서 a err prob에 0.05, Power에 0.8를, Number of groups에 2, Number of measurement에 3, Table 4에서각시간사이에시각통증점수들사이의상관관계는 0.5 였으므로, Corr among rep measures에 0.5를넣고 calculate 버튼을누르면, Total sample size 168이계산되어나오게된다. Effect size drawer에서 select procedure에서 Effect size from variance를이용하는방법은다음과같다. A군과 B군의평균은 과 35이며전체의평균은 37.5이므로군간의분산은다음과같다. σ μ 2 = ( 37.5) 2 + (35 37.5) 2 = 6.25 2 여기에서나온값인 6.25를 Variance explained by effect에넣고, Variance within groups에는주어진표준편차가 14이므로 14 2 = 196을삽입한다. 여기에서 calculate and transfer to main windows 버튼을누르면 Effect size from mean에서와동일한 effect size 0.1786이계산되어 main 화면으로이동하게되는것을확인할수있다. 다음으로군내의차이를선별하기위한표본수를산정하도록하겠다. Test > Means > Repeated measures, Within factors, ANOVA approach로들어가서, Type of power analysis를 A priori: Compute required sample size-given α, power, and effect size 로설정하고, Determine 단추를누르면, Effect size drawer가열린다. 여기에서는 From variances와 Direct를선택할수있는데, 이경우분산을알수있으므로 From variances를선택한다. 2 hr, 4 hr, 6 hr에서의평균은 45, 37.5, 이며, 전체의평균은 37.5이므로군내의분산은다음과같다. σ μ 2 = (45 37.5) 2 + (37.5 37.5) 2 + ( 37.5) 2 = 37.5 3 Fig. 3. Effect size drawer.. 여기에서산출된 37.5를 Variance explained by effect에넣고 Variance within group에는주어진표준편차가 14이므로 14 2 = 196를넣는다. 여기에서 calculate and transfer to main windows의단추를누르면 effect size 0.4374이계산되어 main 화면으로이동하게되는것을확인할수있다. a err prob에 0.05, Power 0.8, Number of groups에 2, Number of measurement 3, Corr among rep measures에 0.5를, ε에 1을삽입하고 calculate 버튼을누르면, Total sample size 12가나오게된다. 다음으로군간-군내의교호작용에있어차이를선별하기위한표본수를산정하도록하겠다.
강현 :Sample size for repeated measures design 13 Test > Means > Repeated measures, Within-between interactions, ANOVA approach로들어가서, Type of power analysis를 A prioir: Compute required sample size-given α, power, and effect size로설정하고, Determine단추를누르면, Effect size drawer가열린다. 여기에서는 From variances와 Direct를선택할수있는데, 이경우분산을알수있으므로 From variances를선택한다. 여기에서 μ ij μ iㆍ μ ㆍj + μ ㆍㆍ의분산을계산하면 σ μ 2 = (50 45 + 37.5)2 + ( 37.5 + 37.5) 2 + ㆍㆍㆍ + ( 35 + 37.5) 2 6 = 4.16667 이므로 Variance explained by effects에 4.16667을넣으면된다. 나머지는군내에서표본수를산정하는것과동일한과정을거치면 Total sample size가 8로나오는것을확인할수있다. 다변량분석 G Power는몇가지다변량분석에대한표본수산정을할수있다. 이중 Hotelling T 2 tests는단변량 t test를종속변수가 2회이상측정된다변량분석으로확장시킨형태로, 두개의평균을비교하는대신평균을포함한벡터가비교되며, 평균을비교하는대신, 분산-공분산행렬을비교한다. 이에대한설명은생략한다. 이분석에대한자세한내용은 G Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences를 [8] 참고하기바란다. G Power는단병량분석에서와마찬가지로, 다변량분석에서도군간, 군내, 군내-군간의교호작용에대한표본수산정및검정력계산을할수있는매우유사한각각의분석에대한별도의방법및과정을제공한다. 이경우또한, 이전에시행된연구가없었으므로연구진 들은표본수의산정을위해두약에서 10명씩을대상으로예비연구를시행하였으며, 연구결과는 Table 5과같았다고한다. 이경우는다변량분석의예로, 구형성가정을만족시키지못하고있으며, 반복측정된자료의분산이다르고반복측정된자료들의쌍들사이의상관관계또한다르다. 먼저군간의차이를선별하기위한표본수를산정해보도록하겠다. Test > Means > Repeated measures, between factors, MANOVA approach로들어가서, Type of power analysis를 A prioir: Compute required sample size-given α, power, and effect size로설정하고, Option을 Click하여 Choose Approximation Method창을연다. 여기에서 Effect size calculation에서 use mean correlation in effect size calculation 을해제하고, Approximation에서 Pillai V를선택하고, Algorithm에서 O Brien and Shieh를선택한후 OK를 click한다. a err prob에 0.05, Power 0.8, Number of groups에 2, Number of measurement에 3을넣는다. Determine을 click하면, Effect size drawer가열린다. 여기에서 Select procedure에서 Effect size from mean and cov를선택한다. 우리가표준편차와상관계수를알고있으므로, Input method에서 SD and correlation matrix를선택한후 Specify/Edit matrices단추를누른다. Means tab과 Cov sigma tab에서 Table 2의수치를입력한다. Cov Sigma tab에서는대각선을중심으로대칭이므로상관계수는음영이표시되지않은한쪽에입력하면음영이표시된반대편까지입력이되는것을확인할수있다. OK단추를눌러서 Effect size drawer로돌아온후, Calculate단추를누르면 Effect size f(v) 가 0.2257로계산되어나옴을확인할수있다. 여기에서 Calculate and transfer to main window단추를누른후 Close단추를누른다이후 Calculate단추를누르면 Total sample size가 158이나오는것을확인할수있다. 다음으로군내의차이를선별하기위한표본수를산정하도록하겠다. Test > Means > Repeated measures, Within Table 5. The Results of Pilot Test (Multivariate Case) 2 hr 4 hr 6 hr μ i ㆍ n i Group A Group B μ ㆍ j 50 45 35 37.5 35 37.5 10 10 20 Values are population mean of VAS for each group and time point. μ iㆍ : means for each group, μ ㆍj: means for each time point, n i: sample size of each group. SR = The symmetric matrices SR specify two different covariance structures between measurements taken at different times. The main diagonal contains the SDs of the measurements at each time, and the off-diagonal elements contain the correlations between pairs of measurements taken at different times.
14 Anesth Pain Med Vol. 10, No. 1, 2015 factors, MANOVA approach로들어가서, Type of power analysis를 A prioir: Compute required sample size-given α, power, and effect size로설정하고, Option창과, Effect Size Drawer창에서동일한과정을반복하면, Effect size f(v) 가 0.9096로계산되어나오며, Total sample size 16이나오는것을확인할수있다. 다음으로군간-군내의교호작용에있어차이를선별하기위한표본수를산정하도록하겠다. Test > Means > Repeated measures, Within-between interactions, MANOVA approach로들어가서, Type of power analysis를 A prioir: Compute required sample size-given α, power, and effect size 로설정하고, Option단추를눌러서 Choose Approximation Method창을연다. 여기에서 Approximation에서 Pillai V를선택하고, Algorithm에서 O Brien and Shieh를선택한후 OK단추를누른다. a err prob에 0.05, Power 0.8, Number of groups에 2, Number of measurement에 3을넣는다. Determine 을 click하면, Effect size drawer가열린다. 여기에서 Select procedure에서 Effect size from mean and cov를선택한다. 우리가표준편차와상관계수를알고있으므로, Input method에서 SD and correlation matrix를선택한후 Specify/Edit matrices단추를누른다. Means 탭과 Cov sigma 탭에서 Table 2의수치를입력한다. OK단추를눌러서 Effect size drawer로돌아온후, Total sample size에 20을입력한다. Calculate단추를누르면 Effect size f(v) 에 0.32가계산되는것을확인할수있다. 다음 Calculate and transfer to main window를 Click 한후 Close단추를누른다이후 Calculate단추를누르면 Total sample size가 108이나오는것을확인할수있다. 군간, 군내, 군내-군간교호작용의표본수산정과정모두에서 Effect size drawer에서 Input method에나오는 Variance-covariance matrix를 click하면, Means 탭에서는 SD and correlation matrix에서입력한값들이그대로있는것을확인할수있으며, Cov sigma탭을누르면좌상귀에서우하귀에이르는대각선에서는표준편차-상관계수행렬에서표준편차를제곱한분산이위치하며, 대각선에서벗어난부위에는 Cov(X,Y) = SD(X) SD(Y) Corr(X,Y) (SD: 표준편차, Corr [X,Y]: 상관계수, Cov [X,Y]: 공변량 ) 에서계산된공변량이위치한다는것을확인할수있다. Input method에서 SD and correlation pattern을 click하면, 전체행렬의상관계수를지정할수있으며 Specify/Edit matrices단추를누르고, Cov Sigma탭을누르면 Table 1의 2) 상관계수가동일한경우와같은행렬을이루고있음을확인할수있으며, 1 st autocorr을 click한후 Specify/Edit matrices 단추를누르고, Cov Sigma탭을누르면상관계수의 pattern이 Table 1의 3) 상관계수가동일한경우의 1차자기상관양상을보임을확인할수있다. 앞서설명하였듯이반복측정자료의분석에서구형성에대한가정을고려한분석을시행하는것은대단히중요하다. 다음의세가지경우를비교해보도록하겠다. 한경우는구형성가정을통과하여단변량분석을시행한경우이고, 또한경우는단변량분석이되구형성가정을위반하여이를고려한상관인자 ε를적용한경우이며, 마지막의경우는다변량분석을실시한경우이다. 모든경우에서 Effect size = 0.25, 1종오류 α = 0.05, 총표본수 =, 군수 = 2, 반복측정횟수 = 3, 상관계수 = 0.5으로지정한후 Post hoc 으로검정력을계산하기로한다. 첫번째로, 구형성가정을통과하여단변량분석을시행할경우를보면, Test > Means > Repeated measures, Within factors, ANOVA-approach으로들어가서 Type of power analysis를 Post hoc으로선택한다. 화면에서 Effect size 0.25, alpha 0.05, total sample size, Number of groups 2, Number of measurement 3, corr 0.5으로넣은후구형성가정을통과한다고하였으므로 Nonsphericity ε를 1로지정한다. calculate 단추를누르면 power가 0.87로계산되어나옴을확인할수있다. 두번째로, 구형성가정을통과하지않는경우를보면, Test > Means > Repeated measures, Within factors, ANOVA-approach으로들어가서 Type of power analysis를 Post hoc으로선택한다. 화면에서 Effect size 0.25, alpha 0.05, total sample size, Number of groups 2, Number of measurement 3, corr 0.5으로넣은후, 구형성가정을통과하지않았으므로, 1 ε = (n = 반복측정회수 ) 에서반복측정 n 1 횟수가 3이므로 ε = 1 = 1 이므로 Nonsphericity에 0.5를 ε 1 2 넣으면 power가 0.6297로계산되어나옴을확인할수있다. 마지막으로, 다변량분석을시행하는경우를확인하면, Test > Means > Repeated measures, Within factors, MANOVA-approach으로들어가서 Type of power analysis를 Post hoc으로선택합니다. 화면에서 Effect size 0.25, alpha 0.05, total sample size, Number of groups 2, Number of measurement 3, corr 0.5으로넣은후, calculate 버튼을누르면 Power가 0.8127로나옴을확인할수있다. 여기에서검정력의크기는구형성가정을통과하여단변량분석을시행한경우 > 다변량분석을실시한경우 > 단변량분석이되구형성가정을위반하여상관인자 ε를적용한경우의순임을알수있다. 여기에서확인할수있는점은첫번째로구형성가정을통과할수있다면, 단변량분석을실시하는것이가장검정력이크며, 두번째로구형성가정을위반한경우에는다변량분석을실시하는것이단변량분석에서상관인자로보정한경우보다검정력을증가시킬수있음을알수있다.
강현 :Sample size for repeated measures design 15 결론적으로반복측정자료에대한분석은대상수를늘리지않고, 검정력을늘릴수있으며, 시간의흐름에따른변화를명확하게파악하게하고, 혼란변수의영향을줄일수있는강력한방법이지만, 반복측정자료의분산과상관관계를포함한구형성에대한가정에대한고려를반드시하여야한다. G Power는무료로 GUI로되어있어쉽게사용할수있는소프트웨어로반복측정자료의분석에대한다양한계산방법을제공한다. 그리고연구계획단계에있어구형성가정을확신할수있다면, 단변량분석을이용할것으로계획하는것이검정력을증가시킬수있는방법이지만, 구형성가정을만족할수없다고생각될때에는다변량분석을사용할것으로계획하는것이검정력을증가시킬수있는방법이다. 참고문헌 1. Moher D, Dulberg CS, Wells GA. Statistical power, sample size, and their reporting in randomized controlled trials. JAMA 1994; 272: 122-4. 2. Freiman JA, Chalmers TC, Smith H Jr, Kuebler RR. The importance of beta, the type II error and sample size in the design and interpretation of the randomized control trial. Survey of 71 negative trials. N Engl J Med 1978; 299: 690-4. 3. Guo Y, Logan HL, Glueck DH, Muller KE. Selecting a sample size for studies with repeated measures. BMC Med Res Methodol 2013; 13: 100. 4. Liu G, Liang KY. Sample size calculations for studies with correlated observations. Biometrics 1997; 53: 937-47. 5. Huynh H, Feldt LS. Conditions under Which Mean Square Ratios in Repeated Measurements Designs Have Exact F-Distributions. JASA 1970; 65: 1582-9. 6. O'Brien RG, Kaiser MK. MANOVA method for analyzing repeated measures designs: an extensive primer. Psychol Bull 1985; 97: 316-33. 7. Cohen J. Statistical power analysis for the behavioral sciences (2nd ed): Hillsdale, 1988. 8. Faul F, Erdfelder E, Lang AG, Buchner A. G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behav Res Methods 2007; 39: 175-91.