KJA Korean Journal of Anesthesiology Statistical Round pissn 2005-6419 eissn 2005-7563 Nonparametric statistical tests for the continuous data: the basic concept and the practical use Department of Anesthesiology and Pain Medicine, Seoul National University Bundang Hospital, Seongnam, Korea Conventional statistical tests are usually called parametric tests. Parametric tests are used more frequently than nonparametric tests in many medical articles, because most of the medical researchers are familiar with and the statistical software packages strongly support parametric tests. Parametric tests require important assumption; assumption of normality which means that distribution of sample means is normally distributed. However, parametric test can be misleading when this assumption is not satisfied. In this circumstance, nonparametric tests are the alternative methods available, because they do not required the normality assumption. Nonparametric tests are the statistical methods based on signs and ranks. In this article, we will discuss about the basic concepts and practical use of nonparametric tests for the guide to the proper use. Key Words: Data interpretation, Investigative technique, Nonparametric statistics, Statistical data analysis. Introduction 통계분석은의학논문작성에있어가장중요한부분중하나 로결론의타당성을증명하는보편적인방법이다. 통계분석을통하여아무런의미없는일련의숫자들이비로소그의미를갖게되고, 불확실한사실에대한결론을내릴수있게된다. 따라서통계분석은데이터에생명을불어넣는창조작업인것이다. 하지만, 부적절한통계기법의사용은잘못된결론을내리게되어논문의완성도를떨어뜨리는오류를초래할수있는위험성이있다. Corresponding author:, M.D. Department of Anesthesiology and Pain Medicine, Seoul National University Bundang Hospital, 82, Gumi-ro 173 Beon-gil, Bundang-gu, Seongnam 13620, Korea Tel: 82-31-787-7499, Fax: 82-31-787-4063 E-mail: hiitsme@hanmail.net ORCID: http://orcid.org/0000-0002-5900-7851 Received: December 7, 2015. Revised: December 28, 2015. Accepted: December 28, 2015. Korean J Anesthesiol 2016 February 69(1): 8-14 http://dx.doi.org/10.4097/kjae.2016.69.1.8 더욱이, 근거중심의학 (evidence based medicine) 이중요시되는요즈음에는의학논문의통계적타당성확보는매우필수적이라할수있다. 최근에는통계분석용패키지의비약적발전으로인하여편리하게자료를분석할수있게되었으나, 연구자가통계적인기본개념을제대로이해하지못할경우통계분석용소프트웨어에데이터를입력하고 분석 버튼을눌러 P value 만을계산해내는단순한행동만을실행함으로써잘못된통계분석을시행시행하거나, 분석된결과를올바르게해석하지못하는위험성이커지게되었다 [1]. 의학논문에서의통계적오류를줄이기위해오래전부터대한마취통증의학회지를비롯한각학술지마다학술지의통계오류를파악하는움직임이있어왔다 [2-5]. 그결과많은논문에서다양한통계적인오류가발견되었고, 각학회마다논문저자들과 reviewer들을위한체크리스트혹은가이드라인을마련하여 [6-9] 통계적오류를줄이고, 학술지의질적향상을도모하려는노력을지속하고있다. 학술지의통계적오류를분석한결과를살펴보면, 비모수자료에모수적통계기법을적용한사례가빈번히발생하는오류라고알려져있다 [4,5]. 이는기존의의과대학생과의사들에대한통계교육이주로모수통계를위주로이루어져왔고, 많은통계소프트웨어들이모수통계기법을강력하게지원하기때 CC This is an open-access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/ licenses/by-nc/4.0/), which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. Copyright c the Korean Society of Anesthesiologists, 2016
KOREAN J ANESTHESIOL 문에의학연구자들이비모수통계기법에대해접할수있는기회가모수통계기법에대해상대적으로적었기때문이라고생각된다. 따라서, 이번지면을통하여그동안잘다루어지지않았던비모수통계기법의개념을실례를들어소개하여비모수통계분석에대한이해를높이고자한다. 비모수통계분석의역사 비모수분석방법에대한개념은스코틀랜드의수학자이자의사인 John Arbuthnott에의해 1710년처음소개되었다 [10]. 그는 영국정기성별조사자료를통해살펴본숭고한신의섭리 (An Argument for divine providence, taken from the constant regularity observ d in the Births of both sexes) 라는제목의논문을통해현재의 sign test와비슷한검정방법을사용하여분석을시행하였다. 이후비모수분석법은한동안사용되지않고있다가 1942년 Jacob Wolfwitz가 비모수 (nonparametric) 이라는용어를사용하면서다시등장하였다 [11]. 이후 1945년 Frank Wilcoxon 이현재까지도가장많이사용되는순위를이용한비모수적분석방법을소개하였고 [12], 1947년 Henry Mann과그의제자 Donal Whitney가 Wilcoxon의방법을확장하여집단간표본수가동일하지않은경우에도적용가능한두집단의비교방법을 [13] 발표하였다. 1951년에는 William Kruskal과 Allen Wallis가세집단이상에서의비교를위한순위자료를이용한비모수적검정방법을발표하였다 [14]. 이후비모수분석방법의효율성이모수적방법과큰차이가없다는연구결과들이발표되었는데자료가정규성가정을만족할경우비모수통계분석의점근적상대효율 (asymptotic relative efficiency) 이 t-검정에비해 Wilcoxon s singed rank test와 Mann-Whitney test의경우 0.955이라고알려졌다 [15,16]. 이후 Tukey에의해서비모수적방법으로신뢰구간을계산할수있는방법이소개되어 [17] 비모수분석법이의학을비롯한자연과학분야에서널리사용될수있는토대가마련되었다. 우, 즉한쪽으로치우친형태를갖는집단이나표본이적어어떠한분포를이루는지알수없는경우에는모수통계기법을사용하기어렵게된다. 이러한경우비모수통계분석을실시하게된다. 비모수통계분석에서는원래데이터가갖는값이아닌 +/ 부호 (sign) 혹은데이터크기의순서 (rank) 만을이용하여분석에사용한다는점에서모수통계분석과큰차이가있다. 즉, 자료가갖는값자체보다는자료값의크기의순서에관심을갖는다. 예를들어다음과같이변수 X에 5개의데이터가있다고하자. X 1 X 2 X 3 X 4 X 5 32 47 32 18 99 원래의자료를작은것부터크기순서로나열하면각각의데이터는 1위부터 5위까지의순서를갖게되며, 가장작은 18이 1위가되고, 가장큰 99가 5위가된다. 32는값이두개있으므로이값은 2.5위로간주한다. 또한부호는데이터값이기준값보다 +, 작으면 값을부여하게된다. 위의자료에서기준값을 50으로삼는다면, 10개의숫자중에서 50보다큰것은한개이므로 + 부호가한개, 부호가네개가된다. 따라서모수통계가주로비교하려는집단간평균의차이에관심을두는반면, 비모수통계는자료의값자체가아닌순서에관심을두기때문에평균값이아닌중앙값차이에관심을갖게된다. 이렇듯비모수분석에서는원래의데이터를사용하지않고이를크기순서로전환하여원래데이터가갖는크기 (rank) 혹은부호만을이용하여검정하기때문에원래데이터가갖는정보의손실이일어날수있긴하나, 모집단에대한가정에구애를받지않기때문에자료가정규분포를벗어난경우에는전통적인모수적방법보다더나은검정력을가질수있다. 실제로위의예에서보듯이최대값 99가아무리큰값을갖는다하더라도 rank 혹은 sign 에는영향을미치지못하기때문에극단값의영향이적다는점이비모수분석의특징이다. 비모수통계분석의기본원리 비모수통계분석의장점및단점 의학연구에서많이사용되는 t-test, 분산분석 (analysis of variance) 등과같은전통적인통계방법은모집단이나표본집단의분포에대한가정을필요로한다. 특히즉표본집단의평균이정규분포를한다는정규성가정과비교대상의표본들이추출된각각의모집단의분산은동일하다는가정은모수통계분석을위해반드시충족되어야하는기본전제이다. 따라서모수통계분석에서는위의가정들이충족되었다는가정하에분석을시행하고결과를제시하는것이다. 그러나이러한가정이충족되지않는경 비모수통계기법은다음과같은장점이있다. - 모집단에대한가정이불필요하므로잘못된결론을내릴가능성이적다. 즉, 보수적인방법이다. - 직관적으로이해하기쉽고통계적지식이많이필요하지않다. - 통계량이부호 (sign) 혹은순서 (rank) 에의해계산되므로이상치 (outlier) 에영향을크게받지않는다. - 표본수가적은경우에도사용가능하다. 9
Nonparametric test VOL. 69, NO. 1, February 2016 반면에다음과같은단점도있다. - 분포함수를기술할수없기때문에실제모집단사이에얼마만큼의차이가나는지알수없다. - 모수적방법에비해얻는정보가제한적이고결과해석이어렵다. - 모수적방법에비해다양한분석기법이발달되어있지않다. - 자료가갖고있는정보를충분히이용할수없다. - 표본수가많은경우계산이복잡해진다. 이러한점들을고려해볼때비모수분석방법은모집단에대한가정이필요하지않기때문에잘못된결론을내릴가능성이낮지만, 검정력이떨어진다고요약할수있다. 따라서비모수분석방법은 always valid, but not always efficient 이고, 모수적분석방법은 always efficient, but not always valid 라고요약할수있다. 따라서모수적분석이가능한경우에는모수적분석방법을사용하는것이더추천된다. 비모수통계분석의종류 단일집단의중위수검정, 짝지은두집단의비교, 독립된두집단의비교, 셋이상의집단의비교에대해서기술하고자한다. 비모수분석기법의종류와그에해당하는모수분석기법은 Table 1에정리하여놓았다. 단일집단에서의중위수검정 : 부호검정과윌콕슨부호순위검정단일집단에서의중위수검정에서는부호검정 (sign test) 와윌콕슨의부호순위검정 (Wilcoxon s singed rank test) 가사용될수있다. 이검정은주어진자료가중위수 ( 기준값 ) 보다큰지작은지를비교하는방법이다. 부호검정 (sign test) 부호검정은일표본위치문제에대한비모수검정중에서가 장간단한검정방법이다. 부호검정은모집단의중위수 θ 0 에대한가설검정으로, 귀무가설 H 0 : θ = θ 0 가설을검정하게된다. 중위수 θ에대한검정은관측치 (X i ) 가기준치 (θ 0 ) 보다클경우 + 로표시하고, θ 0 보다작은경우는 로표시하여 + 값을갖는표본의개수를구하여검정을시행한다. 표본중에서기준값 (θ 0 ) 과같은관측값이있는경우그관측값은표본에서제외시키고표본크기를그개수만큼줄인후에부호검정을실시한다. 이때 + 값을갖는표본의개수를 B로표시하며, 이를부호통계량 (sign statistic) 이라고부른다. 만약, 귀무가설이참이라면 + 부호와 부호의개수가동일해진다. 부호검정에서는실제데이터가갖는값을무시하고단지 +/ 부호만을이용하므로수치측정이어려운경우에매우유용하다. 윌콕슨의부호순위검정 (Wilcoxon s singed rank test) 앞에서기술한부호검정은주어진자료를 θ 0 와비교하여 +/ 부호만을사용하였기때문에정보의손실이크다는단점이있다. 따라서이를보완하기위하여부호순위검정에서는 θ 0 보다크고작음뿐만아니라, 상대적인크기도고려하여검정을실시한다. 윌콕슨의부호순위검정은부호검정에서관측치의부호만을이용함으로써생기는정보의손실을줄일수있어검정력이더높다는장점이있다. 분석과정에서표본중 θ 0 와동일한관측값이있을경우, 그관측값을표본에서제외시키고표본의크기를그개수만큼줄이는것은부호검정과동일하다. Table 2에서와같이다섯개의자료 (X i ) 가있는하나의집단에서이집단의중위수 (θ 0 ) 가 50 인지여부를검정한다고가정하자. 이경우각각의데이터에서 θ 0 를뺀값 (R i = X i θ 0 ) 을계산하고절대값을취한후작은값부터순서대로순위를매기면, 순위는 Table 2의괄호안의값과같다. 이때윌콕슨부호순위검정통계량은양의값을갖는순위만을더하여계산하며이를수식으로표현하면다음과같다. W + = ΣΨ i R i Ψ i = { 1 (R i > 0 일때 ) 0 (R i < 0 일때 ) Table 1. Analogue of Parametic and Nonparametric Tests Parametric tests Nonparametric tests One sample One sample t-test Sign test Wilcoxon s signed rank test Two sample Paired t-test Sign test Wilcoxon s signed rank test Unpaired t-test Mann-Whitney test Kolmorogov-Smirnov test K-sample Analysis of variance 2 way analysis of variance Kruskal-Wallis test Jonckheer test Friedman test Table 2. Examples of Sign Test and Wilcoxon s Singed Rank Test for One Sample Data +/ compared to 50 R i = X i 50 Rank X 1 X 2 X 3 X 4 X 5 47 3 (1) 55 + 5 (2) 34 16 (4) 26 14 (3) 99 + 49 (5) Let the median (θ 0 ) is 50. The original data were transformed into rank and sign data. +/ mean X i > 50 and < 50 respectively. The round bracket means rank. 10
KOREAN J ANESTHESIOL 짝지은집단의비교 : 부호검정 (sign test) 와윌콕슨부호순위검정 (Wilcoxon s singed rank test) 부호검정 (sign test) 앞서기술한단일검정법에서는주어진자료와중앙값 (θ 0 ) 을비교하였지만, 짝지은집단의비교에서는처치전후의점수를비교한다는점만이다를뿐나머지내용은동일하다. 부호검정에서는전후점수차이의 rank를사용하지않고 +/ 의부호의개수만고려하여분석한다. 부호검정은부호만을사용하기때문에일반적인경향에서크게벗어난극단값의영향을별로받지않는다. 따라서주어진자료가갖고있는정보를충분하게이용하지못하기때문에두집단의차이의크기에대한정보를제공하지못하고, 단지두집단의차이의방향에대한제한된정보만을제공한다는단점이있다. 윌콕슨부호순위검정 (Wilcoxon s singed rank test) 이방법은 paired t-test의비모수적방법에해당한다. 앞에서기술한단일검정법에서는주어진자료와중앙값 (θ 0 ) 을비교하였지만, 짝지은집단의비교에서는처치전후의점수를비교한다는점만이다를뿐이다. 이방법은 paired t-test의비모수적방법에해당한다. Table 3 에서와같이교육전후점수를비교하는짝지은다섯개의자료 (X ij ) 의예를살펴보기로하자. X 1j 는 j번째학 생의 pre socre를의미하고 X 2j 는교육을실시한후 j 번째학생의 post score라고하면, 먼저교육전후의점수의변화 (R j = X 1j X 2j ) 를계산한다. 이후 R j 를절대값크기순서대로배열하면그순위 (rank) 는 Table 3 의괄호안의값과같다. 이후윌콕슨검정통계량을계산하는방법은 + 부호인순위합을합하여계산하며, 이는단일표본에서의경우와동일하다. 귀무가설이참이라면음의부호를가진순위합과양의부호를가진순위합이거의비슷하게된다. 부호검정은짝을이루고있는점수들사이에점수변화정도를반영하지못한다는단점이있는반면, 윌콕슨부호순위검정에서는차이의방향만을고려하는것이아니라, 두점수사이의변화정도에순위를매김으로써더많은정보를활용할수있어부호검정에비해더큰검정력을갖는다. 독립된두집단의비교 : 윌콕슨의순위합검정 (Wilcoxon s rank sum test), 맨-휘트니검정 (Mann-Whitney test), 콜모로고프-스미르노프검정 (Kolmogorov-Smirnov test) 윌콕슨의순위합검점과맨-휘트니검정윌콕슨순위합검정은자료를모두섞어순서대로배열하여순위를매긴후, 각집단별자료의순위를합친순위합 (rank sum) 을계산하여순위합의차이가있는지비교하는과정을거친다 (Table 4). Table 3. Example of Wilcoxon s Singed Rank Test for the Paired Sample X i1 X i2 X i3 X i4 X i5 X 1j (pre scores) 33 28 33 33 40 X 2j (post scores) 34 33 30 39 42 R j = X 1j X 2j 1 5 3 6 2 Rank (1) (4) (3) (5) (2) W + = 3 W = 12 (1 + 4 + 5 + 2 ) Under the null hypothesis (no difference between the pre/post scores), test statistics (W +, the sum of the positive rank) would be close to 7.5 (= ), but get far from 7.5 when the alternative hypothesis is true. According to the table for Wilcoxon s rank sum test, the P value = 0. 1363 when test statistics (W + ) 3 under α = 0.05 (two tailed test) and the sample size = 5. Therefore, null hypothesis cannot be rejected. Table 5. Example and Process of Mann-Whitney Test Group X 18 21 15 30 25 Group Y 20 11 16 14 Number of X > Y 3 4 2 4 4 Number of X < Y 2 0 1 0 U X 3 + 4 + 2 + 4 + 4 = 17 U Y 2 + 0 + 1 + 0 = 3 U Min (U X, U Y ) = 3 There are two independent groups with the sample sizes of group X (m) is 5 and group Y (n) is 4. Under the null hypothesis (no difference between the 2 groups), the test statistics (U) gets closer to 10 (= ), but gets more extreme (smaller in this example) when the alternative hypothesis is true. The test statistics of this data is U = 3, which is greater than the reference value of 1 under α = 0.05 (two tailed test) at m = 5 and n = 4. Therefore, null hypothesis cannot be rejected. Table 4. Examples and Process of Wilcoxon s Rank Sum Test Group X 18 21 15 30 25 Group Y 20 11 16 14 Data from group X & Y 11 14 15 16 18 20 21 25 30 Rank (group) 1(Y) 2(Y) 3(X) 4(Y) 5(X) 6(Y) 7(X) 8(X) 9(X) W X 3 + 5 + 7 + 8 + 9 = 32 W Y 1 + 2 + 4 + 6 = 13 There are two independent groups with the sample sizes of group X (m) is 5 and group Y (n) is 4. Under the null hypothesis (no difference between the 2 groups), the rank sum of group X (W X ) and group Y (W Y ) would be close to 22.5 (=, but get far from 22.5 when the alternative hypothesis is true. According to the table for Wilcoxon s rank sum test, the P value = 0. 0556 when test statistics (W Y ) = 13 under α = 0.05 (two tailed test) at m = 5 and n = 4. Therefore, null hypothesis cannot be rejected. 11
Nonparametric test VOL. 69, NO. 1, February 2016 만일두군사이의점수가비슷하다면두군의순위합은비슷하게되지만, 어느한쪽의점수가다른군의점수에비해높거나낮아서한쪽으로치우치게되면두군의순위합은차이가커지게된다. 이에비해 Mann-Whitney test에서는 X group에속하는모든자료 x i 와 Y 집단의모든자료 y i 를모두일대일로모두비교하여 x i 가 y i 보다클확률, 즉, P(x i > y i ) 을계산한다. 귀무가설하에서 P(x i > y i ) = P(x i < y i ) = ½이성립되지만, 대립가설하에서는 P(x i > y i ) ½이된다. 맨휘트니검정과정은 Table 5에서예를들어제시하였다. 맨휘트니검정과윌콕슨의순위합검정은계산과정상약간의차이가있긴하지만, 결국에는동일한통계량을사용한다는점에서동일한분석방법으로여겨지고있다. 콜모로고프-스미르노프검정 (K-S검정) K-S검정은정규성여부를살펴보는데많이이용되고있으나원래는독립된두집단의누적분포가동일한지알아봄으로써두집단이동일한분포를가진집단, 혹은동일모집단으로부터추출되었는지검정하는방법이다. 만일, 두집단이동일한모집단으로부터추출되었다면, 두집단의누적분포는동일한형태를지닐것이다. 반대로, 두집단의누적분포가다른양상을보인다면두집단은서로다른모집단으로부터추출되었다고추정할수있다. 실제분석을위해서는 Table 6의예를들어보자. 독립된두집단의비교를위해서는우선두집단자료의분포양상을파악해야한다. Table 6의두집단의자료를살펴보면최소값이 50, 최대값이 93으로범위가 43이다. K-S 검정에서는구간을어떻게나누느냐에따라검정력이영향을받게되는데, 구간을너무넓게설정하면, 구간의개수가적어져검정력이약해질수있고, 구간의범 위를너무좁게설정하면구간의개수가너무많아져계산과정이복잡해지는단점이있다. Table 6의자료는범위가 43이므로구간의범위를 4로설정하고구간의수를 11개로설정하여계산해보도록하자. Table 6에서와같이두독립표본의각구간에대한누적확률분포표를작성한후누적확률분포표에서두변수누적분포사이의편차가가장큰값을찾아야한다. 이최대거리가검정통계량이된다. 이최대거리를기준값과비교하여두집단의동질성여부를검정한다. 실제분석과정은 Table 6에예를들어기술하였다. 독립된 k 집단의비교 : 크루스칼-왈리스검정 (Kruskal- Wallis test) 과존키어검정 (Jonckheere test) 크루스칼왈리스검정 크루스칼-왈리스검정은분산분석의비모수적기법에해당한다. 즉, 셋이상의독립된집단의중앙값의차이가있는지여부에대한분석방법이다. 크루스칼-왈리스검정에서원래의데이터값에순서를매기는방법은맨-휘트니검정에서와동일하다. 즉, 각집단의데이터를모두모은후점수의크기순서에따라작은값부터순위를매기고, 동일점수가존재하면원래부여되어야할순위들의평균순위를사용한다. 이후각집단에속한자료들의순위합을구하고다음과같이크루스칼-왈리스검정통계량 (H) 을계산한다 [14]. H = 3(N+1) (R j = 각집단의순위합 ) N = (n j = 각집단의표본수, k = 집단수 ) Table 6. Example and Process of Kolmogorov-Smirnov Test X Y Interval Frequency of X S X Frequency of Y S Y S X S Y 53 88 50 53 3 3/15 1 1/15 2/15 87 84 54 57 2 5/15 0 1/15 4/15 71 72 58 61 1 6/15 0 1/15 5/15 64 91 62 65 1 7/15 0 1/15 6/15 78 89 66 69 3 10/15 1 2/15 8/15 (Max difference) 66 68 70 73 1 11/15 3 5/15 6/15 52 73 74 77 0 11/15 1 6/15 5/15 54 52 78 81 1 12/15 0 6/15 6/15 50 71 82 85 1 13/15 2 8/15 5/15 91 93 86 89 1 14/15 4 12/15 2/15 55 87 90 93 1 15/15 3 15/15 0/15 86 92 69 76 82 72 68 86 There are two independent groups with the sample sizes of group X (N X ) and group Y (N Y ) are 15. The maximal difference between the cumulative probability density of X (S X ) and Y (S Y ) is 8/15 (0.533), which is greater than the rejection value of 0.467 under α = 0.05 (two tailed test) at N X = N Y = 15. Therefore, there is a significant difference between the group X and group Y. 12
KOREAN J ANESTHESIOL Table 7. Example and Process of Jonckheere Test Group X 9 13 14 18 Group Y 12 16 17 19 20 Group Z 15 21 23 25 26 Number of [X < Y] (U XY = 15) 5 4 4 2 Number of [Y < Z] (U YZ = 21) 5 4 4 4 4 Number of [X < Z] (U XZ = 19) 5 5 5 4 J = U XY + U YZ + U XZ + 15 + 21 + 19 = 55 P (J 55) = 0.037 The test statistic J = 55 and P (J 55) = 0.035. Therefore, the null hypothesis (τ 1 = τ 2 = τ 3 ) is rejected and the alternative hypothesis (τ 1 τ 2 τ 3, with at least strict inequality) is accepted under α = 0.05. 존키어검정대립가설을설정할때일반대립가설보다는사전정보 (prior information) 를이용하여순서대립가설을설정하는경우보다높은검정력을가질수있다. 즉처치의정도를높임에따라처치효과의순서를예상하는경우를생각해보자. 예를들어진통제의효능을평가할겨우대조군, 소량투여군, 대량투여군으로나누어연구를진행한다면투여량에따라서효과가증가할것이라고예상할수있다. 이경우귀무가설 H 1 보다는 H 2 형태의귀무가설이더나은형태가된다. H 0 : [τ 1 = τ 2 = τ 3 ] H 1 : [τ 1, τ 2, τ 3 not all equal] H 2 : [τ 1 τ 2 τ 3, 적어도하나의부등식은절대적 (with at least strict inequality)] 이와같은순서대립가설을검정하기위한비모수적방법으로존키어검정을사용할수있다 [18]. 존키어검정의실제분석과정은 Table 7에예를들어기술하였다. Conclusion 비모수검정과모수검정, 무엇을사용할까? 질병의치료에한가지방법만이있는것이아닌것처럼, 통계분석에도유일한한가지방법만이있는것은아니다. 정규성가정이명백히위배되는경우에는비모수분석법을사용하는것이올바른분석방법이겠지만, 단순히 sample size가작다는이유로비모수분석법을고집할필요는없다. 비모수분석방법을사용할경우모수적기법에비해검정력이떨어지고독자들의이해를쉽게해주는 95% 신뢰구간 을구하기어렵다는단점이있기때문이다. 경우에따라서모수적검정방법이더유의한결과를나타낼수도있고, 비모수적방법이더유의한결과를나타낼수도있다. 이때검정방법의선택은연구자의주장을가장잘뒷받침하고독자들의이해를쉽게할수있는분석방법을사용하는것이좋다. 다만, 모수적검정방법을사용하기위해서는그에대한가정이충분히충족되었는지충분한근거가있어야한다. 만일그렇지못하다면비모수적방법을사용하는것이타당하다. 비모수분석방법은 always valid, but not always efficient 이고, 모수적분석방법은 always efficient, but not always valid 이기때문이다. References 1. Rosenbaum SH. Statistical methods in anesthesia. In: Miller s Anesthesia. 7th ed. Edited by Miller RD. Philadelphia, Elsevier Inc. 2010, pp 3075-86. 2. Ko H, Kwak IY, Kim KW, Ham BM, Choe IH. Statistical methods in the articles of the journal of the Korean society of anesthesiologists from 1981 to 1990. Korean J Anesthesiol 1993; 26: 22-7. 3. Hwang K, Lee HJ, Kim YJ, Lee SI. Statistical errors in papers in the journal of Korean society of plastic and reconstructive surgeons. J Korean Soc Plast Reconstr Surg 2001; 28: 302-9. 4. Yim KH, Nahm FS, Han KA, Park SY. Analysis of statistical methods and errors in the articles published in the Korean journal of pain. Korean J Pain 2010; 23: 35-41. 5. Ahn W. Statistical methods in the articles in the Korean journal of anesthesiology published from 1994 to 1998. Korean J Anesthesiol 2000; 39: 706-11. 6. Altman DG, Gore SM, Gardner MJ, Pocock SJ. Statistical guidelines for contributors to medical journals. Br Med J (Clin Res Ed) 1983; 286: 1489-93. 13
Nonparametric test VOL. 69, NO. 1, February 2016 7. Gardner MJ, Machin D, Campbell MJ. Use of check lists in assessing the statistical content of medical studies. Br Med J (Clin Res Ed) 1986; 292: 810-2. 8. Ahn YO, Lee HK. Development of a checklist for assessing the metholological and statistical validity of medical articles. Korean J Med Educ 1991; 3: 19-35. 9. Lee S, Kang H. Statistical and methodological considerations for reporting RCTs in medical literature. Korean J Anesthesiol 2015; 68: 106-15. 10. Arbuthnott J. An argument for divine providence, taken from the constant regularity Observ d in the births of both sexes. Philos Trans 1710; 27: 186-90. 11. Wolfowitz J. Additive partition functions and a class of statistical hypotheses. Ann Math Stat 1942; 13: 247-79. 12. Wilcoxon F. Individual comparisons by ranking methods. Biometrics Bulletin 1945; 1: 80-3. 13. Mann HB, Whitney DR. On a test of whether one of two random variables is stochastically larger than the other. Ann Math Stat 1947: 18: 50-60. 14. Kruskal WH, Wallis WA. Use of ranks in one-criterion variance analysis. J Am Stat Assoc 1952; 47: 583-621. 15. Hodges JL Jr, Lehmann EL. The efficiency of some nonparametric competitors of the t-test. Ann Math Stat 1956: 27: 324-35. 16. Chernoff H, Savage IR. Asymptotic normality and efficiency of certain nonparametric test statistics. Ann Math Stat 1958: 29: 972-94. 17. Tukey JW. Bias and confidence in not-quite large samples. Ann Math Stat 1958; 29: 614. 18. Jonckheere AR. A distribution-free k-sample test against ordered alternatives. Biometrika 1954; 41: 133-45. 14