The Korean Journal of Applied Statistics (2013) 26(6), 889 902 DOI: http://dx.doi.org/10.5351/kjas.2013.26.6.889 Comparison of Goodness-of-Fit Tests using Grouping Strategies for Multinomial Logit Regression Model Mi Kyung Song a Inkyung Jung a,1 a Department of Biostatistics, Yonsei University College of Medicine (Received July 11, 2013; Revised October 2, 2013; Accepted October 15, 2013) Abstract Several goodness-of-fit test statistics have been proposed for a multinomial logit regression model; however, the properties of the proposed tests were not adequately studied. This paper evaluates three different goodness-of-fit tests using grouping strategies, proposed by Fagerland et al. (2008), Bull (1994), and Pigeon and Heyse (1999). In addition, Pearson (1900) s method is also examined as a reference. Simulation studies were conducted to evaluate the four methods in terms of null distribution and power. A real data example is presented to illustrate the methods. Keywords: Multinomial logit regression, goodness-of-fit test, grouping strategy, null distribution. 1. 서론로짓회귀모형은범주형자료형태의종속변수와범주형또는연속형독립변수들간의관계를나타내어주는방법으로여러다양한연구분야에서사용된다. 특히의학연구에서는종속변수가범주형인자료가많이존재하며, 때로는연속형자료를범주화하여결과를해석하고자하는노력도이루어지고있다. 과거에비해점차다항종속변수에대한관심이늘어나고있는추세인데, 이러한자료의분석을가능하게해주는것이다항로짓회귀모형이다. 그러나다항로짓회귀모형의적합정도를판단하는데사용되는분석방법은아직구체적으로연구되어있지않다. 본연구에서는다항로짓회귀모형의적합성을평가하기위해기존에제시되어있는적합도 (goodnessof-fit) 검정방법들중그룹화전략 (grouping strategy) 을이용한방법들에대하여확인, 비교, 평가하고자한다. 기준으로써로짓회귀모형의적합성을판별하기위해일반적으로사용되는피어슨 χ 2 통계량, Hosmer와 Lemeshow (1980) 의방법과피어슨 χ 2 통계량을이용한 Fagerland 등 (2008) 의 C g 통계량, Hosmer와 Lemeshow (1980) 의예측확률로부터그룹화하는전략을확장하여얻어진 Ĉ 통계량 (Bull, 1994), 피어슨 χ 2 통계량의과소산포 (underdispersion) 를보정한 J 2 통계량 (Pigeon과 Heyse, 1999) 을고려한다. 이때종속변수의범주수와그룹의수, 독립변수의수를다르게설정한후, 자료에맞는적절한모형을적합시킬때각통계량들은자신의귀무분포를따르게된다는성질을이용하여, 모의실험으로얻어지는통계량값들의귀무분포와저자들이제시한분포를비교하고자한다. 또한같은상황속에서적절하지않은회귀모형을적합시켰을때, 각방법들이이를얼마나잘판별하는지알아보고자한다. 1 Corresponding author: Assistant Professor, Department of Biostatistics, Yonsei University College of Medicine, 50 Yonsei-ro, Seodaemun-gu, Seoul 120-752, Korea. E-mail: ijung@yuhs.ac
890 Mi Kyung Song, Inkyung Jung 2절에서는본연구에들어가기에앞서다항로짓회귀모형에대한간단한이론을언급한다. 또한본연구에서사용되는네가지검정통계량에대한이론적배경및각통계량들에대한식을제시한다. 3절에서는 2절에서소개한네가지방법들을비교, 평가하기위한모의실험설계방법및결과를제시한다. 4절에서는대뇌미세출혈자료에대하여그룹화전략을이용한세가지방법을적용한결과를비교, 평가한다. 마지막으로 5절에서는결론및고찰을제시한다. 2. 이론적배경 2.1. 다항로짓회귀모형 로지스틱회귀모형이란이항자료의종속변수와이를설명해주는독립변수사이의선형적인관계를보기 위해사용되는방법이다. 이러한로지스틱회귀모형에서종속변수가이항이아닌다항으로확장된경우 를다항로짓회귀모형이라고한다. 종속변수 Y 가명목형형태인 0 에서 c 1 까지의가능한 c 개의범주를가지며 p 개의독립적인예측변수 x = (x 1, x 2,..., x p) 가있다고하자. 이때기준범주를 Y 가 0 일때로놓으면, 기준범주에대한 j 범주 의로짓함수는식 (2.1) 과같다. [ ] P (Y = j x) g j(x) = ln P (Y = 0 x) = β j0 + β j1 x 1 + β j2 x 2 + + β jp x p, j = 1, 2,..., c 1. (2.1) 식 (2.1) 처럼명목형종속변수에대한로짓모형은임의로한기준범주에대한나머지각범주와의짝을 지어로짓을정의하며, 이는기준범주에비해 j 범주에속할확률을로짓을통해선형함수로연결한다. 이러한로짓함수를이용하여조건부 x 에대한각종속변수의범주에속할다항확률은식 (2.2) 와같이 정의된다. P (Y = 0 x) = P (Y = 1 x) =. P (Y = c 1 x) = 1 1 + e g 1(x) + e g 2(x) + + e g c 1(x) e g 1(x) 1 + e g 1(x) + e g 2(x) + + e g c 1(x) e g c 1(x) 1 + e g 1(x) + e g 2(x) + + e g c 1(x). (2.2) 이를크기가 n 인독립적인표본에대하여고려해보면, 위에서언급했던표기를 (x i, y i ), i = 1, 2,..., n 과같이나타낼수있는데, 여기서 i 번째개체가 j 번째범주에속하는경우관측치 y ij 는 1 의값을가 지며, 그외의범주에속할경우 0 의값을갖는다. 또한 i 번째개체가 j 번째범주일예측확률 (ˆπ ij) 은 얻어진각범주에대한로짓함수를이용하여구하게된다. 이때, 실제얻어지는종속변수및예측확률은 c개의범주에대한합이모두 1이되어야하는제약조건을만족해야하는데, 즉, c 1 j=0 yij = 1과 ˆπij = 1이성립해야함을의미한다. c 1 j=0 2.2. 모형적합도검정통계량 관심있는종속변수와이에영향을줄것이라예상하는독립변수들간의모형식을구축하였을때, 그 회귀모형식이자료를반영하는적절한모형인지를판단하는것이모형의적합도검정이다. 이절에서
Comparison of Goodness-of-Fit Tests using Grouping Strategies 891 Table 2.1. Observed (O kj ) and estimated (E kj ) frequencies using grouping strategy 그룹 Y = 0 Y = 1 Y = c 1 관측기대관측기대 관측기대 1 O 10 E 10 O 11 E 11 O 1,c 1 E 1,c 1 2 O 20 E 20 O 21 E 21 O 2,c 1 E 2,c 1.............. g O g0 E g0 O g1 E g1 O g,c 1 E g,c 1 는다항로짓회귀모형에관한기존검정통계량들중그룹화전략을이용한방법들을소개하고자한다. 여기서그룹화전략이란 Hosmer와 Lemeshow (1980) 가고안한방법으로, 각개체에대한효과를보는것이아니라여러개체들을그룹으로묶어그그룹들의효과를보는것이다. 그룹화전략을통해형성된자료구조는 Table 2.1에나타내었다. 종속변수가다항인경우에는특정한기준이따로존재하지않으며다양한그룹화전략이존재한다. 이때, 각칸에들어갈관측빈도수와기대빈도수는식 (2.3) 과같이나타낼수있다. O kj = y lj, E kj = ˆπ lj (2.3) l Ω k l Ω k 여기서 k = 1, 2,..., g, j =, 1,..., c 1이며, Ω k 는 k 그룹에속한 n/g개의개체자료를의미한다. 2.2.1. Pearson의방법피어슨 χ 2 통계량은피어슨의곱적률상관계수 (product-moment correlation) 로알려져있으며, Karl Pearson이 1900년에제안한것이다. 이는대부분의적합도검정예를들어, 한모형을다른추가적인효과를가지는모형과비교하거나, 가지고있는자료에맞는모형을선정하는경우에주로사용되는방법이다. 이통계량역시실제관측빈도수와기대빈도수를이용한방법이며, 이에대한식은 (2.4) 와같다. n c 1 X 2 (y ij ˆπ ij ) 2 =. (2.4) ˆπ ij i=1 j=0 이는보통자유도 n(c 1) 을갖는카이제곱분포를따르며, 산출되는기대빈도수가너무작을경우, 언급된카이제곱분포를잘따르지않는경향이있다. 2.2.2. Fagerland와 Hosemer, Bofin의방법여러그룹화방법들중 Fagerland 등 (2008) 이제시한것은예측확률들의합즉, c 1 j=1 ˆπij = 1 ˆπi0 을이용하여그룹을형성하는방법이다. 예를들어, 만일 g개의그룹이있다면첫번째그룹은가장작은합의값을갖는 n/g만큼의개체데이터가포함되 고, 두번째그룹은그다음작은합의값을갖는 n/g 만큼이포함되게되는형태로, 여러범주를모두이 용하여그룹을나누는방법이다. 이와같은그룹화방법과식 (2.3) 의관측빈도수, 기대빈도수에대한 피어슨 χ 2 통계량식을이용하면식 (2.5) 와같은식을얻을수있다. C g = g c 1 (O kj E kj ) 2 k=1 j=0 E kj. (2.5) 이통계량의분포는근사적으로자유도 (g 2) (c 1) 을갖는카이제곱분포를따르는것이모의 실험을통하여확인되었다. 이검정통계량은종속변수가이항자료인것에대하여분석할경우 Hosmer 와 Lemeshow (1980) 의방법에비해검정력이비교적높지않다는단점을가지고있으며, 또한검
892 Mi Kyung Song, Inkyung Jung 정에사용되는그룹의수에다소의존하는경향이있다는점이제기되어있다 (Hosmer 와 Hjort, 2002; Fagerland 등, 2008). 2.2.3. Bull의방법 Bull (1994) 은 Hosmer와 Lemeshow (1980) 의그룹화전략을확장한것을다항로짓회귀모형에대한총괄적인적합도검정방법으로써제시하였다. 여기서 Hosmer와 Lemeshow (1980) 의그룹화전략의주된방법은예측확률을이용하여개체들을그룹화하는것으로이를통해통계량값을얻는다. 이러한그룹화전략은두가지로나뉘는데, 하나는순서대로해당그룹에 n k = n/g (k: 그룹 ) 만큼할당시키는것으로, 한범주의예측확률을정렬시켜그순서대로각그룹에할당시키는방법이다. 다른하나는 k/10 (k: 그룹 ) 절사점 (cutpoints) 을이용하는것으로, 역시한범주의예측확률을이용하여그값을절사점으로나누어그룹을할당시키는방법이다. 이러한그룹화전략을통해식 (2.3) 에나와있는관측빈도수와기대빈도수를이용하여얻어지는검정통계량은식 (2.6) 과같이정의한다. g c 1 (O kj E kj ) 2 Ĉ =. (2.6) E kj k=1 j=0 위의식은근사적으로자유도 g(c 1) 2를갖는카이제곱분포를따르게된다고언급되어있다. 그러나이통계량의경우는이항로짓회귀모형에서의모의실험에대한결과만이제시되어있고, 다항로짓회귀모형의상황에대해서는확인되지않았다. 이방법역시종속변수가다항일경우에는그룹화방법에대한명확한기준을제시하고있지않으며, 어떤기준을세우느냐에따라결과값에약간의차이를보일수있다는맹점이있다. 기존의연구결과에서종속변수의각범주에속할예측확률을기준으로삼을수도있으며, 관심있는공변량을기준으로세우는것또한유용한방법이라고언급되어있다 (Pigeon과 Heyse, 1999). 따라서본연구에서는그룹화의기준을독립변수로설정하고자한다. 2.2.4. Pigeon 과 Heyse 의방법 Pigeon 과 Heyse (1999) 의 J 2 통계량은로짓회귀모형에서일반적 으로사용되는적합도검정방법인피어슨 χ 2 통계량을보정한것이다. 피어슨 χ 2 통계량은각개체들 이각종속변수의범주에속할서로다른확률을가지는경우카이제곱분포를잘따르지않는다. 또한피어슨 χ 2 통계량의경우각범주의관측빈도수 O j 의분산인 n i=1 ˆπ ij(1 ˆπ ij ) 이다항분포를가정하였을때얻어지는분산인 n π j (1 π j ) 보다더작기때문에 ( π j = n i=1 ˆπ ij/n), 다항분포의상황에서산포가더작게추정되는경향이있다. 따라서 J 2 통계량은개체마다종속변수에속할확률이다를수도 있는상황에대하여확장하였으며, 피어슨 χ 2 통계량의분모에과소산포를보정해줄수있는가중치를 부여하여다항분포상황에대한문제를해결하였다. 이통계량은각그룹의변동을보정해주는문제를 해결해주어, 다항로짓회귀모형상황에서정확하지않았던그룹을나누는기준에대한효과를줄일수 있다는장점을가지고있다. 이통계량을다항로짓회귀모형의적합도검정방법으로확장하기위하여 Hosmer 와 Lemeshow (1980) 의그룹화전략을적용한식은다음과같다. J 2 = g c 1 k=1 j=0 (O kj E kj ) 2 ϕ kj E kj, ϕ kj = n g i=1 ˆπ ij(1 ˆπ ij) n g π kj (1 π kj ), 여기서 π kj 는 k 그룹내의개체들에대한 ˆπ ij 의평균이다. 이통계량은근사적으로자유도 (g 1) (c 1) 을갖는카이제곱분포를따른다고제시되어있다. 그러나이통계량은종속변수가이항인경우 에대한결과뿐아니라다항인경우에대한결과도기존에언급된바없으며, 단지예제를통하여 Ĉ 통
Comparison of Goodness-of-Fit Tests using Grouping Strategies 893 Table 3.1. Four settings for simulation of the null distribution 상황1 범주수가 4이고독립변수의수가 1인경우 상황2 범주수가 4이고독립변수의수가 2인경우 상황3 범주수가 5이고독립변수의수가 1인경우 상황4 범주수가 5이고독립변수의수가 2인경우 계량과의결과비교만이제시되어있다 (Pigeon 과 Heyse, 1999). 이통계량역시그룹화방법에여러기 준을이용할수있으며, 본연구에서는독립변수를이용하여그룹을나누고자한다. 3. 모의실험을통한비교 3.1. 귀무분포 3.1.1. 모의실험방법올바른모형을적합시킬때, 각통계량의분포는각각자신의귀무분포를따르게된다. Fagerland 등 (2008) 의방법인 C g 는 χ 2 (g 2)(c 1) 를따른다고제시되어있다. Bull (1994) 의방법인 Ĉ은 χ2 g(c 1) 2를따른다고언급하고있으며마지막으로 Pigeon과 Heyse (1999) 의방법인 J 2 은 χ 2 (g 1)(c 1) 를따른다고한다. 따라서올바른모형을적합한후, 각방법들을이용한분석을 1000번반복하여얻어진통계량값들의분포가저자들이제시한각통계량의분포와유사한지를알아보고자한다. 이때, Table 3.1에나타나있는상황에대하여그룹의수가 5와 10일때로나누어모의실험을진행하였다. 모의실험의자료를얻기위해로짓함수를이용하는데, 종속변수의범주수가 4와 5인경우와독립변수의개수가 1과 2인경우의로짓함수는다음과같다. g 1 (x) = 2.1 0.2x, 범주수 = 4 g 2 (x) = 1.1 0.35x, 범주수 = 5 g 3 (x) = 1.9 0.21x, g 4 (x) = x, g 1(x) = 2.1 0.2x + z, 범주수 = 4 g 2(x) = 1.1 0.35x + z, 범주수 = 5 (3.1) g 3(x) = 1.9 0.21x + z, g 4 (x) = x + z. 식 (3.1) 에서범주수가 4일때사용되는로짓함수와범주수가 5일때사용되는세개의로짓함수의회귀계수가동일한데, 이는범주수가하나늘었을때어떠한경향을가지는지를보고자하기위함이다. 마찬가지이유로범주수가 5가되었을때추가되는로짓함수는상수항의효과를배제하고오로지독립변수하나만의효과를추가하고자그회귀계수를 1로설정하였다. 이를통해단지순수한독립변수효과만큼의영향을받는범주수가하나더늘어난다항로짓회귀모형상황에서각통계량들은제시된분포를얼마나잘따르는지를알아보고자한다. 위의로짓함수의회귀계수는기존연구결과를참고하였다 (Hosmer와 Hjort, 2002; Fagerland 등, 2008). 또한독립변수 x와 z를생성하기위해 U( 6, 6), U( 1, 1) 두가지분포를이용하였는데, 그이유는분포의범위에따라생성되는독립변수의범위가달라지기때문이다. 마찬가지로분포에대한선정은기존연구결과들에서사용하였던분포들을참고하였다 (Hosmer와 Hjort, 2002; Fagerland 등, 2008). 다른회귀계수들에대한설정과정규분포에대한경우에있어서도모의실험을진행하였으나유사한결과가도출되었기때문에, 이를따로싣지는않았다.
894 Mi Kyung Song, Inkyung Jung Table 3.2. Simulated per cent rejection rates at 5 per cent significant level and simulated mean values 표본수 = 100 표본수 = 400 X 2 그룹 = 5 그룹 = 10 X 2 그룹 = 5 그룹 = 10 C g Ĉ J 2 C g Ĉ J 2 C g Ĉ J 2 C g Ĉ J 2 x, z 300 9 13 12 24 28 27 1200 9 13 12 24 28 27 U( 6, 6) 상황 1 상황 2 상황 3 상황 4 U( 1, 1) 상황 1 상황 2 상황 3 상황 4 3.00 4.90 0.40 0.90 4.40 1.30 1.90 0.10 5.70 1.20 1.90 5.50 2.00 2.70 294.61 9.19 9.18 9.21 24.10 24.08 24.11 1197.26 9.18 9.18 9.20 24.13 24.13 24.15 9.70 7.80 0.10 1.30 7.50 0.40 1.40 21.00 8.90 0.20 1.10 9.10 0.20 2.80 255.90 8.63 7.19 9.38 21.16 19.03 24.63 1181.66 9.25 7.23 9.29 23.12 18.95 24.36 22.60 3.80 2.60 3.30 4.00 4.10 4.80 58.40 9.00 3.90 5.30 8.20 6.50 7.80 335.56 10.70 9.93 10.07 29.40 28.85 28.97 1557.77 12.57 11.79 11.91 31.30 31.29 31.38 9.70 4.60 1.40 2.30 4.00 1.50 2.80 37.00 5.30 2.90 3.80 6.60 4.30 6.50 225.72 9.61 7.18 9.04 23.06 18.83 23.93 1423.98 11.20 9.66 11.35 28.38 25.06 29.78 0.30 5.60 1.00 1.50 4.30 1.30 1.90 0.00 4.40 1.40 1.60 5.40 1.40 2.30 297.66 9.61 9.39 9.39 24.58 24.46 24.46 1199.63 9.09 9.03 9.04 24.21 24.16 24.16 2.00 3.50 0.40 0.90 4.20 1.40 1.70 0.10 5.40 0.30 0.60 4.50 0.60 1.10 294.11 9.23 9.19 9.50 24.04 23.69 24.45 1199.43 9.05 8.76 9.00 23.87 23.46 24.08 93.70 6.20 0.20 0.60 4.20 0.60 1.10 100.00 5.00 0.60 1.30 4.90 1.50 2.50 387.08 12.75 12.06 12.08 32.52 31.60 31.62 1597.99 12.26 12.14 12.15 32.43 32.30 32.30 84.20 4.40 0.50 1.10 3.30 0.80 1.80 100.00 4.60 0.20 1.50 4.40 0.40 1.00 374.71 12.30 12.12 12.47 31.10 31.18 32.04 1595.70 12.05 11.91 12.15 31.71 31.46 32.08 : 자유도 (degrees of freedom) 이렇게설정된상황을기반으로독립변수들과미리설정된로짓함수를이용하여다항로짓예측확률을구한후, U(0, 1) 에서임의로생성한 u 값을다항로짓예측확률과비교하여종속변수의값을결정한다. 이때범주수가 4와 5인경우는식 (3.2) 의기준을통해종속변수의값을결정한다. y = 4; u > π 0 + π 1 + π 2 + π 3, y = 3; u > π 0 + π 1 + π 2, y = 2; π 0 + π 1 < u π 0 + π 1 + π 2, y = 3; π 0 + π 1 + π 2 < u π 0 + π 1 + π 2 + π 3, y = 2; π 0 + π 1 < u π 0 + π 1 + π 2, (3.2) y = 1; π 0 < u π 0 + π 1, y = 1; π 0 < u π 0 + π 1, y = 0; u π 0, y = 0; u π 0. 각상황에대한표본크기는 100과 400으로나누어진행하였다. 3.1.2. 결과네가지상황에대하여그룹의수가 5와 10일때, 각통계량들의귀무분포를알아보고자시행한모의실험의결과는 Table 3.2에제시되어있는데, 이는각상황에서유의수준 5% 에해당하는분율을나타낸값이다. 우선피어슨 χ 2 통계량은기존연구결과 (Fagerland 등, 2008) 에서제시한것처럼대부분의경우유의수준 5% 를만족하지않는것을볼수있다. 각상황에서얻어진통계량의평균값역시대부분큰차이를두고제시된분포의평균에서벗어나는양상을보인다. 범주수가 3이고독립변수의수가 1인상황에대해서확인되었던 C g 통계량의경우, 본연구결과에서는종속변수의범주수와독립변수의개수가늘어남에따라유의수준 5% 에만족하지않는적절치못한값들이다소증가하였다. 평균의경우에는상황1일때, 대체로제안된분포의평균값과유사한결과를
Comparison of Goodness-of-Fit Tests using Grouping Strategies 895 Table 3.3. Three settings for simulation of power 상황 1 상황 2 상황 3 주효과항생략 g j (x) = β j0 + β j1 x, j = 1, 2, 3, β j1 : 0.01, 0.5, 1.0 제곱항생략 g j (x) = β j0 + β j1 x + β j2 x 2, j = 1, 2, 3, β j2 : 0.01, 0.05, 0.1, 0.5 교호작용항생략 g j (x) = β j0 + β j1 x 1 + β j2 x 2 + β j3 x 1 x 2, j = 1, 2, 3, β j3 : 0.2, 0.6, 1.0 보이며, 범주수나독립변수의수가늘어나는상황에서도몇몇경우를제외하고는대부분제안된분포 의평균과유사한것을알수있었다. 이전연구결과 (Fagerland 등, 2008) 에비해벗어남이보이지만 C g 의경우는범주수와독립변수의수의증가에있어서도근사적으로제안된분포를따른다고볼수있 다. Ĉ 통계량과 J 2 통계량의경우는기존에제시된결과없이이항범주에대한결과를기반으로다항범주 일경우에근사적으로카이제곱분포를따를것이라고언급되었기때문에, C g 통계량의결과와비교하 여귀무분포에대한결론을해석하고자한다. J 2 통계량이 Ĉ 통계량에비해다소높은값을갖지만, 두 통계량의값들이대부분 C g 통계량들에비해작은값으로추정되는것을볼수있으며, 종속변수의범 주수에상관없이모두유의수준 5% 에만족하는경우가매우드물게관찰되었다. 평균의경우에도역 시 J 2 통계량의값이더크지만, 두통계량모두제안된분포의평균근처에도달하는경우가거의없으 며, 대부분의결과가 C g 통계량의평균결과와유사한것을볼수있다. 카이제곱분포는자유도가평 균을나타내므로두통계량에대한제시된분포가적절하지않다고할수있다. 다시말해, Ĉ 통계량과 J 2 통계량은자유도 g(c 1) 2 와자유도 (g 1) (c 1) 을갖는카이제곱분포를따른다고보기어 렵다. 본연구에서 Ĉ 통계량과 J 2 통계량은기존에제시되었던분포에잘맞지않는다는결론이도출되었다. 그주된이유는 C g 통계량과그룹을묶는방법이나보정하는측면에서조금다를뿐유사한통계량을가졌으나, 검정통계량의기각여부를결정하는기각역은세통계량이서로다르기때문이다. 즉, 얻어진자료에비해자유도가큰카이제곱분포를따르는 Ĉ 통계량이나 J 2 통계량의경우는큰기각값을 가지기때문에유의수준 5% 에서모형이적합하지않다고결론내릴가능성이매우낮은것이고, 이는 적절치않은모형임에도불구하고적절하다고잘못판단할가능성이높아지는것을의미한다. Figure 3.1 은이를뒷받침해주는자료로 1000 번의모의실험결과얻어지는각통계량값들의히스토그램과제 안된분포를나타내고있다. 이때, U( 1, 1) 에서독립변수를생성하고첫번째상황을적용한결과도출 된모의실험자료를이용하였다. 위에서언급한것과마찬가지로세통계량들의히스토그램은거의일 치하나, 자유도에따른각각의통계량분포는상이한것을볼수있다. 또한각상황에따라분석된결과 에서 C g 통계량의귀무분포가기존에제시된분포와가장유사한것을볼수있다. 3.2. 검정력 3.2.1. 모의실험방법자료를잘설명하는적절한모형과자료를반영하지못하는부적절한모형사이의차이를판별하는것은적합도검정통계량의중요한역할이다. 따라서이절에서는인위적으로만든부적절한상황에대하여검정통계량들이이를얼마나잘판단하는지를알아보고자한다. Table 3.3은모의실험을진행하기위해설정된상황을나타낸것으로, 각상황에해당하는항을생략함으로써발생하는모형의적합성결여정도를증가시키기위해해당하는항의회귀계수값을미리설정하였다. 검정력에대한모의실험에서는종속변수의범주수가 4인경우로한정지었다. 그이유는귀무분포의
896 Mi Kyung Song, Inkyung Jung 상황 1, 그룹 = 5, 표본수 400 상황 1, 그룹 = 10, 표본수 400 (a) C g 통계량 (b) C g 통계량 (c) Ĉ 통계량 (d) Ĉ 통계량 (e) J 2 통계량 (f) J 2 통계량 Figure 3.1. Histograms of simulated values and proposed null distributions for the three test statistics
Comparison of Goodness-of-Fit Tests using Grouping Strategies 897 Table 3.4. Simulated power (%) at 5 per cent nominal level 표본수 = 100 표본수 = 400 X 2 그룹 = 5 그룹 = 10 X 2 그룹 = 5 그룹 = 10 C g Ĉ J 2 C g Ĉ J 2 C g Ĉ J 2 C g Ĉ J 2 상황1: U( 6, 6) 0.01 0.00 14.30 3.20 4.60 9.30 3.50 5.10 0.00 17.20 3.00 4.60 12.00 3.50 5.40 0.5 0.00 14.60 99.70 99.80 10.20 97.70 98.60 0.00 15.60 100.00 100.00 10.70 100.00 100.00 1.0 0.00 15.40 100.00 100.00 10.30 100.00 100.00 0.00 14.00 100.00 100.00 10.30 100.00 100.00 상황1: U( 1, 1) 0.01 0.00 13.80 2.90 4.80 9.20 4.20 5.50 0.00 16.60 2.60 3.80 11.30 3.30 4.50 0.5 0.00 15.20 6.60 9.40 8.00 5.40 6.80 0.00 13.40 29.60 35.30 10.80 20.00 23.60 1.0 0.00 13.30 24.30 30.60 9.30 16.80 20.10 0.00 13.30 94.90 96.50 10.20 86.10 88.50 상황2: U( 6, 6) 0.01 4.50 5.00 0.60 0.60 4.30 1.70 2.30 0.40 7.60 1.20 2.10 5.60 1.90 2.50 0.05 6.50 19.80 4.30 6.00 13.20 5.30 6.80 2.30 76.00 51.20 57.70 64.10 45.40 49.40 0.1 3.60 61.50 36.60 43.20 48.40 29.00 33.60 0.30 100.00 99.90 99.90 99.80 99.50 99.50 0.5 0.50 92.00 92.90 95.20 83.10 89.00 91.20 0.00 100.00 100.00 100.00 100.00 100.00 100.00 상황2: U( 1, 1) 0.01 0.30 5.70 1.00 1.50 4.30 1.20 1.80 0.00 4.70 1.20 1.60 5.20 1.40 2.30 0.05 0.30 6.00 1.10 1.60 4.40 1.20 1.70 0.00 5.10 1.20 1.40 5.60 1.40 2.20 0.1 0.30 5.20 1.00 1.40 4.30 1.20 1.40 0.00 4.80 0.90 1.80 5.70 1.40 1.70 0.5 0.50 6.00 0.80 1.10 4.50 0.90 1.40 0.00 10.30 2.30 3.10 9.40 2.90 4.10 상황3: U( 6, 6) 0.2 21.90 7.80 0.30 1.70 11.80 0.40 3.20 36.70 45.60 1.70 10.90 53.90 1.80 8.70 0.6 26.10 65.00 0.40 0.90 56.20 1.10 2.30 45.30 83.50 0.60 1.00 87.70 1.50 2.60 1.0 32.00 75.50 0.60 1.20 67.80 1.10 1.60 54.20 91.00 0.90 1.60 94.20 1.70 2.60 상황3: U( 1, 1) 0.2 1.80 4.50 0.60 1.40 3.20 1.00 2.00 0.10 4.80 0.50 0.80 3.60 1.00 1.50 0.6 1.90 4.20 0.60 1.00 4.30 1.80 3.10 0.30 7.90 0.30 0.90 6.30 0.80 1.40 1.0 2.30 6.50 0.60 1.10 4.50 0.80 2.40 0.30 9.80 0.40 1.10 9.90 0.60 1.10 모의실험결과범주수가 5인경우에비해 4인경우에더적합함을보였기때문이다. 이때각상황에서사용되는상수항과주효과항의회귀계수는귀무분포의모의실험에서사용한값과동일하다. 각상황에대하여표본크기를 100과 400으로나누어진행하였으며, 1000번의반복을통하여얻어진통계량값들중명목수준 5% 에서모형이적합하지않다고결론내린분율을검정력으로평가하였다. 3.2.2. 결과각세상황에대한검정력모의실험결과를 Table 3.4에나타내었다. 우선주효과항을생략하는상황1을보면, 피어슨 χ 2 통계량의검정력은모두 0인것을알수있다. 따라서모형에상수항만을적합하였을때, 피어슨 χ 2 통계량은주효과항에대한효과를감지하는능력이없다고할수있다. C g 통계량의경우는주효과에대한회귀계수가증가하거나표본수가증가하는것에상관없이, 그리고공변량의분포에상관없이대체로비슷한결과를나타내고있다. 이통계량은대체로그룹의수가작은경우에검정력이더높은것으로보이며, 상수항만을적합시킨모형에대해서는낮은검정력을보인다. Ĉ, J 2 통계량은주효과의회귀계수가증가함에따라검정력이높아지는것을알수있다. 공변량의분포가좁은것에비해넓은것에서검정력이높고, 그룹수가 5인것에비해 10일때, 더좋은결과를나타내고있다. 두통계량중에서는 Ĉ에비해 J 2 이좀더높은검정력을갖는것으로보인다. 상황2의경우, 피어슨 χ 2 통계량의결과가상황1의결과에비해다소높아진것을볼수있으나대체적으로낮은검정력을가진다. C g 통계량의경우좁은공변량의분포에서는일부를제외하고회귀계수값의증가에도유사한결과를나타내고있으나, 넓은분포에서는회귀계수가증가함에따라검정력이모두증가하는것을볼수있다. 또한그룹이 10일때에비해 5일때더나은결과를나타내고있다. Ĉ, J 2 통
898 Mi Kyung Song, Inkyung Jung Table 4.1. A real data of cerebral microbleeds 변수변수유형변수값 CMB 분류 명목형 0 = 미세출혈이없음 (787(69.22%)) 1 = 비뇌엽성영역 (248(21.81%)) 2 = 뇌엽성영역 (36(3.17%)) 3 = 비뇌엽성및뇌엽성복합영역 (66(5.80%)) 나이연속형 64.88±11.62 (19 98) 체질량지수 (BMI) 연속형 24.08± 3.11 (14.47 39.00) 맥파전파속도 / 표준편차 (PWVSD) 연속형 3.81± 1.00 (1.56 10.42) 수축기혈압 (systolic) 연속형 150.84±23.19 (95.00 236.00) 계량은좁은공변량의분포에서 C g 통계량에비해낮은검정력을보이나넓은분포에서는 C g 통계량과유사한결과를보인다. 특히그룹이 10인경우에그차이가더명확하게나타난다. 좁은분포에서는표본수가큰영향을미치지못하는반면, 넓은분포에서는표본수가증가할경우더좋은결과가도출되었다. 마지막으로상황3을보면, 피어슨 χ 2 통계량의결과가이전의다른결과들에비해상당히안정되고좋아졌음을볼수있다. 또한공변량의분포에상관없이회귀계수가증가함에따라검정력역시증가하였다. 그러나상대적으로다른세통계량의결과에비해더낮은검정력을가진다. C g 통계량의경우는회귀계수가증가함에따라대체로검정력이높아지는것을볼수있다. 제곱항의상황과마찬가지로 C g 통계량에서는좁은공변량의분포에비해넓은분포에서검정력이더높은것을확인하였다. 또한대체로그룹수가작은쪽에서더높은검정력을보인다. Ĉ, J 2 통계량은제곱항의상황에비해낮은검정력이도출되었다. 두통계량모두공변량의분포에상관없이낮은검정력을유지하는것을알수있으며, 회귀계수증가에도상관없이유사한검정력을보이고있다. 표본수에큰영향을받지는않으나, 그룹의수가 5일때에비해 10일때다소높은검정력을갖는것을볼수있다. 4. 실제자료분석이절에서는그룹화전략을이용한세적합도검정통계량방법을대뇌미세출혈 (cerebral microbleeds) 자료에적용하여결과를비교하고자한다. 피어슨 χ 2 통계량은앞서언급되었던것과같이다항로짓회귀모형의적합도검정방법으로는적절치않다고판단되었으므로실제예제에대해분석하는과정에서는제외하였다. 나머지세통계량에대해서는크게두가지방향으로결과를보고자하였는데, 하나는적절한모형이적합되었을때모형이적합하다고잘판단하는지에관한것이고, 다른하나는적절하지않은모형이적합되었을때모형이적합하지않다고잘판단하는지에대한것이다. 이때, 그룹화전략방법으로는종속변수의범주에서기준범주를제외한나머지각범주에속할예측확률을이용하였다. 모의실험에서사용된그룹화전략과다른방법을적용한이유는모의실험의경우데이터를얻는과정에서모든범주의결과값이얻어지지않아일부범주에대한값의손실이발생하였고, 이로인해추정이잘되지않는경향이관찰되었다. 또한, 이절에서는추후임의로적절하지않다고생각되는모형을적합시켜이를잘판별하는지를알아보기위해예제에서관심있어하는독립변수를제외하고분석하게되는데, 이경우에는모의실험에서사용된그룹화전략을이용할수없으므로예제에서확인하고자하는두상황을비교하는데적합하지않다고판단하였기때문이다. 4.1. 자료설명 본자료는 2006 년 6 월부터 2012 년 1 월까지증상이발병한후 7 일이내에뇌경색 (cerebral infarction) 이
Comparison of Goodness-of-Fit Tests using Grouping Strategies 899 Table 4.2. Goodness-of-fit test statistics and p-values of the three methods for cerebral microbleeds data 그룹화전략 상황 1 상황 2 통계량 그룹수 = 5 그룹수 = 10 통계량값 p 값 통계량값 p 값 1 ˆπ i0 C g 8.0070 0.5334 30.0163 0.1842 ˆπ i1 Ĉ 20.2159 0.0900 35.6647 0.1514 J 2 20.3004 0.0616 35.9211 0.1170 ˆπ i2 Ĉ 8.9748 0.7748 23.6928 0.6976 J 2 9.1504 0.6900 24.0125 0.6296 ˆπ i3 Ĉ 11.8112 0.5432 25.6888 0.5901 J 2 11.8846 0.4550 25.8355 0.5277 1 ˆπ i0 C g 3.9651 0.9137 20.5611 0.6645 ˆπ i1 Ĉ 3.6689 0.9942 20.5611 0.8432 J 2 3.6769 0.9886 20.6353 0.8031 ˆπ i2 Ĉ 3.6689 0.9942 20.5611 0.8432 J 2 3.6769 0.9886 20.6353 0.8031 ˆπ i3 Ĉ 3.6689 0.9942 20.5611 0.8432 J 2 3.6769 0.9886 20.6353 0.8031 나일과성허혈발작 (transient ischemic attack) 을진단받은환자 1,137명을대상으로뇌영상 (brain imaging studies), 혈관영상 (vascular imaging studies), 가슴 x선촬영, 심전도법 (electrocardiography) 과기본적인혈액검사를실시한결과이다. 본예제의연구목적은환자들에게얻어진결과들을토대로여러요인들을보정하였을때, 동맥경직도를나타내는맥파전파속도가대뇌미세출혈의발생위치에어떠한영향을미치는지를알아보고자하는것이다. 이때대뇌미세출혈의위치는세가지로세분화하였다. Table 4.1은예제자료들중실제다항로짓모형에사용된변수와해당변수의설명및기술통계량값을나타낸것으로본연구에서는연속형독립변수만을고려하였기때문에, 예제자료중종속변수에유의한영향을미치는연속형변수및임상적으로의미있는연속형변수만을다항로짓회귀모형의독립변수로써고려하였다. 4.2. 결과예제자료에적절할것으로예상되는다항로짓회귀모형을적합시켰을때, 그적합성여부를판단하기위하여본연구에서평가하고있는그룹화전략을이용한세가지통계량을적용한결과 ( 상황1) 와단변량분석결과종속변수인대뇌미세출혈발생위치와유의한관계가없는변수만을모형에적합시켜얻은결과 ( 상황2) 를 Table 4.2에제시하였다. 상황1의결과, 전반적으로모든통계량이모형이적합하다는결론을내리는것을볼수있다. 그러나 Ĉ 통계량과 J 2 통계량의일부결과값이다른결과에비해변동이큰것을볼수있으며일부를제외하고는대체로그룹의수에상관없이 C g 통계량에비해더큰 p 값을보이는것을알수있다. 이는통계량값이그들의제안된분포에비해작은값으로추정된것을의미하는데, 그이유는 3절에서언급한것과같이자유도가상대적으로큰 Ĉ 통계량과 J 2 통계량은원래그들의통계량값들이가지는귀무분포에비해오른쪽으로치우친형태이기때문이다. 따라서모형이적합하다는결론을내릴가능성이크며, 이로인해얻어진검정통계량값에해당하는 p 값이당연히커질수밖에없는결과가발생하는것이다. 상황2의결과를보면모든모형이적합하다고결론내리고있음을알수있으며, 오히려 4개의공변량이포함된모형에비해세통계량모두높은 p 값을보이
900 Mi Kyung Song, Inkyung Jung 는것을알수있었다. 무엇보다도 Ĉ 통계량과 J 2 통계량의결과가각예측확률에대해모두동일하였고, 이전모형에비해매우안정적인추세를보이는것을확인하였다. 이는세통계량모두부적절한모형적합으로인해발생하는적합성결여를잘판단하지못한다고할수있으며, 따라서전반적으로낮은검정력을가진다고할수있다. 5. 결론및고찰 이항로짓회귀모형의경우자주사용되는적합성평가의방법들 (Agresti, 2007) 이존재하나다항로짓 회귀모형의적합성평가에대한방법들은구체화되지않은실정이다. 최근이항로짓회귀모형의적합 도검정방법들을확장하거나변형시킨방법들이제안되고있으나, 이방법들에대한구체적인평가가 제대로이루어지지않았다는점에착안하여본논문은기존에제시된방법들중일반적으로사용되는피 어슨 χ 2 방법과그룹화전략을이용한일부통계량을선정하여비교및평가하였다. 적절한모형을적합시켰을때, 각통계량들의귀무분포와제시되어있는그들의분포가유사할것을토 대로귀무분포에대한모의실험을진행하였다. 피어슨 χ 2 통계량의경우는기존연구결과 (Fagerland 등, 2008) 에서언급했던것과같이유의수준 5% 에서상당히벗어남을보였으며, 평균에서도불일치하 는것을볼수있었다. C g 통계량의경우는종속변수의범주수와독립변수의개수가늘어남에따라적 절치않은값들의발생이증가함에도불구하고대부분이유의수준 5% 를만족하였고, 평균역시저자들 이제시한각통계량분포의평균근처에놓여있는것을확인하였다. Ĉ 과 J 2 통계량은어떤상황에대 해서도모두작게추정되는것을보았다. 유의수준 5% 에만족하는경우가매우드물며, 평균역시제시 된분포의평균에비해매우작은값을가지는것을볼수있었다. 따라서 Ĉ 통계량과 J 2 통계량은저 자들이제시한분포를유지하는능력이매우떨어지며, 잘못된결론을도출할가능성이크기때문에 C g 통계량이다른통계량들에비해그나마유용하다는결론을내렸다. 비록정확한모형을적합시켰을때, 통계량들이제시된분포에비교적잘따르지않는것을보았으나 각방법에대한더정확한평가를위해검정력에대한모의실험을진행하였다. 검정력에대한평가를위 해세가지상황에대하여진행하였는데피어슨 χ 2 통계량은세가지상황에서모두낮은검정력을보였 다. 다른세통계량의경우, 상황 1 에서예상외로 Ĉ 과 J 2 통계량이높은검정력을보였다. 이는상수항 만을적합시켰을경우각종속변수에속할확률이개체별로같은값을갖게되는데, C g 통계량은이를 잘판단하지못하였기때문이다. 상황 2 의결과에서는독립변수의값을얻은분포에따라각통계량들의 검정력이달라짐을볼수있었다. 좁은분포에서는세통계량모두낮은검정력을보였으며, 넓은분포 에서는회귀계수가증가함에따라세통계량모두다소높은검정력을보였다. 상황 3 의결과에서는상 황 2 의결과에비해낮은검정력을갖는것을볼수있으며, 넓은분포에서비교적 C g 통계량이적절한 검정력을갖는것을볼수있었다. 검정력평가에서도 C g 통계량이그나마유용하다고할수있으며, 나 머지다른통계량들은다항로짓회귀분석의적합도검정방법으로써사용하는것은무리가있다고생각 된다. 또한세가지적합도검정통계량들을실제자료에적용하여그결과를확인하였다. 우선예제자료를 잘설명할것이라예상되는적절한모형을적합시켰을경우, Ĉ 통계량과 J 2 통계량의 p 값들에변동이 있는것을볼수있었으며, 전반적으로 C g 통계량에비해 p 값들이큰것을알수있었다. 이는실제통 계량의분포에비해가정된분포가오른쪽으로치우친경향이있기때문에발생하는결과이다. 하나의 독립변수만을포함한부적절한모형의결과, 세통계량에서오히려이전상황에비해더안정적이고큰 p 값을도출하였는데, 이는세통계량모두부적절한모형에의해발생되는적합성결여를잘판단하지 못한다는것을의미한다. 따라서이예제에서도모의실험의결과와유사하게 Ĉ 통계량과 J 2 통계량의
Comparison of Goodness-of-Fit Tests using Grouping Strategies 901 분포가저자들에의해제시된분포와다름을나타내고있으며, 특히부적절한모형을판별해내는검정력이낮다고할수있다. 본연구에서는다항로짓회귀모형의적합도검정통계량을여러상황하에비교분석하였다. 이방법들은기존에잘알려진 Hosmer와 Lemeshow (1980) 의방법과피어슨 χ 2 방법을보정한방법들임에도불구하고저자들이제시한통계량의분포가통계량들의귀무분포와차이가있음을알수있었으며, 검정력또한낮았다. 모의실험결과는설정한상황에한한것이기때문에다른상황에대한분석의여지가남아있다. 본연구에서의확장즉, 더많은독립변수가포함되는경우나다른유형의독립변수가동시에포함되는경우, 그리고독립변수를생성하는다양한분포에대하여생각해볼수있으며, 여러분포의조합도고려할수있다. 실제자료에적용하는데있어하나의통계량만을이용하는것보다는여러통계량을동시에제시하거나잔차도와같이적합도검정에기본적으로사용할수있는그림을추가하여적합도검정여부를판단하는것이더적절할것이라여겨진다. References Agresti, A. (2007). An Introduction to Categorical Data Analysis, 2nd ed. Wiley, New Jersey. Bull, S. (1994). Analysis of attitudes toward workplace smoking restrictions. In: Lange, N., Ryan, L., Billard, D., Conquest, L. and Greeenhouse, J. (1994). Case Studies in Biometry. Wiley, New York, 249 271. Fagerland, M. W., Hosmer, W. H. and Bofin, A. M. (2008). Multinomial goodness-of-fit tests for logistic regression models, Statistics in Medicine, 27, 4238 4253. Hosmer, D. W. and Hjort, N. L. (2002). Goodness-of-fit processes for logistic regression: Simulation results, Statistics in Medicine, 21, 2723 2738. Hosmer, D. H. and Lemeshow, S. (1980). Goodness-of-fit tests for the multiple logistic regression model, Communications in Statistics, Part A, Theory and Methods, 9, 1043 1069. Hosmer, D. W. and Lemeshow, S. (2000). Applied Logistic Regression, 2nd ed, Wiley, New York. Pigeon, J. G. and Heyse, J. F. (1999). An improved goodness of fit statistic for probability prediction models, Biometrical Journal, 41, 71 82.
902 Mi Kyung Song, Inkyung Jung 다항로짓회귀모형에서의그룹화전략을이용한 적합도검정방법비교 송미경 a 정인경 a,1 a 연세대학교의과대학의학통계학과 (2013 년 7 월 11 일접수, 2013 년 10 월 2 일수정, 2013 년 10 월 15 일채택 ) 요약지금까지제안되어있는다항로짓회귀모형의적합도검정방법들에대하여저자들이제안한방법들이타당한지를확인하고자본연구를진행하였다. 여러검정통계량들중그룹화전략을이용한통계량들 (Fagerland 등, 2008; Bull, 1994; Pigeon 과 Heyse, 1999) 을선정하였고, 이러한통계량의기반이되는피어슨 χ 2 통계량또한같이비교하였다. 제안된분포가모의실험의상황하에얻어지는귀무분포와유사한지, 그리고부적절한모형의판별을적절히수행하는지에대하여확인하였으며, 실제자료에세가지방법을적용한결과를비교, 평가하였다. 주요용어 : 다항로짓회귀모형, 적합도검정, 그룹화전략, 귀무분포. 1 교신저자 : (120-752) 서울특별시서대문구신촌동 134 번지, 연세대학교의과대학의학통계학과, 조교수. E-mail: ijung@yuhs.ac