한국의학교육 : 제 13 권제 1 호 2001 원저 CAT (Computer Adaptive Test) 실시를위한 IRT (Item Response Theory) 분석연구 (Ⅰ) 고려대학교보건대학임상병리과, 고려대학교의과대학예방의학교실 1, 고려대학교간호대학 2 이창규 박종성 이은일 1 이숙자 박은숙 박영주 2 = Abstract = A Comparative Study of Item Analysis by Item Response Theory Based for Initiating CAT (Computer Adaptive Test) System Chang Kyou Lee, Jong Sung Park, EunIl Lee, 1 Sook Ja Lee, Eun Sook Park, Young Joo Park 2 Department of Clinical Laboratory Sciences, College of Health Sciences,Korea Univ, Seoul, Korea College of Medicine, Korea Univ, Seoul, Korea 1 College of Nursing, Korea Univ, Seoul, Korea 2 Prior to CAT, the parameter estimation on executed items should be accomplished by IRT.and the item banking must be build up on the basis of the parameter of difficulty. A program developed by Korea ETS Inc, Bilog and Bigsteps were all found to be very powerful to understand the attributes of items. Though multiple true-false type K items have some merits, the items should be examined quantitatively if they are appropriate or not by IRT. Through the study we have finally confirmed that the new program developed by Korea ETS has its ability to check the validities of items from preparing or scoring to item analysis. Key Words: CAT, IRT, Korea ETS Inc 서 컴퓨터를이용하는모든시험을컴퓨터이용시험 (Computer Based Test: CBT) 이라하고이것은다시지필시험과동일한내용과순서로시행하는시험을컴퓨터화시험 (Computerized Test: CT), 수험자의개별적인능력에따라다음문항을선택하여제시 론 * 교신저자 : 이창규, 고려대학교보건대학임상병리과 하는개별적인적응시험을컴퓨터화적응시험 (Computerized Adaptive Test: CAT) 으로분류한다. 1,2 지금까지시행되어온지필시험에서개별시험과집단시험은시험의목적을동시에만족시킬수없는특성을가지고있다. 개별시험을실시하면수험자에게적절한문항을선택하여시험을치르고수험자가과제를이해했는지여부를자세히알수있는반면, 시험환경의동일성을유지하고비용을절감할수있는집단시험의장점을잃게된다. 이러 - 107 -
CAT (Computer Adaptive Test) 실시를위한 IRT (Item Response Theory) 분석연구 (Ⅰ) 한이유로집단시험이현재더널리사용되고있지만집단시험은너무나넓은범위의능력수준을가정하고있다는문제점이있다. 시험의정확도는능력수준에적합한문제를제시할때높아지지만대부분의집단시험에서는평균수준의능력자들에게초점을맞추기때문에중간난이도수준의문제가대부분이고소수의아주쉽거나어려운문제로구성된다. 시험의난이도가수험자의능력수준에적합할때가장많은시험정보를얻을수있다는논리에기초하여등장한것이적응시험 (Adaptive test) 또는맞춤검사 (Tailored test) 이다. 2,3 선진국에서의의사, 간호사, 약사, 임상병리사, 방사선사, 물리치료사, 영양사그리고전문의사시험도물론이려니와거의모든전문직면허및자격시험들을모두 CAT시험으로하고있다. 저자들은 CAT시험의기본이되는문항모수측정을여러가지방법에의하여추정하여비교한바의미있는결과를얻어보고하고자한다. 연구대상및방법 1. 연구대상대학재학생 ( 보건대, 간호대, 의과대 ) 을대상으로임상병리과목을선정하여그시험결과를분석하였다. 2. 연구방법 1) 고전검사이론에의한모수추정 (1) Bilog ( 미국 Scientific Software Inc. 제품 ) (2) Iteman ( 미국 Assessment Systems Corporation 제품 ) (3) 한국 ETS Corporation ( 대표박종성, 한국 ) 에서개발한 S/W를사용. 2) IRT에의한모수추정 (1) Bilog ( 미국 Scientific Software Inc. 제품 ) 에의한추정 (2) Bigsteps ( 시카고대학제품 ) 에의한추정 (3) 한국 ETS Corporation ( 대표박종성, 한국 ) 에의한추정 결과 (1) 고전검사이론에의한 Bilog, Iteman 및한국 ETS Corporation의결과는표 1, 2 및그림 3과같다. (2) Bilog에의한 IRT의난이도및변별도는표 3과같다. (3) Bigsteps의 IRT에의한결과는표 4, 그림 1 및그림 2 (4) 한국 ETS Corporation제품에의한난이도, 변별도및추측도는그림 3과같다. 고찰시험이론이란인간의잠재적특성을간접측정하는시험과시험을구성하는문항들의특성을분석하는이론이다. 시험을분석하기위하여문항을분석하는작업이선행되어야하므로시험이론은문항뿐아니라시험, 그리고이와관련된모든이론을통칭하여부르는이름이다. 여기에는고전검사이론과문항반응이론이있다. 1,3 고전검사이론은 19세기말부터 20세기중반까지발전된검사이론으로관찰점수는진점수와오차점수에의해합성되었음을전제로전개되며진점수는관찰점수들의기대값에의해서계산된다. 2,4 문항반응이론은 20세기중반이후이론적발전을가져와현재널리적용되는이론으로총점에의존하여분석하는것이아니라문항하나하나의특성을분석한다. 즉문항에기초하여이론을전개하는것이며각문항의답을맞힐확률의합이진점수가된다. 1,4 문항반응이론의최대장점은불변성개념이다. 불변성개념에는문항모수의불변성개념과능력모수의불변성개념이있다. 문항모수불변성개념 (Invariance concept of item parameter) 이란문항은문항이지니고있는고유의특성이있기때문에문항에응답한수험자집단의특성에의하여문항모수추정치가변치않는개념이다. 고전검사이론은동일한문항이라도수험자집단의특성에따라서쉬 - 108 -
한국의학교육 : 제 13 권제 1 호 2001 표 1. 고전검사이론에의한모수추정 (Biolog) NUMBER NUMBER ITEM*TEST ITEM NAME TRIED RIGHT PERCENT PEARSON 1* 0001 40 0.400-069 2* 0002 29 0.290 0.124 3* 0003 34 0.340 0.369 4 0004 57 0.570 016 5* 0005 23 0.230-008 6* 0006 31 0.310-026 7* 0007 13 0.130-055 8 0008 78 0.780 02 9 0009 76 0.760 0.160 10 0010 84 0.840 0.343 11* 0011 85 0.850 0.171 12* 0012 22 00 021 13* 0013 81 0.810 0.167 14* 0014 84 0.840 0.190 15 0015 49 0.490 0.192 16* 0016 76 0.760 0.139 17* 0017 55 0.550 0.174 18 0018 79 0.790 0.236 19* 0019 14 0.140-039 20* 0020 32 0.320 038 21 0021 34 0.340 0.267 22 0022 54 0.540 0.396 23 0023 88 0.880 0.109 24 0024 66 0.660 08 25* 0025 32 0.320 0.168 26* 0026 54 0.540 0.233 27 0027 85 0.850 0.179 28 0028 36 0.360 0.187 29 0029 17 0.170-033 30 0030 46 0.460 068 운문항으로때로는어려운문항으로분석된다. 그러나문항반응이론에의하면능력이높은수험자집단이나능력이낮은수험자집단이응답한두응답자료에의하여문항모수를추정하여도추정치의차이가없다는것이다. 능력모수의불변성개념 (Invariance concept of ability parameter) 이란수험자의능력을추정하는순간에는고정불변한것으로시험의특성에의하여다르게추정되지않는다는 것이다. 쉬운시험을보면수험자의능력이과다하게추정되거나어려운시험을보면수험자의능력이과소하게추정되지않고시험의난이도에관계없이수험자의능력을안정적으로추정한다는개념이다. 2,4 패러미터추정법에는여러가지방법이제안되었으나항목패러미터치 a,b,c 등을알고있을때그것을이용해서능력패러미터 θ를최우추정하는법, - 109 -
CAT (Computer Adaptive Test) 실시를위한 IRT (Item Response Theory) 분석연구 (Ⅰ) N of Items 30 N of Examinees 표 2. 고전검사이론에의한모수추정의일부 (Iteman) Item Statistics Alternative Statistics Seq. Scale Prop. Disc. Point Prop. Endorsing Point No. -Item Correct Index Biser. Alt. Total Low High Biser. Key 1 0-1.40 6 7 1.40.38.44 7 * 2.12.28 0 6 CHECK THE KEY 3 4 3 0-3 1 was specified, 5 works better 4 2 5 0 8 5.42.26.56.28? Other 0 0 0 1번문항은변별도가음수로나타난문항이다. 답지분포에서도 5번문항이더많 은기능을하는것으로나타나고있다. 2 0-2.29.25 1.29.18.42.25 * 2.30.26.33.18 3 9.15 2 5 4 7.18 0 5 5.25.23.23 4 Other 0 0 0 3 0-3.34.48.49 1.31.33.23-8 2 6.10 2 1 3.28.46.19 5 4 1 3 0-7 5.34 8.56.49 * Other 0 0 0 4 0-4.57.16.16 1 9.10 5-8 2.57.51.67.16 * 3 1 3 0 0 4.23.28.16 8 5.10 8.12 9 Other 0 0 0 5 0-5.23.10.12 1 7.10 2 9 2.33.33.26 2 능력패러미터 θ를알때항목패러미터 a,b,c 등을최우추정하는방법 (Maximum likelihood estimation) 항목패러미터와능력패러미터를동시에최우추정하는결합최대우도추정법 (Joint maximum likelihood esti- mation), 능력의주변분포를이용해서항목패러 미터를최우추정하는주변최대우도추정법 (Marginal maximum likelihood estimation), 동시및주변분포에의한베이즈추정법 (Joint and Marginal Bayesian Estimation), 어떤가정을필요로하지만계산이빠른간편법 (Heuristic method), 최소로짓카이스퀘어 - 110 -
한국의학교육 : 제 13 권제 1 호 2001 표 3. IRT 에의한모수추정의일부 (Bilog) ITEM INTERCEPT SLOPE THRESHOLD DISPERSN ASYMPTOTE CHISQ DF S.E. S.E. S.E. S.E. S.E. (PROB) 0001-0.367 0.278 1.317 3.592 000 2.6 3 0.190* 0.102* 0.829* 1.313* 000* (0.4636) 0002-0.876 0.428 247 2.338 000 0.6 4 09* 0.169* 0.896* 0.922* 000* (0.9556) 0003-0.816 1.104 0.739 0.906 000 4.7 2 0.269* 0.408* 0.303* 0.335* 000* (0946) 0004 0.260 0.325-0.801 376 000 1.5 4 0.193* 0.119* 0.665* 1.127* 000* (0.8266) 0005-1.116 0.348 35 2.873 000 3.1 3 05* 0.132* 1.357* 191* 000* (0.3809) 0006-0.739 0.322 2.295 3.106 000 3.4 3 04* 0.122* 160* 1.174* 000* (0.3357) 0007-1.643 0.330 42 333 000 2.9 2 0.269* 0.124* 262* 1.144* 000* (086) 0008 1.299 0.593-2.192 1.687 000 5 3 0.256* 02* 0.832* 0.632* 000* (0.1715) 0009 1.136 0.475-2.390 2.105 000 1.8 3 0.235* 0.184* 0.995* 0.816* 000* (0.6124) 0010 1.760 0.730-2.409 1.369 000 1.6 1 0.319* 0.302* 0.903* 0.566* 000* (044) 0011 1.757 0.604-2.911 1.656 000 0.8 3 0.308* 0.267* 1.193* 0.733* 000* (0.8393) 0012-10 0.427 2.857 2.341 000 0.6 2 0.237* 0.165* 1.184* 0.902* 000* (0.7488) 0013 1.436 0.514-2.793 1.944 000 2.6 3 0.260* 03* 1.122* 0.767* 000* (0.4577) 0014 1.715 0.654-2.623 1.529 000 0.7 2 0.325* 0.300* 143* 0.701* 000* (0.7255) 0015-045 0.682 066 1.466 000 3.5 3 05* 0.260* 0.319* 0.559* 000* (0.3253) 0016 1.139 0.482-2.363 275 000 6.1 3 0.236* 0.189* 09* 0.813* 000* (0.1061) 0017 00 0.480-0.417 283 000 1.2 3 04* 0.181* 0.446* 0.784* 000* (0.7611) 0018 1.385 0.650-2.130 1.538 000 1.2 3 0.275* 0.274* 0.839* 0.647* 000* (0.7481) 0019-1.619 0.357 4.534 2.800 000 2.2 2 0.266* 0.145* 1.947* 1.134* 000* (0.3255) 0020-0.710 0.349 237 2.868 000 4.8 3 06* 0.134* 0.949* 1.102* 000* (0.1827) - 111 -
CAT (Computer Adaptive Test) 실시를위한 IRT (Item Response Theory) 분석연구 (Ⅰ) 그림 1. 제일부적절한응답 (Bigsteps) 그림 2. 가장예기치못한응답 (Bigsteps) 법등이다. 결합최대우도추정법은 1,2,3-패러미터모델에적용되며능력과문항패러미터가동시에추정된다. 간결하고명확한장점이있으나문항모수인구조적모수가수험자능력모수인부수적모수에의해서영향을받는단점이있다고한다. 즉수험자수에의하여문항모수가달리추정되는문제점이있다. 조건최대우도추정법은상기법의문제점을해결하기위하여고안된것으로여기의우도함수는맞힌점수에서의조건함수이다. 수험자의수가증가할때문항모수의최대우도추정치의바이어스를없앨수없기때문에추정치가일정하지않은것을이것으로해결하며 1-패러미터모델에적용한다. 주변최대우도추정법은 1,2,3-패러미터모델에적용이되며결합최대우도추정법이지니는문항모수추정의불안정성문제를해결하고어떤경우든문항모수 추정이나수험자능력모수추정이가능하며사전능력분포와실제능력분포가일치할때모수추정이정확하다고한다. 동시및주변분포에의한베이지안측정법은패러미터 [θ,a,b,c] 의사전확률분포와주어진패러미터 [θ,a,b,c] 로응답패턴을얻는조건을부친확률 ( 우도 ) 과를관련지은것인데주어진응답패턴아래서패러미터 [θ,a,b,c] 를얻을확률 ( 사후분포 ) 에비례한다는베이즈의정리를응용해서적절한사전패러미터의분포를가정하는것에의해사후의응답패턴과패러미터와의동시또는주변분포의확률이제일크게되는패러미터를찾아가는방법이다. 1,2,3-패러미터모델에적용이된다. 본연구에서는고전적인방법과 IRT에의한바이로그, 빅스텝법으로지필시험을끝낸시험문제를계량하였다. - 112 -
한국의학교육 : 제 13 권제 1 호 2001 표 4. IRT 에의한모수추정 (Bigsteps) ITEMS STATISTICS: MEASURE ORDER ENTRY NUMBR 7 19 29 12 5 2 6 20 25 3 21 28 1 30 15 22 26 17 4 24 9 16 8 18 13 10 14 11 27 23 MEAN S.D. RAW SCORE COUNT MEASURE ERROR 13 14 17 22 23 29 31 32 32 34 34 36 40 46 49 54 54 55 57 66 76 76 78 79 81 84 84 85 85 88 52. 24. 99. 0. 28 1.99 1.76 1.43 1.37 15.95.90.90.81.81.72.54.28.15-6 -6 0 8 -.61-1.10-1.10-1 -1.28-1.41-1.63-1.63-1.70-1.70-1 0 1.29.28.26.25.26.27.27.28.28.31 3 INFIT OUTFIT PTBIS MNSQ ZSTD MNSQ ZSTD CORR ITEMS 13 17 17 14 17 12 1.10 17.86.93 1.14 15.85.96 18 10.96.95.87 11 11 10 7.1.3.4.3.5.2 1.1.8-1.9 -.9 2.1.9-2.7 -.8 1.3 -.4 -.7.9 25 1.18 1.16 1.13 1.19.96 1.12 14.85.88 1.14 14.96.82.92.99 1.11.95 12 11 10.89.99.78.88.91.95 13 2.8.6.7.7 1.9.3-1.4-1.1 1.5.5-2.6-1.2 1.4.1.1 -.6-1 -.4 1-6 -4-3 2-1.12-3 4.17.37.27.19-7 7.19.40.23.18 2.16.14.17.34.19.17.18.11 I0007 I0019 I0029 I0012 I0005 I0002 I0006 I0020 I0025 I0003 I0021 I0028 I0001 I0030 I0015 I0022 I0026 I0017 I0004 I0024 I0009 I0016 I0008 I0018 I0013 I0010 I0014 I0011 I0027 I0023 본연구에서는고전적인방법과 IRT에의한바이로그, 빅스텝법으로지필시험을끝낸시험문제를계량하였다. 고전적인계량법에서의난이도가제일높은즉어려운문항은 7, 19, 29, 12, 5 및 2번문제의순서이고쉬운문제는 23, 11, 27, 10, 14 및 13번 의순서이었다. 변별도가좋은순서는 22, 3, 10, 21, 18 및 26번의순서이며변별도가제일좋지않은순서는 1, 7, 19, 29, 6 및 5의순서이었다. IRT의바이로그계산의결과는난이도의순서가 7, 19, 29, 5, 12 및 6의순서로어려웠고쉬운것은 23, 27, 11, - 113 -
CAT (Computer Adaptive Test) 실시를위한 IRT (Item Response Theory) 분석연구 (Ⅰ) 가높은문항 5문제중 a형은 1문제였고그중답가지를세밀히검토한결과 7번은관계가깊은것에서관계가없는것으로수정을하였다. 역시 19번도변별력이나쁘고난이도가너무높아 적절하지않은것으로 수정을하였다. 추측도에서는한국ETS에의해추정한것은 4번, 23번, 16, 24, 30,,9, 13번의순서인데이결과와빅스텝에의한결과의비교에서는능력이있는데의외로틀리는, 능력은없는데의외로맞히는그런문항들인데제일적절치못한답과전혀예기치못한답을했던문항은 7개의추측계수가높았던것중에 5개의문항이서로일치하였다. 일치하지않는것은능력은있으나아주쉬운문항을틀렸거나능력은없는데비교적어려운문항을맞혀서능력과난이도의괴리가엄청난문항이선별되었다. 요 약 그림 3. 한국 ETS에의한모수추정결과의일부 13, 14 및 10번의순서이었다. 변별도의좋은순서는 3, 22, 21, 10, 15 및 24번의순이었고변별력이좋지않은것은 1, 6, 4,7, 29, 5, 20 및 19의순이었다. 빅스텝의난이도는 7, 19, 29, 12, 5, 2 및 6의순서로여타방법과의큰차이는없었고변별력에있어서는변별력이좋은순서로는즉 -ZSTD값이큰것의순서대로나열하면 3, 22, 21, 10, 15 및 26번의순서이고 MNSQ와 PTBIS CORR (point-biserial correlation coefficients) 가크면변별력이안좋은데 1,7, 19, 29, 6 및 5의순서로빅스텝으로도난이도, 변별도및추측계수를가늠할수가있었다. 난이도 CAT를실시하려면 IRT에의한출제문제의모수들을계량해야만한다. CAT에실제이용되는것은난이도이므로이것을중심으로뱅킹이되어야한다. 빅스텝은소문에의한것보다는실질적으로문제의속성을파악을하는데손색이없는것으로나타났다. 물론조합문제인 K형도여러가지장점이있기는있으나난이도와변별도에있어서사려깊게출제를해야하는것은물론이려니와문항반응이론에의한문항분석을통하여적절한지의여부를꼭계량하지않으면안된다. 한국의 ETS가개발한엔진이출제로부터시험, 채점, 문항분석으로이어지는출제된문항의타당성여부를정확하게검색할수있는능력을확인하였다. 참고문헌 1. 이창규외 : 문항반응이론에의한보건의학기술계열국가시험개선방안에관한연구. 의학기술논집 24:1;155-201, 1998 2. 이창규 : 선진국의보건의료인면허시험제도. - 114 -
한국의학교육 : 제 13 권제 1 호 2001 99의료기술과정, 서울특별시공무원교육원 97-146, 1999 3. Suges-Tatum D: The anatomy of board certification. Lab Med 30:514-515, 1999 4. Surges-Tatum D: Rasch analysis; An introduction to objective measuremnt. Lab Med 31:272-274, 2000 5. Sekula-Wacura, R and Brito, C: A review of CAT review. Lab Med 31:442-444, 2000-115 -