한국의학교육 : 제 1 권제 3 호 2007 원저 고려대학교의과대학의학교육학교실, 의학통계학교실 1, 성공회대학교소프트웨어공학과 2 = Abstract = 임현선 이영미 안덕선 이준영 1 임형 2 Item Analysis of Clinical Performance Examination Using Item Response Theory and Classical Test Theory Hyun-Sun Lim, MA, Young-Mee Lee, MD, MSED, PhD, Duck-Sun Ahn, MD, MA, FRCSC, Joon-Young Lee 1, PhD, Hyung Im 2, PhD Department of Medical Education, Department of Medical Statistics 1, Korea University, College of Medicine Department of Software Engineering, Sungkonghoe University 2, Seoul, Korea Purpose: The objectives of this study were: 1) to analyze Clinical Performance Examination (CPX) items using item response theory (IRT) and classical test theory (CTT) and 2) to discuss how to apply and interpret these results in order to improve the quality of CPX items. In addition, we intended to explore statistical procedures in order to merge examination data from several different medical schools. Methods: The subject of the study was the 2005 CPX examination data from 10 medical schools located in Seoul and the Kyunggi province. For merging data from ten different medical schools, Levene's test for homogeneity of variances was used. Homogeneous group selection was conducted based on ANOVA or Kruskal-Wallis' test and Tukey's multiple comparisons appropriately. The generalized partial credit model was applied to analyze polytomous items and the 2-parameter logistic model was used to analyze dichotomous items. Results: Data from medical schools were incorporated into the analysis. The result of the discrimination index by IRT was different from that of CTT in both polytomous and dichotomous items. Discrimination index from IRT tended to be lower than that of CTT. Difficulty index of dichotomous items of two models was correlated well with each other. However, for polytomous items, IRT model provided more information than CCT. Conclusion: We discovered that the CPX items were mostly easy in terms of difficulty index, and the result from IRT and CCT model did not correlated well in the discrimination index. IRT may provide more detailed information for polytomous items, but the checklist and criteria of scoring system should be cautiously reviewed. Key Words: Clinical performance examination, Item response theory, Classical test theory 교신저자 : 이영미, 고려대학교의과대학의학교육실, 서울시성북구안암동 5 가 12-1 번지임형, 성공회대학소프트웨어공학과, 서울시구로구항동 1-1 번지 Tel: 02)20-0, Fax: 02)2-147, E-mail: ymleehj@korea.ac.kr - 15 -
서론임상수행능력평가를위한서울, 경기컨소시엄 ( 이하, CPX 컨소시엄 ) 에서는 2004년부터가입대학의학과학생들을대상으로표준화환자를이용한진료수행시험 (clinical performance examination, 이하 CPX) 을시행하고있다. CPX 컨소시엄결성의주목적은임상수행능력평가를위한실기시험의사례및문항개발그리고표준화환자훈련등에소요되는인적, 재정적자원을분담함으로써안정적이고효율적인임상수행평가시스템을운영하는것이다. 또한, 시험후결과자료에대한공유와공동연구를통하여의학교육에있어수행평가의발전을도모하는것도주요목적중에하나이다. CPX 컨소시엄의목적중에하나인시험자료의공유와활용은개별대학단위자료에서얻을수없는대단위표본수의결과를이용함으로써모집단에좀더가까운결과를추론할수있다는장점이있다. 그러나교육과정과상황이상이한각대학의자료를단순히통합하거나비교하는것에대해서는이견이많다. 따라서각대학의시험결과자료를통합하고의미있는양적자료로활용하기위해서는과학적이고합리적인접근법이필요하다. 2010년의사국가시험에임상진료시험의도입이확실시되면서각대학별혹은컨소시엄별진료수행시험문항개발및시험운영, 사후평가가관심의대상이되고있다. 임상수행평가의경험이아직풍부하지않은우리나라의경우신규문항개발도시급하지만이미출제된문항에대한분석을시행하여출제자들에게피드백을주고지속적으로문항의질적향상에노력하는것도동시에이루어져야한다. 시험을구성하는문항의양호도에따라시험의신뢰도와타당도는영향을받게된다 (Hwang, 1). 따라서어떤종류의시험이든시험을구성하고있는문항을분석하여그결과를토대로문항의질을판단하고문제점이도출된문항에대한원인교정을통하여해당시험의질을향상시킬수있다. 특히졸업시험이나자격시험과같은고부담검사 (high stake examination) 의경우높은타당도, 신 뢰도, 공정성을요구하기때문에다양한심리측정학적분석이요구되며사후문항분석도이러한목적으로활용될수있다 (Lee, 12). 문항분석을위해서는고전문항검사이론과문항반응이론을사용할수있다. 고전검사를이용한문항분석은이해하기쉽고적용하기쉽다는장점을지니고있어현재대부분시험분석에활용되고있다. 그러나고전검사이론은집단특성에따라문항난이도와변별도가달라지는것과시험특성에따라피험자의능력을다르게추정한다는단점을지니고있다. 이에비해문항반응이론은검사를치른집단에무관하게문항의난이도와변별도를산출할수있으며학생자신의고유한능력점수를추정할수있다는장점을지니고있다. 현재 CPX 컨소시엄에서채택하고있는채점방식중에는 0점과 1점으로구분되는이분문항이외도피험자의수행능력의완전및불완전성에따라 2점 ( 제대로했음 ), 1점 ( 제대로못했음 ), 0점 ( 하지않았음 ) 의부분점수를부여하는다분문항이있다. 이는임상실기시험의특성상내용타당성측면에서반드시필요하다. 그러나문항에따라서는 제대로했음 과 제대로못했음 을나누는기준이주관적이거나인위적인경우가있다. 또한, 이분문항에비하여채점기준은객관적이고타당하게설정되어있다고하더라도채점자가이를제대로해석하지못하거나일관성있게채점하지못하는오류가발생할소지가있다. 따라서부분점수를부여하는다분문항에대한내용타당성과신뢰도와더불어좀더다양한정보가제공된다면문항을검토하고개선하는데도움이될것이다. Park (2001) 는다분문항분석이론을이용할경우부분점수채택문항의특성을좀더구체적으로파악하고채점기준표를점검하거나채점과정을점검할필요가있는문항을파악할수있는장점이있다고주장하였다. 이연구의목적은 2005년도 CPX 컨소시엄의시험문제를문항반응이론과고전검사이론을이용하여비교분석하고그결과를문항점검및향상에어떻게활용할수있을지를논의하는것이다. 아울러, CPX 컨소시엄을통하여얻을수있었던여러대학 - 1 -
한국의학교육 : 제 1 권제 3 호 2007 Table I. Subject: Numbers of Examinee and Stations of Each Medical School Name of university* A B C D E F G H I J Examinee (No.) Station (No.) 3 37 41 70 7 113 124 44 5 144 5 10 * Universities arbitrarily designated with alphabets by authors. 의자료를과학적으로통합하는통계적방법을제시하는것이다. 가. 연구대상 대상및방법 CPX 컨소시엄소속 1개의과대학중 2005년 7 월 22일부터 10월 일에걸쳐실제임상수행능력평가를실행했던 13개의과대학의시험결과를분석자료로사용하였다 1). 이중시험의목적이학생의총괄평가가아니거나사용한사례 2) 수가 5개미만인 3개의과대학을분석대상에서제외하고총 10 개대학의자료를사용하였다 (Table I). 나. 연구방법 1) 자료통합및신뢰도 사례별로 10개대학의자료를통합하기위해각대학자료의분산동질성과대학간평균시험점수 1) 본연구는자료의사용에대하여 CPX 컨소시엄평가소위원회심의를득했음. 2) CPX 를구성하는각문항을시험실혹은스테이션으로부르고각시험실은 20 개 ~30 개하위문항 ( 의사 - 환사관계포함 ) 으로구성되어있다. 본연구에서는시험실을사례라고지칭하고각사례별하위문항을문항으로기술하였다. 의차이를검증하여통합여부를결정하였다. 사례별로 10개대학자료의 Levene의분산동질성검정을시행하여분산의동질성이검증된사례들의경우, 각대학간평균시험점수의차이는일원분산분석 (ANOVA) 및 Tukey 사후검증을실시하였다. 분산의동질성이확보되지않은사례들의경우, 비모수적방법인 Kruskal-Wallis 검정과자료의순위에근거한 Tukey 사후검증을시행한결과에따라자료를통합하였다. 통합된자료의각사례의신뢰도는사례를구성하는문항간내적일관성신뢰도추정방법중 Cronbach α값으로구했다. 통계분석은 SPSS 12.0 프로그램을사용하였으며, 분석결과의통계적유의성은유의수준 5% 하에서판단하였다. 2) 문항분석모형문항반응이론과고전검사이론을이용하여각사례의문항에대한난이도와변별도를계산하였다. 문항반응이론을적용한경우이분문항 (0점과 1점으로채점하는문항 ) 은 2모수로지스틱모형 (2-parameter logistic model) 으로변별도와난이도를추정하였다. 다분문항 (0, 1, 2점으로채점하는문항 ) 은일반화부분점수모형 (generalized partial credit model) 을사용하여각문항당 1개의변별도와 2개의난이도를추정하였다. 즉, 다분문항은각부분점수에해당하는난이도를각각산출할수있으며, 0점이상을받을난이도, 1점이상을받을난이도로해석할수있어서이를문항범주난이도라고부른다. 문항모수를추정하기위하여프로그램 Parscale 4.1을사용하였다. 고전검사이론을이용한문항분석방법중에서변별도지수는양분점상관계수를활용하였으며, 난이도는전체피험자중정답을맞힌피험자의비율을사용하였다. a. 변별도분류기준문항변별도지수를사용하여문항을평가하는절대적기준은없지만 2모수로지스틱모형을사용한문항분석에서는문항변별도가 0.34 이하인문항은변별도가거의없는문항, 0.35~0.4는변별도가낮은문항, 0.5~1.34는변별도가적절한문항, 1.35~1.는변별도가높은문항, 1.70이상은변별도가매우높은 - 17 -
Table II. Levene's Test for Homogeneity of Variances Levene statistic Numerator df Denominator df p-value Case 1 Case 2 Case 3 Case 4 Case 5 Case Case 7 Case 2.15 4.327 2. 1.71 1.32 4.354 0.150 0.401 2 2 70 70 70 75 75 240 240.023.004.072.21.1.70 문항으로간주된다 (Seong, 2005). 본연구에서는편의상문항의변별력을 3개의구간즉, 문항변별도지수가 0.34이하이면변별력이거의없는문항, 0.35~1.이면변별력이어느정도있는문항, 1.70 이상이면변별력이매우높은문항으로분류하였다. 고전검사이론에서문항의변별도를평가하는기준역시여러가지가있을수있지만일반적으로많이사용하는분류방법에따라 0.20 미만인문항은변별력이거의없어서수정하거나제거해야할문항, 0.21~0.40 미만이면변별력있는문항, 0.40 이상이면변별력이높은문항으로간주하였다. b. 난이도분류기준문항반응이론에서난이도는 0을기준으로어렵고쉬움이결정된다. 일반적으로난이도가 -0.5 미만인문항은쉬운문항, -0.5~0.5인문항은난이도가중간정도인문항으로, 0.5 이상인문항은어려운문항으로간주된다 (Seong, 2005). 고전검사이론에서문항난이도는정답률을뜻하며, 난이도가 0. 이상인문항은쉬운문항, 0.2~0. 사이의문항은중간정도, 0.2 미만인문항은어려운문항으로분류한다. 결과가. 대학간동질성검증과자료통합각사례별로 10개대학의대학간자료의분산동질성검증을시행하였다. 총 10개사례중사례 와 10은 1개교에서만시행하였음으로분석에서제외하 였다. 분석결과사례 4, 5, 7, 은대학별자료의분산이같았고사례 1, 2, 3, 의대학별자료의분산은서로다른것으로나타났다 (Table II). 분산의동질성이확인된사례 4, 5, 7, 의대학간평균시험점수의차이는분산분석과 Tukey 사후검증을시행하였다. 그결과사례 4의경우, 전체 10개대학중 7개대학간의평균은유의한차이가없었으나, A대학, E대학, I대학간의평균의차이는유의하였다. 따라서사례 4의경우 A, E, I 대학의자료를제외한나머지 7개대학의자료를통합하여연구에사용하였다. 동일한방법으로사례 5는 B, E, F 대학자료를제외한나머지 7개대학의자료를그리고사례 7과 은 H 대학자료를제외한나머지 개대학의자료를통합하여사용하였다 (Table III). 대학간분산의차이를보였던사례 1, 2, 3, 에대해서는 Kruskal-Wallis 검정및자료의순위에기초한 Tukey 사후검증을실시하였다. 사후검증결과, 유의한차이를보인대학들의자료를제거하고통합하였다. 즉, 사례 1에서는 A, E, F, H 대학자료가제외되었으며, 사례 2, 3, 에서는 F 대학자료를제외하였다. F 대학의사례별평균값은 개사례중 개사례가다른 개대학의평균값과유의한차이를보여타대학의시험자료와는이질적인요소가있는것으로추정하고모든자료통합에서삭제하였다. 각사례의통합된대학자료의최종결과는 Table III과같다. - 1 -
한국의학교육 : 제 1 권제 3 호 2007 Table III. Homogeneous Group Selection Based on ANOVA or Kruskal-Wallis' Test and Tukey's Multiple Comparisons Appropriately Case 1 Case 2 Case 3 Case Case 4 Case 5 Case 7 Case Method used for group comparisons Kruskal-Wallis Kruskal-Wallis Kruskal-Wallis Kruskal-Wallis ANOVA ANOVA ANOVA ANOVA * Identified by Tukey's multiple comparison test. df F-value p-value Heterogeneous groups* 2 2.7.507.412 12.15 12.77.5.14 7.15.004.002.001 A, E, F, H F F F A, E, I B, E, F H H Number of schools combined 7 Table IV. Reliability and the Number of Total, Dichotomous and Polytomous Items of Each Case Examinee (N) Cronbach α Total Item (N) Dichotomous (N) Polytomous (N) Case 1 Case 2 Case 3 Case Case 4 Case 5 Case 7 Case 54 730 727 54 571 14 17.505.15.52.554.517.534.53.413 21 1 21 21 17 21 1 12 17 15 10 1 12 20 1 12 4 4 11 5 5 1 - - 14 11 30 나. 시험각사례의신뢰도 사례별로통합된자료를사용하여 Cronbach α값을산출하였다. 각사례별신뢰도수준은 0.413~0.15이었으며각사례의응시자수, 문항수는 Table IV와같다. 다. 문항분석결과비교 각사례별문항분석은앞서기술한과정을거쳐총 10개의사례중일개대학에서만사용한두개사례를제외한 개의사례가사용되었다. 각사례는최소 12개부터 21개까지의하위문항으로구성되어있었다 3). 개사례의총문항은 14개이며이중이분 3) 각사례중공통적으로들어가는환자 - 의사관계문항은임상적지식과술기를평가하는영역과는다른성격을띤문항으로판단되어이번연구에서는제외하였다. 문항 (0점과 1점으로채점 ) 은 11개이고, 다분문항 (0 점, 1점, 2점으로부분점수가있는문항 ) 은 30개였다. 이분문항중한개문항은정답자가한사람도없어서분석대상에서제외하여최종적으로총 147개문항을분석하였다. 개각사례별로변별도를 3개수준, 난이도를 3개수준으로분류하여정리한결과는 Table V와같다. 1) 다분문항분석 (Table VI) a. 변별도문항반응이론의일반화부분점수모형을사용하여다분문항에대한 1개의변별도와 2개의난이도범주를추정하였다. 그결과전체 30개의다분문항중 17개 (5.%) 문항의변별도가낮거나매우낮았으며, 변별도가매우높은문항은 2개 (.7%) 였다 (Table VI). - 1 -
Table V. Classification of Each Case According to Discrimination and Difficulty Indices using Item Response Theory and Classical Test Theory Case (number of items) 1 (N=21) 2 (N=1) 3 (N=21) 4 (N=21) 5 (N=17) (N=21) 7 (N=15) (N=12) Discrimination index Difficulty index CTT* (%) IRT (%) CTT (%) IRT 1 (%) IRT 2 (%) 2 (.) (42.) Easy 5 (23.) 12 (57.1) 4 (100.0) Acceptable 15 (71.4) 12 (57.1) Moderate 15 (71.4) 4 (1.1) 0 (0.0) High 4 (1.0) 0 (0.0) Difficult 1 (4.) 5 (23.) 0 (0.0) 2 (10.5) (31.) Easy (31.) 12 (3.2) 2 (50.0) Acceptable 13 (.4) 10 (52.) Moderate 12 (3.2) 3 (15.) 1 (25.0) High 5 (21.1) 3 (15.) Difficult 1 (5.2) 4 (21.0) 1 (25.0) 2 (.5) 11 (52.3) Easy (42.5) 10 (47.) 11 (100.0) Acceptable 14 (.4) 10 (47.7) Moderate 11 (52.3) 3 (14.3) 0 (0.0) High 4 (21.1) 0 (0.0) Difficult 1 (5.2) (3.1) 0 (0.0) 3 (14.3) 5 (23.) Easy (3.1) 10 (47.) 0 (0.0) Acceptable 15 (71.4) 1 (7.2) Moderate 7 (33.3) 0 (0.0) 1 (25.0) High 3 (14.3) 0 (0.0) Difficult (2.) 11 (52.4) 3 (75.0) 1 (5.) (35.3) Easy 5 (2.4) (35.0) 0 (0.0) Acceptable 11 (4.7) 11 (4.7) Moderate 10 (5.) 5 (30.0) 1 (100.0) High 5 (2.4) 0 (0.0) Difficult 2 (11.) (35.0) 0 (0.0) need to be corrected 3 (14.3) 7 (33.4) Easy 11 (52.5) 1 (7.2) 5 (100.0) acceptable 14 (.7) 12 (57.1) Moderate (42.) 1 (4.) 0 (0.0) high 4 (1.0) 2 (.5) Difficult 1 (4.) 4 (1.0) 0 (0.0) 3 (20.0) 0 (0.0) Easy (40.0) (0.0) - Acceptable 4 (2.7) 13 (.7) Moderate (40.0) 0 (0.0) - High (53.3) 2 (13.3) Difficult 3 (20.0) (40.0) - 2 (1.) 2 (1.) Easy (50.0) 5 (41.7) - Acceptable 5 (41.7) 10 (3.4) Moderate (50.0) 4 (33.3) - High 5 (41.7) 0 (0.0) Difficult 0 (0.0) 3 (25.0) - * CTT stands for classical test theory, IRT stands for item response theory, IRT 1 means difficulty index results from IRT for dichotomous items, IRT 2 means difficulty index results from IRT for polytomous items. 고전검사이론으로분석한결과전체 30개문항중변별도가낮아문항을수정하거나삭제해야하는문항은 1개 (3.3%) 였고, 수용가능한변별도를지닌문항이 15개 (50.0%), 변별도가높은문항이 14개 (4.7%) 인것으로나타났다. 문항반응이론과고전검사이론의결과를비교하기위하여산포도를그린결과는 Fig. 1과같다. 문항반응이론을사용하여추정한변별도는고전검사이론으로계산한변별도보다대부분낮은경향을보여주었다. - 10 -
한국의학교육 : 제 1 권제 3 호 2007 Table VI. Comparison of Discrimination and Difficulty Indices of Polytomous Item According to Item Response Theory and Classical Test Theory Case 1 Case 2 Case 3 Case 4 Q1 Q17 Q1 Q1 Q14 Q15 Q1 Q17 Q10 Q11 Q12 Q13 Q14 Q15 Q1 Q17 Q1 Q1 Q Q13 Q14 Q15 Q1 Q17 Discrimination index Difficulty index Frequency* Item response theory 0.34 0.0 0.2 0.2 0.35 0.1 0.4 0.34 0.15 0.15 0.17 0.20 0.40 0.23 0.3 0.71 0.27 0.20 0.44 0.27 0.2 0.57 0. 0.44 Classical test theory 0.22 0.21 0.25 0.11 0.52 0.5 0.0 0.27 0.3 0.2 0.25 0.33 0.41 0.40 0.4 0.3 0.34 0.41 0.42 0.3 0.33 0.54 0.52 0.42 Item response theory score 1 score 2-2.7-4.40-0.5 2.13 0.1-0.2 0.22 4.3 3.5.33-0. 1.03 0.77 1.25-0.3-0.1-1.3 7.53 0.14 5.4.3 1.54 1.12-4. -0.55-0.3-2.4-5.3-0.21-1.55-0. 1.0-3. -1.77 -.7 -. -5.15-2.00-2.05-3.1-4.0-10.0-1. 0.41-0.02 1.13 1.5 0.5 Classical test theory 0.71 0.3 0.77 0.7 0.5 0.77 0.5 0.0 0.51 0.2 0.5 0.3 0.1 0.55 0.1 0.5 0. 0. 0.71 0 1 2 Case 5 Q1 0.1 0.42.0 0.2 0.17 441 3 7 Case Q15 Q1 Q17 Q1 Q1 4.27 3.2 0.12 0.10 0.13 0.5 0. 0.37 0.40 0.2-1.2-1.2 4.13 11.73 15.7-0.52-0.53-7.2-5.51-5.05 * frequency: number of examinees acquired each score, items which had the difficulty index of score 2 were higher than that of score 1, items which had the difficulty index of score 1 were greater than 4. 0.11 0.0 0.22 0.1 0. 0.4 0.4 0.3 0.2 0.10 5 5 112 20 114 233 42 2 47 70 5 253 101 27 5 224 12 4 51 402 402 402 1 1 203 443 5 224 12 32 204 10 145 5 120 3 5 1 22 143 70 22 1 17 103 42 2 10 13 33 177 174 2 1 312 37 407 450 2 510 352 30 30 155 572 570 47 331 55 7 577 4 42 4 37 7 44 237 471 473 375 11 5 b. 난이도일반화부분점수모형을사용하여다분문항분석을하여각문항에대하여 1점을받을난이도 ( 범주난이도 1) 와 2점을받을난이도 ( 범주난이도 2) 를추정 하였다 (Table VI). Table VI를보면총 30개의다분문항중 24개문항에서범주난이도 1이, 범주난이도 2 보다큰값을보였다. 이는 1점을받는것이 2점을받는것보다 - 11 -
Fig. 1. Scatter plot of discrimination index for polytomous items. Fig. 2. Scatter plot of discrimination index for dichotomous items. Fig. 3. Scatter plot of difficulty index for dichotomous items 훨씬어렵다는것을의미한다. 이를사례별로살펴보면, 사례1의 2개문항 (Q1, Q1), 사례2의 4개문항, 사례3의 11개문항, 사례4의 5문항중 3문항 (Q13, Q14, Q15), 사례5의 1문항, 사례의 3개문항 (Q17, Q1, Q1) 에서범주난이도 1의값이범주난 이도2의값보다컸다. 특히범주난이도 1의값이 4.0이상으로큰값을갖는문항은 개문항 ( 사례2 의 Q17, 사례3의 Q11과 Q1, 사례4의 Q13과 Q14, 사례5의 Q1, 사례의 Q17, Q1, Q1) 이었다. 이러한문항들에대하여수험자들이 0점, 1점, 2점을받은빈도를비교한결과, 0점을받은빈도가 1점을받은빈도보다훨씬높았고, 2점을받은빈도도 1점을받을빈도보다높아서대부분 1점을빈도가가장낮은것으로나타났다. 사례1의 Q1과 Q17, 사례4의 Q17, 사례의 Q15 과 Q1처럼문항이쉽고, 2점의빈도, 1점의빈도, 0 점의빈도가순서대로높으면범주난이도 1이범주난이도 2보다낮아서부분점수가의미가있으며, 다분문항의변별력이어느정도있는것으로나타났다. 특히사례의 Q15, Q1의변별도는 4.27과 3.2 로가장변별력이높은문항이었다. 또한사례4의 Q1은어려운문항으로 0점의빈도, 1점의빈도, 2 점의빈도가순서대로높으며범주난이도 2가범주난이도 1보다높아서역시부분점수가의미가있고, 변별력이있는다분문항인것으로나타났다. 고전검사이론으로계산한다분문항의난이도는각다분문항점수의합을만점으로나누어난이도 - 12 -
한국의학교육 : 제 1 권제 3 호 2007 를계산하였다. 사례2의 Q17, 사례4의 Q13, Q14, Q1, 사례5의 Q1번문항, 사례의 Q1는매우어려운문항으로써정답에반응한학생이 20% 미만이었다. 이 개문항을제외한 1개문항의난이도는대부분 0.~0. 사이에분포하여다분문항은전반적으로쉬운것으로나타났다. 2) 이분문항분석 a. 변별도문항반응이론을적용하여총 117개이분문항의변별도를구한결과, 33개 (2.2%) 의문항이변별도가거의없는문항으로나타났다. 변별도가있는문항은 0개 (.4%) 였고높은변별도를보인문항은 4개 (3.4%) 였다. 이에반해, 고전검사이론을적용한경우, 총 117 개문항중 1개 (13.7%) 문항이변별도가거의없어서수정하거나제거해야하는문항으로나타났다. 77개 (5.%) 문항은변별도가있는문항이며, 변별도가높은문항은 24개 (20.5%) 였다. 문항반응이론과고전검사이론으로계산한변별도를산포도 (Fig. 2) 로비교한결과, 두가지방법에의한변별도의분포가상이하였으며, 전체적으로문항반응이론으로계산된변별도가고전검사에서산출된값보다낮은경향을보였다. b. 난이도 117개의이분문항에대하여문항반응이론을적용하여분석한결과, 쉬운문항은 47개 (40.2%), 중간수준의문항은 5개 (50.4%), 어려운문항은 11개 (.4%) 였다. 고전검사이론을적용하여분석한결과는쉬운문항이 70개 (5.%), 중간수준의문항이 1개 (13.7%), 어려운문항이 31개 (2.5%) 로나타났다. 두가지방법에의한난이도분석결과의산포도는 Fig. 3과같으며두가지분석방법상관성은상관계수가 -. (p<0.01) 로매우높은것으로나타났다. 고찰이연구는대규모자료의통합방법과문항점검 및향상을위한방법을모색하고자하는목적으로, 2005년에시행된서울과경기도에위치하는 CPX 컨소시엄소속의과대학중 10개의과대학의 CPX 시험자료를통합한후총 개사례를문항반응이론과고전검사이론을활용하여문항분석을실시하였다. 저자들은문항분석에앞서각대학의자료를과학적이고합리적인방법으로통합하는방법을모색해보았다. 서로다른집단에서얻어진자료를비교하기위해서는점수의분포가서로비슷한모양을이룰때적절한비교가될수있다 (Munro, 2001). 이에분산동질성과대학간평균시험점수의차이를검정하여통합여부를결정하였다. 10개대학자료의 Levene의분산동질성검증을시행하였고분산의동질성이검증된사례들은일원분산분석 (ANOVA) 및 Tukey 사후검증을실시하였다. 분산의동질성이확보되지않은사례들은비모수적방법인 Kruskal-Wallis 검정과자료의순위에근거한 Tukey 사후검증을시행한결과에따라자료를통합하였다. 물론본연구에서사용한자료통합방법이외도다양한방법으로과학적자료통합이가능하겠지만연구자들이사용한방법이향후단위대학간평가자료를통합하는한가지방법으로고려될수있을것으로생각된다. 문항반응이론과고전검사이론을적용하여문항의변별도를분석한결과는차이를나타냈다. 즉, 다분문항 (개사례의총 30개문항 ) 의경우, 다분문항반응모형을적용하면 17개문항의변별도가매우낮아서학생들의능력수준을제대로변별하기어려운문항으로나타났으나고전검사이론을적용하면 1개문항만이변별력이없는것으로나타났다. 이분문항의경우도두가지검사간의변별도결과가차이를보였고문항반응이론으로산출한변별도가고전검사결과보다낮은경향을보였다. 이는고전검사이론만으로 CPX 문항의변별도를계산할경우변별력이과대평가될가능성이있음을추론할수있게한다. 이결과는문항반응이론과고전검사이론의문항문석의결과가상관관계가높았다고보고한기존의연구결과 (Lee, 12; Lee, 13; Lim et al., 2004) 와는일치하지않는다. 기존의연구가대부분지필 - 13 -
고사의이분문항에대한분석이었는데반하여본연구의대상은수행형문항이며또한다분문항을포함하고있다는것이이러한차이를부분적으로설명할수있게한다. 난이도의추정에있어서는이분문항의경우문항반응이론과고전검사이론을이용한분석결과는전체적으로쉬운것으로나타났으며두가지방법사이의상관성이높았다. 다분문항의경우는다분문항반응이론을적용하였을때고전검사이론에서는추정할수없는부분점수의난이도를추정할수있게함으로써좀더풍부한정보를얻을수있었다. 즉, 2점을받을난이도와 1점을받을난이도추정치를비교한결과 30개문항중 24개가범주난이도 1 보다범주난이도 2가높은것으로나타났다. 이결과는다분문항이아주어렵거나쉬운경우에자주나타났다. 쉬운다분문항에서는대부분의학생이만점인 2점을받고 1점을받은학생은 0점을받은학생들보다훨씬적었다. 어려운문항은 0점을받은학생이대부분이며 1점을받은학생보다 2점은받은학생이역시많은경우가대부분이었다. 일반적인시험에서는능력이낮은학생이 0점, 능력이중간인학생이 1점그리고능력이높은학생이 2점을받아야한다는것이부분점수를채택하는시험의기본적가정이다. 따라서대부분학생이 0점이나 2점을받고, 1점을받는학생은적어서중간수준의능력을가진학생들을제대로변별할수없는문항이라면부분점수를부여하는것을제고해야할필요가있다. 즉, 이런현상이발생하는이유는문항이지나치게어려워서반응을못하는학생이많기때문이거나, 또는부분점수 1점을주는채점기준이적절하지않기때문일수있어서채점표나채점과정을점검하는것이필요하다 (Park, 2001). CPX는일반적인시험과달리수험자들의능력을변별하지못한다해도목적이나내용상반드시부분점수제를채택하는것이타당할수있다. 즉, 신체진찰, 병력청취, 정보나누기등의영역에서표준적절차에따라완벽하게시행하는것과시늉만내는것은엄격한차이가있기에부분점수의부여가중요하다. 따라서일반적인수행평가와는달리주의깊 게다분문항반응이론의결과를해석해야할것이다. 흥미로운사실은이시험에서사용되었던채점기준표를연구자들이내용검토를한결과, 다분문항이론분석에서부분점수부여하는것이중간능력수준의학생을변별하는데크게기여하지못하는것으로분석된문항들의대다수가신체진찰에관련된것이었다. 특히학생수준에서수행하기어려운신체진찰행위인경우, 대부분학생들은 0점또는 2점을받아서중간능력을가진학생을선별하는데한계가있음을발견할수있었다. 이는신체진찰영역이다른어떤영역보다부분점수를부여하는것이필요할것이라는기존가정에의문점을갖게한다. 그러나이것이부분점수가타당하지않거나필요치않다는것을의미하는것은아니다. 다만, 기존출제문제를검토할때다분문항분석결과를활용하는것이채점기준표의점검이필요한문항을선별하는데도움을줄수있다는것이다. 즉, CPX 문항수정개발워크숍과같은사후점검을시행할때내용타당성검토와더불어보조적자료로써다분문항분석결과를활용할수있을것으로생각된다. 진료수행시험은문항개발에많은인적물적자원이투입되어야하기때문에기출문항을분석하고수정보완하는과정을통하여문항개발의경험을축적하는것이필요하다. 또한, 다른시험과는달리장기간에걸쳐시험이시행되므로수험자들사이의정보공유로인한시험의안정성이위협받지않기위해서는난이도, 변별도, 문항추측도가동등한다수의문항을확보할수있는문제은행구축이필요하다. 문제은행구축을위해서는문항분석이필수적으로이루어져야한다. 진료수행시험의문항분석을고전검사이론으로하는것이더적합할것인지, 아니면문항반응이론을적용하는것이더합당할것인지는향후더많은연구가이루어져야할것이다. 문항반응이론의경우, 검사동등화 (Huh, 2005) 와수행형문항을채점하는채점자들의일관성정도를살펴볼수있다는장점 (Park, 2001) 이있다. 결론적으로 2005년 CPX시험을문항반응이론과고전검사이론을이용하여분석한결과전반적으로중간수준이나쉬운문항들로구성되어있었으며변 - 14 -
한국의학교육 : 제 1 권제 3 호 2007 별도는고전검사이론과문항반응이론의분석결과가일치하지않았다. 다분문항반응이론을이용한분석은부분점수채택문항의특성파악과채점기준표점검이필요한문항을선별하는데보조적자료로활용할수가능성을보여주었지만임상수행평가의특성상신중히적용, 해석되어야할것이다. 향후임상수행평가문항의질적관리와문제은행을구축하는데적절한문항분석방법에대한후속연구가지속적으로이루어져야할것이다. 감사의글이연구를수행할수있도록자료를제공해주신 2005년도서울, 경기지역 CPX 컨소시엄관계자및참여대학에감사드립니다. 참고문헌 Munro, B. H.(2001). Statistical Methods for Health Care Research. Philadelphia: Lippincott Williams & Wilkins. Huh, S.(2005). Test equating of a medical school lecture examination based on item response theory: a case study. Korean Journal of Medical Education, 17(1), 15-25. Lee, J.S.(12). Item analysis method according to classical test theory and item response theory. Yonsei Kyoyook Kwahak, 41, 1-0. Lee, Y.M., So, Y.H., Ahn, D.S., Rhee, K.J., Im, H.(2002). Psychometric analysis of comprehensive basic medical science examination. Korean Journal of Medical Education, 14(2), 301-30. Lee, Y.W.(13). Comparison of item analysis results according to classical test theory and item response theory. Journal of Education Evaluation, (2), 217-23. Lim, E.Y., Park, H.H., Kwon, I., Song, G.L., Huh, S.(2004). Comparison of item analysis results of Korean medical licensing examination according to classical test theory and item response theory. Journal of Educational Evaluation for Health Professions, 1(1), 7-7. Park, C.(2001)a. An application of item response theory to an analysis of performance-based items. Journal of Education Evaluation, 3(2), 215-232. Park, C.(2001)b. Polytomous item response theory. Seoul: Kyoyook Gwahak Sa. Seong, T.J.(2005). Education evaluation. Seoul: Hakjisa. Hwang, JK.(1). School learning and evaluation. Seoul: Kyoyook Gwahak Sa. - 15 -