스트레스硏究 : 第 19 卷第 4 號 2011 원저 일차의료에서주요우울장애선별을위한 PHQ-2/PHQ-9 연속선별검사의유용성 * 성균관대학교의과대학강북삼성병원가정의학교실, 연세대학교의과대학세브란스병원가정의학교실 김성래 *, ㆍ신호철 * ㆍ이덕철 ㆍ김철환 * ㆍ성은주 * ㆍ이계화 * ㆍ김자영 * Use of the PHQ-2/PHQ-9 Serial Screening Instrument for Detecting Major Depressive Disorder in Primary Care Seong-Rai Kim*,, Ho-Cheol Shin*, Duk-Chul Lee, Cheol-Hwan Kim*, Eun-Ju Sung*, Kye-Hwa Lee*, Ja-Young Kim* Department of Family Medicine, *Kangbuk Samsung Hospital, Sungkyunkwan University School of Medicine, Severance Hospital, Yonsei University College of Medicine, Seoul, Korea In Primary care, many screening tools to detect depression are used. Patient health questionnaires (PHQ)-2/PHQ-9 serial screening is reported to be more efficient than other questionnaires in primary setting in western country. Therefore, we identified the efficacy of PHQ-2/PHQ-9 serial screening in primary care setting in Korea. We compared PHQ-2/PHQ-9 serial screening with other screening tools in terms of diagnostic accuracy and time required to detect Major depressive disorder (MDD). Total 201 ambulatory patients completed questionnaires in a family practice center at one university hospital. Then, the subjects were interviewed by family doctors according to DSM-IV criteria. The reliability, sensitivity, specificity and the time required to finish PHQ-2/PHQ-9 serial screening were examined and compared to other screening tools (PHQ-2, PHQ-9, BDI). There were 27 patients in the MDD group and 174 in the non-mdd group. The Cronbach s alpha of PHQ-2, PHQ-9, and BDI was 0.730, 0.863, and 0.905, respectively. The diagnostic accuracy of PHQ-2/PHQ-9 serial screening was 87.0%, which is superior to those of PHQ-2, PHQ-9, and BDI (69.2%, 81.6% and 72.6%, respectively) The estimated time required of PHQ-2/PHQ-9 serial screening, about 132.9±6.1 seconds, was less than those of BDI, about 224.17±11.9 seconds. PHQ-2/PHQ-9 serial screening had a better diagnostic accuracy and took less time than the other screening tools for depression. Therefore, PHQ-2/PHQ-9 serial screening is the most useful measure for detecting depression in primary care. (Korean J Str Res 2011;19:405 410) Key Words: Depression, Screening, PHQ, BDI 서 론 책임저자 : 신호철, 서울시종로구평동 108 번지 110-746, 강북삼성병원가정의학과 Tel: 02-2001-2277, E-mail: hcfm.shin@samsung.com 접수 : 2011 년 10 월 7 일, 심사 : 2011 년 12 월 3 일게재승인 : 2011 년 12 월 17 일 우울증은일차의료에서매우흔하게접하게되는질환으로, 국내유병률또한계속증가하는추세이다. 2006년한국내역학조사 (Cho MJ et al., 2009) 에서주요우울장애의 405
스트레스硏究 : 제 19 권제 4 호 2011 평생유병률은 5.6%, 1년유병률은 2.5% 로이전연구에비해증가하는양상을보였다. 세계보건기구 (WHO) 의보고에따르면우울증으로인한사회, 경제적부담은계속증가해서 2020년에는모든질병들가운데 2위를차지할것으로전망된다 (Sartorius et al., 1996). 일차진료의를방문하는성인환자에서우울증의유병률은지역사회유병률의약 2배인것으로보고되고있다. 대부분의환자들이정신과환자로낙인찍히기 (stigmatized) 를두려워하여정신과에의뢰를기피하고일차진료에서치료받는경우가많으므로일차의료에서우울증의선별과진단은매우중요하다 (Kim DH et al., 2006). 하지만일차진료의를찾는우울증환자들은정서적증상보다는통증이나신체기능저하와같은신체적인증상을주로호소하는경향이있으며 (Beck AT et al., 1961), 일차의료의바쁜외래특성상진단에충분한면담이어렵기때문에약 50% 의환자들이발견되지못하고있다 (Whooley et al., 1997). 이러한측면에서, 일차진료에서의우울증에대한효율적인선별이중요하다고볼수있다. 2002년미국질병예방위원회 (USPSTF) 에서도우울증의간파와환자의예후를향상시키기위해성인에서우울증선별검사를권고하였으나, 어떤선별도구를사용해야하는지에대해서는제시를하지않았다 (Pignone et al., 2002). 현재일차의료영역에서우울증에대한다양한선별검사도구들이사용되고있다. 가장많이사용되는도구로는 Beck Depression Inventory (BDI), Zung의 Self-rating Depression Scale (SDS), Hamilton Depression Rating Scale (HDRS), Center for Epidemiologic Studies Depression Scale (CES-D), Patient Health Questionnaire-2 (PHQ-2) 와 PHQ-9 등이있다. 특히최근 PHQ-2와 PHQ-9의연속선별검사 (serial screening) 는문항수가적어시간이덜걸리면서도우울증을보다더정확하게진단할수있다는보고가나오면서주목을받고있다 (Thibault et al., 2004). 국내에서는 BDI (Hahn HM et al., 1986; Shin HC et al., 2000), SDS (Yang JG, 1982; Shin HC et al., 2000), HDRS (Kim CY et al., 2002), CES-D (Shin SC et al., 1991) 등에대한표준화작업이이루어졌으나이평가도구들은문항수가너무많아서바쁜외래진료환경및일차진료영역에서는사용하기불편한면이있다 (Lim KH et al., 2009). 일차의료환경에서사용하기에가장적합해보이는 PHQ-2와 PHQ-9에대한국내표준화연구는미흡한편이 다. Myung SK et al.(2000) 에의한 PHQ-2의표준화연구는청소년들만을대상으로하였고, Choi HS et al.(2007) 에의한 PHQ-9의표준화연구는다른선별도구와비교를하지않았으며, 연속선별검사의유용성은평가하지않았다. Thibault et al.(2004) 은연속적인두가지설문을이용하는것이하나의설문을이용하는것보다더정확하므로, PHQ-2와 PHQ-9의연속선별검사로우울증을보다더정확하게진단할수있다고제시하였다. 하지만, 국내에서이연속선별검사를다른선별도구들과비교한연구는없다. 본연구에서는 PHQ-2/PHQ-9 연속선별검사 (serial screening) 가다른우울증선별검사도구인 BDI 및 PHQ-2, PHQ-9 단독시행보다진단정확도가높고, 소요되는시간에있어서도이득이있어가장유용한선별검사가될수있는지확인해보고자한다. 재료및방법 1. 연구대상및기간 2010년 2월 1일부터 6월 30일까지 5개월동안일개대학병원가정의학과외래를방문한성인환자중우울증에대한설문에참여하기를동의한 201명을대상으로하였다. 2. 연구도구 1) PHQ-2: PHQ-2는흥미상실과우울과관련된두가지항목만을묻는 2항목선별검사로, 환자들은이에대해예 / 아니오로답하도록이루어진설문이다. 즉, 자기보고형이아닌임상가-평가형우울증선별도구이며, 두질문중어느하나라도양성을보인경우검사양성으로판정한다. 본연구에서는 Myung SK et al.(2000) 이번안한 PHQ-2 설문을사용하였으며, 그내용은다음과같다. 1 지난한달동안당신은자주기분이쳐지거나우울하거나희망이없다는느낌으로고민하고있습니까? 2 지난한달동안당신은자주일상적인활동에흥미나즐거움의감소때문에고민하고있습니까? 2) PHQ-9: DSM-IV의우울증진단기준에해당하는 9가지항목으로구성되고, 최근 2주동안얼마나이러한문제를자주겪었는지알아보는도구이다. 반응은 전혀그렇지않다., 수일정도, 1주일이상, 거의매일 의 4점척도로평가하며, 점수의범위는 0 27점이다. 본연구에서는최홍석등의연구 (Choi HS et al., 2007) 에서제시한절단점수 (10점) 와, 이연구에서번안한설문을사용하였다. 406
김성래외 6 인 : 일차의료에서주요우울장애선별을위한 PHQ-2/PHQ-9 연속선별검사의유용성 3) BDI: 일차의료에서가장흔하게사용되고있는선별검사도구중하나로서, 총 21문항으로구성되어있다. 반응은각문항당 0 3점으로평가하며, 점수의범위는 0 63점이다. 본연구에서는 Hahn HM et al.(1986) 에서제시한절단점수 (13점) 와, 이연구에서번안한설문을사용하였다. 4) PHQ-2/PHQ-9 연속선별검사 : 한환자에게 PHQ-2 와 PHQ-9 설문을연속적으로시행하여우울증을선별하는것이다. PHQ-2와 PHQ-9 두설문에모두양성인경우만을검사양성으로판정하며, 나머지경우는음성으로판정한다. 3. 연구방법외래진료중주치의가연구대상들에게 PHQ-2에해당하는 2항목의질문을하였고, PHQ-2의결과와관계없이모든대상자들에게설문지를작성하도록하였다. 설문에는연령, 성별, 결혼상태, 교육, 가계수입, 흡연, 음주등과관련된사회인구학적특성및 PHQ-9, BDI의설문내용과각설문의소요시간이포함되어있었다. 연구대상이직접자기기입식으로설문을작성하도록하여자료를수집하였다. 이후설문을모두작성한환자들에대해주치의가직접주요우울장애의 DSM-IV 진단기준에의거하여면접을시행하였고, 이기준을우울증진단의황금기준 (Gold standard) 으로삼았다. 이를통해 PHQ-2/PHQ-9 연속선별검사의정확도및소요시간을 PHQ-2, PHQ-9, BDI 각각의설문과비교하였다. 4. 통계분석연구대상중우울증환자와비우울증환자의사회인구학적특성비교를위해 Chi-square 검정을이용하였으며, PHQ-2, PHQ-9, BDI 각설문의신뢰도분석을위해 Cronbach s alpha 값을산출하였다. 또한어떤설문도구가주요우울장애에대해가장유용한지를알아보기위해, PHQ-2, PHQ-9, BDI, PHQ-2/PHQ-9 연속선별검사각각의 DSM-IV 진단기준에대한정확도및소요시간을비교하였다. 통계적유의수준은 0.05 미만으로하였으며, 모든자료분석에는통계프로그램인 PASW Statistics 17.0 (SPSS Inc. Chicago, IL, USA) 를사용하였다. Table 1. Sociodemographic characteristics of study populations. a Characteristics Age (y) 30 31 40 41 50 51 60 61 Female sex Education level Elementary school Middle school High schiool College and higher Marriage Single Married Divorced No response Income (10 4 won/month) 99 100 199 200 299 300 Smoking Non-smoking Ex-smoking Current smoking Alcohol drinking None 1 2/w 3 4/w 5 /w 결 MDD group d (n=27) 10 (37) 7 (25.9) 3 (12.5) 2 (7.4) 5 (18.5) 15 (55.6) 2 (7.4) 2 (7.4) 8 (29.6) 15 (55.6) 13 (48.1) 12 (44.4) 1 (3.7) 1 (3.7) 6 (22.2) 4 (14.8) 8 (29.6) 9 (33.3) 16 (59.3) 6 (22.2) 5 (15.6) 13 (48.1) 13 (48.1) 1 (3.7) 0 (0) Non-MDD group d (n=174) 43 (24.7) 29 (16.7) 35 (20.1) 39 (22.4) 28 (16.1) 104 (59.8) 16 (9.2) 17 (9.8) 45 (25.9) 96 (55.2) 49 (24.4) 106 (60.9) 5 (2.9) 14 (8.0) 20 (11.5) 21 (12.1) 43 (24.7) 90 (51.7) 114 (65.5) 26 (14.9) 34 (19.5) 100 (57.5) 61 (35.1) 8 (4.6) 5 (2.9) Total (n=201) 53 (26.4) 36 (17.9) 38 (18.9) 41 (20.4) 33 (16.4) 119 (59.2) 18 (9.0) 19 (9.5) 53 (26.4) 111 (55.2) 62 (30.8) 118 (58.7) 6 (3.0) 15 (7.5) 26 (12.9) 25 (12.4) 51 (25.4) 99 (49.3) 130 (64.7) 32 (15.9) 39 (19.4) 113 (56.2) 74 (36.8) 9 (4.5) 5 (2.5) p-value b 0.678 MDD: major depressive disorder. a Data are presented as number (%). b p-value from χ 2 test comparing a difference between any of the 2 study groups. c Not significant. d MDD group and Non-MDD group classified by DSM-IV. 과 1. 대상자의사회인구학적특성 총 201명의조사대상중 DSM-IV 진단기준에의한우울증환자는 27명 (13.4%), 비우울증환자는 174명 (86.6%) 이었다. 연구대상의사회인구학적특성즉, 연령, 성별, 결혼상태, 교육, 가계수입, 흡연, 음주등은우울증환자군과비우울증환자군사이에통계적으로유의한차이를보이지않 407
스트레스硏究 : 제 19 권제 4 호 2011 Table 2. The result of screening tools for major depressive disorder. a Test positive result PHQ-2 PHQ-9 BDI PHQ-2/PHQ-9 serial screening MDD 27/27 (100%) 23/27 (85.2%) 22/27 (81.5%) 23/27 (85.2%) Disease status No MDD 62/174 (35.6%) 33/174 (19%) 50/174 (28.7%) 22/174 (15.5%) p-value b a Based on the number of true-positive and true-negative test resultsin each screening tool. b p-value from χ 2 test comparing a difference between any of the 2 study groups. 았다 (Table 1). 2. 각설문도구의 (PHQ-2, PHQ-9, BDI) 신뢰도 본연구에서사용한 PHQ-2, PHQ-9, BDI 설문각각의신뢰도를알아보기위한내적일치도는 Cronbach s alpha 값이각각 0.730, 0.863, 0.905의결과를보였다. 3. PHQ-2/PHQ-9 연속선별검사와기타설문도구와의정확도및소요시간비교 DSM-IV 진단기준을황금기준으로하였을때연구대상자중우울증환자는 201명중 27명으로 13.4% 이었다. 각각의설문도구에따른결과는 Table 2와 Table 3에나타난바와같았으며, 설문도구중 PHQ-2/PHQ-9 연속선별검사의정확도 (87.06%) 가가장높았다. 각설문도구를작성하는데소요된시간은 PHQ-9이 102.9±6.1초 (Mean±SEM; Standard Error Deviation) 이었고, BDI 는 224.17±11.9초 (Mean±SEM) 이었다. 고 우울증은환자들의사회적, 신체적장애를일으키며특히자살의위험을증가시키는것으로알려져있으므로조기발견을통한적절한치료가매우중요한질환이다. 현재우울증을조기에발견하여적절한치료를제공하기위한많은선별검사들이일차의료에서사용되고있다. DSM- IV의주요우울장애의진단기준이있음에도이렇게일차의료에서선별검사를사용하는이유는바쁜외래특성상환자와충분한면담이어렵기때문이다. 따라서빠른시간내에보다정확하게우울증진단을보조할수있는선별검사가일차의료에서가장도움이될것이다 (Nease et al., 찰 Table 3. Accuracy of screening tools in identifying major depressive disorder. a Sensitivity (%) Specificity (%) Overall accuracy (%) PHQ-2 PHQ-9 BDI 100 64.4 69.2 85.2 81.0 81.6 81.5 71.3 72.6 PHQ-2/PHQ-9 serial screening 85.2 87.4 87.0 a Based on the number of true-positive and true-negative test resultsin each screening tool. 2002). 일차의료영역에서우울증진단에대한가장효율적인선별검사를찾기위하여본연구를시행하였다. 정확도와시간적인측면에서우울증의진단에어떤선별도구가가장좋은지를보기위하여, PHQ-2/PHQ-9 연속선별검사를현재일차진료에서많이사용하고있는 BDI 및 PHQ-2, PHQ-9 각각의단독시행과비교하였다. 설문도구들의신뢰도를측정하기위한방법으로 Cronbach s alpha 값을사용하였다. Cronbach s alpha 값은집단수준인경우에는 alpha 값이 0.6 이상, 개인수준에서는 0.9 이상이면높다고할수있다. 본연구에서사용한 PHQ-2, PHQ-9, BDI의 Cronbach s alpha 값은각각 0.730, 0.863, 0.905로서모두집단수준에서는높은신뢰도를보여주었다. 타당도를알아보기위해각설문도구들의민감도, 특이도, 예측도를각각계산하였고, 어떤검사가더정확도가높은지비교하였다. PHQ-2/PHQ-9 연속선별검사의정확도가 87% ( 민감도 85.2%, 특이도 87.4%) 로다른선별도구들 (PHQ-2, PHQ-9, BDI) 의정확도보다높았다. 설문도구를작성하는데소요되는시간은 PHQ-9이 102.9± 6.1초, BDI는 224.17±11.9초였다. PHQ-2의두항목을환자에게물어보는데소요되는시간은대부분 30초미만이었으므로, 선별검사를시행하는데있어 PHQ-2/PHQ-9 연속선별검사가 BDI에비해시간적이득이있었다. 결론적으로, PHQ-2/PHQ-9 연속선별검사는정확도가가장높고소요되는시간도 BDI보다적어가장좋은선별검사임을입증할수있었다. PHQ-2/PHQ-9 연속선별검사를실제임상에적용할때고려해야할사항이있다. DSM-IV의주요우울장애진단기준 (American Psychiatric Association, 1994) 에는특징적 9가지증상을나타내는항목과배제하기위한항목 4가지가있다. 배제하는기준항목 4가지는 (1) 혼재성삽화의배제 (2) 408
김성래외 6 인 : 일차의료에서주요우울장애선별을위한 PHQ-2/PHQ-9 연속선별검사의유용성 증상이기능영역에서심각한고통이나장해를일으켜야함 (3) 물질및일반적의학적상태에의한것배제 (4) 사별반응배제이다. 즉, DSM- IV 진단기준에의하면특징적인증상 9가지중 5가지이상을만족해도, 배제하는항목 4가지중하나라도해당하면우울증진단을내릴수없다. 본연구의선별검사에서사용한 PHQ-2와 PHQ-9는모두우울증의특징적인증상만을다루고있고배제하기위한기준은포함되어있지않다. 실제로, 본연구대상에게 DSM-IV를사용하여우울증진단을내릴때, 201명중 10명의환자들은특징적인증상항목에서우울증진단을만족하였음에도불구하고배제하는항목에의해우울증이아닌것으로나타났다. PHQ-2/PHQ-9 선별검사를우울증을확진하는데사용하기위해서는, 이러한배제하는항목에대한고려가필요할것이다. 이러한배제기준에대한고려가필요한점은비단 PHQ-2/PHQ-9 연속선별검사뿐아니라모든우울증선별검사에해당되는내용이다. 본연구의제한점은다음과같다. 우선, 모집된연구대상이일개병원가정의학과를방문한환자여서교육수준이평균보다훨씬높은등우리나라전체일차의료환자를대표하기에는미흡할수있다. 또한설문도구들의신뢰도검증에있어내적일치도만구하고검사-재검사법에의한안정성을평가하지못하였다. 본연구는일차의료환경에서 PHQ-2/PHQ-9 연속선별검사의유용성을확인한데의의가있다. 향후본연구의제한점을극복하여일차의료환자를대상으로보다대규모의연구가이루어진다면, 우울증선별검사로서 PHQ-2/ PHQ-9 연속선별검사의의의를보다명확하게파악할수있을것이다. 참고문헌 American Psychiatric Association (1994) Diagnostic and statistical manual of mental disorders. 4th ed. P327. American Psychiatric Association, Washington, D.C. Beck AT, Ward CH, Mendelson M et al. (1961) Inventory for measuring depression. Arch. Gen. Psychiatry 4:561-571. Cho MJ, Chang SM, Hahm BJ et al. (2009) Prevalence and correlates of major mental disorders among Korean adults: a 2006 national epidemiologic survey. J. Korean Neuropsychiatr Assoc. 48:143-152. Choi HS, Choi JH, Park KH et al. (2007) Standardization of the Korean version of patient health questionnaire-9 as a screening instrument for major depressive disorder. Korean J. Fam. Med. 28:114-119. Hahn HM, Yum TH, Shin YW et al. (1986) A standardization study of beck depression inventory in Korea. J. Korean Neuropsychiatr Assoc. 25:487-502. Kim CY, Goh JK, Ro EY (2002) Item Characteristics of the hamilton rating scale for depression-self-report inventory. J. Korean Neuropsychiatr Assoc. 41:905-911. Kim DH, Kim JB (2006) Screening for depression in primary care. J. Korean Acad. Fam Med. 27:163-169. Lim KH, Park YN, Kim DH et al. (2009) A preliminary study of the standardization of the Korean version of the patient health questionnaire-9. J. Health Promot Dis. Prev. 9:275-281. Myung SK, Jeong B, Lee WJ et al. (2000) Standardization of the two - question case finding instrument as a screening instrument for the adolescent's depression Korean. J. Fam. Med. 21:100-106. Nease DE, Klinkman MS, Volk RJ (2002) Improved detection of depression in primary care through severity evaluation. J. Fam. Pract. 51:1065-1070. Pignone MP, Gaynes BN, Rushton JL et al. (2002) Screening for depression in adults: a summary of the evidence for the U.S. preventive services task force. Ann. Intern Med. 136:765-776. Sartorius N, Ustun TB, Lecrubier Y et al. (1996) Depression comorbid with anxiety: results from the WHO study on psychological disorders in primary health care. Br. J. Psychiatry. 168(Suppl 30):S38-43. Shin HC, Kim CH, Park YW et al. (2000) Validity of beck depression inventory (BDI): detection of depression in primary care. Korean J. Fam. Med. 21:1451-1465. Shin HC, Kim CH, Park YW et al. (2000) Validity of Zung's self-rating depression scale: detection of depression in primary care. Korean J. Fam. Med. 21:1317-1329. Shin SC, Kim MK, Yun KS et al. (1991) The center for epidemiologic studies-depression scale (CES-D): its use in Korea. J. Korean Neuropsychiatr Assoc. 30:752-767. Thibault JM, Steiner RW (2004) Efficient identification of adults with depression and dementia. Am. Fam. Physician. 70:1101-1110. Whooley MA, Avins AL, Miranda J et al. (1997) Casefinding instruments for depression. two questions are as good as many. J. Gen. Intern Med. 12:439-445. Yang JG (1982) The self-rating depression scale on psychiatric patients. J. Korean Neuropsychiatr Assoc. 21:217-227. 409
스트레스硏究 : 제 19 권제 4 호 2011 = 국문초록 = 일차의료에서우울증을조기에진단하기위해많은선별검사도구들이사용되고있다. 두가지설문을이용한연속선별검사가한가지설문을이용하는것보다우울증선별에있어서더효율적인방법이지만, 아직까지국내에서는이를비교한연구가없다. 본연구는 PHQ-2/PHQ-9 연속선별검사가현재일차진료에서많이사용하고있는 BDI 및 PHQ-2, PHQ-9 각각의단독시행보다효율적인선별도구임을확인해보고자하였다. 본연구는 2010 년 2 월부터 6 월까지 5 개월동안일개대학병원을대상으로 5 개월간실시되었다. 환자들에게 PHQ-2, PHQ-9, BDI 설문조사를시행하고각각소요되는시간을측정하였다. 이후주치의가면담을통하여 DSM-IV 진단기준으로우울증을진단하였다. 각설문도구들에대한신뢰도및타당도를측정하였고, PHQ-2/PHQ-9 연속선별검사와다른선별검사도구의진단정확도및소요시간을비교하였다. 연구대상자 201 명중우울증환자군을 27 명 (13.4%), 비우울증환자군은 174 명 (86.6%) 이었다. PHQ-2, PHQ-9, BDI 의 Cronbach s alpha 값은각각 0.730, 0.863, 0.905 이었다. PHQ-2/PHQ-9 연속선별검사의진단정확도는 87.06% 로 PHQ-2 (69.2%), PHQ-9 (81.6%), BDI (72.7%) 보다높았다. 평균소요시간은 PHQ-2 가 30 초미만, PHQ-9 는 102.9±6.1 초로측정되었고, 따라서 PHQ-2/PHQ-9 연속선별검사가 BDI (224.17±11.9 초 ) 보다소요되는시간이적었다. PHQ-2/PHQ-9 연속선별검사는 PHQ-2, PHQ-9 의단독시행및 BDI 보다진단정확도가높고시간이적게소요되므로, 일차진료에서우울증에대한매우유용한선별검사도구이다. 중심단어 : 우울증, 선별검사, PHQ, BDI 410