임상연구설계와분석을위한 기본통계 - 1 -
차례 서론 7 A. 연구 설계의 기술 9 A-1 연구의 유형 9 A-1.1 연구의 유형 : 관찰적 혹은 실험적 연구 9 A-1.2 연구의 결합과 나열 1 0 A-1.3 코호트 연구 1 0 A-1.4 환자-대조군 연구 1 0 A-1.5 단면적 연구 1 1 A - 1. 6 교란 1 3 A-1.7 실험과 시험 1 3 A-1.8 무작위배정 비교임상시험 1 4 A-1.9 파일럿연구와 탐색적 연구 1 4 A-2 추적관찰 1 5 A - 3 연구대상 1 5 A - 4 변수 유형 1 6 A - 4. 1 측정의 척도 1 6 A - 4. 2 자료의 유형 1 6 A - 4. 3 자료 수집의 방법 1 6 A-4.4 타당도와 신뢰도 1 7 B. 임상시험 1 8 B-1 연구대상과 선정제외기준 기술 1 8 B-2 치료법 기술 1 9 B-3 대조군의 필요성과 선택방법 1 9 B - 4 눈가림 2 1 B-4.1 이중눈가림과 단일눈가림 설계 2 1-2 -
B - 4. 2 위약 2 2 B-5 무작위배정 2 2 B-5.1 무작위배정 2 2 B-5.2 무작위배정이 적용되는 시험 2 2 B-5.3 무작위배정의 필요성 2 3 B-5.4 무작위가 아닌 배정방법 2 3 B-5.5 무작위배정 방법 2 3 B-5.6 블록 무작위배정 2 5 B-5.7 층화 무작위배정 2 5 B-5.8 최소화법 2 6 B - 5. 9 군집 3 0 B - 5. 1 0 시험설계 3 1 B-6 결과변수 3 2 B-7 데이터 모니터링 3 3 B-7.1 데이터 모니터링 위원회 3 3 B-7.2 임상시험 조기종료 시기 3 4 B - 8 동의서 3 4 B - 8. 1 동의 3 4 B-8.2 응급상황 3 5 B - 8. 3 어린이 3 5 B-8.4 스스로 판단할 수 없거나 의사를 표명할 수 없는 피험자 3 5 B-8.5 집단무작위배정설계 3 6 B-8.6 무작위배정 후 동의 취득하는 경우 3 6 B-9 연구계획서 위반과 비순응 3 7 B-10 연구대상수 달성 3 7 B-11 임상시험 종료 후 3 8 C. 관찰적 연구 3 8 C-1 환자-대조군 연구 3 8-3 -
C-1.1 환자-대조군 연구에서 대조군의 선택 3 8 C-1.2 환자-대조군 연구에서의 짝짓기 3 9 C - 2 평가 비뚤림 4 0 C - 3 회상 비뚤림 4 0 C-4 표본조사 : 표본 집단의 선택 4 0 C-5 일반화와 결과의 외삽 4 1 C-6 설문 조사에서 응답률의 최대화 4 1 D. 연구대상수 산출 4 2 D-1 연구대상수 산출이 제시되어야 하는 경우 4 2 D-2 연구대상수 산출의 중요성 4 2 D-3 연구대상수 산출에 필요한 정보 4 2 D - 4 통계 용어의 설명 4 4 D-4.1 귀무가설과 대립가설 4 4 D-4.2 확률값 (p-값, p-value) 4 4 D - 4. 3 유의수준 4 4 D - 4. 4 검정력 4 4 D-4.5 임상적으로 유의한 효과 크기 4 4 D-4.6 유의성의 단측검정과 양측검정 4 5 D-5 연구대상수 산출 시 포함되어야 할 변수 4 5 D-6 반응률, 탈락률 등에 따른 연구대상수의 손실 4 5 D-7 연구 목적과 통계적 분석 방법에 따른 연구대상수 산출 4 5 D-8 연구대상수 산출 및 기술에 대한 예제 4 6 D - 8. 1 단일 분율의 추정 4 6 D - 8. 2 두 개의 분율 비교 4 7 D - 8. 3 두 개의 평균 비교 4 8 D-9 부적절한 연구대상수 기술 5 0 E. 통계적 방법의 기술 5 1 E - 1 서론 5 1-4 -
E-1.1 적절한용어의사용 5 1 E-1.2 통계적방법의구체적기술 5 2 E-2 통계적방법의적절성 5 2 E-2.1 순위형점수 5 3 E-3 짝지은표본의비교와독립표본의비교 5 3 E - 4 통계적검정의가정 5 4 E - 4. 1 자료의변환 5 4 E-5 교란효과의보정 5 5 E-6 계층적 ( 다수준 ) 자료 5 5 E - 6. 1 계층적자료의분석 5 6 E-7 다중검정 5 6 E-7.1 유의성검정의반복적사용 5 6 E-7.2 다중검정의문제점 5 7 E - 7. 3 B o n f e r r o n i 보정 5 8 E-7.4 다중검정문제의해결 5 9 E-8 평균값으로의회귀현상 6 1 E-9 임상시험에서의의도된대로의분석원칙 6 2 E-10 집단무작위배정시험 6 2 E - 1 1 변수의통합 6 2 E-12 추정과신뢰구간 6 3 E-12.1 분율값이 1 또는 0 에가까운경우 6 4 F. 일반적고려사항 6 4 F-1 통계전문가 ( 통계분석 ) 6 4 F-2 통계프로그램 / 패키지 6 5 F - 3 윤리 6 5 F-3.1 통계의오용 6 5 F-3.2 비판적평가 6 5 F-3.3 사람을대상으로한연구 6 5-5 -
F - 4 기타연구쟁점 6 6 F-4.1 연구의관리감독 6 6 F-4.2 데이터의보호 / 기밀유지 6 6 부록부록 1 임상시험 계획서 작성 시 체크 리스트 6 7 부록 2 용어 정리 6 9 참고문헌 7 4-6 -
서론 배경 의학연구를수행하기전에선행되어야할작업이연구계획서를작성하는것이다. 특히연구계획서작성은학위논문심사, 연구비지원, IRB 심사를위해필수적이며매우중요한단계이다. 연구계획서에서는배경및목적, 연구가설, 연구설계, 연구대상수의산출근거, 연구가어떻게수행될것인지에대한구체적인방법, 통계분석계획등이기술되어야한다. 이중에서연구대상수의산출근거및통계분석계획은의학연구의이론적근거와결과의일반화를제시하는매우중요한요소이므로과학적, 합리적으로기술되어야한다. 그러나연구계획서작성에참여하는많은사람들중에통계전문가가관여하는경우는그리많지않으며연구자들에대한통계교육이부분적으로실시되고있으나보다많은사람들이쉽게접할수있는방법이필요하다. 연구계획서를작성하게될많은연구자들이손쉽게읽고수행할수있는실용적인지침서를개발하고보급하여의학연구의질적수준향상과활성화를도모하고자하였다. 이지침서는영국런던대학교세인트조지병원에서 6명의의학통계학자 (Martin Bland (Professor of Medical Statistics), Barbara Butland (Lecturer in Medical Statistics), Janet Peacock (Senior Lecturer in Medical Statistics), Jan Poloniecki (Senior Lecturer in Medical Statistics), Fiona Reid (Lecturer in Medical Statistics), Philip Sedgwick (Lecturer in Medical Statistics)) 들이 The South East Regional Office (SERO) Research and Knowledge Management Office Directorate의지원을받아발간한 "Statistics Guide for Research Grant Applicants 를참고로하여작성되었다. 이들 6명의통계학자들은 The South East Research and Development Project Grant Scheme에대한연구비신청계획서를일상적으로검토하는과정에서공통적으로빈번하게발생하는통계적문제점을접하게되었으며계획서를작성하는연구자들이이를이해하고극복할수있는방안을제시하기위하여위와같은가이드라인을개발하게되었다. 현재서울대학교의과대학 / 서울대학교병원의학연구협력센터에서는서울대학교병원의 IRB에제출되는다양한연구계획서에대하여연구의설계및수행방법, 통계분석계획등이상호관련성을잘반영하여과학적으로기술되어있는지검토하고있으며영국의통계학자들이경험한것과같이공통적으로빈번하게발생하는통계적문제점을접하고있다. 그러므로연구계획서를검토한경험을기반으로국내실정에맞는임상연구계획서작성가이드라인을개발하고자하였다. 개발과정 Martin Bland 교수로부터원문사용과참고에대한협의를거친후의학연구협력센터통계연구원과역학연구원및예방의학교실연구원들이 "Statistics Guide for Research - 7 -
Grant Applicants 의구성과내용을파악하고매주회의를거쳐수정방안을논의하고이를반영하여우리실정에맞게보완하는과정을거쳐이지침서가완성되었다. 이를포켓사이즈지침서와웹페이지 (http://mrcc.snuh.org, http://mrcc.snu.ac.kr) 로제작하여필요한연구자들이쉽게접근할수있도록할것이다. 지침서의 사용 이지침서는통계학을가르치기위해설계된것이아니라이미기본적인통계학적지식을갖춘사람들에게추가정보를제공하기위해설계된것이다. 예를들어, 신뢰구간과유의성검정에대한기본적인지식은있으나통계적검정력이나대상수산출까지는이해하지못한다고가정하였다. 또한, 이지침서를읽는것만으로계획서를제출하기전에통계학자들과연구계획에대해논의하는것을대체할수있는것은아니다. 통계학자들과연구계획에대해논의하는것은강력히권장되며, 이지침서는연구자들이통계상담에가지고가야할적절한질문과올바른정보를제대로인식하고, 더불어통계자문내용에대한이해를도울수있을것이다. 이지침서를처음부터끝까지읽기보다는자신의연구가포함하고있지않는부분은무시할수있도록목차와체크리스트가작성되었다. 목차나체크리스트를잘활용할수있도록하기위해이책은각각의인덱스코드 ( 예, A-1.1) 가있는짧고완비된문단들로구성되어있다. 이러한코드들이검토자, 상담하는통계학자, 연구자들에게똑같이유용할것으로기대한다. 각문단은문헌과웹에대한유용한참고문헌뿐만아니라다른관련된문단에대한링크를포함할것이다. 통계적 검토 이지침서는통계학자가연구계획서를통계학적으로검토하고자할때고려해야하는체크리스트로서의역할도제공할수있을것이다. 1. 기초적인 연구 설계 : 무작위배정, 교란, 계층적인 데이터 등에 대한 정보를 포함할 필요가 있는가. 설계가 연구목적에 적합한가. 2. 데이터 유형 : 대상수 산출과 제안된 통계분석 방법이 적절한지 평가할 수 있는 정보 인가. 3. 대상자수 : 연구 참여를 부탁할 대상자의 수와 대상수 산출로부터 모집이 예상되는 수 4. 결과변수의 총 수 : 결과변수가 많아서 다중검정 (multiple testing) 에 대한 잠재적인 문제들을 일으킬 여지가 없는가. 5. 대상수 산출과 제안된 통계 분석이 같은 통계적 검정에 기반하고 있는지 여부 : 연구 자가 대상자수 산출을 보고할 때 근거가 되는 검정을 언급하고 있는가. - 8 -
6. 제안된통계분석이유의성검정뿐만아니라신뢰구간산출을포함하는가. 7. 연구자가제안된통계분석에대해필요한통계적전문지식을지니고있는가. 8. 대상수산출을재현하고체크할충분한정보가있는가. A. 연구설계의기술 서론 연구의계획 ( 또는 ' 대상및방법 ')' 이라고하는연구계획서의부분은연구자가연구하려고제안하는바를기술하는곳이다. 연구의목적과배경은그연구나개발이합당한이유로가치있는아이디어라고입증하는내용을담을것이다. ' 연구의계획 ' 에서는연구자가제안하는방법을자세히설명하고실질적인논점들의해결방법을제시해야한다. 연구계획서심의자들은연구가방법론적으로견고하고동시에수행가능하다는것과연구자들이그것을수행할능력이있다는것을확인하길원한다 (F-1). 따라서연구수행과관련된실질적인문제들에대해제대로설명하지못한다면검토자들은연구의수행가능성이매우낮다고평가하게될것이다. 연구계획서에 구체적으로 명시되어야 할 연구목적은 연구유형에 따라 결정된다. 그러므 로 연구나 실험의 전반적인 기술에 대해 연구 설계의 표준 용어를 사용하여 초기에 연구 유형을 명확히 제시하는 것은 중요하다. 연구자들에게 익숙한 단면적 연구, 코호트 연구, 이중눈가림 무작위배정 비교임상시험 등으로 연구 설계를 구체적으로 명시하는 것이 좋 다. A- 1 연구의유형 A- 1.1 연구의유형 : 관찰적혹은실험적연구연구의유형에있어서가장분명한구분은연구가실험적인가 (experimental) 관찰적 (observational) 인가하는것이다. 실험적인연구는말그대로실험적인조건으로통제하고비교를위한대상자군들을구축하는방법이다. 또한일련의치료법이나개입을수반한다. 관찰적인연구는반대로자연적인상태에서대상자가관찰되는연구이다. 비교될대상자군들은육체노동자와비육체노동자혹은질병이있는사람과없는사람등으로분류되고, 대상자에대한측정이나검사는시행될수있지만 ( 예, 총콜레스테롤측정, 질병상태확진 ) 개입이나치료 ( 각기다른운동프로그램에대한환자배정, 신약이나위약에대한환자배정등 ) 는없다. 관찰적연구에는코호트연구 (cohort study), 환자-대조군연구 (case-control study), 생태학적연구 (ecological study), 단면적연구 (cross-sectional study), 유병률연구 (prevalence study), 민감도와특이도연구 (study of sensitivity and specificity) 등이있다. - 9 -
두가지관찰적연구와한실험적연구를포함하는세가지다른연구에대한연구계획서를가정해보자. 연구자가퇴행성관절염에영향을주는질병의병인과치료에관심이있다고한다면다음과같이연구를계획할수있다 : 1. 퇴행성관절염이있는대상자와없는대상자사이에보행기능장애정도를비교한다 ( 관찰적 ). 2. 퇴행성관절염이있는각개인의증상이있는다리와증상이없는다리간에통증을측정하여비교한다 ( 관찰적 ). 3. 질병이있는사람들을치료군이나비치료군으로무작위배정하고두군간에 6개월기간에걸쳐통증을측정하여변화량을비교한다 ( 실험적 ). 연구유형에대한더자세한내용은역학의원리와응용 (2005) 및의학연구방법론 ( 1 997), 이지침서의 B와 C에서볼수있다. A- 1.2 연구의결합과나열간혹연구설계가각기다른여러개의연구들을나열하여연구계획서를구성하는경우가있다. 이처럼병합된연구계획은시간과비용을효율적으로절감할수있으나연구에복잡성이더해짐에따라연구수행의성공가능성은낮아질것이므로연구비에대한부담도늘어나게된다. 따라서복잡한병합구조를갖는연구계획보다는연구설계에대한적절한전문용어를이용하여다양한연구들의설계를따로기술하는것이연구계획을명확하게하는데에도움이되고, 연구의성공적인수행을가능하게할것이다. 복잡한연구를계획하게될때연구자는복잡한내용이간결해보이도록계획서에서기술할수있는지신중히생각해야한다. 그렇게하기힘들다면, 자원효율성은높지만수행가능성이낮은연구보다는, 단순명료한연구가수행가능성이높기때문에연구비수혜목적면에서도더좋은기회를갖게될것이다. A- 1.3 코호트연구코호트연구 (cohort study) 에서대상자는공통적인특성을지니고있는집단 ( 예, 같은지리적영역에거주, 같은공장에근무, 같은병원에통원 ) 으로규정되고, 연구대상자로부터가능한원인요소의폭로에대하여정보가수집된다. 인구집단은관심결과가발생했는지보기위해시간에따라추적된다. 코호트연구에서폭로는질병에대한잠재적인위험이고결과는그질병들의발생인경우가많다. 코호트연구에대한더많은정보는 Breslow & Day(1987) 에서볼수있다. A- 1.4 환자 - 대조군연구 환자 - 대조군연구 (case-control study) 는해당인구집단 ( 혹은대표성있는표본 ) 에서주 - 10 -
어진질병 ( 혹은상태 ) 을지닌모든대상자를확인하고질병 ( 혹은상태 ) 을가지고있지않은대상자인대조군 (control group) 과비교하는것이다. 환자군과대조군으로부터후향적으로잠재적인위험요인에대한정보를수집하여비교한다. 환자-대조군연구에내재된문제점들중하나는비교할만한대조군을선정하는방법이다 (C-1.1). 예를들어, 환자가발생한인구집단에서질병이없는사람을무작위로추출하는방법을택할수있다. 그러나이것은그인구집단에서대상자의목록이존재해야가능하다. 환자군과대조군이연령, 성별과같은변수를비슷하게맞추기위해한명이상의대조군이각각의환자와짝지어지는경우도있다. 이경우에짝짓기에사용된변수들이질병에영향을미칠수는있지만연구될위험요인 (risk factor) 들이질병에영향을미치는경로의일부는아니어야한다. 이와같은짝짓기의사용은통계분석을복잡하게하는경향이있다 (C-1.2, E-5). 환자 -대조군연구에내재된또하나의문제점은위험요인에대한정보가후향적으로수집됨으로인해비뚤림이발생할수있다는것이다 (C-2와C-3). 이러한문제들과다른문제들에관한정보는 Breslow & Day(1987) 에서상세히논의된다. A- 1.5 단면적연구단면적연구 (cross-sectional study) 는 '2005년인구센서스 ' 처럼단일시점에서연구집단이나대상자표본을연구하는것이다. 즉, 표본조사 (sample survey) 는단면적연구의한예이다. 단면적연구의문제점중하나는원인과결과중어느것이먼저인지그순서를명확히설명하기가어렵다는것이다. 단면적연구의특별한유형에는유병률연구 (A-1.5a), 단면적생태학적연구 (A-1.5d), 민감도와특이도연구 (A-1.5b, A-1.5c) 가있다. A-1.5a 유병률연구유병률연구 (prevalence study) 는대상인구집단에서특정한질병 / 상태 / 특징의유병률을추정하는것이다. 유병률연구는추정 (estimation) 을일차적목적으로하는표본조사이다. 이러한유형의연구에서가장중요한사항은대상인구집단으로부터대표성있는표본을획득하는것 (C-4, C-5) 과연구결과에서낮은응답률로인한비뚤림이생기지않도록하는것이다 (C-6). A-1.5b 민감도와특이도추정종종새로운진단법의유용성을평가하기위해민감도와특이도가추정된다. HIV 바이러스의감염여부를판단하기위한새로운 ELISA 분석이개발되었을때연구자들은더신속한이방법의정확도 (accuracy) 를세포배양 ( 즉, 황금기준 (gold standard)) 의정확도와비교하기를원했다. 이를위하여세포배양에따라질병이있는사람과없는사람, 두집단이선정되었다. 그다음에 ELISA 분석을이용하여대상자들의양성, 음성여부를평가하였다. 여기서질병을가진사람들중양성으로판정된사람들의분율과질병이없는사람들중음성으로판정된사람들의분율로써민감도 (sensitivity) 와특이도 (specificity) 를각각산출하였다. 이러한연구에서주의해야할사항은종종연구자가생각하는것보다질병을가진사람이더많이필요할수있다는것과 ('D. 연구대상수산출 ' 참조 ) ELISA - 11 -
검사를시행할때에세포배양결과에대한눈가림 (blind) 이잘이루어져야한다는것이다. A-1.5c 민감도와특이도의산출시기특정진단법이나스크리닝검사를일차적인스크리닝도구로서사용할것을고려하고자한다면황금기준에대해민감도와특이도를확인하여결정하는것이필요할것이다. 반면, 어떤검사법이확립된검사를대체할후보라면두검사법모두황금기준과비교해야할것이다. 새로운검사법이민감도와특이도측면에서모두확립된검사법보다우월하다면새로운검사법을더선호하게될것이다. 민감도와특이도중하나만더우월하다면새로운검사법을채택하도록실제적인권고를하기전에위양성 (false positive) 과위음성 (false negative) 으로인한비용을고려하는것이필요하다. 때때로민감도와특이도만산출하는것보다는양성예측도 (positive predictive value, PPV) 를함께산출하는것이더의미있는경우가있다. 예를들어, 특수하고다소비용이많이드는치료를받아야할고위험군을확인하는것이검사의목적인경우, 즉제공자에게비용이많이들거나피검사자들에게실질적으로불리한점이있고, 검사상음성인군은표준치료를계속하여제공받는다면, 민감도와특이도보다양성예측도를고려하는것이더적절하다. 양성예측도는양성으로검사된사람들중실제로양성인사람들의분율이다. PPV가낮다면위양성이많아지므로위양성인사람들의상당수가잘못된진단으로불필요하게걱정하게될수도있고, 비용이나시간을많이소모하거나불쾌감을느끼면서불필요한치료를받게될수도있다. 검사대상집단에서유병률이낮을때 PPV가낮아지는경향이있다. A-1.5d 생태학적연구생태학적연구 (ecological study) 는인과성에대한결론을내리려하기보다는개인이아닌집단에서측정되는변수들간에상관성을살펴보는것이다. 예를들어, 같은기간에걸쳐라돈노출의평균수준을추정한여러국가들에대해연간 100명당백혈병등록분율의상관관계로백혈병과라돈간의관계를조사하는것이다 (Henshaw et al., 1990). 즉분석의대상은국가이지개인이아니다. 이러한유형의연구는특히교란 (confounding) 의영향을받기쉽다 (A-1.6, Lilienfeld & Lilienfeld(1980) p13-15). A-1.5e 측정타당도, 신뢰도및일치도연구측정방법의특성을조사하는대표적인연구로는타당도, 신뢰도, 일치도연구가있고, 이러한연구에서측정방법은혈압과같은수치측정, 건강상태와같은범주형자료, 우울척도처럼설문지에근거한측정등이포함될수있다. 우선, 타당도 (validity) 연구는측정방법이측정대상을얼마나정확하게측정할수있는지를조사하는것이다 (Bland & Altman(2002)). 타당도연구에서논점은진정한황금기준의존재나측정방법에대한평가기준의존재여부, 타당도조사방법등이다. 한편, 신뢰도 (reliability) 연구는동일한방법으로같은대상자에게반복적으로측정을했을때유사한결과를나타내는정도를조 - 12 -
사하는것이다 (Bland & Altman(1996, 1996a, 1996b)). 신뢰도연구는동일관찰자의반복적인측정혹은여러관찰자들에의한측정과같은방법으로시행될수있고, 시간에따른신뢰도나측정과정에서각기다른부분의측정효과를조사할수도있다. 신뢰도연구에서측정대상과관찰자의선정은아주중요하다. 마지막으로, 동일한측정대상에대한여러측정방법간의일치도 (agreement) 연구의결과는차후에측정방법을선택할때도움을줄수있다 (Bland & Altman(1986), 의학연구방법론 (1997)). A- 1.6 교란관찰적연구에서공통적으로나타나는문제점은교란변수 (confounding factor) 의효과로인해가짜연관성이감지되거나진짜연관성을보이지못할수있다는점이다. 일반적으로교란변수 (confounder) 는연구되는결과변수와인과적으로관련성을가지면서설명변수와는비인과적연관성을가지는변수이다. 따라서질병과잠재적위험요인간에관찰되는연관성은실제질병의원인이되는다른위험요인의작용으로나타나는결과일수도있다. 이와같은점으로인해관찰적연구로부터인과관계에대한결론을내리기가힘들다. 관찰적연구에서교란이발생하는이유는 ' 비교성있는 (comparable)' 군들간의비교가힘들기때문이다. 더많은정보는 Breslow & Day(1980) p93-108, 역학의원리와응용 (2005) 에서볼수있다. A-1.6a 교란또는교호작용교란 (A-1.6) 이라는용어는교호작용 (interaction) 과혼동되지않아야한다. 교호작용은두변수간연관성의특성 ( 크기와방향 ) 이어떤제3의변수값에따라달라질때발생한다. 예를들어, 천식이어린시절에만여성보다남성에서더흔하게나타나는경향이있다면성별과현재천식유무간에관찰되는연관성은연령에따라다르게되며 (Burr(1993)), 두요인 ( 현재천식유무와연령 ) 간에교호작용이있다고말한다. 변수들의관계에서이러한교호작용을살펴보고기술하는것은중요하다. 한편, 교란변수에대해서는보정하거나없애도록설계하여, 교란변수가관심요인과결과변수의연관성감지에영향을주지않도록하여야한다. 즉, 교란변수가통제되었을때관심요인과결과변수의연관성의크기와방향이같다는것을가정한다. A- 1.7 실험과시험새로운치료법이나개입의효과를평가하는것을목적으로하는실험적연구를시험 (trial) 이라한다. 연구대상이동일한의학적조건의사람이라면임상시험 (clinical trial) 이라는용어를사용할수있다 (Pocock(1983)). 연구대상이사람, 생쥐또는행정적인그룹 ( 예, 일반의원, 진료소 ) 중어느것이든지시험이적용될수있다 (A-1.8, B). 시험 ( 예임상시험 ) 에서는비교대상이되는그룹들이유사한상태가되도록설계할수있다. 비교군이없는시험 (uncontrolled), 즉단일치료군만있고비교군으로작용할군이없는시험은피해야한다. 그이유는연구결과개선이생긴경우에새로운치료법때문인 - 13 -
지아니면새로운치료법이없이도개선되었을것인지알수없기때문이다. 시험에서비교군의필요성과시험대상의무작위배정중요성에대한추후논의는 A-1.8, B-3, B-5, Pocock(1983) 에있다. 교차설계시험 (cross over trial) 과다른유사한설계에대한논의는 B-5.10에제시하였다. A- 1.8 무작위배정비교임상시험무작위배정비교임상시험 (randomized controlled clinical trial) 은다른치료법이나개입을비교하기위해설계되며, 각군들의구성원이연구시작단계에서연령과성별과같은잠재적교란변수의분포 (B-5) 가유사하게되기위해연구대상자들을무작위로배정한다. 그렇게해서치료법 / 개입이시행되고결과가추적관찰종료시점에서비교된다. 비교대상이되는군은두군일수도있고여러군일수도있다. 한치료군과한대조군일수도있고두치료군일수도있고두치료군과한대조군일수도있다. 대조군은연구대상자와결과평가자모두로부터배정상태의눈가림을돕기위해위약처치를받을수도있다. 하지만증명된치료법이이미표준적으로사용되고있다면위약을받는대조군이나비치료대조군이있는연구는윤리적이지못한것으로간주된다 (Rothman(2000) et al., F-3.3). 평가자와연구대상자모두배정상태에대해모르게하는것을이중눈가림 (double-blind) 이라고한다. 단일눈가림 (single-blind) 은연구대상자나평가자중한편에배정에대한정보를주는것을의미한다 (B-4). 앞서기술된시나리오 A-1.1 의 3번항목을살펴보면치료를받는한치료군과치료를받지않는대조군이있는데, 시험약과위약의차이가확연히드러나는경우에는, 연구대상자는자신이배정된처치를알게된다. 그러나결과를평가하는사람은환자로부터우연히듣지않는다면모르는채유지될수있고, 환자에게배정정보누설을금하도록함으로써평가자가배정정보를알게될가능성은감소될수있을것이다. A- 1.9 파일럿연구와탐색적연구 " 파일럿연구 (pilot study)" 라는용어를잘못사용하는경우가있다. 파일럿 (pilot) 은길을인도하는사람이나사물을의미하며, 파일럿연구는더큰규모의연구를수행하기에앞서소규모로수행되는연구를말한다. 그러므로파일럿연구는그자체만으로는의미가없고반드시규모가더큰연구와관련되어야한다. 파일럿연구의목적은더큰연구를쉽게수행하도록돕는것이고, 데이터수집방법의검증, 대상자수산출을위한정보수집등을위해사용될수있다. 파일럿연구는항상그것을활용할본연구가있어야한다. 이것은본연구로부터분리한파일럿연구자체에대해계획서를작성하지못하거나연구비를신청할수없다는뜻은아니다. 그러나대상자수나데이터수집수행가능성과관계된파일럿연구정보가획득될때까지완전한연구비지원을받지못할수도있다. 파일럿연구는질문에대한명확한답을제시할수없을정도로너무작은규모의연구 - 14 -
를의미하지는않으며, 그러한연구는일반적으로사회적혜택보다는연구자의개인적관심을위해수행되는연구가될것이다. 때로는본연구에대해계획하기이전에예비적단계의아이디어가있을때, 소규모연구수행이필요한경우가있다. 최종적인연구가많은공동연구자들이참여하는다기관연구를필요로할때, 예비적인결과가없이는공동연구자들을모집하기가어려울것이다. 수행된적이없는연구는최종적인연구를설계할만한정보가부족할지도모른다. 그러므로더작은연구에서연구의아이디어가개발할만한가치가있는것인지보여줄수있어야한다. 이러한연구는최종적인연구가어떻게될지를알지못하는단계이기때문에파일럿연구라기보다는탐색적연구라고해야한다. A- 2 추적관찰 코호트연구와무작위배정비교임상시험을포함하는많은연구들은전향적 (prospective) 이다. 즉추적관찰 (follow-up) 기간이있다. 그럼에도불구하고많은연구자들은추적관찰기간을연구계획서에명시하지않은것을보게된다. 전체추적관찰기간에대한정보없이측정이 3개월마다반복된다고언급하면환자당측정되는횟수를알수없게된다. 추적관찰기간에대한정보는프로젝트의수행능력을평가할때결정적일수있다. 예를들어, 어떤특정암에대한치료법의무작위배정비교임상시험에서치료하지않은군의재발률이 80% 라고가정하여대상자수를산출하였다고하자 (D-8.2). 여기서연구기간이 5년인경우에대하여연구대상수를산출하였다면, 80% 라는수치는 5년에걸친재발과관련이있다. 그러나제안된추적관찰기간이단지 2년뿐이라면연구결과는절대적으로검정력이부족하게될것이다. 추적관찰기간은시간에따라소멸하기쉬운환자교육프로그램과같은개입의영향을평가하는시험에서도중요하다. 이런상황에서개입기간직후에만결과를평가하는것은그리유용하지않으므로추적관찰을통한평가가이루어져야한다. A- 3 연구대상 연구질문에답하기위해서는연구대상이어느모집단을대표하며연구가설검정에적합한대상인지파악하는것이중요하다. 예를들어, 젊은사람에게많이발생하는특정질병에대하여중년을대상으로연구하는것은적절하지않다. 연구대상이어떻게선정될것인지파악하는것또한중요하다. 예를들어, 모집단에서무작위추출된사람들을연구대상으로할수도있고또는특정기간에진료소를방문한모든환자들을대상으로할수도있다. 그리고선정 / 제외기준을구체화하는것도중요하다. 연구자는얼마나많은대상자가연구에필요하고연구에동의할것으로예상되는지언급해야한다. 대상자수는연구자가접근할수있는수가아니라연구참여에동의한환자의수라는것을명심해야한다. - 15 -
A- 4 변수유형 제안된연구에서조사될결과변수와설명변수의유형과측정척도를구체화하여기술하는것이중요하다 (A-4.1, A-4.2). 다음정보는적절한대상자수산출방법뿐만아니라통계적분석의특성을결정하는데에도움을줄것이다. A- 4.1 측정의척도 1. 구간척도 (interval scale): 데이터가자연적인순서를가지고있고값들사이의간격이의미가있다. 예 : 체중, 신장, 출산수. 2. 순위척도 (ordinal scale): 데이터가자연적인순서를가지지만값들사이의간격은의미를가질필요가없다. 예 : 정신과적인척도. 3. 명목척도 (nominal scale): 범주가자연적인순서를가지지않는범주형데이터. 예 : 성별 ( 남 / 여 ). A- 4.2 자료의유형정량적자료 (quantitative data): 간격척도로측정되는자료 1. 연속형자료 (continuous data): 주어진범위에서모든가능한값을취할수있는연속적인값을가진변수. 예 : 체중, 신장. 2. 이산형자료 (discrete data): 주어진범위에서단지한정된숫자값만을취할수있고, 보통자연수나정수로표현되는변수. 예 : 출산수. 정성적자료 (qualitative data): 자연적인순서가있을수도있고없을수도있는범주로표현되는자료. 예 : 명목척도, 순위척도. A- 4.3 자료수집의방법연구의질은데이터의질에따라크게좌우된다. 따라서연구계획서심사자는연구자가정보수집을어떻게계획하였는지확인해야한다. 설문지를사용할계획이라면, 우편발송이나직접면접등어떤방법으로설문지를피조사자에게전달할것인지명확히제시하여야한다. 면접을직접수행하는경우는데이터수집의완결성에도움이될수있지만, 면접원이적절하게눈가림이되지않는다면 ( 예를들어, 환자-대조군연구에서환자 / 대조군상태, 임상시험에서치료군 ) 비뚤림 (bias) 이생길수있다. 연구자가주치의노트나병원기록지와같은기록으로부터정보를추출하는것을제안할때는수동으로혹은데이터베이스검색으로혹은두가지방법을모두사용하여수행할것인지등이명시되어야한다. 이경우에도추출하는사람이적절하게눈가림이되지않는다면비뚤림이발생할수있다 (C-2). 연구자는선택된수집방식이완전하고정확한정보를얻기에충분한지또한스스로에게자문해보아야한다. 예를들어, 병원전산자료등에서검색하는것만으로는 - 16 -
인과성에 대한 완전한 정보를 얻을 수 없을 것이다. 폐기능 평가 자료를 산출하고자 할 때, 폐활량계 (spirometer) 로 한 번 측정하는 것만으로 신뢰성 있는 (A-4.4b) 폐기능 평가 자료를 얻지는 못하므로 연속적으로 세 번 측정한 것 중에서 최대치를 이용하는 경우가 많다. A- 4.4 타당도와신뢰도연구자는제안된측정방법의타당도와신뢰도에대해제시해야한다. 이것은제안된방법이비교적새로운방법이거나특정분야외에는흔히사용되지않는것이라면더욱중요하다. 더많은정보는 A-4.4a, A-4.4b, A-4.4c, Altman(1991) 과 Bland(2000), 의학연구방법론 (2005) 에서볼수있다. A-4.4a 타당도타당도란측정하고자하는방법이연구자가가정하는것을정확하게측정하는지보는것이다. 예를들어, 어떤순위척도에대한자기- 효용성 (self-efficacy) 을측정하기위해설계된설문지가있다고가정했을때이설문지로자기- 효용성을정확하게측정할수있는가? 심지어타당성이이미입증된경우에도이적절성을증명할수있는적절한환경에서측정되었는지확인해야한다. 예를들어, 성인을대상으로사용하는것이타당하다고입증된방법이어린이에게사용될경우에는타당하지않을수있고, 특정국가에서평가된타당도를다른나라에적용하면안되는경우도있다. 간혹연구자들은이전에타당성이입증된설문지점수를참고하여개정된버전을사용하고자하기도한다. 이때이들개정판이타당도에어떤영향을주는지검토자는확인해보아야한다. 또한, 자료처리를쉽게하기위해점수를산출하는질문수를줄이는경우에도마찬가지로타당도에미칠영향을평가해야한다. 더많은정보는 Bland & Altman(2002) 에서볼수있다. A-4.4b 반복성 ( 검사-재검사신뢰도 ) 반복성 (repeatability) 은한대상에대한단일측정값이그대상에대한평균값을얼마나정확하게추정하는가를의미한다. 따라서측정의반복성은, 같은대상자에대해반복된측정의표본을이용하여산출할수있는대상내표준편차 (within-subject standard deviation) 에따라다르다. 반복성계수는단순히대상내표준편차에 2.83을곱한것이고, 같은대상에서두번연속측정간에발생할수있는최대차이의추정치이다 (Bland & Alt ma n( 1 98 6, 1 996, 1 996 a and 1 996 b) ). A-4.4c 평가자간신뢰도 ( 평가자간일치도 ) 평가자의역할이중요한측정방법에대해서는평가자간신뢰도또한고려되어야한다 (Altman(1991) p403-409). 즉, 같은대상을다른관찰자 / 평가자가평가했을때어느정도의차이가측정될수있을것인가? 어느정도일치할것인가? 동일한관찰자가계속평가하지않고평가대상에따라관찰자가다르다면, 연구결과에심각한비뚤림이발생할것이다. 그러나간혹다기관임상시험처럼여러명의관찰자가평가해야하는경우가있다. - 17 -
이러한경우에 1) 사전훈련으로측정자간일치도를향상시키고, 2) 같은대상자에대한전 / 후측정을할때동일한평가자가평가하도록하고, 3) 임상시험에서평가자에대해군들의균형을맞추고모든측정에서눈가림이되도록하고 (Pocock(1983) p45-48), 4) 관찰적연구에서관찰자가분석에서잠재적교란변수로서보정될수있도록각대상을평가한관찰자를기록해두는것이중요하다. B. 임상시험 B- 1 연구대상과선정제외기준기술 연구계획서는어떤환자군을대상으로연구를하는지명확히제시하여야한다. 예로, 고혈압연구에서어떤범위의혈압을가지는환자들을대상으로하는지명시하는것처럼, 연구에등록될대상의기준을구체적으로기술하여야하고, 이것을선정제외기준이라고한다. 경 / 중증의고혈압을가진노인을대상으로실시된한고혈압관련연구는네덜란드로테르담근교에거주하는노인외래환자로구성된코호트 ( 이하로테르담코호트 ) 에서연구대상자들을등록하였다 (Geleijnse et al.(1994)). 로테르담코호트의모든구성원들은 1990 년 ~1992 년에혈압을측정하였고측정당시의혈압이 140/85 mmhg 이상이고항고혈압제를투여하지않은 55-75 세의남녀에게편지나전화로재측정을요청하였다. 연구에등록되는대상자로적절하기위해서는, 일주일간의간격을두고 2번측정된혈압이 SBP 130 mmhg 이상, DBP 70 mmhg 이상이면서, SBP 140~220 mmhg 혹은 DBP 85~110 mmhg이어야했다. 이를요약하면, 선정기준 (inclusion criteria) 과제외기준 (exclusion criteria) 은다음과같았다. 선정기준로테르담 코호트의 구성원 등록당시 연령이 55-75 세 1990 년 ~1992 년 혈압측정 시에 치료되지 않은 SBP 140mmHg 이상 혹은 DBP 85mmHg 이상 근래 일주일간의 간격을 두고 2번 측정된 혈압이 SBP 140~220 mmhg 혹은 DBP 85~110 mmhg 이면서 SBP 130 mmhg, DBP 70 mmhg 이상 제외기준 심근경색증의 과거병력 협심증의 과거병력 당뇨병신장기능 손상 (serum creatinine concentration > 200 mmol/l)) 처방에 따른 제한된 염분 섭취 - 18 -
한편, 임상시험심사위원회 (Institutional Review Board) 에서는연구자가취약한환경에있는이들을보호하기위하여어떠한규정을마련하였는지를확인한다. 연구자들은이러한사람들을연구대상으로부터제외함으로써이들을보호하기위한규정을만들지않아도되겠지만, 이들의치료가가능하다면등록또한가능해야하므로, 임의로연구등록을막는것은적절하지못하다. B- 2 치료법기술 연구계획서에치료법을명확히기술하는것은중요하다. 통계학자를포함하여연구계획서를읽는모든사람들이임상적으로자질을갖춘것은아니므로기술된치료법은이러한사람들도읽고이해할수있도록명확하고평이한서술로쓰여야한다. 일반적으로의학연구는타영역의사람들에게는익숙하지않은시험설계를포함할수있다. 예로, 연구자혹은시험참가자들이피험자들의배정된치료법 (treatment) 을아는것이연구결과에영향을미칠수있는경우이를방지하기위하여눈가림법 (blinding) 을사용하게된다. 하지만, 눈가림과같은시험설계를잘알지못하는사람들이이를이해하기는힘들기때문에연구계획서초안이작성되면타분야의사람에게검토를부탁하여치료법이쉽게이해가되는지를확인하여야한다. B- 3 대조군의필요성과선택방법 시험 (trial) 이나실험 (experiment) 의핵심은평가하려는치료법을적용하고그결과를관찰하는것이다. 어떤형태의개입 (intervention) 이가해지지않는다면, 이는시험이아닌관찰적연구 (observational study) 가된다. 임상시험 (clinical trial) 에서는개입이어떠한방식으로질병의진행을개선시키는가에관심이있다. 이때개입은내과적, 외과적치료와같이직접적인방법일수도있고혹은일차진료기관에치료지침을제공하거나건강교육프로그램을시행하는것처럼직접적이지않은방법일수도있다. 대부분의연구에서치료의효과여부를살펴보기위하여대조군 (control group) 을필요로한다. 페니실린의경우, 처음발견되었을때페니실린투여에의한효과는과거에보였던그어떤것과도확연히달랐기때문에대조군없이과거사례의일반적인경험과비교하여연구가시행되었으나, 후에보다경미한감염에적용되기시작하였을때에는비교시험 (controlled trial) 이수행되었다 (Pocock(1983)). 그러나대부분의경우평가할치료의효과가초창기페니실린의경우만큼크지는않으므로대조군없이는치료의효과를제대로평가하기는힘들다. 따라서새로운치료법을받는피험자군과새로운치료법을받지않는피험자군의비교가필요하고전자를시험군 (intervention group), 후자를대조군 (control group) 이라한다. - 19 -
대조군은질병의중증도와예후, 장소, 시기면에서새로운치료를받는군과유사한분포를가져야하고, 관심이되는치료를제외한나머지는모든면에서시험군과비슷해야한다. 이를실현할수있는가장신뢰할만한방법은무작위할당 (random allocation) 이나최소화법 (minimization) 이다. 교대로치료법을할당하는것과같은방법과같이엄밀하게는무작위적인배정방법이아닌설계는피해야하고, 다른시기혹은다른장소의피험자등록과같이두군의비교성을보장할수없는방법이제안서에있을경우, 그방법이타당한이유를정확하고명확하게기술하는것이필요하다. 시험을수행할때연구자는어떤치료법의무엇을검정하려고하는지분명한아이디어를가져야한다. 제안서에는시험의목적과시험의필요성이기술되어야한다. 평가할치료법뿐만아니라대조군이어떤치료를받을지는논의거리가된다. 대조군은어떤식으로라도치료를받아야하는가? 만약현재가능한치료가없다면, 대조군은실제치료를받지는않을것이고눈가림 (blindness) 을유지하기위해가짜치료 (dummy treatment) 를사용할수도있다. 만약기존의치료법이있는경우라면, 시험군에는기존치료에새로운치료가가해지고, 대조군에는기존치료혹은기존치료에새치료의적절한가짜치료가가해질수있을것이다. 현재헬싱키선언 (Declaration of Helsinki) 에서다음과같이제시하고있다. " 새로운방법의이익, 위험, 부담과유효성 (efficacy) 은현존하는최상의예방, 진단, 치료방법과비교하여시험되어야한다. 증명된예방, 진단혹은치료방법이없는경우에도대조군에게위약 (placebo) 혹은무치료 (no treatment) 를설정하지않아야한다는것은아니다." (29 절 ) 이후아프리카의 HIV 연구처럼현존하는최상의치료가너무비싼경우에관련된임상시험을수행하고자했던연구자 (Ferriman 2001) 들과제약관련연구자, 약물관련규제자들 (Tollman et al.(2001)) 은항의를하기도하였다. 세계의학협회 (World Medical Association, WMA) 는다음과같은성명을발표했다. " 세계의학협회는개정된헬싱키선언의 29절이해석의혼란을야기할수있음을우려하는바이다. 따라서위약비교연구 (placebo-controlled trial) 에는주의를기울여야하고, 일반적으로는현존하는증명된치료가없는경우에적용되어야한다는입장을재확인한다." 그러나, 다음과같은상황에서는입증된치료가있더라도위약비교연구를윤리적으로허용할수있다. 1. 필연적이며과학적으로옳은방법론적이유로, 예방, 진단, 치료방법의유효성과안전성을결정하는데필요한경우 2. 예방, 진단혹은치료방법이경미한상태를대상으로하고, 위약 (placebo) 을투여받 - 20 -
는피험자는중대하거나비가역적인손상등의어떠한추가적인위험에노출되지않을경우 적절한윤리적, 과학적검토 (ethical and scientific review) 의필요성 ' 에대한조항을포함하여헬싱키선언의모든조항들은반드시지켜져야한다." 이성명은일부비평가 (Bland(2002a, 2002b)) 에게는만족할만하지못했고, 여전히논쟁거리이지만, 위약비교형태의모든연구는어떠한이유로대조군의위약치료선정이정당한지계획서에명시해야할것이다. 때로는, 둘이상의대조치료법 (control treatment) 의선정이가능하다. 예로, 새로운고혈압치료제를평가하고자하는경우, ACE-inhibitor, beta-blocker, 이뇨제, 염분제한식이, 운동중하나혹은이중둘이상의조합을대조치료법으로하여비교할수있다. 부적절한대조치료법을계획하거나최상의대조치료법이아닌방법을계획하는임상시험은비판을당할수있다. 대조치료법을선택하는임상시험에서는연구계획서에선택된대조치료법에대한정당성을명시해야한다. B- 4 눈가림 B- 4.1 이중눈가림과단일눈가림설계응답에서의비뚤림 (bias) 은연구참여자의잠재의식에따라일어날수있다. 환자의반응은그가어떤치료를받고있는지에대한인지여부, 특정치료가유익한지해로운지에대한믿음, 임상의의마음에들고싶은욕구등에따라영향을받게된다. 특히활성약 (active drug) 과비활성약 (inert drug) 을비교하는연구에서피험자가어떠한치료를받는지에대해관찰자가알게된다면관찰결과에영향을미칠것이다. 이러한이유로, 피험자가어떤치료를받고있는지피험자본인과평가자모두모르게하는이중눈가림법 (double blind) 이선호된다. 때로는연구참여자중한쪽만치료에대해눈가림이되는단일눈가림 (single blind) 만이가능한경우가있는데, 대부분이피험자가받는치료에대한임상의의눈가림이불가능하여환자에게만눈가림이가능한경우가많다. 한예로, 치료가수술의형태인경우가될수있다. 또한, 환자와임상의모두에게는눈가림이불가능하지만, 피험자가어떤치료를받았는지모르는제 3의관찰자가 X-ray 결과를평가하는경우와같이평가의눈가림이가능한경우가있다. 일반적으로눈가림법을적용하는연구에서는연구참여자에게어떻게눈가림이이루어지고유지될것인지자세히기술하는것이중요하다. 연구에피험자를등록시키는사람이다음에등록되는환자가어떤치료를받게되는지모르게하는것또한바람직하다. 이에대한구체적인방법은 B-5 장에제시되어있다. 요약하면, 이중눈가림연구는피험자와평가자모두, 단일눈가림연구는둘중한쪽에한 - 21 -
해서치료에대한식별이불가능하도록유지하는것이다. B- 4.2 위약새로운치료법을치료가없는경우와비교하기위한이중눈가림연구를시행하는경우, 가짜약 (dummy pill), 즉, 위약 (placebo) 을주어야한다. 위약의처치는피험자가치료에대해식별불가능하도록하고, 특정치료를받는것을앎으로써피험자의상태가호전되었다고느끼는심리적인효과를방지하게한다. 이러한치료에대한심리적인반응을위약효과 (placebo effect) 라한다. 경우에따라서는위약효과가매우큰경우도있다. 예로, 3 가지활성약이위약과비교되는진통제시험에서각약이 4가지색으로제조되었을때전반적으로는활성약이위약보다효과가있었으나이상하게도빨간색위약은활성약만큼유효하게관찰되었다 (Huskisson(1974)). 위약은외양과맛이활성약과동일해야하고, 약물학적으로비활성이어야한다. 위약의사용은새로운치료의효용성과부작용 (side effect) 을평가가능하게한다. 위약은비약물시험에서사용될수있으나, 비윤리적일수있다. 예로, 백신연구에서식염주사가사용될수있으나윤리적으로허용되지않을수있다. 때로는 같은 외양을 가지기 힘든 두 약을 비교하는 경우 피험자에게 배정된 활성약과 함께 다른 군의 활성약과 같은 외양을 가지는 위약을 주는 이중위약 (double dummy) 을 이용하여 눈가림을 유지할 수 있다. 예를 들어, 정제와 외용제를 비교하는 경우 각각의 피험자는 활성화 정제와 위약 외용제 혹은 위약 정제와 활성화 외용제 중 하나를 받게 된다. B- 5 무작위배정 B- 5.1 무작위배정무작위배정 (randomization) 혹은무작위적인할당 (random allocation) 은피험자의특성이할당될그룹에영향을미치지않게각각의그룹으로피험자들을나누는기법이다. 이는각피험자가할당될그룹이우연에의해결정되고따라서그룹간에생기는차이는모두우연에의한것으로간주할수있게된다는것이다. 임상시험에서무작위배정은피험자가어떤치료를받게될지를결정하는데사용될수있다. 이를테면, 새로운치료와기존치료를비교하는시험에서 1:1 무작위배정을하는경우각각의피험자가새로운치료혹은기존치료를받을확률은같다. B- 5.2 무작위배정이적용되는시험다른처치를받는그룹을비교하고자하는실험적연구 (experimental study) 에서무작위배정을사용할수있다. 이때연구대상은인간에국한되는것이아니라동물, 다른생물학적혹은유기체단위도될수있다. 무작위배정이적용되는전형적인예로는피험자 - 22 -
가두가지치료중하나를받게되는임상시험이있다. 또한개개인을둘이상의그룹에할당하거나피험자들의그룹을서로다른치료군으로할당하고자할때사용될수있다. 예를들어, 진료기관전체를 2개의치료중하나에할당하는집단무작위배정 (cluster randomization) 이있다. B- 5.3 무작위배정의필요성임상시험에서무작위배정이선호되는이유는 3가지로나누어볼수있다. 첫째, 비뚤림 (bias) 없이치료군간의차이를평가하기위해서이다. 연구자는치료군간에관찰되는모든차이는치료군의효과차이로인한것이라고결론짓기를원한다. 즉, 피험자특성의차이가치료차이와교란되기를원하지는않는다. 무작위배정이없는치료의비교는고의적이던그렇지않던간에특정피험자들에게특정치료를받게함으로써비뚤린결과를초래할수있다. 무작위할당이주어지는치료이외에그룹들을완전히동일하게할수는없지만, 그룹간의차이가있다면그러한차이는우연에의해서발생한것이라할수있다. 둘째, 무작위배정은치료의비교에서발생하는비뚤림 (bias) 을줄이기위해, 연구자와피험자가치료형태를알수없게한다. 셋째, 무작위배정은모집단의임의표본 (random sample) 인치료그룹이추출되도록하여, 확률론에근거한표준적인통계적검정을타당하게한다. B- 5.4 무작위가아닌배정방법어떤연구는새로운치료를받는현재환자와기존치료를받은과거환자를비교한다. 이러한경우, 환자들을무작위배정하는것은불가능하다. 과거대조군 (historical control) 은현재환자와많은면에서다를수있고, 새로운치료를받는현재의환자와의비교에서비뚤림이생길수있다 (B-3 참조 ). 다른일반적인접근방법으로계통적할당 (systematic allocation) 이있다. 교대로이루어지는할당 ( 예, A B A B...) 이나생일, 연구에참여하는날 ( 짝수날이면 A, 홀수날이면 B) 을이용하는것이예가될수있다. 연구비신청서나저널의논문에서는배정이무작위로이루어졌다고하였으나후에피험자가치료군에교대로배정된경우를볼수있다. 이러한설계는원칙적으로는비뚤리지않았으나, 무작위배정절차에접근권한이있는사람이할당을변화시킬수있는여지가있기때문에문제가발생할수있다. 이러한이유로다른방법이있는한, 계통적인할당은권장되지않는다. B- 5.5 무작위배정방법가장뚜렷하고단순한무작위방법은동전을던지는것과같은물리적인방법을사용하는것이다. 즉, 피험자가시험에등록될때마다동전을던져무작위배정이이루어지고이결과를피험자정보지 (patient information sheets) 에기술한다. - 23 -
그러나일반적으로피험자가등록될때마다동전을던지는방식과같은무작위배정을피해야하는데, 가장큰이류는점검기록 (audit trail) 을남기지못하기때문이다. 점검기록이존재하지않으면무작위할당이제대로이루어졌는지를확인할길이없다. 예를들어, 연구자들이할당된배정에불만족하였더라도동전을다시던지지않았음을보장할수있는방법이없다. 따라서피험자가시험에등록되기전에미리작성한배정표를토대로무작위할당이결정되어야한다. 무작위배정표는연구에참여하는피험자를볼수없는제 3자에의해만들어져야하고, 환자를등록하는사람들은배정에대해눈가림이되어야한다. 대규모연구에서의무작위배정의경우, 동전을던지는대신수리적인절차에의해만들어진난수를사용할수있고, 일련의난수를만들기위해컴퓨터프로그램에의해만들어진난수표 (tables of random numbers) 를사용할수있다. 예로, 주어진난수표에서주사위를던지거나다른유사한방법으로임의의시작점을선택한후, 다음난수가홀수이면새로운치료짝수이면기존치료와같이배정표를만들수있다. 하지만, 컴퓨터의접근성이좋아짐에따라이러한절차대신컴퓨터만을이용하여무작위배정수행을위한프로그램을작성할수있으며, 교재나웹을통해서무작위배정을위해작성된통계패키지의프로그램혹은무작위배정사이트를이용할수도있다. 의학연구협력센터홈페이지 (http://mrcc.snu.ac.kr, http://mrcc.snuh.org) 에서도실시간으로운용할수있는무작위배정구현을지원하고있다. 이러한프로그램들에서는첫피험자등록전에무작위배정표를작성하여출력하거나피험자가한명씩등록되면서무작위배정표가작성되며, 무작위배정방법을연구계획서에자세히기술하는것은매우중요하다. 무작위배정표 (randomization list) 는연구의등록에관여하지않은누군가에의해준비된후, 연구자들이이용할수있도록제공되어야한다. 무작위배정은물리적으로가까운지점뿐만아니라장거리의경우에도피험자등록시점에전화를통한방법등을통해시행될수있다. 병원현장에서무작위배정을하는한방법으로무작위배정순서를봉투에넣는방법이있을수있다. 이경우, 연구자가봉투안의내용물을읽기위해램프근처에봉투를비쳐본사례등이있으므로봉투는내용이보이지않도록불투명하게하는것이중요하다. 같은이유로피험자를등록하는사람이다음봉투를올바르게취하기위해봉투에일련번호가매겨져야한다. 연구자들이다음에등록될환자가어떠한치료를받을지알게해서는안되므로, 무작위배정표는연구자에게공개해서는안된다. 무작위배정이연구자에게공개된경우명백한비뚤림을야기하고치료군간의결과는과장되게큰차이를보인경우가빈번히발생하여왔다. 전화에의해이루어지는장거리배정 (long range allocation) 은큰규모의연구와다기관연구 (multi-center trial) 의경우에적절하고사무실에전화를받을누군가가있어야한 - 24 -
다. 이는 연구되는 질환에 따라 정규 근무시간이나 24시간이 될 수 있다. 대개 연구자들 은 이러한 무작위배정 운용을 하기 어려우므로, 24시간 전화 서비스 ( 이 서비스는 때때로 컴퓨터에 의해 작동되기도 한다.) 를 제공하는 상업적인 시험 사무소를 이용하는 경우가 많다. 무작위배정기록을유지하는것은좋은생각이다. 각그룹에서나이, 성별, 중요한예후인자와같은변수의분포가유사한지확인하는것은중요하며, 특히제 3의집단에서전화로무작위배정을제공할때중요하다. B- 5.6 블록무작위배정항상그룹간피험자수를유사하게유지하고자하는경우에는블록무작위배정 (block randomization) 을사용할수있다. 한예로, A와 B, 2가지치료가있고, 피험자를블록크기 4로배정하고자한다고가정하면치료 A에 2명, 치료 B에 2명씩을할당하는방법은총 6가지가있다. 1. AABB 2. BBAA 3. ABAB 4. BABA 5. ABBA 6. BAAB 만약 6가지방법의조합을사용하면, 그룹간의피험자의수는어떤등록시점에서나 2이상의차이는나지않는다. 배정순서는난수표를이용하여무작위로블록을선택함으로써만들어진다 ( 예를들어, 1은 AABB, 2는 BBAA 와같이블록의번호를매기고, 1-6 이외의난수는무시한다 ). 블록배정또한컴퓨터를이용하여이루어질수있다. 임상시험에서연구자들이피험자가어느치료에배정될지미리추론하는것을피하기위한최선의방법은연구자들이무작위순서가어떻게만들어졌는지모르게하는것이다. 이러한이유로큰규모의시험에서는큰블록크기를사용하여순열을추측하기가힘들게할수있다. 이러한순열을만들기위해서는컴퓨터를이용하는것이필요하다. B- 5.7 층화무작위배정무작위배정의목표는서로다른치료를받는피험자군사이에예후에영향을미칠수있는특성에관한분포를가능한유사하게하는것이다. 이를테면, 예후는종종나이와관련되어있으므로, 연구자는그룹간유사한연령분포를가지기를원한다. 그러나작은규모의연구의경우무작위배정이그룹간균형을보장하지는않는다. 우연에의해차이가발생할수있고, 이는결과의신뢰도와관련하여의구심을야기할수있다. 이에대한해결책의하나는시작시점부터예후에영향을많이미치는변수에대해층화무작위배정 (stratified randomization) 을하는것이며또다른방법은최소화법 (minimization) 을사용하는것이다. 층화무작위배정은각각의하부그룹 ( 층 ) 에대해무작위배정표를작성하여각층내에서 - 25 -
치료군의피험자수를유사하게하는것이다. 예로유방암에대한 2가지대체치료에관한연구에서폐경상태를고려하면, 폐경기전의여성군과후의여성군에대해서독립적인 2 개의무작위배정표를작성하고봉투에넣어봉합한상태로보관한다. 이때각층안에서치료간의균형을유지하기위해부가적으로블록을사용할수있다 (B-5.6 참조 ). 층화무작위배정은 2개혹은그이상의층화변수로확장될수있다. 하지만층의수가많아지면하부그룹의규모가너무작아지므로적은수의층을이용하는것이좋다. B- 5.8 최소화법중요한예후인자가많은작은규모의연구에서는무작위배정으로는그룹간적절한균형을유지할수없다. 또한층화무작위배정 (B-5.7 참조 ) 은적은피험자를중요한변수모두에의해층화시킬수없으므로실현불가능할수있다. 이러한경우, 최소화법 (minimization) 이라는기법을이용하여균형을유지할수있다. 이는다음환자가연구에등록될무렵그룹간전체적인불균형을최소화하는치료를배정한다는아이디어를기반으로한다. 연구계획서에서는어떠한예후인자를사용할것인지어떻게그룹화될것인지명시하는것이중요하다. 예를들어, ' 연령을예후인자로사용하겠다.' 고하는것만으로는충분하지않다. '50세미만과 50세이상으로 ' 와같이실제연령군이제시되어야한다. 간략히말하면최소화법은다음과같이수행된다. 처음피험자가 A 혹은 B에무작위배정된다. 다음피험자가등록되고그들의예후인자가기재되면, 그시점에서전체적인균형이최적화되게하는군으로배정된다. 예로, 한연구에서 16개의의원이시험군과대조군으로배정되고, 그룹간균형을이루어야하는 3개의변수는다음과같았다. 의원에서의 의사의 수 의원에서의 환자의 수 장기간 정신병 환자의 수 이를다음과같이그룹화한다. 의원에서의의사의수 : 3, 4, 5, 6 명의원에서의환자의수 : 8,600명미만 / 이상장기간정신병환자의수 : 25명미만 / 이상 처음의원은다음과같은특성을보였다. 의원에서의 의사의 수 : 4 명 의원에서의 환자의 수 : 8,500명 장기간 정신병 환자의 수 : 23명 - 26 -
처음에는 두 치료군 모두 등록된 피험자가 없으므로, 첫 의원의 경우 두 그룹 중 무작 위적으로 배정되어 시험군에 배정되었고, 다음과 같은 최소화 변수에 대한 표가 만들어졌 다. 시험군 (Intervention) 대조군 (Control) 3, 4 명의 의사 1 0 5, 6 명의 의사 0 0 8,600 명 미만의 환자 1 0 8,600 명 이상의 환자 0 0 25명 미만의 정신병 환자 1 0 25명 이상의 정신병 환자 0 0 두번째의원은다음과같은특성을보였다. 의원에서의 의사의 수 : 4 명 의원에서의 환자의 수 : 7,800명 장기간 정신병 환자의 수 : 17명 표로부터어떠한배정이불균형을감소시킬지알수있다. 두번째의원은아래표의강조된행에영향을미칠것이다. - 27 -
시험군 대조군 3, 4 명의 의사 1 0 5, 6 명의 의사 0 0 8, 6 0 0 명 미만의 환자 1 0 8,600 명 이상의 환자 0 0 2 5 명 미만의 정신병 환자 1 0 25명 이상의 정신병 환자 0 0 불균형 3 0 불균형은강조된행의총합이므로, 시험군에의원 2를배정하면불균형은 6과 0이나, 대조군에배정하면 3과 3이된다. 따라서두번째의원은대조군에배정된다. 이제그룹간은완벽히균형을이루게되고그러므로 3번째의원도무작위로시험군에배정되었다. 3번째 의원은 다음과 같은 특성을 보였다. 의원에서의 의사의 수 : 5 명 의원에서의 환자의 수 : 10,000명 장기간 정신병 환자의 수 : 24명 이의원은시험군에배정되었으므로, 할당은다음과같다. - 28 -
시험군 대조군 3, 4 명의 의사 1 1 5, 6 명의 의사 1 0 8,600 명 미만의 환자 1 1 8,600 명 이상의 환자 1 0 25명 미만의 정신병 환자 2 1 25명 이상의 정신병 환자 0 0 4번째 의원은 다음과 같은 특성을 보였다. 의원에서의 의사의 수 : 3 명 의원에서의 환자의 수 : 3,400명 장기간 정신병 환자의 수 : 12명 이는아래표의강조된행의불균형에영향을미칠것이다. 시험군 대조군 3, 4 명의 의사 1 1 5, 6 명의 의사 0 0 8, 6 0 0 명 미만의 환자 1 1 8,600 명 이상의 환자 0 0 2 5 명 미만의 정신병 환자 2 1 25명 이상의 정신병 환자 0 0 불균형 4 3 만약네번째환자가시험군에배정된다면불균형총합이 7, 3이고대조군에배정된다면불균형총합이 4, 6이므로 4번째의원은대조군에배정된다. 이러한절차는 16개의의원모두배정될때까지진행된다. 만약다음의원이배정될당시두그룹에서의불균형이 - 29 -
같다면무작위로배정한다. 시험군 대조군 3, 4 명의 의사 5 5 5, 6 명의 의사 3 3 8,600 명 미만의 환자 4 4 8,600 명 이상의 환자 4 4 25명 미만의 정신병 환자 4 4 25명 이상의 정신병 환자 4 4 두그룹은 3 변수모두에대해균형을이루었다. 이러한최소화법은 확률적 이지않다는점에대해거부감이들수도있다. 피험자가받게될치료를연구자가알수있게되므로, 피험자의특성은환자를연구에등록시키는연구자의결정에영향을줄수있다. 이러한단점을피하기위해서확률화의요소를최소화법에도입할수있다. 최소화법은피험자가어느쪽으로배정되는지방향을결정하기위해사용하지만, 실제치료를선택하기위해서는확률화법을사용한다. 예를들어서, 불균형을줄이는배정군에배정될확률을 2/3 혹은 3/4로상대적으로크게하고, 불균형을증가시키는방향으로는 1/3 혹은 1/4의확률로배정되게한다. 보다자세한사항은 Pocock(1983) 을참조하라. 최소화법은규모가작고다양한그룹을무작위배정시킬때가장유용하다. 큰규모의연구는일반적인무작위배정혹은층화후에균형을유지할수있다. 최소화법혹은층화에사용된변수는그룹간의변동을줄일것이므로다중회귀와같은방법으로가능한한분석에서고려되어야할것이다 (E-6.1 참조 ). 최소화법을구현하는컴퓨터프로그램이있으므로시험에등록되는개개인을수동으로최소화할필요는없다. 또한임상시험관련서비스를통해전화나웹을이용한최소화법을제공받을수있다. B- 5.9 군집개개인이아닌피험자집단전체를한치료군에할당하는경우가있다. 예를들어, 건강증진프로그램연구가의원에서시행되면, 치료를의원전체의환자에게적용하게되는 - 30 -
것이 자연스럽고 이를테면 임상시험에 대한 광고나 정보가 환자대기실에서 제공될 수 있 다. 다른 예로는 환자집단을 전염으로부터 격리해야 하는 경우가 있다. 만약 특정 간호사 가 한 병동의 환자들을 돌본다면 그 간호사가 그 병동의 일부 환자들만을 돌보고 다른 환자들은 돌보지 않는 것은 어려운 일이다. 또한, 환자나 보호자에게 교육을 제공하는 경 우, 교육을 받은 사람들이 대조군의 역할을 하는 다른 환자 또는 보호자에게 그들이 배운 것을 전달하는 것은 일반적으로는 바람직한 현상이나, 시험에서는 그렇지 못하다. 또 다 른 예로 서비스 제공자에게 임상지침서 (clinical guidelines) 와 같은 치료를 제공하고, 그 들의 환자로부터 자료를 수집함으로써 임상지침서의 영향을 평가하는 경우도 있을 수 있 다. 한치료에함께배정되는피험자집단을군집 (cluster) 이라한다. 군집은연구를설계할때고려되어야하고 (Kerry & Bland(1998b), Kerry & Bland(1998d), Kerry & Bland(1998e), Bland (2000)) 분석에서도고려되어야한다 (Altman & Bland(1997), Bland & Ke rry( 1 997), Ke rry & Bland (1 998 ), Ke rry & Bla nd( 1 998 c)). 군집을사용하게되면시험에서의검정력 (power) 이줄어들고연구대상수 (sample size) 가더많이필요하므로, 연구계획서에서는이러한사항들을어떻게고려할것인지언급하여야한다. B- 5.1 0 시험설계 B-5.10a 병행그룹임상시험에서가장단순한설계는두그룹의환자들이평행하게연구되는병행그룹설계 (parallel group design) 이고, 이는가장일반적인설계이다. B-5.10b 교차설계교차시험 (crossover trial) 은환자가자신의대조군이되는연구이다. 즉, 각각의피험자가연달아두 ( 혹은모든 ) 치료를모두받는다. 치료가주어지는순서는무작위적이어야바람직하다 (B-5.5). 이설계의큰장점은치료법을다른피험자간에비교하지않고같은피험자안에서비교할수있다는점이다. 이는특히피험자간변동이큰결과의평가에유용할수있다. 교차시험은치료의효과가빠른시간내에나타나는경우가장적절하다. 한시기로부터다음시기로넘어갈때치료의잔류효과 (carry-over of treatment effect) 가있을수있기때문에두치료간에휴약기간 (wash out) 이필요할수있다. 만약교차설계가제안된다면휴약기간에대해논의되어야하고기간을구체적으로명시하고그이유를설명해야한다. B-5.10c 그룹내비교교차시험 (crossover trial) 은환자내설계 (within-patient design) 이다. 환자내설계의다른형태는같은피험자에게두치료가동시에조사되는것이다. 이는치료가눈, 귀, 팔다리와같이신체의대응되는부분에독립적으로주어지는경우에사용될수있다. 이와 - 31 -
유사한설계로써나이, 성별과같은요인으로피험자들을쌍을맺고, 각쌍내에서무작위로치료를배정하는짝지은설계 (matched pairs design) 가있다. 알려진중요한예후인자가있는경우, 이설계는피험자간변동의많은부분을제거하고각각의치료를받는피험자들이유사한특성을가지도록한다. B-5.10d 축차설계축차설계 (sequential design) 에서는병행그룹 (parallel group) 이연구의대상이되고, 한그룹에서충분한이익이있거나두그룹의차이가나타나지않을것이분명할때까지시험이계속된다. 피험자각각의자료가수집되면분석이시행되므로, 결과가아주빠른시간에나타나는경우에만적절한방법이다. 치료간에큰차이가있으면동등한병행시험보다축차설계를통하여시험기간이짧아질수있다. 윤리적장점으로는한치료법이확실히우월하거나열등하다고평가되면연구를중지하게된다는점이다. 병행그룹설계를순차적으로분석하는것은계획되지않은다중검정 (multiple testing, E-7 참조 ) 을시행하게되어잘못된유의한결과를얻을수있으므로부정확한방법이다. 순차적분석은연구대상수산출과정에서다중검정을감안하는것과같이설계단계에서면밀히계획되어야한다 (E- 7.1, E- 7.4 f 참조 ). 보다자세한사항은 Whi t eh e ad( 1 997) 를참조하라. B-5.10e 요인설계요인설계 (factorial design) 는다양한요인들을동시에비교하는것으로, 피험자각각은모든요인들의조합을받는다. 예를들어, 정맥주사전통증완화연구인 EMLA 시험 (Nott MR Peacock JL(1990)) 에서는 4개의치료가사용되었다 ( 정맥주사 5분전, 10분전 EMLA, 위약, 무 ). 타관심요인은주사바늘의크기 (3종류) 와성별이었다. 이연구는각치료군, 주사바늘크기, 성별의조합에같은수의피험자가등록되어균형을이루도록설계되었다. 이설계는연구자로하여금통증에대한치료, 주사의크기, 성별및교호작용 (interaction) 에대한영향을조사할수있도록하였다. 균형잡힌설계가통계분석이용이한것은사실이지만, 근래우수한컴퓨터프로그램의도움으로불균형한설계도큰문제가되지는않는다. 요인설계는특히요인들의교호작용조사에적절하나, 때로는연구가능한피험자가수가제한되어있고요인효과가산술적혹은대수적척도로가법적일때 ( 즉, 요인교호작용이없을때 ) 통계적검정력 (power) 을최적화하기위해제안될수있다. 계획서에정당한이유가기술되지않은채교호작용이없음을가정하는것은매우강한가정이되므로, 계획서심사자는교호작용을확인할수있는연구대상수산출방법을제시하였는지확인하려할것이다. 요인설계에서실재로교호작용이없는경우에주요인효과는다른요인들의모든수준조합에대한평균으로산출할수있으나만약요인효과간에교호작용이있는데이를고려하지않는다면, 주요인효과에대한추정치는유용하지않을수있다. B- 6 결과변수 - 32 -
시험결과를결정하는데사용할주결과변수 (main outcome variable) 를명확히하는것은매우중요하다. 주결과변수는일차결과변수 (primary outcome) 또는일차종료점 (primary endpoint) 이라고한다. 하나의일차결과변수를선택하여결정하는것이매우중요하다. 만약주결과변수가통계적으로유의하다면치료군이비교군보다더효과가있다고결론내릴수있다. 임상시험에서는 잠재적 부작용 등과 관련되어 있을 것으로 추정되는 부가변수 (additional variable) 들에 대하여도 조사하게 된다. 이런 경우에도 이차결과변수 (secondary outcome) 또는 이차종료점 (secondary endpoint) 을 사전에 명확히 하여야 한 다. 이차결과변수에 대한 통계적 분석도 수행되지만, 이 경우 주결과 변수 분석결과에 대 한 해석과는 차이가 있다. 많은 이차 결과변수 각각에 대해 시행된 검정 결과 중 유의한 것이 과대해석 되지 않도록 다중 검정을 고려하여야 한다. 더욱이 이차결과변수의 통계적 유의성만으로는 치료의 효능을 평가하지 않는 것이 관례이다. 이차결과변수에서의 통계적 유의성은 결론을 도출하기 위한 근거보다는 효과를 설명하기 위한 것으로 사용되어야 한 다. 시험의주결과분석은주결과변수와이차결과변수와관련된연구주제에대한것이어야한다. 때로는연구자가다른가설을검정하고싶어할때도있는데이러한결과는주결과보다강조되지않게주의해서제시되어야한다. 특별히치료의효과가높게나타난하위그룹 (subgroup) 에대한분석결과를제시할때는더욱신중하여야한다. 만약이분석이원래의연구계획서에제시되어있다면, 하위그룹에대한분석결과를제시하여해석하는것이문제되지않는다. 그러나이러한분석결과를제시하는것은다른하위그룹에비하여특정하위그룹에서치료효과가좋은것처럼과장되어보일수도있다. 또한테스트된다른하위그룹에대한언급이없다면, 결과가오인될수있다. 만약하위그룹에대한효과를진정으로확인하고싶다면다중요인분석 ((multifactorial analysis (E-1.1)) 을실시하는것이권장되며상호작용을보정하여야한다 (A-1.6a). B- 7 데이터모니터링 B- 7.1 데이터모니터링위원회임상시험수행에있어서데이터모니터링위원회 (data monitoring committee) 가구성되어야하는경우가많다. 이위원회는독립적인전문가집단으로임상시험기간동안사전에계획된간격으로소집되며, 임상시험의진행과수행을감독한다. 위원회는한치료법이다른치료법보다명백히우월한가를검정하기위하여치료군간의결과를비교하기도하고, 유해사례 (adverse event) 가너무과도하게나타나는게아닌지확인하기도한다. 데이터모니터링위원회는치료군에대하여눈가림된상태로데이터를중간분석한다면, 치료에대한사전정보없이중간분석의결과로임상시험의조기종료여부를결정하게된 - 33 -
다. 그러므로위원회에대한눈가림은시험의객관적인평가에있어중요하다. B- 7.2 임상시험 조기종료 시기 우위성의 증거가 확고한 경우 시험의 조기종료가 가능하다. 자료의 모니터링은 시험의 주 분석 전에 한번이상 시행이 되므로, 통계적 유의성은 일상적으로 쓰이는 유의수준인 0.05보다 증가하게 된다. 실제로 다중검정이 행해지면 유의한 차이가 없는데도 유의한 차 이가 있다고 나타나는 오류 (1종 오류 ) 가 증가하게 되므로, 유의성을 보이기 위한 임계값 은 이러한 오류로 인한 시험의 조기종료가 이루어지지 않도록 수정되어야 한다. 따라서 데이터 모니터링에서는 0.001과 같이 작은 임계값을 적용하여 전체적인 유의수준이 일상 적으로 쓰이는 유의수준인 0.05로 유지될 수 있도록 하여야 한다. 다중검정 시 고려하여 야 할 임계값의 설정에 대해서는 P oco ck( 1 98 3 ) and Whi t eh e ad( 1 997) 에 보다 자세히 나와 있다. 계획된 연구대상수보다 적은 수로부터 나온 추정치는 정확도가 떨어지기 때문에, 아주 크고 유의한 차이가 관찰되지 않는 한 시험의 조기종료는 피해야 한다. 즉, 중간분 석으로부터 나온 차이는 아주 커서 과학적 검토를 담당하는 위원회가 납득할 수 있어야 한다. 과거에는 임상시험이 조기종료 되는 경우는 비평의 대상이 되고, 그 결과는 무시되 기도 하였다. B- 8 동의서 B- 8.1 동의의학연구의윤리적인원칙은헬싱키선언 (Declaration of Helsinki) 에근간을두고있다. 모든임상연구원은한번쯤은이선언문을읽어보아야하고, 이원칙에서어긋나지않는지모든임상시험은반드시면밀하게검토되어야한다 (F3.3). 연구계획서에는피험자들이모집된방식과, 피험자가시험에동의하는과정이포함되어야한다. 임상시험에참여할피험자를모집할때, 연구자는피험자의동의와협조를요청하여야한다. 연구자는반드시잠재적피험자에게시험의목적과그들에게일어날수있는일에대해알려주어야한다. 특히연구에참여하지않았을때에도피험자에겐아무런불이익이없다는것과연구에참여하였을때피험자가받을수있는잠재적위험성이나이익에대해모두알려주어야한다. 만약피험자가임상시험에참여할때그동안받아왔던치료를중지하게되는경우에는이러한사항들이반드시설명되어야한다. 정보가구두나비디오또는문서등다양한형태로피험자에게제공될수있겠지만, 반드시피험자가가지고있을수있는인쇄물형태의문서로추가적으로제공되어야하고, 명료하고단순한언어로표현되어야하며, 사실만을서술하여야한다. 이러한피험자설명서 (information sheets) 를작성하는것은쉽지않으며, 피험자설명서는임상시험심사위원회에의해면밀히검토될것이다. 시험에등록되는사람들은대개자신이중대한질병을가지고있다고듣는등커다란개인적스트레스하에서시험에참여하게되므로인 - 34 -
쇄물형태의피험자설명서를제공해야한다. 극단적인경우어떤피험자들은연구자로부터들은설명사항뿐아니라그들이시험에참여하기를요청받았다는것조차기억하지못할수있기때문에피험자설명서를인쇄물형태로제공하는것은중요하다. 만약가능하다면, 피험자들이시험에대한정보를듣고나서, 시험에참여하기위한결정을내리는데가족이나다른사람들과토론하기위한충분한시간이주어져야한다. 임상시험에 참여하는 사람들은 그들이 시험에 대한 정보를 제공받았고, 그것에 동의했 으며, 언제든지 동의를 철회할 수 있다는 것을 이해했다는 동의서 형식에 서명하여야 한 다. 동의서 형식은 피험자 설명서와는 분리될 수 있어야 하며, 피험자는 동의서를 반환할 때에도 피험자 설명서는 가지고 있을 수 있어야 한다. 피험자 역시 서명 된 동의서를 가 지고 있어야 하며, 시험자는 피험자들에게 자신이 그 임상시험에 동의했다는 것을 환기시 켜야 한다. B- 8.2 응급상황응급상황과같이, 잠재적피험자들에게임상시험의장점과단점및여러사항들에대하여설명할시간적여유가없는경우가있다. 예를들어, 뇌졸중의신경세포보호제 (neuroprotection) 에관한임상시험은발병후가능한빨리조치가취해져야한다. 환자가의식이없거나, 극단적인혼란상태에있는경우에, 피험자의친인척들과대리인으로부터임상시험에대한동의를받아야한다. 그러나대리인이정신적으로문제가없는사람을대신해서동의할수는없다. 무작위배정이수행되고응급처치는피험자가동의할수있는상황에앞서서시행될수있으나이후피험자가시험을거부하는경우에는임상시험에서제외되어야한다. B- 8.3 어린이잠재적피험자가어린이일경우에는그들의부모나법적보호자에의해서동의를받을수있다. 이런경우에부모를위한피험자설명서가있어야하고, 어린이가글을읽을수있을정도라면, 어린이의나이에적합한피험자설명서를제공하여야한다. 피험자가그들에게일어나고있는일이무엇인지이해할만큼충분한나이라면동의는그들스스로에게서얻어야할것이다. 아이들은부모의동의와함께그들의의지에따라서조치를받아야할것이고, 그들의의지에반하여피험자가될수없다. B- 8.4 스스로판단할수없거나의사를표명할수없는피험자예를들어, 잠재적피험자가학습장애나, 정신질환, 마비등정신적으로나신체적으로동의할수없는상황이라면법적보호자가동의할수있다. 어린이의경우도가능하다면본인에게동의를받아야한다. 헬싱키선언의 24조는 " 만약해당연구가제시된사람들의건강증진을위한경우가아니라면, 그리고이연구가법적으로취약하지않은다른사람들에의해대신수행될수없는경우가아니라면이러한대상은연구에포함되지말아야한다." 라고명시하고있다. - 35 -
B- 8.5 집단무작위배정설계 집단 무작위배정설계 (cluster randomized designs) 를 수행할 때에는 피험자로부터 동의 를 받는 것이 더욱 어렵다. 왜냐하면, 이 설계에서는 사람들이 그룹에 따라서 임의 추출 되고, 이 과정은 보통 피험자의 동의 없이 진행되기 때문이다. 예를 들어, 여러 병원에서 동시에 수행되는 임상시험의 경우, 한 병원에서 선택된 모든 환자들은 같은 치료를 받도 록 무작위배정된다면 환자들은 치료를 위한 동의를 하는 것이 불가능하다. 또 다른 예로, 일반의가 무작위배정되어 질병 치료를 위한 특정 가이드라인을 받게 되는 임상시험에서, 환자들은 자신의 의사가 무작위배정되거나 자신이 특정 가이드라인에 의해 치료되는 상 황에 동의할 수 있는 기회가 없다. 그것은 이미 일어난 일이기 때문이다. 환자들은 단지 임상시험을 위한 데이터를 제공할 것인지의 여부에 대하여 동의할 수 있을 뿐이다. 만약 한 병원이 특정 치료를 받기로 무작위배정되었다면, 환자들은 치료받기를 동의하여 시험 에 참여하거나 거부하여 참여를 하지 않을 수 있다. 만약 치료가 특정한 병원에서 시행된 다면, 그들은 임상시험 참여를 권유받았을 때 그 병원에 가는 것을 거절할 수는 있다. 그 러나 일반적인 병원, 직장이나 학교에서의 건강증진프로그램 (health promotion interventions) 과 같은 치료에서는 심지어 피험자들이 참여거부를 할 수 없는 경우도 있 다. 집단 무작위배정 (cluster randomization) 은 이러한 이유에서 결코 윤리적이 될 수 없 다고 비판받기도 한다. B- 8.6 무작위배정후동의취득하는경우이와같은설계는새로운치료법을기존치료법과비교하는경우에적용되는데, 연구자는대조군에게새로운치료법에대하여알리는것을원치않을것이다. 예를들어, 새로운처치는동일한조산사가출산과분만, 출생후의모든것을보살펴주는것이고, 기존처치가행해지는대조군은그시간에당번인사람이아무나산모를보살피고, 같은조산사가한번이상같은산모를돌볼수없는경우라고해보자. 연구책임자는임신한여성들이한명의조산사가출산에관련된사항을종합관리하는병원이있다는것을안다면, 거의모든여성이기존치료법에만족하지않을것이라고생각하여시험에등록된여성들은시험군과대조군에무작위배정한후시험군에배정된여성들에게이새로운치료법을수락하거나표준치료법을선택할수있게하였다 ( 몇명은기존치료법을선택했다 ). 그후모든여성들에게임산부를위한서비스 (maternity services) 연구에동의해달라고요청하였고, 결과적으로연구데이터가수집될수있었다. 이것은무작위배정후동의취득하는경우 ( ran do mi ze d c o nse nt d es ig n ) ( Z e len (1 979, 1990)) 의예로, 여기서는피험자들을무작위배정한후, 치료나데이터준비를위한동의를얻게된다. 그러나무작위배정그자체에대한동의는획득되어지지않는다. 이런연구방법이임상시험에서사용되는경우에는전문가들의심도있는논의가전제되어야하며어떤비평가들은이러한무작위동의는윤리적이지않다고비판받는경우도있다. - 36 -
무작위배정후동의를취득하는경우 (randomized consent design) 는의도된대로분석 (intention to treat) 법칙에따라서분석된다 (E-9). 이는유의성을높여주는방법이지만, 치료효과의추정에비뚤림을가져올수있다. B- 9 연구계획서위반과비순응 어떤환자들은우발적혹은고의적으로연구계획서를따르지않거나 ( 비순응 non-compliance), 환자의상황에따라임상의가원래배정된치료와다른치료를하게되는경우가있다 (protocol violation). 이런경우처리할수있는방법은모든무작위배정된환자들을배정된대로유지한채자료를분석하는것이다. 이는기존의무작위배정이유지되기때문에그룹간의균형을이룰수있고, 치료군간의비교가능성이보장될것이다. 이러한방법을의도된대로분석 (intention to treat analysis) 이라한다 (E-9). 의도된대로분석법은환자가임상시험에서탈락이된경우에는해당되지않는다. 이런경우에결측치의효과를평가하기위하여민감도분석 (sensitivity analysis) 을수행하여야한다. B- 1 0 연구대상수달성 임상시험에서요구되는연구대상수는표준적인검정력계산법이나신뢰구간의크기를이용하여결정되어야한다 (D 참조 ). 그러나동의할만한수의피험자를모집하는것은매우어렵다. 많은임상시험에참여한경험을돌이켜볼때충분한피험자모집이어려워서모집기간이예상보다훨씬늦어지는경우가많았다. 또다른경우는계획된모집대상중일부만으로임상시험을영구적으로종료하는것인데, 이런경우에는검정력은낮아지고, 결론을내리기에부적절한결과가나올수있다. 많은경우임상시험이시작되자마자계획당시기대했던바와달리환자수가희박하게된다는것을깨닫게되는데그이유중의하나는환자가임상시험에동의하지않기때문일것이다. 임상시험에서피험자의순응도가감소하는것은임상시험약물에대한부정적인평판의근거라고할수있다. 그러나많은부분에서피험자모집에실패하는경우는연구자가잠재적대상자를분별하는것에서이루어진다. 이는새로운치료법의안전성이나효능에의심의여지가없기때문이거나, 새로운치료법이사용되어야만한다는관점때문인경우가많다. 예를들어, 심근경색환자에서 nitrate 설하정에관한축차설계임상시험 (sequential trial) 에서표본수계산에서가정된수보다훨씬적은환자가사망하는것을발견하는경우가이에해당될수있을것이다. 이것은임상시험에모집된모든환자들이임상시험에서쓰이는약물의적응증에비하여예후가좋다는것으로설명된다. 고위험환자는임상시험에참여하지않은채 nitrate 설하정처방을받은경우이다. 피험자모집이잘되지않는또다른이유는스태프들이너무바쁘기때문이기도하다. 만약진료환경이너무많은환자와적은스태프수로압력을받고있는상태라면, 연구 - 37 -
프로젝트는관심밖으로제외될것이다. 다른문제는그과에서이미다른연구가진행되고있을경우일것이다. 스태프는아마도또다른임상시험에참여하거나, 이에필요한피험자를모집해야한다는것을염두에두기어려우며, 같은환자를두고각기다른임상시험에서환자를모집하기위한경쟁을하게될지도모른다. 이런경우에는다른임상시험을위탁할수있는잠재적공동연구자를찾는것이중요하다, 파일럿연구 (pilot studies)(a-1.9) 를통해연구책임자가임상시험수행기관의실제적으로피험자모집에관련되어있는스태프들과좋은관계를쌓아두는것은이러한문제점들을사전에해결하는데매우유용하다. 또한연구팀에서피험자모집이얼마나잘되고있는지모니터하는것도좋은아이디어가되는데, 이방법은피험자모집의문제점들을조기에발견할수있도록한다. B- 1 1 임상시험종료후 최근헬싱키선언은다음과같이말한다 : " 연구가결론지어지는시점에서는연구에참여한모든환자에게연구에의하여밝혀진가장좋은예방법, 진단법그리고치료법이적용되어야만한다."(Clause 30). 물론이것은급성질환의치료와같은많은임상시험에서가능하지않거나적절하지않을수도있다. 그러나만성질환의직접적인환자치료에관한임상시험인경우에는꼭언급되어야만한다. C. 관찰적연구 C- 1 환자 - 대조군연구 C- 1.1 환자 - 대조군연구에서대조군의선택심혈관질환의위험요인을구명하는환자-대조군연구 (A-1.4 참조 ) 를가정해보자. 흡연력은명백한위험요인으로조사할가치가있다. 환자-대조군연구를수행하기위해서는연구시작시점모집단에서어떤표본 ( 병동, 병원, 일반모집단 (general population) 등 ) 을추출할것인지처음에정해야한다. 환자군을병원병동에서모집하고, 대조군을접근이용이한다른병원에서선택하는경우를생각해볼수있다. 그러나후자의경우선택비뚤림이생길수있다. 심혈관계질환의잠재적위험인자로흡연력이연구변수중하나인연구를수행하고자할때, 심혈관병동에서환자군을선택하고흡연력이연구변수중하나라면, 폐암과같이흡연과관련이있는질환을가진환자들이있는병동에서대조군을선택하는것은부적절하다. 적절한대조군의선택은실제적측면과통계적측면모두에서어려운문제이다. 이러한문제는 Bres low & Day( 1 98 0 ) 와의학연구방법론 (1 997) 에서상세 - 38 -
히논의되었다. 일반적으로대조군을선택하는이상적인방법은환자군을추출한일반모집단에서무작위추출하는것이나, 이것은모집단에서개개인의목록이존재한다는것을가정으로하는데이런가정은성립하지않는경우가많다. C- 1.2 환자 - 대조군연구에서의짝짓기환자-대조군연구에서환자와대조군이짝지어지는경우도있다. 각환자별한명의대조군이짝지어지는 1 대 1 짝짓기또는환자당여러명의대조군이짝지어지는 1 대 m 짝짓기가있다. 후자의경우주어진환자군에서검정력을높이기위해사용된다 (Breslow & Day(1980)). 각환자에대하여한명또는그이상의짝지어진대조군은짝짓기변수들의값이같거나매우유사하게되고, 짝짓기변수들은보통나이와성별등을포함한다. 대부분 2, 3개의짝짓기변수들이선택되는데, 그이상을선택하게되면적당한대조군을선택하여짝을짓는것자체가어려워지는경우가많다. 짝짓기를하는이유는짝짓기변수에서환자군과대조군의차이를없애기위함이다. 성취하려는목적의정도는짝짓기의정확성에따라좌우되며, 최대한정확하게짝짓기가이루어졌을때균형을이룰수있게된다. 파일럿연구는짝짓기가제대로이루어지는지판단을내릴수있는좋은방법이될수있다. 연구계획서에서짝지어진환자-대조군연구를기술할때, 이를테면환자군과대조군이나이로짝지어졌다는것만설명하는것은충분하지않다. 1년이내또는 5 년이내연령에의한짝짓기등과같이상세하게설명해야한다. 또한대조군이어떻게선택되었는지 ( 예를들어, 가능한모든짝짓기대상으로부터무작위추출 ), 어떤경우에대조군이탈락되는지기술해야한다. 대조군이탈락되는경우다른사람이대조군으로서선택될것인지, 얼마나많은대조군이대체될수있는지설명이되어야한다. 짝짓기의주목적은교란변수를통제하는것이다 (A-1.6 참조 ). 하지만짝짓기에서나타나는다음과같은문제점이우려되는경우에는다른방법으로교란변수를통제하는것이선호되기도한다. 짝짓기의문제점은다음과같다. 1. 질병 / 장애의 유무에 대하여 짝짓기 변수들의 효과는 평가할 수 없다. 비록 대상 질 병이 짝짓기 변수와 연관이 있다 하더라도, 짝짓기 변수들을 연구대상 변수로 고려할 수 없게 된다. 2. 짝짓기를 하는 경우 이를 통계분석에서 고려해야 하는데, 이때 분석이 지나치게 복 잡해진다 (E-6.1, Breslow & Day(1980)). 3. 1 대 1 짝지어진 환자-대조군 연구는 짝지어진 대상이 함께 분석되어지는데, 통계 분석에서 대조군에 결측이 있다면 짝지어진 환자 또한 결측으로 처리해야 한다. 유사하게 환자군에서 결측은 그와 짝지어진 대조군의 정보의 상실을 초래한다. 4. 연구나 질병의 위험 인자들 사이에서 인과관계의 일부분을 변화시키는 변수를 짝짓 게 된다면 비뚤림이 생길 수 있다. 이러한 비뚤림은 과도한 짝짓기가 원인이라고 할 수 있다. - 39 -
짝짓기에대해서는 Bland & Altman(1994c) 과 Breslow & Day(1980), 역학의원리와응용 (2005), 의학연구방법론 (1997) 을참고할수있다. C- 2 평가비뚤림 식이요법과대장암사이의관계를규명하는환자-대조군연구를생각해보자. 식이요법을평가하기위해면접조사원이대상자가섭취한음식을조사한다고가정하자. 만약조사자가환자들의대장암유병여부에대해알고있다면, 이것은조사자에의해기록된정보와실제정보와의차이인평가비뚤림 (assessment bias) 을유발할수있게된다. 조사자는암을가진환자들이실제섭취한음식량보다적게기록할가능성이있다. 평가비뚤림은평가자가대상질병의유병여부에대해눈가림을하게된다면극복할수있게되며, 의식적인혹은무의식적인결과의조작을피할수있게된다 ( 조사자가얼굴을맞대고질문하는환자-대조군연구에서는눈가림이어려울것이나 ). 환자-대조군연구에서의무기록지를이용하여정보를수집하는경우에도환자혹은대조군이라는정보를알게됨으로써평가비뚤림이발생할수있다. 따라서이러한경우눈가림방법이선호된다. C- 3 회상비뚤림 환자의결과변수와같은정보를후향적으로수집할때회상비뚤림 (recall bias) 은환자-대조군연구와단면적연구에서일어나는문제이다. 예를들어피험자에게과거에있었던질병에대해묻게되는경우가있다. 환자의정보를후향적으로수집한다면피험자의회상력에의존하므로자료의질은떨어질수있다. 게다가피험자의회상능력은현의학적상태에영향을받을수있고, 관찰된연관성을비뚤리게할수있다. 만약회상비뚤림이문제가될수있다면, 다른방법을고려할필요가있다. 예를들어, 눈가림방법을이용하여과거기록에서정보를수집할수도있고, 사전에폭로정보가수집되었다면전향적인연구로진행할수도있을것이다. C- 4 표본조사 : 표본집단의선택 실업과현재의좋지않은건강사이의연관성에대한연구를수행하고자할때, 단면적조사를계획하여서울시민에서표본을추출할수있다. 연구의목적은발견되는결과를이러한표본에서모집단인서울시민으로, 나아가국가적으로외삽하는것이다. 그러므로표본에서얻어지는것은최소모집단인서울시민을대표해야한다. 실제로는전체서울시민에서무작위추출을해야만대표적인참표본을얻을수있다. 그렇다고할지라도그표본은단지특정기간만대표할수있으며, 심지어얻어진결과를다른기간에같은서울시민에게외삽하는것조차힘들수있다. 따라서국가로의확장도어렵게된다. 때로는우연에의해무작위표본이원하던만큼의대표성을가지지못할수도있다. 예 - 40 -
를들어, 실업과건강상태사이의연관성을구명하기위한단면적조사에서는경제적빈곤을반영할수도있는도시내거주지역에대한충분한대표성이있다는것을보장하는것이중요할수도있다. 이경우대표성을보장하기위한하나의방법은층화무작위추출을수행하는것이다. 층화무작위추출은표본의대표성을확고히하기위해모집단의정보를이용하는것이며모집단의추정에대해정확성을높일수있다. 여기서거주지역을층화요인으로사용할수있다. 보통비례적인층화추출을많이수행한다. 즉, 총연구대상수를층화하는계층에비례적으로배분하는데이때분율은총모집단에대한분율로써계층수에의해결정된다. 예를들어, 서울시민의 10% 가하나의지역단위에살고있다면전체표본수의 10% 가이지역에서무작위로선택된다. 층화는무작위추출의원리를벗어나는것은아니다. 층화는선택전에일어나는것이며모집단을계층수로나누어각각의층화에무작위로표본추출한다. 하나이상의층화요인이있을때에도가능하다. 예를들어, 거주지역으로층화를한후지역에서나이로층화를할수있다. 이때너무많은요인으로층화를하지않도록주의해야한다. 층화무작위추출을하기위해서는모집단이커야하고모든구성원및그들의층화요인에대한리스트가있어야한다. 층화의수가증가하면시간과비용또한명백히증가하게되지만, 표본의대표성을더많이신뢰할수있게되고결과의일반화가가능해진다. C- 5 일반화와결과의외삽 모든의학연구는선택된대상의집단에서수행된다. 하지만의학연구의유용성은개인들의특정집합에대한정보보다는결과의일반화에두고있다. 그러나대부분의연구는매우제한적인선정기준을갖고있기때문에일반화에어려움이있다. 예를들어, 대장암과식습관의연관성을조사하기위한단면적연구의참여자가사회적수준이낮은지역사람들이라면이러한결과를사회적수준이다른사람들에게외삽 (extrapolation) 하기는어려울것이다. 이러한결과의외삽은명확하지않으므로이러한연구의연구자들은사회적수준의폭이큰다른지역과통합하는것을고려해야한다. 연구에서사회적수준의폭이큰표본을갖는다하더라도, 논문을읽는사람은한국에서수행한결과를유럽으로외삽하기전연구참여자의인종적특징을주의깊게살펴야한다. 관찰적연구들은연구의개개피험자들로부터대한어떤정보를발견하기보다는위험요인과질병 / 장애와의연관성을조사하기위해수행된다. 일반화와외삽법에대해서는 Altman과 Bland(1998), 의학연구방법론 ( 1 997) 을보는것이도움이될것이다. C- 6 설문조사에서응답률의최대화 설문응답률은설문에응한사람의비율이다. 설문조사, 특히우편조사는낮은응답률을갖는경향이있다 (30~50% 는보통 ). 설문에응답한사람과그렇지않은사람의차이때문에응답률이낮은연구의결과는대상모집단의대표성을보여주지못한다. 연구계획 - 41 -
서에설문지분석이포함되어있다면응답률을최대로하기위한계획을기술해야한다. 우표가붙어있고주소가적혀있는회신봉투를제공하고참여자에게연구의중요성을알려주고익명을보장해준다면응답률은높아질수있다. 만약설문응답자를확인할수있다면응답하지않은사람들에게다시질문지를보내거나전화를하는방법으로응답률을높일수있다. 만약설문응답자를확인할수없다면질문지를재발송하였을때같은응답자로부터중복응답을받을수도있을것이다. 질문지에서응답률을높이는것에대해서는 Edwards(2002) 를참조할수있다. D. 연구대상수산출 D- 1 연구대상수산출이제시되어야하는경우 연구대상수산출은다양한대부분의정량적연구 (quantitative study) 들에서요구된다. 연구대상수산출은정성적연구 (qualitative research, 이것은양적연구와같은단순한기술이아니라, 내용분석과같은질적방법을의미 ) 에서는필요로하지않는다. 연구대상수산출은파일럿연구에서는요구되지않는경우가있다 (A-1.9 참조 ). 연구대상수산출과정을제시하지않거나부적절한연구대상수산출은연구계획이승인되지않는가장흔한원인중하나가될수있다. D- 2 연구대상수산출의중요성 모집단의특성을추정하는연구 ( 예, 천식어린이의유병률 ) 에서연구대상수산출은요구되는정밀성 (precision) 또는신뢰성 (confidence) 을갖춘추정값을확고히하는데중요한역할을한다. 예를들어, 연구대상수 20명으로부터 10% 유병률은 95% 신뢰구간이 1~31% 가되는데, 이는정밀한정보를제시하지못한다. 반면, 연구대상수 400명으로부터의유병률 10% 는 95% 신뢰구간이 7~13% 가되어이것은충분히정밀하다고할수있다. 연구계획시연구대상수산출은연구수행후전자의경우에직면하게되는것을피하는데도움을준다. 효과를입증하는연구 ( 예, 두치료법에서의차이혹은위험요인이존재하는경우와존재하지않는경우의진단의상대적위험도의차이 ) 에서의연구대상수산출은, 만약임상적으로나생물학적으로중요하게간주될효과가존재한다면그것이발견될확률이크다 ( 즉, 분석결과가통계적으로유의하다.) 는것을입증하는데중요하다. 만약연구대상수가너무작다면, 큰차이가관측되더라도표본추출 (sampling) 에따른변동에의한것으로의미있는차이가입증되지못할수있다. D- 3 연구대상수산출에필요한정보 - 42 -
연구대상수산출을위해통계전문가에게자문을구하는것은매우중요하다. 연구대상수산출에대한방법은 Altman(1991), Bland(2000), Armitage, Berry and Matthews(2002), 의학연구방법론 (1997), 실용의학통계론 ( 1 999) 과같이몇개의통계교재에상세히실려있다. 연속형자료에서는 Machin(1998) 을이용하고, 범주형자료일때는 Lemeshow(1996) 을참고할수있다. 이러한책들은계산을쉽게하기위해표를제시하고있다. 축차설계에서의연구대상수는 Whi t eh e ad( 1 997) 을참고할수있다. 실제연구대상수는컴퓨터프로그램을사용하여산출할수있다. 웹을통해쉽게찾을수있는많은프로그램들을사용하면평균이나분율의비교와같은비교적간단한연구대상수를계산할수있다. 또한보다많은기능을제공하는 nquery advisor, Elashoff(2000) 와같은상업용컴퓨터패키지도있다. 연구대상수산출은다음과같은요인에의존하는데, 통계전문가와임상연구자는이러한내용에대해함께논의해야할것이다. 1. 연구에서의 관심 변수와 자료의 형태 ( 자료의 형태는 A-4, A-4.1 과 A-4.2 참조 ) 2. 목표 검정력 3. 목표 유의수준 4. 임상적으로 유의한 효과 크기 5. 연속형 결과변수의 경우 표준편차 6. 분석에서 사용된 검정 ( 단측 또는 양측검정 ) 7. 연구 설계 측면 -단순 무작위배정 비교임상시험 (RCT) -집단 무작위배정 시험 -동등성 시험 (D-7 참조 ) -무작위배정되지 않은 개입 연구 (B-5.10c 참조 ) -관찰적 연구 -유병률 연구 -특이도와 민감도 측정 연구 -연구에 짝지어진 자료가 있는 경우 -반복 측정된 자료가 있는 경우 -집단들의 크기가 다른 경우 -계층적 자료인 경우 무작위배정되지않은연구들은차이나연관성을찾기위해수정되는경우가많은데일반적으로분석과정내에서교란변수를보정하기위해서보다많은연구대상수를필요로 - 43 -
한다. 고려해야할연구대상수는전체모집단에비례하는일정부분이아닌절대적으로필요한연구대상수이어야한다. D- 4 통계용어의설명 D- 4.1 귀무가설과대립가설많은통계분석은두치료의비교, 치료법이나환자유형과연관되어있다. 관심의차이를요약하고있는수치적값을효과 (effect) 라한다. 연구형태에따라서는효과가상관계수, 교차비또는상대위험도로표현된다. 귀무가설과대립가설을명백히하는것은연구계획에서중요한과정이다. 보통귀무가설은 ' 효과의차이가없다 '( 차이가 0이다상대위험도는 1이다상관계수는 0이다 ) 이며, 대립가설은 ' 효과의차이가있다 ' 이다. D- 4.2 확률값 ( p - 값, p - v a l u e ) p-value는귀무가설인 ' 효과의차이가없다 ' 가실제로참일때효과의차이가관측될확률이다. 보통분율의형태로표현된다 ( 예, p=0.03). D- 4.3 유의수준유의수준은귀무가설을기각하고효과가있다고결론내릴수있는 p-value의임계점 (cut-off point) 이다. 유의수준은보통 5% 로설정한다 (p=5% 와 p=0.05와는같다 ). 만약관측된 p값이 5% 보다작다면실제차이가없을확률은매우작아지기때문에차이가있다고결론내릴수있게된다. 유의수준 5% 는실제효과가없을때효과가있다고결론내릴수있는확률이 5% 라는의미도된다. 따라서효과가없을때효과가있다고결론내리는것을피하는것이매우중요하다면유의수준 1% 등보다작은값이적절하다. D- 4.4 검정력검정력은귀무가설이올바르게기각될확률을의미한다. 즉, 실제효과가있거나연관이있을때효과가없다는귀무가설을기각하는것을의미한다. 검정력은 100-실제효과를발견하지못할확률로생각할수있다. 따라서높은검정력은실제로존재하는효과를발견하지못할확률이작음을의미한다. 검정력은보통 80%, 90%, 또는 95% 로설정한다. 만약연구에서실제로존재하는효과를입증하는것이중요하다면검정력을 90% 나그이상을적용하는것이적절하다. D- 4.5 임상적으로유의한효과크기임상적으로혹은생물학적으로중요하게고려될수있는평균이나분율의차이또는 - 44 -
교차비 / 상대위험도의최소크기이다. 적절한연구대상수는이러한차이가존재하는경우통계적으로유의한결과를얻을수있게해준다. D- 4.6 유의성의단측검정과양측검정양측검정에서는귀무가설이 ' 효과가없다 ' 이고대립가설은 ' 어느방향이든효과가있다 ' 는의미이다. 단측검정에서는대립가설이효과의차이가한방향으로만있는것이며 ( 예로, 치료약이위약보다좋다 ), 귀무가설은효과가없다혹은위약이치료약보다좋다중하나로결론내릴수있다. 단측검정을사용할특별한이유가없다면양측검정을사용해야만한다. 차이가특정방향으로기대된다는것만으로는단측검정에대한충분한이유로부족하다. 임상연구자들은때로실제결과가기대했던것과반대방향으로나타나는것을관찰하고놀라게될때도있으며, 참효과가기대했던것과반대였다면이는단순히효과가없다는것과는의미가다르다. 이러한사항은반드시제대로보고되어야하는데, 단측검정만으로는이를입증하기가어렵다. 단측검정이적절한경우에대해서살펴보려면 Bland & Altman(1994) 을참조하면된다. D- 5 연구대상수산출시포함되어야할변수 연구대상수산출은연구의일차결과변수를이용하여산출하여야한다. 만약연구가이차결과변수를갖고그것또한중요하다면, 연구대상수는이러한변수분석을위해서도충분히커야한다. 연구대상수를중요하다고생각되는변수에따라각각분리해서산출하는것이이경우에이상적이다. D- 6 반응률, 탈락률등에따른연구대상수의손실 연구대상수산출은연구종료시점까지참여하는연구대상수와관련이있다. 그러므로기대되는반응률과추적손실, 순응도에따른대상수손실을가져올수있는상황을고려하여초기대상수를늘려야한다 (B-10). 초기대상수와연구종료시까지남아있는대상수간의연계성은명백히제시되어야한다. D- 7 연구목적과통계적분석방법에따른연구대상수산출 대상수의타당성은연구의목적에따라평가된다. 예를들어새로운약이기존의약보다우월하다는것을밝히는게목적이라면, 연구대상수는두치료약의임상적차이를발견하기에충분한수가되어야한다. 하지만때때로두약이동등한효과를갖는다는것을보이는것이시험의목적일수있다. 이러한연구는동등성시험혹은음성적 (negative) 시험이라불린다. Pocock(1983, p129-130) 은이러한연구에서고려할사항에대해기술하 - 45 -
고있으며, 이때요구되는연구대상수는차이를입증하는시험보다커야한다고설명하고있다. 연구계획서검토자는연구대상수산출이연구에서기술된목표와연관이있는지, 그리고일차결과변수에근거하여산출되었는지확인해야한다 (D-5 참조 ). 연구대상수산출은연구에서제안된통계적방법과도일치해야하는데, 연구대상수와분석방법모두연구의설계에의존하기때문이다 (E 참조 ). 따라서연구대상수산출과정에서사용된분석방법과연구계획서에제안된통계분석방법의일치를확인해야한다. D- 8 연구대상수산출및기술에대한예제 단일분율을추정하는연구또는두개의평균이나분율을비교하는연구의연구대상수산출은비교적수월하기때문에여기에예를통해제시하였다. 하지만연구대상수산출은반드시통계전문가와논의를거치는것이바람직하다. D- 8.1 단일분율의추정아래에제시된식은 ' 정규분포에근사한방법 ' 이므로대상수가크지않으며퍼센트가 0 이나 100에가깝게추정되는경우에적용해서는안된다. 이러한경우는 ' 정확방법 (exact method)' 을사용하여야한다. 이것은일반적으로 100% 에가까운값이예상되는새로운검사법의특이도또는민감도를추정하는연구에해당되는경우가많은데이러한경우는통계전문가에게자문을구하거나적절한컴퓨터패키지를이용해야한다. 천식환자들사이에서의호흡장애유병률에대해우편설문을실시하였다 (Thomas(2001)). 요구되는정보는다음과같다. -일차결과변수 = 호흡곤란유 / 무 -기대되는유병률의최적예측 (best guess)=30% (0.30) -요구되는 95% 신뢰구간폭 =10% ( 즉, 5% 또는 25% 에서 35%) 단일분율추정에관한연구대상수공식은다음과같다. 여기서 n= 요구되는연구대상수, p= 기대되는분율 ( 여기서는 0.30), W= 신뢰구간의폭 ( 여기서는 0.10) 이러한정보를이용하여산출하면, - 46 -
n=15.4 0.30 (0.70)/0.102=324 연구대상수산출과정에대한기술은다음과같이쓰는것이좋다. " 유병률 30% 에서 ± 5% 의 95% 신뢰구간을 구하기 위해서는 천식을 갖는 총 324명의 피험자가 필요하다. 설문지에서 70% 의 응답률을 고려한다면 총 480개의 설문지가 제공될 것이다." D- 8.2 두개의분율비교다음산출과정은두개군의분율을비교할때에적용가능하다. 목적이미숙아에서의패혈증감소를위한군락자극인자 (colony stimulating factors, CSFs) 의효능을평가하는위약-대조군무작위배정시험에서, 태어난지 2주정도지난유아에서 50% 정도패혈증을보인이전연구결과를 34% 로줄이는것을임상적으로의미가있다고가정하였다. 요구되는정보는다음과같다. -일차결과변수 = 출생후최대 72 시간안에치료가행해진 14일이후에패혈증유 / 무 -임상적으로유의한효과크기 =16% 또는 0.16 ( 즉, 50%-34%) -유의수준 =5% -검정력 =80% -검정종류 = 양측검정 2 개의분율을비교하는연구대상수산출공식 ( 양측검정 ) 은다음과같다. 여기서 n= 각각의 군에 요구되는 연구대상수 (2n= 총 수 ) p1= 첫 번째 분율 ( 여기서는 0.50) p2= 두 번째 분율 ( 여기서는 0.34) p1-p2= 임상적으로 유의한 효과 크기 ( 여기서는 0.16) A: 유의수준에 의존 ( 표 참조 )-여기서는 1.96 B: 검정력에 의존 ( 표 참조 )-여기서는 0.84 A 와 B 에대한표 - 47 -
유의수준 A 검정력 B 5% 1.96 1% 2.58 80% 0.84 90% 1.2 8 95% 1.6 4 위의정보를공식에대입하면, 146 은각군에필요한수이므로총수는 2 배인 292 이다. 연구대상수산출에대한기술은다음과같이하는것이좋다. " 총 292 명의유아들 ( 치료군과위약군각군당 146) 은검정력 80%, 유의수준 5% 로치료후 14일에서패혈증분율에대한군사이의 16% 차이를입증하기위해충분한수이다. 16% 차이란, 위약군에서 50% 의패혈증분율과치료군에서의 34% 의패혈증분율을의미한다." D- 8.3 두개의평균비교다음의공식은두군의평균을비교할때적용가능하다. 무작위배정시험에서자살을시도하여병원을찾은환자들에서자살충동감소를위해일반적으로사용되는심리적중재역할을하는치료제를평가하려한다. 자살충동은 Beck scale로측정되었다. 이전연구에서이 scale의표준편차는 7.7이었고, 5점이상차이가날때임상적으로의미가있다고한다. 중도탈락은참여한인원의 3분의 1 정도로예측한다 (Guthrie(2001)). 요구되는정보는다음과같다. -일차결과변수 = 자살충동에대한 Beck scale -표준편차 =7.7 점 - 48 -
-임상적으로유의한효과크기 =5점 -유의수준 =5% -검정력 =80% -검정종류 = 양측검정 두개의평균을비교하기위한연구대상수산출식 ( 양측검정 ) 은다음과같다. 여기서, n= 각군에요구되는연구대상수 (2n= 총수 ) SD= 일차결과변수의표준편차 - 여기서는 7.7 DIFF= 임상적으로유의한효과크기- 여기서는 5.0 A: 유의수준에의존 ( 표참조 )-여기서는 1.96 B: 검정력에의존 ( 표참조 )-여기서는 1.28 A 와 B 에대한표 유의수준 A 검정력 B 5% 1.96 1% 2.58 80% 0.84 90% 1.28 95% 1.64 이러한정보를산출식에대입하면, 이것은각군당필요한대상수이므로, 총수는이것의 2 배인 76 명이다. 중도탈락 1/3 이고려되기때문에연구대상수는각군당 60 명으로증가하여총 120 명이 - 49 -
된다. 연구대상수산출에대한기술은다음과같이하는것이좋다. " 각군당 38명의연구대상수는표준편차를 7.7 이라가정하고, 검정력 80%, 유의수준 5% 의경우자살충동의 Beck scale에서 5점이임상적으로의미가있다고할때충분한대상수이다. 중도탈락이 1/3이예상되므로, 중도탈락을고려하여각군당 60명으로늘려야한다 ( 총수 120명 )." D- 9 부적절한연구대상수기술 예제 1. " 이전 연구에서 150명의 피험자를 모집하였고, 매우 유의한 결과 (p=0.014) 를 얻었기 때 문에 이와 유사한 연구대상수이면 충분하다." 이전연구에서유의한결과를얻은것은무작위표본추출로인한 ' 행운 ' 일수있다. 연구를제안하기위해서는본문에명확한연구대상수산출방법이기술되어야한다. 검정력, 유의수준, 일차결과변수, 이변수에대한임상적으로유의한효과크기, 표준편차 ( 만약연속형변수라면 ) 와군을비교하는것이라면각군당연구대상수가기술되어야한다. 예제 2. " 연구를뒷받침할수있는사전정보가없기때문에연구대상수를산출하지않았다." 모든 효과는 발표된 기존 정보를 찾아서 산출한 연구대상수에 근거하여 입증되어야 하 거나, 아무런 사전 정보가 없는 경우 이러한 정보를 얻기 위해 작은 사전 연구를 수행하 여야 한다. 표준편차에대한사전정보가없을때연구대상수산출은매우일반적인조건으로계산해볼수도있다. 즉, 많은표준편차에서발견되어질수있는차이의크기를얻음으로써계산해볼수있을것이다. 연구가매우예비적인성격의파일럿연구라면, 그리고연구의실행가능성을평가하거나전체연구의연구대상수산출을위한정보를수집하기위함이라면그연구를위한연구대상수산출은필요하지않다. 예제 3. " 일년에 50명가량이병원을찾고그중 10% 정도연구참여를원하지않는다. 연구의기간은 2년정도이므로연구대상수는 90 명이된다." - 50 -
비록대부분의연구가실행가능성을고려하여균형을맞춰야하지만연구대상수가단지이용가능한피험자에의해결정되어서는안된다. 이용가능한환자의수가연구의제한요소일지라도연구대상수는명확히제시되어야한다. 이는연구가갖는임상적으로유의한효과크기를입증하기위한검정력이나원하는검정력을적용하여입증될차이를제시하기위해서이다. 이용가능한피험자의수가임상적으로유의한효과크기를입증하기위한충분한검정력을갖지못할작은수라면, 연구의기간을확장하거나다기관공동연구로수행하는것을고려해볼수있을것이다. E. 통계적방법의기술 E- 1 서론 연구계획서의통계분석부분은다음의사항들을염두에두고고려하여야한다. -통계적분석방법이적절하게기술되었는가? -용어의사용에모호함은없는가? -연구자료는적절한척도로측정되었는가?(A-4.1 참조 ) -이척도는제안한통계분석방법을적용하는데적절한형태의척도인가?(A-4.2 참조 ) -통계분석방법에따른가정이만족되었는가? 가정이만족되지않았다면어떠한대안이계획되었는가? -통계분석방법이연구설계와자료의구조를적절하게설명하고있는가? E- 1.1 적절한용어의사용연구자가통계분석방법을기술할때적절한통계적용어를사용하는것은검토자들의이해를돕는데매우유용하다. 그러나더중요한것은연구자들이그들이사용하는통계용어를실제로잘이해하고사용하는가의여부이다. 많은연구자들은실제로는다중요인분석 (multifactorial analysis) 을의미하는상황에서자신들이다변량분석 (multivariate analysis) 을계획했다고말하기도한다. 이두분석방법은전혀다른상황에서전혀다른질문에답하기위해사용되며전혀다른가정을갖는다. 또한, 다변량 (multivariate) 과다중요인 (multifactorial) 이란용어가연구계획서뿐만아니라여러의학논문에서도부적절하게혼용되어혼란을가중시키고있다. 그렇다면이용어들은언제어떻게사용되어야하는가? 어떠한통계분석방법에서든결과변수를기준으로변동 (variation) 이모형화되고가정이수립되게마련이다. 반면에설명변수는고정된값을취한다고가정한다. 이때오직하나의결과변수가관여하는통계적방법을단변량 (univariate) 이라하고여러결과변 - 51 -