연구대상자수의 결정 이용희 November 2, 2018 Contents 1 통계적 가설검정과 오류 2 2 평균의 차이 와 검정력의 정의 3 3 가설검정의 기각역 4 4 검정력의 계산 5 5 연구대상자수 n의 결정 8 1

Similar documents
슬라이드 1

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

G Power

10김묘선

statistics

R t-..


1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

전기설비의 검사˚점검 및 시험등




완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

(001~006)개념RPM3-2(부속)

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

Microsoft PowerPoint - PDF3 SBE pptx

자료의 이해 및 분석

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - IPYYUIHNPGFU

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

고차원에서의 유의성 검정

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

4-Ç×°ø¿ìÁÖÀ̾߱â¨ç(30-39)

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는


자식농사웹완

chungo_story_2013.pdf

*중1부

2

Çѱ¹ÀÇ ¼º°øº¥Ã³µµÅ¥

...._



전반부-pdf

표1.4출력

003-p.ps

<4D F736F F F696E74202D20312E20B0E6C1A6C0FCB8C15F3136B3E2C7CFB9DDB1E25F325FC6ED28C0BA292E >

_

12월월간보고서내지편집3

중앙도서관소식지겨울내지33

에너지포커스 2007년 가을호


01_당선자공약_서울

인권문예대회_작품집4-2




목차

A°ø¸ðÀü ³»Áö1-¼öÁ¤

±¹³»°æÁ¦ º¹»ç1

¿¡³ÊÁö ÀÚ¿ø-Âü°í ³»Áö.PDF

전반부-pdf

뉴스레터6호

Microsoft PowerPoint 하반기 크레딧 전망_V3.pptx

50차 본문 최종

양성내지b72뼈訪?303逞

³»Áöc03âš

fsb9¿ù³»ÁöÃÖÁ¾Ãâ

¾ç¼º-¾÷¹«Æí¶÷-³»¿ëÃà¼Ò4

전도대회자료집


< DBAB4B9ABC3BB5FBAB9B9ABB0FCB8AEB8C5B4BABEF32D33B1C72E706466>

표1~4

<3344C7C1B8B0C6C320BFE4BEE02D E706466>

µ¶ÀÏÅëÀÏÁý1~2Æíq36£02Ð


λx.x (λz.λx.x z) (λx.x)(λz.(λx.x)z) (λz.(λx.x) z) Call-by Name. Normal Order. (λz.z)

YBM시사닷컴, 첨단 개인별 맞춤 학습 시스템 개발

고객관계를 리드하는 서비스 리더십 전략

= ``...(2011), , (.)''

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

모수검정과비모수검정 제 6 강 지리통계학

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

... —... ..—

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

Microsoft PowerPoint - chap04-연산자.pptx

1 수사 경과 수사 착수 배경 신용카드 및 현금영수증 결제승인 대행 서비스업체인 밴사와 대형 가맹점 간의 리베이트 수사 과정에서,밴 수수료로 창출되는 막대한 이익을 둘러싸고 밴 업계의 경쟁이 과열되고 있다는 점에 착안 관련 비리를 집중 내사한 결과,밴 사업자 선정을 위

메타분석: 통계적 방법의 기초


<C5EBB0E8C0FBB0A1BCB3B0CBC1F5C0C7C0FDC2F7BFCDB9AEC1A6C1A1B1D7B8AEB0EDB4EBBEC E687770>

Microsoft PowerPoint - LN05 [호환 모드]

한국보건사회연구원통계학및계량경제학의기초및응용 강의노트 2017 년 4 월 5 월 통계학 : 통계적추론 (Statistical Inference) I. 들어가며 이제통계학에서가장중요한토픽이라고할수있는통계적추론에대해서본격적으로공부를해보도록하겠습니다. 통계적추론을통해연구와관

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS

01

10. ..


º»ÀÛ¾÷-1

PowerPoint 프레젠테이션


... —....—

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의



Microsoft PowerPoint - SBE univariate5.pptx

Ⅰ. 개인저축률 변화의 주요 특징 2년대 우리 경제에 있어 급격한 변화를 보인 지표 중 하나가 개인저축률일 것이 다. 9년대 평균 2.6% 수준을 유지하던 개인저축률은 2년대 들어 평균 5.3% 로 낮아졌다(<그림 1> 참조). 1988년 이후 완만한 하락세를 보이던

와플-4년-2호-본문-15.ps

- 2 -

Transcription:

연구대상자수의 결정 이용희 November 2, 2018 Contents 1 통계적 가설검정과 오류 2 2 평균의 차이 와 검정력의 정의 3 3 가설검정의 기각역 4 4 검정력의 계산 5 5 연구대상자수 n의 결정 8 1

임상시험을 수행하기 위해서는 표본의 수, 즉 연구대상자를 실험 전에 먼저 정하고 실험을 해야한다. 교과서에서도 언급되었듯이 많은 임상실험은 실험전에 필요한 연구대상자의 수를 미리 정하고 실험을 진행한다. 엄격한 증거가 요구되는 임상실험에서는 원하고자 하는 결과가 나올 때 까지 실험중에 대상 자수를 늘리는 것이 일반적으로 받아들여 지지 않는다. 또한 충분하지 않은 소수의 대상자만으로 얻은 결론 또한 받아들여 지기 힘들다. 그러면 실험 전에 어떻게 필요한 연구대상자의 수를 결정할 수 있을까? 1 통계적 가설검정과 오류 연구대상자의 수를 실험전에 결전하기 위해서는 모집단에 대한 두 가지 정보가 필요하다. 이제 통계학에 서 나오는 가장 기본적이고 가설검정인 두 정규분포의 평균의 차이를 검정하는 문제에서 연구대상자의 수를 결정하는 절차를 알아보자. 확률변수 X는 정규분포 N (µ1, σ2 )를 따르고 Y는 N (µ2, σ2 )를 따른다고 가정하자. 그리고 이제 다음 과 같은 가설검정을 하려고 한다. H0 : µ1 = µ2 vs. H1 : µ1 6= µ2 (1) 가설 (1)은 임상실험에서 가장 자주 사용되는 가설이다. 예를 들어 새로운 약을 개발하면 제일 먼 저 해야할 일은 새로운 약이 병을 치료하는 유의한 효과가 있다는사실을 통계적으로 보여야 한다. 즉, 위약을 사용한 집단과 새로운 약을 사용한 집단의 평균이 다르다는 가설을 검정해야 한다. 참고로 위의 가설은 새로운 약의 효과가 위약의 효과와 다르다는 가설을 검정하는 것으로 대립가 설 H1 은 신약이 좋은 경우(예를 들어 µ1 > µ2 )와 위약이 더 좋은 경우(예를 들어 µ1 < µ2 )인 경우를 모두 포함하고 있다. 이러한 대립가설은 실험의 목적인 신약의 효과(effective)를 보이는 목적과는 약 간 차이가 난다. 즉, 논리적으로 실험의 목적에 적합한 대립가설은 단측가설(one-sede hypothesis)인 H1 : µ1 > µ2 가 되어야 한다. 하지만 일반적인 임상실험에서는 통상적으로 대립가설을 양측가설인 가설 (1)로 놓고 가설검정을 하여 신약의 효과가 좋은 쪽으로 결과가 나타나면 성공이라고 판단한다(신약이 치료효과가 있다). 귀무가설을 기각하지 못하거나 위약이 더 효과적이라고 결론이 나오면 임상실험의 결과는 실패이다 이제 가설검정에서 발생할 수 있는 오류에 대해 알아보자. 다음의 표는 가설의 상태와 검정의 결과에 대하여 발생할 수 있는 오류들을 나타난 표이다. 2

Table 1: Two types of error 검정의 결론(action) 가설의 상태 H0 기각 H0 채택 H0 참 제 1 종 오류 ggod! H0 거짓 good! 제 2 종 오류 위의 표에서 알 수 있듯이 H0 가 참인 경우 이를 기각하는 오류를 제 1 종의 오류 (Type I error)라고 한다. 임상실험의 목적으로 보면 신약이 효과가 없는데 효과가 있다고 잘못된 결론을 내리는 경우이다 (false positive). 또한 H0 가 거짓인 경우 이를 기각하지 못하는 오류를 제 2 종의 오류 (Type II error) 라고 하며 이는 신약이 효과가 있는데 효과가 없다고 잘못된 결론을 내리는 경우이다 (false negative). 이렇게 가설검정에서는 두 가지 오류를 범할 수 있는데 통계적 가설검정법은 일반적으로 제 1종 오류를 범할 확률을 유의수준 α = 0.05보다 작게 하면서 제 2 종 오류를 범할 확률을 최소화 하도록 만들어 졌다. 이론 상 두 개의 오류를 범할 확률을 동시에 최소화 하지 못하므로 제 1종 오류를 범할 확률을 주어진 기준(유의수준)보다 작게 하고 제 2 종 오류를 범할 확률을 최소화 하게 만든 것이다. 이는 제 1 종 오류가 더 중대한 오류이기 때문이며 이유는 제 1 종 오류가 발생하는 것은 효과가 없는 약을 효과가 있다고 결론내리는 것이기 때문이다. 제 2 종 오류가 발생하면 단지 효과적인 약이 허가를 받지 못하여 개발한 기관만 손해를 보지만 제 1 종 오류가 발생하면 효과없는 약이 시판되어 훨씬 더 큰 피해가 나기 때문이다. 2 평균의 차이 와 검정력의 정의 이제 가설검정이 약이 효과가 있는 경우, 즉 H0 가 거짓인 이를 기각할 확률을 생각해보자. 이는 실제로 약이 효과가 있는 경우 검정 이를 뒷받침하는 결론을 내릴 확률이며 이를 크게 하는 것이 임상실험을 수행하는 기관이 바라는 것이다. 이러한 확률을 검정력(power)라고 하며 다음과 같이 정의된다. power = P( reject H0 H0 is false) = 1 P( accept H0 H0 is false) = 1 P( Type II error ) = 1 β 3

위의 식에서 보듯이 제 1 종 오류를 범할 확률을 β라고 하면 검정력은 1 β이다. 이제 이러한 확률을 계산하려면 H0 가 참이 아닌 경우를 가정해야 하는데 대립가설 (1)에서는 두 평균이 같지 않다고 가정하였기 때문에 두 평균의 차이 = µ1 µ2 가 가질 수 있는 가능한 값은 무수히 많다. 검정력을 구하려면 이러한 모든 경우를 고려할 수 없으며 특정한 값이 주어져야 한다. 임상실험은 전체적으로 제 1상에서부터 제 3 상까지 일련의 많은 실험들로 구성되고(교과서 246-247 참조) 약의 효과를 보이는 비교임상실험을 수행하는 마지막 3 상 단계에서는 신약이 얼마나 효과적인 지에 대한 정보를 이전의 실험으로부터 유추할 수 있다. 신약의 독성이나 부작용을 알아보는 제 1상의 실험들과 약이 최소한의 효과가 있는지에 대한 제 2 상 실험들에서 어느 정도 약의 효과에 대한 정보를 얻을 수 있다. 즉, 두 모집단의 평균의 차이 = µ1 µ2 에 대한 정보가 어느 정도 생기는 것이다. 이렇게 얻는 정보를 이용하여 비교실험 전에 신약의 효과, 즉 평균의 차이를 정하는 것이며 이 유효크기가 바로 두 집단의 평균의 차이 = µ1 µ2 이다. 이제 평균의 차이 > 0의 값이 정해지면 검정력을 실제로 계산할 수 있게 된다. power = 1 β = P( reject H0 µ1 µ2 = > 0) (2) 참고로 유념해야 할 점은 임상실험의 전 과정에서 평균의 차이 뿐만 아니라 모집단의 분산 σ2 에 대한 정보도 얻을 수 있다. 표본의 수를 결정할 때 분산의 값도 가정해야 함을 유의하자. 실제로 분산의 값을 미리 예상하는 것은 매우 어려운 작업이며 흔히 선행연구의 결과를 참고하여 결정하기도 한다. 3 가설검정의 기각역 이제 일단 각 두 집단의 표본의 수를 n이라고 하고 가정하며 또한 모집단의 분산 σ2 를 알고 있다고 하자. 가설검정은 두 집단의 표본 평균 X 와 Y 를 이용한 z-통계량을 이용한다고 가정하자. z= X Y σ 1/n + 1/n (3) 양측가설 (1)의 귀무가설을 기각하려면 z-통계량의 값의 절대값이 커야 한다. 즉 어떤 양수 c에 대하 여 z > c 이면 귀무가설을 기각한다고 하자. 가설검정의 기각역(rejection region)은 제 1 종의 오류가 유의수준 α과 같아지도록 정한다. H0 가 옳은 경우 z-통계량은 표준정규분포를 따르므로 4

z= X Y N (0, 1) under H0 σ 1/n + 1/n 이제 이러한 사실을 이용하여 제 1 종의 오류의 확률이 유의수준 α와 같다고 하면 P( z > c µ1 = µ2 ) = α 기각역은 다음과 같이 주어진다. 여기서 zα 는 표준정규분포의 α-상위 백분위 수이다 [ P( Z > zα ) = α]. rejection region = { z > zα/2 } (4) 4 검정력의 계산 이제 약이 효과가 있는 경우, 즉 가설 (1)에서 H1 이 참인 경우를 고려하자. 평균의 차이 > 0의 값이 주어지면 다음과 같은 가설을 고려한다. H0 : µ1 µ2 = 0 vs. H1 : µ1 µ2 = (5) 이제 µ1 µ2 = 인 경우, 즉 가설 (5) 에서 H0 를 기각하고 H1 을 채택할 확률, 즉 검정력을 계산해 보자. 여기서 유의할 점은 가설 (5)에서는 검정력을 계산할 때 기각역 (4)의 한 쪽 부분만 고려해야 한다. 이는 신약의 효과가 보여지려면 z-통계량이 zα/2 보다 커야한다. 만약 z-통계량이 zα/2 보다 작으면 가설 (5)에서 H0 는 기각될 수 없다. 5

power = P(z > zα/2 µ1 µ2 = ) X Y =P > zα/2 µ1 µ2 = X Y =P > zα/2 = P Z > zα/2 = 1 P Z < zα/2 위의 식은 H1 : µ1 µ2 = 이 참인 경우 다음의 z-통계량이 표준정규분포를 따른다는 사실을 이용한 것이다. z= X Y N (0, 1) under H1 유의수준 α = 0.05, 평균의 차이 = 2.0, 표준편차가 σ = 4.0인 경우 검정력이 표본의 수 n에 따라 변한다. 이를 그림으로 그려보자 alpha <- 0.05 delta <- 2.0 sigma <- 4.0 n <- 1:100 zalpha2 <- -qnorm(alpha/2) zalpha2 ## [1] 1.959964 power <- 1-pnorm(zalpha2 - delta*sqrt(n)/(sigma*sqrt(2))) plot(n,power) lines(n,power) 6

power 0.2 0.4 0.6 0.8 0 20 40 60 80 100 n 유의수준 α = 0.05, 표준편차가 σ = 4.0, 표본의수 n = 60 인경우검정력이평균의차이 에따라 변화하는그림을그려보자 alpha <- 0.05 delta <- seq(0.0, 4.0, 0.1) sigma <- 4.0 n <- 60 zalpha2 <- -qnorm(alpha/2) power <- 1-pnorm(zalpha2 - delta*sqrt(n)/(sigma*sqrt(2))) 7

plot(delta,power) 0.0 0.2 0.4 power 0.6 0.8 1.0 lines(delta,power) 0 1 2 3 4 delta 5 연구대상자수 n의 결정 이제 평균의 차이 > 0의 값이 주어진 경우 검정력, 즉 신약이 효과가 있다고 가설 (5) 에서 대립가설을 채택할 확률은 다음과 같다. 8

power = 1 P Z < zα/2 일반적으로 임상시험을 시작할 때 목표하는 검정력의 크기를 정한다. 위에서 검정력은 1 β와 같 으므로 제 2 종의 오류를 범할 확률 β 을 정하면 검정력의 크기도 정해지게 된다. 이제 제 2 종의 오류를 범할 확률 β가 정해 졌다면 다음과 같은 방정식이 성립힌다. = 1 β 1 P Z < zα/2 (6) 방정식 (6)에서 평균의 차이, 유의수준 α, 제 2 종의 오류를 범할 확률 β 그리고 표준편차 σ의 값이 주어졌다면 정해지지 않은 값은 표본의 개수 n이므로 방정식 (6)을 n에 대하여 풀 수 있다. 1 P Z < zα/2 = 1 β P Z < zα/2 =β = z β zα/2 n = zα/2 + z β σ 2 2(zα/2 + z β )2 σ2 n= 2 이제 유효크기, 유의수준 α, 제 2 종의 오류를 범할 확률 β 그리고 표분편차 σ의 값이 주어졌다면 각 치료 그룹에 필요한 연구대상자의 수는 아래와 같이 주어지며 처리 그룹이 2개이기 때문에 전체적으로 필요한 연구대상자의 수는 2n 명이다. 이때의 검정력은 1 β임을 알 수 있다. 2(zα/2 + z β )2 σ2 2(zα/2 + z β )2 n= = 2 (/σ)2 위의 식에서 평균의 차이 = µ1 µ2 를 표중편차 σ로 나눈 양을 유효크기(effective size)라고 부 른다. 유효크기는 단위에 상관없는 양으로서 표준화된 평균의 차이로 볼 수 있다. 위의 공식에서 표본의 크기는 유효크기의 제곱에 반비레함을 알 수 있다. 9

effective size = σ = µ 1 µ 2 σ 유의수준 α = 0.05, 평균의차이 = 2.0, 표준편차가 σ = 4.0, 검정력이 80% 인경우 (β = 0.2) 필요한표본의수 n 를구해보자. alpha <- 0.05 delta <- 2.0 sigma <- 4.0 beta <- 0.2 zalpha2 <- -qnorm(alpha/2) zbeta <- -qnorm(beta) zbeta ## [1] 0.8416212 n <- 2*(zalpha2 + zbeta)^2 * sigma^2/ delta^2 n ## [1] 62.79104 계산된 n 이정수가아닌경우올림하여구한다 (n = 63) 10