... —... ..—

Similar documents
슬라이드 1

한국보건사회연구원통계학및계량경제학의기초및응용 강의노트 2017 년 4 월 5 월 통계학 : 통계적추론 (Statistical Inference) I. 들어가며 이제통계학에서가장중요한토픽이라고할수있는통계적추론에대해서본격적으로공부를해보도록하겠습니다. 통계적추론을통해연구와관

... —....—

G Power

R t-..

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

statistics

10. ..

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

자료의 이해 및 분석

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

<C5EBB0E8C0FBB0A1BCB3B0CBC1F5C0C7C0FDC2F7BFCDB9AEC1A6C1A1B1D7B8AEB0EDB4EBBEC E687770>

... — —

Microsoft PowerPoint - IPYYUIHNPGFU

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

PowerPoint 프레젠테이션

(001~006)개념RPM3-2(부속)

= ``...(2011), , (.)''

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

Microsoft PowerPoint - PDF3 SBE pptx


<B3EDB4DC28B1E8BCAEC7F6292E687770>

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

PowerPoint 프레젠테이션

모수검정과비모수검정 제 6 강 지리통계학

제 3강 역함수의 미분과 로피탈의 정리

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

고객관계를 리드하는 서비스 리더십 전략

메타분석: 통계적 방법의 기초

<B0A3C3DFB0E828C0DBBEF7292E687770>

R

용역보고서

Microsoft Word - EDA_Univariate.docx

(3) 추론에서계산이모수적방법보다훨씬단순. (4) 사용자가이의논리를스스로발견하게하며이해하기쉬움. (5) 표본이정규분포를따를때에도검정력에큰손실이없으며, 정규분포와상이한경우에이의검정력은정규분포에의한방법보다크다. 3. 부호검정 (Sg test) 모집단의중앙값에대한검정으로관찰

슬라이드 제목 없음

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

Microsoft PowerPoint - SBE univariate5.pptx

기본소득문답2


LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

PowerPoint Presentation

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

고차원에서의 유의성 검정

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS

제 4 장회귀분석

Resampling Methods

untitled

Microsoft Word - Chapter6.doc

실험. Multimeter 의사용법및기초회로이론 Multimeter 의사용법 멀티미터 (Multimeter) 는저항, 전압, 전류등을측정할수있는계측기로서전면은다음그림과같다. 멀티미터를이용해서저항, 전압, 전류등을측정하기위해서는다음그림과같은프로브 (probe) 를멀티미터

Microsoft Word - skku_TS2.docx

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

한국보건사회연구원통계학및계량경제학의기초및응용 강의노트 2017 년 4 월 5 월 통계학 : 자료의분포 (Distribution) 검토 자료폭탄을맞았다고할만큼현재우리주변에는자료가산재해있습니다. 문제는이렇게곳곳에널려있는자료중에서중요하고유용한정보를끄집어내기가참힘들다는점입니다

152*220

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


국가기술자격 재위탁 효율성 평가

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

외국인투자유치성과평가기준개발

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

Microsoft PowerPoint - LN05 [호환 모드]


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

01

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

표본재추출(resampling) 방법

제49회 부산과학전람회

Microsoft Word - Chapter9.doc

Poison null byte Excuse the ads! We need some help to keep our site up. List 1 Conditions 2 Exploit plan 2.1 chunksize(p)!= prev_size (next_chunk(p) 3

<4D F736F F F696E74202D20C1A637C0E520C0CCBBEAC8AEB7FCBAD0C6F7205BC8A3C8AF20B8F0B5E55D>

Microsoft PowerPoint - chap06-2pointer.ppt

의사결정기준 왈드기준 (Wald Criterion) 최대최소 (maximin) 기준 최소값중에서가장나은값을가지는전략을선택. 일이잘안되었을때만생각함비관론자들에게적합 일이잘되었을때 일이잘안되었을때 조건1 1,800원 1,600원 <--선택 조건2 2,000원 1,500원

untitled

제 8 장. 통계적추정 개요 : 통계적추정 ( 추론 ) 은모집단에서추출된표본의정보로모집단에대한값의추측또는그값에대한확신을결정하는과정이며다음의두단계가있다. 2 통계적추정 (statistical estimation): 모수인평균 ( m), 분산 ( s ), 표준편차 ( s

v 사례연구 오염노출된아기들 2005년 7월 28일자시드니모닝해럴드에 1998년에서 2000년사이에태어난아기 138,000명모두에대한연구결과를인용하였다. 뉴사우스웨일즈주보건부환경보건과에있는Vicky Sheppeard 박사는출생전에최고수준의오염에노출된아기는가장요염수준낮은

Communications of the Korean Statistical Society Vol. 15, No. 4, 2008, pp 국소적 강력 단위근 검정 최보승1), 우진욱2), 박유성3) 요약 시계열 자료를 분석할 때, 시계열 자료가 가지고 있는

실험 5


MINITAB 보조도구백서 이문서는 Minitab Statistical Software 의보조도구에서사용되는방법과데이터검사를 개발하기위해 Minitab 통계학자들이실시한연구에대해설명하는전체백서중하나입니다. 2- 표본 t- 검정 개요 2-표본 t-검정은 2개의독립적인집단

텀블러514

untitled

온습도 판넬미터(JTH-05) 사양서V1.0

Microsoft Word - SAS_Data Manipulate.docx

[ 마이크로프로세서 1] 2 주차 3 차시. 포인터와구조체 2 주차 3 차시포인터와구조체 학습목표 1. C 언어에서가장어려운포인터와구조체를설명할수있다. 2. Call By Value 와 Call By Reference 를구분할수있다. 학습내용 1 : 함수 (Functi

확률과통계6

chap 5: Trees

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

경영학석사학위논문 투자발전경로이론의가설검증 - 한국사례의패널데이타분석 년 8 월 서울대학교대학원 경영학과국제경영학전공 김주형

슬라이드 1


Transcription:

통계학 통계적추론 한국보건사회연구원 2017 년 5 월 29 일 ( 월요일 ) 강의슬라이드 7-1 1/ 72

목차 1 서론 2 신뢰구간을이용한통계적추론 3 통계적유의성검정 4 유의성검정과관련해서유의해야할점 2/ 72

지난시간복습 왜 x 가 µ 와완벽하게일치하지않고또어떤표본을추출했냐에따라 x 값이달라지는데이 x 를이용해서모집단 µ 를추정할까? 두가지사실때문 : 1. x 가 µ 의비편의추정량 (unbiased estimator) 이기때문 = 이추정량을이용하면어떤표본을통해도출한값이모집단모수값과비슷할확률이굉장히큼 2. 대수의법칙 (law of large numbers, LLN) 때문 = 한개의표본을추출할때의표본크기 (n) 가커질수록표본평균 x 가모집단평균 µ 에수렴하게된다는것 3/ 72

지난시간복습 확률변수의기대값 vs. 평균 : 1. E(X) vs. X 2. E( X) vs. X 3. E(X 1) vs. X 1 4. V ar( X) vs. S 2 = 표본통계량 ( X, ˆβ) 은모두확률변수이므로기대값을논할수있음! 조건부확률 (conditional probability): P (B A) = P (A B), 단 P (A) 0 P (A) 4/ 72

지난시간복습 통계학의논리 : 확률표본의통계량을갖고모집단모수를추정 = 통계적추론을할때, 표본통계량의 추출분포 를이용해통계적추론을하게됨 표본통계량 ( 예를들어 X) 의추출분포를이용해서통계적추론을하기위해알아야할세가지? 1. 추출분포의중앙 = E( X) 2. 추출분포의변이 = V ar( X) 3. 추출분포의모양 = X Normal = 통계학에서는표본통계량 X 의추출분포의중앙, 변이, 그리고모양이어떻게되는지를배우고이정보를토대로 X 에대한통계적추론을하는것임 5/ 72

지난시간복습 표본통계량, 즉다시말해 µ 의추정량인 X 의추출분포와관련해서다음을알아냈음 1. 추출분포의중앙 : E( X) = µ = 항상성립? No! 무작위로표본을추출했을때만! 2. 추출분포의변이 : V ar( X) = σ n = 항상성립? No! 무작위로표본을추출했을때만! 3. 추출분포의모양 : X Normal = 항상성립? No! i) 무작위로표본을추출하고 ii) 표본의크기가클때만! How? CLT! 6/ 72

지난시간복습 X = 1 (X1 + X2 + + Xn 1 + Xn) n [ ] = E( X) 1 = E (X1 + X2 + + Xn 1 + Xn) n = 1 E (X1 + X2 + + Xn 1 + Xn) n = 1 [E (X1) + E (X2) + + E (Xn 1) + E (Xn)] n = 1 n (µ + µ + + µ + µ) }{{} µ 의개수 : n 개 = 1 n (nµ) = µ 7/ 72

지난시간복습 X = 1 (X1 + X2 + + Xn 1 + Xn) n [ ] = V ar( X) 1 = V ar (X1 + X2 + + Xn 1 + Xn) n = 1 V ar (X1 + X2 + + Xn 1 + Xn) n2 ( 주의!) = = 1 [V ar (X1) + V ar (X2) + + V ar (Xn 1) + V ar (Xn)] (why?) n2 = 1 n 2 (σ2 + σ 2 + + σ 2 + σ 2 ) }{{} σ 2 의개수 : n 개 = 1 n 2 (nσ2 ) = σ2 n 8/ 72

지난시간복습 9/ 72

통계적추론 : 서론 통계적추론 : 서론 통계학에서가장중요한토픽이라고할수있는통계적추론에대해서본격적으로공부 통계적추론을통해연구와관련한두가지중요한일을할수가있음 : 1. 한개표본의통계량을토대로모집단에대한결론을내릴수있고 2. 그결론에어느정도의신뢰를부여할수있는지에대한판단을할수있음 통계적추론은두가지방식으로할수있음 : 1. 신뢰구간 (confidence interval) 2. 통계적유의성검정 (tests of statistical significance) 10/ 72

통계적추론 : 서론 통계적추론 : 서론 우선모집단평균 (µ) 에대한통계적추론을하는법배움 µ 에대한통계적추론시 : 1. 모집단표준편차 (σ) 를알고있을때 2. 모집단표준편차 (σ) 를모를때 우선 σ 를알고있다는전제하에논의를진행 물론실제연구를할때는이 σ 를알고있는경우는거의없음 = 따라서나중에 σ 를모를때통계적추론을어떻게하는지도배움 11/ 72

통계적추론 : 서론 통계적추론 : 서론 통계적추론의논리는확률이론을통해이루어짐 좀더구체적으로말하면표본평균 ( x) 과같은 통계량의추출분포 (sampling distribution) 를토대로통계적추론을함 = 즉, 모집단에서 n 개크기의무작위표본을 반복해서추출했을때 나오게되는추출분포를이용해계산할수있는확률을이용해통계적추론을함 명심해야할것은표본을모집단에서 무작위 로추출할때만이통계적추론의논리가성립 = 예를들어, 자발적응답표본을통해구축한자료를갖고이통계적추론의논리를사용하면안된다는것임 12/ 72

통계량의신뢰성 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 소득수준이낮은가구에학자금을보조하는정책을도입하기위해현재우리나라가구의평균소득수준이얼마나되는지알아보고자함 = 당연히우리나라모든가구의소득수준을조사할수는없기에무작위로 400 가구를모집단에서추출 이표본의소득수준의평균 (n = 400) 이 x = 250 만원으로계산됨 = 이표본통계량을토대로우리나라전체가구의소득수준과관련해서어떤결론을내릴수있을까? 13/ 72

통계량의신뢰성 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 확률변수 x 는모집단 µ 의비편의추정량! = 해석하면? x 는 µ 를과대혹은과소추정할확률이적다는뜻 따라서 x 가비편의추정량이면 x = 250 이 µ 와비슷할것이다라고주장할 합리적인 이유가있는것임 하지만과연이 x = 250 라는추정값이모집단 µ 와비슷할것이다라고하는주장을어느정도신뢰할수있을까? 추정량으로서표본통계량 x 에얼마나변이가존재하는지에대한정보없이는이 x 추정값에어떤신뢰성을부여하기가어렵다는것을알수있음!! 이확률변수 x 의 변이 에대한정보를토대로 x = 250 라는추정값에얼마나우리가신뢰할수있는지에대해결론을내리게됨 14/ 72

통계적신뢰성 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 모집단가구소득수준의평균이 µ 그리고표준편차가 σ 라고한다면, n = 400 인표본을무작위로반복적으로추출하면 x 의추출분포는 Why? CLT 에의해! 왜 CLT 가적용될수있나? 1. 무작위로표본추출 x N(µ, σ/ 400) 2. 표본의크기가충분히큼 (n = 400) σ = 100 만원이라고가정. 그럼 CLT 에의해다음이성립 : x N(µ, 100/ 400) = N(µ, 5) 15/ 72

통계적신뢰성 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 모집단가구소득수준의평균이 µ 그리고표준편차가 σ 라고한다면, n = 400 인표본을무작위로반복적으로추출하면 x 의추출분포는 CLT 에의해다음과같은형태의분포를띠게됨 16/ 72

통계적신뢰성 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 위추출분포를토대로두가지사실추론가능 : 1. 어떤한개의표본이모집단평균 µ 와약 10( 5 1.96) 만원이내로차이가날확률이 95% 2. n = 400 개크기의표본을백번추출했을때약 95 개정도의 표본들은 x 10 과 x + 10 구간하에실제모집단평균 µ 를포함하고있을것임 = 통계적추론은한개의표본을토대로구한결과에대해얼마나신뢰를부여할수있는지에대해서위와같은사실을이용 17/ 72

통계적신뢰성 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 우리가갖고있는표본에의하면 x = 250 = 따라서우리는모집단평균 µ 가 x 10 = 240 과 x + 10 = 260 구간하에위치하고있을확률이 95% 정도된다는것임 그러면우리가갖고있는한개의표본을통해구한결과와관련해서두가지가능성이존재한다는것을알수있음 : 1. 추정한구간 240 과 260 사이에모집단평균 µ 가포함되어있음 2. 추정한구간 240 과 260 사이에모집단평균 µ 가포함되어있지않음 다시말해, 우리가갖고있는한개의표본을통해구한구간 (240, 260) 이 100 개의구간중 : 1. µ 를포함하고있는 95 개구간중에하나인지? 혹은 2. µ 를포함하고있지않은 5 개구간중에하나인지 = 두경우중어느쪽이맞는지알수가없다는뜻! 18/ 72

신뢰구간 (Confidence Interval) 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 방금도출한구간 x ± 1.96σ/ n 를 µ 의 95% 신뢰구간이라고함 이신뢰구간은다음의형태를갖고있음 : 추정값 ( x) ± 오차범위 (1.96 σ/ n) 1. 추정값 x = 250 만원은모집단평균 µ 에대한추측값이라고할수있음 2. 오차범위 (1.96 σ/ n) 는우리가추측한값이얼마나정확한지를추정량 x 의추출변이 (σ/ n) 를토대로판단한지표라고생각할수있음 19/ 72

신뢰구간 (Confidence Interval) 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 20/ 72

신뢰구간 (Confidence Interval) 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 1. 이제 95% 신뢰구간이무엇을의미하는지아시겠나요? 2. 우리는한개의표본만을갖고있음 : 그표본의평균 x 는 250 만원 3. 이표본과관련해서 95% 신뢰구간은 [250 ± 10] 즉 [240 만원, 260 만원 ] 4. 이신뢰구간이실제모집단가구소득의평균 µ 를포함하고있을확률이 95% = 다시말해우리의표본을토대로추정한구간 [240 만원, 260 만원 ] 이위그림에서 µ 를포함하고있는 24 개의구간중에하나일수도있고아니면 µ 를포함하고있지않은 1 개의구간일수도있다는것임 5. 신뢰구간... any question? 21/ 72

모집단평균의신뢰구간 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 당연히다른신뢰구간도추정할수있음. 예를들어 84% 신뢰구간, 99% 신뢰구간다추정할수있음 지금부터모집단평균 µ 의 C% 신뢰구간을추정하는법에대해서배우겠음 신뢰구간추정은표본평균 x 의추출분포를토대로이루어짐 모집단분포가정규분포이면 x 의추출분포는 N(µ, σ/ n) 를따름 모집단분포가정규분포가아닐때도 x 의추출분포는 N(µ, σ/ n) 에근사! 언제? 모집단에서 i) 표본을무작위로추출하고 ii) 한개표본의크기를크게설정하고추출했을때. Why? CLT 때문에! 22/ 72

통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 모집단평균의신뢰구간 그림을보면 C% 신뢰구간을추정하기위해서먼저해야할것이표준정규분포에서 ±z 사이의밀도곡선의면적을 C 로하는 z 값을찾는일 : z 1.645 1.960 2.576 C 90% 95% 99% 23/ 72

모집단평균의신뢰구간 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 n 의크기를 크게 설정한후 무작위표본 을반복적으로추출하면 CLT 에의해 x 의추출분포는 N(µ, σ/ n) 에근사! 따라서 x 가다음구간에속할확률이 C%: µ z σ n µ + z σ n 달리표현하면, 구간 x ± z σ n 가 µ 를포함하고있을확률이 C% 라는것 이 x ± z σ n 가 C% 신뢰구간 : 1. 모집단평균 µ 에대한추정치가 x 2. 오차범위가 z σ n 24/ 72

모집단평균의신뢰구간 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 예 : 한표본조사에직장인들의신용카드빚이어느정도되는지를물어보는문항이있었음. 이표본조사는 532 명의무작위표본을토대로이루어짐. 신용카드빚의표본평균은 x = $75.5 만원으로조사되었음. 신용카드빚의모집단표준편차가 113 만원이라고가정. 이상태에서모집단평균의 95% 신뢰구간을추정하시오 답 : 1. 이문제에서신뢰구간을계산할때정규분포를가정해도되나? Yes! Why? n 의크기도상당히크고또한표본을무작위로추출했기때문에 CLT 가적용되기때문 2. 표준정규분포표를보면 95% 신뢰구간의 z 값은 1.96. 오차범위 (m) 는 : m = z σ n = 1.96 113 532 9.6 25/ 72

모집단평균의신뢰구간 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 즉, 95% 신뢰구간은 : x ± m = 75.5 ± 9.6 = [65.9, 85.1] 추정된신뢰구간을해석 : 이신뢰구간이실제모집단평균 µ 를포함하고있을확률이 95% 라는것임 이예에서만약표본의크기 n 을다르게했다면신뢰구간에어떤영향을끼칠까? 532 명이아니라 n = 133 으로하고신뢰구간을계산했을때의오차범위는 : m = z σ n = 1.96 113 133 19.2 = 따라서 95% 신뢰구간은 : x ± m = 75.5 ± 19.2 = [56.3, 94.7] 26/ 72

모집단평균의신뢰구간 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 n = 532일때추정된신뢰구간 : [65.9, 85.1] n = 133일때추정된신뢰구간 : [56.3, 94.7] = n을작게하면할수록신뢰구간은넓어지는것을알수있음극단적인예로 n 이면신뢰구간은어떻게될까? = 이렇게했을때추정되는신뢰구간은모집단평균 µ 와일치할것임. Why? µ z σ n µ + z σ n = n = z σ n 0 = µ ± z σ n µ 27/ 72

신뢰구간의결정요인 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 어떤표본을토대로모집단에대한결론을도출할때당연히신뢰구간이좁으면좁을수록좋을것임. 따라서신뢰구간의크기를결정하는요인에는어떤것이있는지알아보겠음 C% 신뢰구간의공식 : x ± z σ n 위공식을보면신뢰구간은총세가지요인에의해영향을받는다는것을알수있음 : 1. z 2. 표본크기 n 3. 모집단표준편차 σ 28/ 72

신뢰구간의결정요인 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 C% 신뢰구간공식 : x ± z σ n 결정요인 1: z 신뢰구간의수준을높이면 ( 예를들어 95% 에서 99% 로높이면 ) z 값은상승하게됨 = 결과적으로신뢰구간은넓어짐 직관적으로명백! = 좀더높은예측확률을원한다면그만큼구간이넓어야할것임 29/ 72

신뢰구간의결정요인 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 C% 신뢰구간공식 : x ± z σ n 결정요인 2: n( 한개표본의크기 ) n 이증가하면오차범위 (z σ n ) 가줄어듬을알수있음 = 따라서신뢰구간의크기가작아짐이요인또한직관적으로명백! 극단적인예로 n = N로하면어떻게될까? = 이렇게했을때추정되는신뢰구간은모집단평균 µ 와일치할것임 30/ 72

신뢰구간의결정요인 통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 C% 신뢰구간공식 : x ± z σ n 결정요인 3: σ( 모집단표준편차 ) 모집단값들에변이가굉장히크다면어떤표본을토대로모집단값을정확히추정하기가상당히어려울것임 극단적인예로모집단표준편차가 0 인상황을생각해보겠음 즉모집단값에변이가하나도없는상태 = 이런경우에는어떤표본을택하던그표본평균이모집단평균과일치할것임 31/ 72

통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 신뢰구간과관련해서유의해야할점 1 신뢰구간과관련해서연구자가주의해야할점에대해서공부 = 굉장히중요한사안!! 유의점 1: = 추정한신뢰구간이타당하려면이용한자료가모집단으로부터무작위로추출해서얻은자료여야함 = 물론실제로완벽하게무작위로추출한자료여야한다는것을의미하는건아님. 각각의관측치가서로독립이고모집단을잘대표한다면큰문제는없음 32/ 72

통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 신뢰구간과관련해서유의해야할점 2 유의점 2: = 신뢰구간의공식은자발적응답표본과같은자료에는적용할수없음. Why? = 자발적응답표본의추출분포는결코 N(µ, σ/ n) 에근사하기않기때문 33/ 72

통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 신뢰구간과관련해서유의해야할점 3 유의점 3: = 신뢰구간은 x 에영향을받음 = x 는특이값에강건한지표가아님 = 따라서신뢰구간또한특이값에강건하지않음 34/ 72

통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 신뢰구간과관련해서유의해야할점 4 유의점 4: = 표본의크기 n 이작고또모집단분포의모양을모른다면 CLT 를적용할수없고따라서신뢰구간을추정할수없음 35/ 72

통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 신뢰구간과관련해서유의해야할점 5 유의점 5: = 지금까지신뢰구간을추정할때모집단표준편차 σ 를알고있다고가정 = σ 를모르면신뢰구간을추정할수없음. 차후에 σ 를모를때사용할수있는신뢰구간추정법에대해서배울것임 36/ 72

통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 신뢰구간과관련해서유의해야할점 6 유의점 6: = 신뢰구간이다루는오차범위는표본을추출하는과정에서발생하는추출오류 (sampling error) 뿐 = 다시말해과소범위 (undercoverage) 나비응답 (nonresponse) 때문에발생하게되는오류를커버하지못함 = 이러한오류는실제로추출오류보다훨씬클수도있음 = 따라서항상자신이다루고있는자료의질 (quality) 에대해서충분한검토를해야함. 갖고있는표본에과소포함이나비응답문제등이존재한다면그러한표본을통해추정한신뢰구간은결코정확하지않음 37/ 72

통계적신뢰성신뢰구간 (Confidence Interval) 모집단평균의신뢰구간신뢰구간의결정요인신뢰구간과관련해서유의해야할점 신뢰구간과관련해서유의해야할점 7 유의점 7: 1. 예에서추정된 95% 신뢰구간은 [65.9, 85.1] = 많은사람들이이추정된신뢰구간을다음과같이해석함 : 모집단평균이 65.9 와 85.1 에있을확률이 95% 다. 2. 추정한신뢰구간을이렇게해석할수없음!!! 3. 모집단모수는상수. 다시말해 µ 는이구간에포함되어있거나포함되어있지않음 = 모수는고정된값이므로모수값과관련해서확률을논할수없음 4. 따라서 95% 신뢰구간을정확하게해석하면약 100 개의신뢰구간중에실제모집단모수를포함하고있는신뢰구간이 95 개정도되는데이추정된신뢰구간 [65.9, 85.1] 이그 95 개중에한구간일확률이 95%! 38/ 72

통계적유의성검정 : 서론 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 신뢰구간은대개모집단모수에대한통계적추론을할때사용 다른방식으로도통계적추론을하게되는데이두번째방식을통계적유의성검정이라고함 이유의성검정을이용해통계적추론을할때는신뢰구간과는다른목적을갖고하게됨 = 유의성검정에서는모집단모수와관련해서어떤 가설 을세우고자신이갖고있는표본자료가그가설에얼마나 부합 하는지를판단! 39/ 72

유의성검정의논리 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 유의성검정은자신이갖고있는자료와어떤가설과 비교 하는절차가설이란모집단 모수 와관련한주장예 : 무작위표본 (n = 500) 을통해두가지정보를알아냄 1. 직장인들의신용카드빚의평균은 51.6만원 2. 자영업자들의신용카드빚의평균은 64.2만원두집단의차이는 12.6만원으로상당이큰차이가남이차이는모집단모수 (µ 1 µ 2) 에대한추정값 = 다른표본을추출했다면다른추정값이도출이될것임 이표본을토대로도출한차이즉 12.6 만원을토대로두집단간에신용카드빚의평균이다르다고결론내릴수있을까? 40/ 72

유의성검정의논리 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) x 1 x 2 = 51.6 64.2 = 12.6 유의성검정의논리를이용해위질문에대해답을할수있는데, 사용하는논리가대충이런것임 : 1. 만약실제로모집단에서두집단간에신용카드빚의차이가없다라고했을때 ( 즉 µ 1 µ 2 = 0), 이와같은차이 ( 즉 x 1 x 2 = 12.6) 를관측하게될확률이얼마나되는지계산 2. 만약이 12.6 정도의차이가관측될확률이 높다면 두집단간에실제로신용카드빚의차이가없다라는주장이신빙성이있을것임 = 예를들어이확률이 0.38 이라고한다면즉 µ 1 µ 2 = 0 이진실일때, x 1 x 2 = 12.6 과같은결과가나올확률이무려 38% 나된다는것임 3. 즉이런차이가나올개연성이상당히높다는것인데그렇다고한다면 µ 1 µ 2 = 0 가틀렸다고하기에는설득력이많이떨어질것이라는것 41/ 72

유의성검정의논리 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 만약확률이 0.002 면어떨까? = 굉장히작은확률!! x 1 x 2 = 51.6 64.2 = 12.6 즉 µ 1 µ 2 = 0 이진실일때 x 1 x 2 = 12.6 과같은결과가나올확률이천번중에두번정도라는것 그런데도 x 1 x 2 = 12.6 의차이가관측이되었다면그이유는두가지중에하나로설명할수있음 : 1. 굉장한우연때문에이런차이를관측하게된것임. 다시말해두집단간에신용카드빚의평균차이는없는데우연히이런 비정상적인표본 을추출해서이런차이가관측된것임!! 2. 확률을계산할때 전제한가정 즉 µ 1 µ 2 = 0 이진실이아님!! 42/ 72

유의성검정의논리 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 관측된 x 1 x 2 = 12.6 에대한두가지해석방법 : 1. 우연히이런 비정상적인표본 을추출해서이런차이가관측된것임!! 2. 확률을계산할때 전제한가정 즉 µ 1 µ 2 = 0 이진실이아님!! x 1 x 2 = 12.6 과같은결과가나올확률이 0.002 라는것은그런결과가나올확률이굉장히굉장히드물다는것!! 따라서위두가지이유중에첫번째보다는두번째가더타당하지않을까? 설마그런비정상적인표본이추출됐을까? 물론그런비정상적인표본이추출됐을수도있겠지만무작위로추출을했는데그런이상한표본을추출했을것같지는않음 유의성검정의논리가바로이런것임 = x 1 x 2 = 12.6 과같은결과가나올확률이매우드물기때문에 µ 1 µ 2 = 0 라는가설이잘못되었을것이다 라는것 43/ 72

가설설정 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 유의성검정은실제모집단에서두집단간에차이가없을때 (µ 1 µ 2 = 0) x 1 x 2 와같은차이를관측한다는것이현실성이있는것인지를물어보는것임 다시말해, 실제모집단에차이가없다 라는가설을전제했을때, 우리가갖고있는표본자료로도출되는결과값이이러한가설에문제가있다는근거로얼마나강력하게작용할수있는지질문을던지는것 만약문제가있다는근거가강력하다면실제모집단에서두집단간에차이가없다라는가설은설득력이떨어지게됨 = 따라서유의성검정을이용해통계적추론을할때는기각을하고싶은가설에대한설정을먼저해야함!! 44/ 72

가설설정 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 통계학에서사용하는가설에는두가지가있음 : 1. 귀무가설 2. 대립가설 귀무가설 (null hypothesis) 이란차이가없다혹은효과가없다와같은주장혹은모집단모수와관련한주장을말함 = 귀무가설은 H 0 라고표기하고대개기각하고싶은가설을귀무가설로설정!! 방금예에서귀무가설은 : H 0 : µ 1 µ 2 = 0 = 즉 모집단에서 직장인의신용카드빚의평균 (µ 1 ) 과자영업자의신용카드빚의평균 (µ 2 ) 의차이는 0 이라는것이귀무가설 45/ 72

가설설정 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 대립가설 (alternative hypothesis) 은어떤참이라고생각되는주장을말함. 대립가설은 H a 로표기 방금예에서대립가설 : H a : µ 1 µ 2 0 위대립가설은물론이렇게표현할수있음 : H a : µ 1 µ 2 46/ 72

가설설정 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 귀무가설과대립가설과관련해서두가지주의해야할점 : 1. 항상 모수 와관련해서가설을설정 = 두가설은표본과관련된게아님! 2. 대립가설은두방식즉단측 (one-sided) 혹은양측 (two-sided) 으로설정할수있음 양측대립가설 : H a : µ 1 µ 2 0 단측대립가설 : H a : µ 1 µ 2 > 0 혹은 H a : µ 1 µ 2 < 0 = 즉단측대립가설은한방향으로만두집단간에차이가존재하는지를보는것 ( 크거나작거나 ) 47/ 72

검정통계량 (Test Statistics) 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 가설을설정한후표본을토대로도출한통계량을갖고유의성검정을하게되는데이때활용되는원칙 : 1. 유의성검정은가설에기술한모집단모수를추정할때사용되는 x 와같은통계량을토대로이루어짐 = 귀무가설 H 0 가참이면, 통계량의값이귀무가설에기술한모수의값과비슷하게나올것임 2. 만약통계량의값이귀무가설에기술한값과많이차이가나면, 이는 H 0 에반하는근거가됨 48/ 72

검정통계량 (Test Statistics) 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 통계량의값이귀무가설에기술한값과 얼마나차이가나는지 를판단할때, 통계량을표준화한값 (z) 을이용함 이통계량을표준화한값, 즉 z 를검정통계량이라고부름 검정통계량은대개다음과같은방식으로계산 : z = 통계량의추정값 귀무가설에기술한값통계량의표준편차 검정통계량 (z) 은자신이갖고있는표본자료를토대로도출한통계량과귀무가설이얼마나차이가나는지를알려주는지표 이검정통계량을이용해유의성검정을위해필요한확률을계산하는데여기서강조할것은이검정통계량은확률변수라는사실 = 그이유는검정통계량은통계량의추정값에의해결정이되는데이통계량의추정값이확률변수이기때문! 49/ 72

검정통계량 (Test Statistics) 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 신용카드빚예 : H 0 : µ 1 µ 2 = 0 vs. H a: µ 1 µ 2 0 즉귀무가설에기술되어있는값은 0 이고통계량의추정값은 x 1 x 2 = 12.6 일단이예에서통계량의표준편차는 9.5 만원이라고가정. 검정통계량을계산하면 : z = 통계량의추정값 귀무가설에기술한값통계량의표준편차 = 12.6 0 9.5 1.33 1.33 이의미하는것 : 우리가관측한차이 (12.6) 는중앙이 0( 귀무가설에기술되어있는값 ) 인추출분포에서이중앙에서약 1.33 표준편차만큼떨어져있다는것임! 다시말해, 모집단에서두집단간에차이가없다라고할때, 그런모집단에서무작위로표본을반복적으로추출했을때형성되는추출분포하에서 12.6 이라는차이를가져다주는표본을우리가갖고있는것인데이표본은추출분포의중앙에서약 1.33 표준편차만큼떨어져있는표본이라는것임!! 내가갖고있는표본이추출분포의중앙에서몇표준편차만큼떨어져있는것을왜알아야하는지는곧다루게될 p 값과관련한내용을배우게되면알게될것임 50/ 72

p 값 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 검정통계량은확률변수! = 따라서검정통계량과관련해서추출분포가존재하고이분포의중앙, 변이, 그리고모양에대해서논할수있음 어떤검정통계량이정규분포를따른다고한다면, 우리가갖고있는하나의표본을토대로계산한검정통계량이이러한추출분포에서추출될 확률 이얼마인지계산할수있음! 유의성검정은우리가갖고있는하나의표본을토대로계산한검정통계량의값과동일하거나그값보다더과도한값이나올확률을계산해서이루어짐 = 여기서 과도한 값이라는것의의미는검정통계량의추출분포의중앙 ( 즉귀무가설 H 0 에서기술한값 ) 에서굉장히멀리떨어져있는값을말함 어느방향으로떨어져있어야하는지는대립가설에따라다름 = 예를들어양측대립가설이면양방향으로멀리떨어져있으면과도한값이되는것이고만약오른쪽단측대립가설 ( 예, >) 이면오른쪽방향으로멀리떨어져있으면과도한값! 51/ 72

유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) p 값 Definition p 값은귀무가설 H 0 가참인상태에서형성되는추출분포에서, 관측된표본통계량의값과같거나더과도한값을갖는표본통계량이추출될확률을말함 p 값이작다는것은자신이갖고있는표본통계량이추출분포의중앙에서굉장히멀리떨어져있다는것을의미 = 따라서이는귀무가설에반하는근거가됨. Why? p 값은결국확률을말하는것인데, 이확률을계산하기위해서는검정통계량의추출분포의중앙, 변이, 그리고모양을알고있어야함 = 그래야표준정규분포표를이용해확률을계산할수있기때문 52/ 72

p 값 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 신용카드빚예를통해 p 값계산 : 1. 우선통계량은두집단간의신용카드빚의평균차이. 이차이는확률변수! Why? = 어떤표본을추출했냐에따라그값이달라지기때문에그값을사전에확실히알수가없기때문 2. 이통계량의추출분포의중앙은? 0! Why? 귀무가설이 µ 1 µ 2 = 0 이기때문 3. 이추출분포의변이는? 아까통계량의표준편차가 9.5 라고가정했기때문에 9.5 임 4. 추출분포의모양은? 정규분포! Why? 표본을무작위로추출했고표본의크기 (n = 500) 또한크기때문에 CLT 에의해정규분포인것을알수있기때문 53/ 72

p 값 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 통계량의추출분포에대해서알았음. 그럼검정통계량의추출분포는어떻게될까? = 검정통계량은통계량을표준화한것에불과. 따라서검정통계량의추출분포는 N(0, 1) 을따름 우리가갖고있는하나의표본을토대로계산되는검정통계량 z 는결국표준정규분포 N(0, 1) 의모양을갖고있는 z 의 추출분포 하의하나의관측치인것임 우리가갖고있는검정통계량은 1.33 이므로, p 값이란이 1.33 과같거나더과도한검정통계량을가져다주는표본을추출할확률을말함 54/ 72

p 값 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 형식적으로우리가계산해야하는확률은 : P (Z 1.33 혹은 z 1.33) = P (Z 1.33) + P (z 1.33) = 0.1836 그림을보면정규밀도곡선에서 1.33보다크거나 1.33보다작은부분의면적이바로 p값 = 이렇게두면적을구해야하는이유는양측검정을하기때문. 만약단측검정이면한쪽면의면적만구하면됨 55/ 72

p 값 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 이 p 값을해석하면 : 만약 실제로모집단에서이두집단간의신용카드빚의평균차이가없다 라고할때, 두집단간의평균차이가 12.6 으로나오는 표본을추출할확률 이약 18% 다! 56/ 72

p 값 유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 만약실제로모집단에서이두집단간의신용카드빚의평균차이가없다라고할때, 두집단간의평균차이가 12.6 으로나오는표본을추출할확률이약 18% 다 이번에는이계산한 p 값의크기에대해서해석을해야함 이런차이를가져다주는표본을추출할확률이 18% 라고함 높은확률은아니지만그렇다고이확률이무슨로또에당첨될확률처럼낮은것도아님 = 이런표본이추출될확률이 18% 면충분히그런표본을추출할가능성이존재하는것임 따라서우리가추출한표본을토대로계산한통계량이귀무가설에반하는강력한근거가된다고하기에는설득력이떨어짐! 57/ 72

유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 통계적유의미성 (Statistical Significance) 유의성검정의마지막단계는결론을내리는것 = 물론결론은 p 값을토대로내리게됨 그럼어떻게결론을내릴까? = 통계학자들은어떤 결정적 이라고생각되는값을정하고그값보다우리가계산한 p 값이같거나작으면, 자신이갖고있는표본이귀무가설에반하는강력한근거가된다고결론을내리라고권함 이와같이미리정한결정적인값을유의수준이라고하는데, 대개 α 라고표기 58/ 72

유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 통계적유의미성 (Statistical Significance) 예를들어, α = 0.05 라고결정을했으면, p 값이이 0.05 보다 같거나작으면 귀무가설에반하는강력한근거가된다고결론을내리는것 p 값이 5% 라는것은귀무가설이참일때, 그런표본을추출할확률이 5% 라는것임 = 5% 정도면상당히가능성이낮은확률인데 그럼에도불구하고그런표본이추출됐기때문에 귀무가설에문제가있다라고주장하는것임 5% 가낮은확률인가? 글쎄... 이건정답이없음 = 사람에따라 5% 는낮은게아니라고하는사람도있음 결국이결정적인값은주관적인것임 = 하지만대부분의연구자들이 α = 0.05 를결정적인값으로활용하기때문에우리도따르는게낫지않을까? 59/ 72

유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 통계적유의미성 (Statistical Significance) Definition p 값이 α 와같거나작으면관측된통계량이 α 수준에서통계적으로유의미하다고함 중요! 어떤통계량이통계적으로유의미하다고해서그관측된통계량이굉장히큰혹은중요한의미를갖는다는것을의미하지않음 = 통계적으로유의미하다는것은그냥어떤표본이추출될확률이굉장히낮다는것을의미! 신용카드빚예에서도출한 p 값은 0.18. 즉 α = 0.05 보다크기때문에통계량의추정값이 5% 수준에서통계적으로유의미하지않다고결론을내림 물론통계적으로유의미하지않다고해서바로귀무가설이참이라고결론내릴수는없음. Why? = 다른표본을추출하면통계적으로유의미한결과가나올수도있기때문 결국통계학의논리로결론을내릴수있는것은 5% 유의수준에서귀무가설을 기각 할수없다 이지, 귀무가설이참이다가아님!! 60/ 72

유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 통계적유의미성 (Statistical Significance) 예 : 국회의원은견학명목으로때때로해외출장을가는데 A 비영리단체는이러한여행의 1 인당일일경비가 N(300 만원, 50 만원 ) 을따른다고주장. 이단체의주장의타당성을검정하기위해해외출장을다녀온 25 명의국회의원을무작위로추출하여조사했더니이표본의평균은 x = 270 만원으로계산되었음. 자이상태에서비영리단체의주장을 α = 0.05 유의수준에서검정하시오 유의성검정에서첫번째로해야하는것은? 가설설정! 우선 1 인당일일경비가 300 만원보다큰지적은지알수가없기때문에양측검정을하겠음 : H 0 : µ = 300 vs. H a: µ 300 그다음에판단해야할것은? 이표본통계량 x 의추출분포의중앙, 변이, 그리고모양!! 중앙은? E( x) = µ = 300 = Why? 왜냐하면 x 는 µ 의비편의추정량이기때문. 물론무작위로표본을추출했을때만성립하는사안 그다음엔변이! V ar( x) = σ/ n = 50/ 25 = 10 61/ 72

유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 통계적유의미성 (Statistical Significance) 추출분포의모양은? 정규분포! Why? = CLT 때문이아님. n 이너무적음. 정규분포인이유는문제에서모집단이정규분포를따른다고가정했기때문이고표본을무작위로추출했기때문!! 다음단계는검정통계량 (z) 계산 : 그다음은 p 값계산 : z = x µ σ/ 270 300 = n 50/ 25 = 3 P ( Z 3) = P (Z 3 혹은 Z 3) = 0.0013 2 = 0.0026 마지막단계는이계산한 p 값과유의수준 α 를비교 0.0026 = p 값 < α = 0.05 = 따라서우리는 5% 유의수준에서귀무가설을기각할수있음. 귀무가설을기각한다는것이무엇을의미? 이예에서는 A 비영리단체의주장이참이라고할수있는근거가부족하다는것을의미 62/ 72

유의성검정의논리가설설정검정통계량 (Test Statistics) p 값통계적유의미성 (Statistical Significance) 통계적유의미성 (Statistical Significance) 유의성검정을할때밟아야하는절차복습 : 1. H 0 와 H a 를설정 = 대립가설을설정할때양측검정을할것인지단측검정을할것인지에대한판단을논리적으로해야함 2. 통계량의추출분포의중앙, 변이, 그리고모양에대한판단을해야함 3. 검정통계량을계산 4. 도출된검정통계량의 p 값을계산 = 이 p 값은 H 0 가참이다라는가정하에도출이되는확률! 5. 마지막으로 α 수준에서귀무가설을기각할수있는지혹은기각할수없는지에대해결론을내림 63/ 72

유의수준의선택통계적으로유의미하다는것의의미통계적으로유의미하지않다는것의의미통계적으로유의미하지않다는것의의미 유의성검정과관련해서유의해야할점 유의성검정의논리가워낙에강력해서현재많은연구분야에서이논리를채택하고이유의성검정을토대로연구결과를발표하고있음 컴퓨터의발달로인해유의성검정을수행하는것은굉장히쉬워졌움 이검정을수행하는것은쉬울진모르나 올바로 수행하는것은결코쉽진않음 유의성검정결과가타당하기위해서는많은요건을필요로함 : 1. 자료의질확보 2. 무작위표본추출 3. CLT = 신뢰구간과관련해서유의해야할점에대해서배웠듯이유의성검정과관련해서유의해야할점에대해서배우겠음! 64/ 72

유의수준의선택통계적으로유의미하다는것의의미통계적으로유의미하지않다는것의의미통계적으로유의미하지않다는것의의미 유의점 1: 유의수준의선택 유의성검정의장점은표본통계량을토대로귀무가설에대한어떤확실한결론을내릴수있게끔하는데있는데, 여기서반드시인지하고있어야하는것은어떤것이 유의미하다 혹은 유의미하지않다 라고할때, 어떤뚜렷한기준이있는것이아니라는점 = 단지 p 값이작으면작을수록그귀무가설에반하는근거가더강력해질뿐!! 예를들어 p 값이 0.0501 이라고하면이 p 값은 α = 0.05 보다큼 = 따라서이경우에는귀무가설을 5% 유의수준에서기각할수없음 그럼귀무가설이틀리다고주장못하는걸까? = 비록 p 값이 0.0501 이여서 5% 유의수준보다는크지만 0.0501 은 0.05 와같은것임. 따라서 p 값이 0.0501 로나오면귀무가설이틀리다는근거가충분! 강조하고자하는것은적확한결론을내리기위해서는유의수준과 p값을비교해서결론내리는것도중요하지만 p값자체를무시할필요는없다는것임 65/ 72

유의수준의선택통계적으로유의미하다는것의의미통계적으로유의미하지않다는것의의미통계적으로유의미하지않다는것의의미 유의점 2: 통계적으로유의미하다는것의의미 저소득가구의소득수준을높이기위한어떤정책을집행하고, 이정책의효과를추정하는연구를한다고하겠음 이를위해정책이집행되고 1 년후에모집단에서 10,000 개의저소득가구를무작위로추출함 그리고나서이 10,000 가구중정책의수혜를받은저소득가구의월평균소득수준과수혜를받지못한저소득가구의월평균소득수준을조사한후에그차이를계산 : 1. 계산된차이의평균은 x = 1, 500 원 2. 모집단에서의차이의표준편차는 50,000 원이라고가정 66/ 72

유의수준의선택통계적으로유의미하다는것의의미통계적으로유의미하지않다는것의의미통계적으로유의미하지않다는것의의미 유의점 2: 통계적으로유의미하다는것의의미 이상태에서정책의효과가있었는지없었는지에대한평가를하기위해다음과같은가설을검정 : H 0 : µ = 0 vs. H a : µ 0 = 즉귀무가설은두집단간에소득수준차이 (µ) 가없다는것. 다시말해정책의효과가없다는것을의미 검정통계량을계산하면 : z = x µ σ/ n = 1500 0 50000/ 10000 = 3 p 값을계산 : 물론확률을계산하기위해서는추출분포의모양을알아야하는데추출분포의모양은정규분포! Why? CLT 때문. p 값 : P (Z 3 혹은 z 3) = P (Z 3) + P (z 3) = 0.0026 67/ 72

유의수준의선택통계적으로유의미하다는것의의미통계적으로유의미하지않다는것의의미통계적으로유의미하지않다는것의의미 유의점 2: 통계적으로유의미하다는것의의미 p 값이 0.0026 이므로우리는 5% 유의수준에서귀무가설을기각할수있음 = 자그렇다면정책의효과가있다라고주장할수있나? 정책의효과가있기때문에저소득가구의소득수준을높이기위해이정책과관련한예산지출을해야한다고결론내려야하나? 이정책이저소득가구의소득수준을얼마나높였는가? 표본통계량은 1,500! = 즉정책의수혜자와비수혜자간에소득수준의차이가 1,500 원이라는것임 이정책때문에월 1,500 원이증가했다는것이고 1 년에 18,000 원이증가했다는것임 1 년에 18,000 원정도증가시키기위해이정책을집행해야할까? = 그렇게한다면예산낭비! 이정책으로인해월 1,500 원정도소득수준이증가했다면결국그건이정책이효과가없었다는것!! 저소득가구의소득수준을올리기위해서는다른정책을개발해야함 68/ 72

유의수준의선택통계적으로유의미하다는것의의미통계적으로유의미하지않다는것의의미통계적으로유의미하지않다는것의의미 유의점 2: 통계적으로유의미하다는것의의미 이예에서알수있듯이어떤결과값이 통계적으로 유의미하다고해서 실질적으로 유의미한것이아님 통계적유의미성은어떤연구결과의중요성에대해서말해주는것이아님 = 다시말해추정된정책효과가 통계적으로 유의미하다고해서그정책이 실질적으로 효과가있고따라서그정책에예산을더투입해야한다는결론이자동적으로도출되는것이아님 논문이나연구보고서를보면통계적유의미성에대해서만결론을내리고실질적유의미성에대해서는논하지않는경우가굉장히많음 = 반드시통계적유의미성뿐만아니라추정한효과값의실질적유의미성또한검토하십시오!! 69/ 72

유의수준의선택통계적으로유의미하다는것의의미통계적으로유의미하지않다는것의의미통계적으로유의미하지않다는것의의미 유의점 2: 통계적으로유의미하다는것의의미 위예에서통계적으로유의미하게나온이유는정책의효과가커서가아니라표본수가커서임. 위예에서표본을 10,000 가구로했는데만약 100 가구로했다면결과가달라짐 : 위검정통계량의 p 값 : z = x µ σ/ n = 1500 0 50000/ 100 = 0.3 P (Z 0.3 혹은 z 0.3) = P (Z 0.3) + P (z 0.3) = 0.7642 = 즉이경우에는 5% 유의수준에서귀무가설을기각할수없음 이예에서알수있듯이귀무가설을처음에기각할수있었던이유는표본수가컸기때문 = 결론 : 신뢰구간과같이통계적유의미성은추정한효과값 ( 예, x), 모집단표준편차, 그리고표본수에의해결정!! 70/ 72

유의수준의선택통계적으로유의미하다는것의의미통계적으로유의미하지않다는것의의미통계적으로유의미하지않다는것의의미 유의점 3: 통계적으로유의미하지않다는것의의미 연구를할때만약 p 값이설정한유의수준보다높게나오면어떤정책의효과가없다라고결론내리는경향이있음 강조하고싶은것은 근거가강력하지않다고해서근거가없다 라고결론을꼭내려야하는것은아님 예 : 저소득가구의소득수준증진정책과관련한예에서추정된효과값이월 100,000 원으로계산되었다고하겠음. 모집단표준편차는 650,000 그리고표본수는 100 가구로가정. 검정통계량을계산해보면 : 이검정통계량의 p 값은 0.1836 z = x µ σ/ n = 100000 0 750000/ 100 = 1.33 = 이렇게 p값이높게나왔으니이정책의효과가없다라고주장하는것이바람직할까? 71/ 72

유의수준의선택통계적으로유의미하다는것의의미통계적으로유의미하지않다는것의의미통계적으로유의미하지않다는것의의미 유의점 3: 통계적으로유의미하지않다는것의의미 물론통계적으로유의미하지않기때문에귀무가설을기각할강력한근거가없지만추정된효과값을보면무려 100,000 원이나증가한것을알수있음 이 100,000 원이통계적으로유의미하지는않지만그이유가이표본에만국한된것일수도있음 = 다른표본을조사했다면통계적으로유의미한결과가나올수도있음 다른표본혹은표본수를늘려서후속연구를할이유가충분히있는상황 = 이와같이효과값은크게추정되었는데통계적으로유의미하지않게나오면그러한효과값이모호하게 (imprecisely) 추정되었다고함 왜모호하다는걸까? 통계적으로유의미하게나오지는않았지만추정된효과값이커서효과가없다라고강력하게주장하기에는좀리스크가있기때문 결론은효과값의크기, p값의크기, 표본수등에대해서다각도로검토를해야바람직한결론을내릴수있다는것 72/ 72