연속형 확률밀도함수 연속형 확률분포함수? 데이터 히스토그램의 정상을 연결하면 확률분포함수가 된다. 이를 이용하여 데이터(표본)의 분포(이는 모집단의 분포와 동일)를 구 하게 된다. 그러나 함수를 구하는 것은 불가능해 보인다. 그래서 현실에서는 확률분포를 가정하게 된다. (예)기다리는 시간: 지수분포, 측정 오 차: 정규분포 Gauss(천문학자): 행성들간 거리 측정오차의 히스토그램에서 정 규분포(normal distribution) 유도 연속형 확률변수와 이산형 확률변수 이항분포 정규분포 근사 Normal Approximation Binomial n이 커짐에 따라 B(n, p)->normal (np, npq) 일반적 근거: min(np, npq)가 적어도 5 이상 Continuity Correction: (예1)P(X>=3:이항분포)=P(X>.5:정규분포) P(X>.5:정규분포) (예)P(X<=:이항분포)=P(X<.5:정규분포) (예3)P(X=3:이항분포)=P(.5<X<3.5:정규분포) 포아송분포와 지수분포 X ~ N( μ, σ ) Z = X ~ iidn( μ, σ ) Z ~ iidn(0,1) N (0,1) χ ( m) / m χ ( m1 ) / m χ ( m ) / m 1 k ~ t( m) ~ F( m, m X μ ~ N(0,1) σ X ~ N( μ, σ ) Z ~ χ ( k) 1 ) Exponential(1/ λ) Poisson(λ) F( x) = P( X x) = 1 F( X > x) = 1 P( no visit in [ 0, x] ) = 1 P ( X = 0 X ~ Poisson ( λx )) 단위 시간 당 사람이 오는 회수: Poisson 분포 다음 사람이 오는데 걸리는 시간: Exponential 분포 m 사람이 오는데 걸리는 시간: Gamma 분포 40
확률밀도함수 및 분포함수 (누적확률밀도함수) 정규분포 감마분포 41
연속형 확률변수 관계 지수분포의 무기억성 memory-less property P(X>a+b X>a)=P(X>b) Chi-Square χ 분포의 가법성 additivity 기다리는 시간: 지수분포 수명: 와이블 분포 우로 치우친 데이터: 감마분포 좌우 대칭: 정규분포 4
연속형 확률변수 분포표 43
In-Class Exercise #1 만약 낙하산이 marker A와 B 사이에 임의의 지점에 떨어진다고 하자. # (1)낙하산이 B 보다 A 지점에 더 가까이 떨어질 확률을 구하시오. ()낙하산 떨어진 지점에서 지점 A까지의 거리가 지점 B까지의 거리 의 3배 이상일 확률을 구하시오. (3)3개의 낙하산 중 정확하게 한 개만 지점 B에 가까이 떨어질 확률을 구하시오. 학생들의 SAT 점수는 평균 75, 표준편차 10인 정규분포를 따른다 고하자. 점수 80~90 사이의 학생 비율은 얼마나 되나? 60점~80 점 사이 학생의 비율은? 상위 10% 안에 들려면 몇 점을 받아야 하나? 85점은 어느 정도 성적인가? #3 회사 생산하는 볼트 지름의 크기는 평균 950 millimeters, 표준편차 10 millimeters인 정규분포를 따른다고 한다. ⑴볼트를 하나 선택했을 때 그것의 지름이 947~958 millimeters일 확 률을 계산하시오. ()볼트의 지름이 상수 보다 적을 확률이 0.8531일 경우상수을구하 시오. #4 은행의 업무 시간 중 바쁜 시간의 비율을 확률변수 라 정의하자. 확 률변수 의 확률밀도함수가 f(x)=cx (1-x) 4, 0 x 1라 주어져 있다. #5 (1)확률밀도함수가 되기 위한 c의값은? ()은행의 바쁜 시간 비율의 기대값은? 작업시간은 Exponential(평균=10)을 따른다고 한다. 작업시간에 대한 임금비용은 C=100+40Y+3Y 이다. 비용의 기대값은? 작업시간은 Gamma(α=3, β=)을 따른다고 한다. 작업시간에 대 한 임금비용은 C=30Y+Y C30Y+Y이다. 비용의 기대값은? #6 은행에서 기다리는 시간이 Gamma(α=3.1, β=)을 따른다고 한 다. 고객 한 명이 1.5분을 기다리고 너무 오래 기다렸다고 항의 한다. 적절한 주장인가? #7 Normal Approximation 한남대 정보통계학과 합격률은 0%이다. 지원자 중 10명을 무작위 추출했을 때 4명이 합격일 확률? 10명을 무작위 추출했을 때 4명 이상 합격일 확률? 30명을 무작위 추출했을 때 1명 이상 합격일 확률? 30명을 무작위 추출했을 때 1명 이상 합격일 확률? 44
확률변수 생성 random variable generating 생성 generating? 원하는 확률밀도함수를 따르는 확률변수 데이터를 컴퓨터를 활용 하여 만들어 내는 작업 시뮬레이션(simulation) 위한 가공 데이터 만들기 X~Gamma(α=3,β=) n=30 생성 In Excel (균일분포, 일양분포 이용 지수분포(β=) 감마분포) Inversion method 분포함수 distribution function 방법 (CDF) (예) 지수함수 균일(Uniform distribution)분포: U ~ Uniform(0,1) 지수분포(평균이 λ인)의 누적확률분포함수: F( X ) =1 분포함수 F는 균일분포를 따른다는 성질을 이용하여 분포함수를 구하지 못하는 경우 Rejection 방법 Alias 방법 x e x λ λ 1 e = U X = λ ln(1 U ) In SPSS: 난수 생성 함수 있음 우선 첫 열에 아무 숫자나 30개(생성할 데이터 개수만큼) 입력한다. 45
SPSS 난수 생성하기 (gamma(α=3,β=)) 변수 계산 메뉴에서 대상변수: 변수명 설정, 열(변수)이 이 이름으로 설정됨 함수집단: 난수를 선택한 후 함수 및 특수함수에서 감마분포 생성 함수 Rv.Gamma 선택 형태=shape(α) 척도=1/(scale) (1/β)로 지정하면 된다. 결과는 아래와 다릅니다. seed가 다르기 때문에 평균과 분산을 구해보면 (αβ=6, αβ =1)와 유사할 것이다. 45-1
Minitab 활용 확률변수 생성 random variable generating 감마의 α=shape(형상) β=scale(척도) 생성된 데이터 확률밀도 함수 누적분포함수 적합 46
Minitab 활용 확률변수 생성 random variable generating (cont.) P-P plot 기초 통계량 Empirical CDF Probability-Probability Plot 표본 데이터의 분포 진단, eyeball method 이론 분포와 적합하다면 직선 형태 검정통계량: Goodness of fits 적합성 검정 (χ 검정) F(X(i)) against 순위 (i-0.5)/n 혹은 데이터 47
표본분포 Sampling Distribution 표본데이터 분포 sample dist. 표본분포 sampling dist. x ~ f ( x; θ) ( x 1, x,, xn) 표본데이터 ( x 1, x,, xn) ( yi, xi ), i = 1,,..., n 모집단 ~f(x;θ) Y=f(x)=α+βx+e ˆ θ ~ samplingdist? 통계량 ˆ, θ ˆ, α ˆ β 통계 추론이란? 표본으로부터 모집단 정보를 얻어내는 과정 도구: 통계량 추정: 모수의 값을 알아내는 과정 점추정point estimator, 구간 추정 interval estimator 가설검정: 모수에 대한 가설의 진위여 밝히는 과정 모수 (parameter) 일변량: 모집단의 요약 값 모집단의 특성을 요약한 값: (예)모집단 평균(μ), 모집단 분산(σ ), 모 집단 비율(p) ) 이변량, 다변량: 모형 계수 변수 간 모형에서의 미지의 값: (예)회귀계수(α, β), 상관계수(ρ) 확률분포함수 확률분포함수의 형태를 결정하는 값: (예) 정규분포의 평균(μ)과 표준 편차(σ) 통계량 (statistics) 표본으로부터 계산된 값 표본평균, 표본분산 표본비율 OLS 추정치, Pearson 상관계수 Sampling Distribution 표본통계량의 분포 48
추론: 추정(estimation) 추정(estimation) θ? 점추정(point estimation) 구간 추정 (interval estimation) 좋은 추정치 θˆ 불편성 (unbiasedness) E( ˆ θ ) = θ 일치성 (consistency) θˆn θ as n goes 최소분산 (minimum variance) minv ( ˆ) θ MVUE (minimum variance unbiased estimator) 불편성을 갖는 추정량 중 최소분산을 갖는 추정량을 MVUE이다. Rao-Blackwell 정리: MLE 추정치의 함수 중 불편성 을 갖는 추 정치가 MVUE이다. 구간 추정 (interval estimation) 점추정 ±허용오차 대표본 이론(large sample theorem)에 의해 ˆ θ θ ~ N(0,1) s( ˆ) θ 100(1-α)% 신뢰구간 ˆ θ θ P ( L < < U ) = 1 α s( ˆ) θ ˆ θ s( ˆ) θ U < θ < ˆ θ + s( ˆ) θ L 추정량(estimator)과 추정치(estimate) 통계량 중 추정에 사용되는 것을 추정량 추정량은 공식이고 추정치는 데이터의 의해 계산된 실제 값 α/ L 100(1-α)% U α/ 49
추론: 가설검정 hypothesis testing 통계적 가설 (statistical hypothesis) 통계적 가설 검정은 (1)서로 배반인 두 개의 가설(귀무가설, 대립 가설)을 설정하고 ()표본 데이터로부터 적절한 검정 통계량 값을 계산하고 (3)이를 이용하여 두 가설 중 하나를 선택하는 순서로 진 행된다. 가설 종류 귀무가설 (null hypothesis) H 0 검정되는 가설로 원래 그대로의 상태(state quo)를 의미하며 표본에 의해 거짓임이 판명되지 않으면 기각되지 않는다. 대립가설 (alternative Hypothesis) H 1, H a 귀무가설과 대립되는 가설 단측 (one-sided)가설 양측 (two-sided)가설이 있음 단측 혹은 양측 설정은 연구가설에 의존 얻고자 희망하는 모수의 조건이나 변수들간의 관계에 대한 문장으로 연구 가설(research hypothesis)이라 한다. 가설검정 결과 귀무가설 기각 혹은 채택, 귀무가설 중심 해석 판단 (judgment) 실제 모집단 가설 판단 귀무가설 진실 대립가설 진실 귀무가설 기각 1종 오류 옳은 판단 (α) 귀무가설 채택 옳은 판단 종 오류 (β) 어느 오류를 고정할 것인가? 1종오류why? 검정력 (test power 1-β) 최대화 하는 검정방법 찾음 (UMPT, UMP) 가설 설정방법 예제 H 0 : μ = μ0 = 50,000 충남대학교 학생 평균 용돈=5만원 한남대학생들의 용돈은 높을 것인가? 서울 신문 구독률은 0%이다. 대전 시민 신문 구독률은 서울과 동일한가? 대전 시민 신문 구독률은 서울에 비해 높은가? 한남대 학생 용돈은 충남대 학생 용돈보다 높을 것이다. 한남대 학생 용돈은 충남대 학생 용돈(50,000원)보다 높다? 50
추론: 유의수준, 기각역, 검정통계량, 유의확률 검정통계량 (test statistics) 통계적 가설의 진위 여부를 판단하기 위하여 표본 데이터로부터 계산된 통계량 x μ T = s / 귀무가설 가정 하에서 표본분포를 구한다. 0 ~ t( n 1) or Normal(0,1)( Z) n 유의수준 (significant level) 귀무가설 하에서 귀무가설을 기각할 확률 설정된 1종 오류 α/ α/ 기각역(critical region), 기각치(critical value) 유의수준에서 귀무가설 기각의 기준이 되는 값과 영역 -t(α/,n-1) 혹은 z(α/) t(α/,n-1) 혹은 z(α/) 유의확률 (p-value, probability bilit value) 귀무가설을 기각할 최소의 유의 확률 계산된 검정통계량이 대립가설을 지지하는 확률을 의미한다. 단측검정과 양측검정 관계 양측검정에서 귀무가설이 기각되면 단측검정에서도 기각. 통계소프트웨어: 검정통계량, 양측 유의확률 단측이면 한 쪽에 α 설정 51
추론: 신뢰구간 confidence interval 모수 θ에대한100(1-α)% 신뢰구간 (confidence limit) P ( L ( x 1, x,... xn ) < θ < U ( x 1, x,... xn )) = 1 α 95% 신뢰구간의 의미 계산 식에 의해 신뢰구간을 100번 구하면 95번은 모수를 포함 신뢰수준이 높아지면 신뢰구간 폭이 넓어진다. 같은 신뢰수준이면 신뢰구간 폭이 좁을수록 좋다. x μ0 t ( α / ) < < t( α / ) s / n s x t( α / ) < μ0 < x + t( α / ) n s n 100(1-α)% 신뢰구간과 유의수준 α%과 일대일 관계 95% 신뢰구간에 포함된 모수 값이 귀무가설에 모수 값으로 설정 되면 5% 유의수준 하에서 귀무가설(양측검정) 채택 단측 검정과 신뢰구간과 관계 대립가설의 모수가 귀무가설 값 보다 작은 경우 상한 신뢰구간 대립가설의 모수가 귀무가설 값 보다 작은 경우 하한 신뢰구간 θ α/ L=-t(α/,n-1) 혹은 -z(α/) 100(1-α)% α/ U=t(α/,n-1) 혹은 z(α/) 5