확률과통계 6. 이산형확률분포 건국대학교스마트 ICT 융합공학과윤경로 (yoonk@konkuk.ac.kr)
6. 이산형확률분포 6.1 이산균일분포 6.2 이항분포 6.3 초기하분포 6.4 포아송분포 6.5 기하분포 6.6 음이항분포 * ( 제외 ) 6.7 다항분포 * ( 제외 )
6.1 이산균일분포 [ 정의 6-1] 이산균일분포 (discrete uniform distribution) n 개의결과값이균일한확률로발생하는확률분포 pdf 기댓값 분산
6.1 이산균일분포 [ 예 6-1] 1 에서 20 까지번호가적혀있는동일한 20 개의공이들어있는상자에서임의로하나의공을꺼냈을때나온번호 X (1) X 의확률분포함수 (2) X 의기댓값과분산 (3) 15 이상의번호가나올확률
6.2 이항분포 (binomial distribution) [ 정의 6-2] 베르누이분포 (Bernoulli distribution) X ~ B(1, p) : 성공확률이일정한 1회의시행에서나오는성공횟수의확률분포 pdf 기댓값 분산
6.2 이항분포 [ 정의 6-3] 이항분포 (binomial distribution) X ~ B( n, p) : 성공확률이일정한 n 회의시행에서나오는성공횟수의확률분포 Pdf 이때 ncx n x 기댓값 분산
X ~ B(5, p)
6.2 이항분포 [ 예 6-2] 성공확률이각각 0.2, 0.5, 0.8 인무한모집단에서 10 개씩표본을취하였을때나타나는성공회수의확률분포 (1) p=0.2 X (2) p=0.5 X (3) p=0.8 X ~ B(10,0.2) ~ B(10,0.5) ~ B(10,0.8) B(10,0.2) B(10,0.5) B(10,0.8) fx1[, 1] 0.00 0.10 0.20 0.30 fx1[, 2] 0.00 0.05 0.10 0.15 0.20 0.25 fx1[, 3] 0.00 0.10 0.20 0.30 0 2 4 6 8 10 x 0 2 4 6 8 10 x 0 2 4 6 8 10 x
6.2 이항분포 [ 예 6-3] 불량률이 0.03인공정에서 20개의표본을추출하여검사하여발견한불량개수 X (1) 확률분포함수 (2) 평균과분산 (3) P(X = 2) (4) P(X 3) X ~ B(20,0.03) dbinom(0:2, 20, 0.03) [1] 0.54379434 0.33636763 0.09882967 1-sum(dbinom(0:2, 20, 0.03)); pbinom(2, 20, 0.03, lower=f) [1] 0.02100836 [1] 0.02100836
6.3 초기하분포 [ 정의 6-4] 초기하분포 (hypergeometric distribution) HG(, n N,) r : 두가지속성의개체들로구성된유한모집단에서일정한개수의표본을비복원추출했을때, 특정속성을갖는개체수의확률분포 Pdf 기댓값 분산 => 다음장에구해보기
6.3 초기하분포 - 기댓값
6.3 초기하분포 - 분산
6.3 초기하분포 ( N = 10, r = 2, n= 5) HG(5,10,2)
6.3 초기하분포 유한모집단수정계수 (finite population correction factor) 확률분포함수의다른표현
6.3 초기하분포 [ 예 6-4] 총 50 개의개체로구성되며, 각각 10 개, 25 개, 40 개의성공개체가있는세종류의유한모집단에서 10 개씩표본을취하였을때, 성공개수의확률분포 (1) 10 개의성공개체가있는경우 X ~ HG(10,50,10) (2) 25 개의성공개체가있는경우 X ~ HG(10,50, 25) (3) 40 개의성공개체가있는경우 X ~ HG(10,50, 40)
HG(10, 50,10) HG(10, 50,25) HG(10, 50,40) fx2[, 1] 0.00 0.10 0.20 0.30 fx2[, 2] 0.00 0.10 0.20 fx2[, 3] 0.00 0.10 0.20 0.30 0 2 4 6 8 10 x 0 2 4 6 8 10 x 0 2 4 6 8 10 x HG(50) : Binom (n=10, p=0.2) HG(50) : Binom (n=10, p=0.5) HG(50) : Binom (n=10, p=0.8) 0.00 0.10 0.20 0.30 0.00 0.10 0.20 0.00 0.10 0.20 0.30 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
[ 예 6-5] 불량률이 5% 이고 1000 개의제품으로구성된로트에서 30 개의표본을추출하였을때나오는불량개수 X (1) 확률분포함수 (2) 평균과분산 (3) P(3 개불량 ) (4) P(3개이하불량 ) PX ( 3) = dhyper(0:3, 50, 950, 30) [1] 0.2096813 0.3415005 0.2631628 0.1277323 sum(dhyper(0:3, 50, 950, 30)); phyper(3, 50, 950, 30) [1] 0.942077 [1] 0.942077
6.4 포아송분포 [ 정의 6-5] 포아송분포 (Poisson distribution) : 일정한단위에서발생한희소한사건수의확률분포 Poi( l) l l = np Þ p = n
6.4 포아송분포 확률분포함수의조건 MGF, 평균및분산
6.4 포아송분포 평균및분산
6.4 포아송분포 [ 예 6-6] 일정단위당평균발생회수가각각 2 개, 5 개, 8 개인세종류의무한모집단에서일정단위의표본을취하였을때, 포아송확률분포 (1) 단위당평균발생회수가 2 인경우 Poi(2) (2) 단위당평균발생회수가 5 인경우 Poi(5) (3) 단위당평균발생회수가 8 인경우 Poi(8)
Poisson(2) Poisson(5) Poisson(8) fx3[, 1] 0.00 0.05 0.10 0.15 0.20 0.25 fx3[, 2] 0.00 0.05 0.10 0.15 fx3[, 3] 0.00 0.04 0.08 0.12 0 5 10 15 20 xr 0 5 10 15 20 xr 0 5 10 15 20 xr HG(50) : Binom : Pois (2) HG(50) : Binom : Pois (5) HG(50) : Binom : Pois (8) 0.00 0.10 0.20 0.30 0.00 0.10 0.20 0.00 0.10 0.20 0.30 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
6.4 포아송분포 [ 예 6-7] 단위당평균결점수가 1.5 개인제품을생산하는프로세스에서샘플링검사실시 (1) 확률분포함수 X ~ Poi(1.5) (2) 기댓값 (3) 분산 (4) P(2 개 ) (5) P(3 개이상 ) (6) P(10 단위에서 20 개 ) dpois(0:2, 1.5) [1] 0.2231302 0.3346952 0.2510214 1-sum(dpois(0:2, 1.5)); ppois(2, 1.5, lower=f) [1] 0.1911532 [1] 0.1911532
6.5 기하분포 [ 정의 6-6] 기하분포 (geometric distribution) ~ G( p) : 성공확률이일정한시행에서첫번째성공이발생할때까지시행한횟수의확률분포 X
6.5 기하분포 확률분포함수의조건 누적분포함수 모멘트생성함수
6.5 기하분포 기댓값과분산
6.5 기하분포 [ 예 6-8] 성공확률이각각 0.1, 0.2, 0.3, 0.5 인네유형의무한모집단에서첫번째성공을얻을때까지시행 (1) 성공확률이 0.1인경우 (2) 성공확률이 0.2인경우 (3) 성공확률이 0.3인경우 (4) 성공확률이 0.5인경우
Geometric(0.1) Geometric(0.2) fx4[, 1] 0.02 0.04 0.06 0.08 0.10 fx4[, 2] 0.00 0.05 0.10 0.15 0.20 0 5 10 15 20 25 30 xr 0 5 10 15 20 25 30 xr Geometric(0.3) Geometric(0.5) fx4[, 3] 0.00 0.10 0.20 0.30 fx4[, 4] 0.0 0.1 0.2 0.3 0.4 0.5 0 5 10 15 20 25 30 xr 0 5 10 15 20 25 30 xr
6.5 기하분포 [ 예 6-9] 주사위 1 개를 6 이나올때까지반복해서굴리는실험에서총시행회수 X (1) X 의확률분포함수 (2) X 의기댓값과분산 (3) 3 회의시행이내에 6 이나올확률 비기억특성 (memoryless property)
R 을활용한확률과통계 실습 이산형확률분포
6.2 이항분포 # 이항분포 R 함수 # 확률분포함수 (size=n= 표본크기, prob=p= 성공확률 ) dbinom(x, size, prob) # Excel 함수 = BINOM.DIST(x, size, prob, FALSE) # 누적분포함수 (q= 분위수, lower.tail=true= 아래로부터누적 ) pbinom(q, size, prob, lower.tail = TRUE) # Excel 함수 = BINOM.DIST(x, size, prob, TRUE) # 분위수 (p= 누적확률 ) qbinom(p, size, prob, lower.tail = TRUE) # Excel 함수 = BINOM.INV(size, prob, p) # 이항확률변수 (n= 난수의개수 ) rbinom(n, size, prob) # Excel 함수는없으나, 아래와같이한개의난수생성 = BINOM.INV(size, prob, RAND( ))
6.2 이항분포 [ 예 6-2] 성공확률이각각 0.2, 0.5, 0.8 인무한모집단에서 10 개씩표본을취하였을때나타나는성공회수의확률분포 n <- 10; p <- c(0.2, 0.5, 0.8); x <- 0:n fx1 <- array(na, dim=c(11,3)) for (I in 1:3) fx1[, i] <- dbinom(x, n, p[i]) colnames(fx1) <- p; rownames(fx1) <- x round(t(fx1), 4) apply(fx1, 2, sum) win.graph(9, 3); par(mfrow=c(1,3)) plot(x, fx1[,1], type= h, main=paste0( B(10, p[1], ) ), lwd=4, col=2) plot(x, fx1[,2], type= h, main=paste0( B(10, p[2], ) ), lwd=4, col=2) plot(x, fx1[,3], type= h, main=paste0( B(10, p[3], ) ), lwd=4, col=2)
6.2 이항분포 [ 예 6-3] 불량률이 0.03 인공정에서 20 개의표본을추출하여검사하여발견한불량개수 X dbinom(0:2, 20, 0.03) [1] 0.54379434 0.33636763 0.09882967 1-sum(dbinom(0:2, 20, 0.03)); pbinom(2, 20, 0.03, lower=f) [1] 0.02100836 [1] 0.02100836
6.3 초기하분포 # 초기하분포 R 함수 # 확률분포함수 (x= 표본성공개수, m=r= 모집단성공개체수, n=n-r= 모집단실패개체수, k= 표본개수 ) dhyper(x, m, n, k) # Excel 함수 = HYPGEOM.DIST(x, k, m, N, FALSE) # 누적분포함수 (q= 분위수, lower.tail=true= 아래로부터누적 ) phyper(q, m, n, k, lower.tail = TRUE) # Excel 함수 = HYPGEOM.DIST(x, k, m, N, TRUE) # 분위수 (p= 누적확률 ) qhyper(p, m, n, k, lower.tail = TRUE) # 초기하확률변수 (nn= 난수의개수 ) rhyper(nn, m, n, k)
6.3 초기하분포 [ 예 6-4] 총 50 개의개체로구성되며, 각각 10 개, 25 개, 40 개의성공개체가있는세종류의유한모집단에서 10 개씩표본을취하였을때, 성공개수의확률분포 N <- 50; S <- c(10, 25, 40); n <- 10; x <- 0:n fx2 <- array(na, dim=c(11, 3)) for (I in 1:3) fx2[,1] <- dhyper(x, S[i], N-S[i], n) colnames(fx2) <- p; rownames(fx2) <- x; round(t(fx2), 4) apply(fx2, 2, sum) win.graph(9, 3);par(mfrow=c(1, 3)) plot(x, fx2[,1], type= h, main=paste0( HG(10, 50, S[1], ) ), lwd=4, col=2) plot(x, fx2[,2], type= h, main=paste0( HG(10, 50, S[2], ) ), lwd=4, col=2) plot(x, fx2[,3], type= h, main=paste0( HG(10, 50, S[3], ) ), lwd=4, col=2) win.graph(9, 3); par(mfrow=c(1,3)); d <- 0.1 plot(x-d, fx2[,1], type= h, main= HG(50) : Binom (n=10, p=0.2), ylab=na, xlab=na, lwd=3, col=4) lines(x+d, fx1[,1], type= h, lwd=3, col=4) plot(x-d, fx2[,2], type= h, main= HG(50) : Binom (n=10, p=0.5), ylab=na, xlab=na, lwd=3, col=4) lines(x+d, fx1[,2], type= h, lwd=3, col=4) plot(x-d, fx2[,3], type= h, main= HG(50) : Binom (n=10, p=0.8), ylab=na, xlab=na, lwd=3, col=4) lines(x+d, fx1[,4], type= h, lwd=3, col=4)
[ 예 6-5] 불량률이 5% 이고 1000 개의제품으로구성된로트에서 30 개의표본을추출하였을때나오는불량개수 X dhyper(0:3, 50, 950, 30) [1] 0.2096813 0.3415005 0.2631628 0.1277323 sum(dhyper(0:3, 50, 950, 30)); phyper(3, 50, 950, 30) [1] 0.942077 [1] 0.942077
6.4 포아송분포 # 포아송분포 R 함수 # 확률분포함수 (lambda= 기댓값 ) dpois(x, lambda) # Excel 함수 = POISSON.DIST(x, lambda, FALSE) # 누적분포함수 (q= 분위수, lower.tail=true= 아래로부터누적 ) ppois(q, lambda, lower.tail = TRUE) # Excel 함수 = POISSON.DIST(x, lambda, TRUE) # 분위수 (p= 누적확률 ) qpois(p, lambda, lower.tail = TRUE) # 포아송확률변수 (n= 난수의개수 ) rpois(n, lambda)
6.4 포아송분포 [ 예 6-6] 일정단위당평균발생회수가각각 2 개, 5 개, 8 개인세종류의무한모집단에서일정단위의표본을취하였을때, 포아송확률분포 L <- c(2, 5, 8); xr <- 0:20 fx3 <- array(na, dim=c(21, 3)) for (i in 1:3) fx3[, i] <- dpois(xr, L[i]) colnames(fx3) <- L; rownames(fx3) <- xr; round(t(fx3), 4) apply(fx3, 2, sum) win.graph(9,3); par(mfrow=c(1,3)) plot(xr, fx3[,1], type= h, main=paste0( Poisson(, L[1], ) ), lwd=4, clo=2) plot(xr, fx3[,2], type= h, main=paste0( Poisson(, L[2], ) ), lwd=4, clo=2) plot(xr, fx3[,3], type= h, main=paste0( Poisson(, L[3], ) ), lwd=4, clo=2) win.graph(9,3); par(mfrow=c(1,3)); d <- 0.2 plot(x-d, fx2[,1], type= h, main= HG(50) : Binom : Pois (2), ylab=na, xlab=na, lwd=3, col=4) lines(x, fx1[,1], type= h, lwd=3, col=2) lines(x+d, fx3[1:11,1], type= h lwd=3, col=2) plot(x-d, fx2[,2], type= h, main= HG(50) : Binom : Pois (5), ylab=na, xlab=na, lwd=3, col=4) lines(x, fx1[,2], type= h, lwd=3, col=2) lines(x+d, fx3[1:11,2], type= h lwd=3, col=2) plot(x-d, fx2[,3], type= h, main= HG(50) : Binom : Pois (8), ylab=na, xlab=na, lwd=3, col=4) lines(x, fx1[,3], type= h, lwd=3, col=2) lines(x+d, fx3[1:11,3], type= h lwd=3, col=2)
6.4 포아송분포 [ 예 6-7] 단위당평균결점수가 1.5 개인제품을생산하는프로세스에서샘플링검사실시 X ~ Poi(1.5) dpois(0:2, 1.5) [1] 0.2231302 0.3346952 0.2510214 1-sum(dpois(0:2, 1.5)); ppois(2, 1.5, lower=f) [1] 0.1911532 [1] 0.1911532
6.5 기하분포 # 기하분포 R 함수 # Excel 함수없음 # 확률분포함수 (x= 실패횟수, prob=p= 성공확률 ) dgeom(x, prob) # 누적분포함수 (q= 분위수, lower.tail=true= 아래로부터누적 ) pgeom(q, prob, lower.tail = TRUE) # 분위수 (p= 누적확률 ) qgeom(p, prob, lower.tail = TRUE) # 기하확률변수 (n= 난수의개수 ) rgeom(n, prob)
6.5 기하분포 [ 예 6-8] 성공확률이각각 0.1, 0.2, 0.3, 0.5 인네유형의무한모집단에서첫번째성공을얻을때까지시행 p <- c(0.1, 0.2, 0.3, 0.5); xr <- 1:30 fx4 <- array(na, dim=c(30,4)) for (i in 1:4) fx4[, i] <- dgeom(xr-1, p[i]) colnames(fx4) <- p; rownames(fx4) <- xr; round(t(fx4), 4) apply(fx4, 2, sum) par(mfrow=c(2,2)) plot(xr, fx4[, 1], type= h, main=paste0( Geometric(, p[1], ) ), lwd=3, col=2) plot(xr, fx4[, 2], type= h, main=paste0( Geometric(, p[2], ) ), lwd=3, col=2) plot(xr, fx4[, 3], type= h, main=paste0( Geometric(, p[3], ) ), lwd=3, col=2) plot(xr, fx4[, 4], type= h, main=paste0( Geometric(, p[4], ) ), lwd=3, col=2)