확률과통계 4. 확률변수와확률분포 건국대학교스마트 ICT 융합공학과윤경로 (yoonk@konkuk.ac.kr)
4. 확률변수와확률분포 4.1 확률변수와확률분포의개념 4.2 결합확률분포 4.3 주변확률분포 4.4 조건부확률분포 4.5 확률변수의독립
4.1 확률변수와확률분포의개념 [ 정의 4-1] 확률변수 (random variable) 표본공간의각원소를실수값으로 ( 숫자로 ) 바꾸는함수 확률분포를가짐 동전을세번던지는실험에서의표본공간 S={HHH, HHT, HTH, HTT, THH, THT, TTH, TTT} 동전의뒷면이나오는횟수 확률변수
[ 예 4-1] 동전을세번던져나온 ( 앞면의개수 - 뒷면의개수 ) 만큼 100 원씩주고받는게임에서수익 à 확률변수 X 첫번째앞면 à 100, 두번째앞면 à 200, 세번째앞면 à 300 뒷면이나오면 à 0 으로초기화
이산표본공간 (discrete sample space) 유한개또는셀수있는무한개의원소로구성된표본공간 이산확률변수 (discrete random variable) ü 동전의앞면이나올때까지의시행횟수 ü 100 개의제품중불량품의수 연속표본공간 (continuous sample space) 실직선상의임의의구간으로나타낼수있는표본공간 연속확률변수 (continuous random variable) ü 사람의키와몸무게 ü 제품의수명
4.1.2 확률분포 확률분포 : 확률변수가치역내의임의의값또는임의의구간에배정될확률을나타내는식또는표 [ 정의 4-2] 이산확률분포 (discrete probability distribution) 이산표본공간의확률변수로부터생성된확률분포 확률질량함수 (probability mass function) PX ( = x) = f( x) å f ( x ) = 1, 0 f ( x ) 1 x
[ 예 4-2] 동전을세번던지는시행에서의뒷면의개수 X 의확률분포 1 3 3 1 Þ f(0) =, f(1) =, f(2) =, f(3) = 8 8 8 8 Þ å f ( x ) = 1 x
[ 예 4-3] 주사위를네번던지는실험에서나오는숫자합 X 의확률분포 # 확률변수 X 의분포그래프 [ 그림 4-3] 주사위 4 개눈의합확률분포 X.prob 0.00 0.02 0.04 0.06 0.08 0.10 0.12 1 4 10 20 35 56 140 146 140 125 125 104 104 80 80 56 f(x)=freq/1296 35 20 10 4 1 4 5 6 7 8 9 11 13 15 17 19 21 23 X
[ 예 4-4] 50 개의제품중 8 개의불량품이있는상자로부터 10 개의제품을랜덤샘플링했을때, 발견되는불량품개수 X 에대한확률분포 (50 개중 8 개불량 ) 에서 10 개추출확률분포 f(x) 0.0 0.1 0.2 0.3 0.4 0.3473 0.3217 0.1432 0.1471 0.0357 0.0046 3e-04 0 0 0 0 0 2 4 6 8 10 불량개수
[ 정의 4-3] 연속확률분포 (continuous probability distribution) 연속적인 ( 셀수없는 ) 값을갖는확률변수의확률분포 확률분포함수 f(x) 는확률 P(a<X<b) 를구하기위한확률밀도함수 b P( a < X < b) =ò f ( x) dx f ( x) ³ 0, ò f ( x) dx = 1 - a [ 예 4-5] 밀도함수 : -2x f( x) 2 e, 0 x = < < (1) 확률분포? (2) P(0<X<1) -2x - 2x f( x ) ³ 0 f ( x) dx = 2 e dx = [- e ] = 1 ò - 1 0 ò -2x -2x 1-2 P(0 < X < 1) = ò 2 e dx = [- e ] 0 = 1-e B 0.8647 0 0
[ 정의 4-4] 누적분포함수 (cumulative distribution function) 확률변수 X 가특정한값 x 이하일확률 Fx ( ) = PX ( x) [ 예 4-6] 동전을세번던지는확률실험에서뒷면의개수 X에대한누적분포함수 1 3 3 1 f(0) =, f(1) =, f(2) =, f(3) = 8 8 8 8 # 누적분포함수 F(x) 정의 Fx <- function(x) { if (x<0) {y <-0 } else if (x<1) {y <- 1/8 } else if (x<2) {y <- 1/2 } else if (x<3) {y <- 7/8 } else y <- 1 return(y) } # 누적분포함수벡터화 Vectorize( ) 함수 VFx <- Vectorize(Fx, "x")
# 누적분포함수 F(x) 플롯 동전 3 개중뒷면의개수 CDF F(x) 0.0 0.2 0.4 0.6 0.8 1.0 0.125 0.5 0.875 1-2 -1 0 1 2 3 4 5 x
[ 예 4-7] 연속확률분포의 CDF -2x f( x) 2 e, 0 x = < < 연속형누적확률분포함수예 F(x) 0.0 0.2 0.4 0.6 0.8 1.0 F(1)=0.8647-1 0 1 2 3 x
4.2 결합확률분포 (joint prob. dist. function) 두개이상의확률변수를다루어야할때는확률변수간에서로영향을주고받을수있으므로동시에고려할필요가있음 4.2.1 결합확률분포의개념 2 개이상의확률변수에대한확률분포 이산형결합확률분포 : 두확률변수 X 와 Y 가동시에각각 x 와 y 의값을가질확률 연속형결합확률분포 : 두확률변수 X 와 Y 의확률을계산하기위한밀도함수
[ 예 4-8] 주사위를두번던지는시행에서눈의최대치 X 와눈의최소치 Y 의결합확률분포 { (, ) 1, x= y n(x,y)= (X=x, Y=y) 인원소의개수 Þ nxy = 2, x> y { 1/ 36, x= y Þ f( x, y) = ( x, y = 1,2, L,6) 2 / 36, x> y
[ 예 4-9]* 주사위를네번던지는시행에서눈의최대치 X 와눈의최소치 Y 의결합확률분포
[ 예 4-10] 두확률변수 X 와 Y 의결합확률분포 (1) 결합확률분포인지증명 (2) P(0<X<0.5, 0<Y<0.5)
4.3 주변확률분포 (marginal probability distribution) 이산형 연속형 [ 예 4-11] 주사위를두번던지는시행에서눈의최대치 X, 눈의최소치 Y 의주변확률분포
[ 예 4-12] 두확률변수 X 와 Y 의결합확률분포 (1) X 의주변확률분포 (2) Y 의주변확률분포
4.4 조건부확률분포 [ 예 4-13] 주사위를두번던지는시행에서눈의최소치 Y=y 일때눈의최대치 X 의조건부확률분포
[ 예 4-14] 두확률변수 X 와 Y 의결합확률분포 Y=y 일때 X 의조건부확률분포 ( 예제 4-12) X=x 일때 Y 의조건부확률분포
4.5 확률변수의독립 [ 정리 4-1] 통계적독립 (statistically independent) 확률변수 X 와 Y 가통계적으로독립이기위한필요충분조건 f(, x y) = f () x f (),forall y x, y 충분조건 ( 위의식이성립하면 ) X Y 필요조건 (X 와 Y 가통계적으로독립이면 )
[ 예 4-15] 주사위를두번던지는시행에서눈의최대치 X, 눈의최소치 Y 의독립성검토 [ 반례 ]
[ 예 4-16] 주사위를두번던지는시행에서 3 이상눈의개수 X 와짝수눈의개수 Y 의독립성검토 Þ f( x, y) = f ( x) f ( y), for all x, y X Y
[ 예 4-17]* 주사위를네번던지는시행에서 3 이상눈의개수 X 와짝수눈의개수 Y 의독립성검토
[ 예 4-18] 두확률변수 X 와 Y 의결합확률분포 확률변수 X 와 Y 가독립인지판정 [ 예 4-19] 두확률변수 X 와 Y 의결합확률분포 확률변수 X 와 Y 가독립인지판정
[ 정리 4-2] 통계적독립 (statistically independent) 조건 (1) 두확률변수 X 와 Y 의결합분포함수 f(x,y)=g(x)h(y) 형태 (2) X 와 Y 의정의역이서로간섭받지않음 두확률변수 X 와 Y 가독립이면, Pa ( < X< bc, < Y< d) = Pa ( < X< bpc ) ( < Y< d) [ 증명 ] 모든상수에대해아래의식을만족하면, 두확률변수 X 와 Y 는독립 Pa ( < X< bc, < Y< d) = Pa ( < X< bpc ) ( < Y< d)
4.5.2 여러확률변수의독립 f( x, x, L, x ) = f ( x ) f ( x ) L f ( x ) 1 2 n 1 1 2 2 n n [ 예 4-20] 확률변수 X 1, X 2, X 3 의결합확률분포 f x x x e x x x -x1-2 x2-3 x3 (,, ) = 6, (,, > 0) 1 2 3 1 2 3
R 을활용한확률과통계 실습 확률변수와확률분포
예제 4-3 주사위 4 번던지는실험. 숫자의합 X 의확률분포 setwd(d:/ 확통 ) S <- read.csv( rolldie4-1.csv ); str(s) X <- apply(s, 1, sum) X.freq <- table(x); X.freq sum(x.freq) X.prob <- X.freq/length(X); round(x.prob, 4) win.graph(7,5) plot(x.prob, type= h, col= red, main= 주사위 4 개눈의합확률분포, lwd=4, ylim=c(0, max(x.prob)+0.01)) text(4:24, X.prob, labels=x.freq, pos=3, col=4) text(22, 0.1, labels= f(x)=freq/1296 ) source( D:/R- 통계 /rolldie-sum.txt ) rolldie.sum(4) rolldie.sum(5) rolldie.sum(6)
예제 4-4 50 개제품중 8 개의불량품이있는상자. 10 개의제품랜덤샘플링때발견되는불량품개수 X 에대한확률분포및그래프 npop <- 50; nsamp <- 10; ndef <-8 denom <- choose(npop, nsamp) freq <- choose(ndef, 0:nsamp)*choose(npop-ndef, nsamp-(0:nsamp)); freq fx <- freq / denom; fx win.graph (7, 5) plot(0:10,fx, type= h, col= red, lwd=4, xlim=c(-1,11), ylim=c(0,max(fx)+0.05), main= (50 개중 8 개불량 ) 에서 10 개추출확률분포, xlab= 불량개수, ylab= f(x) ) text(0:10, fx, labels=round(fx,4), pos=3, cex=0.8, col=4) source( D:/R- 통계 /hyper-sample.txt ) hyper.sample(50,8,10) hyper.sample(500,80,10)
예제 4-6 동전을세번던지는확률실험에서뒷면의개수 X에대한누적분포함수 Fx <- function(x) { if (x<0) {y <-0 } else if (x<1) {y <- 1/8 } else if (x<2) {y <- ½ } else if (x<3) {y <- 7/8 } else y <- 1 return(y) } VFx <- Vectorize(Fx, x ) xrange <- (-200:500)/100 win.graph(7,5) plot(xrange, VFx(xrange), cex=0.6, main= 동전 3개중뒷면의개수 CDF, col=2, xlab= x, ylab= F(x) ) points(0:3, VFx(0:3), pch=19, col=2, cex=1.2) points(0:3, VFx(0:3-.0001), col=2, cex=1.2) grid(col=3) text(0:3, VFx(0:3), labels=vfx(0:3), col=4, pos=2) cource( D:/R-통계 /disc-cdf.txt ) disc.cdf(0:3, c(1,3,3,1)/8, mt= 동전 3 개중뒷면의개수 CDF ) disc.cdf(0:4, c(1,4,6,4,1)/16, mt= 동전 4 개중뒷면의개수 CDF ) disc.cdf(0:5, c(1,5,10,10,5,1)/32, mt= 동전 5 개중뒷면의개수 CDF )
예제 4-7 확률분포 f(x)=2e^(-2x), 0<x< 의누적분포함수 F(x) Fx <- function(x) { if(x<0) {y<-0} else {y<-1-exp(-2*x)} return(y)} VFx <- Vectorize(Fx, x ) xrange <- (-100:300)/100 win.graph(7,5) plot(xrange, VFx(xrange), type= l, lwd=3, main= 연속형누적확률분포함수예, col=2, xlab= x, ylab= F(x) ) grid(col=3) segments(-1, Fx(1), 1, Fx(1), lty=2, col=4) segments(1,0,1,fx(1),lty=2,col=4) text(-0.7,fx(1), labels=paste0( F(1)=, round(fx(1),4)), col=4, pos=3)
예제 4-9* 주사위네번던지는시행에서눈의최대치 X, 최소치 Y 라할때 X와 Y의결합분포 setwd(d:/ 확통 ) S <- read.csv( rolldie4-1.csv ); str(s) X <- apply(s, 1, max); table(x) Y <- apply(s, 1, min); table(y) tabxy <- table(x,y) mtabxy <- addmargins(tabxy); mtabxy ptabxy <- mtabxy/nrwo(s); round(ptabxy,5) freqxy <- matrix(0,6,6) nd <- rep(0,6) nd[1] <- 1 for(k in 2:6) nd[k] <- k^4 (k-1)^4 ((k-1)^4 (k-2)^4) for(k in 1:6) for (m in 1:k) freqxy[k, m] <- nd[k-m+1] print(freqxy tabxy)
예제 4-10 두확률변수 X 와 Y 의결합확률분포가다음과같이주어졌을때결합확률분포가됨을보이고, P(0<X<1/2, 0<Y<1/2) 를구하시오 ex10 <- function(a,b,x,y) 2/(a+b)*(a*x+b*y) ex10.int <- function(a,b,x1,x2,y1,y2) { integrate(function(y) { sapply(y, function(y) { integrate(function(x) { sapply(x,function(x) ex10(a,b,x,y)) }, x1, x2)$value }) },y1, y2) } ex10.int(2, 5, 0, 1, 0, 1) ex10.int(5, 15, 0, 1, 0, 1) ex10.int(2, 5, 0, 0.5, 0, 0.5) ex10.int(5, 15, 0, 0.5, 0, 0.5)