1 1 Department of Statistics University of Seoul August 28, 2017
확률분포
누적분포함수 확률공간이정의되었다고가정하자. 즉, 어떤사건 A 에대해서 P(A) 를항상생각할수있다고가정하자. 어떤확률변수 X 주어졌을때 Pr(X x) = P(X (, x]) 로정의하면 Pr(X x) 의값을모든 x 에대해생각할수있다. F (x) = Pr(X x) 이라고놓으면임의의 x 에대해서 F (x) 는값을가지며, F 는실수에서 [0, 1] 에대응되는함수다. 여기서 F 를확률변수 X 의누적분포함수라고한다.
누적분포함수 누적분포함수를알면확률변수 X 를통해얻어지는임의의사건에대한확률를구할수있다. Pr(a < X b) = F (b) F (a) 특별히 Pr(X = x) = F (x) F (x ) ( 단, F (x ) = lim h 0 F (x h)) 즉, 누적분포함수는확률변수 X 를통해얻어지는불확실성에대한모든정보 ( 확률 ) 를제공한다.
확률밀도함수 연속형확률변수에대해서는다음조건을만족시키는함수 f 가존재한다. F (x) = x f (t)dt 사실연속형확률변수에대해서는 F (x) = f (x) 가성립한다. 따라서, 확률밀도함수 f 를안다는것과 F 를안다는것은같다. 즉, 확률밀도함수는확률변수 X 를통해얻어지는불확실성에대한모든정보 ( 확률 ) 를제공한다.
유용한확률분포일변량분포베르누이분포정규분포포아송분포감마분포베타분포다변량분포다변량정규분포다항분포디리클레분포
분포에대한이해물리적인의미가있나? 확률변수가다른확률변수로부터유도된것인가? 확률변수가가질수있는값은무엇인가? 확률변수의분포를결정하는모수는무엇인가? 평균과분산?
베르누이분포 성공 혹은 실패 와같은두가지결과만을가지는실험기본적인확률변수확률변수는 0 또는 1의값을가짐확률밀도함수는 P(X = x) = θ x (1 θ) 1 x 와같이주어지고 X Bernoulli(θ) ( 모수 : θ (0, 1) 로표기한다. E(X ) = Pr(X = 1) = θ, Var(X ) = θ(1 θ)
포아송분포 단위시간동안랜덤하게발생한사건의건수 지수분포와관계가있음 확률변수는 0 을포함한자연수의값을가짐 확률밀도함수는 P(X = x) = λx exp( λx) x! 와같이주어지고 X Poisson(λ) ( 모수 : λ > 0) 로표기한다. E(X ) = λ, Var(X ) = λ
포아송분포 λ= 1 λ= 5 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.00 0.05 0.10 0.15 probability distribution of Poisson random variables
R을이용한분포함수그리기 : poisson distribution 누적분포함수 : ppois 확률밀도함수 : dpois 분위수 : qpois 랜덤넘버생성 : rpois
정규분포 독립인확률변수를많이더한값의분포 중심극한정리 확률변수는실수값을가짐 확률밀도함수는 f (x) = 1 2πσ exp ( ) (x µ)2 2σ 2 와같이주어지고 X N(µ, σ 2 ) ( 모수 : µ R, σ > 0) 로표기한다. 누적확률은아래와같이주어진다. Pr(X x) = E(X ) = µ, Var(X ) = σ 2 x f (t)dt
정규분포 : 표본평균의분포 > n = 1e+4 > z = rexp(n) > x = c() > for (i in 1:n) + { + idx = sample(1:n,25) + x[i] = mean(z[idx]) + } > hist(x) > n = 1e+4 > z = runif(n) > x = c() > for (i in 1:n) + { + idx = sample(1:n,25) + x[i] = mean(z[idx]) + } > hist(x)
R을이용한분포함수그리기 : normal distribution 누적분포함수 : pnorm 확률밀도함수 : dnorm 분위수 : qnorm 랜덤넘버생성 : rnorm
감마분포 어떤시스템에서서비스처리시간에대한분포 독립인지수분포의합 확률변수는양의실수값을가짐 확률밀도함수는다음과같이주어짐 f (x) = xα 1 exp( x/β) Γ(α)β α 이때, X Gamma(α, β) 로표기함. E(X ) = αβ, Var(X ) = αβ 2
감마분포 0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 y y 0 2 4 6 8 10 x 0 2 4 6 8 10 x Left is the pdf with α = 2, β = 0.5; Right is the pdf with α = 8, β = 0.5
베타분포 0 과 1 사이의값을가지는어떤데이터의불확실성을모형화하기위해사용 같은규모모수를가지고독립인감마분포를따르는두확률변수의비 X Gamma(α 1, β) 고 Y Gamma(α 2, β), X 와 Y 가독립일때, X /(X + Y ) 의분포. 확률변수는 0 과 1 사이의값을가짐 확률밀도함수는다음과같이주어짐 f (x) = Γ(α 1 + α 2 ) Γ(α 1 )Γ(α 2 ) xα 1 1 (1 x) α 2 1 이때, X Beta(α 1, α 2 ) 로표기함. E(X ) = α 1 /(α 1 + α 2 ), Var(X ) = α 1 α 2 (α 1 +α 2 ) 2 (α 1 +α 2 +1)
베타분포 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5 y y y 0.0 0.4 0.8 x 0.0 0.4 0.8 x 0.0 0.4 0.8 x Left is the pdf with α 1 = 1, α 2 = 1; center is α 1 = 4, α 2 = 2; Right is the pdf with α 1 = 2, α 2 = 4
다변량분포 랜덤벡터 : X 1,, X p 가확률변수인경우 X = (X 1,, X p ) 를랜덤벡터라고한다. 랜덤벡터의평균 : µ j = EX j 일때, µ = (µ 1,, µ p ) 를랜덤벡터 X 의평균벡터라고한다. 공분산행렬 : Cov(X j, X k ) 를 j 행 k 열의원소로갖는행렬 Σ 를 X 의공분산행렬이라고한다. 공분산행렬 Σ 의대각원소는무엇인가? 공분산행렬은대칭행렬인가?
다변량정규분포 X = (X 1,, X p ), µ = (µ 1,, µ p ), 그리고 Σ 를 X 의공분산행렬이라고하자. 평균이 µ, 분산이 Σ 인다변량정규분포의확률밀도함수는다음과같이주어진다. f (x) = ( 1 exp 1 ) 2πΣ 1/2 2 (x µ) Σ 1 (x µ) 여기서 A 는정방행렬 A 에대한행렬식으로 R 에서는 det(a) 로구할수있다.
R code for multivariate normal distribution > library(mvtnorm) > n = 50 > mu.vec = c(1,1/2) > Sigma.mat = matrix( c(1,0.5,0.5,2),2,2) > x1 = x2 = seq(-3,3, length = n) > z <- matrix(0,n,n) > for (i in 1:n) + for (j in 1:n) + z[i,j] <- dmvnorm(c(x1[i],x2[j]), mu.vec, Sigma.mat) > contour(x1,x2,z)
다항분포 여러개의사건중하나의사건이발행하는경우, 이를묘사하는확률모형. 베르누이분포의확장 p 개의사건중 k 번째사건발생유무를나타내는확률변수를 X k {0, 1}, Pr(X k = 1) = θ k 라고하자. X = (X 1,, X p ) 라고하면, 정의에의해항상 p j=1 X j = 1 이다. 확률밀도함수는다음과같이주어진다. Pr(X = (x 1,, x p ) ) = ( 단, p j=1 x j = 1, p j=1 θ j = 1) p j=1 θ x j j
예시 타석에들어선타자의기록 : 1 루타, 2 루타,... 문서의주제가주어진경우하나의단어의출현빈도 : Latent Diriclet allocation 참조
디리클렛분포 양의값을가지고합이 1 이되는랜덤벡터 ( 심플렉스 : simplex) 에대한분포 베르누이분포 베타분포 vs 다항분포 디리클렛분포 Y j Gamma(α j, β) for j = 1,, p independently. X j = Y j p k=1 Y j (j = 1,, p) Then, X = (X 1,, X p ) Diriclet(α) (α = (α 1,, α p ) )
예시 어떤문서는 p 개주제로이루어진다고하자. 예를들면, 특정문서에서우리가생각할수있는주제는정치, 경제, 사회, 문화, 연예라고하자. A 문서는정치 80%, 경제 20% 의주제로이루어져있다. B 문서는경제 50%, 사회 30%, 문화 20% 로이루어져있다. 다섯개의주제의비율을랜덤하게생성하여, 특정문서의주제집합을생성하고자한다. 어떠한확률분포모형을사용할까?
모수의추론
기대값과적률 어떤확률변수 X 의확률밀도함수를 f (x) 라고하자. 기대값 : EX = xf (x)dx k차적률 : EX k = xk f (x)dx 일반적으로 Eg(X ) = g(x)f (x)dx 로정의한다.
대수의법칙 같은분포를따르는독립인확률변수의평균은참평균으로수렴한다. 즉, X i F : iid 이고 E X < 이면 1 n n X i EX i=1 한편만약우리가 E( g(x ) ) < 라는것을안다면 1 n 라는것을알수있다. n g(x i ) Eg(X ) i=1
적률근사를이용한모수의추론 정규분포 X N(µ, σ 2 ) EX = µ VarX = EX 2 (EX ) 2 = σ 2 만약 N(µ, σ 2 ) 를따르는랜덤샘플 n개를관찰했다면, EX 와 EX 2 를각각 1 n n i=1 X i, 1 n n i=1 X i 2 으로근사할것이다. µ 와 σ 2 을추정하는데, 적률의근사값을이용할수있을것이다. 감마분포에대한모수추론을해보자.
부록
지수, 로그, 자연대수 자연대수의정의 ( e = lim 1 + 1 ) n 2.718282 n n 한편, e a 를 exp(a) 로표기한다. ( e a = lim 1 + a ) n n n 연습 : x = 0.1, β 0 = 1, β 1 = 2 일때, exp(β 0 + β 1 x) 의값을구하시오
지수, 자연로그, 자연대수 자연로그의정의 log(b) = b log(b) = 2 가되는 b 는무엇인가? 1 1 t dt, b > 0 log b = a 가되는 b 를 exp(a) 라고정의한다. 한편 log b = a 가되는 b 는유일하므로 exp(a) = b 가되도록해주는 a 는 log b 다. 즉, log(exp(b)) = exp(log(b)) = b log(exp(β 0 + β 1 x)) 는얼마인가?
행렬 행렬의표현 (n 행, p 열 ) X = x 11 x 12 x 1p x 21 x 22 x 2p x p1 x p2 x pp 여기서 x ij 는행렬 X 의 i 행, j 열원소를나타낸다. 여기서 (x i1, x i2,, x ip ) 를 X 의 i 번째행벡터라고한다. 한편 x j1. x jn 을행렬 X 의 j 번째열벡터라고한다.
행렬의전치 (transpose): 앞서주어진행렬 X 에대하여 X의전치행렬 X 는다음과같이주어진다. x 11 x 21 x n1 X = x 12 x 22 x n2 x 1p x 2p x pp X 가 n 행 p 열행렬이면, X 은 p 행 n 열행렬이다. X 행렬의 i 행, j 열원소는 X 행렬의 j 행 i 열원소와같다.
연습 행렬 X 가다음과같이주어져있다. 1 3 0 0 X = 1 2 5 1 4 2 3 0 이때, X 를구하여라. X 의 2 열과 X 의 2 행이같음을확인하여라. X 의 i 열과 X 의 i 행이같음을확인하여라. 위문제에이어서 (X ) 의전치행렬즉, (X ) 를구하여라.
행렬의종류 정방행렬 (rectangular matrix): 행과열의수가같은행렬 대각행렬 (diagonal matrix): 정방행렬중대각원소를제외한나머지원소가모두 0 인행렬 ; diag(x 1,, x p ) 단위행렬 (identity matrix): 대각행렬중모든대각원소가 1 인행렬 ; I 로표기
행렬의연산 : R프로그래밍행렬참고행렬의덧셈행렬의곱셈행렬의스칼라곱
역행렬 정방행렬 A 에대해서 AB = BA = I 를만족하는 B 가존재하는경우행렬 B 를 A 의역행렬이라고부르고 A 1 로표기한다. A 1 이존재한다면그것은유일하다.
R 연습 a를 p행 1열인열벡터, X를 n행 p열벡터라고하자. a a의계산 X X 의계산 (X X) 1 의계산 a (X X) 1 a 의계산
다변량정규분포의 pdf 계산 X N(µ, Σ) Mean vector is given by µ = (0, 1, 1) Covariance matrix is given by 1 0.5 0 Σ = 0.5 1 0.3 0 0.3 1 다변량정규분포의 pdf: f (x) g(x) = exp ( 1 ) 2 (x µ) Σ 1 (x µ) x = (1, 0, 1/2) 일때, g(x) 의값을 R 을이용하여계산하여라.
행렬식 (determinant) 어떤 {1,, p} 위에서정의된순열 (permutation) σ 하나를생각하자. 예 ) (1, 2, 3) σ (3, 2, 1) 위예에서 σ(1) = 3, σ(2) = 2, σ(3) = 1 이다. 다음과같은행렬 X를생각해보자. x 11 x 12 x 13 X = x 21 x 22 x 23 = x 31 x 32 x 33 2 0 0.5 1 1 1 1 2 4 여기서 x 1σ(1) x 2σ(2) x 3σ(3) 을계산해보자. 가능한 σ 의종류는총몇가지인가?
행렬식 (determinant): 순열 σ 의부호 호환 (transposition) 은두개의위치만바꾸는순열이다. (1, 2, 3) σ (3, 2, 1) 은호환인가? (1, 2, 3) σ (2, 3, 1) 은호환인가? 모든순열은호환을여러번연산함으로써모두표현가능하다. 어떤순열을표현하기위해짝수번의호환이필요한경우그순열이양의부호를가진다고하고, 홀수번의호환이필요한경우음의부호를가진다고한다. sign(σ) 라고표현한다.
행렬식 (determinant) 의정의정방행렬 X 에대해서행렬식은 X = σ sign(σ) p i=1 x iσ(i) 와같이정의한다. 2 2 행렬의행렬식을정의대로계산해보자.
양의정부호행렬 (positive definite matrix) 0 이아닌모든열벡터 a 에대해서정방행렬 X 가 a Xa > 0 를만족하면 X 를양의정부호행렬이라고부른다. 공분산행렬 Σ 가양의정부호행렬이면항상역행렬 Σ 1 가존재한다. 만약 a Xa 0 면, 양의준정부호행렬 (non-negative definite matrix) 라고한다.