통계학 - CAS0001 7 주차 이산확률분포 이석준
Contents 확률분포 (probability distribution) 이항분포 (binomial distribution) 초기하분포 (hypergeometric distribution) 포아송분포 (poisson distribution) 2
학습목표 확률변수가연속적인지이산적인지구분한다. 이항분포, 초기하분포, 포아송분포를이해하고그차이를구분한다. 베르누이과정이의미하는바를이해하고, 그것의반복시행이이항분포를구성하는것을이해한다. 이산변수가어떤값 ( 또는어떤범위의값 ) 을가지는확률을구할줄안다. 3
확률분포 (probability distribution) 확률분포 - 모집단으로부터이론적으로얻어지는상대도수분포 발생가능한모든사건과그것의발생가능성을나타내는하나의모형 Ø 실험의결과에따라어떤값을대응시키는것 Ø 표본공간속의각원소에실수값 (real value) 을대응한것 실험 4
확률분포 (probability distribution) 이산확률변수 - 확률변수가어떤정해진값만가질수있고그값들사이에는간격이생김 예 ) 다섯명의아이들중에서크리스마스선물로한개이상의장난감을받은아이의수는 0, 1, 2, 3, 4, 5 중의하나 연속확률변수 - 확률변수가주어진구간에서어떠한실수값이라도가질수있는경우 예 ) 현재건물바깥의온도를확률변수로간주하는경우그확률변수는 23.568, 18.352, 13.815 와같이다양한값을가짐 5
확률분포 (probability distribution) 이산확률변수의예 - 균형이잘잡힌동전을두번던지는실험에서관찰되는앞면의개수를확률변수로가능한결과는네가지 - 각각의결과는모두동일한발생가능성을가지고발생 관찰결과 HH HT TH TT 확률변수 x 앞면 (H) 의수 2 1 1 0 확률 0.25 0.25 0.25 0.25 1.00 6
확률분포 (probability distribution) 동전을두번연거푸던질때나오는앞면의수를확률변수 x 로나타낼때, x 의확률분포 : 동전을두번던지는경우 : 확률변수 x 앞면의수 에대한이산확률분포 확률변수 x 0 1 2 확률 P(x) 0.25 0.50 0.25 1.00 P(x1) P(HT or TH) P(HT) + P(TH) 0.25 + 0.25 0.50 7
확률분포 (probability distribution) 이산적확률분포의특징 - 임의의 x값에대해서 0 P(x) 1.0 - x의값들은포괄적 (exhaustive) 즉, 확률분포는가능한모든 x 에대해서확률값을정해줌 - x 의값들은상호배반적 (exclusive) 즉, 한번의실험시행에서 x 는하나의값만가짐 - 각각의확률의합은 1.0 è SP(x i ) 1.0 8
확률분포 (probability distribution) 이산확률분포 - 상대도수확률분포와누적확률분포 예제 : 세미나를 20 회개최한후, 참석자 6 명중에서실제투자고객이된사람수 x 에대한확률분포와누적확률분포 x 개별확률 P(x) 누적확률 P(X x) 0 1 2 3 4 5 6 0.05 0.10 0.20 0.25 0.15 0.15 0.10 1.00 0.05 0.15 0.35 0.60 0.75 0.90 1.00 9
확률분포 (probability distribution) 이산적확률분포의평균과분산 - 평균 : 기대값 (expected value), E[x] m Sx i P(x i ), 단, x i 는확률변수의모든가능한값 - 분산 : E[(x i - m) 2 ] s 2 S (x i -m) 2 P(x i ) 또는, s 2 S x i2 P(x i ) - m 2 평균은실수축 (X) 에서중심위치를나타내고 분산은그중심에서값들이흩어진정도를나타냄 10
확률분포 (probability distribution) 이산적확률분포의평균과분산 - 예제 : 세미나참석자 6 명중투자고객이되는사람수를확률변수 x 로정할때 평균 : m 0(0.05) + 1(0.10) + 2(0.20) + 3(0.25) + 4(0.15) + 5(0.15) + 6(0.10) 3.2 명 분산 : s 2 (0.0-3.2) 2 (0.05) + (1-3.2) 2 (0.10) + (2-3.2) 2 (0.20) + (3-3.2) 2 (0.25) + (4-3.2) 2 (0.15) + (5-3.2) 2 (0.15) + (6-3.2) 2 (0.10) 2.66 11
확률분포 (probability distribution) 이산적확률분포의평균과분산 - 예제 동전을두번연속해서던지는경우, 확률변수 x 를앞면이나올횟수로정할때 평균 : m Sx i P(x i ) 0(0.25)+1(0.50)+2(0.25) 1.0 번 분산 : s2 E[(x i - m) 2 ] S (x i -m) 2 P(x i ) (0.0-1.0) 2 x 0.25 + (1.0-1.0) 2 x 0.50 + (2.0-1.0) 2 x 0.25 0.50 12
이항분포, 포아송분포, 초기하분포 어떤실험을하거나또는표본을뽑을때 - 그실험의결과또는표본을뽑는결과가상호배타적인두가지사건으로만나타나는경우 - 예를들어동전을한번던지는실험 실험결과는앞면아니면뒷면의두가지 이러한시행을베르누이시행 (Bernoulli trial) 이라고하며, 이항분포의기초 13
이항분포, 포아송분포, 초기하분포 한번의베르누이시행에서성공확률또는실패확률을알고싶어하기보다는여러번의베르누이시행을할때 - 특정횟수의성공이나타날확률을알고싶어할경우 - 예를들면동전을열번던지는경우 두번의성공이나올확률등이관심의대상 성공횟수또는실패횟수를이항확률변수 이항확률변수의분포는특정한확률분포를갖게되는데, 이러한분포를이항확률분포라고하며간단히이항분포라고도함 14
이항분포, 포아송분포, 초기하분포 두가지의시행만을나타내는분포중포아송분포 - 포아송분포를따르는확률변수를포아송변수 - 이변수는 0부터무한대까지의정수만포함 - 포아송분포는 N이아주크고 p는아주적은이항분포의독특한경우 일정지역에서일정기간에일어나는교통사고건수또는자살건수 일정기간에교환대에걸려오는전화횟수 교과서페이지당오타수 15
이항분포, 포아송분포, 초기하분포 이항분포가성립하기위한중요한가정중하나 - 매시행마다어떤사건이일어날가능성, 즉성공의확률은언제나일정 복원추출인경우, 이전의시행결과는다음의시행결과에영향을미치지않으므로두시행은서로독립 비복원추출인경우, 앞서의시행결과에따라다음의시행결과가달라지므로두시행은서로종속적 - 이와같이매시행마다발생할결과가성공과실패의두가지가있지만, 표본이비복원으로추출되기때문에매시행마다성공확률이일정하다는조건이만족되지않는경우에적용될수있는확률모형이초기하분포 16
이항분포 (binomial distribution) l 베르누이시행 - 두가지결과중에하나가나타나는시행 (trial) 을베르누이시행이라고함 1. 각각의시행에서는두가지의결과만나타남 à 보통 성공 과 실패 로표현 2. 각시행은통계적으로독립 à 그전에있었던시행의결과로부터영향을받지않고, 이후시행의결과에도영향을주지않음 3. 각시행에서 성공 의확률은처음부터끝까지변하지않음 - 이항분포는베르누이과정의시행을반복할경우임 17
이항분포 (binomial distribution) ln 번시행에서 x 회성공할확률은다음과같은확률분포함수로계산 - 분포함수가확률분포를대신하여간략히나타냄 è P(x) (n 번시행에서 x 번성공이들어있는조합의개수 ) X (n 번중 x 번의성공이들어있는각조합의확률의합 ) P(x) n! x! (n x)! p x (1 p)n x n 시행횟수 x 성공횟수, x 는 0, 1, 2,, n p 어떤한번의시행에서 성공 할확률 1-p 어떤한번의시행에서 실패 할확률 - 평균 : µ E(x) np - 분산 : s 2 E[(x µ) 2 ] np(1 p) 18
이항분포 (binomial distribution) l 이항분포계산하기 - VCR 을가지고있는사람가운데 60% 가프로그램할줄아는것으로밝혀졌다고하자. 베르누이과정을가정하고, VCR 을가지고있는임의의세사람을뽑았을때, 그중두명이프로그램을할줄알고있을확률은? ( 즉, p 0.6 일때 3 번중에서 2 번성공할확률은?) 결합확률을이용할경우 두번의성공과한번의실패의경우 l SSF, SFS, FSS l 0.144 + 0.144 + 0.144 0.432 이문제를이항분포를이용하여계산한다면? 결과순서 SSS SSF SFS SFF FSS FSF FFS FFF 결합확률 0.6 0.6 0.60.216 0.6 0.6 0.40.144 0.6 0.4 0.60.144 0.6 0.4 0.40.096 0.4 0.6 0.60.144 0.4 0.6 0.40.096 0.4 0.4 0.60.096 0.4 0.4 0.40.064 1.000 19
이항분포 (binomial distribution) l 이항분포식을이용할경우 - P(x) (n번시행에서 x번성공이들어있는조합의개수 ) X (n번중 x번의성공이들어있는각조합의확률의합 ) n! p x (1 - p n - x!( n - x)! ) x 3! P( 2) 0.6 2 (0.4) 1 3 (0.144) 2!(3-2)! 0.432 20
이항분포 (binomial distribution) l 퀴즈 - 우리나라의 2000 년인구센서스 에의하면 30 ~ 40 세인구중 20% 는미혼이다. 만일 30 ~ 40 세성인중에서 5 명을무작위로뽑는다면그중미혼인사람수의기대값은? 그중 2 명만이미혼일확률은? E(x)nⅹp 5(0.20) 1.0 명 n! px (1-p)n -x x!( n -x)! 5! P( 2) 0.2 2 (0.8) 3 2!(5-2)! 0.205 21
이항분포 (binomial distribution) 예제 - 5명의그룹에서미혼인사람이최소 3명이상포함될확률은? P(X 3) à P(X 3) 1- P(X 2) 22
초기하분포 (hypergeometric distribution) l 초기하분포란? - 주어진횟수만큼반복된시행에서성공한횟수에초점을맞춤 - 이항분포와차이점 연속되는시행이독립이아님 à 현재의결과는과거의결과에영향을받고또미래의결과에영향을미침 각시행에서성공확률은같지않음 à 초기하분포는베르누이과정을따르지않음 23
초기하분포 (hypergeometric distribution) 초기하분포 - 서로독립이아닌 n 번의연속된시행에서정확히 x 번의성공발생확률 P( x ) æs ö æn - s ö ç ç èx ø èn - x ø æn ö ç è n ø N 모집단의크기 n 표본의크기 s 모집단에서성공의수 x 표본에서성공의수 m E ( x) s 2 E ns N [( ) ] 2 x - m ns( N N - s) 2 N N - - n 1 24
초기하분포 (hypergeometric distribution) 퀴즈 - 어떤렌터카회사에 12 대의소형차가있는데, 고속도로교통안전기구에서안전문제로 12 개차중 3 개차를리콜할예정이다. 렌터카회사는이사실을모른다. 오늘은 5 대의소형차들이렌탈되어나갈것이다. 이때 5 대는무작위로선택된다. - 리콜될자동차중에서한대만오늘렌탈될확률은? P( x 1) æ3öæ9ö ç ç è1øè2ø æ12ö ç è 3 ø 3 36 220 0.4909 - 리콜될자동차 3 대가전부오늘렌탈될확률은? P( x 3) æ3öæ9ö ç ç è3øè0ø æ12ö ç è 3 ø 11 220 0.0045 25
포아송분포 (poisson distribution) 포아송분포 - 주어진시간, 거리, 또는공간범위에서발생확률이아주낮은사건들의발생에관한이산확률분포 v 예 Ø 톨게이트에도착하는자동차수, 맥도날드가게에도착하는고객수, 회사의안내전화에걸려오는전화수 Ø 일정한길이의전선이나파이프에있는결점수, 나무판넬의단위면적당옹이개수 Ø 주어진기간동안출생수, 사망수, 결혼, 이혼, 자살, 살인건수등 Ø 주어진생산작업시간동안산업재해관련사망, 사건건수, 재해건수 주어진시간, 거리및공간범위에서어떤사건이 x 번발생할확률은 P( x ) x - l e x! l λ 평균, E(x), 주어진범위에서기대되는발생건수 e 2.71828 참고 : 포아송분포에서는평균과분산이같음 26
포아송분포 (poisson distribution) 예제 - 한지역의보건소에서는올해의출생수가작년과동일할것으로예상하는데, 작년한해에 438 명의어린아이가태어났으며하루평균 438/365 1.2 명이다. 하루에출생수는포아송분포를따른다 ( 분포의평균은 λ 1.2) - 어떤하루를볼때, 어린아이가태어나지않을확률은? P( x ) x - l e x! l 0-1.2 (1.2) (2.71828) (1)(0.30119) P( x 0) 0! 1 0.3012 27
포아송분포 (poisson distribution) 기타확률 0-1.2 (1.2) (2.71828) (1)(0.30119) P( x 0) 0.3012 0! 1 1-1.2 (1.2) (2.71828) (1.2000)(0.30119) P( x 1) 0.3614 1! 1 2-1.2 (1.2) (2.71828) (1.4400)(0.30119) P( x 2) 0.2169 2! 2 1 3-1.2 (1.2) (2.71828) (1.7280)(0.30119) P( x 3) 0.0867 3! 3 2 1 4-1.2 (1.2) (2.71828) (2.0736)(0.30119) P( x 4) 0.0260 4! 4 3 2 1 28