제 강.1 통계적기초 확률변수 (Radom Variable). 확률변수 (r.v.): 관측되기전까지는그값이알려지지않은변수. 확률변수의값은확률적실험으로부터결과된다. 확률적실험은실제수행할수있는실험뿐아니라가상적실험도포함함 (ex. 주사위던지기, [0,1] 실선에점던지기 ) 확률변수는그변수의모든가능한값들의집합에대해정의된알려지거나알려지지않은어떤확률분포의존재가연계됨 반면에, 임의의변수는그값들에연계되어있는확률분포를가지지않는다. 1
이산확률변수 (Discrete Radom Variable).3 이산확률변수 : 이산확률변수는정수를이용해서셀수있는값들을갖는확률변수임 예 : 다음의복권으로부터얻을수있는상금은이산확률변수임 : 일등 : 1 억원이등 : 1 천만원삼등 : 1 백만원이확률변수는오직네가지가능한결과 ( 값 ) 들을갖는다.( 즉 1,, 3, 4, 로셀수있음 ) : 0 원 ; 1 백만원 ; 1 천만원 ; 1 억원 연속확률변수 (Cotiuous Radom Variable).4 연속확률변수 : 연속확률변수는실선 (real lie) 상의구간 ( 들 ) 의실수값들을갖는확률변수임 예 : GNP 통화공급량이자율쌀가격가계소득의류에대한지출
더미변수 (Dummy Variable).5 두개의가능한값 ( 대개 0 과 1) 만을갖는이산확률변수를더미변수 ( 또는, 이원변수, 모의변수 ) 더미변수들은질적 (qualitative) 차이를나타내기도함성별 (0= 남성, 1= 여성 ), 고용 (0= 실업, 1= 취업 ), 거주지 (0= 비서울., 1= 서울 ), 소득수준 (0= 저소득, 1= 고소득 ). 확률 ( 밀도 ) 함수 (Probability (Desity) Fuctio) 이산확률변수.6 이산확률변수가취하는모든가능한값들에대해해당값의발생확률을대응시켜주는함수를확률 ( 밀도 ) 함수 (probability fuctio) 라고함 주사위 x f(x) oe dot 1 1/6 two dots 1/6 three dots 3 1/6 four dots 4 1/6 five dots 5 1/6 six dots 6 1/6 3
확률 ( 밀도 ) 함수 (Probability (Desity) Fuctio) 이산확률변수.7 이산확률변수 X 의확률함수 f(x) 는확률변수 X 가 x 라는값을가질확률을다음과같이줌 f(x) = P(X=x) 따라서, 0 < f(x) < 1 X 가 개의값들 : x 1, x,..., x 을가질경우 f(x 1 ) + f(x )+...+f(x ) = 1. 확률 ( 밀도 ) 함수 (Probability (Desity) Fuctio) 이산확률변수.8 이산확률변수 X 가 x 라는값을취할확률 f(x) 는다음과같이높이로나타낼수있음 0.4 f(x) 0. 0.1 0.3 0 1 3 X 4
확률밀도함수 (Probability Desity Fuctio) 연속확률변수.9 연속확률변수는확률을나타내기위해높이가아니라 f(x) 가나타내는곡선아래의면적 (area) 을를이용한다, f(x) 녹색지역의면적 0.8676 붉은지역의면적 0.134.. $10,000 $5,000 X 우리나라의일인당소득 X 확률밀도함수 (Probability Desity Fuctio) 연속확률변수 연속확률변수는셀수없이무한한 (ucoutably ifiite) 수의값들을가지며, 따라서특정값을취할확률은 0 이다. P [ X = a ] = P [ a < X < a ] = 0.10 확률은면적으로표현되나, 높이만으로는면적을갖지않음 f(x) 의곡선아래에면적을갖기위해서는 X 가취하는값의구간이필요함 5
확률밀도함수 (Probability Desity Fuctio) 연속확률변수 곡선아래의면적은그곡선을만들어낸함수에대한적분값임 : b P [ a < X < b ] = f(x) dx a.11 연속확률변수의경우 f(x) 그자체가아니라 f(x) 의적분이면적을정의하며따라서확률을정의함 f(x) 를연속확률변수 X 의확률밀도함수 (pdf) 라고부름 누적분포함수 (Cumulative Distributio Fuctio) 누적분포함수 확률변수 X의누적분포함수 (cdf) 는다음과같이정의된다. F(x) P [X x ] 이산적 r.v : F( x) P( X x) f( xi ) xi x 연속적 r.v : ( ) ( ) ( ) x F x P X x f x dx cf) 모든확률변수에대해 cdf 는존재하지만, pdf 가존재하지않는확률변수도있음..1 6
누적분포함수 (Cumulative Distributio Fuctio) 누적분포함수.13 이산적 r.v : 계단함수 (step fuctio) 연속적 r.v : 연속함수 이산 _ 연속적 r.v : 누적분포함수는 o-decreasig fuctio 이며, 우측연속 (right cotiuous) 이다. 합산법칙 (Rule of Summatio).14 Rule 1: x i = x 1 + x +... + x Rule : ax i = a x i Rule 3: x i +y i = x i + y i 는선형작용자 (liear operator) 임을의미함 7
합산법칙 (Rule of Summatio).15 Rule 4: ax i +by i = a x i + b y i 1 x Rule 5: x x + x +... + x Rule 5 에서주어진 x 의정의는다음의중요한사실을의미함 x i x) = 0 합산법칙 (Rule of Summatio).16 Rule 6: f(x i ) = f(x 1 ) + f(x ) +... + f(x ) 표기법 : f(x i ) = f(x i ) = f(x i ) x i m Rule 7: f(x i,y j ) = [ f(x i,y 1 ) + f(x i,y )+...+ f(x i,y m )] j = 1 합산의순서는문제되지않음을의미 : f(x i,y j ) = f(x i,y j ) m m j = 1 j = 1 8
기대값 (Expected Value).17 이산확률변수 X 의기대값은 X 의모든가능한값을대응되는확률함수의값으로가중하여합한값임 E[X] = x 1 f(x 1 ) + x f(x ) +... + x f(x ) = x i f(x i ) 연속확률변수? : 합산기호 E[X] = xf(x) dx 적분기호 기대값 (Expected Value).18 경험적 (Empirically) vs. 분석적 (Aalytically) 경험적 ( 표본 ) 기대값또는평균 : x = x i /T 단, T는표본관측값들의수 T 분석적 ( 수학적 ) 평균 : E[X] = x i f(x i ) 단 은 X의가능한값들의수. 9
확률변수함수의기대 X 의기대값 : EX = x i f(x i ) i=1.19 X- 제곱의기대값 : EX = x i f(x i ) i=1 확률변수의함수가취하는값이달라질뿐거기에대응되는확률 f(x i ) 는변하지않음에주의! X- 세제곱의기대값 3 EX = x i f(x i ) i=1 3 확률변수함수의기대.0 EX = 0 (.1) + 1 (.3) + (.3) + 3 (.) + 4 (.1) = 1.9 EX = 0 (.1) + 1 (.3) + (.3) + 3 (.) + 4 (.1) 3 = 0 +.3 + 1. + 1.8 + 1.6 = 4.9 3 3 EX = 0 (.1) + 1 (.3) + (.3) + 3 (.) +4 (.1) = 0 +.3 +.4 + 5.4 + 6.4 = 14.5 3 3 3 10
확률변수함수의기대 E[g(X)] = g(x i ) f(x i ).1 g(x) = g 1 (X) + g (X) E[g(X)] = g 1 (x i ) + g (x i )] f(x i ) E[g(X)] = g 1 (x i ) f(x i ) + g (x i ) f(x i ) E[g(X)] = E[g 1 (X)] + E[g (X)] 분산 (Variace). var(x) = X 의기대값을중심으로 X 가취하는값의편차의제곱의기대값 var(x) = E [(X - EX) ] = E [X - XEX + (EX) ] = E(X ) - EX EX + E (EX) = E(X ) - (EX) + (EX) = E(X ) - (EX) 11
분산 (Variace).3 이산확률변수 X 의분산 : var (X) = (x i -EX) f(x i ) 표준편차 (stadard deviatio) 는분산의제곱근임 결합확률밀도함수 (Joit pdf).4 결합확률밀도함수 f(x,y) 는확률변수 X 와 Y 의모든가능한값들의쌍 (pair) 의발생에대응되는확률을제공함 1
결합확률밀도함수 (Joit pdf).5 결합 pdf f(x,y) 자가주택여부 X = 0 X = 1 보유자가용수 Y = 1 Y = f(0,1).45 f(0,).15.05.35 f(1,1) f(1,) 결합확률밀도함수 (Joit pdf).6 실제계산예 E(XY) = x i y j f(x i,y j ) i j E[g(X,Y)] = g(x i,y j ) f(x i,y j ) i j E(XY) = (0)(1)(.45)+(0)()(.15)+(1)(1)(.05)+(1)()(.35)=.75 13
한계확률밀도함수 (Margial pdf).7 이산확률변수 X 와 Y 에대한한계확률 ( 밀도 ) 함수 f(x) ad f(y) 는각각 f(x,y) 를 Y 의값들에대해합하거나 (f(x)) X 의값들에대해합하여구함 (f(y)) f(x i ) = f(x i,y j ) f(y j ) = f(x i,y j ) j i 한계확률밀도함수 (Margial pdf).8 Y = 1 Y = X 의한계 pdf : X = 0.45.15.60 f(x = 0) X = 1.05.35.40 f(x = 1) Y 의한계 pdf :.50.50 f(y = 1) f(y = ) 14
조건부확률밀도함수 (Coditioal pdf).9 Y=y 로주어졌을때 X 의조건부확률밀도함수 f(x y) 와 X=x 로주어졌을때 Y 의조건부확률밀도함수 f(y x) 는각각 f(x,y) 를 f(y) 로나누거나 (f(x y)), f(x) 로나누어 (f(y x)) 얻음. f(x,y) f(x y) = f(y) f(y x) = f(x,y) f(x) 조건부확률밀도함수 (Coditioal pdf).30 f(y=1 X = 0)=.75 X = 0 f(x=0 Y=1)=.90 f(x=1 Y=1)=.10 X = 1 f(y=1 X = 1)=.15 Y = 1 Y =.75.45.05.5.15.90.30.10.70.35.15.875.50.50 f(y= X= 0)=.5.60 f(x=0 Y=)=.30 f(x=1 Y=)=.70.40 f(y= X = 1)=.875 15
독립인확률변수 (Idepedet r.v.).31 X 와 Y 의결합 pdf f(x,y) 가그한계 pdf f(x) 와 f(y) 의곱으로표시될경우 X 와 Y 는독립인확률변수임 f(x i,y j ) = f(x i ) f(y j ) 독립성을위해서이등식이모든 i 와 j 의쌍에대해성립해야함 공분산 (Covariace).3 두확률변수 X 와 Y 의공분산은이들두확률변수들간의선형관계의정도를측정함 cov(x,y) = E[(X - EX)(Y-EY)] 분산은공분산의특별한경우임에주의. cov(x,x) = var(x) = E[(X - EX) ] 16
공분산 (Covariace).33 cov(x,y) = E [(X - EX)(Y-EY)] cov(x,y) = E [(X - EX)(Y-EY)] = E [XY - X EY - Y EX + EX EY] = E(XY) - EX EY - EY EX + EX EY = E(XY) - EX EY + EX EY = E(XY) - EX EY cov(x,y) = E(XY) - EX EY 상관 (Correlatio).34 두확률변수 X 와 Y 의상관은그들의공분산을각각의표준편차의곱으로나누어준것임 (X,Y) = cov(x,y) var(x) var(y) 상관 ( 계수 ) 는단위와무관한값으로 -1 과 1 사이의값 17
영의공분산및상관 (Zero covariace ad correlatio).35 독립인확률변수들은 0 의공분산을가지며따라서 0 의상관을가짐 그역 (coverse) 은사실이아님 확률변수가중합계의평균 E 역시선형작용자임.36 확률변수들의가중합의기대값은개별항의기대값들의가중합과같음 E[c 1 X + c Y] = c 1 EX + c EY 일반적으로확률변수 X 1,..., X 에대해 : E[c 1 X 1 +...+ c X ] = c 1 EX 1 +...+ c EX 18
확률변수가중합계의분산.37 확률변수들의가중합의분산은개별항의분산에가중치의제곱을곱한값들의합에다모든확률변수들의쌍의공분산에그가중치들의곱을곱하고 를곱한것의합임 두확률변수의가중합 : V(c 1 X + c Y)=c 1 V(X)+c V(Y) + c 1 c Cov(X,Y) 두확률변수의가중차 : V(c 1 X c Y) = c 1 V(X)+c V(Y) c 1 c Cov(X,Y) 일반화 : V cx ccc X X cv X ccc X X ( i i) i j ov( i, j) i ( ) i j ov( i, ) j i i j i i j 정규분포 (Normal Distributio).38 Y ~ N(, ) f(y) f(y) = 1 exp - (y - ) y 19
정규분포 (Normal Distributio) 표준정규분포.39 Z = (Y - )/ Z ~ N(, ) f(z) = 1 - z exp 정규분포 (Normal Distributio).40 f(y) Y ~ N(, ) a y Y - a - a - P [ Y>a ] = P > = P Z > 0
정규분포 (Normal Distributio) f(y) Y ~ N(, ).41 a b y a - Y - P [ a < Y <b ] = P < < b - a - = P < Z < b - 정규분포 (Normal Distributio).4 정규분포를하는확률변수들의선형결합은정규분포를함 Y 1 ~ N( 1, 1 ), Y ~ N(, ),..., Y ~ N(, ) W = c 1 Y 1 + c Y +... + c Y W ~ N[ E(W), var(w) ] 1
카이제곱분포 (Chi-square Distributio).43 Z 1, Z,..., Z m 이 m개의독립인 N(0,1) 확률변수들이고, V Z 1 + Z +... + Z m 이면 V ~ (m) 즉 V 는 m의자유도를갖는카이제곱분포임 평균 : 분산 : E[V] = E[ (m) ] = m var[v] = var[ (m) ] = m t 분포 (Studet-t Distributio).44 Z ~ N(0,1), V ~ (m) 이고 Z와 V가독립이면, Z t ~ t (m) V m 즉 t 는 m 의자유도를갖는 t 분포임 평균 : E[t] = E[t (m) ] = 0,(m>1) 0 에대해대칭임 분산 : var[t] = var[t (m) ] = m / (m ), (m>)
F 분포 (F Distributio).45 V 1 ~ (m1 ), V ~ (m ) 이고 V 1 과 V 가독립이라면, F V 1 m1 V m ~ F (m1,m ) 즉 F 는 m 1 의분자자유도와 m 의분모자유도를갖는 F 분포임 1 F F F, t F F m, m, m 1, m 3