이상치 (outlier) 진단및해결 Homework 데이터 ( Option.XLS) 결과해석 치우침? 평균이중앙값에비해다소크다. 그러나이상치때문이지치우친것같지않음. Toys us 스톡옵션비율이이상치 해결방법 : Log 변환? 아니다치우쳐있지않기때문에제거 제거후 : 평균 :.74, 중위수 :.7 31
치우침과이상치 데이터 : 노트북평가점수 우로치우침과이상치가존재 해결방법 이상치먼저제거그후우로치우침해결 ( 신뢰구간좁다 ) log 변환, 변환 좌로치우침 : X, X 3 변환 우로치우침해결후이상치제거 ( 모든관측치사용 ) 3
치우침과이상치진단효과 LOG 변환먼저 변환후에도치우침존재. 이상치먼저제거 여전히치우침존재 LOG 변환하자. 평균추정치 : 79.6 95% 구간 : (77.4, 81.8) 평균추정 : 78.9 95% 신뢰구간 : (77.1, 80.6) 33
평균과중앙값 중앙개념 평균보다중앙값 (median) 이더좋다 이상치, 치우침에영향을받지않는다. 치우침이나이상치가있는경우평균 절사평균k-배절삭평균 (k-times trimmed mean) 은큰값k개, 적은값 k 개를제외하고평균을구한다. 왜평균인가? 중심극한정리에의해확률밀도함수를구할수있다. 확률 ( 유의확률 ) 을계산할수있으므로통계적가설검정가능 중심극한정리 (Central Limit Theorem) 모집단의분포와관계없이표본의크기 (n) 가크면 (n>0) 표본평균의분포는정규분포에근사한다. Winsorized Mean: k-배윈저화평균 (k-times winsorized mea n) 은큰값k개, 적은값 k개를바로옆의값으로대체하여평균을구한다. 모집단 ~f(x) σ X ~ N( μ, ) as n n 표본데이터 (x 1, x,, x n ) 표본평균 X In SPSS 5%( 총 10%) 절삭평균출력한다. 분석 (A) 기술통계량 (E) 데이터분석 (E) 표본분포 ~f(x) 이상치, 치우침제거효과가있음. 34
평균과표준편차 평균은표준편차와함께사용 ( X, s) 단위가같고, 실증적법칙에의해 CV ( 변동계수 ) 측정단위나관측대상이서로다른두집단의분산을비교하는경우편차의단위를같게할필요가있다. 이를위하여표준편차를평균으로나눈값에 100 을곱한값을변동계수 (CV: Coefficient of Variation) 라하고상대변동 ( 분산 ) 개념으로정의하고있다. s CV = 100(%) x Empirical rule 데이터의분포가좌우대칭 ( 종모양 ) 이면다음이성립한다. 범위 ( 평균 ±s) 에데이터 68% 범위 ( 평균 ±s) 에데이터 95% 범위 ( 평균 ±3s) 에데이터대부분 (99%) 고등학교 3 학년인 A 학생과 B 학생의공부습관을조사하여한달간조사하여 A학생은평균 3시간, 표준편차는 0.5, B 학생은 6시간표준편차0.8인결과를얻었다. 어느학생이더꾸준히공부하는습관을가지고있을까? 이에대한답을위해변동계수를계산하면된다. 다음의계산결과 B 학생이더꾸준히공부하는습관을가지고있다고결론지을수있다. Chevyshev s Theorem 데이터의분포가 ( 평균 ±k*s) 범위안에는적어도터가있다. 1 1/ k 데이 35
확률밀도함수와이산형확률분포함수 확률변수 확률실험이나조사, 관측에서측정될수있는값에실수를대응시킨함수로 X로표현, X=X(s), 즉실험결과의숫자표현 ( 이산형 : 예 )X= 주사위눈금, 교통사고건수 ( 연속형 : 예 )X= 키, IQ, 측정오차 확률밀도함수 확률변수 X(x- 축 ) 와그에대응하는확률 (p(x), f(x): y- 축 ) 을그래프, 표, 혹은수식 ( 예 ) 여자 3명, 남자 3명이지원했다. 무작위로 명을선발할때선발될남자의수를확률변수라정의하자. 확률변수의확률밀도함수를구하시오. 이산형확률밀도함수 ( 확률계산가능 ) 확률분포표 베르누이분포 (Bernoulli distribution) B(p) 베르누이시행 실험결과가두개 ( 성공 / 실패 ), 성공확률 p, 서로독립 이항분포 (Binomial) B(n, p) n 번의베르누이시행에서성공의회수 기하분포 (Geometric) G(p) 성공을한번하는데시행하는베르누이시행회수 음이항분포 (Negative Binomial) NB(r, p) 성공을 r번하는데시행하는베르누이시행회수 포아송분포 (Poisson) P(λ) 단위시간, 면적에서임의의사건성공회수에관심을갖는경우를생각하자. 한남대앞정류장에도착하는버스수 ( 시간당 ), 한페이지당오타숫자, 은행창구를찾는고객수 (10분당) 36
연속형확률분포함수 연속형확률분포함수? 확률분포표 데이터히스토그램의정상을연결하면확률분포함수가된다. 이를이용하여데이터 ( 표본 ) 의분포 ( 이는모집단의분포와동일 ) 를구하게된다. 그러나함수를구하는것은불가능해보인다. 그래서현실에서는확률분포를가정하게된다. ( 예 ) 기다리는시간 : 지수분포, 측정오차 : 정규분포 Gauss( 천문학자 ): 행성들간거리측정오차의히스토그램에서정규분포 (normal distribution) 유도 연속형확률변수와이산형확률변수연결확률변수관계 이항분포의정규분포근사 n이커짐에따라 B(n, p)->normal (np, npq) 일반적근거 : min(np, npq) 가적어도 5 이상 Continuity Correction: ( 예1)P(X>=3: 이항분포 )P(X )=P(X>.5: 정규분포 ) ( 예)P(X<=: 이항분포 )=P(X<.5: 정규분포 ) ( 예3)P(<X<=5: 이항분포 )=P(.5<X<5.5: 정규분포 ) 포아송분포와지수분포 X ~ N( μ, σ ) Z = X ~ iidn( μ, σ ) Z ~ iidn(0,1) N (0,1) χ ( m) / m χ ( m1 ) / m χ ( m ) / m 1 k ~ t( m) ~ F( m, m X μ ~ N(0,1) σ X ~ N( μ, σ ) Z ~ χ ( k) 1 ) Exponential(1/ λ) Poisson(λ) 단위시간당사람이오는회수 : Poisson 분포 다음사람이오는데걸리는시간 : Exponential 분포 m 사람이오는데걸리는시간 : Gamma 분포 37
지수분포생성 지수분포 (exponential distribution) ~Exp(β) 균일 (Uniform distribution) 분포 : U ~ Uniform(0,1) 지수분포 ( 평균이 λ인 ) 의누적확률분포함수 : F( X ) =1 e F는균일분포를따른다는성질을이용하여 x 균일분포생성 in Excel λ 1 e = U X = λ ln(1 U ) x λ 감마 (Gamma) 분포 ~Gamma(α, β) 지수분포를따르는서로독립인확률변수의 r개합 카이스퀘어 (χ ) 분포 (Chi-square) ~ χ (r) α=r/, β 인감마분포 베타 (Beta) 분포 ~ Beta(α, β) X~ 감마분포 (α, m), Y~ 감마분포 (β,m) (X+Y)/X ~ Beta(α, β) 38