일변량분석개념 일변량분석은개체의특성을 측정한변수가하나인 통계분석 방법 변수의 종류 ( 수리 통계 ) 이산형 (discrete): 측정결과를셀수있는경우이다. 성별, 직업, 교통량, 나이등이여기해당된다. 연속형 (continuous): 측정결과가무한이 (infinite) 많은변수를연속형형변수라한다. 즉변수의범위 (range) 중어떤구간을설정하더라도측정치가발생할할수있는경우로키, 몸무게, IQ, 소득등이여기에해당된다. ( 자료분석 ) 측정형변수 (metric, measurable, quantitative): 실험개체의측정가능한특성을측정한변수, 측정단위가존재 ; 키, 몸무게, 평점, IQ, 교통량, 사망자수가그예이다. 연속형변수는모두측정형변수이고이산형변수중측정형변수가있을수있다. ( 예 ) 교통사고건수, 나이 ( 년 ) ( 1) 구간 interval : 값의크기가등간 ( 온도, 증가율 ) (2) 비율 ratio : 정대 0 이존재하며두값의비교가배수(times) 가능능 : 대부분측정형 평균 & 표준편차, 중앙값 &IQR 분류형 ( 범주형 ) 변수 (non-metric, classified, categorical, qualitative): 개체를분류하기위해측정된변수를의미하며성별, 결혼여부등이그예이다. (1) 명목형 (nominal) : 개체를분류만한다. 성별, 결혼여부, 학력 (2) 순서형 (ordinal) : 순서를가진다. 성적 (A, B,..) 소득수준 ( 상, 중, 하 ), 리커트척도 (5 점, 매우만족, 만족,, 매우불만족 ) 빈도분석, 비율 분석방법비율추론평균추론분산추론모수적방법 vs. 비모수적방법 1
in EDA 데이터를그래프로표현하여개체를구성한모집단의정보를얻는다. 범주형데이터는바차트로표현되어비율 ( 상대빈도 ) 로요약됨 측정형데이터는데이터의중앙위치, 흩어진정도, 봉우리형태등을 표현 그래프 요약필요성 개별변수에대한일변량분석은변수가가진정보를그래프로요약하거나나주요한숫자값으로 ( 통계량 ) 요약하게된다. 앞에서언급하였듯이그래프요약은변수에대한가정이 ( 확률표본, independently and identically y distributed) 성립하는지진단하게된다. 그래프진단은데이터의좌우대칭 ( 종모양 symmetric, bell shaped), 이상치치진단을하게된다. 그이유는평균이주된도구이기때문이다. 평균은치우침과이상치에취약하다. 확률분포함수 probability densityy functionn 일변량데이터가가진정보은확률밀도함수에의해표현된다. 확률변수표본공간 S 의모든원소 ( 결과 w ) 에실수 x 을대응시킨규칙을확률변수 X ( w) x 확률분포함수확률변수 X 의확률밀도함수 (probability density function, f pdf) 는확률변수 X 가가지는값 x 와그에대응하는확률 px ( ) 을그래프, 수식, 표형태로나타낸것이다. 만약좋은표본이 ( 모집단의축소판 ) 추출되었다면표본의분포는모집단의분포와같다. 그러므로만약모집단의분포 ( 실선 ) 함수를안다면다음을구할수있다. 모집단개체중 2
일부구간 ( 빨간점선구간 ) 에속한개체비율 ( 확률 )? 그러나불행히도표본자료의 분포로부터함수 식 (x) f ( 확률분포함수 : 실선그래프 ) 을아는것은불가능하다. 그러므로일반적으로통계학에서는모집단의분포에대한가정을하거나 ( 예 : 모평균검정을위한 t-검정에서소표본일경우모집단정규분포가정 ) 대표적인분포함수 ( 이항분포, 포아송분포, 지수분포, 감마분포, t-분포, F-분포, 정규분포 ) 를규정하고있다. 데이터 분석 : 확률분포를역할 데이터분석에서는모집단의확률분포함수형태를알고자하는것은아니다다. 모집단의특성을나타내는모수 parameter ( 예 : 평균, 비율, 분산 ) 에대한추정및가설검정이중요하다. 그러면데이터분석에서표본데이터확률분포를시각화하는이유는? 모집단으로부터확률표본기법을통하여얻어지는데이터 중심극한정리 에의하면표본의크기가크면표본평균 ( x ) 의분포는모집단의분포와관계없이 ( 모르더라도 ) 정규분포를따른다의미? CLT 는표본분포함수 (sample distribution) 에대한것이아니라표본평균의분포 (sampling dist.) 에관한것이다. 표본분포함수 ( 실선 ) 는여전히모집단의분포함수 f (x) 와동일하다. 그러니가정이나사전정보없이는그래프만가지고는알수없다. 그러나대표본 (n> 20~30) 일경우표본평균의분포는는 CLT에의해정규분포를따른다. 이것이왜그렇게중요하다. 우리가모집단에관심을가질때모집단자료전체에대한정보 ( 분포함수 ) 를구하는것보다는모집단의자료정보를요약한값 ( 이를모수 : parameter 라함 ) 에관심을갖게된다. 예를들면중앙의위치는?( 평균, 중앙값 ) 자료의흩어진정도는? ( 표준편차, 범위 ) 특히모집단의평균 ( ) 에관심을갖게된다. 이경우모집단의분포를모르더라도 CLT 에의해다음사실을알수있다. ( 이전페이지그림점선그래프참고) x Pr( z / 2 1 s / n ) s x z / 2 : 모평균 95% 신뢰뢰구간 n 만약대표본이아닌경우는 t-t 분포를이용해야되는데이런경우모집단은은정규분포를따르고있음을가정하게된다. 3
(1) B ( p 0.1) 베르누이확률분포를그리시오. (2) 베르누이분포 B( p 0.1) 에서크기 2인확률표본을추출하여표본평균을구하시오 (3) 표본평균을이용하여 95% 신뢰구간을구하고, 구해진신뢰구간이모평균을포함하고있는지판단하시오. (4) 위의 (2)-(3) 작업을 100 번반복하여 100개표본평균을구하고, 100 개 95% 신뢰구간중모평균을포함하지않은신뢰구간의수를적으시오. (5) 얻어진표본평균 100 개를이용하여표본데이터확률분포함수를그리시오. 즉히스토그램을그리시오. (6) 베르누이분포 B( p 0.1) 에서크기 20 인확률표본을추출하여평균을을구하고, 이런작업을 100 번반복하여 100 개표본평균을구하시오. (7) 얻어진표본평균 100 개를이용하여표본데이터확률분포함수를그리시오. 즉히스토그램을그리기 위의동일한작업은 Normal( 10,5) 에서실시하시오. 통계분포함수 (statistical distribution function) 함수 d*(x, 모수 ) p*(x, p, 모수 ) q*(p, 모수 ) r*(n, 모수 ) 기능확률밀도함수확률값, f(x) 분포함수값, F(x) 역분포함수값, F -1 (p) 분포함수따르는데이터 n 개랜덤하게생성 4
http:// /www.statmethods.net/management/index.html ( 데이터관리 ) 제어문 control statement for( 변수 in 연속 ) { 문장 } 연속에지정된값만큼변수값이이변화하면서 문장 을반복실행한다. 5
if ( 조건 ) { 문장 } 조건이만족하면문장이 실행된다. while( 조건 ) { 문장 } 조건이만족하는동안문장반복실행된다. 함수만들기 6
plot(x, y, main=, sub=, xlim=c(a, b), ylab=, type= t ) 그래프함수 자신의 함수활용하기 7