CHAPTER 4. SAS 함수 SAS는변수에대한함수값계산이나계산에필요한함수가내장되어있다. 수학적계산을위한절대값, 제곱근과승 (power), 로그, 지수함수, 통계계산을위한평균, 분산, CV 등많은함수들이있다. 이함수를사용하는방법은다음과같다. 수식처럼오른쪽함수결과가왼쪽변수에저장된다. 함수는변수의각관측치에적용되므로결과는변수의관측치수만큼계산된다. 즉함수의계산은데이터에서행으로이루어진다. 변수이름 = 함수이름 ( 변수, 다른함수, 숫자등 ) 변수 X의자연로그 (natural LOG) 값이변수 Y에저장 변수이름 = 함수이름 ( 변수, 변수, ) 변수 X, Z, W의합이변수 Y에저장 변수이름 = 함수이름 (of 연속된변수이름 ) 변수 X, X,, X0 0개변수의평균이변수 Y에저장 PROC MEAMS 사용하면변수의평균, 표준편차등을얻을수있는데이는 MEAN 함수와달리설정된변수에대해통계값이출력되게된다. PROC 단계는데이터의열 ( 변수 ) 에대한계산결과를얻는다.
0 Chapter 4. SAS 함수 4. 맛보기 다음프로그램을실행해결과를보자. 각함수의의미는다음과같다. ⑴EXP 함수는 () 안의변수관측치의지수값을구하는함수이다. ⑵RANNOR(seed) 는평균이 0이고표준편차가 인정규분포함수를따르는관측치를생성하는함수이다. SEED( 시드 ) 는값을생성할때시작하는위치를나타내는값으로 ~( 3 -) 사이의정수값이나 0을사용할수있다. 0을사용하면프로그램실행되는시각이시드값으로설정된다. 변수 ENG는평균이 90이고표준편차가 0인정규분포를따르며, 변수 MATH는평균이 80, 표준편차가 0인정규분포를따르는분포에서얻는 ( 생성, generating) 관측치변수이다. ⑶MEAN 함수는 () 에지정된변수들의평균을내는함수이다.
4. 함수 () 다음은수학, 통계, 연산에관련된함수를예제와함께정리한것이다. 각변수에대한기초통계량계산혹은변수들간의관계를보려면적절한 PROC을사용하며함수, 수식에의해변수생성 ( 변수명 = 함수이름 (argument)) 을할수있다. argument 부분에는변수, 숫자를사용할수있다. V, A, B,, X 등은변수이름이다. 수학계산관련함수 함수형태내용예제 ARCOS(argument) COS(argument) ARSIN(argument) SIN(argument) TAN(argument) COS의 inverse 값을계산 - argument COS 값을계산 argument 은실수나 Radian 값 SIN의 inverse 값을계산 argument 은실수나 Radian 값 SIN 값을계산 - argument TAN 값을계산, - argument V=arcos(a); V=arcos(0.3); V=cos(a); V=cos(3.459/3); V=arsin(a); V=arsin(0.3); V=sin(a); V=sin(3*3.459); V=tan(a); V=tan(); EXP( 변수명 ) 지수함수로지수값을계산한다. V=EXP(X); V=EXP(3.); SQRT( 변수명 ) LOG( 변수명 ) LOGN( 변수명 ) 제곱근값을계산한다. () 안의수는 0보다커야한다. 제곱은 x**, 세제곱근 x**3 자연로그 (natural log) 값을계산한다. Log X e = Ln(X ) 로그의밑이 n인로그값을계산한다. N=0 이면상용로그값 V=SQRT(X); V=SQRT(3.); V=LOG(X); V=LOG(3.); V=LOG(X); V=LOG(3.); V=LOG0(3.);
Chapter 4. SAS 함수 EXAMPLE: 수학함수사용예제 정수및절대값얻기관련함수 함수형태내용예제 ABS(argument) CEIL(argument) 절대값을계산 argument 값이상이면서가장작은정수 V=abs(-.4); V=abs(a); V=ceil(a); V=ceil(-.4); INT(argument) 정수값을출력한다. V=int(a); FLOOR(arguments) argument 값이하이면서가장큰정수 V=floor(a);
3 SIGN(argument) 값의부호를출력한다. 양수면, 음수면 -, 0 이면 0 의값이저장된다. V=sign(a); V=sign(name- 90); MOD( 숫자, 숫자 ) 숫자 을숫자 로나눈나머지계산. V=mod(4,3); EXAMPLE: 수학함수사용예제 통계계산관련함수 함수형태내용예제 FACT(n) COMB(n,r) PERM(n,r) Factorial 값을구한다. () 안은반드시정수값이어야한다. n! combination 값을구한다. n, r 은 정수이어야한다. n! ncr = r!( n r)! Permutation 값을구한다. n, r 은 정수이어야한다. n! n Pr = ( n r)! V=FACT(a); V=FACT(6); V=COMB(5,); V=COMB(a,b); V=PERM(5,); V=PERM(a,b);
4 Chapter 4. SAS 함수 MAX(arguments) 최대값을구한다. V=max(x,x,x3,x4); 연속일때 V=max(of x-x4); 이형식은아래함수에도적용 V=max(a,b,c); V=max(,5,-,7); MIN(arguments) 변수관측치중최소값을구한다. V=min(a,b,c); N(arguments) 변수관측치개수 ( 결측치제외 ) 계산 V=n(a,b,c); SUM(arguments) 변수관측치들의합을구한다. V=sum(x,y,z); MEAN(arguments) 변수관측치들의평균을구한다. V=mean(x,y,z); RANGE(arguments) 변수관측치들의범위를구한다. V=range(x,y,z); STD(arguments) 변수관측치들의표준편차를구한다. V=std(x,y,z); STDERR(arguments) 변수관측치들의표준오차를구한다. V=stderr(x,y,z); VAR(arguments) 변수관측치들의분산을구한다. V=var(x,y,z); [ 참고 ] 변동계수와표준오차 s 변동계수 : CV = 00(%) 집단간분산을비교하기위하여사용되는통계량 x 표준오차 : s / n 표준편차를표본개수의제곱근으로나눈값으로표본평균의표준편차
5 [ 참고 ] E3 의의미는 3 0 이다. 그러므로 3.55E4=355,000,000,000,000이다. 차분 (difference) 관련함수 함수형태내용예제 LAG( 변수명 ) 이전관측치를가져온다. V=LAG(X); LAGN( 변수명 ) n 번째이전관측치를가져온다. V=LAG(X); V=DIF( 변수명 ) V=DIFN( 변수명 ) 현재관측치와이전관측치의차이를구한다. 그러므로 DIF=X-LAG(X); 이다. 현재관측치와이전관측치의차이를구한다. 그러므로 DIFN=X-LAGN(X); 이다. V=DIF(X); V=DIF(X);
6 Chapter 4. SAS 함수 관측치변환함수 함수형태내용예제 LENGTH( 변수명 ); 문자변수문자열 (string) 길이 출력한다. LEFT( 변수명 ); 문자열의왼쪽정렬한다. RIGHT( 변수명 ); 문자열의오른쪽정렬한다. SUBSTR(argument, 문자열관측치의일부를얻는데 시작, 길이 ); 사용된다. 시작은문자열시작위치, 길이는문자개수를지정한다. TRIM( 변수명 ); 문자열뒤쪽공백없앤다. UPCASE( 변수명 ); 문자열을대문자로변환한다. V=length(z); V=length( se ); V=left(z); V=left( se ); V=right(z); V=right( se ); V=substr(z,,3); V=substr( hi,,); V=trim(z); V=trim( hi ); V=upcase(z); V=upcase ( hi ); 문자변수지정하는 $ 뒤에 - 의의미는첫열부터 번째열까지변수 X 의관측치로 읽어들이라는의미이다. 프로그램에서 3 번째행부터는프로그램이길어지는것을피하기
7 위하여두개문장을한라인에적었다. 한라인에적었더라도세미콜론으로문장의끝을 알렸으므로각각다른문장으로실행된다. EXAMPLE: 함수사용하기 IQ.TXT 데이터를 SAS 데이터 ONE으로만들고, IQ, IQ, IQ3 중가장높은값을 IQ_MAX, 가장낮은값을 IQ_MIN으로만들어보자. 그리고평균은 IQ_MEAN으로하고, 함수를사용하여자료를만들어보자. SAS 데이터이름은 TWO로하자.
8 Chapter 4. SAS 함수 EXAMPLE: 함수사용하기 () SAS 데이터 TWO에서남자 ( 여자 ) 는 IQ_MEAN가 00(0) 보다크면, 작으면 -, 같으면 0이되는변수 W를만들고, SAS 데이터이름은 THREE로하자. EXAMPLE: 함수사용하기 (3)
9 SAS 데이터 ONE 에서 IQ 이 4 의배수이면 0 그렇지않으면나머지가되는변수 V 를만 들고, SAS 데이터이름은 FOUR 로하자. EXAMPLE: 함수사용하기 (4) 확률분포함수그리기 평균이 0 이고분산이 인정규분포확률분포함수 (probability density function) 를그려보자. ( x μ) ( ) σ f x = πσ exp, < x < 확률분포함수의 X-축은확률변수 ( X ) 가가질수있는값이며 Y-축은확률 ( f (x) ) 이다. 이론적으로는정규분포를따르는확률변수가 (, ) 사이지만실제데이터는 μ ± 3σ 안에대부분다포함된다. ( 경험적규칙 : empirical rule) 여기서 μ =, σ = 이므로 (-4.4, 4.4) 이다. 그래서그래프를위한최소값 -4.5, 최대값 4.5을사용하였다. DO문은 X-축의값을설정하기사용하였고증가분 BY는그래프를 smooth하게그리기위하여 0.0로작게잡았다. 그래서 X=-4.5, -4.49, -.48,, 4.49, 4.5 이런값들이연속적으로
30 Chapter 4. SAS 함수 사용된다. 그러므로관측치개수는 90개이다. X-축구간을매우작게잡았기때문에 PROC GPLOT에서 I(interpolation) 옵션을 JOIN( 점들을연결 ) 으로사용해도그래프가 smooth 하다. 만약 X-축의구간을 0.5로잡았으면 I=SPLINE을사용하면그래프가곡선화된다. 컴퓨터속도의발달로관측치가많아도실행되므로구간을작게설정해도된다. TITLE 문은그래프의제목을붙이기위해사용되었으며 H 는글자크기 (height) 를설정한 것이고 F(font) 옵션은글꼴을설정한옵션이다. PROC GPLOT 에서 SYMBOL 문장은그래프 의점들을정의하는것으로 I 는점들을연결하는옵션이고 V(value) 는점들의형태를설정
3 (triangle, dot, square, a, o 등을사용할수있다 ) 하는옵션이다. 자세한내용은 5장을참고하기바란다. 만약위프로그램에서 0.0대신 0.5를사용하였다면어떻게될까? 점들이너무떨어져있어직선연결하면 smooth하지못하다. 이런경우 I=SPLINE을사용하면이런문제는해결된다.
3 Chapter 4. SAS 함수 EXAMPLE: 함수사용하기 (4) 모수 (parameter) ( α, β ) = (4,3) 인감마분포의확률밀도함수를그려보자. α x / β f ( x) = x e, 0 < x < α Γ( α) β 모수는확률분포함수의형태를결정하는것으로모수값을알면확률밀도함수를그릴수 있다. 정규확률분포함수의모수는평균 ( μ ) 과표준편차 ( σ ) 이다. 감마분포는우측으로치우 친 (skewed to the right, positive skewed) 형태이므로평균 αβ =, 표준편차 αβ 6 이나 최대값을 30 대신 40 을사용하였다. =
33 EXAMPLE: 함수사용하기 (5) 이항분포그리기 이산형확률밀도함수인이항분포를함수를이용하여그려보자. 모수가 ( n = 0, p = 0.) 인이항분포확률분포함수는다음과같다. n x p( x) = p q x n x 0 = 0. x x 0.8 0 x, x = 0,,,...,0 Combination 계산을위하여 COMB 함수를사용하였다. 모수 ( n = 0, p = 0.) 인이항분포를따르는이상형확률변수가가질수있는값이 0,,, 0이므로이를 DO문에초기값과말기값으로설정하였다. 증가분은디폴트인 (BY ) 을사용하였다. 이산형의확률은막대높이로표시되므로 I 옵션에는 NEEDLE 옵션을사용하였다. CI는막대안의색깔을지정하는옵션이고 W(weight) 는막대의넓이를설정하는옵션이다.
34 Chapter 4. SAS 함수 4.3 함수 확률밀도함수의확률값을얻거나그래프를그리기위하여 4.절의방법을사용할수있으나함수형태를적어주는것이번거롭다. 그래서통계소프트웨어인 SAS는통계학에서가장많이사용하는확률분포함수 (PDF), 누적확률분포함수 (CDF), 백분위 (percentile), 그리고임의의분포를따르는확률변수를생성 (generating) 하는방법을함수화하여내장하고있다.
35 4.3. 확률밀도함수 확률밀도함수 (PDF, probability density function) 는 input(x- 축 ) 은확률변수가가지는값이고, output( f (x), Y-축 ) 은확률인함수이다. 그리고확률이갖추어야할조건 () 확률 f (x) 상 0보다크고 () 확률변수전영역의 f (x) 적분값은 이다. ( 모든확률을더하면 이다 ) 은항 이처럼 X-축은확률변수이고 Y-축은확률 f (x) ( 이산형일경우에는 p (x) ) 는확률밀도함 수이다. 화살표의높이는확률이다. 이산형인경우확률변수한값에대해확률이존재하나 연속형인경우는 0 이다. 이산형확률밀도함수인경우확률은높이이고연속형확률밀도함 수의확률은면적이다. 확률이므로짙은부분면적의합 ( 전체확률의합 ) 은 이다. 확률변수 X 가가지는값의범위는 ( a, b) 이다. SAS 에서확률밀도함수를얻는함수는 PDF 이다. PDF( 분포이름, x, arguments) X 는확률변수가가질수있는영역 ( 구간 ) 안에임의의값이고 argument 는확률변수의모 수들이다. 모수는확률변수함수 f (x) μ, 분산 σ 이다. 지수분포의모수는평균인 β 이다. 을결정하는값으로정규분포확률밀도함수는평균과 이산형확률밀도함수 분포확률분포함수모수 SAS 함수 베르누이분포 (Bernoulli) p( x) = p x x q x = 0, 평균 : p 분산 : pq p PDF('BERNOULLI',x,p)
36 Chapter 4. SAS 함수 이항분포 (Binomial) n x n x p( x) = p q x x = 0,,,..., n 평균 : np 분산 : npq n, p PDF('BINOMIAL',x,p,n) 기하분포 (Geometric) 평균 : x p( x) = q p x =,,... q / p 분산 : q / p p PDF('GEOMETRIC',x,p) 음이항분포 (Negative binomial) x r x r p( x) = p q p r x = r, r +,... 평균 : rq / p 분산 : rq / p r, p PDF('NEGB',x,p,r) λ x e λ p( x) = 포아송분포 x! (Poisson) x = 0,,... 평균 : λ 분산 : λ λ PDF('POISSON',x, λ ) 초기하분포 (Hypergeometric) K M K x n x p( x) = M n M =,..., K = 0,,,..., M n =,,..., M ( M, K, n) PDF('HYPER',x,M,K,n) K 평균 : n ( ) 분산 : 복잡 M 연속형확률밀도함수 분포확률분포함수모수 SAS 함수 정규분포 (Normal) ( x μ) f ( x) = exp σ πσ < x < 평균 : μ, 분산 : σ μ, σ PDF('NORMAL',x, μ,σ )
37 감마분포 (Gamma) 베타분포 (Beta) 지수분포 (Exponential) 카이제곱분포 (Chisquared) T-분포 α x / β f ( x) = x e α Γ( α ) β 0 < x < 평균 : αβ, 분산 : f ( x) = x B( a, b) 분산 : a ( x) αβ b 평균 : a /( a + b) ab ( a + b) ( a + b + ) α = 인감마분포. x / β f ( x) = e β 평균 : β, 분산 : β 0 < x < α = r /, β = 감마분포. f ( x) = Γ( r / ) r / x 평균 : r, 분산 : r / r / x / T = W / V / r, 0 < x < f (x) 복잡, 자유도 r W ~ Normal (0,), V ~ χ ( e r 평균 : 0, 분산 : r /( r ) ) α, β PDF('GAMMA',x,α, β ) a, b PDF('BETA',x,a,b) β PDF('EXPO',x, β ) 자유도 r 자유도 PDF('CHISQ',x,r) r PDF('T',x, 자유도 ) F- 분포 / U r F =, 0 < x < V / r f (x) 복잡, 자유도 r, ) ( r W ~ V ~ χ ( r ), V ~ χ ( r ) 평균 : n /( n ), 분산 : 복잡 분자, 분모자유도 ( r, r ) PDF('F',x, 분자 자유도, 분모자유도 ) 균일분포 (Uniform) f ( x) = b a, a x b 평균 : ( a + b) /, 분산 : ( b a) / 영역최소값, 최대값 PDF('UNIFORM',x,a,b)
38 Chapter 4. SAS 함수 EXAMPLE: PDF 함수사용하기, 정규분포 ( 평균 =0, 분산 =) 평균이 0이고분산이 인정규분포확률분포함수 (probability density function) 를그려보자. 앞에서는함수식을이용하였지만이제 PDF 함수를이용해보자. ( x μ) ( x) = σ f exp, < x < πσ
39 EXAMPLE: PDF 함수사용하기 () 모수 (parameter) ( α, β ) = (4,3) 인감마분포의확률밀도함수와평균이 이고표준편차가 6인정규분포의확률밀도함수그래프를하나의그래프에그려보자. 정규분포는좌우대칭인반면감마분포는우측으로치우친형태를갖는다. 지금그리려는두분포의평균과분산은동일하다. SYMBOL, SYMBOL는그려지는그래프에대한설정이다. C(color) 는선의색을 L은라인의속성을나타내는것으로 L=( 디폴트 ) 은연속, 값이커질수록선이많이끊어진다. X-축의값을 단위로얻었으므로 SPLINE을사용하여선들을매끄럽게 (smooth) 하였다. OVERLAY 옵션은두개이상의그래프를하나의산점도에그리라는옵션이다.
40 Chapter 4. SAS 함수 EXAMPLE: PDF 함수사용하기 (3) 이항분포그리기 이항분포 ( n = 0, p = 0.) 인확률분포함수를 PDF 함수를이용하여그려보자.
4 0 x 0 x P( x) = x 0. 0.8, x = 0,,,..., 0 막대의색깔은빨간, 막대의넓이는 로설정하였다. 막대높이 ( 확률 ) 는이전것과동일하다. 그래프에관련된모든옵션을 reset하려면 GOPTIONS; 문장을한번사용해주면된다. 제목을 RESET하는 TITLE; 문장과사용방법은동일하다.
4 Chapter 4. SAS 함수 EXAMPLE: PDF 함수사용하기 (4) 포아송분포그리기 λ = 인포아송분포의확률밀도함수를그리시오. X- 축최대값을얼마로설정하는것이 좋은가? 실제이론적으로는무한대 ( ) 의값을갖지만평균이 인경우 0 이상이면확률 이 0 이므로 0 까지만고려하였다.
43 EXAMPLE: PDF 함수사용하기 (5) 이항분포의포아송분포근사 이항분포의 n이크고 p가매우작은경우이항분포 ( n, p) 는모수 λ = np 인포아송분포 에근사한다. 이를 PDF 함수를이용하여살펴보기로하자. 모수 ( n = 30, p = 0.) 인이항분 포 (cyan 색, 굵은막대 ) 와모수 λ = 3 인포아송분포 (blue 색, 얇은막대 ) 를한그래프에그 렸다. GOPTIONS; 문장은모든그래프관련설정을 RESET 하는문장이다.
44 Chapter 4. SAS 함수 EXAMPLE: PDF 함수사용하기 (6) 이항분포의정규분포근사 n이큰경우모수 ( n, p) 인이항분포는평균 np, 분산이 npq 인정규분포에근사한다. 모수 λ = np 인포아송분포에근사한다. 이를 PDF 함수를이용하여살펴보기로하자. 모수 ( n = 30, p = 0.) 인이항분포와평균 3, 분산.7인정규분포를함께그려보자.
45 EXAMPLE: PDF 함수사용하기 (7) 정규분포와 T- 분포 표준정규분포 ( 평균 =0, 분산 =), 자유도 0인 t분포 ( 평균 =0, 분산 =0/8=.5), 자유도 50인 t-분포 ( 평균 =0, 분산 =.04) 하나의그래프에그려보자. t-분포는표준정규분포처럼좌우대
46 Chapter 4. SAS 함수 칭이나분산 ( 자유도가 n인경우 n /( n ) ) 이약간크므로표준정규분포에비해좌우꼬리부분이두껍다. T-분포의자유도가커질수록표준정규분포에근사한다.
47 4.3. 누적확률분포함수 누적분포함수 (CDF, Cumulative Density Function, 분포함수라한다 ) 는확률분포함수의가장 왼쪽 으로부터임의의점 x 까지적분한값을의미한다. 초록색부분의면적이 F(x) 다. F ( ) = 0, F( ) = 이다. 누적분포함수값을얻으려면확률분포함수를적분하여야한 다. SAS 는이를 CDF 함수로내장하고있다. CDF 함수는사용방법, 옵션등이 PDF 함수와 동일하다. 이 EXAMPLE: CDF 함수사용하기, 지수분포의누적분포함수 평균이 β 인지수분포의누적분포함수는 지수분포의누적분포함수를그려보자. x t / β x / β F( x) = e dt = e 이다. 평균이 인 β
48 Chapter 4. SAS 함수 다음과같이 CDF 함수를이용하여동일한결과를얻는다. EXAMPLE: CDF 함수사용하기 () 포아송분포 모수 λ = 인포아송분포의확률분포함수와누적분포함수하나의그래프에그리시오. CDF 그릴때는 Interpolate 옵션을 STEP으로하면된다. X 값이증가할때마다막대의높이만큼증가한다. 즉 X=의누적값은 0, 의막대높이합이다.
49 EXAMPLE: CDF 함수사용하기 (3) 정규분포 평균이 5이고표준편차가 인정규분포확률분포함수와누적확률분포함수를하나의그래프에그리시오. 한동안 CDF 함수가 PDF 함수보다작다? 맞나? 그렇다. 누적확률분포함수
50 Chapter 4. SAS 함수 는거기까지의확률밀도함수면적임을상기하기바란다. 누적확률밀도함수에대한 SAS 함수로 CDF 대신다음을사용하기도한다. 그러나 CDF 를사용하는것이정형화된형태라편리하다. 분포 포아송분포 누적분포함수 POISSON
5 베타분포 이항분포 카이제곱분포 PROBBETA PROBBNML PROBCHI F- 분포 PROBF 감마분포초기하분포음이항분포정규분포 PROBGAM PROBHYPR PROBNEGB PROBNORM T- 분포 PROBT 4.3.3 백분위 데이터를크기순으로배열했을때데이터의 p % 가어떤임의의값보다작고 ( 00 p)% 가그값보다큰경우그임의의값을 p th 백분위 (percentile) 값이라한다. 50% 백분위값을중앙값 (median), 5% 백분위값을일사분위 (first quartile), 75% 백분위값 을삼사분위 (third quartile) 이라한다. 중앙값을이사분위 (second quartile) 이라고도한다. 데이터의백분위값을계산하기위하여데이터의순서통계량 (order statistics) 을구해야 한다. 관측치를크기순으로정렬한후제일작은값부터 x( ), x(), K, x( n) 으로표기하고이를 순서통계량 (order statistics) 이라한다. 순서통계량 : x( ) x()... x( n) 최소값 (min): x (), 최대값 (max): x (n) 범위 (range): x( n ) x() 백분위값이나사분위값을구하려면자료의깊이 (depth) 개념을이용하면편리하다. (Tukey 가제안 ) 관측치를크기순으로정렬한후각양쪽끝에서 부터번호를매겨그번 호를자료의깊이라정의한다. 즉최대값, 최소값의깊이는각 이다. 중앙값의깊이는 ( n +) / 이고사분위깊이는 q=( 중앙값의깊이의정수함수 +)/ 이다. 즉중앙값은 x(( n+) / ) 이고일사분위는 x(q) 이고삼사분위는 x( n q+) 이다. 표본의크기 6 인표본관측치 (, 4, 6, 5, 6, ) 의중앙값길이는 (6+)/=3.5 이고, 사분위 길이는 ([3.5]+)/=(3+)/=이다. 그러므로중앙값은 x (3.5) = x 이고삼사분위는 x 6 이다. ( ) = ( 6 + ) = (4+5)/=4.5 이고일사분위는
5 Chapter 4. SAS 함수 확률분포함수에서백분위값의개념을알아보자. 초록색부분의확률이 p 인 x 값을찾으 면이것이 p % 백분위값이다. 표준정규분포인경우 95% 백분위값을찾으면.645 이다. 이처럼백분위는누적분포함수의역함수형태가된다. 일반적으로이산형확률밀도함수의경우정확한 p % 백분위값을구할수없다. 예를들어모수가 ( n = 0, p = 0.) 인경우 95% 백분위값을구해보자. 95% 백분위값은 3과 4 사이의값이다? 이처럼이산형확률분포함수의경우백분위값을구할수없으므로 SAS도함수를제공하지않고있다. 연속형확률분포함수의경우확률변수이름첫글자와 INV(inverse, 이이름을사용한이 유는백분위값과누적분포함수는역함수관계이므로 ) 를결합하여함수로내장하고있다. 단표준정규분포의경우에는 PROBIT 함수로되어있다. 분포함수 SAS 함수사용예제
53 표준정규분포 (Standard Normal) 감마분포 (Gamma) PROBIT( 확률 ) 평균 μ 이고표준편차 σ 인정규분포의 백분위값을어떻게구하나? z = x μ 이므로 σ μ + PROBIT( 확률 )* σ GAMINV( 확률,α ) 만약 GAMINV( 확률,α, β ) 인경우에는 β * GAMINV( 확률,α ) X Q X ~ Gamma( α,) => ~ Gamma( α, β ) β 지수분포 (Exponential) β * GAMINV( 확률, ) Q X ~ Gamma( α =, β ) = Exppnential( β ) 카이제곱 분포 (Chi-squared) CINV( 확률, 자유도 ) T- 분포 TINV( 확률, 자유도 ) F- 분포 FINV( 확률, 분자자유도, 분모자유도 )
54 Chapter 4. SAS 함수 EXAMPLE: 백분위함수사용하기, 표준정규분포 표준정규분포의경우예를들어보자. x =. 96 까지누적분포함수값 ( 확률 ) 을구하려면다음프로그램을실행하면된다. x.96 exp π dx =? 누적확률이 0.975( 즉 97.5% 백분위 ) 인확률변수값을구하려면다음과같이하면된다. x? exp π dx = 0.975 백분위함수의대표적인사용예제는통계적가설검정을위한검정통계량으로부터유의확률을계산할때이다. 전체데이터를가진경우데이터분석은 PROC 단계를이용하여관련통계량과유의확률을모두얻을수있으나통계학원론에서자주등장하는수작업문제는원데이터를주는것이아니라필요한통계량만주고가설검정하라는경우함수가사용된다.
55 EXAMPLE: PROC 와함수이용구별하기 대학생들의평균 IQ 0이라고한다. 우리대학학생들의 IQ가전체대학생평균 IQ와같은지알아보기위하여 0명을무작위추출하여 IQ를측정하였다. 학생들의 IQ 분포는정규분포를따른다고가정하자. 표본데이터 : 0, 5, 30, 5, 35, 0, 0, 5, 30, 40 귀무가설 : μ = 0, 대립가설 μ 0, μ 는모집단평균 검정통계량 =.5, 유의확률 (p-값) 은 0.05이므로귀무가설을기각하지못한다. 우리대학학생들의 IQ는 0과같다고할수있다. ( 자세한내용은 4.4절참고 ) PROC TTEST(PROC 단계 ) 를이용하면검정통계량과유의확률을얻는다. 원데이터가주어진것이아니라표본평균 6, 표본표준편차 8.433만주어졌다면가설검정을위하여 PROC 단계를사용할수없다. 수작업에의해검정통계량을계산하고확률분포표에의해주어진유의수준에대응하는임계치를찾아비교하여귀무가설채택여부를결정한다. 수작업계산대신함수를이용하여통계량과유의확률을구할수있다. 이는다음절의예제를참고하기바란다.
56 Chapter 4. SAS 함수 4.4 통계적가설검정 4.4. 기본개념 모수와통계량 모집단은알고자하는대상이되는집단의미한다. 모집단을통계학에서표현할때는확 률분포함수 f ( x; θ ) 으로정의한다. θ 는모수이다. 그러므로모집단에서우리가알지못하 는것은확률분포함수 f 와모집단특성의요약값인모수 θ 이다. 그러나실제모집단의 확률밀도함수 f (x) 을추정하기는불가능할뿐아리나실제관심의대상은모수이다. 즉, 우리의관심은모수 (parameter) 값에대한정보이다. 이것들을표본데이터를이용하여추 정하게된다. 표본데이터로부터계산된값들을통계량 (statistic) 이라한다. 표본으로부터계산된통계량이모수추정에사용되면추정치 (estimate) 라하고가설검정 에사용되면검정통계량 (test statistic) 이라한다. 추정 (estimation) 표본데이터 ( x, x,..., xn) 으로부터계산된통계량을이용하여모수의값에대한정보를얻는것을추정치를얻는다고한다. 모수추정에는모수를하나의값으로추정하는점추정
57 과구간으로추정하는구간추정이있다. 모수를어떤통계량으로추정하는것이좋은가? 통계학에서는좋은추정치를 Best Linear Unbiased Estimator( 혹은최소분산추정치 Minimum Variance Unbiased Estimator) 라한다. 모수중가장많은관심의대상은모집단평균 (μ), 모집단분산 ( σ ), 모집단비율 ( p) 이 x 다. 이에대한좋은점추정치 (MVUE) 는표본평균 x = i ( x X ), 표본분산 s = i, 그 n n 리고표본비율 p ˆ = # of성공/ n 이다. 점추정치와점추정치의확률분포함수를이용하여모수에대한구간추정치 (interval estimation) 를얻을수있다. 다음그림은점추정치와구간추정치를나타낸것이다. 확률분포함수는점추정치 ( 통계량 ) 의확률분포함수이다. 모평균에대한 MVUE는표본평균이다. 대표본인경우표본평균의정규분포에근사하므로이를이용하여신뢰구간을구한다. 가설검정 통계적가설검정은 () 서로배반인두개의가설 ( 귀무가설, 대립가설 ) 을설정하고 () 표본데이터로부터적절한검정통계량값을계산하고 (3) 이를이용하여두가설중하나를선택하는순서로진행된다. 예를들어모집단의평균에관심이있다고하자. 모수는 θ = μ 이다. 모집단평균에대한 MVUE는표본평균 x 이다. 그러므로 ˆ θ = x 는모수 μ 의점추정치 (point estimate) 이다. 그 x μ 리고우리는 ~ tn ( ) 사실을알고있으므로모평균에대한 00( α)% 신뢰구간을 s/ n 구하면 s x ± t( n ; α / ) 이다. n T x μ 0 = 는통계적가설 H0 : μ = μ0 에대한검정을위 s / n 해사용되는검정통계량이다.
58 Chapter 4. SAS 함수 통계적가설 (statistical hypothesis) 통계적가설검정이란 서로배반인두개의통계적가설 ( 귀무가설, 대립가설 ) 을설정하고 적절한검정통계량값을계산하고 3이를이용하여두가설중하나를선택한다. 연구하고자하는내용을표본데이터로부터계산한통계량을이용하여사실여부를판단할수있도록설정한내용을통계적가설이라한다. 가설종류 () 귀무가설 (Null Hypothesis) 원래그대로의상태 (state quo) 를의미하며표본에의해거짓임이판명되지않으면기각되지않는다. 귀무가설은상태그대로를의미하여 null=nothing 이라이름붙였으며 ~ 같다, 영향을미치지않는다, 차이가없다 식으로정의된다. 귀무가설은모수에대한하나의값을설정한다. () 대립가설 (Alternative Hypothesis) 귀무가설과대립되는가설로얻고자희망하는모수의조건이나변수들간의관계에대한문장 (statement) 으로연구가설 (research hypothesis) 이라한다. 보다크다, 같지않다, 영향을미친다 등으로설정된다. 연구자가원하는내용이대립가설에있으므로이를연구가설 (research hypothesis) 이라한다. 대립가설은모수에대한영역으로설정된다. 가설종류 () 대립가설은형태에따라단측가설 (one-sided) 과양측 (two-sided) 가설로나눈다. 단측가 설은모수에대한한쪽영역만설정한것이고양측검정에서는귀무가설에설정한모수 이외영역이설정된다. 양측검정은 ~ 와같지않다, 단측검정은 < 혹은 > 으로표현된다. 검정오류 귀무가설이사실인데귀무가설을기각할 ( 대립가설채택 ) 확률을 종오류 (type I error) 라
59 하고귀무가설이거짓인데도 ( 대립가설이사실 ) 귀무가설을기각하지않을 ( 대립가설채택 ) 확률을 종오류 (type II error) 라한다. 검정결과 실제상황 귀무가설진실 대립가설진실 귀무가설기각 종오류 α 옳은판단 귀무가설채택옳은판단 종오류 β 유의수준 (significant level) 가설검정방법중두오류를모두줄일수있는방법은존재하지않으므로두오류중 하나를고정하고다른오류를줄일수있는방법을찾는다. 어느오류를고정할것인가? 우리의관심은대립가설에있으므로귀무가설을기각할확률을고정하고 ( 사용될통계적 방법은이정도는희생은감수한다.) 대립가설이사실인경우대립가설을채택할검정력 ( β ) 을최대화할수있는통계적가설검정방법을찾는다. 가설검정을위하여설정한 종오류를유의확률이라하며일반적으로 0%, 5%( 가장일반적 ), % 를사용한다. 검정통계량 (Test Statistics), 기각역, 기각치 (Reject region and Value) 귀무가설의사실여부를판단하기위하여사용되는통계량을검정통계량이라한다. 검정통계량은표본데이터로부터계산되면가설검정하려면검정통계량의분포를알아야한다. 검정통계량의분포는귀무가설이진실이라가정하에구하게된다. 이래그림에서귀무가설진실하에서구한분포이므로양쪽극단 ( 초록부분 ) 도일어날수있으나이런극단이발생하면귀무가설을기각한다. 그러므로검정오류이다. 이것을 종오류라하고미리설정된 종오류를유의수준이라한다. 설정된유의수준하에서귀무가설을기각하게되는검정통계량값들의영역 ( 초록부분 ) 을기각역 ( 짙은직선영역 ) 이라하고영역의시작점을기각치혹은임계치 (critical region) 라한다. 대립가설양측가설이면임계영역이양쪽영역이고양쪽초록부분의합이유의수준이다.
60 Chapter 4. SAS 함수 신뢰구간 (Confidence interval) 임의의모수에대해두통계량 ( 하한 (L), 상한 (U)) 이존재하며다음과같이쓸수있다면 ( L, U ) 을모수 (θ ) 에대한 00( α)% 신뢰구간이라한다. P ( L( x, x,... xn) < θ < U ( x, x,... xn)) = α 00( α)% 을신뢰수준 (confidence level), L( x, x,... xn) 을하한 (lower bound), U ( x, x,... xn) 을상한 (upper bound) 라한다. 95% 신뢰구간의실제의미는모수 ( 모집단인장강도평균 ) 가신뢰구간에포함될가능성 ( 확률 ) 이 95% 를의미하는것이아니다. 모집단으로부터표본의크기 0인표본을뽑아신뢰구간을구하고, 또표본의크기 0의표본을뽑아신뢰구간을구하고, 이런과정을 00번반복하면그중 95개의신뢰구간은모수를포함하고있다는것이다. 00(-α)% 신뢰구간과유의수준 α 인가설검정 ( 양측검정 ) 일대일대응관계가존재한다. 95% 신뢰구간에포함되지않은 ( 포함되는 ) 모수값이유의
6 수준 5% 하에서검정되는귀무가설에설정되면그귀무가설은기각 ( 채택 ) 된다. 이관계를 그림으로나타내면다음과같다. 모수 귀무가설에설정된모수값이이 구간에포함되면유의수준 α 에서 귀무가설은채택된다. 00(-α)% 신뢰구간 검정통계량 표본으로부터계산된검정통계량값 유의확률 (significant probability), p- 값 (p-value) 귀무가설을기각할최소의유의확률을의미한다. 즉귀무가설을기각하려면유의수준을 p-값으로설정하면된다. p-값은확률로검정통계량값이계산되었을때이값보다클확률 ( 극한상황발생 ) 을의미한다. 그러므로 p-값이 0.05보다크다면귀무가설을기각할수없고작다면귀무가설을기각한다. P-값이 0.06이라면유의수준을 0.06으로해야귀무가설을기각할수있다는것이므로유의수준이 0.05(5%) 이면귀무가설이기각되지않는다. 다음그림은유의확률을그림으로나타낸것이다. 그림에서초록부분은대립가설이 > 귀무가설에설정된모수값 인단측가설의경우유의확률이다. 대립가설이 < 귀무가설에서설정된모수값 형태이면왼쪽꼬리부분이유의확률이다. 대립가설이양측가설일경우에는한쪽에서얻어진유의확률 ( 초록색부분 ) 을 배하면된다.
6 Chapter 4. SAS 함수 유의확률이설정된유의수준하에서기각역을제시하는것보다다많은정보를우리에게 주므로통계소프트웨어는검정통계량과유의확률 ( 대립가설이양측가설인경우 ) 을출력한다. 4.4. 공식정리 단일집단모평균추론 H 0 : μ = μ0 x μ0 검정통계량 : T = ~ t( n )[ 소표본] or N(0,)[ 대표본] s / n 소표본인경우에는모집단정규분포가정이필요하다. 만약모집단이정규분포를따른다는확신이없는소표본인경우비모수방법 (Sign검정, Wilcoxon Ranks Sum) 을실시한다. 신뢰구간 : s x ± t( n ; α / ) ( 표본의크기가커지면 T-분포는정규분포에근사하므 n 로수작업시에는표본의크기가 0~30 이상인대표본의경우에는정규분포표이용한다.) 단일집단모비율추론 H 0 : p = p0 검정통계량 : T = pˆ p0 p0q0 ~ N(0,) ( 대표본 ) n 소표본인경우에는유의확률개념을이용하여가설검정한다.
63 신뢰구간 : n pq z p ˆ ˆ ˆ α / ± ( 대표본 ) 두집단모평균추론 0 : μ μ = H 검정통계량 : ] (0,)[ ] )[ ( ~ 0 ) ( 대표본소표본 N or n n t n n s x x T p + + = = μ μ, 통합분산 (pooled variance) ) ( ) ( + + = n n s n s n s p 소표본인경우에는두모집단정규분포가정이필요하다. 만약두모집단이정규분포를따른다는확신이없는소표본경우비모수방법 (Median 검정,. Mann-Whitney Test) 을사용하여가설검정한다. 신뢰구간 : ) / ; ( ) ( n n s n n t x x p + + ± α 두집단모비율추론 0 : p p H = 검정통계량 : ) (0, ~ ˆ ˆ ˆ ˆ 0 ) ( ˆ ˆ N n q p n q p p p p p T + = = ( 대표본 ) 신뢰구간 : / ˆ ˆ ˆ ˆ ) ˆ ˆ ( n q p n q p z p p + ± α ( 대표본 )
64 Chapter 4. SAS 함수 4.4.3 사용예제 원데이터기주어진경우에는 PROC 단계를이용하여통계량을구하거나가설검정을 할수있다. 그러나주요통계량의값만주어진경우에는함수를이용하여검정통계량과유 의확률을계산해야가설검정이가능하다. EXAMPLE: 모비율검정 ( 대표본 ) 성인의흡연비율은 0.라고한다. 우리대학학생들의흡연성인흡연비율 0.보다낮은지알아보기위하여 50명을임의추출하여 8명이흡연하고있음을알았다. 유의수준 0.05으로가설검정하고 95% 신뢰구간을구하시오. ⑴귀무가설 : 한남대학생흡연비율은 0.이다. p = 0. 대립가설 : 비율은 0.미만이다. p < 0. ⑵검정통계량 : T = 0.6 0. 0.*( 0.) = 0.707 ~ Normal(0,) 50 대립가설이단측가설 ( 왼쪽 ) 이므로유의수준 5% 를왼쪽부분에만설정한다. 검정통계량이표준정규분포를따르므로기각치는 -.645이다. 표본으로부터계산된검정통계량 -0.707이 -.645보다작지않기때문에귀무가설은기각되지않는다. 흡연비율은 0.라할수있다.
65 표준정규분포 pq ˆ ˆ 0.* 0.8 ⑶신뢰구간 pˆ ± z α / = 0.6 ±.96 (0.058,0.6) 신뢰구간은대립가설이 n 50 양측인경우구하는것이므로양쪽에.5% 씩할당하게된다. 위의과정을 SAS에서함수를이용하여구하면다음과같다. ABS(T) 의의미는검정통계량을 +( 확률의우측부분고려 ) 로하기위함이다. 이는 CV( 기각치 ) 의오른쪽극한을구했기때문이다. CV는단측검정의기각치 ( 임계치 ) 를계산하기위한것이다. 검정통계량의분포가정규분포를따르므로누적확률이 0.05가되는백분위값을구하면그것이왼쪽부분기각역이된다. 양측이면우측에 0.05, 왼쪽에 0.05 배정하면된다. 검정통계량 T와기각역 RC가비교하여 T가 RC보다작으면 ( 귀무가설의모수값에서멀어짐 ) 귀무가설을기각하고크면귀무가설을채택한다. 대립가설이단측이고귀무가설보다작은쪽만고려하므로유의확률은검정통계량값보다작을확률을계산하면된다. 출력결과유의확률은 0.3이므로유의수준 0.05보다크므로귀무가설은채택된다. 신뢰구간은양측신뢰구간을구하는것이므로 PROBIT 함수에는 0.975를사용한다. 하한구간 ( 변수 LOW) 구할때만약 0.975대신 0.05를사용하기원하면앞에 대신 + 을사용해야한다. 정규
66 Chapter 4. SAS 함수 분포가좌우대칭임을유의하기바란다. 만약상한신뢰구간을구하려면 사용하면된다. 을 EXAMPLE: 백분위함수사용하기, 모평균검정 ( 소표본 ) 대학생평균 IQ가 0이라한다. 한남대학교학생들의평균 IQ가 0인지알아보기 5명을조사하였더니평균 5, 분산 0이었다. 가설검정하고 ( 유의수준 =0.05) 95% 신뢰구간을구하시오. IQ 데이터는정규분포를따른다고가정하자. ⑴귀무가설 : 우리대학생 IQ 평균은 0이다. μ = 0 대립가설 : μ 0 5 0 ⑵검정통계량 : T = = 5 ~ t( n = 4) 0 /5 검정통계량 T=5 이고기각치는.5 이다. 검정통계량이기각역에속하므로귀무가설이기
67 각된다. 양측검정이지만일단기각치 RC는오른쪽영역에서구했다. 이는 T의부호가양이므로 ( 표본평균이귀무가설에설정한모집단평균보다크므로 ) 일단오른쪽만고려하면된다. 그러나단측검정과는달리기각역을계산할때는유의수준의 /인 0.05을사용해야한다. 양측검정을위한유의확률을계산할때는한쪽부분을계산한후 배를하면된다. 은검정통계량보다큰부분의확률을계산한것이므로이것을 배하면양측검정을위한유의확률이된다. 95% 신뢰구간에는귀무가설에설정된값 0 이포함되어있지않으므로유의수준 5% 에 서귀무가설을기각할수있다. 가설검정결과와일치한다. 이는앞에서설명하였듯이신 뢰구간과가설검정간에는일대일대응관계가있다.
68 Chapter 4. SAS 함수 EXAMPLE: 백분위함수사용하기, 모평균검정 ( 대표본 ) 대학생평균키는 70이라한다. 대학교학생들의평균키가 70인지알아보기 5명을조사하였더니평균 65, 분산 400이었다. 유의수준 5% 에서가설검정하시오. ⑴귀무가설 : 우리대학생 IQ 평균은 70이다. μ = 70 대립가설 : μ 70 65 70 ⑵검정통계량 : T = =.5 ~ t(4) 혹은Normal(0,) 0 / 5 검정통계량의부호가음이므로왼쪽영역만고려하여기각역 ( 유의수준의 / 설정 ) 을구하다. 검정통계량 -.5, 기각치 -.064이므로귀무가설이채택된다. 검정통계량 -.5보다작은영역이유의확률계산에사용된다. 양측검정이므로 0.의 배가유의확률이다. 유의확률이 0.4로유의수준보가크므로귀무가설이채택된다.
69 대표본의경우수작업시에는 t-분포를사용하는것이아니라정규분포 ( 중심극한정리이용 ) 를이용하게된다. 위와는달리정규분포를이용할경우결과를얻어보자. T-분포가표준정규분포에비해꼬리가두터우므로 t-분포이용할경우기각역값이중심으로부터정규분포에비해멀고유의확률도약간크다. 통계소프트웨어는모두 t-분포이용하여유의확률을계산한다. 4.3.3절 PROC TTEST의경우에도 t-통계량과유의확률이출력됨을볼수있다.
70 Chapter 4. SAS 함수 EXAMPLE: 모분산검정 품질공정에서분산이 0.인제품이있다고한다. 새로운생산공정이제품의분산을낮추는지알아보고자한다. 제품 30개를임의추출하여표본분산을계산하였더니 0.7이었다. 새로운공정이분산을낮추었다고할수있나? 유의수준 0.05에서가설검정하고 95% 상한신뢰구간을구하시오. ⑴귀무가설 : 모집단분산은 0.이다. σ = 0. 대립가설 : σ < 0. ( n ) s 9* 0.7 ⑵검정통계량 : T = = = 4.65 ~ χ ( n ) σ 0. 0 ( n ) s 신뢰구간 : χ ( n ) s σ α /, n χ α /, n 대립검정통계량이 보다작으므로카이제곱분포에서왼쪽부분이집중하면된다. 그러므로기각역도왼쪽부분만보면된다. 단측검정이므로기각역을구할때 0.05 사용하면되고유의확률도검정통계량보다작은영역의확률을사용하면된다. 검정통계량 4.65가임계치보다크므로귀무가설이채택된다. 유의확률면에서도귀무가 설은채택된다. 상한신뢰구간을구할때는양측신뢰구간의우측분모에 χ α = 0.05 ( df = 9) 을사용하면된다.
7 EXAMPLE: 두모집단평균차이검정 나무해충발생을억제하는치료제가개발되었다. 효과가있는지알아보기위하여나무 4개를임의추출하여 7개는치료제를투여하고나머지개는아무처리도하지않았다. 일정기간이지난후나무의해충수를조사하여다음을얻었다. 치료제가효과가있는지유의수준 5% 에서가설검정하시오. 치료제투여그룹 : n=7, 표본평균 =8.57, 표본분산 =98.6 치료제투여않은그룹 : n=7, 표본평균 =40, 표본분산 =5.33 ⑴귀무가설 : 두집단의평균해충수는같다. μ = μ 대립가설 : μ ( 치료제투여 ) < μ x x ( μ μ ) = 0 8.57 40 ⑵검정통계량 : T = = =.486 ~ t( n + n ), 4.39 / 7 + / 7 s p + n n
7 Chapter 4. SAS 함수 ( n ) s + ( n ) s 6*98 + 6*5 통합분산 (pooled variance) s p = = = 4. 39 n + n 7 + 7 대표본인경우 ( 표본의크기가 0~30) 검정통계량의분포는표준정규분포를따르므로위 의프로그램에서 TINV 대신 PROBIT, T 대신 NORMAL 을사용하면된다. 위의예제에서 치료제투여그룹의표본의크기 0, 투여하지않은그룹표본의크기는 30 이었다면?
73 EXAMPLE: 두모집단분산차이검정 두생산공정의분산의차이가있는지알아보기위하여생산공정에서크기 0인표본을추출하여계산하였더니 0.5이었고생산공정의표본분산 0.058( 표본크기 =) 이었다. 생산공정의분산차이가있는지유의수준 5% 에서검정하시오. ⑴ 귀무가설 : 두생산공정의분산은같다. σ σ = 대립가설 : σ σ max( s, s ) 0.05 ⑵검정통계량 : T = = =.8 ~ F( n = 9( 분자 ), n = ( 분모)) min( s, ) 0.058 s 검정통계량계산할때항상큰표본분산을분자에사용하므로검정통계량값은항상 보다크므로분포의오른쪽영역만고려하면된다. 그러나여전히양측검정이므로유의수준의 /을사용한다. 즉 0.95가아니라 0.975 사용해야한다.
74 Chapter 4. SAS 함수 4.5 확률변수생성 임의의분포를따르는확률변수를만드는 ( 생성, generate) 방법을살펴보자. 생성된데이 터를이용하여사회현상, 자연현상을컴퓨터에서실현하여결과를미리예측해보는것을 시뮬레이션 (simulation) 이라한다. SAS 에서임의분포를따르는확률변수데이터를생성하는함수는 RAN* 이다. 난수를생 성할때는난수표 (random number table) 의어디서시작하느냐에대한 seed 값을지정하게 된다. seed 값은 0이나 ( 3 ) 보다적은양의정수값을사용하면된다. seed를 0을사용 한경우에는컴퓨터가실행된시각이 seed 로들어간다. SEED 번호에 이상의정수를사 용하면프로그램실행할때마다생성되는데이터는매번동일하다. 4.5. 이산형변수 분포함수확률분포함수 SAS 함수 이항분포 (Binomial) n x n x p( x) = p q x x = 0,,,..., n 평균 : np 분산 : npq X=RANBIN(seed,n,p); n 이 이면 Bernoulli 분포이다. λ x e λ p( x) = 포아송분포 x! (Poisson) x = 0,,... 표확률분포 (Tabled Probability) 평균 : λ 분산 : λ p( x = i) = pi, i =,,..., n p = i i X=RANPOI(seed, λ ); X=RANTBL(seed,p,p,...,pn); 이나올확률은 p, 나올확률은 p,, 정수 n 이나올확률이 p n. X = RANTBL(,/,/ ) 는 이나올 확률이 0.5, 가 0.5( 즉동전던지는 실험 ) 인확률변수이다.
75 EXAMPLE: 이항분포 0개의사지선다형문제를찍을때맞는개수데이터를 0개뽑아보자 ( 생성 ). seed는 로하자. 사지선다형문제를찍을때맞을확률은 /4, 틀린확률은 3/4이고결과는맞거나 () 혹은틀리거나 (0) 이다. 그러므로모수 ( n = 0, p = / 4 ) 이항분포에서데이터를 0개뽑으면된다. 생성한데이터의평균과분산은얼마일까? 이론적으로는 np = 0 *0.5 = 5, npq = 3. 75 이나생성결과는평균 5., 분산은 7.이다. 평균은비슷하나분산은상당히높다. 시드를 3으로사용하면 ( ) 다음과같이다른결과를얻는다. 이처럼시드에따라결과가다를수있다. 그러나시뮬레이션할때는생성되는데이터의개수가상당히많으므로이런문제는해결된다.
76 Chapter 4. SAS 함수 EXAMPLE: 포아송분포생성 연못에서작업을시도하는회수는조사하였더니 ( 오전 9시부터오후 5시 ) 시간당평균 4 회이고포아송분포를따른다고하자. 매 30분조사하였을때작업회수데이터 0개를생성하시오. seed는 3으로하시오. 시간당평균 4이므로포아송분포의성질에의해 30분에는평균 이다. EXAMPLE: 주사위눈금 주사위던지는게임을한다. 열번던질때나오는수를생성해보자. 눈금은 부터 6까지의정수이고각눈금이나올가능성이동일하므로표확률분포를생성하는함수를이용하면된다. 시드는 3을사용하였다. 주사위각면이나타날확률은 /6로동일하다. 그러나 0번던지면각면의상대빈도 (relative frequency) 값은 /6이되지않는다.
77 EXAMPLE: 주사위눈금상대빈도 주사위를 000번던져각눈금의상대빈도를구해보자. 데이터의상대빈도를구하는 PROC 단계는 FREQ이다. NOCUM 옵션은누적빈도값을출력하지말라는옵션이다. 000번던졌을때는각눈금의상대빈도는 /6=6.7(%) 와다소차이는있다. 그러나더많이 0,000번쯤던지면? 상대빈도가 /6에근사한다.
78 Chapter 4. SAS 함수 EXAMPLE: 기대수익계산 주사위눈금에,000원을곱해상금을준다. 한번게임을할때게임참가비로 3,000원이다. 이게임의기대값 (expected value) 을계산하시오. 이게임을할때기대되는상금은 3500원 ( = ( + + 3 + 4 + 5 + 6)*000 / 6 ) 이고참가비가 3000원이므로기대수익은 500원이다. 정말기대수익이 500원일까? 게임을 0번할때매게임얼마를따는지 ( 잃는지 ) 알아보자. 그리고 PROC MEANS를사용하여게임의기대값을구해보자.
79 0 번게임했을때기대수익이 050 원이다. 그러나 000 번게임했다면? 아래와같이 5 원으로이론적기대수익에근사한다.
80 Chapter 4. SAS 함수 4.5. 연속형변수 분포함수확률분포함수 SAS 함수 표준정규분포 (Standard Normal) 감마분포 (Gamma) ( x μ) f ( x) = exp σ πσ < x < 평균 : μ, 분산 : σ α x / β f ( x) = x e α Γ( α ) β 0 < x < 평균 : αβ, 분산 : αβ X=RANNOR(seed); 평균이 μ, 분산이 σ 인 정규분포를따르는확률변수생성 X = μ + RANNOR(seed) *σ X=RANGAM(seed, α ); β = X ~ RANGAM ( α, β ) 인경우는 X= β * RANGAM(seed,α ); X ~ χ ( df = α ) 인경우는 X= * RANGAM(seed,α ); 베타분포 (Beta) 지수분포 (Exponential) 카이제곱분포 (Chi-squared) T-분포 F-분포 Γ( α + β ) α β f ( x) = x ( x) Γ( α) Γ( β ) 0 < x < 평균 : α /( α + β ), 분산 : α = 인감마분포. x / β f ( x) = e β 평균 : β, 분산 : β αβ α = r /, β = 감마분포. f ( x) = Γ( r / ) r / x 평균 : r, 분산 : r / r / x / T = W / V / r, 0 < x < f (x) 복잡, 자유도 r W ~ Normal (0,), V ~ χ ( r ) 평균 : 0, 분산 : r /( r ) U / r F =, 0 < x < V / r f (x) 복잡, 자유도 ( r, r ) W ~ χ ( r ), V ~ χ ( r ) e X=RANGAM(seed,α ); X=RANGAM(seed, β ); Y=X/(X+x); X=RANGAM(seed,); β = X ~ Exponential( β ) 인경우는 X=RANGAM(seed,) * β ; X= * RANGAM(seed, r / ); Y=RANNOR(seed); Y= * RANGAM(seed, r / ); X=Y/SQRT(Y/R); Y= * RANGAM(seed, r / ); Y= * RANGAM(seed, r / ); X=(Y/R)/(Y/R);
8 평균 : n /( n ), 분산 : 복잡 EXAMPLE: 정규분포생성 평균이 80, 분산이 7 인정규분포를따르는확률변수데이터 0 개를생성해보자. EXAMPLE: T- 분포생성 자유도 0 인 t- 분포를따르는확률변수데이터 0 개를생성하시오. 변수명은 T 로하자.
8 Chapter 4. SAS 함수 EXAMPLE: F- 분포생성 자유도 ( 5,7) F-분포를따르는확률변수데이터 0개를생성하시오. 변수명은 F 로하자. EXAMPLE: 백분위함수사용하기, 모비율검정 평균이 인 ( β = ) 지수분포를생성하고히스토그램을그려보자. MIDPOINT 옵션은막
83 대눈금은중간크기이다. CFILL 는막대안의색깔지정옵션이다. EXPONENTIAL 은이론 적지수분포의확률밀도함수를그리라는옵션이다. 모수 β 는데이터 00 개로부터추정된 평균으로추정된다.