Microsoft Word - Chapter5.doc

Size: px
Start display at page:

Download "Microsoft Word - Chapter5.doc"

Transcription

1 CHAPTER 5. BASE PROCEDURE SAS 데이터가 만들어지면 1SAS 데이터(변수)를 변환하거나 기존 변수를 이용하여 새로 운 변수를 만들고 얻어진 데이터를 이용하여 원하는 통계분석을 실시한다. SAS 데이터 (변수)를 변환하거나 새로운 변수를 만들 때는 관측치(행)에 대해 일련의 과정이 실시된다. 이런 과정에서 함수가 사용된다. PROC은 각 변수에 대한 일변량 통계분석, 변수 들간 관계 분석을 하는 단계로 데이터 단계에서 만들어진 SAS 데이터를 이용하게 된다. 원하는 정보를 얻기 위한 적정한 통계분 석 방법이 설정되면 거기에 맞는 PROC과 그것의 사용 방법 및 옵션 지정 방법대로 프로 그램을 실행하면 원하는 결과를 얻는다. 회귀분석을 하려면 SAS/STAT의 PROC REG, 품질공정 관리도 출력을 위해서는 SAS/QC 의 PROC SHEWHART, 시계열 자료 예측 모형은 SAS/ETS의 PROC ARIMA를 사용하면 된 다. 이처럼 통계 분석 방법에 따라 적절한 PROC가 존재한다. 여기서는 SAS/BASE(가장 기 초적인 통계분석을 위한 procedure)에 포함된 PRO에 대해 통계 분석 및 예제 중심으로 사 용방법과 결과 해석 방법을 다루기로 한다.

2 186 Chapter 5. BASE PROCEDURE 5.1 PROC 맛보기 FITNESS.txt 데이터를 살펴보자. 다음은 세 변수(RESTPULSE, RUNPULSE, MAXPULS)의 평균을 구하여 PULSE_AVG 변 수를 만들었다. 새로운 변수가 생성되었다. 기존 변수를 이용하여 새로운 변수를 만들거나 변환하는 작업은 함수를 이용하면 된다. (4장 참고) 이제 세 변수(RESTPULSE, RUNPULSE, MAXPULS) 각각의 기초 통계량(평균, 표준편차, 최대값, 최소값)을 구해 보자. 이는 각 변수에 대한 일변량 분석으로 PROCEDURE가 이용 된다. 변수에 대한 기초 통계량 계산을 위한 PROC은 MEANS, UNIVARIATE, SUMMARY 등 을 사용할 수 있는데 가장 간단한 것이 MEANS이다. 이 PROC은 SAS/BASE 제품에 포함

3 187 되어 있다. 세 변수(RESTPULSE, RUNPULSE, MAXPULS)의 상관에 대한 분석을 실시해 보자. 변수 들간의 분석이므로 PROCEDURE를 이용한다. CORR PROC이 이용되는데 SAS/BASE 제품 에 포함되어 있다. 출력 결과의 위에 숫자는 상관계수이고 아래 숫자는 유의확률(p-value)이 다. 유의확률이 유의수준보다 크다는 것은 귀무가설을 기각할 수 없다는 것이다. 유의확률 의 의미는 귀무가설을 기각할 최소의 유의수준, 혹은 관측된 검정통계량 귀무가설을 기각할 방향으로 치우칠 확률이다. 그러므로 유의확률이 유의수준(일반적으로 5%)보다 작다는 것 은 귀무가설을 기각할 수 있다는 것이다. 아래 결과를 보면 유의수준 5%에서 MAXPULSE 와 RUNPULSE의 상관관계는 유의하다. 다른 변수들간의 상관 계수는 유의하지 않다. MAXPULSE와 RUNPULSE의 상관계수가 0.998이므로 최대 맥박과 달릴 때 맥박은 양의 상관 관계가 존재한다. 즉 달릴 때 맥박이 높으면(낮으면) 최대 맥박도 증가한다(감소한다).

4 188 Chapter 5. BASE PROCEDURE 5. 데이터 조작 5..1 PROC PRINT SAS 데이터 내용을 출력 창에 출력하고자 할 때 사용한다. 가장 간단한 형태는 다음과 같으며 DATA= SAS데이터 이름 에 설정된 데이터 내용이 모두 출력된다. DATA= 옵션을 사 용하지 않으면 바로 전에 사용된 SAS 데이터가 출력되므로 사용하지 않아도 되나 가능하 면 사용하는 것이 프로그램 관리와 디버깅을 위해 좋다. 결과를 출력하면 자동으로 실행 날짜와 페이지 번호가 나타난다. 이를 출력하지 않게 하 려면 다음 OPTIONS 문장을 사용하면 된다. (3.5.11절 참고) NOOBS는 데이터 출력 결과 제 일 앞 줄에 Obs(데이터 순서)가 출력되지 않게 하는 옵션이며, VAR(iable) 옵션은 원하는 변 수만 출력하라는 것이다.

5 189 TITLE 문은 출력 결과의 제목을 정해주는 문장이며 제목 설정을 없애려면 TITLE; 문을 한번 실행해 주면 된다. SUM 문은 원하는 변수의 합을 출력하게 한다. SUMBY 문에 설정된 변수에 의해 각 변수들의 합이 출력된다. SUMBY 문은 반드시 BY 문과 함께 사용해야 한다. BY 문이 사용되는 경우에는 SAS 데이터는 사전에 반드시 BY 문 에 사용되는 변수에 의해 정렬(SORT) 되어 있어야 한다. 아래 PROC PRINT에서 BY 문에 변수 AGE가 사용되므로 FITNESS 데이터는 변수 AGE에 의해 정렬되어 있어야 한다.

6 190 Chapter 5. BASE PROCEDURE 5.. PROC SORT SAS 데이터를 원하는 변수에 의해 정렬하고자 할 때 사용한다. OUT 옵션은 정렬된 데이 터를 저장하는 SAS 데이터 이름을 지정한다. 사용하지 않으면 원 데이터 이름과 동일한 곳 에 저장된다. DESCENDING 옵션은 내림차순 정렬을 의미한다. FITNESS 데이터를 우선 변수 AGE에 의해 내림 차순(DESCENDING 옵션 사용) 정렬하 고 변수 OXYGEN에 의해 오름차순(디폴트가 오름 차순) 정렬하려고 한다면 다음 프로그램 을 이용하면 된다. BY 문에 사용된 변수 순서대로 데이터를 정렬한다. 결과는 OUT 옵션에 의해 FITNESS1 이름에 저장된다.

7 191 EXAMPLE: PROC SORT 사용하기 FITNESS 데이터를 변수 RUNTIME에 의해 오름차순으로 정렬하고 (정렬된 데이터는 FITNESS라는 이름으로 저장하시오) 변수 RUNTIME, AGE만 출력하자. 출력 결과의 제목 은 내림차순정렬 BY RUNTIME 이라고 하자 PROC RANK PROC SORT는 단순히 변수의 크기에 의해 데이터를 정렬한다면 PROC RANK는 변수의 크기에 의해 일련 번호를 부여하는 것이다. OUT 옵션은 결과를 저장하는 SAS 데이터 이름 을 지정한다. 만약 사용하지 않으면 원 데이터에 저장된다. RANKS 문장을 사용하지 않으면 변수의 원 값 대신 순위가 저장되므로 OUT=을 사용하여 새 이름으로 저장하는 것이 좋다. TIES 옵션은 동일한 값을 갖는 관측치가 있다면 순서 번호를 낮은 것으로 부여한다. 나 이가 44살인 사람이 4명 있다. 실제 순서는 7, 8, 9, 10인데 순서가 가장 낮은 7로 부여한다. HIGH(높은 순서), MEAN(순서 평균)을 사용할 수 있다. VAR 옵션은 순서를 부여하기 원하는 변수를 지정한다. RANKS 옵션은 순서 번호에 대한 변수명을 지정한다.

8 19 Chapter 5. BASE PROCEDURE VAR에 지정한 변수 개수만큼 지정해 주어야 한다. 만약 내림차순으로 부여하고 싶으면 DESCENDING 옵션을 사용하면 된다. 다음 프로그램은 FITNESS 데이터에서 나이 변수의 순위 값을 AGE_R 변수에 저장하고 산소량 변수의 순위 값을 OXYGEN_R에 저장한다. 새로운 데이터 이름은 RANK1이다. TIES=LOW 옵션으로 동일한 관측치가 있으면 낮은 순위가 저장된다. Obs=5, 10 모두 나이 가 38세로 동일하고 나이가 가장 적다. 순위가 부여될 수 있는 방법은 1, 1(TIES=low),, (TIES=high), 1.5, 1.5(TIES=mean)이 있다. 여기서는 LOW 옵션이 사용되었다. EXAMPLE: PROC RANK 사용하기 FITNESS 데이터를 변수 MAXPULSE에 의해 크기 역순(내림차순)으로 정렬하고 변수명 은 MAXPULSE_R로 하시오. 동일한 값에 대한 순서는 평균을 사용하시오. 새로운 SAS 데 이터 이름은 RANK로 하시오. 내림차순 순위를 부여해야 하므로 DESCENDING 옵션이 사용되었고(최대 맥박 19인 사 람의 순위가 1이다) 평균 순위 설정하기 위하여 MEAN 옵션(5번째, 1번째 관측치의 순위

9 193 가 8, 9 대신 8.5로 부여)을 사용하였다. EXAMPLE: PROC RANK 사용하기() 변수 RUNTIME의 크기에 의해 데이터를 3개의 그룹으로 나누고 싶다면 GROUPS 옵션 을 사용하면 된다. GROUPS는 데이터를 그룹으로 나눌 때 설정하는 옵션이며 VAR와 RANK 옵션에서 그룹화 하는 변수와 변수명을 지정한다. 다음은 RUNTIME 크기에 의해 데이터를 3개로 나누기 위한 프로그램이다.

10 194 Chapter 5. BASE PROCEDURE 5..4 PROC STANDARD STANDARD PROC는 원하는 변수를 원하는 평균과 표준편차가 되게 변형하는 절차이다. MEAN 옵션에서는 원하는 평균 값을 STD 옵션에서는 표준편차 값을 지정한다. 평균=0, 표 μ 준편차=1일 경우 이를 변수를 표준화( z = X )라 한다. BY문이 사용되면 이 변수에 따라 σ VAR에 지정한 변수가 변환된다. BY문에 사용되는 변수는 분류형 변수이어야 한다. 다음 프로그램은 RUNTIME 변수는 평균이 0이고 분산이 1인 변수로 변환된다. 결과는 ZSCORE 이름으로 저장된다.

11 195 정말 RUNTIME 변수가 평균이 0, 표준편차 1인지 확인해 보자. E-15의 의미는 미하므로 평균은 거의 0이다 의 EXAMPLE: PROC STANDARD 사용하기 FITNESS 데이터를 변수 MAXPULSE의 평균을 150, 분산을 3으로 표준화하자. 결과 데 이터는 SCORE라는 이름으로 저장하고, 변환된 MAXPULSE 변수의 평균과 표준편차가 150, 3으로 변환되었는지 PROC MEANS를 이용하여 확인해보자 PROC TRANSPOSE 데이터를 전치(transpose)하는 PROC이다. 열인 변수가 관측치, 행인 관측치가 변수로 변 환된다. NAME 옵션은 원 데이터 변수 이름에 대한 변수 이름을 설정한다. 이 옵션을 사용

12 196 Chapter 5. BASE PROCEDURE 하지 않으면 _NAME_ 이름이 사용된다. PREFIX는 전치된 데이터 변수 이름 앞의 접두어를 설정한다. 사용하지 않으면 COL이 디폴트이다. 다음 프로그램 실행 결과를 보듯이 행과 열리 바뀌었다. 원래 변수 이름은 _NAME_ 변수 에 관측치로 저장되어 있다. 행의 관측치들은 열로 전치되어 변수 이름은 COL*으로 설정되 었다. 원 데이터 FITNESS에는 변수 7개, 관측치 31개이었으나 전치된 TR1 데이터는 변수 3개(변수 이름 포함), 관측치 7개 있다. EXAMPLE: PROC TRANSPOSE 사용하기 원 데이터 변수 이름에 대한 변수 이름 지정을 위해 NAME 옵션을 사용하였고 관측치들 의 변수 이름 접두어로 V 사용하기 위하여 PREFIX 옵션을 설정하였다.

13 데이터 요약 데이터의 변수는 분류형(categorical, non-metric, qualitative, classified) 변수와 측정형 변수 (metric, measurable, quantitative)로 나뉜다. 측정형 변수는 실험 개체의 측정 가능한 특성을 측정한 변수로 키, 몸무게, 평점, IQ, 교통량, 사망자 수가 그 예이다. 분류형 변수는 개체를 분류하기 위해 측정된 변수를 의미하며 성별, 결혼여부 등이 그 예이다. 분류형 변수는 명 목형(nominal, 개체를 분류만 한다, 예: 성별, 결혼여부, 학력)과 순서형(ordinal, 순서를 가진 다. 예: 성적(A, B,..) 소득수준(상, 중, 하), 리커트 척도 문항)으로 나뉜다. 데이터의 각 변수를 개별적으로 분석하는 것을 일변량 분석(univariate analysis)이라 한다. 일변량 분석이란 변수의 요약치(통계량)를 구하거나 그 통계치를 이용하여 모수(모집단 특 성 값)를 추정하거나 가설 검정하는 것이다. 분류형 변수에 대한 숫자 요약은 빈도 분석, 측정형 변수에 대해서는 기초 통계량을 구하게 된다. 그래프 요약으로는 히스토그램, 줄기- 잎 그림, 나무 상자 그림이 있다. 여기서는 일변량 분석 중 숫자 요약 구하거나 정리하는 방법만을 살펴보기로 한다 PROC FREQ 분류형 변수의 빈도 표를 얻기 위해 사용되는 PROC이다. ORDER 옵션은 빈도 표 출력 할 때 행의 순서를 결정하는 것으로 DATA(원 데이터에 나타난 순서대로), FREQ(빈도의 크

14 198 Chapter 5. BASE PROCEDURE 기 순으로)을 사용할 수 있다. 디폴트는 분류형 변수의 관측치 알파벳 순이다. TABLE 문에 는 분류형 변수를 여러 개 열거해도 된다. NOCUM 옵션은 누적 빈도를 출력하지 말라는 것이다. RANK PRCO을 사용하여 FITNESS 데이터의 OXYGEN 변수의 크기에 의해 세 그룹으로 나누고 그 그룹 변수를 OXYGEN_G으로 설정하였다. 그리고 FREQ PROC 사용하여 나이 와 산소량 그룹 변수에 대한 빈도 표를 구하였다. EXAMPLE: PROC TRANSPOSE 사용하기 빈도 표의 향을 빈도의 크기 순(ORDER=FREQ 옵션)으로 하고 누적 빈도와 백분율을 출 력하지 않았다(NOCUM 옵션).

15 PROC MEANS 연속형 변수에 대한 기초통계량(elementary statistics, 평균, 중앙값, 백분위 값, 분산, 범위 등)을 계산하거나 모집단 평균에 대한 가설 검정을 하는데 사용되는 procedure이다. 측정형 변수에 대한 기초 통계량은 PROC UNIVARIATE에 의해 모두 얻을 수 있으나 MEANS의 장 점은 원하는 기초 통계량만을 출력할 수 있다는 장점이 있다. KEY-WORDS에는 원하는 통계량을 적어 주면 된다. ALPAH 옵션은 신뢰구간 구할 때 사 용되는 옵션으로 통계량 CLM(Confidence Limit for Mean, 평균에 대한 신뢰구간)을 출력할 때 함께 사용된다. 디폴트는 0.05이다. BY문과 CLASS 문은 유사한데 설정된 변수에 의해 VAR에 지정된 변수의 통계량이 출력 된다. 차이점은 예제를 통해 살펴보기로 한다. OUTPUT 문장은 기초 통계량을 SAS 데이터에 저장한 후 향후 프로그램 사용할 때 필요 한 문장이다. OUT=에는 새로 저장될 데이터 이름을 설정하고 그 뒤에는 기초 통계량의 변 수 이름을 설정한다.

16 00 Chapter 5. BASE PROCEDURE 다음은 MEANS에서 사용될 수 있는 기초 통계량의 키워드이다. 표본의 크기 n인 변수의 관측치를 ( x 1, x,..., xn ), 순서 통계량을 ( x( 1), x(),..., x( n) ) 이라 하자. 수정 제곱합(adjusted SS) ( x i x) 범위(range) R = x ( n) x(1)

17 01 s n xi x 3 변동계수(CV) CV = 100 왜도(skewness) ( ) x ( n 1)( n ) s n( n + 1) xi x 4 3( n 1) 첨도(kurtosis) ( ) ( n 1)( n )( n 3) s ( n )( n 3) 표준편차(std, stddev) s = ( xi x) n 1 LCLM s x t( n 1; α / ) 평균표준오차(STDERR) n s n 최대값(maximum) x (n) 관측치 합(sum) x i xi 평균(mean) x = UCLM n x + t( n 1; α / ) s n 최소값(minimum) x (1) 제곱합(Un-adjusted SS) x i N=표본의 수(관측치) ( xi x) 분산(variance) s = n 1 중앙값(median) x m = x(( n+1) / ) Inter Quartile Range Q3 Q1 OXYGEN 변수의 기초 통계량 평균, 표준 편차, 표준 오차( 5.3 / 31 ), 평균에 대한 신뢰 구간을 출력한 프로그램이다.

18 0 Chapter 5. BASE PROCEDURE EXAMPLE: PROC MEANS 사용하기 NOPRINT 옵션은 MEANS 출력 결과를 출력하지 말라는 옵션이다, OUTPUT 문장은 기초 통계량을 저장하라는 명령이다. 왼쪽은 기초 통계량 키워드이고 = 뒤에는 저장 변수 이름 이다. 키워드를 제대로 사용하면 파란색이 된다. 새 데이터 OUT1에는 자동 생성 변수 _TYPE_(0의 의미는 전체 모두 사용, 1은 하위 그룹, 여기서는 BY문이나 CLASS문을 사용 하지 않았으므로 1이 없다)와 _FREQ_(사용된 관측치 수)가 나타난다. EXAMPLE: PROC MEANS 사용하기() 나이 변수를 CLASS문에 사용하였다면? 자동생성 변수 _TYPE_=0이면 전체 관측치 모두 사용했다는 것을 의미하며 1의 의미는 나이별로 계산하였다는 의미이다.

19 03 BY문을 사용하면 _TYPE_=1인 경우만 출력되고 FITNESS 데이터는 반드시 BY문에 설정 한 변수에 의해 정렬되어 있어야 한다. 만약 NOPRINT 옵션을 사용하지 않으면 CLASS 문을 사용하면 출력 결과 창에 다음과 같이 출력된다. 그러면 BY문을 사용했을 때는 다음과 같이 출력된다.

20 04 Chapter 5. BASE PROCEDURE PROC TABULATE 기초통계량을 표 형태로 출력하는데 사용되는 PROC이다. BY문에 지정된 변수에 의해 테 이블이 작성된다. CLASS 문에는 분류형 변수를 지정한다. 분류형 변수는 행이나 열 변수로 사용된다. VAR문에는 측정형 변수를 지정하고 표에서 기초 통계량 구하는 변수로 사용된다. TABLE 문에서는 표의 형식을 설정하는데 행 형식을 먼저 지정하고 열 형식을 나중에 설정 하는데 그 사이는 쉼표(,)로 구별한다. 행이나 열에 교차 셀을 만들려면 (*)을 이용한다. 출 력하려는 기초통계량에 대한 키워드를 사용하면 된다 절에서 설명한 대부분을 키워드 로 사용할 수 있다. TABULATE에서만 가능한 키워드는 PCTN(빈도), ROWPCTN(행빈도), COLPCTN(열빈도) 등이 있다. CLASS.txt(SASHELP.CLASS) 데이터를 이용하여 예제 중심으로 살펴보기로 하자. 열은 분류형 변수 AGE, SEX에 의해 구성된다. 행은 열로 교차 표처럼 구성된다.

21 05 EXAMPLE: PROC TABLE 사용하기 ALL 옵션은 분류형 변수 각각이 아니라 전체에 대한 표도 작성하라는 것이다. OUT 옵션 에 의해 저장된 데이터를 보기 위하여 PROC PRINT를 사용하였다. 열의 형식 지정 시 * 앞에 평균, 분산을 지정하였으므로 셀의 위치가 다르다. 그러나 결과는 위와 동일하다.

22 06 Chapter 5. BASE PROCEDURE EXAMPLE: PROC TABLE 사용하기() 1.4.7절에서 설명한 것처럼 웹 문서 형식으로 결과를 출력되도록 도구 옵션 설정을 설 정한 후 한 후 위의 프로그램 실행하면 RESULT VIEW 창에 다음이 출력된다. EXAMPLE: PROC TABLE 사용하기(3) 분류형 변수 사용하지 않고 측정형 변수만 사용하는 경우 다음과 같이 하면 된다.

23 일변량 분석 데이터로부터 얻은 통계량을 이용하여 모수(모집단의 특성치)에 대한 추정과 가설 검정을 일변량 분석이라 한다. 모집단 평균, 모집단 비율, 모분산, 독립인 두 모집단 차이 검정, 짝 진 두 모집단 차이 검정, 두 모집단 비율 차이 검정, 두 모집단 분산 차이 검정을 일반적으 로 일변량(univariate) 분석이라 한다. 모비율이나 모분산, 두 모비율 차이 검정은 기초 통계량을 구한 후 수작업이나 4.4.3절에 서 SAS 함수를 이용한 계산을 하는 것이 더 효과적이다. 모비율에 대한 가설 검정의 경우 빈도 분석(PROC FREQ)을 이용하여 표본 비율(상대 빈도, 백분율)을 구하고 이것을 검정 통계량으로 사용하면 된다. 두 모비율 차이 검정도 동일하다. 모분산 검정이나 모분산 차이 검정도 표본 분산만을 이용하여 간단히 할 수 있다. 여기서는 측정형 변수에 대하 원 데이터가 있는 경우 모집단 평균에 대한 가설 검정 방 법을 살펴보기로 하자 통계적 개념 중앙 위치: 평균(mean)

24 08 Chapter 5. BASE PROCEDURE 평균은 관측치의 절대 크기의 중앙이므로 모든 관측치를 더한 값을 관측치 수(n)로 나눈 값이므로 산술 평균(arithmetic average)과 동일한 개념이다. n개의 관측치 ( x1, x, K, xn ) 의 1 n x1 + x + L + xn 평균은 x = xi = 이다. n i= 1 n (1, 4, 6, 5, 6, )의 평균은 ( )/6=4이다. 순서 통계량(order statistics) 크기가 n인 표본 자료의 관측치(observation) x, x, K, x ) 을 크기 순으로 정렬한 후 가 ( 1 n 장 작은 관측치를 x (1), 그 다음 큰 관측치를 x (),, 가장 큰 관측치를 x(n) 이라 표현하고 x (1), () x,.., x(n) 을 순서 통계량이라 한다. 제품의 불량 개수를 관측하여 ( ) ( x1, x, K, x1) 순서통계량은 ( ) ( x( 1), x(), K, x(1) ) 중앙위치: 중앙값(median) 자료의 크기 중심인 평균과는 달리 중앙값은 자료의 순서의 중심이다. 자료의 중앙값을 계산하기 위하여 자료의 순서 통계량(order statistics)을 먼저 구해야 한다. 순서 통계량이란 관측치를 크기 순으로 정렬한 후 제일 작은 값부터 x( 1), x(), K, x( n) 으로 표기하고 이를 순서 통계량(order statistics) 이라 한다. 만약 표본의 크기 n이 홀수이면 M = x({ n+1}/ ), 짝수이 면 M = [ x( n / ) + x({ n+ }/ )]/ 이 중앙값이 된다. 순서통계량(order statistics): 크기가 n인 표 본 자료 관측치(observation) x, x, K, x ) 을 크기 순으로 정렬한 후 가장 작은 관측치를 x (1), 가장 큰 관측치를 (n) 서 통계량에 대해 다음이 성립한다. x( 1) x()... x( n) 최소값 x (1), 최대값 x (n) 범위(range): x( n ) x(1) ( 1 n x 이라 표현하고 x (1), x (),.., x(n) 을 순서 통계량이라 한다. 순

25 09 크기 6인 표본 관측치 (1, 4, 6, 5, 6, )의 순서 통계량은 (1,, 4, 5, 6, 6)이다. 최소값은 x 1, 최대값은 x 6 이고 범위는 x x 5 이다. ( 1) = ( 6) = ( 6) (1) = 깊이(depth) 사분위 값을 구하려면 자료의 깊이 (depth) 개념을 이용하면 편리하다. (Tukey 제안) 관측 치를 크기 순으로 정렬한 후 각 양쪽 끝에서 1부터 번호를 매겨 그 번호를 자료의 깊이라 정의한다. 즉 최대값, 최소값의 깊이는 각 1이다. Depth(중앙값=M)= ( n +1) / 이고 사분위 깊 이는 Depth(Q1)=Depth(Q3)=([Depth(M)]+1)/이다. (기호)[x]=x를 넘지 않는 최대 정수. 크기 6인 표본 관측치 (1, 4, 6, 5, 6, )의 중앙값 길이는 (6+1)/=3.5이고, 사분위 길이는 ([3.5]+1)/=(3+1)/=이다. 평균과 중앙값 비교 자료의 측정치 중 다른 측정치에 비해 아주 크거나 아주 작은 측정치(극단치)가 존재하는 경우 순서의 중심인 중앙값과는 달리 크기의 중심인 평균은 극단치가 존재하는 쪽으로 치 우치게 된다. 극단치 중 수집 자료에 포함하여 분석하기에는 부적절하게 크거나 작은 측정 치를 이상치(outlier)라 한다. 다음은 확률 분포 함수 (히스토그램) 형태에 따른 중앙값과 평 균의 관계이다. 크기 10인 자료 (1,, 3, 4, 5, 6, 7, 8, 9, 55)의 경우 평균과 중앙값을 구하면 평균은 x = 10 이고 중앙값은 M = x + x ] / = (5 + 6) / 5. 5 이다. 중앙값 길이는 (10+1)/=5.5이고 [ ( 5) (6) = 사분위 길이는 ([5.5+1])/=3이다. 그러므로 제 일사분위 Q1 은 x( 3) = 4 이다.

26 10 Chapter 5. BASE PROCEDURE 위의 자료에서 중앙 위치를 나타내는 숫자 요약으로는 중앙값인 5.5가 평균인 10보다 더 합리적이다. 이와 같이 극단치가 존재하는 경우 자료의 중앙 위치를 나타내는 통계량으로 중앙값이 평균보다 더 이상적인 값이다. 그리고 자료에 극단치가 존재하지 않으면 중앙값과 평균이 거의 일치하므로 자료의 중앙 위치에 대한 요약 값이라는 측면에서는 중앙값이 평 균보다 더 합리적이다. 중앙값이 평균에 비해 더 합리적인 중앙 위치 값임에도 불구하고 평균을 사용하는 이유 는 다음과 같다. 평균에 대한 1수학적 전개가 용이하고 중앙값과는 달리 평균의 분포함 수를 쉽게 구할 수 있기 때문이다. 중심극한정리(Central Limit Theorem)에 의하면 표본의 크 기 n인 큰 경우(대표본) 모집단의 분포에 상관없이 표본 평균의 분포 함수는 정규분포를 따 른다. 통계량의 분포함수를 구할 수 있는 것이 장점이 되는 이유는 통계량의 분포를 알아야 모수에 대한 신뢰구간을 구하거나 모수에 대한 가설 검정이 가능하다. 극단치가 존재하는 경우 치우침으로 인해 평균의 효율성이 떨어지므로 극단 일부를 제외 하고 평균을 구하게 되는데 이를 TRIMMED(절사) 평균이다. 0% 절사평균은 양쪽에서 10%씩 데이터를 제외하고 평균을 구하게 된다. 이것 역시 문제가 있다. 절사 평균의 분포 를 구하기 어렵다는 것이다. 중심극한정리 (Central Limit Theorem) 표본의 크기 n 이 큰 경우 (0~30 이상) 모집단의 분포 형태에 관계없이 표본 평균의 분 포는 정규분포를 따른다.

27 11 흩어진 정도(산포도: spread) 위의 그림은 두 대학의 수능 성적 자료 분포 함수이다. 자료의 중앙 위치 값(30점)만으 로 보면 두 대학 신입생들의 성적은 동일하다고 말할 수 있을 것이다. 그러나 확률 분포 함 수를 살펴보면 두 대학 신입생들의 수능 성적은 전혀 다른 정보를 가지고 있음을 쉽게 알 수 있다. A 대학의 신입생은 매우 우수한 학생이 있고 상대적으로 성적이 낮은 학생들도 있 으나 B 대학 신입생들의 성적은 큰 차이를 보이지 않고 평균 점수에 집중되어 있다. 범위와 IQR 측정 자료의 최대값과 최소값의 차이를 범위(range)라 한다. 범위는 계산이 편리하다는 장점이 있으나 범위 계산할 때는 두 측정치(최대값, 최소값)만 사용되므로 다른 측정치들의 정보가 전혀 고려되지 않고 이상치나 극단치가 존재하는 경우 범위가 커지는 단점이 있다. 크기가 10인 자료 (1,, 3, 4, 5, 6, 7, 8, 9, 55)와 같이 극단치가 존재하면 자료의 범위는 54 로 커지게 된다. 극단치가 존재하는 경우 산포도의 계산 값인 범위가 커지는 단점을 보완하 기 위하여 삼 사분위 값과 일 사분위 값의 차이인 IQR 값을 산포도로 사용하기도 하지만 이것 역시 다른 측정치의 정보는 무시되는 단점을 가지고 있다. p%-percentile(백분위 값) 데이터 관측치 중 p%가 그 값보다 작고 (1-p)%가 그 값보다 클 때 그 값을 p% 백분위 값이라 한다. 일사분위(First Quartile, Low Quartile) Q1은 관측치 중 5%가 그 값보다 작고 75%가 그 값보다 클 때 그 값을 일사분위라 정의한다. 이사분위(Second Quartile, Median)

28 1 Chapter 5. BASE PROCEDURE Q은 관측치 중 50%가 그 값보다 작고 자료의 50%가 그 값보다 클 때 그 값을 이사분위 라 정의하고 이를 특히 중앙값이라 한다. 삼사분위(Third Quartile, Upper Quartile) Q3는 관측 치 중 75%가 그 값보다 작고 자료의 5%가 그 값보다 클 때 그 값을 삼사분위라 정의한 다. 그리고 (Q3-Q1)을 자료의 IQR(Inter-Quartile Range)라 한다. 크기 6인 표본 관측치 (1, 4, 6, 5, 6, )의 순서 통계량은 (1,, 4, 5, 6, 6)이다. 중앙값의 깊 이는 ( 6 + 1)/ = 3. 5 이고 일사분위와 삼사분위 깊이는 ([ 3.5] + 1)/ = 이다. 그러므로 일사분위 Q = x, 이사분위 중앙값 Q = (4 + 5) 4. 5, 삼사분위 Q = x 6 이다. 그러므로 1 () = = 3 (5) = IQR = 6 = 4 이다. 백분위 값을 이용하여 상자-수염 그림을 그릴 수 있다. 상자-수염 그림은 측정형 데이터 의 분포 형태와 이상치를 발견하는데 도움을 주는 그래프이다. Q3+1.5*IQR Q1-1.5*IQR 표준편차 및 분산 자료의 산포도 측정치로 가장 많이 사용되는 분산(variance)은 각 측정치( x i )들이 평균 ( x )으로부터 떨어진 정도(차이)를 제곱한 값들을 합한 후 자료의 수로 나눈 값이고 표준 편 차(standard deviation)는 분산의 양의 제곱근 값으로 정의된다. 모집단 전체 자료의 분산을 모집단 분산( σ ), 표준 편차를 모집단 표준 편차(σ : sigma)라 하고 표본 자료의 경우는 표 본 분산(s ), 표본 표준 편차(s)라 한다. 표준편차나 분포는 순서 통계량에 의해 자료의 흩어진 정도를 나타내는 범위나 IQR과는

29 13 달리 측정치들이 평균으로부터 떨어진 정도를 숫자로 나타낸다. 측정치와 평균의 차이를 제 곱함으로써 멀리 떨어질수록 자료의 흩어진 정도에 더 많은 영향을 미치게 된다. 즉 표준 편차나 분산은 자료들이 평균으로부터 평균적으로 얼마나 떨어져 있는지를 나타내는 수치 이다. n ( x x) 1 n i 표본 분산 및 표준 편차 계산식: s = = [ xi n( x) ], n 1 n 1 크기가 6인 자료 (1, 4, 6, 5, 6, )의 분산과 표준 편차를 구해보자. i= 1 i= 1 s = s 1 6 (1 4) + (4 4) + L+ ( 4) s = ( x i 4) = = 4.4, s = 4.4 = i= 1 5 평균과 표준편차 측정형 자료에 대한 기초 통계량을 정리할 때 평균과 표준 편차를 사용하는 것이 좋다. 분산은 측정치들을 제곱한 값들을 합한 것이므로 측정치들을 단순히 합한 평균과는 단위가 다르지만 제곱근을 구한 표준 편차는 평균과 단위가 일치하기 때문이다. 변동계수(CV: Coefficient of Variation) 측정 단위에 따라 표준 편차의 값의 크기가 달라지므로 단위가 다른 두 집단을 비교하는 경우 두 표준 편차의 단위를 같게 할 필요가 있다. 이를 위하여 표준편차를 평균으로 나눈 값에 100을 곱한 값을 변동 계수(CV: Coefficient of Variation)라 하고 상대 변동(분산) 개념 으로 정의하고 있다. s 변동계수 계산식: 표본 자료의 평균이 x, 표준 편차가 s 인 경우 CV = 100(%) x 학생 A, B의 공부 습관을 조사하였더니 A학생은 평균 3시간, 표준 편차는 0.5, B 학생은 6시간 표준 편차 0.8인 결과를 얻었다. 어느 학생이 더 꾸준히 공부하는 습관을 가지고 있 을까? 계산 결과 B 학생이 더 꾸준히 공부하는 습관을 가지고 있었다. A 학생 공부시간에 대한 변동 계수 = 0.5 / 3 100(%) =16.7 (%) B 학생 공부시간에 대한 변동 계수 = 0.8 / 6 100(%) =13.3 (%)

30 14 Chapter 5. BASE PROCEDURE 표준편차 와 표준오차(standard error) 표준편차 (standard deviation)는 자료의 표준 편차이고 표준오차는 통계량(여기서는 표본 평균)의 표준편차이다. 그러므로 표본평균의 표준오차는 우) 혹은 s / n (모집단 표준 편차 모를 경우) 이다. σ / n (모집단 표준 편차를 알 경 모평균, 모집단 평균 차이 추론 모평균 추론, 모평균 차이 추론에 대한 방법은 4.4.절을 보기 바란다. 줄기-잎 그림 (stem and leaf 그래프) 다음은 벤처 기업 CEO 30명의 연봉(salary)을 조사한 자료이다. ⑴자료를 크기 순으로 정리한다. 자료의 수가 많을 때는 자료 정렬을 수작업 하기 어려움 으로 이 단계는 무시해도 되지만 자료를 크기 순으로 정렬해 놓으면 plot을 그리기 편 리하다. ⑵자료를 살펴 줄기와 잎을 결정한다. CEO 연봉 자료를 살펴보면 100단위를 줄기로 하 고 10단위 이하를 잎으로 하여 plot을 그리면 될 것이라는 것을 알 수 있다. ⑶한 열에 줄기(stem)를 먼저 그린다. 위에서 100단위 이상을 줄기로 하기로 결정하였고 자료의 최소값이 58, 최대값이 1103이므로 0부터 11까지 줄기를 한 열에 크기 순으로 적는다. ⑷줄기(stem) 옆에 잎을 그린다. 잎을 그리는 방법은 간단하다. 줄기 바로 뒤의 숫자를 줄기 옆에 차례로 적으면 된다. CEO 연봉 자료는 잎이 두 자리이지만 앞에 것 하나만 적으면 된다. 굳이 반올림하는 수고를 할 필요는 없다. 줄기-잎 그림의 목적은 자료의 분포 형태, 분포의 중앙, 흩어진 정도, 이상치 존재 여부를 아는 것이기 때문이다. ⑸일반적으로 줄기의 숫자가 8-10개 정도면 데이터의 분포를 보는데 적당하다고 한다. 줄 기 수가 너무 많으면 (squeezed stems): 줄기를 -3개 합치는 방법을 생각하면 된다. 만약 줄기가 1-0까지 있다면 1-, 3-4, 5-6,, 19-0을 각각 줄기로 하면 줄기 수가 0

31 15 개에서 10개로 줄어든다. 줄기 수가 너무 적으면 (stretched stems) 줄기를 다음과 같 이 등분(double stem: 0~4:*, 5-9:.) 혹은 5등분(five-line stem: 다음 페이지 참고)하여 사 용하면 된다. 데이터 정렬 없이 그린 줄기-잎 그림 크기 순으로 정렬한 줄기-잎 줄기-잎 그림의 정점을 연결하고 회전하면 데이터 분포 형태, 즉 확률 분포 함수가 된다. 그러므로 분포의 형태(좌우 대칭 여부, 중앙 위치, 데이터 변동), 봉우리 개수, 이상치 존재 여부를 알 수 있다. 줄기-잎 그림은 데이터 분포 형태(치우침, 봉우리 개수)와 이상치 존재 여부를 알 수 있다.

32 16 Chapter 5. BASE PROCEDURE 이상치 판단은 상자-수염 그림을 이용하는 것이 더 적절하다. [치우친 형태] [봉우리] 봉우리가 개 이상인 의미는 모집단이 하나 이상일 가능성이 많다. 두 개의 생산 라인으 로부터 표본을 추출하여 불량의 개수에 대한 히스토그램을 그리면 bi-modal 형태가 될 가 능성이 높다. 왜냐하면 생산 라인의 불량률 차이로 인하여 이런 현상이 발생할 수 있기 때 문이다. 측정 변수의 특성에 따라 모집단이 나누어진다. 봉우리가 개 이상인 경우는 집단 을 나누어 분포 함수를 구하고, 모수에 대한 추정 및 검정을 시행하는 것이 바람직하다.

33 17 [Five-stem 줄기-잎 그림] 원 줄기가 개 밖에 안되어 각 줄기를 5개로 나누는 방법을 살펴보자. (예) double stem 1 * 1.0~ ~1.9 (예) five-line stem 1 * 1.0~1.1 1 t 1.~1.3 1 f 1.4~1.5 1 s 1.6~ ~1.9 히스토그램 Histogram(히스토그램, 이를 bar chart라고도 함)은 수집된 데이터 범위(range=최대값-최소 값)를 적절한 개수의 구간(8-10개)으로 나누어 각 구간의 상대 빈도를 표시한 것으로 확률 분포 함수와 같다. 형태는 줄기-잎 그림과 동일하나 줄기-잎 그림과는 달리 막대 안에 숫자 가 표시되지 않아 정보 면에서 비효율적이다. 다음은 CEO 데이터에 대한 히스토그램을 그린 것이다. 줄기-잎 그림과 동일하나 막대 안 에 숫자가 없다.

34 18 Chapter 5. BASE PROCEDURE 상자 수염 그림 Stem and leaf(줄기-잎) plot은 자료의 분포의 형태(좌우 대칭, 단봉) 파악과 이상치를 발견 할 수 있는 도구이다. 그러나 줄기 잎 그림만 가지고는 정확한 중앙 위치, 자료의 사분위 값의 위치(5%, 50%, 75% 부분의 값들), 이상치라 판단은 불가능하다. 상자-수염(Boxwhisker) 그림은 최소값(아래 수염의 끝) 일사분위(Q1, 상자 아래 끝), 중앙값(상자 안 실선), 삼사분위 위치(Q3, 상자 위 끝), 최대값(위 수염 끝) 등 여부(bullet)를 그려 놓은 상자 형태의 그림이다. 5개의 요약 통계량과 이상치 존재 [순서1] 자료의 최소값, 최대값을 이용하여 y축 선을 그린다. [순서] Q1, Q3를 이용하여 상자를 그린다. 상자의 넓이는 아무 의미가 없다. [순서3] 상자 가운데 중앙값을 그리고 평균은 기호로 (+) 표시한다.

35 19 [순서4] IQR을 이용하여 가상 선 (imaginary line) Inner fence, Outer fence를 그린다. 가상 선은 실제 상자 그림에 표시되지 않는다. 이상치 존재 여부를 표현하기 위한 임시 선이다. IQR=(543-6)=81 Inner fence ( Q IQR, Q IQR ) =(-159.5, 964.5) Outer fence ( Q 1 3 IQR, Q IQR ) =(-581, 1386) [순서5] 수염과 이상치를 표시한다. 관측치 중 Inner fence를 넘지 않는 최대, 최소값까지 수염을 그린다. Fence를 넘는 관측치를 이상치(outlier)라 한다. outer fence까지 넘는 관측치 는 severe (극심한) 이상치, inner fence만 넘으면 mile 이상치라고 한다. [CEO에서 1103은 mild 이상치] 관측치 중 5%는 수염 부분에 50%는 상자 안에(중앙값을 중심으로 5%씩) 있으므로 이 를 이용하여 분포함수를 그릴 수 있다. 박스 안에 있는 것이 상자-수염 그림을 이용하여 그 린 분포의 형태이다. 상자 안의 +는 평균의 위치를 나타낸다. 분포가 우로 치우친 형태이므 로 평균이 중앙값보다 크다고 할 수 있다.

36 0 Chapter 5. BASE PROCEDURE 5.4. PROC MEANS PROC MEANS 사용 방법에 대해서는 5.3.절을 참고하기 바란다. MEANS PROC는 모집 단의 평균이 0인지 검정하는 통계량과 유의확률을 출격한다. EXAMPLE: PROC TABLE 사용하기(3) POTTERY.txt (6개 변수, 6개 관측치; Al, Fe, Mg, Ca, Na 함유량, 도자기 만든 사이트)에 서 도자기의 알루미늄 함유량(AL)이 13 이상인지 유의수준 5%에서 가설 검정하시오. ⑴귀무가설: 도자기이 AL 함유량은 13이다. μ = 13 대립가설: μ > 13 x μ ⑵검정통계량: T = = =.54 ~ t( n 1 = 5) s / n.993 / 6 n=6인 대표본이므로 중심극한 정리에 의해 표본평균이 정규분포에 근사 한다. 이를 이

37 1 용하면 검정통계량은 표준정규분포를 따르지만 통계소프트웨어는 t-분포를 그냥 이용한다. 표본의 크기가 커지면 t-분포는 표준정규분포에 근사 한다. MEANS PROC은 H 0 : μ = 0 에 대한 검정 통계량이 제공되므로 변수 변환 (AL-13)하고 PROC MEANS를 사용해야 한다. (AL-13)에 대한 모평균 0 검정은 AL의 모평균 13의 가설 검정과 동일하다. 양측 검정의 경우 유의확률을 제공하므로 단측 검정이므로 유의확률을 1/로 한다. 출력 결과 유의확률이 이므로 여기서는 단측 검정이므로 이다. 도 자기의 AL 함유량 표본 평균은 ( )이다. CLM 옵션에 의해 신뢰구간을 구할 수 있다. 데이터 변환을 통해 13을 빼 주었으므로 실 제 신뢰구간은 (13.8, 15.7)이다. 기초 통계량을 얻는데 MEANS 사용하는 것은 적절하나 모평균 검정을 위하여 PROC MEANS 사용하는 것은 다소 불편하다? 모평균에 대한 가설 검정은 UNIVARIATE, TTEST 사용하는 것이 편리하다 PROC UNIVARIATE 측정형 데이터 관련 기초통계량 및 그래프, 일변량 분석에 필요한 모든 것들을 얻을 수 있다. UNIVARIATE PROC은 너무 많은 것을 할 수 있다는 것이 장점이자 단점이다. 기초통 계량만 얻으려면 MEANS, 모평균 검정(t-검정)을 위해서는 TTEST 사용하는 것이 편리하다. CLASS문과 BY문에 설정된 변수에 의해 VAR 문장의 변수에 대한 일변량 분석을 개별적

38 Chapter 5. BASE PROCEDURE 으로 한다. 그러므로 BY문, CLASS문에 사용되는 변수는 분류형 변수이어야 한다. HISTOGRAM, PROBPLOT, QQPLOT은 일변량 분석을 위한 그래프를 그리는데 사용되는 것이다. 예제를 통하여 사용 방법을 살펴보기로 하자. EXAMPLE: PROC UNIVARIATE 사용하기: MU0 옵션 MU0= 옵션은 귀무가설에 설정되는 모집단 평균 값을 설정한다. POTTERY.txt 데이터에 서 도자기의 AL 함유량이 13 이상인지 유의수준 5%에서 검정해 보자. VAR 문에는 여러 변 수 동시에 사용해도 된다. Wow! 참으로 많은 결과가 출력된다. 출력 결과를 차례로 살펴보자. k 먼저 적률(moment) E( X ) 과 관련 통계량이 출력된다.

39 3 N=표본의 수(관측치) 가중치(weight) 평균을 구할 때 가중치 합 xi 평균(mean) x = 관측치 합(sum) x i n 표준편차(std) s = 왜도(skewness) ( xi x) n 1 n xi x ( ) ( n 1)( n ) s 3 ( xi x) 분산(variance) s = n 1 첨도(kurtosis) n( n + 1) x ( ( n 1)( n )( n 3) i x ) s 4 3( n 1) ( n )( n 3) (정규분포의 경우 왜도는 0이고 첨도는 0이다. 첨도의 마지막 항이 없으면 3이다) 제곱합(sum of square) x i 수정제곱합(adjusted) ( x i x) s 변동계수(CV) CV = 100 평균표준오차(STDERR) x s n 데이터의 중앙 위치와 산포(흩어진 정도)를 나타내는 통계량으로 크기, 순서에 의한 통계 량이 출력된다. 사분위 범위는 삼사분위(Q3)-일사분위(Q1)에 의해 구해지며 IQR이라 한다. 최빈(mode)값은 빈도가 가장 높은 관측치를 의미하는데 측정형 변수의 경우에는 사용하지 않는 통계량이다. 모집단 평균에 대한 가설 검정(예제에서는 H 0 : μ = 13 )을 위한 검정 통계량과 양측검정 시 사용되는 유의확률이 출력된다. 이 결과는 MU0 옵션에 의해 출력된 것이다. 양측 검정 결과임을 알려주는 방법으로 SAS는 유의확률 출력 시 절대값(양쪽 모두 고려하였다는 의 미) 기호를 사용한다. 아래 3개 모두는 양측 검정 시 유의확률임을 알려준다.

40 4 Chapter 5. BASE PROCEDURE t-검정통계량과 유의확률이 출력된다. 검정통계량은 t=.54(5.4.절 MEANS 결과와 동일 하다. 물론 유의확률 값도)이고 대립가설이 H a : μ > 13 로 단측 가설이므로 유의확률은 (=0.0176/)이다. 유의수준 0.05보다 유의확률이 작으므로 귀무가설은 기각된다. 도자기에 포함된 AL 함유량은 13 이상이라 할 수 있다. 비모수 방법(nonparametric, distribution-free test)인 부호(sign test)와 부호 순위 검정 (Wilcoxon signed rank test) 관련 검정 통계량과 유의확률이 출력된다. 해석 방법은 동일 하다. 부호 검정의 경우 유의확률이 0.164이므로 귀무가설이 채택된다. 부호 순위 검정 은 유의확률 0.07이므로 귀무가설 기각된다(t-검정 방법과 동일). 비모수 방법은 소표본 이고 모집단이 정규분포라는 가정을 할 수 없을 때 사용되는 방법이다. 마지막으로 데이터의 백분위 값(순서 통계량)이 출력된다. 75%가 삼사분위 값(Q3), 50%는 중앙값, 5%는 Q1(일사분위)이다. 그 옆은 최소값들과 최대값들이 출력되어 있다. EXAMPLE: PROC UNIVARIATE 사용하기: NORMAL 옵션 데이터의 분포가 정규분포를 따르는가에 대한 검정이다. Shapiro Wilks 검정 방법이 가장

41 5 널리 이용되며 K-S 방법도 자주 사용된다. 가설 검정 결과에 차이가 있다면 귀무가설을 채 택하는 검정 통계량을 사용하면 된다. 데이터의 정규성(normality) 검정 시 귀무가설은 데 이터가 정규분포를 따른다 이다. S-W 검정 통계량의 경우 유의확률이 로 귀무가설 이 채택되므로 AL 변수의 분포는 정규분포를 따른다. 정규성 검정 방법으로는 그래프 방법(Q-Q plot, PROB plot)이 있으나 이는 eye-ball(눈으로 어림짐작) 방법일 뿐 가설 검정 방법은 아니므로 참고로 이용된다. EXAMPLE: PROC UNIVARIATE 사용하기: PLOT 옵션 일변량 분석에 관련된 그래프는 히스토그램(histogram) 줄기-잎 그림(stem and leaf plot), 상자-수염 그림(box-whisker plot) 등이 있다. PLOT 옵션을 사용하면 줄기-잎 그림과 상자 수 염 그림, 정규 확률지가 그려진다.

42 6 Chapter 5. BASE PROCEDURE 줄기-잎 그림, 상자-수염 그림에 대해서는 5.4.1절을 참고하기 바란다. 우로 치우친 형태 (줄기-잎 그림, 상자 수염 그림에서 평균이 중앙값보다 위)이며 이상치는 존재하지 않는다. 상자 수염 그림 옆의 수치는 앞의 통계량 출력 결과를 보고 적은 것이다. 그래프에서 보면 우측으로 치우친 형태이나 Shapiro-Wilks 정규성 검정 결과 AL 함유량 데이터는 정규분포를 따른다고 할 수 있다. 데이터가 정규분포를 따르는지는 정규성 검정에 의해 판단한다. EXAMPLE: PROC UNIVARIATE 사용하기: HISTOGRAM 문장 일변량 분석에서 히스토그램의 역할은 미미하므로 예제 하나만 살펴보기로 하자. MIDPOINTS 옵션은 막대의 중앙값을 지정한다. CFILL 옵션은 막대 색, NORMAL은 정 규분포 확률분포함수를 나타내보라는 옵션이다. 정규분포 대신 EXPONENTIAL, GAMMA, BETA, WEIBULL, LOGNORMAL 등을 사용할 수 있다. 히스토그램 뒤의 확률분포함수는 원 데이터가 정규분포(NORMAL 옵션)라면 히스토그램 의 형태가 이렇게 되어야 한다는 것이다. 다소 차이가 있으므로 정규성은? 봉우리가 개로 보인다. 이는 두 집단이 섞여 있을 가능성과 구간 설정에 의한 우연한 현상일 수 있다. 원

43 7 데이터의 구조를 살펴볼 필요가 있다. 도자기 데이터는 생산 지역별 데이터이므로 집단별 차이가 있을 가능성이 있다. 여전히 정규성 검정은 K-S검정, S-W 검정에 의함을 잊지 말기 바란다. 그래프는 시각적 정보를 우리에게 준다. 정규성 검정은 봉우리 개 이상인 문제는 감지하지 못한다. 봉우리 개인 확률분포함수 곡선과 원은 여러분의 이해를 돕기 위하여 저자가 그려 넣은 것이다. EXAMPLE: PROC UNIVARIATE 사용하기: PROBPLOT 문장 X-축은 이론적 백분위 값, Y-축은 데이터 백분위 값으로 하여 그린 산점도를 Probability plot이라 한다. 백분위 대신 Quartile 값을 사용하면 Q-Q plot이다. 두 그래프의 형태와 해석 방법은 동일하므로 Probability plot 그리는 방법과 해석 방법을 살펴보기로 하자. NORMAL 옵션은 이론적 분포(X-축 백분위)를 정규분포로 하라는 것이다. 히스토그램에서 와 같이 EXPONENTIAL, GAMMA, BETA, WEIBULL, LOGNORMAL 등을 사용할 수 있다.

44 8 Chapter 5. BASE PROCEDURE MU는 평균, SIGMA를 설정하는 옵션이다. EST 의미는 추정하라는 것이다. PCTLMINOR는 축에 작은 눈금을 사용하라는 의미이다. INSERT 옵션은 데이터의 표본 평균과 표준편차를 그래프에 출력하라는 옵션이다. HEADER는 표 제목, POSITION은 위치를 지정하는 옵션이다. EXAMPLE: PROC UNIVARIATE 사용하기: BY 문장 분류형 변수에 의해 분류된 집단을 개별적으로 일변량 분석을 하려면 BY문이나 CLASS

45 9 문을 사용하면 된다. 둘의 출력 결과는 유사하나 BY문을 사용하면 맨 마지막에 집단별 상 자-수염 그림을 함께 그리므로 집단 비교에 유용하다. BY문을 사용할 때는 데이터가 설정된 변수에 의해 정렬되어 있어야 하므로 먼저 SORT PRCO 사용하여 데이터를 정렬하였다. 사이트 L의 도자기에 AL 함유량이 사이트 A에 비 해 낮아 보인다. 분포의 형태가 유사하므로 비교 가능. 사이트 C나, I는 데이터의 분포 형 태 상 비교하는 것이 무의미하다.

46 30 Chapter 5. BASE PROCEDURE PROC TTEST BY문은 분류형 변수에 의해 개별적으로 VAR 문에 지정한 변수의 T-검정하라는 의미이다. TTEST에서 CLASS 문은 두 모집단 평균 차이 검정 시 집단을 의미하는 분류형 변수를 지 정하는 문장이다. CLASS에 지정된 변수의 범주가 3개 이상이면 오류가 발생한다. PAIRED 는 짝진 두 집단 평균 차이 검정을 위한 문장이다. 모집단 평균에 대한 가설검정 및 신뢰구간, 모집단 분산에 대한 신뢰구간을 구하려면 UNIVARIATE보다는 TTEST가 유용하다. 다음은 FITNESS.txt 데이터의 RUNTIME 변수에 대해 모평균이 11인가에 대한 가설 검정과 90% 신뢰구간을 구하는 프로그램이다. H0= 옵 션은 귀무가설에 설정된 모평균 값을 지정한다. ALPHA= 옵션은 유의수준을 지정하게 되는 데 사용하지 않으면 default는 0.05이다. VAR 문에서는 분석을 원하는 변수를 지정한다. 옵션 H0는 귀무가설에 설정한 모집단 평균을 지정하는 옵션이고 ALPHA는 유의수준을 지정한다. 사실 통계소프트웨어는 유의확률을 제공하므로 유의수준 지정은 무의미하다. 그 러나 90% 신뢰구간, 99% 신뢰구간 등을 구하는 경우 이 옵션이 필요하다. 디폴트는 0.05이 므로 95% 신뢰구간을 구할 때는 필요 없다. 95% 상한 신뢰구간을 구하려면 ALPHA=0.1을 사용하고 출력 결과 중 상한 값만 사용하면 된다. 1귀무가설: 도자기이 AL 함유량은 13이다. μ = 13 대립가설: μ > 13 x μ 검정통계량: T = = =.54 ~ t( n 1 = 5) s / n.993 / 6 ⑴관측치 수를 나타낸다. ⑵ALPHA=01이 사용되었으므로 모평균( μ )에 대한 90% 신뢰구간의 하한이다.

47 31 ⑶표본 평균이다 값은 PROC MEANS, UNIVARIATE 결과와 동일하다. ⑷모평균( μ )에 대한 90% 신뢰구간의 상한이다. 만약 95% 상한 신뢰구간에 관심이 있다 면 이 값이 95% 상한 신뢰구간 값이다. ⑸모집단 표준편차( σ )에 대한 90% 신뢰구간 하한이다. 사실 모집단 분산의 신뢰구간을 구한 후 제곱근을 사용하여 모집단 표준편차를 제공하고 있다. 엄밀히 말하면 모집단 분산 의 신뢰구간을 제공하고 있는 것이다. 아래 결과에서 90% 신뢰구간의 모집단 분산 하한 값 은 5.95이다. ⑹표본 표준편차이다. PROC MEANS, UNIVARIATE 결과와 동일하다. ⑺모집단 표준편차(σ )에 대한 90% 신뢰구간 상한이다. ⑻표준오차 s / n ⑼검정통계량의 자유도이다. ⑽모평균 가설검정(귀무가설: AL 함유량은 13이다)을 위한 t-검정통계량으로 UNIVARIATE, MEANS 결과와 동일하다. 검정통계량이 t-분포를 따르므로 PROC을 TTEST라 하였다. ⑾양측 검정의 유의확률이다. 대립 가설이 단측 가설이므로 유의확률은 이므로 귀 무가설은 기각되고 도자기의 AL 함유량은

48 3 Chapter 5. BASE PROCEDURE 5.5 두 모집단 차이 검정 PROC TTEST는 독립인 두 모집단 평균 차이 검정과 짝 이룬 표본의 t-검정에 사용된다. TTEST는 SAS/STAT에 포함된 제품이나 가장 많이 사용하는 PROC이므로 예제 중심으로 다루어 보기로 하겠다 독립인 두 모집단 (PROC TTEST) 일반적으로 모집단 분산 σ 1,σ 은 모르므로 추정치로 s 1,s 을 사용한다. 이 때 두 모분산이 같다는 가정이 필요하다. 모집단1과 모집단의 평균은 동일하지만 모집 모집단 1 단1로부터 뽑은 표본은 화살표 부분에서도 관 측된다. 그러므로 표본에 의한 가설 검정 결과 모집단 평균은 같지 않다는 결론에 도달 할 수 있다. 그러므로 모분산이 같은 경우와 같지 않 은 경우 나누어 검정하게 된다. 모집단 (1)두 모분산이 같을 때(모분산 동질) 가설 검정

49 33 1귀무가설: H μ μ 0 (두 모집단의 평균은 같다.) 0 : 1 = 대립가설: (양측검정) H a : μ1 μ 0 (단측검정) H a : μ 1 > μ 혹은 H a : μ 1 < μ 3검정 통계량 표본1로부터 ( x, x,..., x ) 계산된 표본 평균을 x 1, 표본 분산을 n1 ( x, x,..., x ) 계산된 표본 평균을 x, 표본 분산을 1 n 1 σ ( σ = σ = ) σ (pooled variance)이라 한다. s 1, 표본로부터 s 이라 하자. 두 모집단 분산 같다면 에 대한 추정치로 다음을 사용할 수 있는데 이를 추정치를 통합 분산 T x 1 x ( μ1 μ) = 0 = ~ t( df = n1 + n 1 1 sp + n n 1 ), s p ( n = 1 1) s1 + ( n 1) s n + n 1 4 ( μ1 μ) (( x 에 대한 100(1-α)% 신뢰구간 x ) t n + n ) *,( x1 x) t(1 / ; ) * s sp + + α n n n 1+ n p + n 1 (1 α / ; n 1 ) ()두 모분산이 같지 않을 때 가설 검정 모분산이 같을 때 사용한 검정통계량과 동일하며 자유도가 다른 뿐이다. 다른 절차는 동 일하다. 다음을 자유도가 수정된(adjusted) t-검정 방법이라 한다. T = x x ( μ1 μ) = 0 ~ t( df 1 1 s p + n n 1 * = 1 1 ( s1 / n1 ) n s ( 1 s + n n ) ( s / n) + n + 1 ) EXAMPLE: PROC TTEST 사용하기: 독립인 두 모집단 평균 차이 검정 CLASS.txt(SASHELP.CLASS)에서 성별에 따라 키의 차이가 있는지 알아보고자 한다. 즉 남자 키의 평균과 여자 키의 평균이 차이가 있는지 알아보는 것이다. 두 모집단 평균 차 이에 대한 90% 신뢰구간도 구해보자.

50 34 Chapter 5. BASE PROCEDURE 1귀무가설: H 0 : μ1 μ = 0 (남자 키의 평균과 여자 키의 평균은 같다) 대립가설: H a : μ1 μ 0 같지 않다. ALPHA=0.1 옵션은 신뢰구간을 구하기 위한 신뢰수준을 지정하는 곳이다. 다시 언급하지 만 유의확률 계산에는 ALPHA 옵션이 필요 없다. CLASS 문에 지정된 변수가 SEX(성별)와 같이 이진형(binary, dichotomous)이 아니면 오류가 발생한다. 다음 출력 결과는 제일 마지막에 나오지만 먼저 사용해야 하므로 출력 결과 역순으로 설 명하기로 한다. 두 모집단 분산 차이 검정 방법은 이미 4.4.3절에서 살펴 보았다. 검정통계 량은 max( s1, s ) T = ~ F 이다. 여자 키의 분산은 5.18, 남자 키의 분산은 4.38이므로 이 min( s, s ) 1 것의 비는 1.03이다. 유의확률이 0.957로 유의수준보다 크므로 귀무가설은 채택된다. 여기 에서 귀무가설은 두 모집단의 분산은 동일하다. 두 모집단의 분산이 동일하므로 모분산 동질성(equal variance)을 만족할 때 사용하는 t-검 정 방법을 사용하면 된다. 유의확률이 이므로 귀무가설은 채택되어 남녀별 키의 차 이는 없다고 할 수 있다. 만약 등분산성이 만족하지 않으면 Satterthwiate 검정 방법을 사용 하면 된다.

51 35 출력 결과 제일 위에는 각 집단의 기초 통계량이 출력된다. 첫 두 행은 집단별 평균, 표 준편차와 신뢰구간이다. ALPHA=0.1을 사용하였으므로 90% 신뢰구간이다. 마지막 행에 있 는 것이 차이에 대한 신뢰구간이다. 즉 두 평균 차이에 대한 신뢰구간은 (-7.98, )이 다. 신뢰구간이 0을 포함하고 있으므로 유의수준 0.1에서는 남녀별 키의 차이가 없다 는 귀무가설이 채택된다 짝진 표본 짝진 표본이란 두 모집단의 관측치가 쌍을 이루고 있는 경우를 말한다. 예를 들면 왼쪽 시력과 오른쪽 시력 차이, ET의 왼팔과 오른팔 길리 차이 등 하나의 개체로부터 동시에 관 측(측정)되었다는 의미이다. 관측치가 쌍을 이루고 있으므로 한 집단의 관측치를 고정한 상 태에서 다른 집단의 관측치를 재배열할 수 있게 된다. 생산 기계가 두 대 A, B 들어 왔다. 어느 기계 성능이 좋은지 알아보기 위하여 8명의 전 문가를 선정하여 각 기계의 성능 점수를 부여하였다. 기계 성능의 차이가 있는지 적절한 검 정하시오. 점수는 정규 분포를 따른다고 가정하자. (유의수준=0.05) 관측치가 쌍을 이루고 있으므로 기계 A의 관측기를 고정하고 기계 B의 관측치를 재배열한다면 무의미해진다. 각 관측치는 전문가로부터 쌍으로 얻어진 것이다. 그러므로 이 표본은 짝진 표본이다. 전문가 기계 A 기계 B 차이 (1)귀무가설: H : μ μ μ 0 (A, B 기계 성능에 차이가 없다) 0 a = b d = ()대립가설: H : μ μ μ 0 (A, B 기계 성능에 차이가 있다) 0 a b d

52 36 Chapter 5. BASE PROCEDURE (3)검정통계량 T d = s d μ d = d 0 s d / n = = / 8, 임계치 검정 통계량의 절대값이 임계치 t( 1 α / ;7) =.365 보다 작으므로 귀무가설은 채택되고 두 기계의 성능 차이는 없다고 결론 짝진 표본에 대한 검정은 TTEST 사용하지 않고 MEANS PROC을 이용해도 된다. 짝진 표본의 평균 차이가 없다( μ1 μ )는 것은 쌍을 이룬 관측치의 차이의 평균이 0인 것과 동 일하다. ( di = xi yi d = 0 )

53 37 EXAMPLE: 짝진 표본, 독립인 표본 구별하기 철강 생산 시 식히는 과정에서 소금 물을 사용하는 방법과 오일을 사용하는 방법 중 어 느 것이 강도를 높이는지 알아보기 위하여 다음과 같이 측정 자료를 얻었다. 강도는 정규 분포를 따른다고 하자. 소금물: 오일: 소금물 데이터를 고장하고 오일 데이터를 재배열하여도 문제가 없으므로 독립인 두 모집 단 평균 차이 검정을 실시하면 된다. (5.5.1절)

54 38 Chapter 5. BASE PROCEDURE 다음은 A, B 두 할인점의 가격 비교를 위하여 동일 제품 1개를 10일간 구입한 가격이다. 가격은 정규 분포를 따른다고 가정하자. (단위:천원) 할인점 A: 할인점 B: 할인점 A 데이터를 고정하고 할인점 B 데이터를 재배열 할 수 없다. 이는 각 쌍이 특별 한 날의 가격이기 때문이다. 짝진 표본의 평균 차이 검정을 실시한다. (5.5.절) 5.6 이변량 분석 이변량 분석이란 두 변수간의 (선형) 상관 관계를 보거나 인과 관계(casual relation)를 분 석하는 것을 말한다. 변수의 종류에 따라 이변량 분석 방법을 정리하면 다음과 같다. 이 책 에서 SAS/BASE에 PROC만을 다룰 것이다. 종류 설명 종속 분류형 측정형 인과 관계 분류형 측정형 교차분석 PROC FREQ (SASBASE) 로지스틱 회귀분석 (1) PROC LOGISTIC (SAS/STAT) 분산분석 PROC GLM (SAS/STAT) 회귀분석 PROC REG (SAS/STAT) 상관 관계 분류형 측정형 상관 분석 () PROC FREQ N/A N/A (3) 상관분석 PROC CORR (SAS/BASE)

55 39 인과 관계 분석에서 원인이 되는 변수를 설명변수, 독립변수라 하고 결과 변수를 반응변 수, 종속변수라 한다. 상관 분석에는 변수의 구별이 없다. 어느 한 변수의 크기가 커질 때 다른 변수의 크기가 커지거나(양의 상관 관계) 작아지면(음의 상관 관계) 상관 관계가 존재 하고 변동이 없다면 상관관계가 존재하지 않음을 의미한다. 분류형(범주형) 변수는 개체를 분류하는데 사용되는 변수이며, 개체의 특성 중 셀 수 있 거나 측정할 수 있는 것을 측정형 변수(예: IQ, 교통 사고 회수, 경제 지수, 인구)라 한다. 분류형 변수는 순서가 있는 순서형 변수(예: 소득 상/중/하, 성적 A/B/ /F)과 단지 분류만 하는 명목형 변수(예: 성별, 직업)로 나뉜다. ⑴로지스틱 회귀분석의 종속변수는 이진형(성공.실패)이거나 순서형이어야 한다. ⑵순서형 변수들만 가능하다. 상관 관계란 크기의 변동에 대한 분석이므로 적어도 순서 형 변수는 되어야 한다. ⑶순위 상관 분석을 이용하는 경우도 있으나 권하고 싶지 않다 PROC FREQ 교차분석은 빈도표의 교차이므로 빈도분석과 같이 FREQ PROC가 사용된다. TABLE 문은 교차표의 열과 행 변수를 설정하고 표의 옵션을 설정한다. EXACT은 근사 통계량을 사용할 수 없을 때 사용하는 FISHER s EXACT 검정을 하라는 문장이다. 두 분류형 변수간의 연관 관계(association 혹은 independence)를 보거나 변수의 동질성 (homogeneity)를 검정할 때 사용된다. 두 변수의 빈도 표를 교차하여 분할표(혹은 교차표) 를 작성하여 변수들간 관계를 분석하게 된다. 이를 교차 분석(Cross-Tabulation Analysis) 혹 은 χ (chi-square) 분석이라 한다. 교차 분석의 의미는 두 변수의 빈도 표를 교차시켰다

56 40 Chapter 5. BASE PROCEDURE 는 의미이며 교차 분석에 사용되는 검정 통계량이 르기 때문에 χ -분포를 (물론 근사 통계량이지만) 따 χ -검정이라 한다. 교차분석은 독립성 검정, 동질성 검정을 의미한다. 독립성 검정과 동질성 검정은 개념은 상이하나 검정 방법은 동일하다. 독립성/동질성 검정 성별(남녀)과 통계소프트웨어 만족여부(만족, 보통, 불만족)간 관계를 알아보고자 한다. 두 문항(변수) 모두 분류형 변수이므로 빈도표를 교차시켜 놓으면 된다. 이 때 성별에 따른 만 족여부의 차이라고 재해석 할 수 있으니 성별이 설명 변수 역할을 전공 선택은 종속 변수 의 역할이 된다. 교차표를 작성할 때는 행은 설명변수를 열은 종속변수로 한다. 그리고 결 과 출력할 때는 각 셀의 빈도와 행 퍼센트만 출력하여 결과를 해석하면 된다. 아래 교차표에서 nij 는 i -행, j -열의 셀 빈도이다. 만족 보통 불만족 남자 n 11 n 1 n 13 여자 n 1 n n 3 두 분류형 변수의 독립성 검정과 동질성 검정의 귀무가설은 다르나 검정통계량과 검정통 계량의 분포가 동일하므로 실제 분석에서는 동일하다. 동질성 검정 귀무가설: 독립성 검정 귀무가설: p ij = pi. p. j (결합 확률은 주변확률의 곱과 같다) p = i1 = pi =... pic for i = 1,,..., r (각 행의 분포는 동일하다.) 두 변수가 관계가 없다, 혹은 설명 변수가 종속 변수에 영향을 미치지 않는다 (예를 들어 성별에 따른 만족여부의 차이가 없다) 의미는 두 변수(문항)가 서로 독립이라는 의미이다. 두 변수가 서로 독립이라면 확률 이론에 의해 P ( AB) = P( A) P( B) 이 성립한다. 즉 예제 데 이터에서 남녀별 만족여부의 차이가 없다면(독립이라면) P(남자 만족)=P(남자)P(경제전공)이 성립한다. 교차표에서 두 변수가 서로 독립이라면 셀 ( i, j) Pi. 은 i-번째 행의 확률이고 의 확률 P ij 는 으로 나타낼 수 있다. P i. P. j P. j 은 j-번째 열의 확률이다. 교차표의 빈도 기호로 다시 표시하 면 nij Pij = n, ni. Pi. =, n n. j P. j = 이고 독립이라면 n nij n n P i. j ij = =. 이 성립한다. n n n

57 41 두 변수가 독립이라는 가정 하에 i-행, j-열 셀의 예상 빈도는 도라 하고 n n i.. j 이다. 이를 기대 빈 n n Eij 으로 나타낸다. 표본으로부터 계산된(관측된) 빈도를 관측 빈도라 하고 Oij 라 한다. 이 사실을 이용하여 귀무가설(두 변수는 서로 독립이다)을 검정하는데 다음 통계량을 생각할 수 있을 것이다. ( O T = ij E i j ij E ) ij. 이 검정 통계량의 의미는? 만약 두 변수가 독립이라면 O = E ) 이고 T값은 0일 것이다. 즉 T가 0에 가까우면 두 변수는 관계가 없 ( ij ij 다고 결론 내릴 수 있는 것이다. 또한 이 검정 통계량은 χ ( df = ( R 1)( C 1)) 에 근사함이 밝혀져 있다. 교차 분석에 사용되는 χ ( df = ( R 1)( C 1)) 검정 통계량은 근사적으로 χ -분포에 따른다. 근사 조건으로는 각 셀의 기대 빈도(관측 빈도가 아니다)가 5이상이어야 한다. Cochran 은 자유도 이상인 경우 기대 빈도 5 이상인 셀이 전체 0%만 넘으면 교차표에서 구한 검정 통계량은 Chi-square 분포에 근사 한다고 했다. 일반적으로 Cochran의 이론을 받아들인다. 통계 소프트웨어는 기대 빈도가 5 미만인 셀의 비율을 출력하여 사용자에게 경고 메시지를 준다. 기대 빈도가 5미만인 셀의 비율이 0%를 넘으면 계산된 검정 통계량은 χ - 분포에 근사하지 않는다. 이런 경우 해결책은 무엇인가? 1표본의 크기 n 을 늘리면 되지만 이미 설문이 끝난 상태이므로 해결책이 되지 못한다. 독립성 검정의 경우 변수의 수준을 합쳐 셀의 수를 줄이는 방법이다. 위의 예에서 변수 X의 수준 중 0과 1을 합쳐 하나의 수준으로 하면 이 문제는 해결된다. 셀을 합칠 경우 그룹으로 할 수 있는 것을 합친다. 예를 들어 수 준이 (상, 중, 하)인 경우 상 과 하 를 합치는 것은 정말 어리석은 일이다. 수준의 의미가 상실되기 때문이다. 3동질성 검정의 경우 Exact test를 시행하는 것이다. 물론 이 방법은 독립성 검정에도 적용될 수 있다. 이는 근사 통계량을 이용하는 것이 아니다. 처음 이 방법 을 제안한 사람은 Fisher인데 그는 x 분할표의 경우 제안하였고 후에 대되었다. R C 분할표로 확 일단 여기서는 기대빈도 5이하인 셀이 0% 초과하는 문제는 접어두기로 한다. 다음에 설명하기로 한다. POTTERY 데이터에서 도자기 제작 지역(A, C, I, L)에 따른 알루미늄 함유 량(0그룹, 1그룹, 변수명은 AL_G)의 차이가 있는지 분석해 보자. TABLE 문의 * 앞은 행 변 수, 뒤는 열 변수를 지정한다. EXPECTED 옵션은 기대빈도가 출력되게 한다. 귀무가설: 지역에 따른 알루미늄 함유량 차이는 없다. /지역변수와 알루미늄 변수는 독립. 대립가설: 차이는 있다. /독립이 아니다. (관계가 있다)

58 4 Chapter 5. BASE PROCEDURE 각 셀에 관측빈도, 기대빈도(EXPECTED 옵션), 백분율(%), 행 백분율(row percentage), 열 백분율(column)이 자동 출력된다. 각 셀에서 관측빈도( Oij 와 기대빈도( E ij )의 차이가 크면 귀무가설이 맞지 않는다는 것이다. 왜냐하면 기대빈도는 귀무가설이 옳다는 가정하에서 얻 는 빈도이기 때문이다. 실제 분석이나 해석을 위해서는 각 셀의 빈도와 행 퍼센트만 있으면 충분하다. 그리고 두 변수는 서로 독립이다 혹은 동질성 가설 검정을 하기 위해서는 χ -검정통계량이 필 요하다. 다음 옵션을 사용하면 된다. NOPERCENT 옵션은 백분율을 출력하지 않는다. NOCOL 옵션은 컬럼 퍼센트를 출력하지 않는다. CHISQ 옵션은 한다. χ -검정통계량 값을 출력

59 43 기대빈도가 5미만인 셀이 75%나 되어 χ -검정 방법을 사용할 수 없으나 여기서는 일단 그 문제는 접어두기로 하였음을 인지하기 바란다. 카이제곱이나 우도비 카이제곱 둘 중 하 나를 보면 되는데 일반적으로 카이제곱을 본다. 유의확률이 0.003이므로 귀무가설이 기각 된다. 여기서 귀무가설은 두 변수의 상관 관계(association)가 존재하다 이므로 지역에 따 른 도자기 알루미늄 함유량의 차이는 있다. 그러면 어떤 차이가 있는가? 행 퍼센트(백분율) 를 이용하여 해석하면 된다. 우선 각 행 퍼센트에서 가장 크거나 혹은 가장 작은 셀을 표시 한다. 그리고 해석한다. A, I 지역 도자기 알루미늄 함유량이 높고(1그룹) C, L 지역이 낮음을 알 수 있다. 교차표 차이 해석은 다소 자의적이다. 독립성 검정에 사용되는 통계량은 카이제곱, 우도비 카이제곱이다. 나머지 검정통계량은 순서형 변수에 대한 상관 관계(association) 분석에 사용된다. 사용되는 곳이 다름에도 불구 하고 CHISQ 옵션에 의해 함께 출력되는 이유는 5개 검정통계량 모두 카이제곱 분포를 따 르기 때문이다.

60 44 Chapter 5. BASE PROCEDURE Mantel-Haenszel 카이제곱은 순서형 변수 간의 선형 상관 관계(linear association) 분석한 다. Pearson 카이제곱으로부터 얻어진 Phi 계수, 분할계수, Cramer s V는 상관 관계 정도를 나타내는 통계량이다. 관계란 한 변수가 증가함에 따라 다른 변수도 증가(혹은 감소)하는가 를 나타내는 지표를 의미하며 측정형 변수의 상관 관계처럼 직선 관계를 선형 관계라 한다. Association(상관관계) 측정하기 상관 관계를 측정하는 검정통계량은 Gamma, Kendall's tau-b, Stuart's tau-c, and Somers' D, 그리고 모수적 방법의 Pearson 상관 계수, Spearman 순위 상관 계수 등이 있다. 모수적 방 법은 선형 상관 관계를 측정한다. 선형 상관관계를 측정하는 비모수 방법은 Mantel- Haenszel 카이제곱이다. 어떤 방법이 좋은가? 결과는 유사하므로 어느 것이나 사용해도 무 방하다. 일반적으로 Kendall Tau(τ ) 검정 통계량을 가장 사용한다. 행 변수 (독립변수, X)의 범주를 크기 순으로 정렬 하고 각 범주를 u1 u u3... 로 점수 화 하고 열 변수 (반응변수, Y) 범주를 크기 순으로 정렬한 후 각 범주를 v1 v v3... 를 점수화 하자. 두 범주의 개념 차이가 크기가 크면 점수의 차이를 크도록 점수화 한다. 이 점수를 이용하여 두 변수간의 가중 상관계수를 구하면 다음과 같다. 이를 Pearson 상관계 수라 한다. r = i i, j [ u n i u v n i+ i j ij ( ui n i n ( u n i i+ ) i i+ ][ v j )( v n j j j n+ j + j ) / n ( v n j j + j ) ] n 여기서 nij 는 관측 빈도 O ij, n 은 표본의 총 크기를 의미한다. 물론 우리는 손으로 이 것을 계산할 필요는 없다. 상관 계수의 값은 1 과 1사이의 값을 갖고 0이면 두 변수는 상 관 관계가 없다(독립성)고 결론 내린다. Pearson 상관 계수 이외에도 두 순서형 변수의 상관 관계에 대한 계산 값은 여러 개 존 재하는데 이는 대부분 Pearson 상관 계수로부터 유도되었다. Phi Coefficient(파이 계수), Cramer s V, 분할 계수가 그 예이다. 그러나 이것들에 대한 분포가 알려지지 않아 상관 관 계 검정을 할 수 없다. 출력 결과에 유의확률이 없다. 선형 상관 계수의 유의성은 검정은 Mantel-Haenszel Chi-Square (M-H) 검정 통계량이라 불리는 M 에 의해 실시한다. 표본 크기 n 이 충분히 클 때 M = ( n 1) r ~ χ ( df = 1) 이

61 45 다. 여기서 nij 는 관측 빈도 O ij, n 은 표본의 총 크기를 의미한다. 상관 계수의 값은 1 과 1 사이의 값을 갖고 0 이면 두 변수는 상관 관계가 없다(두 변수는 상관 관계가 존재하 지 않는다)고 결론 내린다. EXAMPLE: 상관 관계 측정 년 소득에 따른 직업 만족도의 차이는 있는가를 알아보기 위한 조사 결과 다음을 얻었다 고 하자. 직업 만족도 매우 불만족 불만족 만족 매우 만족 <6, ,000~15, ,000~5, >5, MEASURES 옵션은 상관 관계에 대한 검정통계량을 출력하라는 의미이며, CL은 상관계 수에 대한 신뢰구간을 출력하라는 것이다. 독립성 검정 (동질성도 검정 통계량은 동일하다) 관련 검정통계량을 출력하는 CHISQ 옵션만으로도 상관관계를 측정하는 통계량이 출력되는 것은 이들 모두가 카이제곱 분포와 관계가 있기 때문이다. CL 옵션은 상관 계수의 신뢰구간을 구하라는 명령이다.

62 46 Chapter 5. BASE PROCEDURE 소득 수준과 직업 만족도의 독립성 검정 1귀무가설: 소득 수준과 직업 만족도의 차이는 없다. 대립가설: 소득 수준에 따른 만족도의 차이는 있다.. 검정통계량: 카이제곱=11.99, 우도비 카이제곱=1.03 어느 것 사용해도 무방 유의확률이 각각 0.14, 0.11로 모두 유의수준보다 크므로 귀무가설이 채택되어 임금 수 준과 직업 만족도는 관계가 없다. 행 퍼센트를 살펴보면 소득 수준과 직업 만족도에 대한 행 퍼센트를 살펴보면 소득에 상관 없이 직업 만족도는 매우 만족=>만족 순임을 알 수 있 다. 만약 귀무가설이 기각된다면 행 퍼센트를 참고하여 두 변수간의 관계를 해석하면 된다. 예를 들어 소득이 가장 낮은 그룹의 직업 만족도 순위는 매우 만족=>만족, 낮은 그룹은 매 우 만족=>만족 이런 식으로 해석하면 된다. 혹은 가장 높은(낮은) 비율에 집중하여 소득 이; 가장 낮은 집단 중 직업 만족도가 가장 높은 사람의 비율 39.8%, 낮은 그룹은 43.3%, 소득 높은 그룹 48.1%, 소득 가장 높은 그룹은 53.8%으로 차이를 보였다.

63 47 상관 관계 검정 선형 상관 관계를 검정하는 Mantel-Haenszel 카이제곱의 분포만 알려져 있을 뿐 피어슨 카이제곱에서 유도된 파이 계수, 분할 계수, 크래머의 V는 분포를 알 수 없어 유의확률이 출력되지 않으므로 참고 통계량일 뿐이다. Mantel-Haenszel 검정통계량의 값은 1.03이고 유의확률 0.00로 기각되므로 두 변수간에는 선형관계가 존재한다고 할 수 있다. 그러나 M-H는 상관 계수 값을 제공하는 것은 아니므로 MEASURES 옵션에 의해 출력되는 상관 계수 값을 해석해야 한다.

64 48 Chapter 5. BASE PROCEDURE 두 변수의 상관 관계 검정은 Measures 옵션에 의해 출력된 아래 결과 중 하나를 사용하 면 된다. 감마나 Kendall의 타우-b, 모수적 방법인Pearson 상관계수, Spearman 상관 계수를 이용하면 된다. 신뢰구간이 0을 포함하고 있지 않고 양의 값이므로 소득 수준과 직업 만족 도와는 양의 상관 관계가 존재한다고 할 수 있다. 즉 소득이 높아질수록 직업 만족도가 높 아짐을 알 수 있다. 소득수준과 직업 만족도 간에 음의 상관 관계일 경우 어떻게 될까? 위의 데이터에서 소 득 수준을 1,, 3, 4 대신 4, 3,, 1로 한 후 동일 프로그램을 실행해 보자. M-H 검정통계량 은 동일하다. 즉 소득 수준과 직업 만족도와는 선형 상관 관계가 존재한다는 것을 알 수 있 다. 아직 양인지 음인지 알 수 없다. Measures 옵션에 의해 출력된 감마나 Kendall의 타우b 등이 모두 음의 값이고 신뢰구간이 0을 포함하고 있지 않으므로 소득 수준과 직업 만족 도에는 음의 상관 관계가 존재한다고 결론지을 수 있다.

65 49 빈도표가 주어진 경우 χ -검정 방법 빈도표가 주어진 경우 다음 방법에 의해 χ -검정통계량을 계산하는 방법은 다음과 같다. 어느 대학 입학여부가 성별에 따른 차이가 있는지 알아보기 위하여 데이터를 수집하여 다 음 빈도표를 얻었다. 차이가 있는지 유의수준 0.05에서 검정해보자. 성별 입학여부 입학 거부 남자 여자 0 40 WEIGHT 옵션은 빈도를 가중치로 사용함으로써 데이터를 모두 입력한 효과를 갖는다. 유 의확률이 이므로 귀무가설이 기각되어 여자는 남자에 비해 많이 거부됨을 알 수 있 다. 만약 빈도표를 원래 빈도표와 같이 출력하려면 다음과 같이 하면 된다.

66 50 Chapter 5. BASE PROCEDURE 혹은 열이 그룹이므로 입학 허가 율을 비교하거나 거절 율을 비교하면 된다. 남자는 33.33%, 여자는 55% 거절되어 여자의 입학 거절 율이 더 높다고 할 수 있다. 기대 빈도 5 미만 문제 교차 분석에 사용되는 χ ( df = ( R 1)( C 1)) 검정 통계량은 근사적으로 χ -분포에 따른다. 근사 조건으로는 각 셀의 기대 빈도(관측 빈도가 아니다)가 5이상이어야 한다. Cochran 은 자유도 이상인 경우 기대 빈도 5 이상인 셀이 전체 0%만 넘으면 교차표에서 구한 검정 통계량은 Chi-square 분포에 근사 한다고 했다. 일반적으로 Cochran의 이론을 받아들인다. 통계 소프트웨어는 기대 빈도가 5 미만인 셀의 비율을 출력하여 사용자에게 경고 메시지를

67 51 준다. (통계 소프트웨어 이용 방법에서 논의) 기대 빈도가 5미만인 셀의 비율이 0%를 넘으면 계산된 검정 통계량은 χ - 분포에 근 사하지 않는다. 이런 경우 해결책은 무엇인가? 1표본의 크기 n을 늘리면 되지만 이미 설문 이 끝난 상태이므로 해결책이 되지 못한다. 독립성 검정의 경우 변수의 수준을 합쳐 셀의 수를 줄이는 방법이다. 위의 예에서 변수 X의 수준 중 0과 1을 합쳐 하나의 수준으로 하면 이 문제는 해결된다. 셀을 합칠 경우 그룹으로 할 수 있는 것을 합친다. 예를 들어 수준이 (상, 중, 하)인 경우 상 과 하 를 합치는 것은 정말 어리석은 일이다. 수준의 의미가 상실되 기 때문이다. (3)동질성 검정의 경우 Exact test를 시행하는 것이다. 물론 이 방법은 독립성 검정에도 적용될 수 있다. 이는 근사 통계량을 이용하는 것이 아니다. 처음 이 방법을 제안 한 사람은 Fisher인데 그는 x 분할표의 경우 제안하였고 후에 RxC 분할표로 확대되었다. EXAMPLE: POTTERY 데이터 예제 사용 도자기 데이터에서 사이트에 따른 AL 함유량(낮음=0/높음=1)의 차이가 있는지 교차 분석 을 실시해보자.(5.6.1절에서 계속) 셀의 기대빈도가 5미만이 셀이 있는 경우 교차표 아래 경 고문이 나타난다. 5%까지는 문제가 없지만 그 이상은 카이제곱이나 우도비 카이제곱 검정 통계량을 사용할 수 없다. 이 데이터의 경우 기대빈도 5미만이 셀의 비율이 75%이므로 다 른 방법으로 도자기 사이트와 AL의 독립성을 검정해야 한다.

68 5 Chapter 5. BASE PROCEDURE 셀의 개수를 줄이기 위하여 유사한 범주를 합쳐 보자. (가장 먼저 해보기 바란다.) AL 함 유량은 개 범주이므로 더 이상 합칠 수 없다. 도자기 제조 사이트는? 만약 사이트 A와 C, I와 L이 각각 동일 지역의 제조 사이트라 하자. 그러나 여전히 경고 메시지에 50%라고 출 력된다. 사이트별 공통점이 없거나 여전히 기대빈도가 5미만이 셀이 5% 이상이면 FISHER의 정 확 검정(EXACT TEST)를 실시해야 한다. 다음은 도지기 원 데이터의 4X 교차표에 대한 정확검정을 실시한 결과이다. EXACT FISHER; 문장은 FISHER의 정확 검정을 실시하라는 문장이다. 유의확률이 0에 가까우므로 귀무가설은 기각되고 제조 사이트에 따른 AL 함유량 의 차이는 존재한다. A와 I 사이트는 AL 함유량이 높고 사이트 C와 L의 도자기는 AL 함유 량이 낮다고 결론 내릴 수 있다.

69 PROC FREQ 또 다른 사용 예제 Cochran Armitage Trend 반응 변수가 이진 (binary : 예 성공/확률) 변수이고 설명 변수가 순서형인 경우 설명 변수 범주의 크기에 따라 반응변수의 비율이 어떻게 변하는지 알아보는 것이다. 예제를 살펴보기 로 하자. DOSE는 약의 복용량(0=적음, 4=매우 많음), ADVERSE는 부작용 발생여부(NO=없 음, YES=있음)이다. COUNT는 각 셀의 빈도이다.

70 54 Chapter 5. BASE PROCEDURE (우도비) 카이제곱은 약의 복용량에 따른 부작용의 차이가 있는지(독립성 검정) 알아보는 데 사용한다. 유의확률이 0.001로 유의수준 0.05보다 작으므로 귀무가설이 기각된다. 행 퍼 센트를 살펴 보자. 일반적으로 해석할 때는 아래와 같이 행 퍼센트가 가장 큰(혹은 낮은) 셀에 표시하여 해석한다. 그러나 행의 범주가 개 밖에 없으므로 한 행의 퍼센트만을 고려 하여 해석하면 된다. NO(부작용 없음) 행을 보자. 약의 복용량이 많아질수록 부작용 비율은 낮아진다. 행 변수의 범주가 개(이진형)인 경우 비율의 추세(trend)가 직선인가를 알아보는 방법이 Cochran Armitage 검정방법이다. 통계량 값이 음이고 유의하다. 그러므로 약의 복용량이 높 아질수록 부작용 비율은 직선적으로 낮아지는 경향이 있다.

71 55 적합성 검정(optional) 임의의 변수가 임의의 분포(probability density function)를 따르는지 알아보는 분석 방법을 적합성 검정이라 한다. 이 적합성 검정 역시 χ -검정통계량을 이용하게 된다. 우리의 관심 이 모집단 모수(모 평균, 모 분산)에 대한 것이 아니라 분포 자체에 있다면 우리는 더 이상 모수적 방법을 사용할 수 없을 것이다. 왜? 모집단의 분포를 모르고 관심이 바로 그 분포 이니까? 표본 평균처럼 모집단의 분포를 모르더라도 대표본인 경우 정규분포를 따른다는 정리(중심극한정리)와 같은 것을 사용할 수 없다. 모집단으로부터 추출한 표본이 어떤 분포 에 적합한지(fit)를 알아보는 검정 방법을 적합성 검정(Goodness-of-fit test)라 한다. (1)가정 1표본 관측치는 x, x, K, x ) 서로 독립이다. (확률 표본: random sample) ( 1 n 표본 자료로부터 분석자가 설정한 구간은 서로 겹치지 않고 (non-overlapping) 각 표 본 관측치는 하나의 구간에 반드시 속한다. 구간 범주 1 3 r 합계 기대 빈도 E 1 E E 3 E r n 관측 빈도 O 1 O O 3 O r n 귀무가설에서 설정한 분포 p1 p p3 pr 기대빈도는 이론적(귀무가설에 가정된 분포) 분포로부터 계산된다. 그러므로 기대빈도 와 관측빈도의 차이가 크다면 설정한 귀무가설이 맞지 않는 것이므로 기각되게 된다. 이산형 변수에서는 각 확률변수 값이 하나의 셀을 형성한다. 즉 막대(bar) 하나가 셀을 구성하게 된다. ()통계적 가설 1귀무가설: 표본을 추출한 모집단은 분포를 따른다. 대립가설: 표본을 추출한 모집단은 분포를 따르지 않는다.

72 56 Chapter 5. BASE PROCEDURE (3)검정통계량 r ( Oi Ei ) T = ~ χ ( df E i= 1 i = r 1) 각 셀의 기대빈도가 5이상이면 근사 통계량이 이 셀이 있더라도 전체 셀 중 0%이상만 되지 않으면 χ -분포를 사용할 수 있고 비록 5미만 χ -분포를 사용해도 무방하다. (Cochran) 만약 이 조건을 만족하지 않는 경우 범주를 합쳐 셀의 수를 줄이면 된다. (4)결론 χ (자유도=셀의 개수-1) 분포표로부터 기각역을 구하고 표본으로부터 계산된 검정 통 계량 값과 비교하여 검정통계량이 기각역에 속하면 귀무가설을 기각한다. (5)모수 추정 귀무가설에 분포를 가정할 경우 모수(parameter) 값에 대한 가정이 필요하다. 예를 들 어 정규분포를 따르는가? 알아보려고 하는 경우 구간 확률을 p, p, K. p ) 계산하려 ( 1 r 면 평균 (μ), 표준 편차 (σ ) 를 알아야 구할 수 있다. 그러나 일반적으로 모수에 대한 사전 정보가 없으므로 표본 자료로부터 추정하게 된다. 모평균은 표본 평균으로, 모 분 산은 표본 분산으로 이렇게 모수가 추정되는 경우 ( r g 1) 로 조정해야 한다. g 는 추정된 모수의 수이다. χ -분포의 자유도를 ( r 1) 에서 EXAMPLE: 적합성 검정 상담하러 오는 사람이 상담원을 택할 때 선호하는 사람이 있는지 알아보기 위하여 상담 하러 오는 사람 36명을 무작위로 선택하여 원하는 상담원을 고르라고 하여 다음 자료를 얻 었다. (유의수준=0.05) 상담원 중년 여자 젊은 여자 중년 남자 젊음 남자 늙은 여자 늙은 남자 빈도 귀무가설: 상담하러 온 사람이 상담원을 선택에는 차별이 없다. (Equally distributed) 대립가설: 선택에 차별이 있다. 각 셀의 기대 빈도는 6이다. 왜냐하면 상담원의 선택에 차별이 없다면 각 셀에는 각 6명

73 57 이 기대된다. 상담원 중년 여자 젊은 여자 중년 남자 젊음 남자 늙은 여자 늙은 남자 관측빈도 기대빈도 (13 6) (6 6) (3 6) 검정 통계량: T = + + K+ = 결론: 표로부터 χ (자유도=6-1=5, α = 0.05) =11.1이므로 귀무가설이 기각된다. 상담하러 온 사람들은 상담원 선택에 차이를 보이며 중년 여자나 늙은 여자를 선호한다. DATA 문에서 셀의 번호와 빈도를 데이터로 만든다. 빈도는 WEIGHT에 변수는 TABLE에 지정한다. TESTP 옵션에서 각 셀의 이론적 빈도를 적고 CHISQ 옵션을 사용한다. 유의확 률이 이므로 귀무가설이 기각된다. 즉 상담원을 선호하는 경향이 있다.

74 58 Chapter 5. BASE PROCEDURE EXAMPLE: 적합성 검정() 다음은 실의 내구성을 시험을 위해 5개의 실을 묶어 만든 80 뭉치실의 내구성 테스트 하여 다음 자료를 얻었다. 이 자료가 이항분포(binomial)로부터 왔는지 검정하시오. (유의수 준=0.05) 끊어진 실 수 해당 실 뭉치 귀무가설: 데이터는 이항 분포를 따른다. 대립가설: 이항 분포를 따르지 않는다. 각 셀의 기대 빈도를 구하기 위해서는 이항 분포의 모수(p)를 알아야 한다. p 5 x x 5 x ( x) = p (1 p), x = 0,1,, K, 5 데이터로부터 모수 p 의 추정치 pˆ 을 구해보면 다음과 같다. p ˆ = ( K+ 5 1) /(80 5) = 0.14 그러므로 기대빈도는 다음 이항 확률 분포에 의해 구한다. 5 p( x) = ( )0.14 x x (1 0.14) 5 x 끊어진 실의 수 해당 실의 빈도 기대 확률 기대 빈도 검정 통계량: ( ) ( ) (1 0.03) T = + + K = 결론: 표로부터 χ (자유도=6-1-1=4, α = 0.05) =9.48이므로 귀무가설이 기각되고 이 자료 는 이항 분포를 따른다고 할 수 없다. 자유도가 3인 이유는 모수 하나를 추정하 였기 때문이다.

75 59 모수 하나를 추정( pˆ ) 했음에도 불구하고 자유도는 4가 아니라 셀의 수-1인 5이다. 그러

76 60 Chapter 5. BASE PROCEDURE 므로 계산된 검정통계량의 값에 대한 유의확률을 구하면 다음과 같다. 유의확률이 거의 0 이므로 귀무가설은 기각된다. McNemar 검정(짝진 표본) 예를 들어 보자. 새로운 이슈가 발생한 경우 A 대통령 후보에 대한 지지 여부가 바뀌었 는지 알아보거나 (물론 이 경우 동일 응답자, 즉 패널(panel) 구성), 안전 벨트 착용 거부여 부가 교육 전후에 바뀌었는지 알아보고자 할 때 사용되는 방법이다. 전후 사이에 응답 대상 이나 실험 대상이 바뀌는 경우나, 전현 다른 것을 측정하는 경우(즉 수준이 달라지는 경우) 는 McNemar 방법을 사용할 수 없다. 다음 교차표는 McNemar 검정 방법을 사용할 경우 교차표의 형태이다. 사후 Yes No 합계 사전 Yes A B A+B No C D C+D 합계 A+C B+D N 반드시 동일 실험 대상이 전후에 사용되어야 하고 같은 개념을 묻거나 실험해야 한다. McNemar는 이 방법을 수준이 개(Yes, No)인 경우만 제안했으나 Bennett & Underwood가 3개 이상인 경우로 확대하였다. McNemar 검정을 실시하는 교차표는 정방형이어야 한다. 편의를 위하여 수준이 개인 경우를 가설 검정 순서를 살펴보기로 하자. 1 귀무가설: p 1 = p (실험 전의 yes 비율과 실험 후의 yes 비율이 같다)

77 61 대립가설: p1 p (양측 검정) p 1 > p 혹은 p 1 < p (단측 검정) 표본 추정치: A + B pˆ 1 =, N A + C pˆ = 표본 추정치 차이: N B C pˆ 1 pˆ = N B C 귀무가설이 맞다면 ( B C) / N = 0 이므로 검정 통계량으로 z = ~ Normal(0,1) 이 B + C McNemar 에 의해 제안하였고 이가 성립하기 위해서는 (B+C)가 적어도 10이상이어야 한다. EXAMPLE: McNemar 검정 안전 벨트 교육의 효과가 있는지 알아보기 위하여 30명을 무작위 추출하였다. 교육 전에 안전벨트 여부를 물었더니 착용하는 사람은 1명, 미착용자는 18명이었다. 교육 후 동일 30명에게 안전벨트 착용여부를 물었더니 명이 착용한다고 하였다. 귀무가설: p 1 = p (실험 전의 착용 비율과 실험 후의 착용 비율이 같다) 대립가설: p1 p (양측 검정) McNemar 검정을 하기 위하여 EXACT 문장이 사용되었다. 유의확률이 0.05보다 작으므 로 귀무가설이 기각된다. 벨트 사용여부에 교육의 효과가 있다. 교육 전에 매지 않았다가 매기 시작한 사람의 비율이 77.8%이다. 미 착용자가 1명에서 8명으로 줄었다.

78 6 Chapter 5. BASE PROCEDURE PROC CORR BY문은 분류형 변수별로 VAR 문에 설정한 변수들의 상관 분석을 실시한다. WITH문은 설정한 변수들과 VAR 문의 변수들만 상관계수를 구한다. 상관계수는 두 변수 간의 선형(직선) 관계가 존재하는지 알아보는 방법이다. 회귀 분석과 유사하지만 인과 관계에 대한 분석은 아니다. 상관계수는 다음과 같이 정의하며 Pearson 상관계수라 한다. r = cov( X, Y) var( X ) var( Y ) E( X E( X )) E( Y E( Y )) = = var( X ) var( Y ) ( x x)( y ( x x) i i i y) ( y y) i

79 63 점들이 직선에 가까이 모여 있을수록 상관계수 값은 커진다. 상관 계수의 부호가 양이면 한 변수의 값이 커질수록(작아질수록) 다른 변수의 값도 커짐(작아짐)을 의미하며 음이면 한 변수의 값이 커질수록(작아질수록) 다른 변수의 값도 작아짐(커짐)을 의미한다. 상관계수에 대해 다음 사항을 주의하기 바란다. 상관계수는 두 변수간의 선형 관계를 알아보는 것이다. 이차 관계의 상관계수는 0이다. 상관계수는 점들이 직선에 모여 있는 정도를 나타내는 지표이지 직선의 기울기의 크기 를 나타내는 것은 아니다. 표본의 크기가 커지면 상관계수 값이 커지고 실험실이나 관측 데이터만 0.7을 넘을 가 능성이 높다. 그러므로 상관계수 값이 얼마 이상이어야 유의하다? 상관 관계가 높다? 기준은 없으므로 가설검정에 의한 유의확률에 의지하여 상관 관계를 판단해야 한다. Pearson 상관계수는 측정형 변수 간의 상관 정도를 나타낸다. 데이터가 순서형이거나 가

80 64 Chapter 5. BASE PROCEDURE 질 수 있는 값이 10개 이하인 경우 (예:리커드 척도) 비모수적인 방법으로 상관계수를 구하 는 것이 좋다. Spearman 순위(rank order) 상관계수와 Kendall의 τ 이 비모수적 방법이다. r s = ( Rx Rx )( R y R y ) 6 di 1, R 은 관측치의 순위, ( R R ) ( R R ) n( n 1) x x y y di = R R x i y i sign( xi xi ) sign( yi y j ) i j τ = <, ( T0 Tx )( T0 Ty ) ti 는 동일한 1, w < 0 sign ( w) = 0, w = 0, T 0 = n( n 1) /, T x = ti ( ti 1) /, 1, w > 1 xi 의 i-번째 그룹 내의 관측치 개수이다. 상관 계수 검정 귀무가설: H 0 : ρ = 0 (두 변수의 상관계수는 0이다. 두 변수는 서로 독립이다) 대립가설: H a : ρ 0 r 검정통계량: T = ~ t( n ) (1 r ) /( n ) 만약 귀무가설이 H 0 : ρ = ρ0 0 (예: 모집단의 상관계수가 0.7이다.)이라면 다음 가설 방 법을 이용한다. 1+ r 1+ ρ0 1 검정통계량: T = 0.5 ln ~ N(0.5 ln, ) 1 r 1 ρ0 n 3 두 상관계수 차이 검정은 다음과 같다. 1+ r z( x) = 0.5 ln 1 r z = 1/( n z( x) z( y) x x x 3) + 1/( n 1+ r, z( y) = 0.5 ln 1 r y y y ~ N(0,1) 3)

81 65 EXAMPLE: PROC CORR 사용하기 다음은 CORR 프로그램의 기초이다. VAR문을 사용하지 않으면 문자형 변수를 제외한 모 든 변수들의 상관계수 값이 출력된다. DATA= 옆에 옵션으로 NOSIMPLE을 쓰면 각 변수의 기초통계량이 출력되지 않는다. 상관계수는 Pearson 상관 계수만 출력된다. (디폴트) 변수들의 상관계수는 행렬의 형태로 출력된다. 두 행으로 출력되는데 첫 행은 상관 계수 두 번째 행은 유의확률이다. 만약 결측치로 인하여 각 상관 계수의 관측치 수가 다르면 세 번째 행에 표본의 크기가 출력된다. 키와 몸무게의 상관 계수는 0.877(양의 상관 관계)이고 유의확률은 로 유의하다. 키가 커질수록 몸무게는 선형적으로 증가한다고 할 수 있다.

82 66 Chapter 5. BASE PROCEDURE EXAMPLE: PROC CORR 사용하기() NOSIMPLE 옵션에 의해 변수들의 기초 통계량이 출력되지 않는다. Spearman, Kendall 상 관 계수를 출력하려면 아래 옵션을 사용하면 된다. 그러면 Spearman 상관계수는 출력되지 않는다. SPEARMAN 옵션을 사용하면 된다. WITH 문장에 사용된 AGE 변수와 HEIGHT, WEIGHT 변수의 상관 관계가 출력된다.

83 그래프 (optional) SAS/BASE에는 그래프를 그리는 PROC들이 있는데 가장 많이 사용되는 CHART와 PLOT을 예제 중심으로 살펴 보자. 이 예제는 SAS 예제 프로그램에 들어 있는 것이다 PROC CHART 상대 빈도 히스토그램 /TYPE=PERCENT 옵션을 사용하지 않으면 빈도가 출력된다. 그래프는 출력 창에 텍스트 형식으로 그려진다. TYPE 옵션은 MEAN, SUM 등을 사용할 수 있는데 이는 SUMVAR과 함 께 사용된다.

84 68 Chapter 5. BASE PROCEDURE 위의 프로그램에서 CHART 대신 GCAHRT을 사용하면 그래픽 창에 그래프가 그려진다.

85 69 그룹별 변수의 합 출력하기(바 차트)

86 70 Chapter 5. BASE PROCEDURE

87 71 블록 차트

88 7 Chapter 5. BASE PROCEDURE 5.7. PROC PLOT PLOT은 산점도를 그리는 프로그램으로 위의 것이 가장 일반적인 형태이다. PLOT문장에 서 Y-축을 먼저 지정한다. 아래 프로그램은 관측치를 이름 변수($ NAME 옵션)로 구별하여 산점도 그리는 프로그램이다. * 옵션은 점들을 *로 표시하라는 것이다.

statistics

statistics 수치를이용한자료요약 statistics hmkang@hallym.ac.kr 한림대학교 통계학 강희모 ( 한림대학교 ) 수치를이용한자료요약 1 / 26 수치를 통한 자료의 요약 요약 방대한 자료를 몇 개의 의미있는 수치로 요약 자료의 분포상태를 알 수 있는 통계기법 사용 중심위치의 측도(measure of center) : 어떤 값을 중심으로 분포되어 있는지

More information

(001~006)개념RPM3-2(부속)

(001~006)개념RPM3-2(부속) www.imth.tv - (~9)개념RPM-(본문).. : PM RPM - 대푯값 페이지 다민 PI LPI 알피엠 대푯값과산포도 유형 ⑴ 대푯값 자료 전체의 중심적인 경향이나 특징을 하나의 수로 나타낸 값 ⑵ 평균 (평균)= Ⅰ 통계 (변량)의 총합 (변량의 개수) 개념플러스 대푯값에는 평균, 중앙값, 최 빈값 등이 있다. ⑶ 중앙값 자료를 작은 값부터 크기순으로

More information

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포 생존분석의 추정과 비교 : 보충자료 이용희 December, 8 Cotets 생존함수와 위험함수. 생존함수와 위험함수....................................... 예제: 지수분포.......................................... 예제: 와이블분포.........................................

More information

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은 2013 년도연구용역보고서 공공기관임금프리미엄추계 - 2013. 12.- 이연구는국회예산정책처의연구용역사업으로수행된것으로서, 보고서의내용은연구용역사업을수행한연구자의개인의견이며, 국회예산정책처의공식견해가아님을알려드립니다. 연구책임자 한국노동연구원선임연구위원정진호 공공기관임금프리미엄추계 2013. 12. 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영

More information

Microsoft Word - EDA_Univariate.docx

Microsoft Word - EDA_Univariate.docx 일변량분석개념 일변량분석은개체의특성을 측정한변수가하나인 통계분석 방법 변수의 종류 ( 수리 통계 ) 이산형 (discrete): 측정결과를셀수있는경우이다. 성별, 직업, 교통량, 나이등이여기해당된다. 연속형 (continuous): 측정결과가무한이 (infinite) 많은변수를연속형형변수라한다. 즉변수의범위 (range) 중어떤구간을설정하더라도측정치가발생할할수있는경우로키,

More information

Microsoft Word - SAS_Data Manipulate.docx

Microsoft Word - SAS_Data Manipulate.docx 수학계산관련 함수 함수 형태 내용 SIN(argument) TAN(argument) EXP( 변수명 ) SIN 값을계산 -1 argument 1 TAN 값을계산, -1 argument 1 지수함수로지수값을계산한다 SQRT( 변수명 ) 제곱근값을계산한다 제곱은 x**(1/3) = 3 x x 1/ 3 x**2, 세제곱근 LOG( 변수명 ) LOGN( 변수명 )

More information

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표 Vector Differential: 벡터 미분 Yonhee Lee October 7, 08 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표기법을 정의하는 방법이다 보통 스칼라(scalar)에 대한 미분은 일분수 함수 f : < < 또는 다변수 함수(function

More information

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞 줄기잎그림 stem and leaf + 진단내용 1) 분포의개략적인형태를알수있다. (1) 좌우대칭인가? 아니면 skewed 되었는가? (2) 봉우리 (modal) 는하나인가? 아니면여러개인가? 2) 이상치의존재여부를쉽게파악할수있다. + 데이터 ( 정렬 ) ( 정렬않음 ) + 그리는순서 자료를크기순으로정리한다. 자료의수가많을때는자료정렬을수작업하기어려움으로이단계는무시해도되지만자료를크기순으로정렬해놓으면

More information

G Power

G Power G Power 부산대학교통계학과조영석 1. G Power 란? 2. G Power 설치및실행 2.1 G Power 설치 2.2 G Power 실행 3. 검정 (Test) 3.1 가설검정 (Test of hypothesis) 3.2 검정력 (Power) 3.3 효과크기 (Effect size) 3.4 표본수산정 4. 분석 4.1 t- 검정 (t-test) 4.2

More information

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제 회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제 KR000****4 설 * 환 KR000****4 송 * 애 김 * 수 KR000****4

More information

R t-..

R t-.. R 과데이터분석 집단의차이비교 t- 검정 양창모 청주교육대학교컴퓨터교육과 2015 년겨울 t- 검정 변수의값이연속적이고정규분포를따른다고할때사용 t.test() 는모평균과모평균의 95% 신뢰구간을추청함과동시에가설검증을수행한다. 모평균의구간추정 - 일표본 t- 검정 이가설검정의귀무가설은 모평균이 0 이다 라는귀무가설이다. > x t.test(x)

More information

Microsoft PowerPoint - SBE univariate5.pptx

Microsoft PowerPoint - SBE univariate5.pptx 이상치 (outlier) 진단및해결 Homework 데이터 ( Option.XLS) 결과해석 치우침? 평균이중앙값에비해다소크다. 그러나이상치때문이지치우친것같지않음. Toys us 스톡옵션비율이이상치 해결방법 : Log 변환? 아니다치우쳐있지않기때문에제거 제거후 : 평균 :.74, 중위수 :.7 31 치우침과이상치 데이터 : 노트북평가점수 우로치우침과이상치가존재

More information

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료 3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료 분포형태, 상대적위치, 극단값 분포형태 z-값 체비셰프의원리 경험법칙 극단값찾기 분포형태 : 왜도 (skewness) 분포형태를측정하는중요한척도중하나를 왜도 라고한다. 자료집합의왜도를구하는계산식은조금복잡하다. 통계프로그램을사용하여왜도를쉽게계산할수있다.

More information

nonpara1.PDF

nonpara1.PDF Chapter 1 Introduction 1 Introduction (parameter) (assumption) (rank), (median) p-value distribution free, assumption free, statistical inference based on ranks 11 Nonparametric? John Arbuthnot (1710)

More information

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션 응용식물통계학 Statistics of Applied Plants Science 친환경식물학부유기농생태학전공황선구 13 장상관분석 1. 상관계수 2. 상관분석의가정과특성 3. 모상관계수의검정과신뢰한계 4. 순위상관 14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 - 실습 - 상관분석 지금까지한가지확률변수에의한현상을검정하였다.

More information

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut 경영학을 위한 수학 Fial Eam 5//(토) :-5: 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오.. (각 6점) 다음 적분을 구하시오 4 ( ) (a) ( )4 8 8 (b) d이 성립한다. d C C log log (c) 이다. 양변에 적분을 취하면 log C (d) 라 하자. 그러면 d 4이다. 9 9 4 / si (e) cos si

More information

자료의 이해 및 분석

자료의 이해 및 분석 어떤실험이나치료의효과를측정할때독립이아닌표본으로부터관찰치를얻었을때처리하는방법 - 동일한개체에어떤처리를하기전과후의자료를얻을때 - 가능한동일한특성을갖는두개의개체에서로다른처리를하여그처리의효과를비교하는방법 (matching) 1 예제 : 혈청 cholesterol 치를줄이기위해서 12 명을대상으로운동과함께식이요법의효과를 측정하기위한실험실시 2 식이요법 - 운동실험전과후의

More information

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임.   가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다. 마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. http://min7014.iptime.org/math/2017063002.htm 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다. https://goo.gl/edxsm7 http://min7014.iptime.org/math/2018010602.pdf

More information

Microsoft Word - Chapter8.doc

Microsoft Word - Chapter8.doc CHAPTER 8 교차분석 8.1. 교차분석 (cross-tabulation) 개요 8.1.1. 교차분석개념 두분류형 ( 범주형 ) 문항 ( 변수 ) 간의연관관계 (association) 를볼때교차표 ( 분할표 ) 를작성하 여변수들간관계를분석하게된다. 이를교차분석혹은 χ (chi-square) 검정이라한다. 교차분석의의미는두변수의빈도표를교차시켰다는의미이며교차분석에사용되는검

More information

untitled

untitled 5.8 PROC UNIVARIATE (hitogram, tem and leaf plot, box-whiker plot), (p- ). Univariate( ).. NORMAL (Shapiro- Wilk Kolmogorov-Smirno D- OUTPUT( SAS ). PROC MEANS PROC MEANS. (moment) E( X ). k Sehyug Kwon,

More information

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63> 제 3 강계량경제학 Review Par I. 단순회귀모형 I. 계량경제학 A. 계량경제학 (Economerics 이란? i. 경제적이론이설명하는경제변수들간의관계를경제자료를바탕으로통 계적으로추정 (esimaion 고검정 (es 하는학문 거시소비함수 (Keynse. C=f(Y, 0

More information

Microsoft PowerPoint - IPYYUIHNPGFU

Microsoft PowerPoint - IPYYUIHNPGFU 분산분석 분산분석 (ANOVA: ANALYSIS OF VARIANCE) 두개이상의모집단의차이를검정 예 : 회사에서세종류의기계를설치하여동일한제품을생산하는경우, 각기계의생산량을조사하여평균생산량을비교 독립변수 : 다른변수에의해영향을주는변수 종속변수 : 다른변수에의해영향을받는변수 요인 (Factor): 독립변수 예에서의요인 : 기계의종류 (I, II, III) 요인수준

More information

Microsoft PowerPoint - chap04-연산자.pptx

Microsoft PowerPoint - chap04-연산자.pptx int num; printf( Please enter an integer: "); scanf("%d", &num); if ( num < 0 ) printf("is negative.\n"); printf("num = %d\n", num); } 1 학습목표 수식의 개념과 연산자, 피연산자에 대해서 알아본다. C의 를 알아본다. 연산자의 우선 순위와 결합 방향에

More information

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx #include int main(void) { int num; printf( Please enter an integer "); scanf("%d", &num); if ( num < 0 ) printf("is negative.\n"); printf("num = %d\n", num); return 0; } 1 학습목표 을 작성하면서 C 프로그램의

More information

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할 저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,

More information

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS 제장 비모수 검정(nonparametric analysis) 모집단의 분포를 알 수 없거나 모집단이 정규분포를 따른다고 가정할 수 없는 경우에는 모수적 검정을 사용할 수 없다. 이 경우에 자료의 부호나 순위로 가설 검정을 실시하며 이러한 검정 방법을 비모수 검정이라고 한다. 제절 적합도 검정(goodness of fit test) 주어진 자료가 어떠한 통계적

More information

untitled

untitled Math. Statistics: Statistics? 1 What is Statistics? 1. (collection), (summarization), (analyzing), (presentation) (information) (statistics).., Survey, :, : : QC, 6-sigma, Data Mining(CRM) (Econometrics)

More information

<5BB0EDB3ADB5B55D32303131B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E28322920BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D3031292D3135B9AEC7D72E687770>

<5BB0EDB3ADB5B55D32303131B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E28322920BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D3031292D3135B9AEC7D72E687770> 고1 융합 과학 2011년도 1학기 중간고사 대비 다음 글을 읽고 물음에 답하시오. 1 빅뱅 우주론에서 수소와 헬륨 의 형성에 대한 설명으로 옳은 것을 보기에서 모두 고른 것은? 4 서술형 다음 그림은 수소와 헬륨의 동위 원 소의 을 모형으로 나타낸 것이. 우주에서 생성된 수소와 헬륨 의 질량비 는 약 3:1 이. (+)전하를 띠는 양성자와 전기적 중성인 중성자

More information

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행 Ch4 one-way ANOVA ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행 One-way ANOVA 란? Group Sex pvas NSAID

More information

Microsoft Word - SPSS_MDA_Ch6.doc

Microsoft Word - SPSS_MDA_Ch6.doc Chapter 6. 정준상관분석 6.1 정준상관분석 정준상관분석 (Canonical Correlation Analysis) 은변수들의군집간선형상관관계를파악하는분석방법이다. 예를들어신체적조건 ( 키, 몸무게, 가슴둘레 ) 과운동력 ( 달리기, 윗몸일으키기, 턱걸이 ) 사이의선형상관관계가있는지알아보고, 관계가있다면어떤관계가있는지분석하는것이다. 정준상관분석은 (

More information

연구보고서 2009-05 일반화선형모형 (GLM) 을이용한 자동차보험요율상대도산출방법연구 Ⅰ. 요율상대도산출시일반화선형모형활용방법 1. 일반화선형모형 2 연구보고서 2009-05 2. 일반화선형모형의자동차보험요율산출에적용방법 요약 3 4 연구보고서 2009-05 Ⅱ. 일반화선형모형을이용한실증분석 1. 모형적용기준 < > = 요약 5 2. 통계자료및통계모형

More information

Chapter 분포와 도수분석

Chapter 분포와 도수분석 2 χ Chapter 10 분포와도수분석 Chi-square dist n & the analysis of frequencies 2014/5/22 2 χ 10.2 분포의수리적특징 2 χ 의정의 (definition) Z,, Z ~ independent N(0,1) 1 n n i = 1 Z ~ χ 2 2 i n Y µ 2 eg.. Z = i Y ~ N( µσ,

More information

Microsoft PowerPoint - PDF3 SBE 20080417.pptx

Microsoft PowerPoint - PDF3 SBE 20080417.pptx 연속형 확률밀도함수 연속형 확률분포함수? 데이터 히스토그램의 정상을 연결하면 확률분포함수가 된다. 이를 이용하여 데이터(표본)의 분포(이는 모집단의 분포와 동일)를 구 하게 된다. 그러나 함수를 구하는 것은 불가능해 보인다. 그래서 현실에서는 확률분포를 가정하게 된다. (예)기다리는 시간: 지수분포, 측정 오 차: 정규분포 Gauss(천문학자): 행성들간 거리

More information

- 2 -

- 2 - - 1 - - 2 - - - - 4 - - 5 - - 6 - - 7 - - 8 - 4) 민원담당공무원 대상 설문조사의 결과와 함의 국민신문고가 업무와 통합된 지식경영시스템으로 실제 운영되고 있는지, 국민신문 고의 효율 알 성 제고 등 성과향상에 기여한다고 평가할 수 있는지를 치 메 국민신문고를 접해본 중앙부처 및 지방자 였 조사를 시행하 였 해 진행하 월 다.

More information

모수검정과비모수검정 제 6 강 지리통계학

모수검정과비모수검정 제 6 강 지리통계학 모수검정과비모수검정 제 6 강 지리통계학 통계적추정의목적 연구자가주장하는연구가설을입증하기위한것 1 연구목적에맞는연구가설을설정 2 연구목적과수집된자료에부합되는적절한통계적검정방법을선택 3 귀무가설과연구가설 ( 대립가설 ) 을진술 4 유의수준을결정한후각분포유형에따라분포표를이용하여임계치를구하고기각역을설정 5 통계적검정유형에필요한통계량을각검정유형의공식을이용하여계산 6

More information

18강.hwp

18강.hwp ------------------8강 데이터 관리------------------ **주요 키워드 ** () 레코드관리 () 정렬 () 자동필터, 고급필터 () 그룹과 윤곽설정, 텍스트나누기, 외부데이터 () 레코드관리********************************** [08/]. 다음 중 [데이터]-[레코드 관리]에 대한 설명으로 옳지 않은 것

More information

통계학입문

통계학입문 통계학입문 ( 기초통계학 ) 1. 1 개요 통계학 (statistics) 관심의대상에대해관련된자료를수집하고그 자료를요약, 정리하여이로부터불확실한사실에 대한결론이나일반적인규칙성을추구하는학문 Statistic : 통계치, 통계량 CH 1-2 1. 1 개요 통계학 (statistics) 기술통계학 (descriptive stat) 수집된자료의정리및요약방법을다룸

More information

eda_ch7.doc

eda_ch7.doc ( ) (, ) (X, Y) Y Y = 1 88 + 0 16 X =0601 Y = a + bx + cx X (nonlinea) ( ) X Y X Y b(016) ( ) log Y = log a + b log X = e Y = b ax 71 X (explanatoy va :independent ), Y (dependent : esponse) X, Y Sehyug

More information

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라 제 절 two way ANOVA 제절 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라고 한다. 교호작용은 두 변수의 곱에 대한 검정으로 유의확률이 의미있는 결과라면 두 변수는 서로 영향을

More information

고객관계를 리드하는 서비스 리더십 전략

고객관계를 리드하는  서비스 리더십 전략 제 13 장분산분석 1 13.1 일원분산분석 13. 분산분석 - 무작위블럭디자인 13.3 이원분산분석 - 팩토리얼디자인 분산분석 (ANOVA) - 두개이상의집단들의평균값을비교하는데사용. 일원분산분석 - 처치변수가한개인분산분석. 1. 분산분석의원리 A 3.0 8.0 7.0 5.0 5.0 6.0 4.0 7.0 6.0 4.0 평균 5.0 6.0 B 3.0 9.0

More information

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed 중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed mean), 가중평균 (weighted mean), 기하평균 (geometric mean),

More information

Microsoft Word - Chapter6.doc

Microsoft Word - Chapter6.doc CHAPTER 6 기초통계량분석 분류형 ( 범주형 ) 변수데이터에대한정리방법으로는숫자요약인빈도분석과그래프요약인파이차트, 바차트가이용된다. 측정형변수에대한숫자요약은일반적으로자료의중앙위치와자료의흩어진정도를나타내는두개의값으로축약된다. 즉, 크기 n 개의데이터의가진정보가 2 개숫자요약으로축약 (data reduction) 된다. 데이터의중앙위치에대한통계량평균 (mean)

More information

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

LaTeX. [width=1em]Rlogo.jpg Sublime Text. .. L A TEX 과 을결합한문서작성 Sublime Text 의활용 2015. 01. 31. 차례 1 L A TEX 과활용에유용한 Sublime text 2 LaTeXing 과 Extend 3 LaTeXing 의 Snippet 을활용한 L A TEX 편집 4 L A TEX 과을결합한문서작성 5 Reproducible Research 의응용 활용에 유용한 Sublime

More information

메타분석: 통계적 방법의 기초

메타분석: 통계적 방법의 기초 메타분석: 통계적 방법의 기초 서울시립대학교 통계학과 이용희 209년 4월 23일 Contents 하나의 실험과 효과의 크기 관심있는 모수: 효과의 크기 2 모수의 추정량 3 추정량에 대한 믿음 4 추정량의 분산과 표준오차 5 추정량의 분산과 모집단의 분산 6 통계적 효과의 크기 7 신뢰구간 8 일반적인 관심 모수 2 2 2 3 개의 실험의 비교 실험들의 이질성

More information

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ 수리통계학(Mathematical Statistics)의 기초 I. 들어가며 지금부터 계량경제학이나 실험 및 준실험 연구설계 기법을 공부할 때 도움이 되는 수리통계 학의 기초에 대해 다룰 것입니다. 이 노트에서 다루게 될 내용은 어떤 추정량(estimator)이 지니고 있는 성질입니다. 한 가지 말씀 드릴 것은 이 노트에 나오는 대부분의 성질들은 지금까 지

More information

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사 회귀분석 올림픽 100m 우승기록 2004년 9월과학저널 Nature에발표된 Oxford 대학교의임상병리학자인 Andrew Tatem과그의연구진의논문 1900~2004년까지의남성과여성의육상 100m 우승기록을분석하고앞으로최고기록이어떻게변할것인지를예측 2008년베이징올림픽에서남자의우승기록은 9.73±0.144(9.586, 9.874), 여자는 10.57±0.232(10.338,

More information

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션 응용식물통계학 Statistics of Applied Plants Science 친환경식물학부유기농생태학전공황선구 14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 15 장공분산분석 1. 공분산분석의통계적모형 2. 공분산분석에의한처리효과검정 3. 공분산분석과정 - 실습 - 회귀분석 두확률변수간에관계가있는지검정

More information

7) 다음의 다음 9) 남학생과 9. zb 여학생 각각 명이 갖고 있는 여름 티 셔츠의 개수를 조사하여 꺾은선그래프로 나타낸 것 이다. 이 두 그래프의 설명으로 옳지 않은 것은? ㄱ. ㄴ. 회째의 수학 점수는 점이다. 수학 점수의 분산은 이다. ㄷ. 영어점수가 수학 점

7) 다음의 다음 9) 남학생과 9. zb 여학생 각각 명이 갖고 있는 여름 티 셔츠의 개수를 조사하여 꺾은선그래프로 나타낸 것 이다. 이 두 그래프의 설명으로 옳지 않은 것은? ㄱ. ㄴ. 회째의 수학 점수는 점이다. 수학 점수의 분산은 이다. ㄷ. 영어점수가 수학 점 1) 은경이네 2) 어느 3) 다음은 자연수 그림은 6) 학생 학년 고사종류 과목 과목코드번호 성명 3 2012 2학기 중간고사 대비 수학 201 대청중 콘텐츠산업 진흥법 시행령 제33조에 의한 표시 1) 제작연월일 : 2012-08-27 2) 제작자 : 교육지대 3) 이 콘텐츠는 콘텐츠산업 진흥법 에 따라 최초 제작일부터 년간 보호됩니다. 콘텐츠산업 진흥법

More information

untitled

untitled R 과함께하는통계학의이해 빅북이라명명된이책은지식공유의세계적인흐름에동참하고지적인업적들이세상과인류의지식이되도록하며, 누구나쉽게접근하고활용할수있는환경을만들고자한다. 이책의저작권은빅북 (www.bigbook.or.kr) 에있으며모든용도로활용할수있다. 다만상업용출판을하고자하는경우에는사전에문서로된허락을받아야한다. 공유와협력의교과서만들기운동본부 R 과함께하는 통계학의이해

More information

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51 Proem Se 4 산업조직론 (ECM004N) Fall 03. 독점기업이 다음과 같은 수요함수를 각각 가지고 있는 두 개의 소비자 그룹에게 제품을 공급한다고 하자. 한 단위 제품을 생산하는 데 드는 비용은 상수 이다. 다음 질문에 답하시오. P = A B Q P = A B Q () 두 그룹에 대하여 가격차별을 하고자 할 때 각 그룹의 균형생산량(Q, Q )과

More information

..(..) (..) - statistics

..(..) (..) - statistics 수치 ( 數値 ) 를이용한자료요약 ( 要約 ) statistics hmkang@hallym.ac.kr 한림대학교 한중시장분석 강희모 ( 한림대학교 ) 수치 ( 數値 ) 를이용한자료요약 ( 要約 ) 1 / 26 수치를 통한 자료의 요약 요약(要約,summary) 많은 자료를 몇 개의 의미(意味)있는 수치로 요약 자료의 분포상태(分布狀態)를 알 수 있는 통계기법(統計技法)

More information

자료의 이해 및 분석

자료의 이해 및 분석 7. 평균치비교 1 두집단간평균차이검정 2 연속형변수 Interval scale( 간격척도 ) : 20 C, 30 C,, 변수간의가감가능 Ratio scale( 비척도 ) : 12, 13세, 변수간의가감승제모두가능 범주형자료로변환하여다양한분석가능 ( 연령 10 대, 20 대, 30 대.) 3 범주형자료의기술 분할표 (Contingency table) : 범주형자료를각변수별값의

More information

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할 저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,

More information

확률 및 분포

확률 및 분포 확률및분포 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 확률및분포 1 / 15 학습내용 조건부확률막대그래프히스토그램선그래프산점도참고 박창이 ( 서울시립대학교통계학과 ) 확률및분포 2 / 15 조건부확률 I 첫째가딸일때두아이모두딸일확률 (1/2) 과둘중의하나가딸일때둘다딸일확률 (1/3) 에대한모의실험 >>> from collections import

More information

PowerPoint Presentation

PowerPoint Presentation 09 th Week Correlation Analysis 상관관계분석 Jongseok Lee Business Administration Hallym University 변수형태와통계적분석방법 H 0 : X ㅗ Y H 1 : X ~ Y X Categorical Y Categorical Chi-square Test X Categorical Y Numerical

More information

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션 System Software Experiment 1 Lecture 5 - Array Spring 2019 Hwansoo Han (hhan@skku.edu) Advanced Research on Compilers and Systems, ARCS LAB Sungkyunkwan University http://arcs.skku.edu/ 1 배열 (Array) 동일한타입의데이터가여러개저장되어있는저장장소

More information

온습도 판넬미터(JTH-05) 사양서V1.0

온습도 판넬미터(JTH-05)  사양서V1.0 온습도 조절기 Model:JTH-05 1. 제품 사양. [제품 구분] JTH-05A(입력 전원 AC), JTH-05D(입력 전원 DC) [전원 사양] JTH-05A 입력 전압 출력 전원 소비 전력 JTH-05D AC 90~240V DC 10~36V 12Vdc / Max.170mA Max.2W [본체 사이즈] ~ 온/습도 범위(본체): 사용 [0 ~ 50, 85%RH

More information

R

R R 과데이터분석 상관관계 양창모 청주교육대학교컴퓨터교육과 2015 년여름 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 1 / 20 상관관계 양적변수quantitative variables 사이의관계relationships를나타내기위하여상관계수correlation coefficients를사용한다. ± 기호를사용하여관계의방향을나타낸다.

More information

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할 저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,

More information

설계란 무엇인가?

설계란 무엇인가? 금오공과대학교 C++ 프로그래밍 jhhwang@kumoh.ac.kr 컴퓨터공학과 황준하 6 강. 함수와배열, 포인터, 참조목차 함수와포인터 주소값의매개변수전달 주소의반환 함수와배열 배열의매개변수전달 함수와참조 참조에의한매개변수전달 참조의반환 프로그래밍연습 1 /15 6 강. 함수와배열, 포인터, 참조함수와포인터 C++ 매개변수전달방법 값에의한전달 : 변수값,

More information

와플-4년-2호-본문-15.ps

와플-4년-2호-본문-15.ps 1 2 1+2 + = = 1 1 1 +2 =(1+2)+& + *=+ = + 8 2 + = = =1 6 6 6 6 6 2 2 1 1 1 + =(1+)+& + *=+ =+1 = 2 6 1 21 1 + = + = = 1 1 1 + 1-1 1 1 + 6 6 0 1 + 1 + = = + 7 7 2 1 2 1 + =(+ )+& + *= + = 2-1 2 +2 9 9 2

More information

[INPUT] 뒤에는변수와관련된정보를표기한다. [CARDS;] 뒤에는각각의변수가가지는관측값들을표기한다. >> 위의프로그램에서데이터셋명은 wghtclub 이고, 변수는 idno, name, team, strtwght, endwght 이다. 이중 name 과 team 은

[INPUT] 뒤에는변수와관련된정보를표기한다. [CARDS;] 뒤에는각각의변수가가지는관측값들을표기한다. >> 위의프로그램에서데이터셋명은 wghtclub 이고, 변수는 idno, name, team, strtwght, endwght 이다. 이중 name 과 team 은 SAS 의기본형식 1. INPUT 문 DATA wghtclub; INPUT idno 1-4 name $ 6-24 team $ strtwght endwght; loss=strtwght -endwght; CARDS; 1023 David Shaw red 189 165 1049 Amelia Serrno yellow 145 124 1219 Alan Nance red

More information

Microsoft PowerPoint - MDA 2008Fall Ch2 Matrix.pptx

Microsoft PowerPoint - MDA 2008Fall Ch2 Matrix.pptx Mti Matrix 정의 A collection of numbers arranged into a fixed number of rows and columns 측정변수 (p) 개체 x x... x 차수 (nxp) 인행렬matrix (n) p 원소 {x ij } x x... x p X = 열벡터column vector 행벡터row vector xn xn... xnp

More information

Microsoft PowerPoint - chap03-변수와데이터형.pptx

Microsoft PowerPoint - chap03-변수와데이터형.pptx #include int main(void) { int num; printf( Please enter an integer: "); scanf("%d", &num); if ( num < 0 ) printf("is negative.\n"); printf("num %d\n", num); return 0; } 1 학습목표 의 개념에 대해 알아본다.

More information

Microsoft PowerPoint - chap05-제어문.pptx

Microsoft PowerPoint - chap05-제어문.pptx int num; printf( Please enter an integer: "); scanf("%d", &num); if ( num < 0 ) printf("is negative.\n"); printf("num = %d\n", num); 1 학습목표 제어문인,, 분기문에 대해 알아본다. 인 if와 switch의 사용 방법과 사용시 주의사항에 대해 알아본다.

More information

Microsoft PowerPoint - 26.pptx

Microsoft PowerPoint - 26.pptx 이산수학 () 관계와그특성 (Relations and Its Properties) 2011년봄학기 강원대학교컴퓨터과학전공문양세 Binary Relations ( 이진관계 ) Let A, B be any two sets. A binary relation R from A to B, written R:A B, is a subset of A B. (A 에서 B 로의이진관계

More information

exp

exp exp exp exp exp exp exp exp exp exp exp exp log 第 卷 第 號 39 4 2011 4 투영법을 이용한 터빈 블레이드의 크리프 특성 분석 329 성을 평가하였다 이를 위해 결정계수값인 값 을 비교하였으며 크리프 시험 결과를 곡선 접합 한 결과와 비선형 최소자승법으로 예측한 결과 사 이 결정계수간 정도의 오차가 발생하였고

More information

04 Çмú_±â¼ú±â»ç

04 Çмú_±â¼ú±â»ç 42 s p x f p (x) f (x) VOL. 46 NO. 12 2013. 12 43 p j (x) r j n c f max f min v max, j j c j (x) j f (x) v j (x) f (x) v(x) f d (x) f (x) f (x) v(x) v(x) r f 44 r f X(x) Y (x) (x, y) (x, y) f (x, y) VOL.

More information

Microsoft Word - Chapter9.doc

Microsoft Word - Chapter9.doc CHAPTER 9 분산분석 9.1. 분산분석개념 분산분석 (ANOVA: Analysis of Variance) 이란종속변수 (dependent variable: 반응변수 : response variable) 의분산 (variation: 변동 통계에서는이를변수가가진정보라한다 ) 을설명하는독립변수 (independent: 설명변수 : explanatory) 의유의성

More information

cat_data3.PDF

cat_data3.PDF ( ) IxJ ( 5 0% ) Pearson Fsher s exact test χ, LR Ch-square( G ) x, Odds Rato θ, Ch-square Ch-square (Goodness of ft) Pearson cross moment ( Mantel-Haenszel ), Ph-coeffcent, Gamma (γ ), Kendall τ (bnary)

More information

Microsoft PowerPoint Relations.pptx

Microsoft PowerPoint Relations.pptx 이산수학 () 관계와그특성 (Relations and Its Properties) 2010년봄학기강원대학교컴퓨터과학전공문양세 Binary Relations ( 이진관계 ) Let A, B be any two sets. A binary relation R from A to B, written R:A B, is a subset of A B. (A 에서 B 로의이진관계

More information

Microsoft PowerPoint - chap01-C언어개요.pptx

Microsoft PowerPoint - chap01-C언어개요.pptx #include int main(void) { int num; printf( Please enter an integer: "); scanf("%d", &num); if ( num < 0 ) printf("is negative.\n"); printf("num = %d\n", num); return 0; } 1 학습목표 프로그래밍의 기본 개념을

More information

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의 제시문 문제지 2015학년도 대학 신입학생 수시모집 일반전형 면접 및 구술고사 수학 제시문 1 하나의 동전을 던질 때, 앞면이나 뒷면이 나온다. 번째 던지기 전까지 뒷면이 나온 횟수를 라 하자( ). 처음 던지기 전 가진 점수를 점이라 하고, 번째 던졌을 때, 동전의 뒷면이 나오면 가지고 있던 점수를 그대로 두고, 동전의 앞면이 나오면 가지고 있던 점수를 배

More information

통계학입문

통계학입문 확률및통계특강 세부사항 교수님 성함 : 김홍기 연락처 : 821-5433 E-mail : honggiekim@cnu.ac.kr 교재 : 통계학입문 ( 정익사 / 김주한외 ) 강의자료 ppt 파일은정보통계학과홈페이지 -> 대학원 -> 수업자료 또는사이버캠퍼스자료실 이사이트에서기출문제도얻을수있습니다. 중간고사 (closed book) : 45%, 기말고사 (open

More information

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt 수명분포및신뢰도의 통계적추정 포항공과대학교산업공학과전치혁.. 수명및수명분포 수명 - 고장 까지의시간 - 확률변수로간주 - 통상잘알려진분포를따른다고가정 수명분포 - 확률밀도함수또는 누적 분포함수로표현 - 신뢰도, 고장률, MTTF 등신뢰성지표는수명분포로부터도출 - 수명분포추정은분포함수관련모수의추정 누적분포함수및확률밀도함수 누적분포함수 cumulav dsbuo

More information

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는 제 12 강분산분석 분산분석 (ANOVA) (1) 1. 개요 비교하는집단의수가 3개이상일경우에사용되는통계기법이분산분석이다. 두표본 t검증에서는문제의단순성때문에야기되지않는문제들이다수의표본으로확대됨에따라문제들이야기되기도한다. 다음과같은 r개의모집단이있다고가정하자..... ~ N( μ σ ) ~ N( μ σ ).... ~ N ( μ σ )...... 위의그림과같이여러번에걸쳐두표본의

More information

Microsoft Word - EDA_Univariate.docx

Microsoft Word - EDA_Univariate.docx 일변량분석개념 일변량분석은개체의특성을 측정한변수가하나인 통계분석 방법 변수의 종류 ( 수리 통계 ) 이산형 (discrete): 측정결과를셀수있는경우이다. 성별, 직업, 교통량, 나이등이여기해당된다. 연속형 (continuous): 측정결과가무한이 (infinite) 많은변수를연속형형변수라한다. 즉변수의범위 (range) 중어떤구간을설정하더라도측정치가발생할할수있는경우로키,

More information

152*220

152*220 152*220 2011.2.16 5:53 PM ` 3 여는 글 교육주체들을 위한 교육 교양지 신경림 잠시 휴간했던 우리교육 을 비록 계간으로이지만 다시 내게 되었다는 소식을 들으니 우 선 반갑다. 하지만 월간으로 계속할 수 없다는 현실이 못내 아쉽다. 솔직히 나는 우리교 육 의 부지런한 독자는 못 되었다. 하지만 비록 어깨너머로 읽으면서도 이런 잡지는 우 리

More information

Red Dot Award: Communication Design 에 참 하기 결정해 주셔서 기쁩니다. "성공을 위한 안내서"는 등 절 에 대해 안내 니다. 지체 말고 언 든지 연 해 주 오. Red Dot 은 등 절 또는 등 후 절 를 기꺼 와드 겠습니다. 01 Int

Red Dot Award: Communication Design 에 참 하기 결정해 주셔서 기쁩니다. 성공을 위한 안내서는 등 절 에 대해 안내 니다. 지체 말고 언 든지 연 해 주 오. Red Dot 은 등 절 또는 등 후 절 를 기꺼 와드 겠습니다. 01 Int Your Guide to Success Interface Design Red Dot Award: Communication Design 에 참 하기 결정해 주셔서 기쁩니다. "성공을 위한 안내서"는 등 절 에 대해 안내 니다. 지체 말고 언 든지 연 해 주 오. Red Dot 은 등 절 또는 등 후 절 를 기꺼 와드 겠습니다. 01 Interface Design

More information

(Hyunoo Shim) 1 / 24 (Discrete-time Markov Chain) * 그림 이산시간이다연쇄 (chain) 이다왜 Markov? (See below) ➀ 이산시간연쇄 (Discrete-time chain): : Y Y 의상태공간 = {0, 1, 2,..., n} Y n Y 의 n 시점상태 {Y n = j} Y 가 n 시점에상태 j 에있는사건

More information

10. ..

10. .. 점추정구간추정표본크기 차례 점추정구간추정표본크기 1 점추정 2 구간추정 3 표본크기 추정의종류 점추정구간추정표본크기 점추정 (point estimation): 모수를어떤하나의값으로추측하는것 구간추정 (interval estimation): 모수를어떤구간으로추측하는것 예 ) 피그미족 (Pygmytribe) 의평균키는모수 µ 표본을추출하여평균을구해보니 135cm

More information

<34B1C720C0CEB1C7C4A7C7D828C3D6C1BEC6EDC1FD30323138292D28BCF6C1A4292E687770>

<34B1C720C0CEB1C7C4A7C7D828C3D6C1BEC6EDC1FD30323138292D28BCF6C1A4292E687770> 이 조사보고서는 진실 화해를 위한 과거사정리 기본법 제32조제1항 규정에 따라 2008년 7월 9일부터 2009년 1월 5일까지의 진실 화해를위 한과거사정리위원회 활동을 대통령과 국회에 보고하기 위해 작성되었습 니다. 차례 제 3 부 인권침해규명위원회 사건 김세태 등에 대한 보안대의 불법구금 등 인권침해사건 11 오주석 간첩조작 의혹 사건 25 보안대의 가혹행위로

More information

= ``...(2011), , (.)''

= ``...(2011), , (.)'' Finance Lecture Note Series 사회과학과 수학 제2강. 미분 조 승 모2 영남대학교 경제금융학부 학습목표. 미분의 개념: 미분과 도함수의 개념에 대해 알아본다. : 실제로 미분을 어떻게 하는지 알아본다. : 극값의 개념을 알아보고 미분을 통해 어떻게 구하는지 알아본다. 4. 미분과 극한: 미분을 이용하여 극한값을 구하는 방법에 대해 알아본다.

More information

歯20010629-001-1-조선일보.PDF

歯20010629-001-1-조선일보.PDF 6. 29 () 11:00 ( ) 20 0 1. 6. 29 11( ).(397-1941) 1. 2. 3. 4. 5. 1. 28, 60() (,, ) 30 619(, 6. 29) () 6 (,,,,, ),,, - 1 - < > (, ), () < > - 2 - 2.,,, 620,, - 3 - 3. ( ) 1,614,, 864 ( ) 1,6 14 864 () 734

More information

<C1DF29BCF6C7D020315FB1B3BBE7BFEB20C1F6B5B5BCAD2E706466>

<C1DF29BCF6C7D020315FB1B3BBE7BFEB20C1F6B5B5BCAD2E706466> 84 85 86 87 88 89 1 12 1 1 2 + + + 11=60 9 19 21 + + + 19 17 13 11=60 + 5 7 + 5 + 10 + 8 + 4+ 6 + 3=48 1 2 90 1 13 1 91 2 3 14 1 2 92 4 1 2 15 2 3 4 93 1 5 2 6 1 2 1 16 6 5 94 1 1 22 33 55 1 2 3 4 5 6

More information

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상 Android 용 Brother Image Viewer 설명서 버전 0 KOR 아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상표입니다. Android는

More information

<B0A3C3DFB0E828C0DBBEF7292E687770>

<B0A3C3DFB0E828C0DBBEF7292E687770> 초청연자특강 대구가톨릭의대의학통계학교실 Meta analysis ( 메타분석 ) 예1) The effect of interferon on development of hepatocellular carcinoma in patients with chronic hepatitis B virus infection?? -:> 1998.1 ~2007.12.31 / RCT(2),

More information

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan , Finance Lecture Note Series 금융시장과 투자분석 연구 제4강. 소유와 경영의 분리1 조 승 모2 영남대학교 대학원 경제학과 2015학년도 2학기 Copyright 2015 Cho, Seung Mo 1 기본적으로 Fisher, I. (1930), The Theory of Interest, Macmillan의 내용을 바탕으로 작성되었으며,

More information

Microsoft PowerPoint - ch10 - 이진트리, AVL 트리, 트리 응용 pm0600

Microsoft PowerPoint - ch10 - 이진트리, AVL 트리, 트리 응용 pm0600 균형이진탐색트리 -VL Tree delson, Velskii, Landis에의해 1962년에제안됨 VL trees are balanced n VL Tree is a binary search tree such that for every internal node v of T, the heights of the children of v can differ by at

More information

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770> 삼각함수. 삼각함수의덧셈정리 삼각함수의덧셈정리 삼각함수 sin (α + β ), cos (α + β ), tan (α + β ) 등을 α 또는 β 의삼각함수로나 타낼수있다. 각 α 와각 β 에대하여 α >0, β >0이고 0 α - β < β 를만족한다고가정하 자. 다른경우에도같은방법으로증명할수있다. 각 α 와각 β 에대하여 θ = α - β 라고놓자. 위의그림에서원점에서거리가

More information

II. 기존선행연구

II. 기존선행연구 수익용부동산의임대수익영향요인에관한연구 I. 서론 II. 기존선행연구 Ⅲ. 실증분석모형및자료 yit = a + b xit + ui + eit yit = ( a + ui ) + b xit + eit α α cov( it, i ) 0 x u = cov( x, ) 0 it u i ¹ H : cov( x, u ) = 0 0 H : cov( x, u ) ¹ 0 1 it

More information

ch3.hwp

ch3.hwp 미디어정보처리 (c) -4 한남대 정보통신멀티미디어학부 MCCLab. - -...... (linear filtering). Z k = n i = Σn m Σ j = m M ij I ji 컨볼루션 영역창 I I I I 3 I 4 I 5 I 6 I 7 I 8 x 컨볼루션 마스크 M M M M 3 M 4 M 5 M 6 M 7 M 8 I 입력 영상 Z 4 = 8 k

More information

<4D6963726F736F667420506F776572506F696E74202D20283135313132372931312EBCADBAF1BDBABDC3BCB3C0C720C0D4C1F6BCB1C1A4205BC8A3C8AF20B8F0B5E55D>

<4D6963726F736F667420506F776572506F696E74202D20283135313132372931312EBCADBAF1BDBABDC3BCB3C0C720C0D4C1F6BCB1C1A4205BC8A3C8AF20B8F0B5E55D> 서비스기업 운영관리론 Start Your Global Business With Asadal 1 서비스 시설의 입지선정 서강대학교 경영대학 경영전문대학원 교수 서창적 서비스 시설의 유형 Start Your Global Business With Asadal 2 준제조형 서비스 목표 : 네트워크의 물류비용의 최소화 예) 창고, 콜센터 배달 서비스 목표 : 지리적

More information

5. 회 의내용 < 제 1호 안 : 2011학년도 법 안 회 제 철 산(안 )> 법인 사무국장의 성왼 보고에 이이 의장이 이사회 개회 용 선언하고 회계판려부장에 게 제 l 호 안인 20 11 학년도 입인 회계 결산(안)에 대한 성명융 지시함 회계판리부장이 2011 학년

5. 회 의내용 < 제 1호 안 : 2011학년도 법 안 회 제 철 산(안 )> 법인 사무국장의 성왼 보고에 이이 의장이 이사회 개회 용 선언하고 회계판려부장에 게 제 l 호 안인 20 11 학년도 입인 회계 결산(안)에 대한 성명융 지시함 회계판리부장이 2011 학년 학교법언한성학원 2012학년도 제 2차 이사 회 회 의 록 구 ss 01 사 감사 일원징수 8인 2인 재적잉윈 7인 2인 참석잉원 5인 인 1. 연 시 : 2012년 5월 22일(화) 10:30 11:10 (회의소집 상보일 : 2012.5.10.) 2. 장 소 경성대학교 정보판 10충 회의실 3. 엄원 출 결 사항 참석임웬 (5명) : 김대성, 이동철, 김순칭,

More information

OCW_C언어 기초

OCW_C언어 기초 초보프로그래머를위한 C 언어기초 4 장 : 연산자 2012 년 이은주 학습목표 수식의개념과연산자및피연산자에대한학습 C 의알아보기 연산자의우선순위와결합방향에대하여알아보기 2 목차 연산자의기본개념 수식 연산자와피연산자 산술연산자 / 증감연산자 관계연산자 / 논리연산자 비트연산자 / 대입연산자연산자의우선순위와결합방향 조건연산자 / 형변환연산자 연산자의우선순위 연산자의결합방향

More information

안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정]------------------------------------------------- 2 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규

안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정]------------------------------------------------- 2 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규 발행일 : 2013년 7월 25일 안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정]------------------------------------------------- 2 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규정]--------------------------------------------

More information

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan , Finance Lecture Note Series 학습목표 제4강 소유와 경영의 분리 효용함수(utility function): 효용함수, 한계효용(marginal utility), 한계대체율(marginal rate of substitution) 의 개념에 대해 알아본다 조 승 모2 (production possibility curve): 생산가능곡선과 한계변환율(marginal

More information

<4D F736F F F696E74202D20C4C4C8B031B1DEC7CAB1E22DC0FCC3BCB1B3C0E72D D3133B3E232C8B8B1EEC1F6202D20BAB9BBE7BABB2E707074>

<4D F736F F F696E74202D20C4C4C8B031B1DEC7CAB1E22DC0FCC3BCB1B3C0E72D D3133B3E232C8B8B1EEC1F6202D20BAB9BBE7BABB2E707074> [ 엑셀총정리 (3)] 구분 주요 정보 ISBLANK, ISERROR, CELL, ISERR, ISEVEN, ISLOGICAL, ISNONTEXT, ISNUMBER, ISODD, ISTEXT, N, TYPE 데이터베이스 DSUM, DAVERAGE, DCOUNT, DCOUNTA, DMAX, DMIN, DVAR, DSTEDEV, DGET, DPRODUCT VLOOKUP,

More information

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론 수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론 Ⅱ. 선행연구고찰 집적경제메커니즘의유형공유메커니즘매칭메커니즘학습메커니즘 내용기업이군집을형성하여분리불가능한생산요소, 중간재공급자, 노동력풀등을공유하는과정에서집적경제발생한지역에기업과노동력이군집을이뤄기업과노동력사이의매칭이촉진됨에따라집적경제발생군집이형성되면사람들사이의교류가촉진되어지식이확산되고새로운지식이창출됨에따라집적경제발생

More information