Microsoft Word - Chapter5.doc

Similar documents
statistics

(001~006)개념RPM3-2(부속)

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

슬라이드 1

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

Microsoft Word - EDA_Univariate.docx

Microsoft Word - SAS_Data Manipulate.docx

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞

G Power

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

R t-..

Microsoft PowerPoint - SBE univariate5.pptx

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

nonpara1.PDF

PowerPoint 프레젠테이션

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

자료의 이해 및 분석

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

Microsoft Word - Chapter8.doc

untitled

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - IPYYUIHNPGFU

Microsoft PowerPoint - chap04-연산자.pptx

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS

untitled

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

Microsoft Word - SPSS_MDA_Ch6.doc


Chapter 분포와 도수분석

Microsoft PowerPoint - PDF3 SBE pptx

- 2 -

모수검정과비모수검정 제 6 강 지리통계학

18강.hwp

통계학입문

eda_ch7.doc

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

고객관계를 리드하는 서비스 리더십 전략

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

Microsoft Word - Chapter6.doc

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

메타분석: 통계적 방법의 기초

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

PowerPoint 프레젠테이션

7) 다음의 다음 9) 남학생과 9. zb 여학생 각각 명이 갖고 있는 여름 티 셔츠의 개수를 조사하여 꺾은선그래프로 나타낸 것 이다. 이 두 그래프의 설명으로 옳지 않은 것은? ㄱ. ㄴ. 회째의 수학 점수는 점이다. 수학 점수의 분산은 이다. ㄷ. 영어점수가 수학 점

untitled

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

..(..) (..) - statistics

자료의 이해 및 분석

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

확률 및 분포

PowerPoint Presentation

PowerPoint 프레젠테이션

온습도 판넬미터(JTH-05) 사양서V1.0

R

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

설계란 무엇인가?

와플-4년-2호-본문-15.ps

[INPUT] 뒤에는변수와관련된정보를표기한다. [CARDS;] 뒤에는각각의변수가가지는관측값들을표기한다. >> 위의프로그램에서데이터셋명은 wghtclub 이고, 변수는 idno, name, team, strtwght, endwght 이다. 이중 name 과 team 은

Microsoft PowerPoint - MDA 2008Fall Ch2 Matrix.pptx

Microsoft PowerPoint - chap03-변수와데이터형.pptx

Microsoft PowerPoint - chap05-제어문.pptx

Microsoft PowerPoint - 26.pptx

exp

04 Çмú_±â¼ú±â»ç

Microsoft Word - Chapter9.doc

cat_data3.PDF

Microsoft PowerPoint Relations.pptx

Microsoft PowerPoint - chap01-C언어개요.pptx

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

통계학입문

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

Microsoft Word - EDA_Univariate.docx

152*220

Red Dot Award: Communication Design 에 참 하기 결정해 주셔서 기쁩니다. "성공을 위한 안내서"는 등 절 에 대해 안내 니다. 지체 말고 언 든지 연 해 주 오. Red Dot 은 등 절 또는 등 후 절 를 기꺼 와드 겠습니다. 01 Int


10. ..

<34B1C720C0CEB1C7C4A7C7D828C3D6C1BEC6EDC1FD D28BCF6C1A4292E687770>

= ``...(2011), , (.)''

歯 조선일보.PDF

<C1DF29BCF6C7D020315FB1B3BBE7BFEB20C1F6B5B5BCAD2E706466>

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

<B0A3C3DFB0E828C0DBBEF7292E687770>

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

Microsoft PowerPoint - ch10 - 이진트리, AVL 트리, 트리 응용 pm0600

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

II. 기존선행연구

ch3.hwp

<4D F736F F F696E74202D EBCADBAF1BDBABDC3BCB3C0C720C0D4C1F6BCB1C1A4205BC8A3C8AF20B8F0B5E55D>

5. 회 의내용 < 제 1호 안 : 2011학년도 법 안 회 제 철 산(안 )> 법인 사무국장의 성왼 보고에 이이 의장이 이사회 개회 용 선언하고 회계판려부장에 게 제 l 호 안인 학년도 입인 회계 결산(안)에 대한 성명융 지시함 회계판리부장이 2011 학년

OCW_C언어 기초

안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정] 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

<4D F736F F F696E74202D20C4C4C8B031B1DEC7CAB1E22DC0FCC3BCB1B3C0E72D D3133B3E232C8B8B1EEC1F6202D20BAB9BBE7BABB2E707074>

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

Transcription:

CHAPTER 5. BASE PROCEDURE SAS 데이터가 만들어지면 1SAS 데이터(변수)를 변환하거나 기존 변수를 이용하여 새로 운 변수를 만들고 얻어진 데이터를 이용하여 원하는 통계분석을 실시한다. SAS 데이터 (변수)를 변환하거나 새로운 변수를 만들 때는 관측치(행)에 대해 일련의 과정이 실시된다. 이런 과정에서 함수가 사용된다. PROC은 각 변수에 대한 일변량 통계분석, 변수 들간 관계 분석을 하는 단계로 데이터 단계에서 만들어진 SAS 데이터를 이용하게 된다. 원하는 정보를 얻기 위한 적정한 통계분 석 방법이 설정되면 거기에 맞는 PROC과 그것의 사용 방법 및 옵션 지정 방법대로 프로 그램을 실행하면 원하는 결과를 얻는다. 회귀분석을 하려면 SAS/STAT의 PROC REG, 품질공정 관리도 출력을 위해서는 SAS/QC 의 PROC SHEWHART, 시계열 자료 예측 모형은 SAS/ETS의 PROC ARIMA를 사용하면 된 다. 이처럼 통계 분석 방법에 따라 적절한 PROC가 존재한다. 여기서는 SAS/BASE(가장 기 초적인 통계분석을 위한 procedure)에 포함된 PRO에 대해 통계 분석 및 예제 중심으로 사 용방법과 결과 해석 방법을 다루기로 한다.

186 Chapter 5. BASE PROCEDURE 5.1 PROC 맛보기 FITNESS.txt 데이터를 살펴보자. 다음은 세 변수(RESTPULSE, RUNPULSE, MAXPULS)의 평균을 구하여 PULSE_AVG 변 수를 만들었다. 새로운 변수가 생성되었다. 기존 변수를 이용하여 새로운 변수를 만들거나 변환하는 작업은 함수를 이용하면 된다. (4장 참고) 이제 세 변수(RESTPULSE, RUNPULSE, MAXPULS) 각각의 기초 통계량(평균, 표준편차, 최대값, 최소값)을 구해 보자. 이는 각 변수에 대한 일변량 분석으로 PROCEDURE가 이용 된다. 변수에 대한 기초 통계량 계산을 위한 PROC은 MEANS, UNIVARIATE, SUMMARY 등 을 사용할 수 있는데 가장 간단한 것이 MEANS이다. 이 PROC은 SAS/BASE 제품에 포함

187 되어 있다. 세 변수(RESTPULSE, RUNPULSE, MAXPULS)의 상관에 대한 분석을 실시해 보자. 변수 들간의 분석이므로 PROCEDURE를 이용한다. CORR PROC이 이용되는데 SAS/BASE 제품 에 포함되어 있다. 출력 결과의 위에 숫자는 상관계수이고 아래 숫자는 유의확률(p-value)이 다. 유의확률이 유의수준보다 크다는 것은 귀무가설을 기각할 수 없다는 것이다. 유의확률 의 의미는 귀무가설을 기각할 최소의 유의수준, 혹은 관측된 검정통계량 귀무가설을 기각할 방향으로 치우칠 확률이다. 그러므로 유의확률이 유의수준(일반적으로 5%)보다 작다는 것 은 귀무가설을 기각할 수 있다는 것이다. 아래 결과를 보면 유의수준 5%에서 MAXPULSE 와 RUNPULSE의 상관관계는 유의하다. 다른 변수들간의 상관 계수는 유의하지 않다. MAXPULSE와 RUNPULSE의 상관계수가 0.998이므로 최대 맥박과 달릴 때 맥박은 양의 상관 관계가 존재한다. 즉 달릴 때 맥박이 높으면(낮으면) 최대 맥박도 증가한다(감소한다).

188 Chapter 5. BASE PROCEDURE 5. 데이터 조작 5..1 PROC PRINT SAS 데이터 내용을 출력 창에 출력하고자 할 때 사용한다. 가장 간단한 형태는 다음과 같으며 DATA= SAS데이터 이름 에 설정된 데이터 내용이 모두 출력된다. DATA= 옵션을 사 용하지 않으면 바로 전에 사용된 SAS 데이터가 출력되므로 사용하지 않아도 되나 가능하 면 사용하는 것이 프로그램 관리와 디버깅을 위해 좋다. 결과를 출력하면 자동으로 실행 날짜와 페이지 번호가 나타난다. 이를 출력하지 않게 하 려면 다음 OPTIONS 문장을 사용하면 된다. (3.5.11절 참고) NOOBS는 데이터 출력 결과 제 일 앞 줄에 Obs(데이터 순서)가 출력되지 않게 하는 옵션이며, VAR(iable) 옵션은 원하는 변 수만 출력하라는 것이다.

189 TITLE 문은 출력 결과의 제목을 정해주는 문장이며 제목 설정을 없애려면 TITLE; 문을 한번 실행해 주면 된다. SUM 문은 원하는 변수의 합을 출력하게 한다. SUMBY 문에 설정된 변수에 의해 각 변수들의 합이 출력된다. SUMBY 문은 반드시 BY 문과 함께 사용해야 한다. BY 문이 사용되는 경우에는 SAS 데이터는 사전에 반드시 BY 문 에 사용되는 변수에 의해 정렬(SORT) 되어 있어야 한다. 아래 PROC PRINT에서 BY 문에 변수 AGE가 사용되므로 FITNESS 데이터는 변수 AGE에 의해 정렬되어 있어야 한다.

190 Chapter 5. BASE PROCEDURE 5.. PROC SORT SAS 데이터를 원하는 변수에 의해 정렬하고자 할 때 사용한다. OUT 옵션은 정렬된 데이 터를 저장하는 SAS 데이터 이름을 지정한다. 사용하지 않으면 원 데이터 이름과 동일한 곳 에 저장된다. DESCENDING 옵션은 내림차순 정렬을 의미한다. FITNESS 데이터를 우선 변수 AGE에 의해 내림 차순(DESCENDING 옵션 사용) 정렬하 고 변수 OXYGEN에 의해 오름차순(디폴트가 오름 차순) 정렬하려고 한다면 다음 프로그램 을 이용하면 된다. BY 문에 사용된 변수 순서대로 데이터를 정렬한다. 결과는 OUT 옵션에 의해 FITNESS1 이름에 저장된다.

191 EXAMPLE: PROC SORT 사용하기 FITNESS 데이터를 변수 RUNTIME에 의해 오름차순으로 정렬하고 (정렬된 데이터는 FITNESS라는 이름으로 저장하시오) 변수 RUNTIME, AGE만 출력하자. 출력 결과의 제목 은 내림차순정렬 BY RUNTIME 이라고 하자. 5..3 PROC RANK PROC SORT는 단순히 변수의 크기에 의해 데이터를 정렬한다면 PROC RANK는 변수의 크기에 의해 일련 번호를 부여하는 것이다. OUT 옵션은 결과를 저장하는 SAS 데이터 이름 을 지정한다. 만약 사용하지 않으면 원 데이터에 저장된다. RANKS 문장을 사용하지 않으면 변수의 원 값 대신 순위가 저장되므로 OUT=을 사용하여 새 이름으로 저장하는 것이 좋다. TIES 옵션은 동일한 값을 갖는 관측치가 있다면 순서 번호를 낮은 것으로 부여한다. 나 이가 44살인 사람이 4명 있다. 실제 순서는 7, 8, 9, 10인데 순서가 가장 낮은 7로 부여한다. HIGH(높은 순서), MEAN(순서 평균)을 사용할 수 있다. VAR 옵션은 순서를 부여하기 원하는 변수를 지정한다. RANKS 옵션은 순서 번호에 대한 변수명을 지정한다.

19 Chapter 5. BASE PROCEDURE VAR에 지정한 변수 개수만큼 지정해 주어야 한다. 만약 내림차순으로 부여하고 싶으면 DESCENDING 옵션을 사용하면 된다. 다음 프로그램은 FITNESS 데이터에서 나이 변수의 순위 값을 AGE_R 변수에 저장하고 산소량 변수의 순위 값을 OXYGEN_R에 저장한다. 새로운 데이터 이름은 RANK1이다. TIES=LOW 옵션으로 동일한 관측치가 있으면 낮은 순위가 저장된다. Obs=5, 10 모두 나이 가 38세로 동일하고 나이가 가장 적다. 순위가 부여될 수 있는 방법은 1, 1(TIES=low),, (TIES=high), 1.5, 1.5(TIES=mean)이 있다. 여기서는 LOW 옵션이 사용되었다. EXAMPLE: PROC RANK 사용하기 FITNESS 데이터를 변수 MAXPULSE에 의해 크기 역순(내림차순)으로 정렬하고 변수명 은 MAXPULSE_R로 하시오. 동일한 값에 대한 순서는 평균을 사용하시오. 새로운 SAS 데 이터 이름은 RANK로 하시오. 내림차순 순위를 부여해야 하므로 DESCENDING 옵션이 사용되었고(최대 맥박 19인 사 람의 순위가 1이다) 평균 순위 설정하기 위하여 MEAN 옵션(5번째, 1번째 관측치의 순위

193 가 8, 9 대신 8.5로 부여)을 사용하였다. EXAMPLE: PROC RANK 사용하기() 변수 RUNTIME의 크기에 의해 데이터를 3개의 그룹으로 나누고 싶다면 GROUPS 옵션 을 사용하면 된다. GROUPS는 데이터를 그룹으로 나눌 때 설정하는 옵션이며 VAR와 RANK 옵션에서 그룹화 하는 변수와 변수명을 지정한다. 다음은 RUNTIME 크기에 의해 데이터를 3개로 나누기 위한 프로그램이다.

194 Chapter 5. BASE PROCEDURE 5..4 PROC STANDARD STANDARD PROC는 원하는 변수를 원하는 평균과 표준편차가 되게 변형하는 절차이다. MEAN 옵션에서는 원하는 평균 값을 STD 옵션에서는 표준편차 값을 지정한다. 평균=0, 표 μ 준편차=1일 경우 이를 변수를 표준화( z = X )라 한다. BY문이 사용되면 이 변수에 따라 σ VAR에 지정한 변수가 변환된다. BY문에 사용되는 변수는 분류형 변수이어야 한다. 다음 프로그램은 RUNTIME 변수는 평균이 0이고 분산이 1인 변수로 변환된다. 결과는 ZSCORE 이름으로 저장된다.

195 정말 RUNTIME 변수가 평균이 0, 표준편차 1인지 확인해 보자. E-15의 의미는 미하므로 평균은 거의 0이다. 15 10 의 EXAMPLE: PROC STANDARD 사용하기 FITNESS 데이터를 변수 MAXPULSE의 평균을 150, 분산을 3으로 표준화하자. 결과 데 이터는 SCORE라는 이름으로 저장하고, 변환된 MAXPULSE 변수의 평균과 표준편차가 150, 3으로 변환되었는지 PROC MEANS를 이용하여 확인해보자. 5..5 PROC TRANSPOSE 데이터를 전치(transpose)하는 PROC이다. 열인 변수가 관측치, 행인 관측치가 변수로 변 환된다. NAME 옵션은 원 데이터 변수 이름에 대한 변수 이름을 설정한다. 이 옵션을 사용

196 Chapter 5. BASE PROCEDURE 하지 않으면 _NAME_ 이름이 사용된다. PREFIX는 전치된 데이터 변수 이름 앞의 접두어를 설정한다. 사용하지 않으면 COL이 디폴트이다. 다음 프로그램 실행 결과를 보듯이 행과 열리 바뀌었다. 원래 변수 이름은 _NAME_ 변수 에 관측치로 저장되어 있다. 행의 관측치들은 열로 전치되어 변수 이름은 COL*으로 설정되 었다. 원 데이터 FITNESS에는 변수 7개, 관측치 31개이었으나 전치된 TR1 데이터는 변수 3개(변수 이름 포함), 관측치 7개 있다. EXAMPLE: PROC TRANSPOSE 사용하기 원 데이터 변수 이름에 대한 변수 이름 지정을 위해 NAME 옵션을 사용하였고 관측치들 의 변수 이름 접두어로 V 사용하기 위하여 PREFIX 옵션을 설정하였다.

197 5.3 데이터 요약 데이터의 변수는 분류형(categorical, non-metric, qualitative, classified) 변수와 측정형 변수 (metric, measurable, quantitative)로 나뉜다. 측정형 변수는 실험 개체의 측정 가능한 특성을 측정한 변수로 키, 몸무게, 평점, IQ, 교통량, 사망자 수가 그 예이다. 분류형 변수는 개체를 분류하기 위해 측정된 변수를 의미하며 성별, 결혼여부 등이 그 예이다. 분류형 변수는 명 목형(nominal, 개체를 분류만 한다, 예: 성별, 결혼여부, 학력)과 순서형(ordinal, 순서를 가진 다. 예: 성적(A, B,..) 소득수준(상, 중, 하), 리커트 척도 문항)으로 나뉜다. 데이터의 각 변수를 개별적으로 분석하는 것을 일변량 분석(univariate analysis)이라 한다. 일변량 분석이란 변수의 요약치(통계량)를 구하거나 그 통계치를 이용하여 모수(모집단 특 성 값)를 추정하거나 가설 검정하는 것이다. 분류형 변수에 대한 숫자 요약은 빈도 분석, 측정형 변수에 대해서는 기초 통계량을 구하게 된다. 그래프 요약으로는 히스토그램, 줄기- 잎 그림, 나무 상자 그림이 있다. 여기서는 일변량 분석 중 숫자 요약 구하거나 정리하는 방법만을 살펴보기로 한다. 5.3.1 PROC FREQ 분류형 변수의 빈도 표를 얻기 위해 사용되는 PROC이다. ORDER 옵션은 빈도 표 출력 할 때 행의 순서를 결정하는 것으로 DATA(원 데이터에 나타난 순서대로), FREQ(빈도의 크

198 Chapter 5. BASE PROCEDURE 기 순으로)을 사용할 수 있다. 디폴트는 분류형 변수의 관측치 알파벳 순이다. TABLE 문에 는 분류형 변수를 여러 개 열거해도 된다. NOCUM 옵션은 누적 빈도를 출력하지 말라는 것이다. RANK PRCO을 사용하여 FITNESS 데이터의 OXYGEN 변수의 크기에 의해 세 그룹으로 나누고 그 그룹 변수를 OXYGEN_G으로 설정하였다. 그리고 FREQ PROC 사용하여 나이 와 산소량 그룹 변수에 대한 빈도 표를 구하였다. EXAMPLE: PROC TRANSPOSE 사용하기 빈도 표의 향을 빈도의 크기 순(ORDER=FREQ 옵션)으로 하고 누적 빈도와 백분율을 출 력하지 않았다(NOCUM 옵션).

199 5.3. PROC MEANS 연속형 변수에 대한 기초통계량(elementary statistics, 평균, 중앙값, 백분위 값, 분산, 범위 등)을 계산하거나 모집단 평균에 대한 가설 검정을 하는데 사용되는 procedure이다. 측정형 변수에 대한 기초 통계량은 PROC UNIVARIATE에 의해 모두 얻을 수 있으나 MEANS의 장 점은 원하는 기초 통계량만을 출력할 수 있다는 장점이 있다. KEY-WORDS에는 원하는 통계량을 적어 주면 된다. ALPAH 옵션은 신뢰구간 구할 때 사 용되는 옵션으로 통계량 CLM(Confidence Limit for Mean, 평균에 대한 신뢰구간)을 출력할 때 함께 사용된다. 디폴트는 0.05이다. BY문과 CLASS 문은 유사한데 설정된 변수에 의해 VAR에 지정된 변수의 통계량이 출력 된다. 차이점은 예제를 통해 살펴보기로 한다. OUTPUT 문장은 기초 통계량을 SAS 데이터에 저장한 후 향후 프로그램 사용할 때 필요 한 문장이다. OUT=에는 새로 저장될 데이터 이름을 설정하고 그 뒤에는 기초 통계량의 변 수 이름을 설정한다.

00 Chapter 5. BASE PROCEDURE 다음은 MEANS에서 사용될 수 있는 기초 통계량의 키워드이다. 표본의 크기 n인 변수의 관측치를 ( x 1, x,..., xn ), 순서 통계량을 ( x( 1), x(),..., x( n) ) 이라 하자. 수정 제곱합(adjusted SS) ( x i x) 범위(range) R = x ( n) x(1)

01 s n xi x 3 변동계수(CV) CV = 100 왜도(skewness) ( ) x ( n 1)( n ) s n( n + 1) xi x 4 3( n 1) 첨도(kurtosis) ( ) ( n 1)( n )( n 3) s ( n )( n 3) 표준편차(std, stddev) s = ( xi x) n 1 LCLM s x t( n 1; α / ) 평균표준오차(STDERR) n s n 최대값(maximum) x (n) 관측치 합(sum) x i xi 평균(mean) x = UCLM n x + t( n 1; α / ) s n 최소값(minimum) x (1) 제곱합(Un-adjusted SS) x i N=표본의 수(관측치) ( xi x) 분산(variance) s = n 1 중앙값(median) x m = x(( n+1) / ) Inter Quartile Range Q3 Q1 OXYGEN 변수의 기초 통계량 평균, 표준 편차, 표준 오차( 5.3 / 31 ), 평균에 대한 신뢰 구간을 출력한 프로그램이다.

0 Chapter 5. BASE PROCEDURE EXAMPLE: PROC MEANS 사용하기 NOPRINT 옵션은 MEANS 출력 결과를 출력하지 말라는 옵션이다, OUTPUT 문장은 기초 통계량을 저장하라는 명령이다. 왼쪽은 기초 통계량 키워드이고 = 뒤에는 저장 변수 이름 이다. 키워드를 제대로 사용하면 파란색이 된다. 새 데이터 OUT1에는 자동 생성 변수 _TYPE_(0의 의미는 전체 모두 사용, 1은 하위 그룹, 여기서는 BY문이나 CLASS문을 사용 하지 않았으므로 1이 없다)와 _FREQ_(사용된 관측치 수)가 나타난다. EXAMPLE: PROC MEANS 사용하기() 나이 변수를 CLASS문에 사용하였다면? 자동생성 변수 _TYPE_=0이면 전체 관측치 모두 사용했다는 것을 의미하며 1의 의미는 나이별로 계산하였다는 의미이다.

03 BY문을 사용하면 _TYPE_=1인 경우만 출력되고 FITNESS 데이터는 반드시 BY문에 설정 한 변수에 의해 정렬되어 있어야 한다. 만약 NOPRINT 옵션을 사용하지 않으면 CLASS 문을 사용하면 출력 결과 창에 다음과 같이 출력된다. 그러면 BY문을 사용했을 때는 다음과 같이 출력된다.

04 Chapter 5. BASE PROCEDURE 5.3.4 PROC TABULATE 기초통계량을 표 형태로 출력하는데 사용되는 PROC이다. BY문에 지정된 변수에 의해 테 이블이 작성된다. CLASS 문에는 분류형 변수를 지정한다. 분류형 변수는 행이나 열 변수로 사용된다. VAR문에는 측정형 변수를 지정하고 표에서 기초 통계량 구하는 변수로 사용된다. TABLE 문에서는 표의 형식을 설정하는데 행 형식을 먼저 지정하고 열 형식을 나중에 설정 하는데 그 사이는 쉼표(,)로 구별한다. 행이나 열에 교차 셀을 만들려면 (*)을 이용한다. 출 력하려는 기초통계량에 대한 키워드를 사용하면 된다. 5.3.3절에서 설명한 대부분을 키워드 로 사용할 수 있다. TABULATE에서만 가능한 키워드는 PCTN(빈도), ROWPCTN(행빈도), COLPCTN(열빈도) 등이 있다. CLASS.txt(SASHELP.CLASS) 데이터를 이용하여 예제 중심으로 살펴보기로 하자. 열은 분류형 변수 AGE, SEX에 의해 구성된다. 행은 열로 교차 표처럼 구성된다.

05 EXAMPLE: PROC TABLE 사용하기 ALL 옵션은 분류형 변수 각각이 아니라 전체에 대한 표도 작성하라는 것이다. OUT 옵션 에 의해 저장된 데이터를 보기 위하여 PROC PRINT를 사용하였다. 열의 형식 지정 시 * 앞에 평균, 분산을 지정하였으므로 셀의 위치가 다르다. 그러나 결과는 위와 동일하다.

06 Chapter 5. BASE PROCEDURE EXAMPLE: PROC TABLE 사용하기() 1.4.7절에서 설명한 것처럼 웹 문서 형식으로 결과를 출력되도록 도구 옵션 설정을 설 정한 후 한 후 위의 프로그램 실행하면 RESULT VIEW 창에 다음이 출력된다. EXAMPLE: PROC TABLE 사용하기(3) 분류형 변수 사용하지 않고 측정형 변수만 사용하는 경우 다음과 같이 하면 된다.

07 5.4 일변량 분석 데이터로부터 얻은 통계량을 이용하여 모수(모집단의 특성치)에 대한 추정과 가설 검정을 일변량 분석이라 한다. 모집단 평균, 모집단 비율, 모분산, 독립인 두 모집단 차이 검정, 짝 진 두 모집단 차이 검정, 두 모집단 비율 차이 검정, 두 모집단 분산 차이 검정을 일반적으 로 일변량(univariate) 분석이라 한다. 모비율이나 모분산, 두 모비율 차이 검정은 기초 통계량을 구한 후 수작업이나 4.4.3절에 서 SAS 함수를 이용한 계산을 하는 것이 더 효과적이다. 모비율에 대한 가설 검정의 경우 빈도 분석(PROC FREQ)을 이용하여 표본 비율(상대 빈도, 백분율)을 구하고 이것을 검정 통계량으로 사용하면 된다. 두 모비율 차이 검정도 동일하다. 모분산 검정이나 모분산 차이 검정도 표본 분산만을 이용하여 간단히 할 수 있다. 여기서는 측정형 변수에 대하 원 데이터가 있는 경우 모집단 평균에 대한 가설 검정 방 법을 살펴보기로 하자. 5.4.1 통계적 개념 중앙 위치: 평균(mean)

08 Chapter 5. BASE PROCEDURE 평균은 관측치의 절대 크기의 중앙이므로 모든 관측치를 더한 값을 관측치 수(n)로 나눈 값이므로 산술 평균(arithmetic average)과 동일한 개념이다. n개의 관측치 ( x1, x, K, xn ) 의 1 n x1 + x + L + xn 평균은 x = xi = 이다. n i= 1 n (1, 4, 6, 5, 6, )의 평균은 (1+4+6+5+6+)/6=4이다. 순서 통계량(order statistics) 크기가 n인 표본 자료의 관측치(observation) x, x, K, x ) 을 크기 순으로 정렬한 후 가 ( 1 n 장 작은 관측치를 x (1), 그 다음 큰 관측치를 x (),, 가장 큰 관측치를 x(n) 이라 표현하고 x (1), () x,.., x(n) 을 순서 통계량이라 한다. 제품의 불량 개수를 관측하여 (1 1 3 4 6 5 7 9 34 8 10) ( x1, x, K, x1) 순서통계량은 (1 1 3 4 5 6 7 8 9 10 34) ( x( 1), x(), K, x(1) ) 중앙위치: 중앙값(median) 자료의 크기 중심인 평균과는 달리 중앙값은 자료의 순서의 중심이다. 자료의 중앙값을 계산하기 위하여 자료의 순서 통계량(order statistics)을 먼저 구해야 한다. 순서 통계량이란 관측치를 크기 순으로 정렬한 후 제일 작은 값부터 x( 1), x(), K, x( n) 으로 표기하고 이를 순서 통계량(order statistics) 이라 한다. 만약 표본의 크기 n이 홀수이면 M = x({ n+1}/ ), 짝수이 면 M = [ x( n / ) + x({ n+ }/ )]/ 이 중앙값이 된다. 순서통계량(order statistics): 크기가 n인 표 본 자료 관측치(observation) x, x, K, x ) 을 크기 순으로 정렬한 후 가장 작은 관측치를 x (1), 가장 큰 관측치를 (n) 서 통계량에 대해 다음이 성립한다. x( 1) x()... x( n) 최소값 x (1), 최대값 x (n) 범위(range): x( n ) x(1) ( 1 n x 이라 표현하고 x (1), x (),.., x(n) 을 순서 통계량이라 한다. 순

09 크기 6인 표본 관측치 (1, 4, 6, 5, 6, )의 순서 통계량은 (1,, 4, 5, 6, 6)이다. 최소값은 x 1, 최대값은 x 6 이고 범위는 x x 5 이다. ( 1) = ( 6) = ( 6) (1) = 깊이(depth) 사분위 값을 구하려면 자료의 깊이 (depth) 개념을 이용하면 편리하다. (Tukey 제안) 관측 치를 크기 순으로 정렬한 후 각 양쪽 끝에서 1부터 번호를 매겨 그 번호를 자료의 깊이라 정의한다. 즉 최대값, 최소값의 깊이는 각 1이다. Depth(중앙값=M)= ( n +1) / 이고 사분위 깊 이는 Depth(Q1)=Depth(Q3)=([Depth(M)]+1)/이다. (기호)[x]=x를 넘지 않는 최대 정수. 크기 6인 표본 관측치 (1, 4, 6, 5, 6, )의 중앙값 길이는 (6+1)/=3.5이고, 사분위 길이는 ([3.5]+1)/=(3+1)/=이다. 평균과 중앙값 비교 자료의 측정치 중 다른 측정치에 비해 아주 크거나 아주 작은 측정치(극단치)가 존재하는 경우 순서의 중심인 중앙값과는 달리 크기의 중심인 평균은 극단치가 존재하는 쪽으로 치 우치게 된다. 극단치 중 수집 자료에 포함하여 분석하기에는 부적절하게 크거나 작은 측정 치를 이상치(outlier)라 한다. 다음은 확률 분포 함수 (히스토그램) 형태에 따른 중앙값과 평 균의 관계이다. 크기 10인 자료 (1,, 3, 4, 5, 6, 7, 8, 9, 55)의 경우 평균과 중앙값을 구하면 평균은 x = 10 이고 중앙값은 M = x + x ] / = (5 + 6) / 5. 5 이다. 중앙값 길이는 (10+1)/=5.5이고 [ ( 5) (6) = 사분위 길이는 ([5.5+1])/=3이다. 그러므로 제 일사분위 Q1 은 x( 3) = 4 이다.

10 Chapter 5. BASE PROCEDURE 위의 자료에서 중앙 위치를 나타내는 숫자 요약으로는 중앙값인 5.5가 평균인 10보다 더 합리적이다. 이와 같이 극단치가 존재하는 경우 자료의 중앙 위치를 나타내는 통계량으로 중앙값이 평균보다 더 이상적인 값이다. 그리고 자료에 극단치가 존재하지 않으면 중앙값과 평균이 거의 일치하므로 자료의 중앙 위치에 대한 요약 값이라는 측면에서는 중앙값이 평 균보다 더 합리적이다. 중앙값이 평균에 비해 더 합리적인 중앙 위치 값임에도 불구하고 평균을 사용하는 이유 는 다음과 같다. 평균에 대한 1수학적 전개가 용이하고 중앙값과는 달리 평균의 분포함 수를 쉽게 구할 수 있기 때문이다. 중심극한정리(Central Limit Theorem)에 의하면 표본의 크 기 n인 큰 경우(대표본) 모집단의 분포에 상관없이 표본 평균의 분포 함수는 정규분포를 따 른다. 통계량의 분포함수를 구할 수 있는 것이 장점이 되는 이유는 통계량의 분포를 알아야 모수에 대한 신뢰구간을 구하거나 모수에 대한 가설 검정이 가능하다. 극단치가 존재하는 경우 치우침으로 인해 평균의 효율성이 떨어지므로 극단 일부를 제외 하고 평균을 구하게 되는데 이를 TRIMMED(절사) 평균이다. 0% 절사평균은 양쪽에서 10%씩 데이터를 제외하고 평균을 구하게 된다. 이것 역시 문제가 있다. 절사 평균의 분포 를 구하기 어렵다는 것이다. 중심극한정리 (Central Limit Theorem) 표본의 크기 n 이 큰 경우 (0~30 이상) 모집단의 분포 형태에 관계없이 표본 평균의 분 포는 정규분포를 따른다.

11 흩어진 정도(산포도: spread) 위의 그림은 두 대학의 수능 성적 자료 분포 함수이다. 자료의 중앙 위치 값(30점)만으 로 보면 두 대학 신입생들의 성적은 동일하다고 말할 수 있을 것이다. 그러나 확률 분포 함 수를 살펴보면 두 대학 신입생들의 수능 성적은 전혀 다른 정보를 가지고 있음을 쉽게 알 수 있다. A 대학의 신입생은 매우 우수한 학생이 있고 상대적으로 성적이 낮은 학생들도 있 으나 B 대학 신입생들의 성적은 큰 차이를 보이지 않고 평균 점수에 집중되어 있다. 범위와 IQR 측정 자료의 최대값과 최소값의 차이를 범위(range)라 한다. 범위는 계산이 편리하다는 장점이 있으나 범위 계산할 때는 두 측정치(최대값, 최소값)만 사용되므로 다른 측정치들의 정보가 전혀 고려되지 않고 이상치나 극단치가 존재하는 경우 범위가 커지는 단점이 있다. 크기가 10인 자료 (1,, 3, 4, 5, 6, 7, 8, 9, 55)와 같이 극단치가 존재하면 자료의 범위는 54 로 커지게 된다. 극단치가 존재하는 경우 산포도의 계산 값인 범위가 커지는 단점을 보완하 기 위하여 삼 사분위 값과 일 사분위 값의 차이인 IQR 값을 산포도로 사용하기도 하지만 이것 역시 다른 측정치의 정보는 무시되는 단점을 가지고 있다. p%-percentile(백분위 값) 데이터 관측치 중 p%가 그 값보다 작고 (1-p)%가 그 값보다 클 때 그 값을 p% 백분위 값이라 한다. 일사분위(First Quartile, Low Quartile) Q1은 관측치 중 5%가 그 값보다 작고 75%가 그 값보다 클 때 그 값을 일사분위라 정의한다. 이사분위(Second Quartile, Median)

1 Chapter 5. BASE PROCEDURE Q은 관측치 중 50%가 그 값보다 작고 자료의 50%가 그 값보다 클 때 그 값을 이사분위 라 정의하고 이를 특히 중앙값이라 한다. 삼사분위(Third Quartile, Upper Quartile) Q3는 관측 치 중 75%가 그 값보다 작고 자료의 5%가 그 값보다 클 때 그 값을 삼사분위라 정의한 다. 그리고 (Q3-Q1)을 자료의 IQR(Inter-Quartile Range)라 한다. 크기 6인 표본 관측치 (1, 4, 6, 5, 6, )의 순서 통계량은 (1,, 4, 5, 6, 6)이다. 중앙값의 깊 이는 ( 6 + 1)/ = 3. 5 이고 일사분위와 삼사분위 깊이는 ([ 3.5] + 1)/ = 이다. 그러므로 일사분위 Q = x, 이사분위 중앙값 Q = (4 + 5) 4. 5, 삼사분위 Q = x 6 이다. 그러므로 1 () = = 3 (5) = IQR = 6 = 4 이다. 백분위 값을 이용하여 상자-수염 그림을 그릴 수 있다. 상자-수염 그림은 측정형 데이터 의 분포 형태와 이상치를 발견하는데 도움을 주는 그래프이다. Q3+1.5*IQR Q1-1.5*IQR 표준편차 및 분산 자료의 산포도 측정치로 가장 많이 사용되는 분산(variance)은 각 측정치( x i )들이 평균 ( x )으로부터 떨어진 정도(차이)를 제곱한 값들을 합한 후 자료의 수로 나눈 값이고 표준 편 차(standard deviation)는 분산의 양의 제곱근 값으로 정의된다. 모집단 전체 자료의 분산을 모집단 분산( σ ), 표준 편차를 모집단 표준 편차(σ : sigma)라 하고 표본 자료의 경우는 표 본 분산(s ), 표본 표준 편차(s)라 한다. 표준편차나 분포는 순서 통계량에 의해 자료의 흩어진 정도를 나타내는 범위나 IQR과는

13 달리 측정치들이 평균으로부터 떨어진 정도를 숫자로 나타낸다. 측정치와 평균의 차이를 제 곱함으로써 멀리 떨어질수록 자료의 흩어진 정도에 더 많은 영향을 미치게 된다. 즉 표준 편차나 분산은 자료들이 평균으로부터 평균적으로 얼마나 떨어져 있는지를 나타내는 수치 이다. n ( x x) 1 n i 표본 분산 및 표준 편차 계산식: s = = [ xi n( x) ], n 1 n 1 크기가 6인 자료 (1, 4, 6, 5, 6, )의 분산과 표준 편차를 구해보자. i= 1 i= 1 s = s 1 6 (1 4) + (4 4) + L+ ( 4) s = ( x i 4) = = 4.4, s = 4.4 =. 098 6 1 i= 1 5 평균과 표준편차 측정형 자료에 대한 기초 통계량을 정리할 때 평균과 표준 편차를 사용하는 것이 좋다. 분산은 측정치들을 제곱한 값들을 합한 것이므로 측정치들을 단순히 합한 평균과는 단위가 다르지만 제곱근을 구한 표준 편차는 평균과 단위가 일치하기 때문이다. 변동계수(CV: Coefficient of Variation) 측정 단위에 따라 표준 편차의 값의 크기가 달라지므로 단위가 다른 두 집단을 비교하는 경우 두 표준 편차의 단위를 같게 할 필요가 있다. 이를 위하여 표준편차를 평균으로 나눈 값에 100을 곱한 값을 변동 계수(CV: Coefficient of Variation)라 하고 상대 변동(분산) 개념 으로 정의하고 있다. s 변동계수 계산식: 표본 자료의 평균이 x, 표준 편차가 s 인 경우 CV = 100(%) x 학생 A, B의 공부 습관을 조사하였더니 A학생은 평균 3시간, 표준 편차는 0.5, B 학생은 6시간 표준 편차 0.8인 결과를 얻었다. 어느 학생이 더 꾸준히 공부하는 습관을 가지고 있 을까? 계산 결과 B 학생이 더 꾸준히 공부하는 습관을 가지고 있었다. A 학생 공부시간에 대한 변동 계수 = 0.5 / 3 100(%) =16.7 (%) B 학생 공부시간에 대한 변동 계수 = 0.8 / 6 100(%) =13.3 (%)

14 Chapter 5. BASE PROCEDURE 표준편차 와 표준오차(standard error) 표준편차 (standard deviation)는 자료의 표준 편차이고 표준오차는 통계량(여기서는 표본 평균)의 표준편차이다. 그러므로 표본평균의 표준오차는 우) 혹은 s / n (모집단 표준 편차 모를 경우) 이다. σ / n (모집단 표준 편차를 알 경 모평균, 모집단 평균 차이 추론 모평균 추론, 모평균 차이 추론에 대한 방법은 4.4.절을 보기 바란다. 줄기-잎 그림 (stem and leaf 그래프) 다음은 벤처 기업 CEO 30명의 연봉(salary)을 조사한 자료이다. ⑴자료를 크기 순으로 정리한다. 자료의 수가 많을 때는 자료 정렬을 수작업 하기 어려움 으로 이 단계는 무시해도 되지만 자료를 크기 순으로 정렬해 놓으면 plot을 그리기 편 리하다. ⑵자료를 살펴 줄기와 잎을 결정한다. CEO 연봉 자료를 살펴보면 100단위를 줄기로 하 고 10단위 이하를 잎으로 하여 plot을 그리면 될 것이라는 것을 알 수 있다. ⑶한 열에 줄기(stem)를 먼저 그린다. 위에서 100단위 이상을 줄기로 하기로 결정하였고 자료의 최소값이 58, 최대값이 1103이므로 0부터 11까지 줄기를 한 열에 크기 순으로 적는다. ⑷줄기(stem) 옆에 잎을 그린다. 잎을 그리는 방법은 간단하다. 줄기 바로 뒤의 숫자를 줄기 옆에 차례로 적으면 된다. CEO 연봉 자료는 잎이 두 자리이지만 앞에 것 하나만 적으면 된다. 굳이 반올림하는 수고를 할 필요는 없다. 줄기-잎 그림의 목적은 자료의 분포 형태, 분포의 중앙, 흩어진 정도, 이상치 존재 여부를 아는 것이기 때문이다. ⑸일반적으로 줄기의 숫자가 8-10개 정도면 데이터의 분포를 보는데 적당하다고 한다. 줄 기 수가 너무 많으면 (squeezed stems): 줄기를 -3개 합치는 방법을 생각하면 된다. 만약 줄기가 1-0까지 있다면 1-, 3-4, 5-6,, 19-0을 각각 줄기로 하면 줄기 수가 0

15 개에서 10개로 줄어든다. 줄기 수가 너무 적으면 (stretched stems) 줄기를 다음과 같 이 등분(double stem: 0~4:*, 5-9:.) 혹은 5등분(five-line stem: 다음 페이지 참고)하여 사 용하면 된다. 데이터 정렬 없이 그린 줄기-잎 그림 크기 순으로 정렬한 줄기-잎 줄기-잎 그림의 정점을 연결하고 회전하면 데이터 분포 형태, 즉 확률 분포 함수가 된다. 그러므로 분포의 형태(좌우 대칭 여부, 중앙 위치, 데이터 변동), 봉우리 개수, 이상치 존재 여부를 알 수 있다. 줄기-잎 그림은 데이터 분포 형태(치우침, 봉우리 개수)와 이상치 존재 여부를 알 수 있다.

16 Chapter 5. BASE PROCEDURE 이상치 판단은 상자-수염 그림을 이용하는 것이 더 적절하다. [치우친 형태] [봉우리] 봉우리가 개 이상인 의미는 모집단이 하나 이상일 가능성이 많다. 두 개의 생산 라인으 로부터 표본을 추출하여 불량의 개수에 대한 히스토그램을 그리면 bi-modal 형태가 될 가 능성이 높다. 왜냐하면 생산 라인의 불량률 차이로 인하여 이런 현상이 발생할 수 있기 때 문이다. 측정 변수의 특성에 따라 모집단이 나누어진다. 봉우리가 개 이상인 경우는 집단 을 나누어 분포 함수를 구하고, 모수에 대한 추정 및 검정을 시행하는 것이 바람직하다.

17 [Five-stem 줄기-잎 그림] 원 줄기가 개 밖에 안되어 각 줄기를 5개로 나누는 방법을 살펴보자. (예) double stem 1 * 1.0~1.4 1. 1.5~1.9 (예) five-line stem 1 * 1.0~1.1 1 t 1.~1.3 1 f 1.4~1.5 1 s 1.6~1.7 1. 1.8~1.9 히스토그램 Histogram(히스토그램, 이를 bar chart라고도 함)은 수집된 데이터 범위(range=최대값-최소 값)를 적절한 개수의 구간(8-10개)으로 나누어 각 구간의 상대 빈도를 표시한 것으로 확률 분포 함수와 같다. 형태는 줄기-잎 그림과 동일하나 줄기-잎 그림과는 달리 막대 안에 숫자 가 표시되지 않아 정보 면에서 비효율적이다. 다음은 CEO 데이터에 대한 히스토그램을 그린 것이다. 줄기-잎 그림과 동일하나 막대 안 에 숫자가 없다.

18 Chapter 5. BASE PROCEDURE 상자 수염 그림 Stem and leaf(줄기-잎) plot은 자료의 분포의 형태(좌우 대칭, 단봉) 파악과 이상치를 발견 할 수 있는 도구이다. 그러나 줄기 잎 그림만 가지고는 정확한 중앙 위치, 자료의 사분위 값의 위치(5%, 50%, 75% 부분의 값들), 이상치라 판단은 불가능하다. 상자-수염(Boxwhisker) 그림은 최소값(아래 수염의 끝) 일사분위(Q1, 상자 아래 끝), 중앙값(상자 안 실선), 삼사분위 위치(Q3, 상자 위 끝), 최대값(위 수염 끝) 등 여부(bullet)를 그려 놓은 상자 형태의 그림이다. 5개의 요약 통계량과 이상치 존재 [순서1] 자료의 최소값, 최대값을 이용하여 y축 선을 그린다. [순서] Q1, Q3를 이용하여 상자를 그린다. 상자의 넓이는 아무 의미가 없다. [순서3] 상자 가운데 중앙값을 그리고 평균은 기호로 (+) 표시한다.

19 [순서4] IQR을 이용하여 가상 선 (imaginary line) Inner fence, Outer fence를 그린다. 가상 선은 실제 상자 그림에 표시되지 않는다. 이상치 존재 여부를 표현하기 위한 임시 선이다. IQR=(543-6)=81 Inner fence ( Q 1 1. 5 IQR, Q 3 + 1. 5 IQR ) =(-159.5, 964.5) Outer fence ( Q 1 3 IQR, Q 3 + 3 IQR ) =(-581, 1386) [순서5] 수염과 이상치를 표시한다. 관측치 중 Inner fence를 넘지 않는 최대, 최소값까지 수염을 그린다. Fence를 넘는 관측치를 이상치(outlier)라 한다. outer fence까지 넘는 관측치 는 severe (극심한) 이상치, inner fence만 넘으면 mile 이상치라고 한다. [CEO에서 1103은 mild 이상치] 관측치 중 5%는 수염 부분에 50%는 상자 안에(중앙값을 중심으로 5%씩) 있으므로 이 를 이용하여 분포함수를 그릴 수 있다. 박스 안에 있는 것이 상자-수염 그림을 이용하여 그 린 분포의 형태이다. 상자 안의 +는 평균의 위치를 나타낸다. 분포가 우로 치우친 형태이므 로 평균이 중앙값보다 크다고 할 수 있다.

0 Chapter 5. BASE PROCEDURE 5.4. PROC MEANS PROC MEANS 사용 방법에 대해서는 5.3.절을 참고하기 바란다. MEANS PROC는 모집 단의 평균이 0인지 검정하는 통계량과 유의확률을 출격한다. EXAMPLE: PROC TABLE 사용하기(3) POTTERY.txt (6개 변수, 6개 관측치; Al, Fe, Mg, Ca, Na 함유량, 도자기 만든 사이트)에 서 도자기의 알루미늄 함유량(AL)이 13 이상인지 유의수준 5%에서 가설 검정하시오. ⑴귀무가설: 도자기이 AL 함유량은 13이다. μ = 13 대립가설: μ > 13 x μ0 14.69 13 ⑵검정통계량: T = = =.54 ~ t( n 1 = 5) s / n.993 / 6 n=6인 대표본이므로 중심극한 정리에 의해 표본평균이 정규분포에 근사 한다. 이를 이

1 용하면 검정통계량은 표준정규분포를 따르지만 통계소프트웨어는 t-분포를 그냥 이용한다. 표본의 크기가 커지면 t-분포는 표준정규분포에 근사 한다. MEANS PROC은 H 0 : μ = 0 에 대한 검정 통계량이 제공되므로 변수 변환 (AL-13)하고 PROC MEANS를 사용해야 한다. (AL-13)에 대한 모평균 0 검정은 AL의 모평균 13의 가설 검정과 동일하다. 양측 검정의 경우 유의확률을 제공하므로 단측 검정이므로 유의확률을 1/로 한다. 출력 결과 유의확률이 0.0176이므로 여기서는 단측 검정이므로 0.0088이다. 도 자기의 AL 함유량 표본 평균은 (13+1.493)이다. CLM 옵션에 의해 신뢰구간을 구할 수 있다. 데이터 변환을 통해 13을 빼 주었으므로 실 제 신뢰구간은 (13.8, 15.7)이다. 기초 통계량을 얻는데 MEANS 사용하는 것은 적절하나 모평균 검정을 위하여 PROC MEANS 사용하는 것은 다소 불편하다? 모평균에 대한 가설 검정은 UNIVARIATE, TTEST 사용하는 것이 편리하다. 5.4.3 PROC UNIVARIATE 측정형 데이터 관련 기초통계량 및 그래프, 일변량 분석에 필요한 모든 것들을 얻을 수 있다. UNIVARIATE PROC은 너무 많은 것을 할 수 있다는 것이 장점이자 단점이다. 기초통 계량만 얻으려면 MEANS, 모평균 검정(t-검정)을 위해서는 TTEST 사용하는 것이 편리하다. CLASS문과 BY문에 설정된 변수에 의해 VAR 문장의 변수에 대한 일변량 분석을 개별적

Chapter 5. BASE PROCEDURE 으로 한다. 그러므로 BY문, CLASS문에 사용되는 변수는 분류형 변수이어야 한다. HISTOGRAM, PROBPLOT, QQPLOT은 일변량 분석을 위한 그래프를 그리는데 사용되는 것이다. 예제를 통하여 사용 방법을 살펴보기로 하자. EXAMPLE: PROC UNIVARIATE 사용하기: MU0 옵션 MU0= 옵션은 귀무가설에 설정되는 모집단 평균 값을 설정한다. POTTERY.txt 데이터에 서 도자기의 AL 함유량이 13 이상인지 유의수준 5%에서 검정해 보자. VAR 문에는 여러 변 수 동시에 사용해도 된다. Wow! 참으로 많은 결과가 출력된다. 출력 결과를 차례로 살펴보자. k 먼저 적률(moment) E( X ) 과 관련 통계량이 출력된다.

3 N=표본의 수(관측치) 가중치(weight) 평균을 구할 때 가중치 합 xi 평균(mean) x = 관측치 합(sum) x i n 표준편차(std) s = 왜도(skewness) ( xi x) n 1 n xi x ( ) ( n 1)( n ) s 3 ( xi x) 분산(variance) s = n 1 첨도(kurtosis) n( n + 1) x ( ( n 1)( n )( n 3) i x ) s 4 3( n 1) ( n )( n 3) (정규분포의 경우 왜도는 0이고 첨도는 0이다. 첨도의 마지막 항이 없으면 3이다) 제곱합(sum of square) x i 수정제곱합(adjusted) ( x i x) s 변동계수(CV) CV = 100 평균표준오차(STDERR) x s n 데이터의 중앙 위치와 산포(흩어진 정도)를 나타내는 통계량으로 크기, 순서에 의한 통계 량이 출력된다. 사분위 범위는 삼사분위(Q3)-일사분위(Q1)에 의해 구해지며 IQR이라 한다. 최빈(mode)값은 빈도가 가장 높은 관측치를 의미하는데 측정형 변수의 경우에는 사용하지 않는 통계량이다. 모집단 평균에 대한 가설 검정(예제에서는 H 0 : μ = 13 )을 위한 검정 통계량과 양측검정 시 사용되는 유의확률이 출력된다. 이 결과는 MU0 옵션에 의해 출력된 것이다. 양측 검정 결과임을 알려주는 방법으로 SAS는 유의확률 출력 시 절대값(양쪽 모두 고려하였다는 의 미) 기호를 사용한다. 아래 3개 모두는 양측 검정 시 유의확률임을 알려준다.

4 Chapter 5. BASE PROCEDURE t-검정통계량과 유의확률이 출력된다. 검정통계량은 t=.54(5.4.절 MEANS 결과와 동일 하다. 물론 유의확률 값도)이고 대립가설이 H a : μ > 13 로 단측 가설이므로 유의확률은 0.0088(=0.0176/)이다. 유의수준 0.05보다 유의확률이 작으므로 귀무가설은 기각된다. 도자기에 포함된 AL 함유량은 13 이상이라 할 수 있다. 비모수 방법(nonparametric, distribution-free test)인 부호(sign test)와 부호 순위 검정 (Wilcoxon signed rank test) 관련 검정 통계량과 유의확률이 출력된다. 해석 방법은 동일 하다. 부호 검정의 경우 유의확률이 0.164이므로 귀무가설이 채택된다. 부호 순위 검정 은 유의확률 0.07이므로 귀무가설 기각된다(t-검정 방법과 동일). 비모수 방법은 소표본 이고 모집단이 정규분포라는 가정을 할 수 없을 때 사용되는 방법이다. 마지막으로 데이터의 백분위 값(순서 통계량)이 출력된다. 75%가 삼사분위 값(Q3), 50%는 중앙값, 5%는 Q1(일사분위)이다. 그 옆은 최소값들과 최대값들이 출력되어 있다. EXAMPLE: PROC UNIVARIATE 사용하기: NORMAL 옵션 데이터의 분포가 정규분포를 따르는가에 대한 검정이다. Shapiro Wilks 검정 방법이 가장

5 널리 이용되며 K-S 방법도 자주 사용된다. 가설 검정 결과에 차이가 있다면 귀무가설을 채 택하는 검정 통계량을 사용하면 된다. 데이터의 정규성(normality) 검정 시 귀무가설은 데 이터가 정규분포를 따른다 이다. S-W 검정 통계량의 경우 유의확률이 0.0945로 귀무가설 이 채택되므로 AL 변수의 분포는 정규분포를 따른다. 정규성 검정 방법으로는 그래프 방법(Q-Q plot, PROB plot)이 있으나 이는 eye-ball(눈으로 어림짐작) 방법일 뿐 가설 검정 방법은 아니므로 참고로 이용된다. EXAMPLE: PROC UNIVARIATE 사용하기: PLOT 옵션 일변량 분석에 관련된 그래프는 히스토그램(histogram) 줄기-잎 그림(stem and leaf plot), 상자-수염 그림(box-whisker plot) 등이 있다. PLOT 옵션을 사용하면 줄기-잎 그림과 상자 수 염 그림, 정규 확률지가 그려진다.

6 Chapter 5. BASE PROCEDURE 줄기-잎 그림, 상자-수염 그림에 대해서는 5.4.1절을 참고하기 바란다. 우로 치우친 형태 (줄기-잎 그림, 상자 수염 그림에서 평균이 중앙값보다 위)이며 이상치는 존재하지 않는다. 상자 수염 그림 옆의 수치는 앞의 통계량 출력 결과를 보고 적은 것이다. 그래프에서 보면 우측으로 치우친 형태이나 Shapiro-Wilks 정규성 검정 결과 AL 함유량 데이터는 정규분포를 따른다고 할 수 있다. 데이터가 정규분포를 따르는지는 정규성 검정에 의해 판단한다. EXAMPLE: PROC UNIVARIATE 사용하기: HISTOGRAM 문장 일변량 분석에서 히스토그램의 역할은 미미하므로 예제 하나만 살펴보기로 하자. MIDPOINTS 옵션은 막대의 중앙값을 지정한다. CFILL 옵션은 막대 색, NORMAL은 정 규분포 확률분포함수를 나타내보라는 옵션이다. 정규분포 대신 EXPONENTIAL, GAMMA, BETA, WEIBULL, LOGNORMAL 등을 사용할 수 있다. 히스토그램 뒤의 확률분포함수는 원 데이터가 정규분포(NORMAL 옵션)라면 히스토그램 의 형태가 이렇게 되어야 한다는 것이다. 다소 차이가 있으므로 정규성은? 봉우리가 개로 보인다. 이는 두 집단이 섞여 있을 가능성과 구간 설정에 의한 우연한 현상일 수 있다. 원

7 데이터의 구조를 살펴볼 필요가 있다. 도자기 데이터는 생산 지역별 데이터이므로 집단별 차이가 있을 가능성이 있다. 여전히 정규성 검정은 K-S검정, S-W 검정에 의함을 잊지 말기 바란다. 그래프는 시각적 정보를 우리에게 준다. 정규성 검정은 봉우리 개 이상인 문제는 감지하지 못한다. 봉우리 개인 확률분포함수 곡선과 원은 여러분의 이해를 돕기 위하여 저자가 그려 넣은 것이다. EXAMPLE: PROC UNIVARIATE 사용하기: PROBPLOT 문장 X-축은 이론적 백분위 값, Y-축은 데이터 백분위 값으로 하여 그린 산점도를 Probability plot이라 한다. 백분위 대신 Quartile 값을 사용하면 Q-Q plot이다. 두 그래프의 형태와 해석 방법은 동일하므로 Probability plot 그리는 방법과 해석 방법을 살펴보기로 하자. NORMAL 옵션은 이론적 분포(X-축 백분위)를 정규분포로 하라는 것이다. 히스토그램에서 와 같이 EXPONENTIAL, GAMMA, BETA, WEIBULL, LOGNORMAL 등을 사용할 수 있다.

8 Chapter 5. BASE PROCEDURE MU는 평균, SIGMA를 설정하는 옵션이다. EST 의미는 추정하라는 것이다. PCTLMINOR는 축에 작은 눈금을 사용하라는 의미이다. INSERT 옵션은 데이터의 표본 평균과 표준편차를 그래프에 출력하라는 옵션이다. HEADER는 표 제목, POSITION은 위치를 지정하는 옵션이다. EXAMPLE: PROC UNIVARIATE 사용하기: BY 문장 분류형 변수에 의해 분류된 집단을 개별적으로 일변량 분석을 하려면 BY문이나 CLASS

9 문을 사용하면 된다. 둘의 출력 결과는 유사하나 BY문을 사용하면 맨 마지막에 집단별 상 자-수염 그림을 함께 그리므로 집단 비교에 유용하다. BY문을 사용할 때는 데이터가 설정된 변수에 의해 정렬되어 있어야 하므로 먼저 SORT PRCO 사용하여 데이터를 정렬하였다. 사이트 L의 도자기에 AL 함유량이 사이트 A에 비 해 낮아 보인다. 분포의 형태가 유사하므로 비교 가능. 사이트 C나, I는 데이터의 분포 형 태 상 비교하는 것이 무의미하다.

30 Chapter 5. BASE PROCEDURE 5.4.4 PROC TTEST BY문은 분류형 변수에 의해 개별적으로 VAR 문에 지정한 변수의 T-검정하라는 의미이다. TTEST에서 CLASS 문은 두 모집단 평균 차이 검정 시 집단을 의미하는 분류형 변수를 지 정하는 문장이다. CLASS에 지정된 변수의 범주가 3개 이상이면 오류가 발생한다. PAIRED 는 짝진 두 집단 평균 차이 검정을 위한 문장이다. 모집단 평균에 대한 가설검정 및 신뢰구간, 모집단 분산에 대한 신뢰구간을 구하려면 UNIVARIATE보다는 TTEST가 유용하다. 다음은 FITNESS.txt 데이터의 RUNTIME 변수에 대해 모평균이 11인가에 대한 가설 검정과 90% 신뢰구간을 구하는 프로그램이다. H0= 옵 션은 귀무가설에 설정된 모평균 값을 지정한다. ALPHA= 옵션은 유의수준을 지정하게 되는 데 사용하지 않으면 default는 0.05이다. VAR 문에서는 분석을 원하는 변수를 지정한다. 옵션 H0는 귀무가설에 설정한 모집단 평균을 지정하는 옵션이고 ALPHA는 유의수준을 지정한다. 사실 통계소프트웨어는 유의확률을 제공하므로 유의수준 지정은 무의미하다. 그 러나 90% 신뢰구간, 99% 신뢰구간 등을 구하는 경우 이 옵션이 필요하다. 디폴트는 0.05이 므로 95% 신뢰구간을 구할 때는 필요 없다. 95% 상한 신뢰구간을 구하려면 ALPHA=0.1을 사용하고 출력 결과 중 상한 값만 사용하면 된다. 1귀무가설: 도자기이 AL 함유량은 13이다. μ = 13 대립가설: μ > 13 x μ0 14.69 13 검정통계량: T = = =.54 ~ t( n 1 = 5) s / n.993 / 6 ⑴관측치 수를 나타낸다. ⑵ALPHA=01이 사용되었으므로 모평균( μ )에 대한 90% 신뢰구간의 하한이다.

31 ⑶표본 평균이다. 14.49 값은 PROC MEANS, UNIVARIATE 결과와 동일하다. ⑷모평균( μ )에 대한 90% 신뢰구간의 상한이다. 만약 95% 상한 신뢰구간에 관심이 있다 면 이 값이 95% 상한 신뢰구간 값이다. ⑸모집단 표준편차( σ )에 대한 90% 신뢰구간 하한이다. 사실 모집단 분산의 신뢰구간을 구한 후 제곱근을 사용하여 모집단 표준편차를 제공하고 있다. 엄밀히 말하면 모집단 분산 의 신뢰구간을 제공하고 있는 것이다. 아래 결과에서 90% 신뢰구간의 모집단 분산 하한 값 은 5.95이다. ⑹표본 표준편차이다. PROC MEANS, UNIVARIATE 결과와 동일하다. ⑺모집단 표준편차(σ )에 대한 90% 신뢰구간 상한이다. ⑻표준오차 s / n ⑼검정통계량의 자유도이다. ⑽모평균 가설검정(귀무가설: AL 함유량은 13이다)을 위한 t-검정통계량으로 UNIVARIATE, MEANS 결과와 동일하다. 검정통계량이 t-분포를 따르므로 PROC을 TTEST라 하였다. ⑾양측 검정의 유의확률이다. 대립 가설이 단측 가설이므로 유의확률은 0.0088이므로 귀 무가설은 기각되고 도자기의 AL 함유량은

3 Chapter 5. BASE PROCEDURE 5.5 두 모집단 차이 검정 PROC TTEST는 독립인 두 모집단 평균 차이 검정과 짝 이룬 표본의 t-검정에 사용된다. TTEST는 SAS/STAT에 포함된 제품이나 가장 많이 사용하는 PROC이므로 예제 중심으로 다루어 보기로 하겠다. 5.5.1 독립인 두 모집단 (PROC TTEST) 일반적으로 모집단 분산 σ 1,σ 은 모르므로 추정치로 s 1,s 을 사용한다. 이 때 두 모분산이 같다는 가정이 필요하다. 모집단1과 모집단의 평균은 동일하지만 모집 모집단 1 단1로부터 뽑은 표본은 화살표 부분에서도 관 측된다. 그러므로 표본에 의한 가설 검정 결과 모집단 평균은 같지 않다는 결론에 도달 할 수 있다. 그러므로 모분산이 같은 경우와 같지 않 은 경우 나누어 검정하게 된다. 모집단 (1)두 모분산이 같을 때(모분산 동질) 가설 검정

33 1귀무가설: H μ μ 0 (두 모집단의 평균은 같다.) 0 : 1 = 대립가설: (양측검정) H a : μ1 μ 0 (단측검정) H a : μ 1 > μ 혹은 H a : μ 1 < μ 3검정 통계량 표본1로부터 ( x, x,..., x ) 계산된 표본 평균을 x 1, 표본 분산을 11 1 1n1 ( x, x,..., x ) 계산된 표본 평균을 x, 표본 분산을 1 n 1 σ ( σ = σ = ) σ (pooled variance)이라 한다. s 1, 표본로부터 s 이라 하자. 두 모집단 분산 같다면 에 대한 추정치로 다음을 사용할 수 있는데 이를 추정치를 통합 분산 T x 1 x ( μ1 μ) = 0 = ~ t( df = n1 + n 1 1 sp + n n 1 ), s p ( n = 1 1) s1 + ( n 1) s n + n 1 4 ( μ1 μ) (( x 에 대한 100(1-α)% 신뢰구간 x ) t 1 1 1 n + n ) *,( x1 x) t(1 / ; ) * s sp + + α n n n 1+ n p + n 1 (1 α / ; 1 1 1 n 1 ) ()두 모분산이 같지 않을 때 가설 검정 모분산이 같을 때 사용한 검정통계량과 동일하며 자유도가 다른 뿐이다. 다른 절차는 동 일하다. 다음을 자유도가 수정된(adjusted) t-검정 방법이라 한다. T = x x ( μ1 μ) = 0 ~ t( df 1 1 s p + n n 1 * = 1 1 ( s1 / n1 ) n + 1 1 s ( 1 s + n n ) ( s / n) + n + 1 ) EXAMPLE: PROC TTEST 사용하기: 독립인 두 모집단 평균 차이 검정 CLASS.txt(SASHELP.CLASS)에서 성별에 따라 키의 차이가 있는지 알아보고자 한다. 즉 남자 키의 평균과 여자 키의 평균이 차이가 있는지 알아보는 것이다. 두 모집단 평균 차 이에 대한 90% 신뢰구간도 구해보자.

34 Chapter 5. BASE PROCEDURE 1귀무가설: H 0 : μ1 μ = 0 (남자 키의 평균과 여자 키의 평균은 같다) 대립가설: H a : μ1 μ 0 같지 않다. ALPHA=0.1 옵션은 신뢰구간을 구하기 위한 신뢰수준을 지정하는 곳이다. 다시 언급하지 만 유의확률 계산에는 ALPHA 옵션이 필요 없다. CLASS 문에 지정된 변수가 SEX(성별)와 같이 이진형(binary, dichotomous)이 아니면 오류가 발생한다. 다음 출력 결과는 제일 마지막에 나오지만 먼저 사용해야 하므로 출력 결과 역순으로 설 명하기로 한다. 두 모집단 분산 차이 검정 방법은 이미 4.4.3절에서 살펴 보았다. 검정통계 량은 max( s1, s ) T = ~ F 이다. 여자 키의 분산은 5.18, 남자 키의 분산은 4.38이므로 이 min( s, s ) 1 것의 비는 1.03이다. 유의확률이 0.957로 유의수준보다 크므로 귀무가설은 채택된다. 여기 에서 귀무가설은 두 모집단의 분산은 동일하다. 두 모집단의 분산이 동일하므로 모분산 동질성(equal variance)을 만족할 때 사용하는 t-검 정 방법을 사용하면 된다. 유의확률이 0.1645이므로 귀무가설은 채택되어 남녀별 키의 차 이는 없다고 할 수 있다. 만약 등분산성이 만족하지 않으면 Satterthwiate 검정 방법을 사용 하면 된다.

35 출력 결과 제일 위에는 각 집단의 기초 통계량이 출력된다. 첫 두 행은 집단별 평균, 표 준편차와 신뢰구간이다. ALPHA=0.1을 사용하였으므로 90% 신뢰구간이다. 마지막 행에 있 는 것이 차이에 대한 신뢰구간이다. 즉 두 평균 차이에 대한 신뢰구간은 (-7.98, 0.6561)이 다. 신뢰구간이 0을 포함하고 있으므로 유의수준 0.1에서는 남녀별 키의 차이가 없다 는 귀무가설이 채택된다. 5.5. 짝진 표본 짝진 표본이란 두 모집단의 관측치가 쌍을 이루고 있는 경우를 말한다. 예를 들면 왼쪽 시력과 오른쪽 시력 차이, ET의 왼팔과 오른팔 길리 차이 등 하나의 개체로부터 동시에 관 측(측정)되었다는 의미이다. 관측치가 쌍을 이루고 있으므로 한 집단의 관측치를 고정한 상 태에서 다른 집단의 관측치를 재배열할 수 있게 된다. 생산 기계가 두 대 A, B 들어 왔다. 어느 기계 성능이 좋은지 알아보기 위하여 8명의 전 문가를 선정하여 각 기계의 성능 점수를 부여하였다. 기계 성능의 차이가 있는지 적절한 검 정하시오. 점수는 정규 분포를 따른다고 가정하자. (유의수준=0.05) 관측치가 쌍을 이루고 있으므로 기계 A의 관측기를 고정하고 기계 B의 관측치를 재배열한다면 무의미해진다. 각 관측치는 전문가로부터 쌍으로 얻어진 것이다. 그러므로 이 표본은 짝진 표본이다. 전문가 기계 A 기계 B 차이 1 3 4 5 6 7 8 74 76 74 69 58 71 66 65 78 79 75 66 63 70 66 67-4 -3-1 3-5 1 0 - (1)귀무가설: H : μ μ μ 0 (A, B 기계 성능에 차이가 없다) 0 a = b d = ()대립가설: H : μ μ μ 0 (A, B 기계 성능에 차이가 있다) 0 a b d

36 Chapter 5. BASE PROCEDURE (3)검정통계량 T d = s d μ d = d 0 s d / n 1.375 0 = = 1.46.67 / 8, 임계치 검정 통계량의 절대값이 임계치 t( 1 α / ;7) =.365 보다 작으므로 귀무가설은 채택되고 두 기계의 성능 차이는 없다고 결론 짝진 표본에 대한 검정은 TTEST 사용하지 않고 MEANS PROC을 이용해도 된다. 짝진 표본의 평균 차이가 없다( μ1 μ )는 것은 쌍을 이룬 관측치의 차이의 평균이 0인 것과 동 일하다. ( di = xi yi d = 0 )

37 EXAMPLE: 짝진 표본, 독립인 표본 구별하기 철강 생산 시 식히는 과정에서 소금 물을 사용하는 방법과 오일을 사용하는 방법 중 어 느 것이 강도를 높이는지 알아보기 위하여 다음과 같이 측정 자료를 얻었다. 강도는 정규 분포를 따른다고 하자. 소금물: 145 150 153 148 141 15 146 154 139 148 오일: 15 150 147 155 140 146 158 15 151 143 소금물 데이터를 고장하고 오일 데이터를 재배열하여도 문제가 없으므로 독립인 두 모집 단 평균 차이 검정을 실시하면 된다. (5.5.1절)

38 Chapter 5. BASE PROCEDURE 다음은 A, B 두 할인점의 가격 비교를 위하여 동일 제품 1개를 10일간 구입한 가격이다. 가격은 정규 분포를 따른다고 가정하자. (단위:천원) 할인점 A: 119. 11.3 1.3 10.1 1.1 13.7 11.7 1.4 13.6 1.4 할인점 B: 111.9 114.8 115.1 117.0 116.8 116.6 115.3 114.4 113.9 111.8 할인점 A 데이터를 고정하고 할인점 B 데이터를 재배열 할 수 없다. 이는 각 쌍이 특별 한 날의 가격이기 때문이다. 짝진 표본의 평균 차이 검정을 실시한다. (5.5.절) 5.6 이변량 분석 이변량 분석이란 두 변수간의 (선형) 상관 관계를 보거나 인과 관계(casual relation)를 분 석하는 것을 말한다. 변수의 종류에 따라 이변량 분석 방법을 정리하면 다음과 같다. 이 책 에서 SAS/BASE에 PROC만을 다룰 것이다. 종류 설명 종속 분류형 측정형 인과 관계 분류형 측정형 교차분석 PROC FREQ (SASBASE) 로지스틱 회귀분석 (1) PROC LOGISTIC (SAS/STAT) 분산분석 PROC GLM (SAS/STAT) 회귀분석 PROC REG (SAS/STAT) 상관 관계 분류형 측정형 상관 분석 () PROC FREQ N/A N/A (3) 상관분석 PROC CORR (SAS/BASE)

39 인과 관계 분석에서 원인이 되는 변수를 설명변수, 독립변수라 하고 결과 변수를 반응변 수, 종속변수라 한다. 상관 분석에는 변수의 구별이 없다. 어느 한 변수의 크기가 커질 때 다른 변수의 크기가 커지거나(양의 상관 관계) 작아지면(음의 상관 관계) 상관 관계가 존재 하고 변동이 없다면 상관관계가 존재하지 않음을 의미한다. 분류형(범주형) 변수는 개체를 분류하는데 사용되는 변수이며, 개체의 특성 중 셀 수 있 거나 측정할 수 있는 것을 측정형 변수(예: IQ, 교통 사고 회수, 경제 지수, 인구)라 한다. 분류형 변수는 순서가 있는 순서형 변수(예: 소득 상/중/하, 성적 A/B/ /F)과 단지 분류만 하는 명목형 변수(예: 성별, 직업)로 나뉜다. ⑴로지스틱 회귀분석의 종속변수는 이진형(성공.실패)이거나 순서형이어야 한다. ⑵순서형 변수들만 가능하다. 상관 관계란 크기의 변동에 대한 분석이므로 적어도 순서 형 변수는 되어야 한다. ⑶순위 상관 분석을 이용하는 경우도 있으나 권하고 싶지 않다. 5.6.1 PROC FREQ 교차분석은 빈도표의 교차이므로 빈도분석과 같이 FREQ PROC가 사용된다. TABLE 문은 교차표의 열과 행 변수를 설정하고 표의 옵션을 설정한다. EXACT은 근사 통계량을 사용할 수 없을 때 사용하는 FISHER s EXACT 검정을 하라는 문장이다. 두 분류형 변수간의 연관 관계(association 혹은 independence)를 보거나 변수의 동질성 (homogeneity)를 검정할 때 사용된다. 두 변수의 빈도 표를 교차하여 분할표(혹은 교차표) 를 작성하여 변수들간 관계를 분석하게 된다. 이를 교차 분석(Cross-Tabulation Analysis) 혹 은 χ (chi-square) 분석이라 한다. 교차 분석의 의미는 두 변수의 빈도 표를 교차시켰다

40 Chapter 5. BASE PROCEDURE 는 의미이며 교차 분석에 사용되는 검정 통계량이 르기 때문에 χ -분포를 (물론 근사 통계량이지만) 따 χ -검정이라 한다. 교차분석은 독립성 검정, 동질성 검정을 의미한다. 독립성 검정과 동질성 검정은 개념은 상이하나 검정 방법은 동일하다. 독립성/동질성 검정 성별(남녀)과 통계소프트웨어 만족여부(만족, 보통, 불만족)간 관계를 알아보고자 한다. 두 문항(변수) 모두 분류형 변수이므로 빈도표를 교차시켜 놓으면 된다. 이 때 성별에 따른 만 족여부의 차이라고 재해석 할 수 있으니 성별이 설명 변수 역할을 전공 선택은 종속 변수 의 역할이 된다. 교차표를 작성할 때는 행은 설명변수를 열은 종속변수로 한다. 그리고 결 과 출력할 때는 각 셀의 빈도와 행 퍼센트만 출력하여 결과를 해석하면 된다. 아래 교차표에서 nij 는 i -행, j -열의 셀 빈도이다. 만족 보통 불만족 남자 n 11 n 1 n 13 여자 n 1 n n 3 두 분류형 변수의 독립성 검정과 동질성 검정의 귀무가설은 다르나 검정통계량과 검정통 계량의 분포가 동일하므로 실제 분석에서는 동일하다. 동질성 검정 귀무가설: 독립성 검정 귀무가설: p ij = pi. p. j (결합 확률은 주변확률의 곱과 같다) p = i1 = pi =... pic for i = 1,,..., r (각 행의 분포는 동일하다.) 두 변수가 관계가 없다, 혹은 설명 변수가 종속 변수에 영향을 미치지 않는다 (예를 들어 성별에 따른 만족여부의 차이가 없다) 의미는 두 변수(문항)가 서로 독립이라는 의미이다. 두 변수가 서로 독립이라면 확률 이론에 의해 P ( AB) = P( A) P( B) 이 성립한다. 즉 예제 데 이터에서 남녀별 만족여부의 차이가 없다면(독립이라면) P(남자 만족)=P(남자)P(경제전공)이 성립한다. 교차표에서 두 변수가 서로 독립이라면 셀 ( i, j) Pi. 은 i-번째 행의 확률이고 의 확률 P ij 는 으로 나타낼 수 있다. P i. P. j P. j 은 j-번째 열의 확률이다. 교차표의 빈도 기호로 다시 표시하 면 nij Pij = n, ni. Pi. =, n n. j P. j = 이고 독립이라면 n nij n n P i. j ij = =. 이 성립한다. n n n

41 두 변수가 독립이라는 가정 하에 i-행, j-열 셀의 예상 빈도는 도라 하고 n n i.. j 이다. 이를 기대 빈 n n Eij 으로 나타낸다. 표본으로부터 계산된(관측된) 빈도를 관측 빈도라 하고 Oij 라 한다. 이 사실을 이용하여 귀무가설(두 변수는 서로 독립이다)을 검정하는데 다음 통계량을 생각할 수 있을 것이다. ( O T = ij E i j ij E ) ij. 이 검정 통계량의 의미는? 만약 두 변수가 독립이라면 O = E ) 이고 T값은 0일 것이다. 즉 T가 0에 가까우면 두 변수는 관계가 없 ( ij ij 다고 결론 내릴 수 있는 것이다. 또한 이 검정 통계량은 χ ( df = ( R 1)( C 1)) 에 근사함이 밝혀져 있다. 교차 분석에 사용되는 χ ( df = ( R 1)( C 1)) 검정 통계량은 근사적으로 χ -분포에 따른다. 근사 조건으로는 각 셀의 기대 빈도(관측 빈도가 아니다)가 5이상이어야 한다. Cochran 은 자유도 이상인 경우 기대 빈도 5 이상인 셀이 전체 0%만 넘으면 교차표에서 구한 검정 통계량은 Chi-square 분포에 근사 한다고 했다. 일반적으로 Cochran의 이론을 받아들인다. 통계 소프트웨어는 기대 빈도가 5 미만인 셀의 비율을 출력하여 사용자에게 경고 메시지를 준다. 기대 빈도가 5미만인 셀의 비율이 0%를 넘으면 계산된 검정 통계량은 χ - 분포에 근사하지 않는다. 이런 경우 해결책은 무엇인가? 1표본의 크기 n 을 늘리면 되지만 이미 설문이 끝난 상태이므로 해결책이 되지 못한다. 독립성 검정의 경우 변수의 수준을 합쳐 셀의 수를 줄이는 방법이다. 위의 예에서 변수 X의 수준 중 0과 1을 합쳐 하나의 수준으로 하면 이 문제는 해결된다. 셀을 합칠 경우 그룹으로 할 수 있는 것을 합친다. 예를 들어 수 준이 (상, 중, 하)인 경우 상 과 하 를 합치는 것은 정말 어리석은 일이다. 수준의 의미가 상실되기 때문이다. 3동질성 검정의 경우 Exact test를 시행하는 것이다. 물론 이 방법은 독립성 검정에도 적용될 수 있다. 이는 근사 통계량을 이용하는 것이 아니다. 처음 이 방법 을 제안한 사람은 Fisher인데 그는 x 분할표의 경우 제안하였고 후에 대되었다. R C 분할표로 확 일단 여기서는 기대빈도 5이하인 셀이 0% 초과하는 문제는 접어두기로 한다. 다음에 설명하기로 한다. POTTERY 데이터에서 도자기 제작 지역(A, C, I, L)에 따른 알루미늄 함유 량(0그룹, 1그룹, 변수명은 AL_G)의 차이가 있는지 분석해 보자. TABLE 문의 * 앞은 행 변 수, 뒤는 열 변수를 지정한다. EXPECTED 옵션은 기대빈도가 출력되게 한다. 귀무가설: 지역에 따른 알루미늄 함유량 차이는 없다. /지역변수와 알루미늄 변수는 독립. 대립가설: 차이는 있다. /독립이 아니다. (관계가 있다)

4 Chapter 5. BASE PROCEDURE 각 셀에 관측빈도, 기대빈도(EXPECTED 옵션), 백분율(%), 행 백분율(row percentage), 열 백분율(column)이 자동 출력된다. 각 셀에서 관측빈도( Oij 와 기대빈도( E ij )의 차이가 크면 귀무가설이 맞지 않는다는 것이다. 왜냐하면 기대빈도는 귀무가설이 옳다는 가정하에서 얻 는 빈도이기 때문이다. 실제 분석이나 해석을 위해서는 각 셀의 빈도와 행 퍼센트만 있으면 충분하다. 그리고 두 변수는 서로 독립이다 혹은 동질성 가설 검정을 하기 위해서는 χ -검정통계량이 필 요하다. 다음 옵션을 사용하면 된다. NOPERCENT 옵션은 백분율을 출력하지 않는다. NOCOL 옵션은 컬럼 퍼센트를 출력하지 않는다. CHISQ 옵션은 한다. χ -검정통계량 값을 출력

43 기대빈도가 5미만인 셀이 75%나 되어 χ -검정 방법을 사용할 수 없으나 여기서는 일단 그 문제는 접어두기로 하였음을 인지하기 바란다. 카이제곱이나 우도비 카이제곱 둘 중 하 나를 보면 되는데 일반적으로 카이제곱을 본다. 유의확률이 0.003이므로 귀무가설이 기각 된다. 여기서 귀무가설은 두 변수의 상관 관계(association)가 존재하다 이므로 지역에 따 른 도자기 알루미늄 함유량의 차이는 있다. 그러면 어떤 차이가 있는가? 행 퍼센트(백분율) 를 이용하여 해석하면 된다. 우선 각 행 퍼센트에서 가장 크거나 혹은 가장 작은 셀을 표시 한다. 그리고 해석한다. A, I 지역 도자기 알루미늄 함유량이 높고(1그룹) C, L 지역이 낮음을 알 수 있다. 교차표 차이 해석은 다소 자의적이다. 독립성 검정에 사용되는 통계량은 카이제곱, 우도비 카이제곱이다. 나머지 검정통계량은 순서형 변수에 대한 상관 관계(association) 분석에 사용된다. 사용되는 곳이 다름에도 불구 하고 CHISQ 옵션에 의해 함께 출력되는 이유는 5개 검정통계량 모두 카이제곱 분포를 따 르기 때문이다.

44 Chapter 5. BASE PROCEDURE Mantel-Haenszel 카이제곱은 순서형 변수 간의 선형 상관 관계(linear association) 분석한 다. Pearson 카이제곱으로부터 얻어진 Phi 계수, 분할계수, Cramer s V는 상관 관계 정도를 나타내는 통계량이다. 관계란 한 변수가 증가함에 따라 다른 변수도 증가(혹은 감소)하는가 를 나타내는 지표를 의미하며 측정형 변수의 상관 관계처럼 직선 관계를 선형 관계라 한다. Association(상관관계) 측정하기 상관 관계를 측정하는 검정통계량은 Gamma, Kendall's tau-b, Stuart's tau-c, and Somers' D, 그리고 모수적 방법의 Pearson 상관 계수, Spearman 순위 상관 계수 등이 있다. 모수적 방 법은 선형 상관 관계를 측정한다. 선형 상관관계를 측정하는 비모수 방법은 Mantel- Haenszel 카이제곱이다. 어떤 방법이 좋은가? 결과는 유사하므로 어느 것이나 사용해도 무 방하다. 일반적으로 Kendall Tau(τ ) 검정 통계량을 가장 사용한다. 행 변수 (독립변수, X)의 범주를 크기 순으로 정렬 하고 각 범주를 u1 u u3... 로 점수 화 하고 열 변수 (반응변수, Y) 범주를 크기 순으로 정렬한 후 각 범주를 v1 v v3... 를 점수화 하자. 두 범주의 개념 차이가 크기가 크면 점수의 차이를 크도록 점수화 한다. 이 점수를 이용하여 두 변수간의 가중 상관계수를 구하면 다음과 같다. 이를 Pearson 상관계 수라 한다. r = i i, j [ u n i u v n i+ i j ij ( ui n i n ( u n i i+ ) i i+ ][ v j )( v n j j j n+ j + j ) / n ( v n j j + j ) ] n 여기서 nij 는 관측 빈도 O ij, n 은 표본의 총 크기를 의미한다. 물론 우리는 손으로 이 것을 계산할 필요는 없다. 상관 계수의 값은 1 과 1사이의 값을 갖고 0이면 두 변수는 상 관 관계가 없다(독립성)고 결론 내린다. Pearson 상관 계수 이외에도 두 순서형 변수의 상관 관계에 대한 계산 값은 여러 개 존 재하는데 이는 대부분 Pearson 상관 계수로부터 유도되었다. Phi Coefficient(파이 계수), Cramer s V, 분할 계수가 그 예이다. 그러나 이것들에 대한 분포가 알려지지 않아 상관 관 계 검정을 할 수 없다. 출력 결과에 유의확률이 없다. 선형 상관 계수의 유의성은 검정은 Mantel-Haenszel Chi-Square (M-H) 검정 통계량이라 불리는 M 에 의해 실시한다. 표본 크기 n 이 충분히 클 때 M = ( n 1) r ~ χ ( df = 1) 이

45 다. 여기서 nij 는 관측 빈도 O ij, n 은 표본의 총 크기를 의미한다. 상관 계수의 값은 1 과 1 사이의 값을 갖고 0 이면 두 변수는 상관 관계가 없다(두 변수는 상관 관계가 존재하 지 않는다)고 결론 내린다. EXAMPLE: 상관 관계 측정 년 소득에 따른 직업 만족도의 차이는 있는가를 알아보기 위한 조사 결과 다음을 얻었다 고 하자. 직업 만족도 매우 불만족 불만족 만족 매우 만족 <6,000 0 4 80 8 6,000~15,000 38 104 15 15,000~5,000 13 8 81 113 >5,000 7 18 54 9 MEASURES 옵션은 상관 관계에 대한 검정통계량을 출력하라는 의미이며, CL은 상관계 수에 대한 신뢰구간을 출력하라는 것이다. 독립성 검정 (동질성도 검정 통계량은 동일하다) 관련 검정통계량을 출력하는 CHISQ 옵션만으로도 상관관계를 측정하는 통계량이 출력되는 것은 이들 모두가 카이제곱 분포와 관계가 있기 때문이다. CL 옵션은 상관 계수의 신뢰구간을 구하라는 명령이다.

46 Chapter 5. BASE PROCEDURE 소득 수준과 직업 만족도의 독립성 검정 1귀무가설: 소득 수준과 직업 만족도의 차이는 없다. 대립가설: 소득 수준에 따른 만족도의 차이는 있다.. 검정통계량: 카이제곱=11.99, 우도비 카이제곱=1.03 어느 것 사용해도 무방 유의확률이 각각 0.14, 0.11로 모두 유의수준보다 크므로 귀무가설이 채택되어 임금 수 준과 직업 만족도는 관계가 없다. 행 퍼센트를 살펴보면 소득 수준과 직업 만족도에 대한 행 퍼센트를 살펴보면 소득에 상관 없이 직업 만족도는 매우 만족=>만족 순임을 알 수 있 다. 만약 귀무가설이 기각된다면 행 퍼센트를 참고하여 두 변수간의 관계를 해석하면 된다. 예를 들어 소득이 가장 낮은 그룹의 직업 만족도 순위는 매우 만족=>만족, 낮은 그룹은 매 우 만족=>만족 이런 식으로 해석하면 된다. 혹은 가장 높은(낮은) 비율에 집중하여 소득 이; 가장 낮은 집단 중 직업 만족도가 가장 높은 사람의 비율 39.8%, 낮은 그룹은 43.3%, 소득 높은 그룹 48.1%, 소득 가장 높은 그룹은 53.8%으로 차이를 보였다.

47 상관 관계 검정 선형 상관 관계를 검정하는 Mantel-Haenszel 카이제곱의 분포만 알려져 있을 뿐 피어슨 카이제곱에서 유도된 파이 계수, 분할 계수, 크래머의 V는 분포를 알 수 없어 유의확률이 출력되지 않으므로 참고 통계량일 뿐이다. Mantel-Haenszel 검정통계량의 값은 1.03이고 유의확률 0.00로 기각되므로 두 변수간에는 선형관계가 존재한다고 할 수 있다. 그러나 M-H는 상관 계수 값을 제공하는 것은 아니므로 MEASURES 옵션에 의해 출력되는 상관 계수 값을 해석해야 한다.

48 Chapter 5. BASE PROCEDURE 두 변수의 상관 관계 검정은 Measures 옵션에 의해 출력된 아래 결과 중 하나를 사용하 면 된다. 감마나 Kendall의 타우-b, 모수적 방법인Pearson 상관계수, Spearman 상관 계수를 이용하면 된다. 신뢰구간이 0을 포함하고 있지 않고 양의 값이므로 소득 수준과 직업 만족 도와는 양의 상관 관계가 존재한다고 할 수 있다. 즉 소득이 높아질수록 직업 만족도가 높 아짐을 알 수 있다. 소득수준과 직업 만족도 간에 음의 상관 관계일 경우 어떻게 될까? 위의 데이터에서 소 득 수준을 1,, 3, 4 대신 4, 3,, 1로 한 후 동일 프로그램을 실행해 보자. M-H 검정통계량 은 동일하다. 즉 소득 수준과 직업 만족도와는 선형 상관 관계가 존재한다는 것을 알 수 있 다. 아직 양인지 음인지 알 수 없다. Measures 옵션에 의해 출력된 감마나 Kendall의 타우b 등이 모두 음의 값이고 신뢰구간이 0을 포함하고 있지 않으므로 소득 수준과 직업 만족 도에는 음의 상관 관계가 존재한다고 결론지을 수 있다.

49 빈도표가 주어진 경우 χ -검정 방법 빈도표가 주어진 경우 다음 방법에 의해 χ -검정통계량을 계산하는 방법은 다음과 같다. 어느 대학 입학여부가 성별에 따른 차이가 있는지 알아보기 위하여 데이터를 수집하여 다 음 빈도표를 얻었다. 차이가 있는지 유의수준 0.05에서 검정해보자. 성별 입학여부 입학 거부 남자 55 45 여자 0 40 WEIGHT 옵션은 빈도를 가중치로 사용함으로써 데이터를 모두 입력한 효과를 갖는다. 유 의확률이 0.0078이므로 귀무가설이 기각되어 여자는 남자에 비해 많이 거부됨을 알 수 있 다. 만약 빈도표를 원래 빈도표와 같이 출력하려면 다음과 같이 하면 된다.

50 Chapter 5. BASE PROCEDURE 혹은 열이 그룹이므로 입학 허가 율을 비교하거나 거절 율을 비교하면 된다. 남자는 33.33%, 여자는 55% 거절되어 여자의 입학 거절 율이 더 높다고 할 수 있다. 기대 빈도 5 미만 문제 교차 분석에 사용되는 χ ( df = ( R 1)( C 1)) 검정 통계량은 근사적으로 χ -분포에 따른다. 근사 조건으로는 각 셀의 기대 빈도(관측 빈도가 아니다)가 5이상이어야 한다. Cochran 은 자유도 이상인 경우 기대 빈도 5 이상인 셀이 전체 0%만 넘으면 교차표에서 구한 검정 통계량은 Chi-square 분포에 근사 한다고 했다. 일반적으로 Cochran의 이론을 받아들인다. 통계 소프트웨어는 기대 빈도가 5 미만인 셀의 비율을 출력하여 사용자에게 경고 메시지를

51 준다. (통계 소프트웨어 이용 방법에서 논의) 기대 빈도가 5미만인 셀의 비율이 0%를 넘으면 계산된 검정 통계량은 χ - 분포에 근 사하지 않는다. 이런 경우 해결책은 무엇인가? 1표본의 크기 n을 늘리면 되지만 이미 설문 이 끝난 상태이므로 해결책이 되지 못한다. 독립성 검정의 경우 변수의 수준을 합쳐 셀의 수를 줄이는 방법이다. 위의 예에서 변수 X의 수준 중 0과 1을 합쳐 하나의 수준으로 하면 이 문제는 해결된다. 셀을 합칠 경우 그룹으로 할 수 있는 것을 합친다. 예를 들어 수준이 (상, 중, 하)인 경우 상 과 하 를 합치는 것은 정말 어리석은 일이다. 수준의 의미가 상실되 기 때문이다. (3)동질성 검정의 경우 Exact test를 시행하는 것이다. 물론 이 방법은 독립성 검정에도 적용될 수 있다. 이는 근사 통계량을 이용하는 것이 아니다. 처음 이 방법을 제안 한 사람은 Fisher인데 그는 x 분할표의 경우 제안하였고 후에 RxC 분할표로 확대되었다. EXAMPLE: POTTERY 데이터 예제 사용 도자기 데이터에서 사이트에 따른 AL 함유량(낮음=0/높음=1)의 차이가 있는지 교차 분석 을 실시해보자.(5.6.1절에서 계속) 셀의 기대빈도가 5미만이 셀이 있는 경우 교차표 아래 경 고문이 나타난다. 5%까지는 문제가 없지만 그 이상은 카이제곱이나 우도비 카이제곱 검정 통계량을 사용할 수 없다. 이 데이터의 경우 기대빈도 5미만이 셀의 비율이 75%이므로 다 른 방법으로 도자기 사이트와 AL의 독립성을 검정해야 한다.

5 Chapter 5. BASE PROCEDURE 셀의 개수를 줄이기 위하여 유사한 범주를 합쳐 보자. (가장 먼저 해보기 바란다.) AL 함 유량은 개 범주이므로 더 이상 합칠 수 없다. 도자기 제조 사이트는? 만약 사이트 A와 C, I와 L이 각각 동일 지역의 제조 사이트라 하자. 그러나 여전히 경고 메시지에 50%라고 출 력된다. 사이트별 공통점이 없거나 여전히 기대빈도가 5미만이 셀이 5% 이상이면 FISHER의 정 확 검정(EXACT TEST)를 실시해야 한다. 다음은 도지기 원 데이터의 4X 교차표에 대한 정확검정을 실시한 결과이다. EXACT FISHER; 문장은 FISHER의 정확 검정을 실시하라는 문장이다. 유의확률이 0에 가까우므로 귀무가설은 기각되고 제조 사이트에 따른 AL 함유량 의 차이는 존재한다. A와 I 사이트는 AL 함유량이 높고 사이트 C와 L의 도자기는 AL 함유 량이 낮다고 결론 내릴 수 있다.

53 5.6. PROC FREQ 또 다른 사용 예제 Cochran Armitage Trend 반응 변수가 이진 (binary : 예 성공/확률) 변수이고 설명 변수가 순서형인 경우 설명 변수 범주의 크기에 따라 반응변수의 비율이 어떻게 변하는지 알아보는 것이다. 예제를 살펴보기 로 하자. DOSE는 약의 복용량(0=적음, 4=매우 많음), ADVERSE는 부작용 발생여부(NO=없 음, YES=있음)이다. COUNT는 각 셀의 빈도이다.

54 Chapter 5. BASE PROCEDURE (우도비) 카이제곱은 약의 복용량에 따른 부작용의 차이가 있는지(독립성 검정) 알아보는 데 사용한다. 유의확률이 0.001로 유의수준 0.05보다 작으므로 귀무가설이 기각된다. 행 퍼 센트를 살펴 보자. 일반적으로 해석할 때는 아래와 같이 행 퍼센트가 가장 큰(혹은 낮은) 셀에 표시하여 해석한다. 그러나 행의 범주가 개 밖에 없으므로 한 행의 퍼센트만을 고려 하여 해석하면 된다. NO(부작용 없음) 행을 보자. 약의 복용량이 많아질수록 부작용 비율은 낮아진다. 행 변수의 범주가 개(이진형)인 경우 비율의 추세(trend)가 직선인가를 알아보는 방법이 Cochran Armitage 검정방법이다. 통계량 값이 음이고 유의하다. 그러므로 약의 복용량이 높 아질수록 부작용 비율은 직선적으로 낮아지는 경향이 있다.

55 적합성 검정(optional) 임의의 변수가 임의의 분포(probability density function)를 따르는지 알아보는 분석 방법을 적합성 검정이라 한다. 이 적합성 검정 역시 χ -검정통계량을 이용하게 된다. 우리의 관심 이 모집단 모수(모 평균, 모 분산)에 대한 것이 아니라 분포 자체에 있다면 우리는 더 이상 모수적 방법을 사용할 수 없을 것이다. 왜? 모집단의 분포를 모르고 관심이 바로 그 분포 이니까? 표본 평균처럼 모집단의 분포를 모르더라도 대표본인 경우 정규분포를 따른다는 정리(중심극한정리)와 같은 것을 사용할 수 없다. 모집단으로부터 추출한 표본이 어떤 분포 에 적합한지(fit)를 알아보는 검정 방법을 적합성 검정(Goodness-of-fit test)라 한다. (1)가정 1표본 관측치는 x, x, K, x ) 서로 독립이다. (확률 표본: random sample) ( 1 n 표본 자료로부터 분석자가 설정한 구간은 서로 겹치지 않고 (non-overlapping) 각 표 본 관측치는 하나의 구간에 반드시 속한다. 구간 범주 1 3 r 합계 기대 빈도 E 1 E E 3 E r n 관측 빈도 O 1 O O 3 O r n 귀무가설에서 설정한 분포 p1 p p3 pr 기대빈도는 이론적(귀무가설에 가정된 분포) 분포로부터 계산된다. 그러므로 기대빈도 와 관측빈도의 차이가 크다면 설정한 귀무가설이 맞지 않는 것이므로 기각되게 된다. 이산형 변수에서는 각 확률변수 값이 하나의 셀을 형성한다. 즉 막대(bar) 하나가 셀을 구성하게 된다. ()통계적 가설 1귀무가설: 표본을 추출한 모집단은 분포를 따른다. 대립가설: 표본을 추출한 모집단은 분포를 따르지 않는다.

56 Chapter 5. BASE PROCEDURE (3)검정통계량 r ( Oi Ei ) T = ~ χ ( df E i= 1 i = r 1) 각 셀의 기대빈도가 5이상이면 근사 통계량이 이 셀이 있더라도 전체 셀 중 0%이상만 되지 않으면 χ -분포를 사용할 수 있고 비록 5미만 χ -분포를 사용해도 무방하다. (Cochran) 만약 이 조건을 만족하지 않는 경우 범주를 합쳐 셀의 수를 줄이면 된다. (4)결론 χ (자유도=셀의 개수-1) 분포표로부터 기각역을 구하고 표본으로부터 계산된 검정 통 계량 값과 비교하여 검정통계량이 기각역에 속하면 귀무가설을 기각한다. (5)모수 추정 귀무가설에 분포를 가정할 경우 모수(parameter) 값에 대한 가정이 필요하다. 예를 들 어 정규분포를 따르는가? 알아보려고 하는 경우 구간 확률을 p, p, K. p ) 계산하려 ( 1 r 면 평균 (μ), 표준 편차 (σ ) 를 알아야 구할 수 있다. 그러나 일반적으로 모수에 대한 사전 정보가 없으므로 표본 자료로부터 추정하게 된다. 모평균은 표본 평균으로, 모 분 산은 표본 분산으로 이렇게 모수가 추정되는 경우 ( r g 1) 로 조정해야 한다. g 는 추정된 모수의 수이다. χ -분포의 자유도를 ( r 1) 에서 EXAMPLE: 적합성 검정 상담하러 오는 사람이 상담원을 택할 때 선호하는 사람이 있는지 알아보기 위하여 상담 하러 오는 사람 36명을 무작위로 선택하여 원하는 상담원을 고르라고 하여 다음 자료를 얻 었다. (유의수준=0.05) 상담원 중년 여자 젊은 여자 중년 남자 젊음 남자 늙은 여자 늙은 남자 빈도 13 6 0 3 11 3 귀무가설: 상담하러 온 사람이 상담원을 선택에는 차별이 없다. (Equally distributed) 대립가설: 선택에 차별이 있다. 각 셀의 기대 빈도는 6이다. 왜냐하면 상담원의 선택에 차별이 없다면 각 셀에는 각 6명

57 이 기대된다. 상담원 중년 여자 젊은 여자 중년 남자 젊음 남자 늙은 여자 늙은 남자 관측빈도 1 6 1 3 11 3 기대빈도 6 6 6 6 6 6 (13 6) (6 6) (3 6) 검정 통계량: T = + + K+ = 17. 3 6 6 6 결론: 표로부터 χ (자유도=6-1=5, α = 0.05) =11.1이므로 귀무가설이 기각된다. 상담하러 온 사람들은 상담원 선택에 차이를 보이며 중년 여자나 늙은 여자를 선호한다. DATA 문에서 셀의 번호와 빈도를 데이터로 만든다. 빈도는 WEIGHT에 변수는 TABLE에 지정한다. TESTP 옵션에서 각 셀의 이론적 빈도를 적고 CHISQ 옵션을 사용한다. 유의확 률이 0.0039이므로 귀무가설이 기각된다. 즉 상담원을 선호하는 경향이 있다.

58 Chapter 5. BASE PROCEDURE EXAMPLE: 적합성 검정() 다음은 실의 내구성을 시험을 위해 5개의 실을 묶어 만든 80 뭉치실의 내구성 테스트 하여 다음 자료를 얻었다. 이 자료가 이항분포(binomial)로부터 왔는지 검정하시오. (유의수 준=0.05) 끊어진 실 수 0 1 3 4 5 해당 실 뭉치 157 69 35 17 1 1 귀무가설: 데이터는 이항 분포를 따른다. 대립가설: 이항 분포를 따르지 않는다. 각 셀의 기대 빈도를 구하기 위해서는 이항 분포의 모수(p)를 알아야 한다. p 5 x x 5 x ( x) = p (1 p), x = 0,1,, K, 5 데이터로부터 모수 p 의 추정치 pˆ 을 구해보면 다음과 같다. p ˆ = (0 157 + 1 69 + 35 + K+ 5 1) /(80 5) = 0.14 그러므로 기대빈도는 다음 이항 확률 분포에 의해 구한다. 5 p( x) = ( )0.14 x x (1 0.14) 5 x 끊어진 실의 수 0 1 3 4 5 해당 실의 빈도 157 69 35 17 1 1 기대 확률 0.47 0.38 0.1 0.0 0.0017 0.00005 기대 빈도 131.7 107. 34.9 5.7 0.5 0.03 검정 통계량: (157 131.7) (69 107.) (1 0.03) T = + + K+ 131.7 107. 0.03 = 75.63 결론: 표로부터 χ (자유도=6-1-1=4, α = 0.05) =9.48이므로 귀무가설이 기각되고 이 자료 는 이항 분포를 따른다고 할 수 없다. 자유도가 3인 이유는 모수 하나를 추정하 였기 때문이다.

59 모수 하나를 추정( pˆ ) 했음에도 불구하고 자유도는 4가 아니라 셀의 수-1인 5이다. 그러

60 Chapter 5. BASE PROCEDURE 므로 계산된 검정통계량의 값에 대한 유의확률을 구하면 다음과 같다. 유의확률이 거의 0 이므로 귀무가설은 기각된다. McNemar 검정(짝진 표본) 예를 들어 보자. 새로운 이슈가 발생한 경우 A 대통령 후보에 대한 지지 여부가 바뀌었 는지 알아보거나 (물론 이 경우 동일 응답자, 즉 패널(panel) 구성), 안전 벨트 착용 거부여 부가 교육 전후에 바뀌었는지 알아보고자 할 때 사용되는 방법이다. 전후 사이에 응답 대상 이나 실험 대상이 바뀌는 경우나, 전현 다른 것을 측정하는 경우(즉 수준이 달라지는 경우) 는 McNemar 방법을 사용할 수 없다. 다음 교차표는 McNemar 검정 방법을 사용할 경우 교차표의 형태이다. 사후 Yes No 합계 사전 Yes A B A+B No C D C+D 합계 A+C B+D N 반드시 동일 실험 대상이 전후에 사용되어야 하고 같은 개념을 묻거나 실험해야 한다. McNemar는 이 방법을 수준이 개(Yes, No)인 경우만 제안했으나 Bennett & Underwood가 3개 이상인 경우로 확대하였다. McNemar 검정을 실시하는 교차표는 정방형이어야 한다. 편의를 위하여 수준이 개인 경우를 가설 검정 순서를 살펴보기로 하자. 1 귀무가설: p 1 = p (실험 전의 yes 비율과 실험 후의 yes 비율이 같다)

61 대립가설: p1 p (양측 검정) p 1 > p 혹은 p 1 < p (단측 검정) 표본 추정치: A + B pˆ 1 =, N A + C pˆ = 표본 추정치 차이: N B C pˆ 1 pˆ = N B C 귀무가설이 맞다면 ( B C) / N = 0 이므로 검정 통계량으로 z = ~ Normal(0,1) 이 B + C McNemar 에 의해 제안하였고 이가 성립하기 위해서는 (B+C)가 적어도 10이상이어야 한다. EXAMPLE: McNemar 검정 안전 벨트 교육의 효과가 있는지 알아보기 위하여 30명을 무작위 추출하였다. 교육 전에 안전벨트 여부를 물었더니 착용하는 사람은 1명, 미착용자는 18명이었다. 교육 후 동일 30명에게 안전벨트 착용여부를 물었더니 명이 착용한다고 하였다. 귀무가설: p 1 = p (실험 전의 착용 비율과 실험 후의 착용 비율이 같다) 대립가설: p1 p (양측 검정) McNemar 검정을 하기 위하여 EXACT 문장이 사용되었다. 유의확률이 0.05보다 작으므 로 귀무가설이 기각된다. 벨트 사용여부에 교육의 효과가 있다. 교육 전에 매지 않았다가 매기 시작한 사람의 비율이 77.8%이다. 미 착용자가 1명에서 8명으로 줄었다.

6 Chapter 5. BASE PROCEDURE 5.6.3 PROC CORR BY문은 분류형 변수별로 VAR 문에 설정한 변수들의 상관 분석을 실시한다. WITH문은 설정한 변수들과 VAR 문의 변수들만 상관계수를 구한다. 상관계수는 두 변수 간의 선형(직선) 관계가 존재하는지 알아보는 방법이다. 회귀 분석과 유사하지만 인과 관계에 대한 분석은 아니다. 상관계수는 다음과 같이 정의하며 Pearson 상관계수라 한다. r = cov( X, Y) var( X ) var( Y ) E( X E( X )) E( Y E( Y )) = = var( X ) var( Y ) ( x x)( y ( x x) i i i y) ( y y) i

63 점들이 직선에 가까이 모여 있을수록 상관계수 값은 커진다. 상관 계수의 부호가 양이면 한 변수의 값이 커질수록(작아질수록) 다른 변수의 값도 커짐(작아짐)을 의미하며 음이면 한 변수의 값이 커질수록(작아질수록) 다른 변수의 값도 작아짐(커짐)을 의미한다. 상관계수에 대해 다음 사항을 주의하기 바란다. 상관계수는 두 변수간의 선형 관계를 알아보는 것이다. 이차 관계의 상관계수는 0이다. 상관계수는 점들이 직선에 모여 있는 정도를 나타내는 지표이지 직선의 기울기의 크기 를 나타내는 것은 아니다. 표본의 크기가 커지면 상관계수 값이 커지고 실험실이나 관측 데이터만 0.7을 넘을 가 능성이 높다. 그러므로 상관계수 값이 얼마 이상이어야 유의하다? 상관 관계가 높다? 기준은 없으므로 가설검정에 의한 유의확률에 의지하여 상관 관계를 판단해야 한다. Pearson 상관계수는 측정형 변수 간의 상관 정도를 나타낸다. 데이터가 순서형이거나 가

64 Chapter 5. BASE PROCEDURE 질 수 있는 값이 10개 이하인 경우 (예:리커드 척도) 비모수적인 방법으로 상관계수를 구하 는 것이 좋다. Spearman 순위(rank order) 상관계수와 Kendall의 τ 이 비모수적 방법이다. r s = ( Rx Rx )( R y R y ) 6 di 1, R 은 관측치의 순위, ( R R ) ( R R ) n( n 1) x x y y di = R R x i y i sign( xi xi ) sign( yi y j ) i j τ = <, ( T0 Tx )( T0 Ty ) ti 는 동일한 1, w < 0 sign ( w) = 0, w = 0, T 0 = n( n 1) /, T x = ti ( ti 1) /, 1, w > 1 xi 의 i-번째 그룹 내의 관측치 개수이다. 상관 계수 검정 귀무가설: H 0 : ρ = 0 (두 변수의 상관계수는 0이다. 두 변수는 서로 독립이다) 대립가설: H a : ρ 0 r 검정통계량: T = ~ t( n ) (1 r ) /( n ) 만약 귀무가설이 H 0 : ρ = ρ0 0 (예: 모집단의 상관계수가 0.7이다.)이라면 다음 가설 방 법을 이용한다. 1+ r 1+ ρ0 1 검정통계량: T = 0.5 ln ~ N(0.5 ln, ) 1 r 1 ρ0 n 3 두 상관계수 차이 검정은 다음과 같다. 1+ r z( x) = 0.5 ln 1 r z = 1/( n z( x) z( y) x x x 3) + 1/( n 1+ r, z( y) = 0.5 ln 1 r y y y ~ N(0,1) 3)

65 EXAMPLE: PROC CORR 사용하기 다음은 CORR 프로그램의 기초이다. VAR문을 사용하지 않으면 문자형 변수를 제외한 모 든 변수들의 상관계수 값이 출력된다. DATA= 옆에 옵션으로 NOSIMPLE을 쓰면 각 변수의 기초통계량이 출력되지 않는다. 상관계수는 Pearson 상관 계수만 출력된다. (디폴트) 변수들의 상관계수는 행렬의 형태로 출력된다. 두 행으로 출력되는데 첫 행은 상관 계수 두 번째 행은 유의확률이다. 만약 결측치로 인하여 각 상관 계수의 관측치 수가 다르면 세 번째 행에 표본의 크기가 출력된다. 키와 몸무게의 상관 계수는 0.877(양의 상관 관계)이고 유의확률은 0.0001로 유의하다. 키가 커질수록 몸무게는 선형적으로 증가한다고 할 수 있다.

66 Chapter 5. BASE PROCEDURE EXAMPLE: PROC CORR 사용하기() NOSIMPLE 옵션에 의해 변수들의 기초 통계량이 출력되지 않는다. Spearman, Kendall 상 관 계수를 출력하려면 아래 옵션을 사용하면 된다. 그러면 Spearman 상관계수는 출력되지 않는다. SPEARMAN 옵션을 사용하면 된다. WITH 문장에 사용된 AGE 변수와 HEIGHT, WEIGHT 변수의 상관 관계가 출력된다.

67 5.7 그래프 (optional) SAS/BASE에는 그래프를 그리는 PROC들이 있는데 가장 많이 사용되는 CHART와 PLOT을 예제 중심으로 살펴 보자. 이 예제는 SAS 예제 프로그램에 들어 있는 것이다. 5.7.1 PROC CHART 상대 빈도 히스토그램 /TYPE=PERCENT 옵션을 사용하지 않으면 빈도가 출력된다. 그래프는 출력 창에 텍스트 형식으로 그려진다. TYPE 옵션은 MEAN, SUM 등을 사용할 수 있는데 이는 SUMVAR과 함 께 사용된다.

68 Chapter 5. BASE PROCEDURE 위의 프로그램에서 CHART 대신 GCAHRT을 사용하면 그래픽 창에 그래프가 그려진다.

69 그룹별 변수의 합 출력하기(바 차트)

70 Chapter 5. BASE PROCEDURE

71 블록 차트

7 Chapter 5. BASE PROCEDURE 5.7. PROC PLOT PLOT은 산점도를 그리는 프로그램으로 위의 것이 가장 일반적인 형태이다. PLOT문장에 서 Y-축을 먼저 지정한다. 아래 프로그램은 관측치를 이름 변수($ NAME 옵션)로 구별하여 산점도 그리는 프로그램이다. * 옵션은 점들을 *로 표시하라는 것이다.