The R genetics package: tools for using genetic data in statistical models

Similar documents
SPSS Syntax

[INPUT] 뒤에는변수와관련된정보를표기한다. [CARDS;] 뒤에는각각의변수가가지는관측값들을표기한다. >> 위의프로그램에서데이터셋명은 wghtclub 이고, 변수는 idno, name, team, strtwght, endwght 이다. 이중 name 과 team 은

Microsoft Word - SAS_Data Manipulate.docx

1.1 SAS 시스템 제 1 장 SAS : Statistical Analysis System SAS 사용법 Strategic Application System SAS의주요소프트웨어 Base SAS : SAS 의가장기본적인소프트웨어 SAS/STAT : 통계자료분석소프트웨

MySQL-.. 1

Microsoft PowerPoint - e pptx

Monthly User Guide from JMP Korea 제 13 호 (2018 년 8 월 ) Excel 과 JMP, Excel 보다 JMP * 본 Guide 는매월세번째수요일에발행됩니다 (2018 년 7 월호부터는 JMP 14 Version 기준입니다 ) ** M

statistics

BK21 플러스방법론워크숍 Data Management Using Stata 오욱찬 서울대사회복지학과 BK21 플러스사업팀

SPSS 공개강좌

슬라이드 1

PowerPoint Template

iii. Design Tab 을 Click 하여 WindowBuilder 가자동으로생성한 GUI 프로그래밍환경을확인한다.

기술통계

Microsoft Word - SPSS_MDA_Ch6.doc

Microsoft PowerPoint - 3ÀÏ°_º¯¼ö¿Í »ó¼ö.ppt

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

02-출판과-완성

EndNote X2 초급 분당차병원도서실사서최근영 ( )

<443A5C4C C4B48555C B3E25C32C7D0B1E25CBCB3B0E8C7C1B7CEC1A7C6AE425CC0E7B0EDB0FCB8AE5C53746F636B5F4D616E D656E74732E637070>

Macaron Cooker Manual 1.0.key

Microsoft PowerPoint - 11주차_Android_GoogleMap.ppt [호환 모드]

Microsoft Word - PLC제어응용-2차시.doc

intro

PowerPoint Presentation

윈도우즈프로그래밍(1)

확률 및 분포

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

(001~006)개념RPM3-2(부속)

데이터 시각화

PowerPoint Presentation

통계학입문

Visual Basic 반복문

untitled

PowerPoint 프레젠테이션

4S 1차년도 평가 발표자료

Ver 1.0 마감하루전 Category Partitioning Testing Tool Project Team T1 Date Team Information 김강욱 김진욱 김동권

exp

2002년 2학기 자료구조

USER GUIDE

학습목표 함수프로시저, 서브프로시저의의미를안다. 매개변수전달방식을학습한다. 함수를이용한프로그래밍한다. 2

목차 BUG 문법에맞지않는질의문수행시, 에러메시지에질의문의일부만보여주는문제를수정합니다... 3 BUG ROUND, TRUNC 함수에서 DATE 포맷 IW 를추가지원합니다... 5 BUG ROLLUP/CUBE 절을포함하는질의는 SUBQUE

Observational Determinism for Concurrent Program Security

전립선암발생률추정과관련요인분석 : The Korean Cancer Prevention Study-II (KCPS-II)

Data Sync Manager(DSM) Example Guide Data Sync Manager (DSM) Example Guide DSM Copyright 2003 Ari System, Inc. All Rights reserved. Data Sync Manager

SBR-100S User Manual

빅데이터분산컴퓨팅-5-수정

Microsoft Word - Chapter3.doc

Orcad Capture 9.x

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

윈도우시스템프로그래밍

Tcl의 문법

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Index Process Specification Data Dictionary

PowerPoint Presentation

adfasdfasfdasfasfadf

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Network Security - Wired Sniffing 실습 ICNS Lab. Kyung Hee University

cat_data3.PDF

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

MATLAB and Numerical Analysis

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

(132~173)4단원-ok

[ 정보 ] 과학고 R&E 결과보고서 Monte Carlo Method 를이용한 고교배정시뮬레이션 연구기간 : ~ 연구책임자 : 강대욱 ( 전남대전자컴퓨터공학부 ) 지도교사 : 최미경 ( 전남과학고정보 컴퓨터과 ) 참여학생 : 박진명 ( 전

<B0A3C3DFB0E828C0DBBEF7292E687770>

*º¹ÁöÁöµµµµÅ¥-¸Ô2Ä)

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

통계학입문

C++ Programming

강의 개요

윈도우시스템프로그래밍

Solaris /Linux ArcGIS Engine 설치미디어의 Install_UNIX.htm 을참조하시기바랍니다. 1) ArcObjects SDK 10 for the.net Framework 설치 설치메뉴중 ArcObjects SDK for the.net Framew

Microsoft PowerPoint 웹 연동 기술.pptx

Tablespace On-Offline 테이블스페이스 온라인/오프라인

chapter4

5장 SQL 언어 Part II

C# Programming Guide - Types

제목을 입력하세요.

歯처리.PDF


PowerPoint Presentation

Microsoft PowerPoint 세션.ppt

사회통계포럼

< DC1A6C1D6C1BEC7D5BBE7C8B8BAB9C1F6B0FCBBE7BEF7BAB8B0EDBCADC7A5C1F62E696E6464>

딥러닝 첫걸음

목차 BUG offline replicator 에서유효하지않은로그를읽을경우비정상종료할수있다... 3 BUG 각 partition 이서로다른 tablespace 를가지고, column type 이 CLOB 이며, 해당 table 을 truncate

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

슬라이드 1

<C1A4C3A5B8DEB8F05FC1A C8A35FB0F8B0F8B5A5C0CCC5CD20B0B3B9E6B0FA20B0ADBFF8B5B52E687770>

PowerPoint 프레젠테이션

Microsoft PowerPoint UNIX Shell.ppt

Microsoft PowerPoint - Java7.pptx

DBMS & SQL Server Installation Database Laboratory

Studuino소프트웨어 설치

歯MW-1000AP_Manual_Kor_HJS.PDF

슬라이드 1

1. SNS Topic 생성여기를클릭하여펼치기... Create Topic 실행 Topic Name, Display name 입력후 Create topic * Topic name : 특수문자는 hyphens( - ), underscores( _ ) 만허용한다. Topi

Transcription:

통계프로그램의구동 예방의학교실한소희

Outline I. SAS 구동 & 실습 SAS 구동강의 실습 연습문제풀이 (with 조교샘 ) -------------------------------------------- Breathing time ---------------------------------------------- II. SAS 구동 클릭버젂 III. SPSS 구동 클릭버젂 IV. 그외 R Plink Page 2 통계 O.T. 2009-3-4

Outline I. SAS 구동 & 실습 1. 설치및갱싞 2. 기본구조및구성 - 화면 (windows) 구성 - 기본구조 - 명령문 (function) 형식 3. Dataset 맊들기 - Data 입력형식 - Data 입력 & 입력결과확인 4. 자료 (Data,Dataset,Database) 관리 - 영구파일 / 임시파일생성 - Library 생성 - Data 불러오기 / 저장하기 / 확인 5. 자료처리및변홖 - Data step - Data subset 생성 (IF THEN ) - 변수버리고 / 남기기 - Coding 변경 (RENAME) - 변수형태변경 ( 숫자 문자 / 문자 숫자 ) - 자료의입력오류수정 - 새로운변수생성 (IF THEN ELSE / SUBSTR) - Data 합치기 (SET / MERGE) 6. 기술통계학적분석 - PROC UNIVARIATE - PROC FREQ - PROC TABULATE - PROC MEANS Page 3 통계 O.T. 2009-3-4

Outline II. SAS 구동 클릭버젼 1. 기본구조및구성 - 화면 (windows) 구성 - 기본메뉴 - 작업젃차 2. 자료열기 / Sub Dataset 생성 3. 통계분석방법 Page 4 통계 O.T. 2009-3-4

Outline III. SPSS 구동 클릭버젼 1. 기본구조및구성 - 화면 (windows) 구성 - 기본메뉴 - 작업젃차 2. 자료열기 / Sub Dataset 생성 3. 통계분석방법 Page 5 통계 O.T. 2009-3-4

Outline IV. 그외통계프로그램에는무엇이있는지갂단소개 1. R 2. Plink Page 6 통계 O.T. 2009-3-4

I. SAS 구동 & 실습 - 프로그래밍사용버젼 SAS( 쌔스? 사쓰?) 의역사? - Statistical Analysis System 의약자. 현재는 SAS Institute 소프트웨어제품의등록상표 - 1970 년대초 North Carolina State University 에서개발 - 가장넓게사용되는통계패키지 - 2009 년현재버젂 : SAS 9.1

1. 설치 & 갱싞 Page 8 통계 O.T. 2009-3-4

설치 CD 이용 CD 구성 : setup disk, disk 1-4, shared components disk 설치방법 : - CD 드라이브에 set up disk 넣으면 SAS 설치프로그램자동실행 - 설치언어선택 (Korean / English) - SAS 시스템을설치핛디렉토리설정 - 저장 & 설치 설치안해오싞분들은실습시갂을이용하여설치를 Page 9 통계 O.T. 2009-3-4

갱싞 갱싞파일다운로드 갱싞방법 : - 서울대학교정보화본부 (http://portal.snu.ac.kr/) 에서갱싞파일다운로드 ( 캠퍼스라이센스S/W 갱싞파일다운로드 ) - 시작 모든프로그램 선택 SAS 선택 SAS9.1 Utilities 선택 Renew SAS Software 선택 Page 10 통계 O.T. 2009-3-4

Page 11

Page 12

Page 13

Page 14

Page 15

Page 16

Page 17

2. 기본구조및구성 Page 18 통계 O.T. 2009-3-4

화면 (windows) 구성 로그창 탐색기창 결과창 출력창 편집기창 Page 19 통계 O.T. 2009-3-4

화면 (windows) 구성 탐색기창 - SAS 관렦된파일에대핚기능 : 열기, 편집, 이동, 지움, 복사 로그창 - pogram 의실행상황출력 - error message 등이출력 ( 편집기창에서작성핚프로그램의내용에오류가있는지, 있으면어디에있는지확인 ) - SAS 프로그램실행소요시갂확인 편집기창 - 프로그램편집기의기능. - 자료. 텍스트, 프로그램명령어의입력, 편집, 저장, 열기, 되부름등을위해사용 Page 20 통계 O.T. 2009-3-4

화면 (windows) 구성 결과창 - SAS 시스템에의해산출된산출물의목록 - 탐색기창의뒷면에위치 결과창클릭 - SAS 산출물의개별목록화면출력, 저장, 프릮트기능 출력창 - 프로그램결과물을화면에출력 Page 21 통계 O.T. 2009-3-4

기본구조 SAS 문장 : Keyword + operand - ex. Data one; - ex. PROC PRINT; Page 22 통계 O.T. 2009-3-4

기본구조 DATA gumjin1; Data step : - 통계분석자료맊들기 - SAS 자료맊들기 - 자료불러오기 - Subset 맊들기 - 자료합치기 (set, merge) 등 INPUT SERIALNO AGE SEX $; CARDS; 182 58 F 2 7 55 F 2 201 55 M 2 217 52 F 2 815 65 F 2 528 49 F 2 ; RUN; Procedure step - 통계분석수행과결과출력 - PROC 으로시작 PROC PRINT DATA=gumjin; RUN; PROC CONTENTS DATA=gumjin; RUN; PROC MEANS DATA=gumjin; RUN; PROC FREQ DATA=gumjin; TABLE sex; RUN; Page 23 통계 O.T. 2009-3-4

명령문 (function) 형식 모든문장은 statement ( 예를들어, DATA, INPUT, TABLE 등 ) 로시작 DATA gumjin1; INPUT SERIALNO AGE SEX $; CARDS; 182 58 F 2 7 55 F 2 201 55 M 2 217 52 F 2 815 65 F 2 528 49 F 2 ; RUN; PROC PRINT DATA=gumjin; RUN; PROC FREQ DATA=gumjin; TABLE SEX; RUN; Page 24 통계 O.T. 2009-3-4

명령문 (function) 형식 대 / 소문자모두사용가능 PROC PRINT DATA=gumjin; RUN; proc print data=gumjin; run; Page 25 통계 O.T. 2009-3-4

명령문 (function) 형식 모든명령문은 semicolon(;) 으로마침 핚줄에여러개의명령문사용 모든실행문은 RUN; 에의해프로그램수행후종료 DATA gumjin1 ; INPUT SERIALNO AGE SEX $ ; CARDS ; 182 58 F 2 7 55 F 2 201 55 M 2 217 52 F 2 815 65 F 2 528 49 F 2 ; RUN ; PROC PRINT DATA=gumjin; RUN; PROC FREQ DATA=gumjin; TABLE SEX; RUN; Page 26 통계 O.T. 2009-3-4

명령문 (function) 형식 코맨트삽입가능 ( ; /* */ * ; ) " 검진데이타불러들이기 "; * Label function을이용하여 SEX-> 성별로표시해보겠습니다 ; DATA gumjin2; /* 변수값이문자인지숫자인지지정-문자변수옆에 '$' 만해주시면됩니다 */ INPUT SERIALNO AGE SEX $ EDUC MARRI; LABEL SEX=' 성별 '; CARDS; 182 58 F 2 2 7 55 F 2 2 201 55 M 2 2 217 52 F 2 2 815 65 F 2 5 528 49 F 2 2 1083 69 M 2 2 1063 64 F 2 5 595 39 F 2 2 79 80 M 2 2 ; RUN; /* N=10, Var=4 */ Page 27890-= 통계 O.T. 2009-3-4

3. 자료 (Data) 입력, 저장 & 확인 Page 28 통계 O.T. 2009-3-4

자료입력형식 ( 입력시주의사항 ) 변수명은 32자이내 숫자로시작불가! 특수기호사용불가! (except _ ) 자료의입력은되도록숫자변수로 주민등록번호나젂화번호등은문자변수로입력 날짜변수는 mm dd yy로나누어입력 ( 핚셀에입력했을경우에는 SAS에서구분가능 ) 문자변수는되도록자릿수를맞춰서입력 Coding sheet 를맊들어놓는센스!~ Page 29 통계 O.T. 2009-3-4

자료입력형식 ( 입력시주의사항 ) 변수명은 32 자이내 숫자로시작불가! 특수기호사용불가! (except _ ) 자료의입력은되도록숫자변수로 주민등록번호나젂화번호등은문자변수로입력 날짜변수는 mm dd yy 로나누어입력 ( 핚셀에입력했을경우에는 SAS 에서구분가능 ) 문자변수는되도록자릿수를맞춰서입력 Coding sheet 를맊들어놓는센스!~ O X O O X X serialno age sex 1var educ educ_ educ- edu c 182 58 2 2 2 2 2 2 7 55 2 2 2 2 2 2 201 55 1 1 2 2 2 2 217 52 2 2 2 2 2 2 815 65 2 2 2 2 2 2 528 49 2 2 2 2 2 2 1083 69 1 1 2 2 2 2 1063 64 2 2 2 2 2 2 595 39 2 2 2 2 2 2 79 80 1 1 2 2 2 2 103 63 1 1 2 2 2 2 464 64 2 2 1 1 1 1 387 62 2 2 2 2 2 2 138 59 2 2 2 2 2 2 826 59 1 1 2 2 2 2 202 65 1 1 2 2 2 2 302 38 1 1 2 2 2 2 12 66 1 1 1 1 1 1 44 52 2 2 2 2 2 2 174 54 2 2 1 1 1 1 215 64 1 1 2 2 2 2 Page 30 통계 O.T. 2009-3-4

Coding instruction 작성예 Coding instruction 작성 ** Coding Instruction ** 번호 변수설명 코딩규칙 유효성규칙 criteria 1. 일반사항 1 기관별일렦번호 ( 고유번호 ) 기입된대로 2 검수확인 공백 = 검수안됨, 1= 검수됨 3 총괄개인번호 (id 입력되면자동생성 ) 4 센터방문 ( 설문조사 ) 번쨰 1, 2, 3 등으로입력 ( 추적조사때부터설문지에포함 ) 5 조사일 ( 년월일, "-" 없음 ) 6 설문자대상자이름 성이름 _ 띄워쓰기없음 7 성별 1: 남자, 2: 여자 ( 주민증번호입력되면자동생성 ) 8 주민등록번호앞자리 기입된대로 9 주민등록번호뒷자리 기입된대로 10 의료보장형태 1: 공교, 2: 직장, 3: 지역, 4: 의료보호, 9: 미상 / 무응답 11 실제생년월일 ( 년월일, "-" 없음 ) 12 맊나이 실제생년월일에서자동계산,999= 미상 / 무응답 13 양력 / 음력 1: 양력, 2: 음력, 9: 무응답 14 띠 기입된대로 2. 과거질병력, 가족력, 약물복용력 / 시술력, 직업력등 15 기관별일렦번호 ( 고유번호 ) 기입된대로 16 검수확인 공백 = 검수안됨, 1= 검수됨 과거력유무 1= 아니오, 2= 예 17 과거뇌졳중 ( 중풍 ) 짂단여부 1: 아니오, 2: 예, 9: 모름 ( 미상 ) 1-2, 9 (1) 짂단여부 =' 아니오 ' 이면 and 짂단나이 =0 and 치료여부 =0 (2) 짂단여부 =' 예 ' 이면 and 짂단나이 ^=0 and 치료여부 ^=0 Page 31 통계 O.T. 2009-3-4

4. SAS Dataset 맊들기 Page 32 통계 O.T. 2009-3-4

SAS Dataset 맊들기 직접입력 - INPUT 명령문을사용하여 ( 자료를하나하나 ) 직접입력 파일불러오기 1 메뉴를이용하여파일불러오기 : 파일 데이터가져오기 2 IMPORT 명령문을사용하여파일불러오기 * 가져올수있는파일형식 Excel (.xls) Access (.mdb) dbase (.dbf) Text file : comma-separated value (.csv) Tab delimited file (.txt) Page 33 통계 O.T. 2009-3-4

1 직접입력 명령문 (INPUT) 사용 " 검진데이타불러들이기 "; * Label function을이용하여 SEX-> 성별로표시해보겠습니다 ; DATA gumjin2; /* 변수값이문자인지숫자인지지정-문자변수옆에 '$' 만해주시면됩니다 */ INPUT SERIALNO AGE SEX $ EDUC MARRI; LABEL SEX=' 성별 '; CARDS; 182 58 F 2 2 7 55 F 2 2 201 55 M 2 2 217 52 F 2 2 815 65 F 2 5 528 49 F 2 2 1083 69 M 2 2 1063 64 F 2 5 595 39 F 2 2 79 80 M 2 2 ; RUN; /* N=10, Var=4 */ Page 34

2 메뉴이용핚파일불러오기 Page 35 통계 O.T. 2009-3-4

3 명령문 (IMPORT) 이용자료불러오기 PROC IMPORT OUT= WORK.gumjin DATAFILE= "C:\SNU_OT_2009\gumjin.xls" DBMS=EXCEL REPLACE; SHEET="gumjin"; GETNAMES=YES; RUN; Page 36

입력 or 불러들이기, 저장후자료확인 1 Explorer 창이용 : 직접확인 Page 37

입력 or 불러들이기, 저장후자료확인 2 PROC PRINT 를사용하여변수출력 PROC PRINT DATA=gumjin; RUN; PROC PRINT DATA=gumjin; VAR serialno age sex educ marri; RUN; Page 38

입력 or 불러들이기, 저장후자료확인 3 PROC CONTENTS를사용하여변수출력 PROC CONTENTS DATA=gumjin; RUN; PROC CONTENTS DATA=gumjin POSITION; RUN; 2 1 Page 39

입력 or 불러들이기, 저장후자료확인 4 PROC FREQ를사용하여변수출력 PROC FREQ DATA=gumjin; TABLES age sex; RUN; 2 1 Page 40

5. 자료 (Data) 관리 : 작업핚파일의저장등 Page 41 통계 O.T. 2009-3-4

영구파일 / 임시파일생성 임시파일 - Work 사용 영구파일 - Libname 지정 Page 42 통계 O.T. 2009-3-4

영구파일저장을위핚 Library 생성 ( 규칙 ) 라이브러리 : SAS dataset 이저장되는장소 Dataset 이름 - library.dataset library : 영문 8자이내 dataset : 영문 32자이내 대소문자구분없음, 특수문자사용불가 ( 예외 :_) 맨첫글자에숫자를쓸수없음. Library name 지정 - LIBNAME 라이브러리이름 위치 ; LIBNAME OT 'C:\SNU_OT_2009'; Page 43 통계 O.T. 2009-3-4

Tip! ** 파일이잘못또는안불러질경우다음사항을체크체크!! 데이터를저장핚프로그램이열려있지는않은지? Dataset에두개이상의동일핚변수명있는지확인 SAS 창을최대화하였는지? 변수명이너무길지는않은지? 변수의첫번째줄이비어있지는않은가? - SAS는숫자형태라도처음몇개가결손치이면문자로인식 -> 첫째줄을 dummy 형식으로맊들어둠 Page 44 통계 O.T. 2009-3-4

6. 자료 (Data) 처리및변홖 Page 45 통계 O.T. 2009-3-4

1 Data subset 생성 : IF THEN IF THEN 구문 - IF condition THEN action; Ex. 전체대상자중여성들의자료만따로만들고싶다면...; -> subset * 방법 1; DATA gumjin11; SET gumjin; IF sex=2; RUN; /* 622, 24 */ * 방법 2; DATA gumjin11; SET gumjin; IF sex=1 THEN DELETE; RUN; /* 622, 24 */ * 방법 3; PROC SORT DATA=gumjin; BY sex; RUN; DATA gumjin11; SET gumjin(firstobs=454); RUN; /* 622, 24 */ Page 46

DROP varname 2 변수버리기 : DROP Ex. DATA gumjin13; SET gumjin; DROP sex; RUN; Page 47

KEEP varname 3 변수남기기 : KEEP Ex. DATA gumjin13; SET gumjin; DROP sex; RUN; Page 48

4 변수명변경 : RENAME RENAME - 기졲의변수명을새로운변수명으로변홖 - RENAME=(old var=new var) - Ex. DATA gumjin12 (RENAME=(sex=gender)); SET gumjin; RUN; Page 49

5 변수의형태변경 ( 숫 문, 문 숫 ) : PUT/INPUT 숫자 문자 - newvar = PUT(oldvar, format); - Ex. sex1=put(sex, 3.); 문자 숫자 - newvar = INPUT(oldvar, informat) - Ex. sex1=input(sex, 2.); Page 50 통계 O.T. 2009-3-4

Page 51 결과확인 : 예. 변수형태변경에서

Page 52 결과확인 : 예. 변수형태변경에서

Page 53 결과확인 : 예. 변수형태변경에서

6 새로운변수생성 연산결과새변수생성 연산 - Ex. DATA gumjin17; SET gumjin; bmi=weight/((height/100)*(height/100)); RUN; - Ex. DATA gumjin18; SET gumjin17; IF.<bmi<18 THEN nbmi=1; ELSE IF 18<=bmi<=23 THEN nbmi=2; ELSE IF 23<bmi<99 THEN nbmi=3; RUN; Page 54

7 새로운변수생성 substr 을이용하여변수생성 SUBSTR - 예 ) DATA a; SET b; jumin1=substr(jumin,1,7); RUN; Page 55 통계 O.T. 2009-3-4

8 Data 합치기 SET & MERGE SET ID age sex ID age sex ID age sex P001 10 F P002 15 F + P003 24 M P004 19 M P005 30 M P001 10 F P002 15 F P003 24 M P004 19 M P005 30 M MERGE ID age sex ID smoking ID age sex smoking P001 10 F P002 15 F P003 24 M P004 19 M P005 30 M + P003 P004 P005 Nonsmoker Ex-smoker Ex-smoker P001 10 F P002 15 F P003 24 M Nonsmoker P004 19 M Ex-smoker P005 30 M Ex-smoker Page 56 통계 O.T. 2009-3-4

8 Data 합치기 SET & MERGE DATA filename3; set filename 1 filename 2; - 관측치의개수가늘어남 - 예 ) DATA test3; SET test1 test2; RUN; DATA filename3; MERGE filename1 filename2; BY varname; - 변수의개수가늘어남 - 시행젂에반드시 PROC SORT를해야핚다. - 예 ) PROC SORT DATA=test1; BY subject; PROC SORT DATA=test2; BY subject; DATA test3; MERGE test1 test2; BY subject;run; Page 57 통계 O.T. 2009-3-4

Tip! ** 파일합치기젂 / 후다음사항을체크체크!! - 합치기젂 - 합치려는두개이상의 Dataset 에동일핚변수명이있는지확인 - 있다면변수형태를숫자또는문자중하나로일치 - 결과확인 - 관측치수, 변수수를확인 - missing rate 확인 Page 58 통계 O.T. 2009-3-4

7. 기술통계학적분석 Page 59 통계 O.T. 2009-3-4

평균, 표준편차, percentile 등 PROC UNIVARIATE Ex. PROC UNIVARIATE DATA=gumjin; VAR weight height; Options : 정규성검정, 히스토그램등 - Ex. PROC UNIVARIATE DATA=gumjin NORMAL PLOT; VAR weight height; HISTOGRAM weight height/normal; Page 60 통계 O.T. 2009-3-4

Page 61

Page 62

Page 63

평균, 표준편차, percentile 등 PROC MEANS Ex. PROC FREQ DATA=gumjin; TABLES sex educ; RUN; PROC FREQ DATA=gumjin; TABLES sex*educ; RUN; Options : - TABLES 뒤에써준다 - /MISSING, /NOPCT, /NOROW, /NOCOL - Ex. PROC MEANS DATA=gumjin N NMISS MEAN STDDEV MEDIAN MIN MAX; CLASS sex; VAR weight height; RUN; Page 64

Page 65 PROC MEANS

명수, percentile 등 PROC FREQ, TABULATE Ex. PROC FREQ DATA=gumjin; TABLES sex educ; RUN; PROC FREQ DATA=gumjin; TABLES sex*educ; RUN; Ex. PROC TABULATE DATA=gumjin; VAR sex educ; TABLE sex educ; RUN; Page 66 통계 O.T. 2009-3-4

Page 67 통계 O.T. 2009-3-4

Page 68 통계 O.T. 2009-3-4

참고문헌 Cody RP, Smith JK. Applied Statistics and the SAS Programming Language. 5th ed. Pearson Prentice Hall, New Jersey. 2005 Delsiche LD, Slaughter SJ. The Little SAS book. 3rd ed. SAS publishing. 2003 유근영, 박병주, 김헌, 이무송. 의약보건학을위핚 PC-SAS. 핚울아카데미. 1995 최종후, 강현희. SAS DATA Step. 자유아카데미. 1997 정선영. 2008년통계 O.T. 강의파일. 2008 최윢희. 2008년예과통계강의파일, 2008

SAS 구동실습 - 조교 : 배상혁, 박보영, 성종미선생님 1. 강의중보여드릮 SAS Programming & output 재확인 2. 연습문제풀이 수업시갂에나눠드리겠습니다. - 데이터불러오기 ( 메뉴이용, IMPORT 명령문이용 ) - 데이터합치기 (MERGE) - 데이터가제대로들어왔는지확인 (PROC CONTENTS 등 ) - 연속변수, 범주형변수로나눠보기 & 각각에적젃핚기술통계학적분석시행

Breathing time

II. SAS 구동 - 클릭버젂시연

1. 기본구조및구성 Page 73 통계 O.T. 2009-3-4

화면 (windows) 구성 Page 74 통계 O.T. 2009-3-4

기본메뉴 Page 75 통계 O.T. 2009-3-4

작업젃차 RAW DATA (EXCEL,DBASE ) SAS DATA (.SAS7BDAT) OUTPUT DATA STEP PROC STEP 실행 Page 76 통계 O.T. 2009-3-4

2. 자료열기 / SUBSET 생성 Page 77 통계 O.T. 2009-3-4

1 자료열기 Page 78 통계 O.T. 2009-3-4

2 자료열기 3 Page 79 통계 O.T. 2009-3-4

4 자료열기 5 Page 80 통계 O.T. 2009-3-4

6 자료열기 7 Page 81 통계 O.T. 2009-3-4

자료열기 Page 82 통계 O.T. 2009-3-4

Analyst Toolbar Page 83 통계 O.T. 2009-3-4

1 SUBSET 생성 V Page 84 통계 O.T. 2009-3-4

2 SUBSET 생성 V 3 V 4 Page 85 통계 O.T. 2009-3-4

SUBSET 생성 충주지역 subset 생성 4 V Page 86 통계 O.T. 2009-3-4

젂체자료 SUBSEP SUBSET 생성 - 데이터 서브셋데이터 Operators SUBSET 젂체자료 - 데이터 필터 없음 Page 87 통계 O.T. 2009-3-4

3. 자료요약 Page 88 통계 O.T. 2009-3-4

1 연속형자료요약 V 2 3 V Page 89 통계 O.T. 2009-3-4

4 연속형자료요약 Page 90 통계 O.T. 2009-3-4

1 성별자료요약 V 2 Page 91 통계 O.T. 2009-3-4

1 범주형자료요약 2 Page 92 통계 O.T. 2009-3-4

1 성별과교육수준분포 2 Page 93 통계 O.T. 2009-3-4

1 그래프 2 Page 94 통계 O.T. 2009-3-4

그래프 Page 95 통계 O.T. 2009-3-4

1 히스토그램 2 V 3 Page 96 통계 O.T. 2009-3-4

히스토그램 Page 97 통계 O.T. 2009-3-4

1 산점도 : 몸무게와키 2 3 V Page 98 통계 O.T. 2009-3-4

산점도 : 몸무게와키 Page 99 통계 O.T. 2009-3-4

참고문헌 P.A. Herozberg, Springer-Verlag. How SAS works: a comprehensive introduction to the SAS System P.A. Herozberg, Springer-Verlag. Applied statistics and the SAS programing language, North-Holland, New York 김종섭. SAS v.8.2를이용핚통계분석의이해. 핚올출판사 최윢희. 2008년예과통계강의파일, 2008

III. SPSS 구동 - 클릭버젂시연

화면 (windows) 구성 Page 102 통계 O.T. 2009-3-4

화면 (windows) 구성 1 변수삽입 : 변수추가 2 케이스삽입 : 케이스추가 3 케이스정렧 : 오름, 내림차순정렧 4 파일합치기 : 케이스, 변수합치기 5 케이스선택 : 원하는조건의케이스선택 Page 103 통계 O.T. 2009-3-4

화면 (windows) 구성 1 변수계산 : 변수들의데이터를변홖새로운변수생성 2 코딩변경 : 변수들의데이터값변경 3 순위변수생성 : 변수들의데이터크기별순위데이터생성 4 결측값바꾸기 : 결측값을미결측값으로젂홖 Page 104 통계 O.T. 2009-3-4

화면 (windows) 구성 1 기술통계량 : 빈도 / 기술 / 교차분석 2 평균비교 : T-TEST/ANOVA 3 상관분석 : 이변량상관계수 4 회귀분석 : 선형회귀 / 이분형로지스틱 5 분류분석 : K-MEAN 군집분석 6 척도화분석 : 다차원척도 (M) Page 105 통계 O.T. 2009-3-4

기본메뉴 파일 : 새파일맊들고, 열고, 저장 편집 : 자료편집 보기 : 상태표시줄, 도구모음, 글꼴 데이터 : 데이터파일의젂체적인수정 변홖 : 데이터파일의변수나값변형 분석 : 통계분석 그래프 유틸리티 : 데이터파일과변수내용에관핚정보 창 : 창통제 도움말

작업젃차 SPSS 로자료를불러들임 ( 혹은입력 ) 메뉴에서프로시저선택 분석하고자하는변수선택 프로시저수행 & 결과검토 SPSS에서사용하는주요파일 - sav : 데이터 - spo : 결과 - sps : syntax 화일

SPSS 의초기화면 ( 데이터편집기 ) 데이터파일 = 변수 ( 열 )+ 케이스 ( 행 )

자료입력 Page 109 통계 O.T. 2009-3-4

자료불어오기 엑셀화일불러오기 : 파일 > 열기 > 데이터 ( 파일형식, xls)

자료보기 < 데이터보기 > < 변수보기 >

변수추가

케이스추가

코딩변경

기술통계량 중심위치의측도 - 평균 / 중앙값 산포도 - 분산 / 표준편차 / 표준오차 / 범위 / 변동계수 분포의형태 - 왜도 / 첨도 백분위수 Page 115 통계 O.T. 2009-3-4

도표

줄기와잎그림 190 11 180 170 160 신장 150 N = 12 1.00 8 2.00 성별

교차분석 간염항원 * 간염항체 * 성별교차표 빈도 성별 1.00 2.00 간염항원 전체간염항원 전체 1.00 2.00 1.00 2.00 간염항체 1.00 2.00 전체 3 7 10 2 2 5 7 12 1 5 6 2 2 3 5 8

교차분석 Page 119 통계 O.T. 2009-3-4

¼º º Æò ±Õ üÁß 막대그래프 80 70 60 50 1.00 2.00

산점도 싞장 & 체중