PowerPoint 프레젠테이션

Similar documents
¿À¸®ÄÞ40

<31372DB9CCB7A1C1F6C7E22E687770>


example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for


¿À¸®ÄÞ38

Oracle Apps Day_SEM

김기남_ATDC2016_160620_[키노트].key

PowerPoint 프레젠테이션

13. 다차원척도법 (MultiDimensional Scaling) 13.1 개념및목적 다차원척도법 (mds) 는다차원관측값또는개체들간의거리 (distance) 또는비유사성 (dissimilarity) 을이용하여개체들을원래의차원보다낮은차원 ( 보통 2차원 ) 의공간상에


<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

Microsoft PowerPoint - SVPSVI for LGNSYS_ ppt

해당하는 논문이 있었다. 즉 이런 분류 방식이 중복출판 분류에 충분히 적용 가능함을 알 수 있었다. 또한 과거 분류한 것보다 조금 더 자세히 나누어서 어디에 해당하는지 쉽게 찾을 수 있는 방안이다. 사례를 보고 찾는다면 더욱 쉽게 해당하는 범주를 찾을 수 있을 것이다.

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

LXR 설치 및 사용법.doc

목차 ⅰ ⅲ ⅳ Abstract v Ⅰ Ⅱ Ⅲ i

사회동향1-2장

- 2 -

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

Orcad Capture 9.x

04 형사판례연구 hwp

1. 조사설계 조사대상 2017 년 2 월현재, 전국만 19 세이상남녀 표본의크기 조사방법 1,021 명 ( 가중전 1,021 명, 가중후 1,000 명 ) - 가중치를 1,000 명기준으로부여했으나, 보도시표본크기는 1,021 명으로보도해야함. 구조화된설문지를이용한전

2006

13 Who am I? R&D, Product Development Manager / Smart Worker Visualization SW SW KAIST Software Engineering Computer Engineering 3

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

MS-SQL SERVER 대비 기능

00표지결정

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

0121사회동향1장

기관고유연구사업결과보고

CHU 통계교육 Workshop (DAY 7. MDA 군집분석 ) 1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (simila

소프트웨어개발방법론

BK21 플러스방법론워크숍 Data Management Using Stata 오욱찬 서울대사회복지학과 BK21 플러스사업팀

DBPIA-NURIMEDIA


ETL_project_best_practice1.ppt

Kor. J. Aesthet. Cosmetol., 라이프스타일은 개인 생활에 있어 심리적 문화적 사회적 모든 측면의 생활방식과 차이 전체를 말한다. 이러한 라이프스 타일은 사람의 내재된 가치관이나 욕구, 행동 변화를 파악하여 소비행동과 심리를 추측할 수 있고, 개인의

Ⅰ. 조사목적 본조사는전국민을대상으로대통령국정수행지지도, 정당지지도등을 파악하여, 국민여론을파악하는기초자료수집에그목적을둠. Ⅱ. 조사설계 조사대상 전국거주만 19세이상성인남녀 표본수 총 1,035 명조사후, 지역, 성, 연령별사후보정 표본오차 95% 신뢰수준에서최대허용

전립선암발생률추정과관련요인분석 : The Korean Cancer Prevention Study-II (KCPS-II)

DW 개요.PDF

<31342EBCBAC7FDBFB52E687770>

0121사회동향1장

<C3D6C1BEBFCFBCBA2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D31C8A3292E687770>

<31372DB9DABAB4C8A32E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: The Effect of Caree

PowerPoint 프레젠테이션

제 출 문 한국산업안전공단 이사장 귀하 본 보고서를 2002 년도 공단 연구사업계획에 따라 수행한 산 업안전보건연구수요조사- 산업안전보건연구의 우선순위설정 과제의 최종보고서로 제출합니다. 2003년 5월 연구기관 : 산업안전보건연구원 안전경영정책연구실 정책조사연구팀 연

012임수진

2011´ëÇпø2µµ 24p_0628

(, sta*s*cal disclosure control) - (Risk) and (U*lity) (Synthe*c Data) 4. 5.

KD hwp

서론 34 2

사회동향1-2장

사회동향-내지간지수정

06_À̼º»ó_0929

사회동향1-최종

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend


untitled

23

DBPIA-NURIMEDIA

Observational Determinism for Concurrent Program Security

R t-..

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

Manufacturing6

untitled

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: * The

March 2007 Vol.293 Monthly Magazine of KOTSA March

@371È£°í´ë±³À°11¿ùÃÖÁ¾

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * The Participant Expe

untitled

<C3D6C1BE5F2D FBCF6C1A42E687770>

Index

휠세미나3 ver0.4

목차

PRO1_09E [읽기 전용]

기업은행현황-표지-5도

,126,865 43% (, 2015).,.....,..,.,,,,,, (AMA) Lazer(1963)..,. 1977, (1992)

PowerPoint 프레젠테이션

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Study on the Pe

Introduction 신뢰성 있는 결과 높은 품질의 제품을 생산하기 위해서는 제품의 공정 시스템이 중요 품질관리실험실은 품질보증과정에서 매우 중요한 역할 분석시스템은 품질관리실험실의 매우 중요한 요소 분석시스템의 결과를 기본으로 하여 제품의 품질을 결정 R&D 실험실

300 구보학보 12집. 1),,.,,, TV,,.,,,,,,..,...,....,... (recall). 2) 1) 양웅, 김충현, 김태원, 광고표현 수사법에 따른 이해와 선호 효과: 브랜드 인지도와 의미고정의 영향을 중심으로, 광고학연구 18권 2호, 2007 여름



Vol. 20, December 2014 Tobacco Control Issue Report Contents Infographic 년 전 세계 FCTC 주요 이행현황 Updates 04 이 달의 정책 06 이 달의 연구 Highlights 09 담배규제기본

DBPIA-NURIMEDIA

자율학습

歯안주엽홍서연원고.PDF

양성내지b72뼈訪?303逞



자식농사웹완

chungo_story_2013.pdf

*중1부

2

Çѱ¹ÀÇ ¼º°øº¥Ã³µµÅ¥

Transcription:

SPSS Data Validation 데이터검증 허명회, 고려대학교통계학과교수 E-mail: stat420@korea.ac.kr 2007.9.19 1

Contents Data Validation ( 데이터검증 ) SPSS Data ( 데이터 ) Validation ( 확인 ) Load Predefined Rules ( 사전정의규칙불러오기 ). Define Rules ( 규칙정의 ). Validate Data ( 데이터타당성검사 ). Identify Unusual Cases ( 특이케이스식별 ) Identify Duplicate Cases ( 중복케이스식별 )... 2

1. Validation Data Validation ( 데이터검증 ) - 분석자료크기의급증 : 레코드수 n, 변수의수 p - 자료질 (data quality) 의저하 - 치명적실패를막으려면 메타데이터준비 (meta-data preparation). - 변수각각에대하여레이블 (label) 을붙이고가능한자료값 (data value) 들을리스트. - 자료값이범주를지칭하는경우에는자료값레이블 (value label) 도필요. - 변수간결합에서논리적제한이있는경우그것을명확히규정. - 변수값이결측된경우일정하게표기. 데이터검증 (data validation). - 메타데이터규정에어긋나는케이스가있는가? - 실제로의미없는변수가있는가? - 그런케이스나변수가있다면자료분석에들어가기전에조치가필요하다. 3

1. Validation 검증규칙의간단한보기 -일변수규칙 (single variable rules): 개별변수의타당한자료값예 : 남자 m, 여자 f - 교차변수규칙 (cross-variable rules): 2개이상변수간허용되지않은결합을규정예 : gender & cancer 1) gender = m & cancer = breast 2) gender = f & cancer = prostate 4

1. Validation 검증규칙적용사례 선거여론조사자료 survey 2007.sav 변수리스트 id : 일련번호 region : 주거지역규모 (=1 대도시, =2 중소도시, =3 농어촌 ) age : 나이 ( 20) gender : 성 (= m 남자, = f 여자 ) q1 : 가장선호하는후보는? (=1 이명박, =2 박근혜, =3 정동영, =4 미정 ) q2 : 가장덜선호하는후보는? (=1 이명박, =2 박근혜, =3 정동영, =4 미정 ) q3 : 가장중요한정책분야는? (=1 정치개혁, =2 경제성장, =3 고용, =4 사회적평등 ) q4 : 가장덜중요한정책분야는? (=1 정치개혁, =2 경제성장, =3 고용, =4 사회적평등 ) q5 : 투표할것인가? (=1 예, =2 아니오 ) job : 직업은? (=1 화이트칼러, =2 블루칼러, =3 자영업, =4 농어업, =5 학생, =6 없음 ) educ : 교육정도는? (=1 중학교이하, =2 고등학교, =3 대학교, =4 대학원이상 ) income : 월소득은? ( 0, 단위만원 ) 5

1. Validation 선거여론조사자료 survey 2007.sav 요구조건 id : 중복불가 (no duplicated cases) region : 1/2/3의 3개수치 age : 20 이상의수치 gender : m/f 의 2 개문자 q1 : 1/2/3/4 의 4 개수치 q2 : 1/2/3/4 의 4 개수치 q3 : 1/2/3/4 의 4 개수치 q4 : 1/2/3/4 의 4 개수치 q5 : 1/2 의 2 개수치 job : 1/2/3/4/5/6 의 6 개수치 educ : 1/2/3/4 의 4 개수치 income : 0 이상의수치 2 개변수간 q1 = q2 : 가장선호하는후보와가장덜선호하는후보가일치함. q3 = q4 : 가장중요한정책분야와가장덜중요한정책분야가같음. 6

1. Validation SPSS Data Validation: Define Rules Single-Variable Rules 7

1. Validation SPSS Data Validation: Define Rules Cross-Variable Rules 8

1. Validation SPSS Data Validation: Validate Data Variables 9

1. Validation SPSS Data Validation: Validate Data Single-Variable Rules 10

1. Validation SPSS Data Validation: Validate Data Cross-Variable Rules 11

1. Validation SPSS Data Validation: Validate Data Identifier Checks Duplicate Ident ifiers Duplicate Identifiers Group 1 Number of Cases with Duplicate Identifier Duplicates Identifiers respondent id 2 7, 8 7 12

1. Validation SPSS Data Validation: Validate Data Single-Variable Rules Va ria ble S um mar y city size age gender who do you prefer job status education monthly income Rule Categories 1 to 3 Total Adult Only Total Gender Total Categories 1 to 4 Total Categories 1 to 6 Total Categories 1 to 4 Total Nonnegative Number Total Number of Violations 1 1 1 1 3 3 4 4 1 1 2 2 1 1 13

1. Validation SPSS Data Validation: Validate Data Cross-Variable Rules Cross- Va ria ble Rules Rule Inconsistent Preference Inconsistent Policy Number of Violations 2 q1 = q2 1 q3 = q4 Rule Expression 14

1. Validation SPSS Data Validation: Validate Data Case Report Case 1 3 7 10 11 12 14 15 16 18 19 20 Case Repor t Validation Rule Violations Identifier Single-Variable a Cross-Variable respondent id Inconsistent Preference 1 Adult Only (1) 3 Categories 1 to 6 (1) 7 Gender (1) Categories 1 to 4 (1) 10 Gender (1) Categories 1 to 3 (1) 11 Nonnegative Number (1) 12 Categories 1 to 4 (1) Inconsistent Policy 14 Categories 1 to 4 (1) 15 Categories 1 to 4 (1) 16 Categories 1 to 4 (1) 18 Categories 1 to 4 (1) 19 Gender (1) Inconsistent Preference 20 a. The number of variables that violated the rule follows each rule. 15

1. Validation SPSS Data Validation: Load Predefined Rules Predefined Validation Rules SPSS 14.0.sav 16

1. Validation SPSS Data Validation: Load Predefined Rules 17

1. Validation SPSS Data Copy Data Properties: 5 Steps 18

1. Validation Summary Validation - Rule Definition: Single-Variable Rules, Cross-Variable Rules - Data Validation Copy Data Properties 19

2. Unusual Cases 특이케이스 (Unusual Cases) : 관측자료대다수와는달라보이는 [ 비정상 ] 개체들, outlier s - 모델링 (modeling): 군집화 전형 (norms, 군집중심 ) 찾기 - 점수화 (scoring): 군집중심과의거리로 특이성 을점수화 이상개체 (anomalous cases) 리스트 - 원인규명 (reasoning): 이개체는무엇이이상한가? 편차지수 (deviation index). 20

2. Unusual Cases 특이케이스식별 (Identify Unusual Cases) 방법론 - 모델링 (modeling): 훈련자료, 결측값처리. 결측변수비율산출, 이단계군집화 몇개의전형 (norms, 군집중심 ) 출력 - 점수화 (scoring): 새범주선별, 결측값처리, 결측변수비율산출후개체 (=s) 를가장가까운군집 (=k) 에배속하고 Group Deviation Index와 Variable Deviation Index를산출. * GDI = d (s, k), * VDI j 는 d (s, k) 중에서변수 j가기여한부분. - 원인규명 (reasoning): GDI 순서로개체를정렬하고상위 alpha 퍼센트개체들에대하여 VDI 순서로변수를정렬하여리스트. 21

2. Unusual Cases 특이케이스식별 (Identify Unusual Cases) 방법론 - 이단계군집화 (two-step clustering): 1) 다수의소군집생성 2) 계층적군집화 (hierarchical clustering) * 각군집화변수는독립임을가정. * 연속형변수에대하여는정규분포를, 범주형변수에대하여는다항분포를가정. 22

2. Unusual Cases 적용사례 : 의료자료 stroke_valid.sav SPSS Data ( 데이터 ) Identify Unusual Cases ( 특이케이스식별 )... 23

2. Unusual Cases Identify Unusual Cases: Variables 재활기간총치료비용 24

2. Unusual Cases Identify Unusual Cases: Variables 25

2. Unusual Cases 사례분석 : stroke_valid.sav Case Processing Summ ary Peer ID Combined Excluded Cases Total 1 2 3 % of N Combined % of Total 292 37.1% 27.9% 186 23.6% 17.7% 309 39.3% 29.5% 787 100.0% 75.1% 261 24.9% 1048 100.0% 26

2. Unusual Cases 사례분석 : stroke_valid.sav [ 계속 ] 27

3. Duplicate Cases 중복케이스 (Duplicate Cases) - 데이터입력오류 : 한케이스 ( 개체 ) 가실수로 2번이상입력되는경우. - 식별번호의공유 : 1) 가구에식별번호가부여되어있는데자료세트가가구원단위로만들어진경우 [ 횡단면조사 (cross-sectional survey), 오류 ] 2) 식별번호는개인에부여되었으나여러시점에서자료가생성된경우. [ 종단적조사 (longitudinal survey), 오류아님 ] 28

3. Duplicate Cases 적용사례 : stroke_invalid.sav SPSS Data ( 데이터 ) Identify Duplicate Cases ( 중복케이스식별 )... 29

3. Duplicate Cases 적용사례 [ 계속 ]: 30

3. Duplicate Cases 사례결과 : stroke_invalied.sav Indicator of each last mat ching cas e as Primary Valid Duplicate Case Primary Case Total Cumulative Frequency Percent Valid Percent Percent 135 11.4 11.4 11.4 1048 88.6 88.6 100.0 1183 100.0 100.0 PrimaryLast 31

Practice 실습파일 선거여론조사자료 survey 2007.sav 선거여론조사자료 survey 2007c.sav 의료자료 stroke_valid.sav * 미국일반사회조사자료 1991 U.S. General Social Survey.sav ** 의료자료 stroke_invalid.sav * * spss\tutorial\sample_files 디렉터리내 ** spss 디렉터리내 32

SPSS Multidimensional Unfolding 다차원전개 허명회, 고려대학교통계학과교수 E-mail: stat420@korea.ac.kr 2007.9.19 33

Concepts Multidimensional Unfolding ( 다차원전개 ) 정의 : 직사각형선호도 ( 거리 ) 자료에대한다차원척도법 (Multidimensional Scaling). 예 1 - 행이 n 명의평가자이고열은 p 개의평가대상 ( 오브젝트, object), 자료행렬 R의 (i,j) 칸이평가자 i가대상 j에부여한순위 (rank)/ 평점 (rating) 인경우 * 순위 : 1 = 첫번째로좋다, 2 = 두번째로좋다, * 5점척도 : 1 = 아주좋다,, 5 = 아주나쁘다예 2 - 행이 n 개의브랜드, 열은 p 개의평가속성 (attribute). 자료행렬 S의 (i,j) 칸은브랜드 i의속성 j를평가한결과 자료형태의확장 : 직사각형 직육면체 ( 브랜드 * 속성 * 평가자 ) 34

Concepts 다차원전개의개념 일차원의경우 A, B, C, D: 오브젝트 ( 평가대상 ) A B C D ----+------+----------+--------------+---- 선호순위 : B-A-C-D A B C D ----+------+----------+--------------+---- 선호순위 : D-C-B-A Folding ( 접기 ) vs Unfolding ( 펴기 ) 35

Concepts 다차원전개의개념 다차원은일차원의확장 : - 오브젝트들의좌표로부터평가자들의위치를정할수있고 - 역으로평가자들의자리매김후에오브젝트들의좌표를정할수있다. - 그리고는다시평가자들의위치를새로잡는다. - 반복을통해척도화와자리매김을개선한다. Idea: 접음 (folding) 으로써오브젝트들에대한선호도순위를알수있고 폄 (unfolding) 으로써오브젝트와평가자자리매김된다차원맵 (map) 이생성된다. 36

First Case 적용사례 아침식사선호도종합자료 breakfast_overall.sav ( 출처 : \spss\tutorial\sample_files) n = 42 명 p = 15 종 37

First Case 분석결과 157 회반복계산결과, Stress = 0.24 38

First Case 분석결과 [ 계속 ] Penalty Term: Strength = 0.5, Range = 1.0 ( 디폴트 ) 39

First Case 퇴화해 [Degenerate Solution] Penalty Term: Strength = 1.0, Range = 0.5 Penalty Term: Strength = 1.0, Range = 0.0 40

SPSS Dialog Box SPSS Multidimensional Unfolding [Version 15] SPSS 의 Analyze( 분석 ) Scale ( 척도화분석 ) Multidimensional Unfolding... ( 다차원확장 ) 41

SPSS Dialog Box SPSS Multidimensional Unfolding [Options] 42

Second Case 적용사례 아침식사시나리오별선호도자료 breakfast.sav ( 출처 : \spss\tutorial\sample_files) s = 6 (source) n = 42 명 p = 15 종 43

Second Case 분석결과 385 회반복계산결과, Stress = 0.35 44

SPSS Dialog Box SPSS Multidimensional Unfolding [Version 15] SPSS 의 Analyze( 분석 ) Scale ( 척도화분석 ) Multidimensional Unfolding... ( 다차원확장 ) 45

SPSS Dialog Box SPSS Multidimensional Unfolding [Model] 46

SPSS Dialog Box SPSS Multidimensional Unfolding [Plots] 47

Brand-Attribute Study Car-Attribute Data ( 자료 : car_attrib.sav) n = 10 브랜드, p = 6 속성 48

Brand-Attribute Study Car-Attribute Data ( 자료 : car_attrib.sav) PREFSCAL VARIABLES=luxury safe sporty family practical exciting /INITIAL=CLASSICAL (TRIANGLE) /CONDITION=MATRIX /TRANSFORMATION=ORDINAL (KEEPTIES) /PROXIMITIES=SIMILARITIES /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(0.5) OMEGA(1.0) /PRINT=MEASURES COMMON /PLOT=COMMON. 49

Brand-Attribute Study Car-Attribute Data ( 자료 : car_attrib.sav) Iteration 0 77 a. His tory of Iter at ions Penalized Stress Difference Stress Penalty.5128911.1628882 1.6149564.4270694.0000004 a.0999302 1.8251568 Difference in consecutive penalized Stress values less than the DIFFSTRESS criterion. 50

Summary Multidimensional Perceptual Map ( 다차원지각도 ) 기법들 - Multidimensional Unfolding [ 다차원전개 ] - Multidimensional Scaling [ 다차원척도화 ] - Correspondence Analysis [ 대응분석 ] - Principal Component Analysis [ 주성분분석 ] - Canonical Discriminant Analysis [ 정준판별분석 ] Ideal Point Model vs Vector Model 51

Q&A 허명회, 고려대학교통계학과교수 E-mail: stat420@korea.ac.kr 52