SPSS Data Validation 데이터검증 허명회, 고려대학교통계학과교수 E-mail: stat420@korea.ac.kr 2007.9.19 1
Contents Data Validation ( 데이터검증 ) SPSS Data ( 데이터 ) Validation ( 확인 ) Load Predefined Rules ( 사전정의규칙불러오기 ). Define Rules ( 규칙정의 ). Validate Data ( 데이터타당성검사 ). Identify Unusual Cases ( 특이케이스식별 ) Identify Duplicate Cases ( 중복케이스식별 )... 2
1. Validation Data Validation ( 데이터검증 ) - 분석자료크기의급증 : 레코드수 n, 변수의수 p - 자료질 (data quality) 의저하 - 치명적실패를막으려면 메타데이터준비 (meta-data preparation). - 변수각각에대하여레이블 (label) 을붙이고가능한자료값 (data value) 들을리스트. - 자료값이범주를지칭하는경우에는자료값레이블 (value label) 도필요. - 변수간결합에서논리적제한이있는경우그것을명확히규정. - 변수값이결측된경우일정하게표기. 데이터검증 (data validation). - 메타데이터규정에어긋나는케이스가있는가? - 실제로의미없는변수가있는가? - 그런케이스나변수가있다면자료분석에들어가기전에조치가필요하다. 3
1. Validation 검증규칙의간단한보기 -일변수규칙 (single variable rules): 개별변수의타당한자료값예 : 남자 m, 여자 f - 교차변수규칙 (cross-variable rules): 2개이상변수간허용되지않은결합을규정예 : gender & cancer 1) gender = m & cancer = breast 2) gender = f & cancer = prostate 4
1. Validation 검증규칙적용사례 선거여론조사자료 survey 2007.sav 변수리스트 id : 일련번호 region : 주거지역규모 (=1 대도시, =2 중소도시, =3 농어촌 ) age : 나이 ( 20) gender : 성 (= m 남자, = f 여자 ) q1 : 가장선호하는후보는? (=1 이명박, =2 박근혜, =3 정동영, =4 미정 ) q2 : 가장덜선호하는후보는? (=1 이명박, =2 박근혜, =3 정동영, =4 미정 ) q3 : 가장중요한정책분야는? (=1 정치개혁, =2 경제성장, =3 고용, =4 사회적평등 ) q4 : 가장덜중요한정책분야는? (=1 정치개혁, =2 경제성장, =3 고용, =4 사회적평등 ) q5 : 투표할것인가? (=1 예, =2 아니오 ) job : 직업은? (=1 화이트칼러, =2 블루칼러, =3 자영업, =4 농어업, =5 학생, =6 없음 ) educ : 교육정도는? (=1 중학교이하, =2 고등학교, =3 대학교, =4 대학원이상 ) income : 월소득은? ( 0, 단위만원 ) 5
1. Validation 선거여론조사자료 survey 2007.sav 요구조건 id : 중복불가 (no duplicated cases) region : 1/2/3의 3개수치 age : 20 이상의수치 gender : m/f 의 2 개문자 q1 : 1/2/3/4 의 4 개수치 q2 : 1/2/3/4 의 4 개수치 q3 : 1/2/3/4 의 4 개수치 q4 : 1/2/3/4 의 4 개수치 q5 : 1/2 의 2 개수치 job : 1/2/3/4/5/6 의 6 개수치 educ : 1/2/3/4 의 4 개수치 income : 0 이상의수치 2 개변수간 q1 = q2 : 가장선호하는후보와가장덜선호하는후보가일치함. q3 = q4 : 가장중요한정책분야와가장덜중요한정책분야가같음. 6
1. Validation SPSS Data Validation: Define Rules Single-Variable Rules 7
1. Validation SPSS Data Validation: Define Rules Cross-Variable Rules 8
1. Validation SPSS Data Validation: Validate Data Variables 9
1. Validation SPSS Data Validation: Validate Data Single-Variable Rules 10
1. Validation SPSS Data Validation: Validate Data Cross-Variable Rules 11
1. Validation SPSS Data Validation: Validate Data Identifier Checks Duplicate Ident ifiers Duplicate Identifiers Group 1 Number of Cases with Duplicate Identifier Duplicates Identifiers respondent id 2 7, 8 7 12
1. Validation SPSS Data Validation: Validate Data Single-Variable Rules Va ria ble S um mar y city size age gender who do you prefer job status education monthly income Rule Categories 1 to 3 Total Adult Only Total Gender Total Categories 1 to 4 Total Categories 1 to 6 Total Categories 1 to 4 Total Nonnegative Number Total Number of Violations 1 1 1 1 3 3 4 4 1 1 2 2 1 1 13
1. Validation SPSS Data Validation: Validate Data Cross-Variable Rules Cross- Va ria ble Rules Rule Inconsistent Preference Inconsistent Policy Number of Violations 2 q1 = q2 1 q3 = q4 Rule Expression 14
1. Validation SPSS Data Validation: Validate Data Case Report Case 1 3 7 10 11 12 14 15 16 18 19 20 Case Repor t Validation Rule Violations Identifier Single-Variable a Cross-Variable respondent id Inconsistent Preference 1 Adult Only (1) 3 Categories 1 to 6 (1) 7 Gender (1) Categories 1 to 4 (1) 10 Gender (1) Categories 1 to 3 (1) 11 Nonnegative Number (1) 12 Categories 1 to 4 (1) Inconsistent Policy 14 Categories 1 to 4 (1) 15 Categories 1 to 4 (1) 16 Categories 1 to 4 (1) 18 Categories 1 to 4 (1) 19 Gender (1) Inconsistent Preference 20 a. The number of variables that violated the rule follows each rule. 15
1. Validation SPSS Data Validation: Load Predefined Rules Predefined Validation Rules SPSS 14.0.sav 16
1. Validation SPSS Data Validation: Load Predefined Rules 17
1. Validation SPSS Data Copy Data Properties: 5 Steps 18
1. Validation Summary Validation - Rule Definition: Single-Variable Rules, Cross-Variable Rules - Data Validation Copy Data Properties 19
2. Unusual Cases 특이케이스 (Unusual Cases) : 관측자료대다수와는달라보이는 [ 비정상 ] 개체들, outlier s - 모델링 (modeling): 군집화 전형 (norms, 군집중심 ) 찾기 - 점수화 (scoring): 군집중심과의거리로 특이성 을점수화 이상개체 (anomalous cases) 리스트 - 원인규명 (reasoning): 이개체는무엇이이상한가? 편차지수 (deviation index). 20
2. Unusual Cases 특이케이스식별 (Identify Unusual Cases) 방법론 - 모델링 (modeling): 훈련자료, 결측값처리. 결측변수비율산출, 이단계군집화 몇개의전형 (norms, 군집중심 ) 출력 - 점수화 (scoring): 새범주선별, 결측값처리, 결측변수비율산출후개체 (=s) 를가장가까운군집 (=k) 에배속하고 Group Deviation Index와 Variable Deviation Index를산출. * GDI = d (s, k), * VDI j 는 d (s, k) 중에서변수 j가기여한부분. - 원인규명 (reasoning): GDI 순서로개체를정렬하고상위 alpha 퍼센트개체들에대하여 VDI 순서로변수를정렬하여리스트. 21
2. Unusual Cases 특이케이스식별 (Identify Unusual Cases) 방법론 - 이단계군집화 (two-step clustering): 1) 다수의소군집생성 2) 계층적군집화 (hierarchical clustering) * 각군집화변수는독립임을가정. * 연속형변수에대하여는정규분포를, 범주형변수에대하여는다항분포를가정. 22
2. Unusual Cases 적용사례 : 의료자료 stroke_valid.sav SPSS Data ( 데이터 ) Identify Unusual Cases ( 특이케이스식별 )... 23
2. Unusual Cases Identify Unusual Cases: Variables 재활기간총치료비용 24
2. Unusual Cases Identify Unusual Cases: Variables 25
2. Unusual Cases 사례분석 : stroke_valid.sav Case Processing Summ ary Peer ID Combined Excluded Cases Total 1 2 3 % of N Combined % of Total 292 37.1% 27.9% 186 23.6% 17.7% 309 39.3% 29.5% 787 100.0% 75.1% 261 24.9% 1048 100.0% 26
2. Unusual Cases 사례분석 : stroke_valid.sav [ 계속 ] 27
3. Duplicate Cases 중복케이스 (Duplicate Cases) - 데이터입력오류 : 한케이스 ( 개체 ) 가실수로 2번이상입력되는경우. - 식별번호의공유 : 1) 가구에식별번호가부여되어있는데자료세트가가구원단위로만들어진경우 [ 횡단면조사 (cross-sectional survey), 오류 ] 2) 식별번호는개인에부여되었으나여러시점에서자료가생성된경우. [ 종단적조사 (longitudinal survey), 오류아님 ] 28
3. Duplicate Cases 적용사례 : stroke_invalid.sav SPSS Data ( 데이터 ) Identify Duplicate Cases ( 중복케이스식별 )... 29
3. Duplicate Cases 적용사례 [ 계속 ]: 30
3. Duplicate Cases 사례결과 : stroke_invalied.sav Indicator of each last mat ching cas e as Primary Valid Duplicate Case Primary Case Total Cumulative Frequency Percent Valid Percent Percent 135 11.4 11.4 11.4 1048 88.6 88.6 100.0 1183 100.0 100.0 PrimaryLast 31
Practice 실습파일 선거여론조사자료 survey 2007.sav 선거여론조사자료 survey 2007c.sav 의료자료 stroke_valid.sav * 미국일반사회조사자료 1991 U.S. General Social Survey.sav ** 의료자료 stroke_invalid.sav * * spss\tutorial\sample_files 디렉터리내 ** spss 디렉터리내 32
SPSS Multidimensional Unfolding 다차원전개 허명회, 고려대학교통계학과교수 E-mail: stat420@korea.ac.kr 2007.9.19 33
Concepts Multidimensional Unfolding ( 다차원전개 ) 정의 : 직사각형선호도 ( 거리 ) 자료에대한다차원척도법 (Multidimensional Scaling). 예 1 - 행이 n 명의평가자이고열은 p 개의평가대상 ( 오브젝트, object), 자료행렬 R의 (i,j) 칸이평가자 i가대상 j에부여한순위 (rank)/ 평점 (rating) 인경우 * 순위 : 1 = 첫번째로좋다, 2 = 두번째로좋다, * 5점척도 : 1 = 아주좋다,, 5 = 아주나쁘다예 2 - 행이 n 개의브랜드, 열은 p 개의평가속성 (attribute). 자료행렬 S의 (i,j) 칸은브랜드 i의속성 j를평가한결과 자료형태의확장 : 직사각형 직육면체 ( 브랜드 * 속성 * 평가자 ) 34
Concepts 다차원전개의개념 일차원의경우 A, B, C, D: 오브젝트 ( 평가대상 ) A B C D ----+------+----------+--------------+---- 선호순위 : B-A-C-D A B C D ----+------+----------+--------------+---- 선호순위 : D-C-B-A Folding ( 접기 ) vs Unfolding ( 펴기 ) 35
Concepts 다차원전개의개념 다차원은일차원의확장 : - 오브젝트들의좌표로부터평가자들의위치를정할수있고 - 역으로평가자들의자리매김후에오브젝트들의좌표를정할수있다. - 그리고는다시평가자들의위치를새로잡는다. - 반복을통해척도화와자리매김을개선한다. Idea: 접음 (folding) 으로써오브젝트들에대한선호도순위를알수있고 폄 (unfolding) 으로써오브젝트와평가자자리매김된다차원맵 (map) 이생성된다. 36
First Case 적용사례 아침식사선호도종합자료 breakfast_overall.sav ( 출처 : \spss\tutorial\sample_files) n = 42 명 p = 15 종 37
First Case 분석결과 157 회반복계산결과, Stress = 0.24 38
First Case 분석결과 [ 계속 ] Penalty Term: Strength = 0.5, Range = 1.0 ( 디폴트 ) 39
First Case 퇴화해 [Degenerate Solution] Penalty Term: Strength = 1.0, Range = 0.5 Penalty Term: Strength = 1.0, Range = 0.0 40
SPSS Dialog Box SPSS Multidimensional Unfolding [Version 15] SPSS 의 Analyze( 분석 ) Scale ( 척도화분석 ) Multidimensional Unfolding... ( 다차원확장 ) 41
SPSS Dialog Box SPSS Multidimensional Unfolding [Options] 42
Second Case 적용사례 아침식사시나리오별선호도자료 breakfast.sav ( 출처 : \spss\tutorial\sample_files) s = 6 (source) n = 42 명 p = 15 종 43
Second Case 분석결과 385 회반복계산결과, Stress = 0.35 44
SPSS Dialog Box SPSS Multidimensional Unfolding [Version 15] SPSS 의 Analyze( 분석 ) Scale ( 척도화분석 ) Multidimensional Unfolding... ( 다차원확장 ) 45
SPSS Dialog Box SPSS Multidimensional Unfolding [Model] 46
SPSS Dialog Box SPSS Multidimensional Unfolding [Plots] 47
Brand-Attribute Study Car-Attribute Data ( 자료 : car_attrib.sav) n = 10 브랜드, p = 6 속성 48
Brand-Attribute Study Car-Attribute Data ( 자료 : car_attrib.sav) PREFSCAL VARIABLES=luxury safe sporty family practical exciting /INITIAL=CLASSICAL (TRIANGLE) /CONDITION=MATRIX /TRANSFORMATION=ORDINAL (KEEPTIES) /PROXIMITIES=SIMILARITIES /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(0.5) OMEGA(1.0) /PRINT=MEASURES COMMON /PLOT=COMMON. 49
Brand-Attribute Study Car-Attribute Data ( 자료 : car_attrib.sav) Iteration 0 77 a. His tory of Iter at ions Penalized Stress Difference Stress Penalty.5128911.1628882 1.6149564.4270694.0000004 a.0999302 1.8251568 Difference in consecutive penalized Stress values less than the DIFFSTRESS criterion. 50
Summary Multidimensional Perceptual Map ( 다차원지각도 ) 기법들 - Multidimensional Unfolding [ 다차원전개 ] - Multidimensional Scaling [ 다차원척도화 ] - Correspondence Analysis [ 대응분석 ] - Principal Component Analysis [ 주성분분석 ] - Canonical Discriminant Analysis [ 정준판별분석 ] Ideal Point Model vs Vector Model 51
Q&A 허명회, 고려대학교통계학과교수 E-mail: stat420@korea.ac.kr 52