SPSS 2 집단 ( 데이터및준비 ) 데이터 TURKEY.SAV 미국 Kansas 주립대학 Dr. Michael Finnegan 교수는야생칠면조와사육칠면조를구별하기위하여수컷칠면조 82마리에대해 9개항목을조사하였다. ID: 칠면조 id HUM: 상완골길이 ULN: 척골길이 CAR: car metacarus 길이 COR: 오탁상길이 RAD: 요골길이 FEMUR: 대퇴골길이 TIN: 경골길이 SCA: 견갑골길이 D3P: 지골까지길이 TYPE: 칠면조종류야생 (WILD), 사육 (DOMESTIC) 판별변수모두사용 9 개판별변수측정치가모두있는개체만사용된다. 집단변수가문자열이면판별분석사용 50
SPSS 2 집단 ( 판별분석메뉴 ) 메뉴선택 모두진입옵션 : 전체사용 변수선택을하려면단계선택옵션설정 Fisher 방법을사용하자 표본의크기로사전확률적당 일반적으로표본비율은모집단의비율과동일하게하자. 개별 - 집단옵션을사용하는것이적절하다. 요약표는오분류결과출력 저장통계량 5
SPSS 2 집단 ( 판별분석결과 ) 사전확률 오분류결과 Fisher 선형계수 ( 결과제시의미없음 ) 오분류비율은 9.% 이다. (33 개개체사용 ) 분류집단과판별점수 얻는판별식에의해 개체 43 의판별점수 -2., 집단 (domestic) 소속확률은 0.999 이고집단 2 는 0.00 이다. 그러므로 domestic 으로분류 개체 45 의판별점수 0.247, 집단 (domestic) 소속확률은 0.499 이고집단 2 는 0.50 이다. 그러므로 wild 으로분류 52
SPSS 2 집단 ( 변수선택 ) 선택방법설정 진입및제거유의확률설정 방법은 Wilk 람다사용 오분류결과 9.8% 오분류 (42 개개체사용 ) Parsimony 법칙에의해 2 개판별변수만사용하는것이적절 저장결과일부 (Dis_2 는판별변수 2 개만사용한경우 ) 2 개변수진입 53
SPSS 2 집단 ( 판별내용보기 ) 분류집단의판별변수평균차이검정 Tin, Rad 만유의한판별변수 나머지는 2 개는비교를위하여 판별변수에의한집단그래프표현 2 개이상이면주성분변수활용 65.00 분석용예측집단 DOMESTIC WILD 60.00 55.00 50.00 Tin 45.00 40.00 35.00 30.00 26.00 29.00 32.00 35.00 Rad 38.00 4.00 44.00 54
SPSS 2 집단 ( 새로운개체분류 ) 새로운칠면조에 2마리왔는데야생칠면조인지사육칠면조인지알수없어판별하고자한다. 두마리의 (HUM, ULN) 을측정하였더니다음과같았다. (Tin, Rad) = (40, 50) (Tin, Rad) = (30, 40) 데이터마지막열에입력하고최종판별분석시행 (Tin, Rad) = (40, 50) 는 wild 로 (Tin, Rad) = (30, 40) 는 domestic 으로분류되었다. 55
Logistic 판별분석 개념 종속변수가이진형 (binary) 이거나순서형 (ordinal) 인경우사용되는회귀분석 종속변수 Binary: Logit 모형 종속변수측정치 Y i =0( 실패 ), ( 성공 ) =P(Y i =) y = f α +.. + β x + e i ( x) = + βxi + β 2 x2i ODDS ratio( 오즈비 )=/(-) ) Ln(odds) 를종속변수로사용하여일반회귀분석실시 Pr( Y = x) == i + e 회귀계수 B의의미 회귀계수의부호는성공확률 () 증감과일치 i i 장점 판별변수에대한유의성검정편리 판별에영향정도비교가능 판별변수로지시변수사용가능 종속변수 Ordinal: Logistic 모형 k 는종속변수집단최대값, 0,, 2,, k log it ( l( = β + β ) = ln( ) 0 X + 2 logit( β β + 2) = ln( ) = 0 + X y i 2 i = ln( ) = α + βx i + β2x2i +.. + β xi + ei i L + 2 +... + 2 = logit( = β + β X { α + βxi + β2x2i +.. + β x i } + 2 +... + 2) = ln( ) 0 ( + +... + ) EXP( 회귀계수 ) 는설명변수가한단위증가할때 odds ratio 에미치는영향 (multilication) 이된다. i i = ( e )( e ) ˆ xi α ˆ β ˆ β L( e ) x i 2 2 56
SPSS 2 집단 ( 로지스틱회귀분석 ) 변수선택하여유의한변수만사용하자. 전진 (forward) 범주형옵션에는분류형판별변수를지정할수있다. 소속집단및확률, 이상치와영향치판단 극단적인오분류개체와일치 57
SPSS 활용 ( 로지스틱회귀분석, 결과 ) P(Y=wild) 에대한예측. 판별유의변수 Tin, Fem B ( 회귀계수추정치 ) Tin 값이커지면 wild 칠면조가능성높음 Fem 값이커지면 domestic 일가능성높음 오즈비영향 TIN: Domestic 대비 Wild 에속할가능성이 29 배 FEM: Wild 대비 Domestic 에속할가능성이 4 배 오분류 3% 에불과 이상치나영향치 극단적인오분류결과와일치, 제거보다는이유찾기 개체표현및새로운개체분류 판별분석과동일한방법으로 Pr( Y = wild) == + e { 304+ 3.39Tin+.39Fem} 58
다른판별분석 정준 Cannonical 판별분석 Fisher에의해제안된방법으로 Fisher s between-within met hod라고불리는방법이다. 판별변수들의유용한정보를모두를포함한정준 (Canonical) 변수를이용하여판별분석을실시한다. 판별변수들의수가 () 너무많아판별결과에대한해석이곤란한경우 -차원공간에서의개체들의집단평균들을저차원공간으로변환시켜처리하는판별분석방법이다. 개체분류가목적이아니라개체분류해석을위해저차원 (BOX-PLOT이나산점도 ) 으로표현하는데있으므로엄밀히말하면판별분석은아니다. 새로운변수 ( 정준변수 ) 에대한해석이가능하든아니든집단들사이의실제거리를저차원으로축소하여시각화할수있다는장점이있다. 차원을줄인다는의미에서보면주성분분석과유사해보이지만계산방법은전혀다르다. 집단 Between and Within 변동을계산하여 B/(B+W) 최대화하는선형계수선택하여정분변수를만든다. K Nearest Neighbor 판별분석 모집단이정규분포를따르지않는경우사용하는비모수판별분석방법 () 분류하려는개체와 Mahalanobis 거리가가장가까운개체를구하고그개체가속한집단으로분류한다. (2) 만약거리가같은개체가 2 개인경우동일집단이면그집단에분류한다. (3)2개이면서그개체의집단이동일하지않으면그다음가까운개체의집단을조사하여 3개의개체중많이속한집단으로분류한다. 여기서 k nearest neighbor 의미는 Mahalanobis 거리가가장가까운개체 k개를고려하여그 k개개체의군집중가장많은수를차지하는군집에분류하게된다. 다음프로그램거리가가장가까운 3개의개체들의집단을조사하여가장많은집단으로분류하는방법이다. 새로운접근방법 판별변수 ( 측정변수 ) 가이산형, 순서형분류형, Binary인경우사용되는 Classification Trees 방법이있다. Breiman, Friedman, Olshen, Stone (984) 제안한방법으로그들의책제목은 CART(Classification And Regression Trees) 라고되어있다. 비슷한방법으로 J. A. Hartigan이개발한 CHAID(Chisquare Automatic Interaction Detector) 가있다. 이방법은현재 Data Mining i 기법으로가장많이이용되고있다. SPSS에는 ANSWER tree TOOL에속해있다. 59