판별분석개념 Indvdual Drected Technque 측정변수 ( 항목 ) 에의한개체분류 분류되어있는집단간의차이를의미있게설명해줄수있는독립변수들을찾아내어 변수의선형결합으로판별식 (Dscrmnant functon) 을만들어낸다. 이판별식을이용하여분류하고자하는개체의집단을판별 데이터유형 집단변수 : 범주형혹은이진형 판별변수 : 측정형 ( 등간척도포함 ) 사례 SKT/KT/LGT 가입고객판별변수및판별함수유도 서비스이용불만고객성향분석 주성분점수나요인점수이용개체판별? 집단에따른주성분점수 (Y 반응에해당 ) 차이분석 집단성향 T- 검정 ( 이진형집단 ), 분산분석 (3 집단이상 ) 개체분류 군집분석 판별분석 Varable Drected Technques 변수축약 : 주성분점수 유사변수그룹 : 요인분석, 요인점수 이름 취업여부 어학능력 학점 봉사활동 Km X 550 3.5 12 months Lee X 600 3.2 6 m Park X 700 4.0 0 m Hong O 850 3.8 24 m 44
유사분석 군집분석 clusterng analyss ( 유사 ) 개체를분류 (groupng) ( 상이 ) 데이터에는집단을구별하는변수없음 개체의유사성 (smlarty) 에의해개체분류 회귀분석 Regresson analyss ( 유사 ) 집단변수가이진형혹은순서형 종속변수,Logstc Regresson 판별변수와회귀분석독립변수집단차이설명 ( 상이 ) 판별분석은집단이범주형인경우에도가능 집단을구별하는판별식유도 ( 집단분류 ), 회귀분석은연결함수이용선형모형화 ( 집단소속예측확률 )) 45
판별규칙 dscrmnant rule 판별함수 (dscrmnant functon) R=f(X1, X2,, Xp): 개체의집단을판별하는데사용되는판별변수의함수 판별함수집단이 2 개 (k=1 집단, 2 집단 ) 인경우, 판별변수 X1, X2,, Xp, Z: 판별점수, a 는판별계수 판별함수찾기 Z = a 1 X 1 + a 2 X 2 +... + a p X p 집단내분산에비해집단간분산의차이를최대화하는독립변수의함수를찾는다. 판별규칙 선형판별식 : 두집단의분산이같다는가정 ' ' b x 0 k > 0 b = ( μ μ ) Σ k = (1/ 2)( μ μ )' Σ ( μ μ ) 1 2 1 2 1 2 Mahalanobs 거리 : 두집단의분산이같다는가정 d = ( x0 μ )' Σ ( x0 μ ) 이차함수 : 집단의이분산가정, 선형에비해경계선에대한유연성 우도함수 : 판별변수의분포가정규분포가정을만족할때 SPSS에는선형판별식 ( 둥분산옵션선택 ) 만있음 판별함수개수 Mn( 집단개수-1, 판별변수개수 ) 데이터크기 관측치 ( 개체 ) 의개수 ( 데이터의크기, 표본크기 ) 가판별변수개수의 20 배이상, 집단의각범주에최소한 20 개관측치 위의조건을충족시키지못하면분석결과는불안정 ( 판별식을구성하는각독립변수와전체판별식의설명력과예측력을신뢰할수없다는의미 ) 해짐 46
오분류 msclassfcaton 오분류 판별함수신뢰정도평가하는데사용 오분류율 (msclassfcaton rato) ( 오분류개체수 )/ ( 전체개체수 ) * 100 정분류율 (=1- 오분류율 ): 회귀분석의결정계수 R 2 개념 분류집단원집단 집단 1 집단 2 오분류계산방법 Re-substtuton 규칙 모든개체사용하여판별식을구하고, 이를이용하여오분류비율계산 간편하나정분류율이과대추정가능 Cross-valdaton 방법 집단1 정분류오분류 가장많이사용 집단 2 오분류정분류 개체제외하고판별식을구하여제외한개체의집단을분류한다. 이작업을반복한다. 테스트데이터이용 데이터를이분하여, 한데이터는판별식 (60~70%) 추정, 다른데이터 (40~30%) 는오분류율계산에사용 가장정확한오분류계산, 어느정도대용량데이터확보필요 (data mnng 에서 ) 47
비용함수 비용함수 오분류에의한비용함수고려하여판별식선택 비용함수선택 Equal Cost functon ( 균등비용함수 ) Rato cost functon ( 비례비용함수 ) 비용함수고려모형복잡하므로 ECF 사용하여오분류표를얻은후비용을사후적고려하는것이편리 예제 환자마취여부판별 판별식 1 사용이적절 판별식1 마취가능 마취위험 마취가능 95 10 마취위험 5 90 SPSS 에는비용함수설정옵션없음 k * = 1/ 2( x 0 ' μ ) Σ ( x 0 μ ) ln( p * ) 판별식 2 마취가능마취위험 마취가능 90 5 마취위험 10 90 * p1c(2 1) p1 = p1c( 2 1) + p2c(1 2) * p2c(1 2) p2 = p1c( 2 1) + p2c(1 2) 48
판별변수선택 개념 판별을위해선택된변수가판별능력이있나? (logc) 집단을잘분류한다? 집단간판별변수의평균차이크다. ( 예제 ) ( 학점, 어학능력, 어학연수기간 ) 에따른취업집단판별 이유 parsmony 규칙 측정오류발생가능성이적고 새로운개체판별을위해측정해야하는변수수가적어효율적. 필요개념분산분석및공분산분석개념 분산분석에의해 F 값이가장큰판별변수선택 ( 예 : 어학능력 ) 선택된판별변수 ( 어학능력 ) 를공변량 (covarate) 으로하여공분산분석 (ANOCOVA) 으로 ( 학점, 연수기간 ) 을판별변수선택 공분산분석 : (1) 새로운교육방법이제안되었다. (2) 그룹학생들간에는차이가있을것을예상하여교육전수학시험을보았다. (3) 일정기간교육후수학능력시험을봐그성적의차이가있는지분석하였다. 교육후점수 (Y) 가그룹 ( 새교육 / 기존교육 ) 간차이가있는지알아보려면분산분석 (ANOVA) 실시. 그러나교육전이들의수학능력이고려되지않았다. 사전능력을제외해주는역할을하는것이교육전수학점수이고이를공변량이다. 이에적합한분석이공변량분석이다. 여전히주요관심은교육효과이고공변량에는관심이없다. Forward 방법 (1) 개체집단을설명변수 ( 요인 ) 로하고각측정변수를종속변수 ( 반응변수 ) 로하여분산분석 (ANOVA) 을실시한다. F- 값이가장큰변수를제일먼저선택한다. (2) 두번째변수선택은? 첫번째선택된변수를공변량 (covarate) 으로하고다른변수들을종속변수, 집단으로요인으로하여공분산분석 (ANCOVA) 시행하여그룹의 SS3 F-값이가장큰변수를선택한다. 세번째변수선택은처음선택된두개변수를공변량으로하여공분산분석실시하여가장유의한변수선택한다. Backward 방법 (1) 하나의변수를반응변수, 다른변수들은공변량, 그리고그룹을요인 ( 설명변수 ) 으로하여공분산분석을실시하여집단의 F- 값이가장낮은변수를제거한다. (2) 같은방법으로변수를하나씩제거해간다. 집단의 SS3의 F-값이모두유의하면 (p- 값이유의수준보다작으면 ) 제거를멈춘다. Stepwse 방법 Forward 방법과매우유사하다. 일단선택된변수들도다른변수가들어간상태에서유의성검정을하여새로운변수보다덜유의하면제거된다. 즉처음에는가장유의하였지만여러변수들이선택된상황에서는유의한정도가떨어질수있어 forward 방법결과와다를수있다. 49