Microsoft PowerPoint - MDA DA pptx

Similar documents
Microsoft PowerPoint - MDA DA pptx

자료의 이해 및 분석

Microsoft Word - SPSS_MDA_Ch6.doc

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

Microsoft PowerPoint - ANOVA pptx

G Power

PowerPoint 프레젠테이션

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할



슬라이드 1

Microsoft Word - SBE2012_anova.docx

제 4 장회귀분석

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

슬라이드 1

슬라이드 1

statistics

KJME-2003-h.hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

고객관계를 리드하는 서비스 리더십 전략


Microsoft PowerPoint - IPYYUIHNPGFU

선형모형_LM.pdf

Microsoft Word - sbe_anova.docx

PowerPoint 프레젠테이션

슬라이드 1

cat_data3.PDF

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

슬라이드 1

분산분석.pages

Microsoft Word - EDA_Univariate.docx

4 장주성분분석 ( PCA: Principal Component Analysis) 예 1 ) 바지구입 - 우리몸의치수모두를알아야하는가? - 변수 : 허리둘레, 기장, 엉덩이둘레, 허벅지둘레, 무릎높이 - 허리둘레, 기장두변수면충분 ( 이것이주성분분석의개념 ) 즉, 원변



<4D F736F F F696E74202D20BBF3B0FCBAD0BCAE5FC0CCB7D0B0ADC0C72E BC0D0B1E220C0FCBFEB5D>

자료분석론 - 국민건강영양조사 분석

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

시스템경영과 구조방정식모형분석

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

<BEE7C0FBBFACB1B820B0ADC1C2BCD2B0B32E687770>

표본재추출(resampling) 방법

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

Resampling Methods

Microsoft Word - Chapter9.doc

Microsoft Word - sbe13_anova.docx

nonpara6.PDF

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

R t-..

<4D F736F F F696E74202D EBCADBAF1BDBABDC3BCB3C0C720C0D4C1F6BCB1C1A4205BC8A3C8AF20B8F0B5E55D>

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

01

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

<B0E6B7CEBAD0BCAE2E687770>

비교적기초통계분석방법으로분류될수있습니다. 그러나집단간평균차검증에대한분석방법인분산분석에대한이해는다양한변수들간의관계를분석하는구조방정식 (SEM: Structural Equation Modeling), 회귀분석을기본으로하는다층모형 (HLM: Hierarchical Linea


농림수산식품 연구개발사업 운영규정

한국정책학회학회보

가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차

Microsoft Word - skku_TS2.docx

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

[2016년조사대상 (19곳)] 대림산업, 대한항공, 동부화재해상, ( 주 ) 두산, 롯데쇼핑, 부영주택, 삼성전자, CJ제일제당, 아시아나항공, LS니꼬동제련, LG이노텍, OCI, 이마트, GS칼텍스, KT, 포스코, 한화생명보험, 현대자동차, SK이노베이션 [ 표

빅데이터_DAY key

자료의 이해 및 분석

hwp

e01.PDF

Microsoft PowerPoint - LM 2014s_Ch4.pptx

CHU 통계교육 Workshop (DAY 7. MDA 군집분석 ) 1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (simila

Microsoft PowerPoint - Info R(3) pptx

11.indd

4 _ 한국지역정보화학회기획세미나발표논문집

슬라이드 1

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

1-1) 아직까지도우리나라는 resilience' 이라는용어가적응유연성 ( 권태철, 2002; 김미승, 2002; 박현선, 1998, 1999a, 1999b; 양국선, 2001; 유성경, 2000; 이선아, 2004; 윤미경, 2002; 조혜정, 2002; 장순정, 2

정치사적

PowerPoint 프레젠테이션

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

<4D F736F F F696E74202D2035BBF3C6F2C7FC5FBCF8BCF6B9B0C1FA2E BC8A3C8AF20B8F0B5E55D>

<C5F0B0E8C7D0B0FA20C7D1B1B9B9AEC8AD20C1A63435C8A328C3D6C1BE292E687770>

MATLAB for C/C++ Programmers

슬라이드 1

낙랑군

- 1 -

제1장 마을유래 605 촌, 천방, 큰동네, 건너각단과 같은 자연부락을 합하여 마을명을 북송리(北松里)라 하 였다. 2006년에 천연기념물 468호로 지정되었다. 큰마을 마을에 있던 이득강 군수와 지홍관 군수의 선정비는 1990년대 중반 영일민속박물 관으로 옮겼다. 건

PowerPoint 프레젠테이션

248019_ALIS0052.hwp

2018 학년도대학수학능력시험문제지 1 제 2 교시 홀수형 5 지선다형 1. 두벡터, 모든성분의합은? [2 점 ] 에대하여벡터 의 3. 좌표공간의두점 A, B 에대하여선분 AB 를 으로내분하는점의좌표가 이다. 의값은? [2점] ln

임정연 이영민 1) 주저자, 숙명여자대학교인력개발정책학박사과정, 2) 교신저자, 숙명여자대학교여성 HRD 대학원부교수,

농어촌여름휴가페스티벌(1-112)

통계자료분석강희모 2013 년 11 월 29 일

???? 1

22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를

(001~006)개념RPM3-2(부속)

KMC.xlsm

Transcription:

판별분석개념 Indvdual Drected Technque 측정변수 ( 항목 ) 에의한개체분류 분류되어있는집단간의차이를의미있게설명해줄수있는독립변수들을찾아내어 변수의선형결합으로판별식 (Dscrmnant functon) 을만들어낸다. 이판별식을이용하여분류하고자하는개체의집단을판별 데이터유형 집단변수 : 범주형혹은이진형 판별변수 : 측정형 ( 등간척도포함 ) 사례 SKT/KT/LGT 가입고객판별변수및판별함수유도 서비스이용불만고객성향분석 주성분점수나요인점수이용개체판별? 집단에따른주성분점수 (Y 반응에해당 ) 차이분석 집단성향 T- 검정 ( 이진형집단 ), 분산분석 (3 집단이상 ) 개체분류 군집분석 판별분석 Varable Drected Technques 변수축약 : 주성분점수 유사변수그룹 : 요인분석, 요인점수 이름 취업여부 어학능력 학점 봉사활동 Km X 550 3.5 12 months Lee X 600 3.2 6 m Park X 700 4.0 0 m Hong O 850 3.8 24 m 44

유사분석 군집분석 clusterng analyss ( 유사 ) 개체를분류 (groupng) ( 상이 ) 데이터에는집단을구별하는변수없음 개체의유사성 (smlarty) 에의해개체분류 회귀분석 Regresson analyss ( 유사 ) 집단변수가이진형혹은순서형 종속변수,Logstc Regresson 판별변수와회귀분석독립변수집단차이설명 ( 상이 ) 판별분석은집단이범주형인경우에도가능 집단을구별하는판별식유도 ( 집단분류 ), 회귀분석은연결함수이용선형모형화 ( 집단소속예측확률 )) 45

판별규칙 dscrmnant rule 판별함수 (dscrmnant functon) R=f(X1, X2,, Xp): 개체의집단을판별하는데사용되는판별변수의함수 판별함수집단이 2 개 (k=1 집단, 2 집단 ) 인경우, 판별변수 X1, X2,, Xp, Z: 판별점수, a 는판별계수 판별함수찾기 Z = a 1 X 1 + a 2 X 2 +... + a p X p 집단내분산에비해집단간분산의차이를최대화하는독립변수의함수를찾는다. 판별규칙 선형판별식 : 두집단의분산이같다는가정 ' ' b x 0 k > 0 b = ( μ μ ) Σ k = (1/ 2)( μ μ )' Σ ( μ μ ) 1 2 1 2 1 2 Mahalanobs 거리 : 두집단의분산이같다는가정 d = ( x0 μ )' Σ ( x0 μ ) 이차함수 : 집단의이분산가정, 선형에비해경계선에대한유연성 우도함수 : 판별변수의분포가정규분포가정을만족할때 SPSS에는선형판별식 ( 둥분산옵션선택 ) 만있음 판별함수개수 Mn( 집단개수-1, 판별변수개수 ) 데이터크기 관측치 ( 개체 ) 의개수 ( 데이터의크기, 표본크기 ) 가판별변수개수의 20 배이상, 집단의각범주에최소한 20 개관측치 위의조건을충족시키지못하면분석결과는불안정 ( 판별식을구성하는각독립변수와전체판별식의설명력과예측력을신뢰할수없다는의미 ) 해짐 46

오분류 msclassfcaton 오분류 판별함수신뢰정도평가하는데사용 오분류율 (msclassfcaton rato) ( 오분류개체수 )/ ( 전체개체수 ) * 100 정분류율 (=1- 오분류율 ): 회귀분석의결정계수 R 2 개념 분류집단원집단 집단 1 집단 2 오분류계산방법 Re-substtuton 규칙 모든개체사용하여판별식을구하고, 이를이용하여오분류비율계산 간편하나정분류율이과대추정가능 Cross-valdaton 방법 집단1 정분류오분류 가장많이사용 집단 2 오분류정분류 개체제외하고판별식을구하여제외한개체의집단을분류한다. 이작업을반복한다. 테스트데이터이용 데이터를이분하여, 한데이터는판별식 (60~70%) 추정, 다른데이터 (40~30%) 는오분류율계산에사용 가장정확한오분류계산, 어느정도대용량데이터확보필요 (data mnng 에서 ) 47

비용함수 비용함수 오분류에의한비용함수고려하여판별식선택 비용함수선택 Equal Cost functon ( 균등비용함수 ) Rato cost functon ( 비례비용함수 ) 비용함수고려모형복잡하므로 ECF 사용하여오분류표를얻은후비용을사후적고려하는것이편리 예제 환자마취여부판별 판별식 1 사용이적절 판별식1 마취가능 마취위험 마취가능 95 10 마취위험 5 90 SPSS 에는비용함수설정옵션없음 k * = 1/ 2( x 0 ' μ ) Σ ( x 0 μ ) ln( p * ) 판별식 2 마취가능마취위험 마취가능 90 5 마취위험 10 90 * p1c(2 1) p1 = p1c( 2 1) + p2c(1 2) * p2c(1 2) p2 = p1c( 2 1) + p2c(1 2) 48

판별변수선택 개념 판별을위해선택된변수가판별능력이있나? (logc) 집단을잘분류한다? 집단간판별변수의평균차이크다. ( 예제 ) ( 학점, 어학능력, 어학연수기간 ) 에따른취업집단판별 이유 parsmony 규칙 측정오류발생가능성이적고 새로운개체판별을위해측정해야하는변수수가적어효율적. 필요개념분산분석및공분산분석개념 분산분석에의해 F 값이가장큰판별변수선택 ( 예 : 어학능력 ) 선택된판별변수 ( 어학능력 ) 를공변량 (covarate) 으로하여공분산분석 (ANOCOVA) 으로 ( 학점, 연수기간 ) 을판별변수선택 공분산분석 : (1) 새로운교육방법이제안되었다. (2) 그룹학생들간에는차이가있을것을예상하여교육전수학시험을보았다. (3) 일정기간교육후수학능력시험을봐그성적의차이가있는지분석하였다. 교육후점수 (Y) 가그룹 ( 새교육 / 기존교육 ) 간차이가있는지알아보려면분산분석 (ANOVA) 실시. 그러나교육전이들의수학능력이고려되지않았다. 사전능력을제외해주는역할을하는것이교육전수학점수이고이를공변량이다. 이에적합한분석이공변량분석이다. 여전히주요관심은교육효과이고공변량에는관심이없다. Forward 방법 (1) 개체집단을설명변수 ( 요인 ) 로하고각측정변수를종속변수 ( 반응변수 ) 로하여분산분석 (ANOVA) 을실시한다. F- 값이가장큰변수를제일먼저선택한다. (2) 두번째변수선택은? 첫번째선택된변수를공변량 (covarate) 으로하고다른변수들을종속변수, 집단으로요인으로하여공분산분석 (ANCOVA) 시행하여그룹의 SS3 F-값이가장큰변수를선택한다. 세번째변수선택은처음선택된두개변수를공변량으로하여공분산분석실시하여가장유의한변수선택한다. Backward 방법 (1) 하나의변수를반응변수, 다른변수들은공변량, 그리고그룹을요인 ( 설명변수 ) 으로하여공분산분석을실시하여집단의 F- 값이가장낮은변수를제거한다. (2) 같은방법으로변수를하나씩제거해간다. 집단의 SS3의 F-값이모두유의하면 (p- 값이유의수준보다작으면 ) 제거를멈춘다. Stepwse 방법 Forward 방법과매우유사하다. 일단선택된변수들도다른변수가들어간상태에서유의성검정을하여새로운변수보다덜유의하면제거된다. 즉처음에는가장유의하였지만여러변수들이선택된상황에서는유의한정도가떨어질수있어 forward 방법결과와다를수있다. 49