4 장주성분분석 ( PCA: Prnca Comonnt Anayss) 예 ) 바지구입 - 우리몸의치수모두를알아야하는가? - 변수 : 허리둘레, 기장, 엉덩이둘레, 허벅지둘레, 무릎높이 - 허리둘레, 기장두변수면충분 ( 이것이주성분분석의개념 ) 즉, 원변수에의해주성분변수를구하고일부주성분에의해원변수의변동을충분히설명되는지알아보는것을주성분분석이라한다. 예 ) 주성분개념 : 차원의축약 어느곳에서바라보면희생되는정보가가장적은가? 즉, 주성분분석은원변수의정보 ( 나무위치 ; 실제분석에서는변동 ) 을가장잘표현할수있는시점 ( 주성분변수 ) 를얻는과정이다. ) 주성분분석은 분산을최대 로하는방향 ( 변량 ) 을찾아그로부터데이터를축약하여데이터의개개정보를보다보기쉽게표현해주는분석. ) 데이터간상관관계로인한정보손실의최소화 -> 데이터의분산의최대화 3) 주성분분석은 ( 3) 개의원변수를 m 개 ( 일반적 3 개이하 ) 로줄이기위해 () 원변수의선형결합으로주성분변수를구하고, () 선형계수 ( 부하 ) 값의크기를활용적절한주성분변수이름부여하는데목적이있다. ( 변수축약후, 일반적으로손실정도는 0% 이다 )
4. 맛보기 - 예제 ( 7) 9 명의학생, 몸무게 (ound), IQ ) 두변수로부터공분산행렬을구해보면 IQ 변동은미미하고몸무게변동이대부분차지
4. 맛보기 4.. 예제 ( 7) 9 명의학생, 몸무게 (ound), IQ ) 두변수로부터공분산행렬을구해보면 IQ 변동은미미하고몸무게변동이대부분차지 ) 주성분변수 원변수의선형결합 3) 제일주성분이원변수의변동을가장많이설명 : 원변수공분산행렬 ( 상관계수행렬 ) 이시작단계 주성분의원변수설명력 고유치 : 58.695,.848 선형계수 : 고유벡터 (Prn) 주성분 0.99996* 몸무게 + 0.0094*IQ 주성분 -0.0094* 몸무게 + 0.99996*IQ (Prn) ˆ 58 4.7 S Σ 4.7. Y Wght + IQ Y Wght + IQ 4.. 주성분분석활용 ( 페이지 7): 주성분분석은중간단계이다. 즉, 데이터축약을통한개체분류나변수구조탐색도구 ) 데이터스크린 변수가많을때일반적줄기잎그림, 산점도등으로한계가있으므로주성분분석에의해 Data 를저차원축소 > 개체특성및이상치탐지 ) 군집 다변량인경우군집을나누기어려움 -> 원데이터의저차원축소 ( 주성분북석활용 ) > 주성분변수에의해군집개체분류혹은해석 3) 판별분석 주성분분석에의한주성분변수사용 ( 축약변수 ) 에의해판별분석을함 4) 회귀분석에서다중분석시다중공선성문제 문제되는설명변수제외 주성분변수를설명변수로하는회귀분석실시 - 주성분변수의의미가명확하게해석되지않으면회귀분석결과해석이어려움
주성분분석 ( PCA) 주성분기여율 ) 주성분변수의원변수총변동울설명하는정도 ) 원변수의총변동은 각주성분의설명력의합은원변수총변동과동일하다. 따라서, 주성분기여율은총변동중각주성분의설명력 3) 주성분기여율 V( x ) ˆ σ s V ( x ) V ( x 주성분구하기 제 주성분 (frst rnca comonnt) a ' a 을만족하는벡터중 V ( a' )) 을최대화하는 ( x µ 벡터을선형계수로하여구해진합성변수. a ) λ λ 제 주성분 (scond PC) ' ' a 을만족하는벡터중을 a 0, a a V ( a' ( x µ )) 최대화하는벡터를선형계수로하여계산한합성변수. a 공분산행렬 (S) 로부터얻어진고유치 λ에대응하는 ' ' 고유벡터 중, 을만족하는고유벡터 ' ' 0 이와같은방법으로순차적으로구한다. 주성분부하벡터 주성분을만들때사용되는원변수의선형계수 주성분이름부여에사용. 주의사항 원변수단위는유사해야함. ( 아님, 상관계수행렬사용 ) 부하의크기비교는주성분내에서만가능. ( 주성분간성분부하값비교는의미없다 ) y ' a ( x µ ) 공분산행렬 (S) 로부터얻어진고유치 λ 에대응하는고유벡터 중 ' 을만족하는고유벡터 ' '
주성분분석 ( PCA) (corraton 상관계수행렬 matrx, R) 사용 ( 페이지 80) 원변수의측정단위가상이한경우 : 주성분계산시단위크기가큰원변수의영향 ( 분산이크므로 ) 이크다. 문제해결을위하여상관계수행렬사용하여고유치, 고유벡터를구한다. 주성분구하는절차는공분산행렬과동일하다. 주성분점수 주성분변수는계산식을실제데이터에의해계산된값을주성분점수 (scor) 라한다. k 번째개체의 j 번째주성분점수계산식은다음과같다. 선형계수에의해각주성분점수계산 좌표에표현하여이상치발견, 주성분변수간관계파악 주성분성질 ) 주성분의변동은고유치와같고, 변동의크기는제일, 제이, 순이다. ) 주성분변수는서로독립이다. 3) 주성분변수의변동합은원변수변동합과동일하다. 주성분계수시각적표현 주성분변수 ( 점수 ) 이름부여에도움 실제계수값을보고도판단할수있으나시각적표현으로인하여손쉽게이름부여가능 x x x x x x y y y............ ˆ r r r r r r R Y Var λ Σ ' ) ( k for Y Y Cov k k Σ 0, ), ( ' X V Y V ) ( ) ( λ
주성분분석 ( PCA) 주성분개수결정 80% ru ( 공분산행렬사용시 ) 고유치 이상 ( 상관계수행렬사용시 ) 총변동설명비율 λ λ 0.7 + + 0.9 tr( S) tr( S) 일반적으로총변동의약 80% 설명가능하면사용. Scr 도표이용 ( 페이지 80) Y축고유치, x 축을주성분순차번호산점도 고유치가감소경향을시각적으로표현 급격히감소하는곳에서주성분개수결정 (bow) 시각적표현, 실제로는 80% 규칙이용 - 예제 (P8) 변수가 개인경우 (PCA_xam) 데이터코딩 공분산행렬
주성분 ( 계수 ) 구하기 - 예제에서.. 고유치와고유벡터 원변수관측치와주성분점수의산점도 주성분점수
acant.txt 파일 acant.txt 파일 (3 장 58)- 회사 48 명지원, 6 명선발, 5 개변수
acant.txt 파일 적절한주성분수 4 개 (P86)
acant.txt 파일 이하중략
4. 7 ( P9) 주성분분석 ( PCA) 4 개의주성분해석 주성분이름붙이기 공분산행렬 or 상관행렬로부터고유치, 고유벡터계산 고유벡터를계수로하여주성분점수계산. 주성분부하 ( 선형계수 ) 를이용하여이름부여 예제 지원자예제에서.. 제 주성분의계수의크기에의해.. - LC, SM, DR, AM, GC, PO 의부하량이크므로 > 정신적 & 지적능력 제 주성분 : 경험주성분 제 3 주성분 : 심성변수 제 4 주성분 : 학교성적 이제 3 장의가중치문제와비교? SPSS 에서는?
48 명지원자문제로부터 6 명선발방법 4 가지 (3,4 장연계 ) 3.3 상관계수를이용한변수분류 (3 장 )- 비교 3.. 문제제기 (APPLICANT.TXT) 지원자 48 명중우수지원자 6 명을선발하고자 5 개항목에대해평가 - 자료를 SAS 로불러옴. ID( 지원자번호 ). Lttr( 이력서 X) 3. Aaranc( 외모 X) 4. Acadmc Abaty( 학교성적 X3) 5. Lkabty( 친밀감 X4) 6. Sf-Confdnc( 자신감 x5) 7. Lucdty( 명석 x6) 8. Honst ( 진실 x7) 9. Sasmansh( 마케팅능력 x8)... 6. Sutabty( 업무적합성 X5) 5 개변수 3.3. 산술평균 () AVG(X+X+ +X4+X5)/5 위점수를계산평균이가장높은사람 6 명선발 모든측정항목들이동일한가중치 (/5) 로반영 유사한능력을측정하는항목 이분야점수가높은지원자가선발되는문제점 3.3.3 가중평균 () Avg(wX+wX+ +w4x4+w5x5) whr w 주관적인가중치는분석자의경험을바탕으로설정
3.3.4 상관계수이용 ( 가중치 ) 방법 (3장)-비교객관적인방법을이용 ) * 상관관계가높음 유사개념을측정 변수를분류 가중치를설정 상관계수크기만으로분류 3) 위그룹에의해다음의가중평균을구해최종점수를계산 6 명을선발할수있다.. 가중평균 AVG w [(X5+ +X3)/7+(X+X9+X5)/3+ +X+X3] /5 ) 위상관계수의크기에의해다음이분류되었다. 즉, 대략적으로그룹 은 r>0.7 인변수들이다 4) 변수가많은경우 - 요인분석, 주성분분석을활용- 다음장에서설명 Grou Grou Grou3 Grou4 Grou5 X5,X6,X8,X0,X,X,X3 X,X9,X5 X4,X7,X4 X X3 < 다음표는 5 개변수들에의한상관계수결과이다.>
. (3 장 58-59, 산술평균에의한 6 명선별 ) (58-59, 프로그램 ) data a; nf 'C:\Documnts and Sttngs\sw\ 바탕화면 \ 다변량분석 \sas 화일 \chatr3_data\chatr3 data\acant.txt' frstobs ; nut ID X-X5; avgman(of x-x5); run; roc sort dataa out out; by dscndng avg; run; roc rnt dataout; var avg d x-x5; run; 0 년 09 월 3 일금요일오후 0 시 9 분 06 초 ( 최종선발 ID) OBS avg ID X X X3 X4 X5 X6 X7 X8 X9 X0 X X X3 X4 X5 9.60000 40 0 6 9 0 9 0 0 0 0 0 0 0 0 0 0 9.46667 39 0 6 9 0 9 0 0 0 0 0 8 0 0 0 0 3 9.00000 8 9 9 9 8 9 9 8 8 0 9 0 9 9 9 0 4 8.60000 7 9 9 8 8 8 8 8 8 0 8 0 8 9 8 0 5 8.60000 3 7 0 7 9 9 9 0 0 3 9 9 0 9 0 8 6 8.53333 9 8 7 8 9 0 0 0 3 0 8 0 8 0 8 7 8.46667 9 0 5 8 0 9 9 0 5 9 9 8 8 8 0 8 8.40000 4 9 8 7 0 8 0 0 0 9 7 9 9 0 8 9 8.3333 9 9 9 7 8 8 8 8 5 9 8 9 8 8 8 0 0 7.66667 0 4 7 0 0 0 7 0 3 0 0 0 9 3 0 7.66667 6 6 9 6 7 8 9 8 9 8 8 7 6 8 6 0 7.40000 3 7 8 3 6 9 8 9 7 4 9 9 8 6 8 0 3 7.40000 4 4 7 7 7 6 9 8 8 6 8 8 0 8 8 6 5 4 7.0000 4 7 0 4 0 0 7 8 8 8 0 0 3 7 5 7.0000 0 4 8 7 8 8 9 0 5 6 7 9 8 8 9 6 7.00000 7 8 7 7 7 9 5 8 6 6 7 8 6 6 7 8 7 7.00000 4 6 9 8 0 0 7 9 0 3 5 7 9 9 4
. (3 장 59, 가중평균에의한 6 명선별 A 회사마케팅분야 배가중치 : X, X4, X7, X8, X9 ) - 회사관계자의직관에의한가중치 data a; nf ' C:\Documnts and Sttngs\sw\ 바탕화면 \ 다변량분석 \sas 화일 \chatr3_data\chat r3 data\acant.txt' frstobs ; nut ID X-X5; wght(x+*x+x3+*x4+x5+x6+*x7+*x8+* x9+x0+x+x+x3+x4+x5)/0 run roc sort dataa out out; by dscndng wght; run roc rnt dataout; var wght d x-x5; run; SAS 시스템 0 년 09 월 3 일금요일오후 0 시 9 분 06 초 ( 최종선발 ID) OBS avg ID X X X3 X4 X5 X6 X7 X8 X9 X0 X X X3 X4 X5 9.60000 40 0 6 9 0 9 0 0 0 0 0 0 0 0 0 0 9.46667 39 0 6 9 0 9 0 0 0 0 0 8 0 0 0 0 3 9.00000 8 9 9 9 8 9 9 8 8 0 9 0 9 9 9 0 4 8.60000 7 9 9 8 8 8 8 8 8 0 8 0 8 9 8 0 5 8.60000 3 7 0 7 9 9 9 0 0 3 9 9 0 9 0 8 6 8.53333 9 8 7 8 9 0 0 0 3 0 8 0 8 0 8 7 8.46667 9 0 5 8 0 9 9 0 5 9 9 8 8 8 0 8 8.40000 4 9 8 7 0 8 0 0 0 9 7 9 9 0 8 9 8.3333 9 9 9 7 8 8 8 8 5 9 8 9 8 8 8 0 0 7.66667 0 4 7 0 0 0 7 0 3 0 0 0 9 3 0 7.66667 6 6 9 6 7 8 9 8 9 8 8 7 6 8 6 0 7.40000 3 7 8 3 6 9 8 9 7 4 9 9 8 6 8 0 3 7.40000 44 7 7 7 6 9 8 8 6 8 8 0 8 8 6 5 4 7.0000 4 7 0 4 0 0 7 8 8 8 0 0 3 7 5 7.0000 0 4 8 7 8 8 9 0 5 6 7 9 8 8 9 6 7.00000 7 8 7 7 7 9 5 8 6 6 7 8 6 6 7 8 7 7.00000 46 9 8 0 0 7 9 0 3 5 7 9 9 4 4
3. P60 통계학상관계수그룹화 (5 그룹 ) 에의한 6 명선발 data a; nf ' C:\Documnts and Sttngs\sw\ 바탕화면 \ 다변량분석 \sas 화일 \chatr3_data\chat r3 data\acant.txt' frstobs ; nut ID X-X5; Aw ((X5+X6+X8+X0+X+X+X3)/7+(X+X9+X 5)/3 +(X4+X7+X4)/3+X+X3) /5; run; roc sort dataa out out; by dscndng Aw; run; roc rnt dataout; var Aw d x-x5; run; 0 년 09 월 7 일화요일오후 0 시 44 분 46 초 OBS Aw ID X X X3 X4 X5 X6 X7 X8 X9 X0 X X X3 X4 X5 9.00000 8 9 9 9 8 9 9 8 8 0 9 0 9 9 9 0 8.9743 40 0 6 9 0 9 0 0 0 0 0 0 0 0 0 0 3 8.949 39 0 6 9 0 9 0 0 0 0 0 8 0 0 0 0 4 8.6905 7 9 9 8 8 8 8 8 8 0 8 0 8 9 8 0 5 8.39048 3 7 0 7 9 9 9 0 0 3 9 9 0 9 0 8 6 8.095 9 9 9 7 8 8 8 8 5 9 8 9 8 8 8 0 7 8.06667 9 0 5 8 0 9 9 0 5 9 9 8 8 8 0 8 8.0574 9 8 7 8 9 0 0 0 3 0 8 0 8 0 8 9 8.0380 4 9 8 7 0 8 0 0 0 9 7 9 9 0 8 0 7.5743 6 6 9 6 7 8 9 8 9 8 8 7 6 8 6 0 7.53333 46 9 8 0 0 7 9 0 3 5 7 9 9 4 4 7.349 5 6 8 8 8 4 4 9 5 8 5 5 8 8 7 7 3 7.30476 0 4 7 0 0 0 7 0 3 0 0 0 9 3 0 4 7.905 0 4 8 7 8 8 9 0 5 6 7 9 8 8 9 5 7.095 3 6 9 8 0 5 4 9 4 4 4 5 4 7 6 8 6 7.0954 44 7 7 7 6 9 8 8 6 8 8 0 8 8 6 5 7 7.0769 7 8 7 7 7 9 5 8 6 6 7 8 6 6 7 8 8 7.0476 4 8 9 8 9 6 3 8 5 6 6 7 5 6 9 7.0857 4 7 0 4 0 0 7 8 8 8 0 0 3 7 0 7.0905 6 7 7 7 6 8 7 0 5 9 6 5 8 6 6 6
4. 주성분분석에의한 ( 최종 6 명선발 )-P93 페이지에서계속 data rsut; /* 제 4 주성분으로종합점수산출하기 */ st scor; totarn+rn+rn3+rn4; k d rn--rn4 tota; run; 종합점수순위에따른배열 ( 최종 6 명선발 : 39, 40, 8, 7, 9, 5) roc sort datarsut; /* 종합점수내림차순정렬을위한 sortng*/ by dscndng tota ; run; roc rnt datarsut; /* 종합점수에따른내림차순정렬 */ var d rn--rn4 tota; run;
P7-79, 9 명학생자료에대한공분산, 상관행렬사용시의차이결과 data studnt; /* 학생몸무게, IQ 자료 */ nut wght q@@; cards; 3 0 74 5 45 5 64 84 8 8 4 79 0 07 5 67 7 98 9 05 3 95 8 79 8 3 9 5 4 9 84 4 85 93 4 run; /*roc corr datastudnt cov ; var wght q; run; */ Proc rncom data studnt outstudnt covaranc; ( 혹은 covaranc 생략시 ) var wght q; run; Egnvaus of th Covaranc Matrx Egnvau Dffrnc Proorton Cumuatv 545.539 58.98099 0.970 0.970 6.793 0.090.0000 Egnvctors Prn Prn wght 0.997779 -.0666 q 0.0666 0.997779 Egnvaus of th Corraton Matrx Egnvau Dffrnc Proorton Cumuatv.34969499 0.69938998 0.6748 0.6748 0.6503050 0.35.0000 Egnvctors Prn Prn wght 0.70707 0.70707 q 0.70707 -.70707
성숙한인격의 8 가지자질 - 첫번째용기 - 두려움을극복하는용기 - 두번째자기통제력 - 고통을경험하라 사무엘랭글러 896- 인류최초무인비행성공 903.. 7- 백만년후 903.. 7. 0:35 당신은두려움을모르고열정으로극복한뭉쳐진라이트형제를원하십니까? 아님, 재능은있지만성공이라는두려움때문에굴복한샤무엘랭글러박사가되겠습니까? 즉각적인즐거움과손쉬운해결책을쫓는오늘날, 자기통제력을발휘하여즐거움을유보하고현재의고통을감내한다면, 반드시보상의날이올것입니다. 당신은이아름다움을위해간직하시렵니까? 아님먹는즐거움을통제하지않겠습니까?