머리말 1995 년고려대학교통계연구소강의총서 19권째로출간된 SAS 다차원척도법 은다차원척도법을정리해보고자하였던동기부여차원에서이루어졌으나보면볼수록부족함이많았다. 사실이책의전면개정과보완이필요하다고생각은하였지만, 다차원척도법에대한지식이부족하여많이망설였다. 그리고이를극복하기위하여대학원에서의다차원척도법강의와학생들과의세미나를통하여조금씩관련자료를준비해왔다. 2012 년에연구년으로아이오와주립대학에오면서도다차원척도법의완성도를높이고싶은마음은있었지만몇권의졸작들을개정하는작업의범주에넣을엄두를내지는못하였다. 그런데의외로목표하였던나머지개정작업이순조롭게진행되면서거닐고싶은길이있는공원을산책하듯편안한마음으로본책인 다차원척도법의산책 을집필할수있게되었다. 이책은 SAS 다차원척도법 의큰흐름을따르면서내용과사례를보완하였고구성을조금바꾸면서다양한자료를추가하였다. 2장의비유사성과유사성, 6 장의베이즈다차원척도법, 그리고 7장의비선형다차원척도법이여기에해당한다. 특히, 응용의묘미를위해주된프로그램은 SAS/MDS, SAS/IML 과 R이사용되었고, SAS/STAT 9.2판의 ODS Graphics 문은 6.07 판의 PROC PLOT 문의번거로움을덜어주었다. 현재 R에서계량형과비계량형그리고비선형다차원척도법을위한 cmdscale 함수, isomds 함수와 sammon 함수가제공되고있다. 머리말 ⅲ
다차원척도법 (MDS: multidimensional scaling) 이란다차원공간에서개체간의거리를나타내는자료로부터그들의유사성또는비유사성을저차원공간에기하적으로나타내어그들의관계를탐색적으로살펴보는다변량그래프적기법이다. 1950 년이후 60년이상의역사를갖고있는이기법은정치학, 경제학, 심리학, 사회학, 지리학, 교육학등여러분야에걸쳐다양하게응용되고있다. 이책의구성과내용을요약하면다음과같다. 1장 : 다차원척도법의정의와사례를제시하고역사적배경과이론적배경을살펴본다. SAS/MDS 를활용한사례분석은다차원척도법의개념을잡는데도움이될것이다. 2장 : 개체간과변수간의비유사성과유사성을정의하고이를측정할수있는측도에대하여소개한다. 비유사성과유사성상호간의변환을정의하고비대칭인비유사성과유사성에대한변환도소개한다. 3장 : 이원다차원척도법인계량형과비계량형다차원척도법의토거선과크루스칼- 세퍼드알고리즘을각각소개한다. 특히, SAS/MDS 와 R-프로그램 (cmdscale 함수와 isomds 함수 ) 에서제공하는두다차원척도법을비교하고있다. 4장 : 각주체에대해고려한비유사성행렬에적용하는삼원다차원척도법의이론과이를위한 INDSCAL 알고리즘을소개한다. 5장 : 다차원척도법에서분포를가정하고최대우도추정법을적용한최대우도다차원척도법의이론과 SAS/MDS 에서이와유사한결과를제공하는로그램과사례를소개한다. 6장 : 계량형다차원척도법에서베이즈모형에바탕을두고 MCMC 알고리즘을적용한베이즈계량형다차원척도법을소개한다. 이를위한 bmds 함수를활용한 R-프로그램을사용하고있다. 7장 : 계량형다차원척도법에서비선형사상알고리즘을위한새먼사상을적용한비선형다차원척도법을소개하고 sammom 함수를활용한 R-프로그램도제시하고있다. ⅳ 머리말
부록 1: SAS MDS 절차를소개하며특히, PROC MDS 문법을정리하고요약한다. 범용 PROC ALSCAL/MLSCALE 과의간단한비교도하였다. 부록 2: 자료 1-자료 13의 13가지자료를소개하고있다. 이는본문과 [ 연습문제 ] 에서비교적큰자료위주로파일과그이름을정리하여제공하고있다. 부록 3: 각장별과부록 1에서사용된프로그램의파일을정리요약하고있다. 3~7 장에서제시되는다차원척도법의알고리즘에대한이론적설명은어려우면넘어가도좋다. 그러나예제를통해제시하는프로그램과실행결과그리고다차원척도그림에대한설명은자세히읽어보기를바란다. 참고로저자의홈페이지 (home.pusan.ac.kr/~yschoi) 에서자료와프로그램을내려받을수있다. 6장의베이즈다차원척도법을위한참고프로그램과자료를알려주신이화여자대학교오만숙교수께도감사의인사를드린다. 그리고연구년동안좋은환경을제공하신아이오와주립대학 PPSI 의소장 Richard Spoth 박사와부소장신충렬박사, Cleve Redmond 박사께감사드린다. 끝으로헌신적인초고읽기를통하여오류를지적한박사과정의이보희와지도학생들그리고마지막까지 bmds 함수를활용한 R-프로그램의오류를찾아낸이수기군에게도고마움을전한다. 2013 년아이오와에임스의눈을즐기며 아이오와주립대학 PPSI 연구실 2442 호 최용석 머리말 ⅴ
차례 1 장다차원척도법의이해 1.1 다차원척도법이란 2 1.1.1 [ 사례 1] 우리나라도시간철도거리 4 1.1.2 [ 사례 2] 우리나라 14개경제관련기관의경제전망 6 1.1.3 [ 사례 3] 12개국가의유사성에대한평가 11 1.1.4 [ 사례 4] 15군데신체부위의비유사성 13 1.1.5 [ 사례 5] 15가지레크리에이션의비유사성 15 1.2 다차원척도법의역사적배경 18 1.3 다차원척도법의이론적배경 20 1.3.1 측정수준 20 1.3.2 스트레스 22 1.3.3 차원의수 24 1.3.4 다차원척도그림의해석 26 1.4 다차원척도법을위한 SAS/PROC MDS 의예 27 1.4.1 [ 사례 1] 을위한프로그램및결과 27 1.4.2 [ 사례 2] 를위한프로그램및결과 29 1.4.3 [ 사례 3] 을위한프로그램및결과 32 연습문제 34 ⅵ 차례
2 장비유사성과유사성 2.1 비유사성 40 2.1.1 비유사성측도 40 2.1.2 비유사성측도의적용 43 2.1.3 비유사성측도의계산을위한프로그램 44 2.2 유사성 48 2.2.1 유사성측도 48 2.2.2 유사성측도의적용 51 2.3 비유사성과유사성의변환 53 2.4 비대칭비유사성과유사성의변환 56 연습문제 63 3 장이원다차원척도법 3.1 계량형다차원척도법 68 3.1.1 토거선알고리즘 68 3.1.2 형상공간의적합도 69 3.1.3 계량형다차원척도법의예 70 3.2 비계량형다차원척도법 74 3.2.1 크루스칼 -세퍼드알고리즘 75 3.2.2 상그림과세퍼드그림 77 3.2.3 비계량형다차원척도법의예 77 3.3 계량형과비계량형다차원척도법의비교 83 3.3.1 SAS/MDS 에서비교 84 3.3.2 R-프로그램에서비교 88 연습문제 91 차례 ⅶ
4 장삼원다차원척도법 4.1 삼원다차원척도법을위한모형 100 4.1.1 INDSCAL 모형의소개 100 4.1.2 INDSCAL 모형의기하적해석 103 4.2 삼원다차원척도법의예 109 4.2.1 신체부위자료 109 4.2.2 프로그램과결과 110 4.2.3 결과의해석 113 연습문제 116 5 장최대우도다차원척도법 5.1 최대우도다차원척도법을위한모형 120 5.1.1 램지모형의소개 120 5.1.2 등분산가정에서최대우도추정 122 5.2 최대우도다차원척도법의예 125 5.2.1 레크리에이션자료 125 5.2.2 프로그램과결과 125 5.2.3 결과의해석 129 5.3 삼원과최대우도다차원척도법의비교 130 연습문제 135 ⅷ 차례
6 장베이즈다차원척도법 6.1 베이즈계량형다차원척도법 138 6.1.1 베이즈모형 138 6.1.2 MCMC 알고리즘 141 6.1.3 차원의수 143 6.2 베이즈계량형다차원척도법의예 146 6.2.1 유럽 10대도시간의거리자료 146 6.2.2 R-프로그램과결과 146 6.2.3 결과의해석 149 6.3 계량형과베이즈계량형다차원척도법의비교 150 연습문제 151 7 장비선형다차원척도법 7.1 비선형계량형다차원척도법 158 7.1.1 비선형모형 158 7.1.2 비선형사상알고리즘 159 7.2 비선형계량형다차원척도법의예 161 7.2.1 모스부호자료 161 7.2.2 R-프로그램과결과 161 7.2.3 결과의해석 163 7.3 계량형과비선형계량형다차원척도법의비교 164 연습문제 165 차례 ⅸ
부록 1: SAS MDS 절차 167 부록 1.1 PROC MDS 문의옵션 168 부록 1.1.1 측정수준지정 169 부록 1.1.2 자료의형태 170 부록 1.1.3 자료세트의지정 171 부록 1.1.4 스트레스및최적척도화 172 부록 1.1.5 출력결과조정 174 부록 1.1.6 수렴문제조정 175 부록 1.1.7 결측치조정 176 부록 1.1.8 기타선택 176 부록 1.2 ODS GRAPHICS 177 부록 1.3 PROC ALSCAL 과 PROC MDS 178 부록 1.4 PROC MLSCALE 과 PROC MDS 180 부록 2: 자료 182 부록 3: 프로그램 196 참고문헌 199 찾아보기 204 Ⅹ 차례
1 장 다차원척도법의이해 다차원척도법 (MultiDimensional Scaling: MDS) 에대한정의와특히, 계량형 (metric) 과비계량형 (non-metric) 인이원 (two-way) 과, 삼원 (three-way), 최대우도 (maximum likelihood) 다차원척도법을사례를통해미리개괄적으로소개하고이해하려고한다. 그리고 1950 년대부터많은학자들에의해서개발되고발전되어온다차원척도법의역사적배경을살펴보고측정수준, 스트레스, 차원의수, 다차원척도그림 (MDS map) 의해석을중심으로이론적배경을간단히소개하려고한다. 이절에서사용된다차원척도법을위한프로그램인 SAS/PROC MDS 의문법과본격적인소개는 [ 부록 1: SAS MDS 절차 ] 를참고하기를바란다. 1
1.1 다차원척도법이란 다차원척도법이란다차원공간에서개체 (objects) 간의거리를나타내는자료로부터그들의유사성 (similarity) 또는비유사성 (dissimilarity) 을저차원공간에기하적으로나타내어그들의관계를탐색적으로살펴보는다변량그래프적기법이다. 여기에서는저차원공간을형상공간 (configu ation space) 이라고하며, 여기에개체를기하적으로나타낸것을형상또는다차원척도그림이라고한다. 이책에서는후자인다차원척도그림이라고하자. 일반적으로 개의개체간의거리는그들간의비유사성 를측정한것이다. 따라서다차원척도법은다음과같은 개의개체간의비유사성을나타내는크기가 인비유사성행렬 (dissimilarity matrix) (1.1) 을구하고이비유사성행렬 를형상공간이라는저차원공간에기하적으로나타낸다차원척도그림을제공하는기법이다. 여기서일반적으로비유사성행렬 는동일개체의비유사성을나타내는대각원소값들이 0인대칭행렬이다. 다차원척도법은비유사성행렬 를구성하는개체간의비유사성 의측정척도 (measure) 에따라계량형다차원척도법과비계량형다차원척도법으로나눌수있다 (Kruskal 과 Wish, 1978, pp. 19-23; Mardia 외 2인, 1979, Chapter 14; Johnson 과 Wichern, 2002, pp. 700-708). 대개계량형다차원척도법에서는비유사성 의측정척도가개체간의실제측정거리또는매우고전적인유클리드거리 (Euclidean distance) 를나타내며비계량형다차원척도법에서는거리들의크기순서를나타낸다. 특히, 허명회 (1994, 8장 ) 는전자의경우절대척도 (absolute scaling) 와구간척도 (interval scaling) 로, 후자의경우는순서척도 (ordinal scaling) 로구분하고있다. 이에대해서는 1장 3절에서자세히다루기로하고유클리드거리및거리로정의되는비유사성의개념및종류에대해 2장에서자세히설명하고있다. 이런이유에서계량형다차원척도법을고전적척도법 (classical scaling), 비계량형다차원척도법을순서적척도법 (ordinal scaling) 으로각각언급하기도한다 (Chatfield 와 Collins, 1980, Chapter 10; du Toit 외 2인, 1986, Chapter 6). 이들의수리적알고리즘은엄격히다르지만행렬 가실제측정값이나유클리드거리의자료인경우이들은대동소이한결과를제공한다고알려져있다 (Chatfield 와 Collins, 1980, pp. 209-210; Mardia 외 2인, 2 1 장다차원척도법의이해
1979, p. 415). 그러나일반적으로비계량형다차원척도법이계량형다차원척도법보다는대개바람직한결과를제공한다고알려져있다 (Kruskal 과 Wish, 1978, pp. 76-78; Chatfield 와 Collins, 1980, pp. 209-210). 광범위하게는계량형과비계량형다차원척도법을이원다차원척도법이라고하며이는이원행렬인비유사성행렬 에적용된다차원척도법을뜻한다. 이는 3장에서자세히다루고있다. 반면에개체간의유클리드거리를이용한식 (1.1) 에서정의한 개개체간의비유사성 대신에가중 (weighted) 유클리드거리를이용한크기가 이원행렬 를 명의주체 (subjects) 각각에대해서고려한삼원행렬. (1.2) 을이용한다. 여기서, 는 번째주체에대해 번째와 번째개체사이의가중유클리드 거리에의한비유사성을나타낸다. Kruskal 과 Wish(1978, p. 60), du Toit 외 2 인 (1986, pp. 144-151), 그리고 Everitt 와 Dunn(1991, pp. 82-88) 에따르면식 (1.2) 에대한다차 원척도법을삼원다차원척도법이라고하며가중다차원척도법이라고도한다. 이를위한알 고리즘으로 Carroll 과 Chang(1970) 이제안한 INDSCAL(individual differences scaling) 을 수정보완하여교대최소제곱 (alternatives least squares) 법을사용하는 Takane 외 2 인 (1977) 의 ALSCAL 을채택하고있으며수치해석적으로뉴턴 - 랩슨 (Newton-Raphson) 방법 에의해서계산되며 4 장에서다루고있다. 5 장에서는 4 장의삼원다차원척도법에서고려하지않은측정오차 (measure error) 에대 한분포를가정하고최대우도추정법 (maximum likelihood estimation method) 을활용한 최대우도다차원척도법을소개하고있다. 이는 Ramsay(1977, 1980, 1982) 의알고리즘으로 수치해석적으로비선형최적화 (nonlinear optimization) 를따른다. 6 장에서는 5 장의최대우도추정법대신에베이즈 (Bayesian) 추정과 MCMC 알고리즘을 적용한 Oh 와 Raftery(2001) 의베이즈다차원척도법 (Bayesian MDS) 을정리하고있다. 이 를바탕으로다양한상황에서 Okada 와 Shigemasu(2009, 2010), Okada 와 Mayekawa(2011) 그리고 Okada(2012) 도베이즈추정법을적용한다양한베이즈다차원척도법을소개하고 있다. 특히, Okada 와 Shigemasu(2009) 는베이즈다차원척도법의알고리즘을위한 Oh 와 Raftery(2001) 의 FORTRAN 프로그램을 R- 프로그램으로전환하여제공하고있다. 특히, Izenman(2008, Chapter 13) 은계량형다차원척도법의한방법으로베이즈다차원척도법 을소개하고있다. 1.1 다차원척도법이란 3
7장에서는 Sammon(1969) 의비선형사상알고리즘을적용한새먼사상 (Sammon mapping) 을다차원척도법에적용한것을비선형다차원척도법 (nonlinear MDS) 이라고하자. 근본적으로비선형다차원척도법은계량형다차원척도법의스트레스최소화알고리즘의비선형버전이며 sammon 함수를활용하는 R-프로그램에서제공된다. 다차원척도법을위한프로그램으로가장활용도가높은 SAS/PROC MDS는 SAS/STAT 의 6.07 판이후에현재 9.2판인 SAS Institute Inc.(2008, Chapter 53) 에나와있고이책에서는이를응용의관점에서주로활용하고자한다. 더불어행렬언어를이용하는 SAS/IML 과 R도필요에따라서활용되고있다. 1.1.1 [ 사례 1] 우리나라도시간철도거리철도청 (1993) 의철도통계연보부록의철도영업키로정표로부터우리나라 8대도시간최단철도거리에대한자료가 < 표 1.1> 에있다. 여기에서이거리를비유사성 으로정의하면이는실제측정거리로비유사성행렬 를구성한다. 이경우일반적으로계량형다차원척도법을적용하며 < 그림 1.1> 의 2차원다차원척도그림을얻을수있다. 이를위한 SAS 프로그램과실행결과는 1.4.1 절에정리되어있다. < 표 1.1> 도시간철도거리 ( 단위 : km ) 도시 서울 부산 광주 대구 인천 강릉 청주 전주 서울 0.0 부산 444.5 0.0 광주 353.8 364.7 0.0 대구 323.9 120.6 350.0 0.0 인천 30.9 475.4 384.7 359.9 0.0 강릉 348.5 505.0 523.0 388.8 379.4 0.0 청주 141.2 326.1 235.4 211.4 172.1 288.6 0.0 전주 279.9 391.0 124.6 276.4 310.8 449.4 136.3 0.0 < 그림 1.1>-(a) 의다차원척도그림을원점을중심으로시계방향으로 90도정도회전한다면도시들이실제우리나라지도상에위치하고있는것과같다. < 그림 1.1> 의수평축은남-북으로도시들을분할하고있고수직축은동-서로도시들을분할하고있다. 일반적으로 < 그림 1.1>-(a) 에대한해석도 (b) 를보면수평축을 1차원축 (Dimension 1) 이라하고수직축을 2차원축 (Dimension 2) 이라고한다. 따라서 1차원축을남-북방향, 2차원축을동-서 4 1 장다차원척도법의이해
방향의축으로해석할수있다. 이와같이지리적거리에대한사례들은다차원척도법을 소개할때대개많은문헌의앞머리에서언급된다. (a) 계량형다차원척도그림 (b) 해석도 < 그림 1-1> 도시간철도거리의계량형다차원척도그림과해석도 1.1 다차원척도법이란 5
1.1.2 [ 사례 2] 우리나라경제관련기관의경제전망 < 표 1.2> 는우리나라 14개경제관련기관의전문가들의향후 1년간 10가지경제전망에관한조사표 ( 동아일보, 1989. 1. 4) 인계량치자료이며장광국 (1990, p. 13) 이잘요약하고있다. 이자료의유클리드거리와이자료로부터변환된이진수자료 (binary data) 의제곱유클리드거리에의한두가지비유사성행렬을제공하고이에대한비계량형다차원척도법을실시하고비교하려고한다. < 표 1.2> 우리나라 14 개경제관련기관의향후 1 년간 10 가지경제전망 기관성장률 GNP 수출수입국제흑자 연말외채 연말환율 실업률소비물가 임금상승 한국은행 8.2 1950 698 650 98 280 630 3.0 5.7 12.0 대우증권 9.5 2100 710 620 110 270 640 2.7 4.5 12.0 동서증권 9.0 2000 690 630 100 290 630 2.6 6.0 12.0 전경련 7.8 1850 668 660 88 280 620 3.0 6.4 13.8 대한상공회의소 8.5 1928 710 670 90 290 620 3.0 6.0 10.0 중소기업중앙회 9.0 1958 710 615 95 280 603 4.0 6.0 10.0 현대자동차 8.5 1900 700 610 100 250 620 3.2 5.5 14.0 삼성물산 8.0 1900 700 640 100 280 640 2.7 5.5 10.0 선경 8.5 1950 700 620 120 300 630 2.7 7.0 12.0 대우경제연구소 7.9 1900 697 645 95 280 610 2.9 6.8 15.0 신한종합연구소 9.0 2030 700 620 100 275 630 3.0 7.0 13.0 동서경제연구소 8.5 1950 690 630 90 290 630 2.9 6.0 12.0 고려대학교 9.9 1870 729 649 123 260 616 3.4 6.1 15.8 중앙대학교 8.5 1700 700 630 90 260 620 4.0 6.0 14.0 먼저 < 표 1.2> 로부터다차원척도법을적용하기위한비유사성행렬 를구성할비유사성 를 1 장 3 절의식 (1.3) 에서정의한유클리드거리로계산한것이 < 표 1.3> 이 다. 물론 10 가지경제전망의측정단위가다르므로이들을표준화하였다. 6 1 장다차원척도법의이해
< 표 1.3> 유클리드거리에의한비유사성행렬 한국은행 0.000 대우증권 4.166 0.000 동서증권 2.293 3.672 0.000 전경련 3.269 6.925 4.110 0.000 대한상공회의소 2.390 5.476 3.496 4.157 0.000 중소기업중앙회 4.410 5.723 4.635 5.837 4.316 0.000 현대자동차 3.573 4.432 4.084 4.812 5.177 4.231 0.000 삼성물산 1.846 4.197 2.839 4.322 3.182 5.220 4.233 0.000 선경 3.700 5.189 2.854 5.207 4.631 5.231 5.088 3.880 0.000 대우경제연구소 3.131 6.345 3.800 2.789 3.820 4.796 3.928 4.468 4.159 0.000 신한종합연구소 3.118 4.344 2.363 4.653 4.265 4.260 3.592 3.920 2.990 3.549 0.000 동서경제연구소 1.784 4.443 1.515 3.291 3.061 4.263 3.820 2.469 3.401 3.278 2.648 0.000 고려대학교 5.362 5.571 5.684 6.926 5.856 5.563 4.699 6.336 5.696 5.349 4.994 6.088 0.000 중앙대학교 4.343 6.693 5.425 4.474 5.124 4.407 3.336 5.114 6.064 4.192 4.934 4.568 5.176 0.000 다음으로허명회 (1992, 4 장 ) 가 < 표 1.2> 의자료에서 10 가지경제전망항목을주관적 기준으로예 (1) 와아니오 (0) 형태의이진수자료로가공하여 < 표 1.4> 를제공하였다. 여 기서 10 가지경제전망항목의주관적기준은다음과같다. (1) 성장률이 8.5% 이상이될것이다. (2) GNP 는 1950 달러이상이될것이다. (3) 수출은 700 억달러이상이될것이다. (4) 수입은 630억달러이하가될것이다. (5) 국제흑자는 100억달러이하가될것이다. (6) 연말외채는 280억달러이하가될것이다. (7) 연말환율은 1달러당 630원이상일것이다. (8) 실업률은 3.0% 이하일것이다. (9) 소비자물가의상승률은 6.0% 이하일것이다. (10) 임금상승률은 12.5% 이하일것이다. 1.1 다차원척도법이란 7
< 표 1.4> 경제관련기관의 10가지경제전망의이진수자료 경제전망 기관 1 2 3 4 5 6 7 8 9 10 한국은행 0 1 0 0 0 1 1 1 1 1 대우증권 1 1 1 1 1 1 1 1 1 1 동서증권 1 1 0 1 1 0 1 1 1 1 전경련 0 0 0 0 0 1 0 1 0 0 대한상공회의소 1 0 1 0 0 0 0 1 1 1 중소기업중앙회 1 1 1 1 0 1 0 0 1 1 현대자동차 1 0 1 1 1 1 0 0 1 0 삼성물산 0 0 1 0 1 1 1 1 1 1 선경 1 1 1 1 1 0 1 1 0 1 대우경제연구소 0 0 0 0 0 1 0 1 0 0 신한종합연구소 1 1 1 1 1 1 1 1 0 0 동서경제연구소 1 1 0 1 0 0 1 1 1 1 고려대학교 1 0 1 0 1 1 0 0 0 0 중앙대학교 1 0 1 1 0 1 0 0 1 0 이진수자료 < 표 1.4> 로부터다차원척도법을적용하기위한비유사성 를다음과같이정의하자. 번째와 번째개체간에일치하지않는항목의수. 전체항목의수 예를들면한국은행과대우증권두기관은 10가지경제전망항목중 4가지가일치하지않는다. 따라서그들의비유사성은 4/10 = 0.4이므로 < 표 1.5> 와같은비유사성행렬자료를얻을수있다. 이는 2.1.2 절에서보다자세히다시언급될것이며, 특히이진수자료로부터개체 와 의유사성 를계산하는방법중에서단순매칭계수 (simple matching coefficient) 를이용하여비유사성 를구하는것과연관성이있다. 2.1.2 절을보면유사성의수치적계산은이진수자료의제곱유클리드거리에의해서이루어진다. < 그림 1.2> 는 < 표 1.5> 의 2차원다차원척도그림이다. 이를위한 SAS 프로그램과실행결과는 1.4.2 절을참고하기를바란다. 8 1 장다차원척도법의이해
< 표 1.5> 이진수자료의제곱유클리드거리에의한비유사성행렬자료 한국은행.0 대우증권.4.0 동서증권.4.2.0 전경련.4.8.8.0 상공회의소.5.5.5.5.0 중소기업중앙회.5.3.5.7.4.0 현대자동차.8.4.6.6.5.3.0 삼성물산.3.3.5.5.4.6.5.0 선경.6.2.2.8.5.5.6.5.0 대우경제연구소.4.8.8.0.5.7.6.5.8.0 신한종합연구소.6.2.4.6.7.5.4.5.2.6.0 동서경제연구소.3.3.1.7.4.4.7.6.3.7.5.0 고려대학교.8.6.8.4.5.5.2.5.6.4.4.9.0 중앙대학교.7.5.7.5.4.2.1.6.7.5.5.6.3.0 < 그림 1.2> 의 (a) 와 (b) 에서나타나는기관들의경제전망은입력자료가다르지만서로유사하며약간의차이점이있는데, 이는해석도를참고로다음과같이요약될수있다. 먼저경제전망을연결한선은새로운축으로원차원축을회전시킨것과같다. (a) 와 (b) 에서비관론 -낙관론차원축의방향은다르지만공통적으로 kyungrun( 전경련 ) 과 daewoo2( 대우경제연구소 ) 가비관론쪽에있으며반대편인낙관론쪽에 daewoo1( 대우증권 ), shinhan ( 신한종합연구소 ) 이있다. 특히, (a) 의정책옹호쪽에있는 sunkyung( 선경 ), samsung( 삼성물산 ), sangkong( 상공회의소 ) 중 sunkyung( 선경 ) 은 (b) 의낙관론으로, samsung( 삼성물산 ) 과 sangkong( 상공회의소 ) 는 (b) 의비관론으로분류되어있다. sunkyung( 선경 ) 이 (a) 에서나머지기관들과다소떨어져있고해석도와같이새로운축에대해서낙관론쪽으로분류될수는있으나, samsung( 삼성물산 ) 이 (a) 의정책옹호에서 (b) 의비관론으로분류되는것은 (a) 와 (b) 의해석상상당한차이를보이는점이다. 정책비판축에대해서는 (a) 의 korea( 고려대학교 ), hyundai( 현대자동차 ), choongso( 중소기업중앙회 ), chungang( 중앙대학교 ) 가위치하고있으나이들중 choongso( 중소기업중앙회 ) 가 (b) 에서는정책비판 -낙관론두축의중앙에위치하고있어중립적경제전망을하고있다. 이상에서몇개의경제관련기관의전망이다차원척도그림 (a) 와 (b) 에따라차이점을보이는것은 (b) 의경우이진수자료를만드는과정에서분석자의주관적기준이개입되어있기때문이다. 그러나전체적으로 (a) 와 (b) 의다차원척도법은유사한결과와해석을제공하고있다. 1.1 다차원척도법이란 9
(a) 원자료의유클리드거리 (b) 이진수자료의제곱유클리드거리 < 그림 1-2> 경제관련기관의경제전망의비계량형다차원척도그림과해석도 10 1 장다차원척도법의이해
1.1.3 [ 사례 3] 12개국가의유사성에대한평가 18명의학생들이 12개국가를각각두나라씩짝지은 66가지경우에대해 1점 ( 매우다르다 )9 점 ( 매우유사하다 ) 의 9점척도로응답하여그평균으로 12개국의유사성행렬 < 표 1.6> 을얻었다 (Kruskal 과 Wish, 1978, pp. 30-31; Everitt 와 Dunn, 1991). 예 ) Brazil 과 Congo 매우유사하다 (9 점 ) (very similar) 매우다르다 (1 점 ) (very different) < 표 1.6> 12개국가의유사성행렬자료 Brazil. Congo 4.83. Cuba 5.28 4.26. Egypt 3.44 5.00 5.17. France 4.72 4.00 4.11 4.78. India 4.50 4.83 4.00 5.83 3.44. Israel 3.83 3.33 3.61 4.67 4.00 4.11. Japan 3.50 3.39 2.94 3.84 4.11 4.50 4.83. China 2.39 4.00 5.50 4.39 3.67 4.11 3.00 4.17. USSR 3.06 3.39 5.44 4.39 5.06 4.50 4.17 4.61 5.72. USA 5.39 2.39 3.17 3.33 5.94 4.28 5.94 6.06 2.56 5.00. Yugoslav 3.17 3.50 5.11 4.28 4.72 4.00 4.44 4.28 5.06 6.67 3.56. 이자료는앞서살펴본비유사성행렬자료들과는달리유사성행렬자료이다. 여기서는개체 와 간의유사성을 라고하면자기자신의유사성은 9점 ( 매우유사하다 ) 이므로변환 를고려하면비유사성을얻을수있다. 유사성행렬자료로부터비유사성행렬자료로바꾸는변환방법은 2.3절에서자세히설명하고있다. < 그림 1.3> 은 < 표 1.6> 의유사성행렬자료에대한 2차원비계량형다차원척도그림과해석도이다. 이를위한 SAS 프로그램과실행결과는 1.4.3 절의 [ 프로그램 1.3] 과 [ 결과 1.3] 을참고하기를바란다. < 그림 1.3> 의해석도에서새롭게연결된축은정치적노선 ( 서방국가 -공 1.1 다차원척도법이란 11
산국가 ) 과경제개발 ( 개발국가 - 개발도상국가 ) 차원축으로해석할수있다. 보다자세한설 명은 Kruskal 과 Wish(1978, pp. 30-43) 를참고하기를바란다. (a) 비계량형다차원척도그림 (b) 해석도 < 그림 1-3> 12 개국가의유사성에대한비계량형다차원척도그림과해석도 12 1 장다차원척도법의이해
1.1.4 [ 사례 4] 15군데신체부위의비유사성 < 표 1.7> 은 Young 과 Lewyckyj(1979, pp. 105-108) 의아동과성인에게 15군데신체 (cheek, face, mouth, head, ear, body, arm, elbow, hand, palm, finger, leg, knee, foot, toe) 의비유사성을서로판단하도록조사한자료의일부이다. 이는신체부위에대한아동이판단하는특성과이러한판단들이성인이됨에따라변화하는방향을파악하는데의미가있다. 이조사에는나이가 6세, 8세, 10세의아동들 3그룹과대학교 2년생을 1그룹으로하여총 4그룹을구성하였고각그룹당 15명씩배당되어총 60명의주체 (subjects) 에대해서이루어졌다. < 표 1.7> 15 군데신체부위에대한비유사성자료 ( 일부 ) sub ject cheek face mouth head ear body arm elbow hand palm finger leg knee foot toe 1 0 2 1 3 4 10 5 9 6 7 8 11 12 13 14 1 2 0 12 1 13 3 8 10 11 9 7 4 5 6 14 1 3 2 0 1 4 9 5 11 6 7 8 10 13 12 14 1 2 1 3 0 4 9 5 6 11 7 8 10 12 13 14 1 10 1 11 2 0 6 3 4 5 12 13 7 8 14 9 1 14 12 9 6 13 0 8 7 5 10 11 1 4 2 3 1 12 14 11 10 13 5 0 4 1 3 2 6 9 7 8 1 5 7 14 8 6 9 1 0 2 3 4 10 11 12 13 1 13 11 12 10 14 9 3 4 0 1 2 6 5 7 8 1 8 6 7 9 4 5 3 10 1 0 2 12 11 13 14 1 4 5 13 6 9 12 3 4 1 2 0 7 8 10 11 1 14 12 13 11 9 7 4 6 5 3 10 0 8 1 2 1 12 11 14 10 13 4 5 8 6 7 9 1 0 2 3 1 12 14 10 13 11 9 4 5 8 6 7 2 3 0 1 1 13 8 9 11 14 3 6 5 7 10 12 2 4 1 0 입력자료인비유사성행렬 를구성하는 < 표 1.7> 을살펴보면이는 인정방행렬로구성되어있다. 이는주체인한사람이 15군데신체부위를각각돌아가면서표준부위로두고 15점척도로이와나머지신체위와의유사성을판단한순위 -순서형 (rank-order) 자료이다. 다시말해서첫번째행은첫번째신체부위인 cheek 을표준개체 ( 부위 ) 인 0점으로두고나머지 14개신체부위에서이와가장유사한개체인 mouth 를 1점으로하고, 두번째유사한개체인 face 를 2점으로하여 14점을받은 toe는매우다른개체의순위를말한다. 두번째행은두번째신체부위인 face 를표준개체 0점으로두고첫번째행처럼 1.1 다차원척도법이란 13
나머지부위와의유사성에따라서순위를매겨간다. 따라서이렇게만들어진비유사성행렬 의대각원소는항상 0이고, 비대각원소는비대칭으로이루어져있다는점이다. [ 부록 2: 자료 1( 파일이름 : body.txt)] 에는분석편의상 6세아동 15명과대학교 2년생 15명으로이루어진두그룹에대한총 30명에대해 < 표 1.7> 과같은 비유사성행렬 가 30개 (a) 1 차원축과 2 차원축 (b) 1 차원축과 3 차원축 < 그림 1.4> 15 군데신체부위에대한삼원다차원척도그림과해석도 14 1 장다차원척도법의이해
가정리되어있다. 즉, 식 (1.2) 의표현에따르면 30명의주체 ( ) 각각에대하여비유사성행렬 이존재하여전체적으로삼원행렬로이루어진다. 실제로 < 표 1.7> 은 에해당한다. 이런형태의자료에대해서는삼원다차원척도법을적용하며 4장에서 [ 프로그램 4.2] 와 [ 결과 4.2] 에잘정리되어있다. 여기에서는 [ 결과 4.2] 의삼원다차원척도그림을먼저인용한 < 그림 1.4> 의 (a) 와 (b) 를통해삼원다차원척도법을이해하려고한다. 15개신체각부위에대한삼원다차원척도그림은차원별로조합되어주어져있다. 먼저 1차원축 (Dimension 1) 과 2차원축 (Dimension 2) 에의한 < 그림 1.4>-(a) 는각신체부위가각정점에놓인삼각형모양을나타내고있다. 특히, 정점의세신체부위인 arm( 팔 ), leg( 다리 ), head( 머리 ) 는각군집으로중심의 body( 몸 ) 와구분되고있다. 구체적으로수평축인 1차원축은왼편의팔과다리부위와오른편의머리부위로분할하고있고수직축인 2 차원축은위쪽팔부위와아래쪽다리부위로분할하고있다. < 그림 1.4>-(b) 에서는 3차원축 (Dimension 3) 의위쪽으로는 body( 몸 ), head( 머리 ), face( 얼굴 ), 다리 (leg), arm( 팔 ) 등과같이신체중포괄적으로큰부위를나타내고아래쪽으로는 mouth( 입 ), ear( 귀 ), hand ( 손 ), palm( 손바닥 ), finger( 손가락 ), toe( 발톱 ) 등과같이큰부위의세밀한부위를나타내고있다. 1.1.5 [ 사례 5] 15가지레크리에이션의비유사성 Ramsay(1983) 는 10명에게 15가지레크리에이션 (concert, museum, theatre, movie, watch TV, conference, reading, watch hockey, ballet, political debate, fashion show, documentary film, exhibition, window shopping, restaurant) 의비유사성을판단하기위해조사를수행하였다. 이조사는레크리에이션을각각둘씩짝지은 105가지경우에대해다음과같이비유사성의정도를 25점척도로표시하도록한설문지로부터얻어진것이다. 예 ) Museum 과 Hockey 매우유사하다 (0 점 ) (very similar) 매우다르다 (24 점 ) (very different) 1.1 다차원척도법이란 15
완전한 Ramsay 의자료는 [ 부록 2: 자료 2( 파일이름 : recreation.txt)] 에정리해두었다. 이로부터 < 표 1.8> 은사례에서자료를이해하고자일부를정리한것으로첫번째설문응답자의자료이다. 따라서식 (1.2) 에따르면 < 표 1.8> 은크기가 인비유사성행렬 에해당하며설문응답자 10명의주체에대하여이와같은행렬 10개가존재하는삼원행렬자료, 중 에해당한다. 이자료에대해본사례에서는최대우도다차원척도법을적용하였고이는광범위하게는 1.1.4 절의 [ 사례 4] 와같이 4장의삼원다차원척도법으로분류할수있다. 최대우도다차원척도법의알고리즘과관련된 SAS 프로그램은 5장에정리해두었으니참고하기를바란다. < 표 1.8> 15가지레크리에이션의비유사성자료 ( 일부 ) concert 0 museum 8 0 theatre 18 21 0 movie 5 22 16 0 watch TV 8 24 22 11 0 conference 11 13 19 18 22 0 reading 19 12 15 9 21 14 0 watch hockey 6 6 15 19 21 13 23 0 ballet 24 18 21 15 9 19 16 23 0 political debate 21 21 23 23 23 13 12 11 23 0 fashion show 22 20 24 21 23 10 13 12 7 7 0 documentary film 10 7 21 11 9 10 6 8 14 22 22 0 exhibition 23 21 18 9 8 10 7 14 22 9 11 8 0 window shopping 5 14 19 16 23 22 19 20 8 17 23 21 20 0 restaurant 14 23 11 8 21 22 7 10 23 19 21 9 7 22 0 < 그림 1.5> 는레크리에이션의비유사성에대한최대우도다차원척도그림으로 5장의 [ 프로그램 5.1] 에의해서얻을수있다. 특히, 그림에서수평축인 1차원축 (Dimension 1) 은왼쪽의쇼핑 (shopping), 정치적논쟁 (politic), 패션쇼우 (fashion), 발레 (ballet) 등과같이현장감있고동적인레크리에이션을나타내며, 오른쪽의독서 (reading), 영화 (movie), 박물관 (museum), 전시회 (exhibit) 등은주로정적인레크리에이션으로구분하고있다. 16 1 장다차원척도법의이해
(a) 최대우도다차원척도그림 (b) 해석도 < 그림 1.5> 레크리에이션에대한최대우도다차원척도그림과해석도 1.1 다차원척도법이란 17
1.2 다차원척도법의역사적배경 Young(1987, Chapter 2) 은다차원척도법의역사적배경으로 1950 년에서 1980 년까지의 30년간을대략 10년주기로다음과같이요약언급하고있다. 다차원척도법의개발의첫출발은 1950 년대였다. Torgerson(1952) 이처음다차원척도법을제안하였고 Messick 과 Abelson(1956) 에의해서일반화되었다. 이들은개체간의유클리드거리를사용하였다. Attneave(1950) 은일찍이이거리대신에시티- 블럭거리 (city-block distance) 를제안하였지만 Torgerson 처럼저차원공간에개체간의관계를나타내지는못하였다. 다차원척도법에서이와같은거리를이용한접근법은계량형다차원척도법으로알려지게되었다. 이들거리에대한개념과정의는 2장에서언급하고있다. 1960 년대는매우활발히다차원척도법개발이이루어진때이다. 거의모든주된연구는순서화된비유사성행렬자료의분석을위한방법과개발이었다. 이러한방법들을다차원척도법에서는비계량형다차원척도법이라하였다. Shepard(1962) 는비계량형다차원척도법에대해처음소개하였고그의논문으로인하여이시기에다차원척도법에대한많은연구가있게된계기가되었다. 그중에서오늘날보편적으로이용되고있는 Kruskal(1964) 의방법은개체를나타낼기하적공간의차원을 Shepard 보다더축소할수있는것이었다. Kruskal 이 Shepard 방법을수정보완하여오늘날비계량형다차원척도법의알고리즘을제시하였고, 이는크루스칼 -세퍼드알고리즘이라고불리고있다 (Mardia 외 2인, 1979, p. 414; Jobson, 1992, pp. 585-586). 이들외에는 Torgerson 과 Meuser(1962) 과 Guttman (1968) 등의다양한방법들이제시되기도하였다. 지금까지 (1950~1960 년대 ) 는오직하나의크기가 인비유사성행렬 에대한다차원척도법을논의하였다. 실제로 1장 1절의 [ 사례 1]-[ 사례 3] 에서살펴본비유사성행렬 를이원행렬이라하고이에적용된다차원척도법을이원다차원척도법이라고한다. 반면에 [ 사례 4] 는총 60명의주체가 15명씩 4그룹으로 15군데의신체부위의유사성을판단하여크기가 인비유사성행렬을제공하였는데, 특히본사례에서는편의상두그룹의 30 명에대한비유사성행렬, 에대한분석을제공하고있다. [ 사례 5] 에서는설문응답자 10명으로부터 15가지레크리에이션에대하여크기가 인비유사성행렬, 을구성하여분석하였다. 이들두사례에서는공통적으로주체에대하여비유사성행렬이존재하며이를삼원행렬 (three-way matrix) 이라고한다. 그리고이에적용된다차원척도법을삼원다차원척도법이라고한다 (Kruskal 과 Wish, 1978, p. 60; Everitt 와 Dunn, 1991, pp. 82-88). 1970 년대는이와같은삼원다차원척도법을위한여 18 1 장다차원척도법의이해
러가지알고리즘개발 (Tucker 과 Messick, 1963; Carroll 과 Chang, 1970) 이이루어진때이다. 특히 Carroll 과 Chang(1970) 의 INDSCAL(individual differences scaling) 은각주체에대한가중치를고려한가중 (weighted) 유클리드거리를비유사성으로하는것이다. Takane 외 2인 (1977) 은이알고리즘을수정하고보완하여 ALSCAL(alternating least squares scaling) 을제시하였다. 이는범용 SAS 에서는 PROC ALSCAL 로범용 SPSS X 에서는 ALSCAL 절차로각각채택되어활용되고있는데, 삼원다차원척도법은물론이고이원다차원척도법까지가능하게끔되어있다 (Young, 1987, p. 36). PC- 윈도우즈용 SAS/STAT 6.07 판에서는범용의 PROC ALSCAL 의많은점을수용하여 PROC MDS 를제공하였고, 9.2판인 SAS Institute Inc.(2008, Chapter 53) 에서는 ODS GRAPHICS 문을활용하여그래픽기능을강화하고사용자가편하게사용하도록하였다. 1980년대이후 Ramsay(1982) 의최대우도 (maximum likelihood) 다차원척도법이개발되어범용 SAS 에서 PROC MLSCALE 로제공되었다. 윈도우즈용 SAS 의 PROC MDS 에서이와유사한몇가지결과를제공할수있다. 자세한설명은 5장의최대우도다차원척도법으로다루기로한다. 2000 년대에는베이즈추정과 MCMC 알고리즘을적용한 Oh와 Raftery (2001) 의베이즈다차원척도법 (Bayesian MDS) 이개발되었고, 특히 Izenman(2008, 13장 ) 은계량형다차원척도법의한방법으로베이즈다차원척도법을소개하고있다. 더불어패턴인식 (pattern recognition) 에서잘알려진도구인 Sammon(1969) 의비선형사상알고리즘을적용한비선형다차원척도법 (nonlinear MDS) 도 Dzwinel(1994), Johnson 과 Wichern (2002, p. 708) 그리고 Izenman(2008, pp. 488-490) 에서찾아볼수있다. 추가적으로자료에이상치가있는경우이들의영향을줄이는알고리즘을적용한로버스트 (robust) 다차원척도법에대한연구와활용은 Choi 외 2인 (1998), Cox와 Cox(2001, pp. 96-98) 그리고 Forero 와 Giannakis(2012) 에서살펴볼수있다. 다차원척도법은정치학 ( 이재창과박정섭, 1986; Young, 1987, Chapter 10), 경제학 ( 허명회, 1994, 8장 ), 심리학 (Young, 1987, Chapter 8; Kruskal 과 Wish, 1984, pp. 30-35; Chatfield 와 Collins, 1980, pp. 194-195; Boyle과 Katz, 1991, pp. 565-574), 사회학 (du Toit 외 2인, 1986, pp. 127-131), 시장조사 ( 이재창과박정섭, 1986; Young, 1987, Chapter 9; Lawless 외 2인, 1995, pp. 91-98), 지리학 (Kruskal 과 Wish, 1978, pp. 7-9; Johnson 과 Wichern, 2002, pp. 700-708), 교육학 (du Toit 외 2인, 1984, pp. 133-144), 형상및이미지분석 (Dryden 과 Mardia, 1998, Chapter 12; Bronstein 외 2인, 2006, 1168-1172) 등여러분야에다양하게응용되고있다. 1.2 다차원척도법의역사적배경 19
1.3 다차원척도법의이론적배경 계량형과비계량형을포함하는이원다차원척도법과삼원다차원척도법의본격적인이론적배경은 3장과 4장에서설명하기로하자. 이절에서는 Kruskal 과 Wish(1978, pp. 15-27), Everitt 와 Dunn(1991, 5장 ), 그리고허명회 (1994, 8장 ) 의내용을중심으로다차원척도법의이론적배경을간단히소개하기로한다. 개의변수 (variables) 로 개의개체 (objects) 에대해얻은다변량자료행렬 (multivariate data matrix) 을, 라고하자. 의 번째행벡터 는 번째개체를나타내며이들 개의행벡터 은 차원의공간에서좌표점으로생각될수있다. 다차원척도법에서는 차원의공간에서이들좌표점간의거리 (distance) 가매우중요한역할을한다. 여기에서공간이란일반적으로두개체간의좌표점 와 사이의거리가피타고라스정리 (Pythagorean formular) 에의한유클리드거리 (1.3) 로정의되는 차원의유클리드공간을말한다. 이유클리드거리 를 1.1절의식 (1.1) 과같이비유사성으로정의한다면대각원소가 0이며대칭인비유사성행렬 는유클리드거리행렬이된다. 따라서다차원척도법이란 차원의유클리드공간에서두개체간의좌표점 와 사이의거리 와차원축소된 차원의공간에서두개체간의거리 사이의관계가서로일치되도록하는것이다. 보다광범위하게다차원척도법은유클리드거리에의해정의되는공간외에 2장에서설명되는다양한거리에의한다양한공간에서활용된다. 1.3.1 측정수준 다차원척도법에서식 (1.3) 에서정의된고차원의거리 와저차원의 의관계는 의측정척도 (measurement scale) 에따라달라진다. Schiffman 외 2인 (1981, p.15) 과 Young(1987, pp.57-60) 은측정척도를측정수준 (measurement level) 이라고하여다음과같이크게나눈다. 20 1 장다차원척도법의이해
명목수준 (nominal level): 측정대상의특성을분류하기위한척도 예 ) 성별, 동물의성 (genus), 사람의머리카락색깔, 음식의맛 순서수준 (ordinal level): 측정대상간의순서를나타내는척도 예 ) 선호도, 부모의수입수준 수치수준 (numerical level): 구간 (interval) 과비율 (ratio) 수준모두를의미하며실제 수자체가수치적의미를지니고있다. 수치수준에서구간수준이란등구간만인정하는경우로예를들면화씨 (F) 온도에서 20도와 50도의차이는 50도와 80도차이와같다. 그러나 80도가 20도보다 4배덥다는것을의미하지는않는다. 그리고비율수준은양 (mass), 속도 (velocity), 그리고길이 (cm) 와같은측도와관련이있다. 시속 60km 로달리는자동차는시속 30km 로달리는자동차보다 2배빠르게달린다고볼수있다. Everitt 와 Dunn(1991, 5장 ) 과허명회 (1994, 8장 ) 는이측정수준에근거하여다음의몇가지모형으로 와 의관계를고려하였다. 1) 절대척도 :, 2) 구간척도 :,, 3) 비율척도 :,, 4) 순서척도 :. 여기서 는측정및 차원공간근사에따른왜곡오차이며대개오차항이라고하고 는단조함수이다. 절대척도란측정거리값을그대로받아들이는경우이다. 끝으로 3) 의비율척도모형은구간척도모형 2) 에서 인경우에해당한다. 이런이유에서 Kruskal 과 Wish(1978, pp. 22-23) 는 와 의관계가절대척도, 구간척도, 비율척도모형을만족하도록하는다차원척도법을계량형다차원척도법이라고하였고순서척도모형의경우는비계량형다차원척도법라고하였다. 그리고이들을광범위하게는이원다차원척도법이라하며 3장에서이들을위한대표적인알고리즘과그사례를자세히다루고있다. 1.3 다차원척도법의이론적배경 21
앞서언급한 4 가지모형으로정의한 와 의관계는임의의함수 에대해서일 반적으로 (1.4) 로나타낼수있다. 예를들면식 (1.4) 에서함수 를선형인 로두면 구간척도모형이된다. 1.3.2 스트레스식 (1.4) 에있는일반적척도모형에서 와 의관계를최적화시킬 를찾기위해서는스트레스 (stress) 를정의하고이를최소화시키는수치적알고리즘을살펴보기로하자. 이를위해먼저 Kruskal 과 Wish(1978, pp. 24-25) 의잔차제곱합 (residual sum of squares) (1.5) 을생각하자. 척도변환에이잔차제곱합이불변하도록척도인자 (scale factor) (1.6) 를나누어그결과의제곱근을취하면소위스트레스 (stress) (1.7) 을얻게된다. Kruskal 과 Wish(1978, pp. 24-26) 는식 (1.7) 의스트레스를 <objection function, criterion function, error function, evaluation function, merit function, goodness-of-fit function, badness-of-fit function> 으로부른다. 일반적으로식 (1.7) 22 1 장다차원척도법의이해
의 을 Kruskal 의 < 스트레스공식 1(stress formular 1)> 또는 < 스트레스 1> 로부르고 있다. 이런의미에서 Kruskal 의 < 스트레스 2> 는 (1.8) 로정의된다. 이는식 (1.7) 에서사용된식 (1.6) 의척도인자 대신에총평균 에대해수정된척도인자 를사용한것이다. 스트레스는이외에도 SAS/PROC ALSCAL 에서채택된 Young 의 S-스트레스공식 1과 2가있다. 이는 Kruskal 의 과 에대응해서 (1.9) (1.10) 로정의된다 (Young 과 Lewyckyj, 1979, Chapter 4; Davison, 1992, pp. 87-89). 전체적으로스트레스공식을요약하면 Kruskal 의 과 그리고 Young 의 과 의차이점은 와 의관계를최적화시킬 와 와 의관계를 최적화시킬 를찾느냐에달려있다. 끝으로척도인자를나눌때평균에대하여식 (1.7) 과식 (1.9) 와같이수정되지않은것을공식 1(formula 1) 이라고하여 과 으로식 (1.8) 과식 (1.10) 과같이수정된것은공식 2(formular 2) 이라고하여 과 로정의된다. [ 알고리즘 1] 스트레스최소화알고리즘 1 단계 : 차원유클리드공간에서개체점좌표 과 들에대해스트레스를 최소화하는최적의 를찾는것이 의최적변환을찾는것이다. 구간척도 : 에서최적의 와 를구하는것이다. 1.3 다차원척도법의이론적배경 23
비율척도 : 에서최적의 를구하는것이다. 순서척도 : 가단조함수로최적의 를구하는것이다. 절대척도 : 이므로 를구할필요가없다. 2 단계 : 에대한측정모형에서 의최적변환에조건화하여스트레스를최소화 하는 차원좌표점을구한다. 이때최경사하강법가우스 - 뉴튼법 (Gauss-Newton method), Levenberg-Marquardt 법과같은수치최적화알고리즘이적용된다. 따라서이들스트레스를최소화하는최적의 를찾는것이 와 의관계를최적화한다. 일반적으로구간과비율척도에서는회귀모형에서가장많이쓰이는최소제곱선형회귀 (least squares linear regression) 알고리즘이적용되고, 순서척도에는최소제곱단조회귀 (least squares monotonic regression) 알고리즘이적용된다. 절대척도는이단계를거치지않는다. 이는 [ 알고리즘 1] 의두단계로구성된다 (Kruskal 과 Wish, 1978, pp. 25-27; Everitt 와 Dunn, 1991, pp. 75-76; 허명회, 1994, 8장 ). 특히, [ 알고리즘 1] 의 [2 단계 ] 의가우스 -뉴튼법과 Levenberg-Marquardt 법은비선형회귀 (nonlinear regression) 문제를해결하는수치적방법으로자세한수리적설명과비교는 Kennedy 와 Gentle(1980, pp. 475-485) 을참고하기를바란다. 1.3.3 차원의수일반적으로 개의개체가표현될저차원의차원수 는궁극적으로다차원척도그림의좌표축의수를정하는문제와도관련이있다. Kruskal 과 Wish(1978, Chapter 3) 는스트레스가차원의수가증가하면항상감소하므로이들의그림을통하여스트레스가제일많이꺾이는곳에대응하는차원을정하도록제안하고있다. 여기에서는이를스트레스 -차원수그림이라고부르자. 더군다나이방법은 Catell(1966) 에인자분석 (factor analysis) 에서인자의개수를정할때활용하는 <scree plot> 과닮았고참고로 SAS/PROC FACTOR 에서 <scree> 옵션으로쉽게제공되기도한다. 그러나 6.07 판의 SAS/PROC MDS 에서는스트레스 -차원수그림이제공되는옵션이없어최용석 (1995) 은 PROC MDS 문에서 <NOPHIST DIM=1 TO 4 OCRIT OUT= GRAPH> 을사용하고 PROC PLOT 문을사용하여 1차원부터 4차원까지의스트레스와차원수에대한 < 그림 1.6> 과같은스트레스 -차원수그림을제공받을수있음을보여주었다. 이들옵션에대해선 [ 부록 1: SAS MDS 절차 ] 에서 24 1 장다차원척도법의이해
자세히다루겠지만 1 차원부터 4 차원까지 (DIM=1 to 4) 의마지막반복에서의부적합도기준 인스트레스값 (OCRIT) 을 GRAPH 라는새로운자료세트로저장하되스트레스값을찾는반 복과정은생략 (NOPHIST) 하라는것이다. Plot of STRESS*DIM. Symbol used is '*'. < 그림 1.6> 6.07 판의스트레스 - 차원수그림 이책에서는 9.2판인 SAS Institute Inc.(2008, Chapter 53) 에서는그래픽기능을강화한 ODS GRAPHICS 문을활용하고 PROC MDS 문에서 <NOPHIST DIM=1 TO 4> 을사용하면 < 그림 1.7> 과같은스트레스 -차원수그림을제공받을수있다. < 그림 1.6> 과 < 그림 1.7> 을보면 2차원에서다소꺾임을볼수있다. < 그림 1.7> 은실제로 1.4.3 절의 [ 사례 3] 에서 [ 프로그램 1.3] 의수행에서얻을수있다. 1.3 다차원척도법의이론적배경 25
< 그림 1.7> 9.2 판의스트레스 - 차원수그림 일반적으로 Chatfield 와 Collins(1980, p. 208) 는 2차원 -4차원정도에서적절한차원을찾도록권하고있다. 대개저자의경험상 2차원 ( 좌표축이 2개 ) 정도이면차원축소를목표로하는다변량기법 ( 주성분분석, 인자분석, 행렬도, 대응분석등 ) 의기하적해석이원만하게이루어진다고생각된다. 이외에도차원수결정을위한적합도 (goodness of fit) 로잘알려진크루스칼의판별기준은 < 표 1.9> 와같다 (Kruskal, 1964; Mardia 외 2인, 1979, p. 414; Everitt 와 Dunn, 1991, p. 77; Johnson 과 Wichern, 2002, p. 701; Izenman, 2008, p. 501). < 표 1.9> 차원수결정을위한크루스칼의판별기준 스트레스 0.0 0.025 0.05 0.10 0.20 적합도 완벽 (perfect) 뛰어남 (excellent) 좋음 (good) 보통 (fair) 나쁨 (poor) 1.3.4 다차원척도그림의해석 지금까지다차원척도법의이론적배경을간단해살펴보았다. 일반적으로 차원의유클 리드공간에나타나는개체간의거리 가측정수준에따라차원축소된 차원의공 26 1 장다차원척도법의이해
간에서개체간의거리 와의관계가일치되도록 [ 알고리즘 1] 을통하여스트레스를최소화하는좌표점을얻게된다. 차원의수는부적합도기준인스트레스값을활용한스트레스 -차원수그림과크루스칼의판별기준에의해서결정될수있으나보편적으로 2차원이선호된다. 1.1.4 절의 [ 사례 4] 에는차원의수는 3이지만차원별로짝을지어 < 그림 1.4> 와같이 15군데신체부위의유사성에대한 2차원의다차원척도그림의해석을하였다. 일반적으로 2차원다차원척도그림에대한해석은 [ 사례 1]-[ 사례 5] 에서보았듯이크게세가지이다. 1) 개체간의그룹 : 공통의특성을갖는개체들은가깝게모여있다. 2) 개체간의순서 : 중요한특성 ( 좌표축 ) 에따라개체들이정렬된다. 3) 축에대한해석 : 개체들의그룹화와순서화에따라좌표축을해석하거나새로운축을형성한다. 이경우축의회전도고려된다. 특히, 3) 의축에대한해석에서새로운축은기존의좌표축을회전시켜얻어진다고볼수있다. 이는인자분석에서명확하지못한인자해석을인자적재행렬의회전을통하여새로운축을얻어명확하게하는개념과유사하다. 이러한기하적인설명은개체간에정의한유클리드거리에근거한다고볼수있다. 추가적으로다양한예제를통한상세한다차원척도그림에대한해석은 Davison(1992, pp. 70-71 과 pp. 93-94) 을참고하기를바란다. 1.4 다차원척도법을위한 SAS/PROC MDS 의예 이절에서는 1.1 절에서소개한 5 가지사례중 [ 사례 1]-[ 사례 3] 과관련된 SAS/PROC MDS 프로그램을소개하고나머지 [ 사례 4] 와 [ 사례 5] 의프로그램은각각 4 장과 5 장에서 소개하려한다. 1.4.1 [ 사례 1] 을위한프로그램및결과 [ 프로그램 1.1] 은 1.1.1 절의 < 표 1.1> 의도시간철도거리에대한다차원척도법을위한 SAS/PROC MDS 프로그램이다. [ 프로그램 1.1] 은크게두과정 (procedure) 으로나뉘어져있다. 먼저 1) 은 < 표 1.1> 의자료를 SAS 자료세트인 <railroad> 를만드는과정이다. 2) 는 1.4 다차원척도법을위한 SAS/PROC MDS 의예 27
다차원척도법을위한 PROC MDS 문이다. 자료의측정수준이절대척도이므로옵션 <level=absolute> 를사용하였다. 따라서이옵션은계량형다차원척도법을암시한다. 측정수준에대해선 1.3.1절에서충분히언급하였다. 그리고 <pconfig> 는 [ 결과 1.1] 의 1과 2 만을제공하라는출력에관련된옵션이다. [ 프로그램 1.1] 도시간철도거리의계량형다차원척도법 1) data railroad; input (seoul pusan kwangju taegu incheon kangnung cheongju jeonju) (6.1) @60; cards; 0.0 444.5 0.0 353.8 364.7 0.0 323.9 120.6 350.0 0.0 30.9 475.4 384.7 359.9 0.0 348.5 505.0 523.0 388.8 379.4 0.0 141.2 326.1 235.4 211.4 172.1 288.6 0.0 279.9 391.0 124.6 276.4 310.8 449.4 136.3 0.0 ; 2) ods graphics on; proc mds data=railroad level=absolute pconfig; 결과 1은 1.3.2 절에서설명한 [ 알고리즘 1] 인스트레스최소화알고리즘을위한가우스 - 뉴튼법과 Levenberg-Marquardt 법을적용한수치적계산과정을나타낸다. 여기서마지막반복 (iteration) 2의 <Badness-of-Fit Criterion> 0.0800 은스트레스값이다. 이는약 0.08 로결과 3의 2차원계량형다차원척도그림이개체간의관계를설명하는정도가크루스칼의판별기준인 < 표 1.9> 에따르면 <0.05 좋음 (good)> 보다낮고 <0.10 보통 (fair)> 보다는높은정도를나타낸다. 차원수는디폴트 (DIM=2) 로 2이다. 그리고결과 2의 <Configuration> 은결과 3의형상공간인 2차원다차원척도그림을위한좌표이며이를형상좌표 (configuration coordinate) 라고한다. 끝으로최용석 (1995) 의 SAS 6.07 판에서결과 3의다차원척도그림을얻기위해서는다소복잡한 PROC PLOT 문을활용하였지만, 9.2판부터는 [ 프로그램 1.1] 의 2) 에서 PROC MDS 문에앞서 <ods graphics on;> 을삽입하면자동으로제공된다. 기본적으로 [ 부록 1.2] 의 ODS GRAPHICS 절차에관련된내용에대한약간의지식이필요하지만우선은 PROC MDS 절차에앞서 [ 부록 1.2] ODS GRAPHICS 의 [ 프로그램 2] 를제일먼저실행하면된다. 이는저자가다차원척도그림에서수평과수직축의원점을지나는참고선을그리고그림모양을정사각형으로제공하도록추가적으로수정한것이다. 28 1 장다차원척도법의이해
[ 결과 1.1] [ 프로그램 1.1] 의수행결과 1 Multidimensional Scaling: Data=WORK.RAILROAD.DATA lteration Shape=TRIANGLE Condition=MATRIX Level=ABSOLUTE Coef=IDENTITY Dimension=2 Formula=1 Fit=1 Gconverge=0.01 Maxiter=100 Over=1 Ridge=0.0001 Type Badness-of-Fi t Criterion Change in Criterion Convergence Measure 0 lnitial 0.0944 0.5122 1 Lev-Mar 0.0802 0.0142 0.0610 2 Gau-New 0.0800 0.000167 0.008376 2 Convergence criterion is satisfied. Configuration Dim1 Dim2 Seoul -145.21-100.68 Pusan 207.98 205.76 Kwangju 196.72-156.14 taegu 94.08 146.41 incheon -169.99-128.31 kangnung -260.46 192.24 cheongju -22.18-29.37 jeonju 99.05-129.90 3 < 그림 1.1> 도시간철도거리의계량형다차원척도그림 1.4.2 [ 사례 2] 를위한프로그램및결과 [ 프로그램 1.2] 는 (a) 와 (b) 로구성되어있고그수행결과도이와대응하여 [ 결과 1.2] 에 (a) 와 (b) 로정리되어있다. 1.1.2 절의 < 표 1.2> 우리나라 14개경제관련기관의 10가지경제전망으로부터 (a) 는 < 표 1.3> 원자료의유클리드거리에의한비유사성자료에대한다차원척도프로그램이다. (b) 는 < 표 1.4> 의이진수자료로부터 < 표 1.5> 의비유사성행렬자료에대한다차원척도법을위한프로그램이다. 특히 < 표 1.5> 의자료는이진수자료인 < 표 1.4> 에서두기관별제곱유클리드거리에다가경제전망의항목수인 10을나눈것과동일하며, 이는 2장의유사성측도인단순매칭계수 (simple matching coefficient) 와연관되어있다. [ 프로그램 1.2] 는 [ 사례 1] 의 [ 프로그램 1.1] 과그문법적형식이동일하다. 단지두드러진차이점은 PROC MDS 문에서옵션 <level= ordinal>( 디폴트 ) 와 <pfinal> 이다. 이는비계량형다차원척도법을적용하기위한옵션이다. 1.4 다차원척도법을위한 SAS/PROC MDS 의예 29
[ 결과 1.2]-1 은비계량형다차원척도법을위한수치적계산과정이다. 이는 1.3.2 절에서설명한 (Kruskal 의스트레스 1) 의최소화알고리즘을위한것으로 [ 결과 1.1]-1 에비해 [ 알고리즘 1] 의스트레스최소화알고리즘의 [1단계 ] 와 [2단계 ] 를다거치고있음을보여주고있다. 옵션 <pfinal> 은옵션 <pconfig> 에의해서제공되는결과 2뿐만아니라결과 3도제공하는출력에관련된옵션이다. 결과 3은결과 1-(a) 와 (b) 의마지막반복의 <Badness-of-Fit Criterion> 값 0.1496 과 0.1639 만을제공하고있다. 이는각각약 0.15 와 0.16 에해당하여두경우가대동소이하고크루스칼의판별기준 < 표 1.9> 로부터 <0.10 보통 (fair)> 보다는낮고 <0.20 나쁨 (poor)> 보다는높다는것을알수있다. 결과 4는 < 그림 1.2> 경제관련기관의경제전망의비계량형다차원척도그림으로그해석도와함께이미 1.1.2 절에서먼저인용하여살펴보았다. 이외의 [ 프로그램 1.2] 와 [ 결과 1.2] 에대한나머지설명은 1.4.1 절의 [ 사례 1] 에서와같다. [ 프로그램 1.2] 경제관련기관의경제전망에관한비계량형다차원척도법 (a) 원자료의유클리드거리 data economy_euclid; input (hankook daewoo1 dongseo1 kyungrun sangkong choongso hyundai samsung sunkyung daewoo2 shinhan dongseo2 korea chungang) (6.3) @84; cards; 0.000 4.166 0.000 2.293 3.672 0.000 3.269 6.925 4.110 0.000 2.390 5.476 3.496 4.157 0.000 4.410 5.723 4.635 5.837 4.316 0.000 3.573 4.432 4.084 4.812 5.177 4.231 0.000 1.846 4.197 2.839 4.322 3.182 5.220 4.233 0.000 3.700 5.189 2.854 5.207 4.631 5.231 5.088 3.880 0.000 3.131 6.345 3.800 2.789 3.820 4.796 3.928 4.468 4.159 0.000 3.118 4.344 2.363 4.653 4.265 4.260 3.592 3.920 2.990 3.549 0.000 1.784 4.443 1.515 3.291 3.061 4.263 3.820 2.469 3.401 3.278 2.648 0.000 5.362 5.571 5.684 6.926 5.856 5.563 4.699 6.336 5.696 5.349 4.994 6.088 0.000 4.343 6.693 5.425 4.474 5.124 4.407 3.336 5.114 6.064 4.192 4.934 4.568 5.176 0.000 ; ods graphics on; proc mds data=economy_euclid pfinal; 30 1 장다차원척도법의이해
(b) 이진수자료의제곱유클리드거리 data economy; input (hankook daewoo1 dongseo1 kyungrun sangkong choongso hyundai samsung sunkyung daewoo2 shinhan dongseo2 korea chungang) (3.1) @45; cards;.0.4.0.4.2.0.4.8.8.0.5.5.5.5.0.5.3.5.7.4.0.8.4.6.6.5.3.0.3.3.5.5.4.6.5.0.6.2.2.8.5.5.6.5.0.4.8.8.0.5.7.6.5.8.0.6.2.4.6.7.5.4.5.2.6.0.3.3.1.7.4.4.7.6.3.7.5.0.8.6.8.4.5.5.2.5.6.4.4.9.0.7.5.7.5.4.2.1.6.7.5.5.6.3.0 ; ods graphics on; proc mds data=economy pfinal; [ 결과 1.2] [ 프로그램 1.2] 의수행결과 1 (a) 원자료의유클리드거리 Shape=TRIANGLE Condition=MATRIX Level=ORDINAL Coef=IDENTITY Dimension=2 Formula=1 Fit=1 Mconverge=0.01 Gconverge=0.01 Maxiter=100 Over=2 Ridge=0.0001 lteration Type Badnessof-Fit Criterion Change in Criterion Convergence Measure Monotone Gradient 0 lnitial 0.2776... 1 Monotone 0.2049 0.0727 0.1760 0.5150 2 Gau-New 0.1708 0.0341.. 3 Monotone 0.1656 0.005190 0.0336 0.2572 4 Gau-New 0.1598 0.005814.. 5 Monotone 0.1532 0.006609 0.0436 0.1787 6 Gau-New 0.1525 0.000733.. 7 Monotone 0.1513 0.001152 0.0174 0.1406 8 Gau-New 0.1508 0.000518.. 9 Monotone 0.1503 0.000486 0.0117 0.0958 10 Gau-New 0.1501 0.000215.. 11 Monotone 0.1500 0.000130 0.006270 0.0726 12 Gau-New 0.1496 0.000379. 0.006127 (b) 이진수자료의제곱유클리드거리 Shape=TRIANGLE Condition=MATRIX Level=ORDINAL Coef=IDENTITY Dimension=2 Formula=1 Fit=1 Mconverge=0.01 Gconverge=0.01 Maxiter=100 Over=2 Ridge=0.0001 lteration Type Badness -of-fit Criterion Change in Criterion Convergence Measure Monotone Gradient 0 lnitial 0.2275... 1 Monotone 0.2144 0.0131 0.0813 0.5365 2 Gau-New 0.1764 0.0380.. 3 Monotone 0.1759 0.000421 0.0331 0.2770 4 Gau-New 0.1702 0.005737.. 5 Monotone 0.1671 0.003085 0.0359 0.1912 6 Gau-New 0.1668 0.000327.. 7 Monotone 0.1668 0.0000296 0.008016 0.1847 8 Gau-New 0.1639 0.002879. 0.007368 1.4 다차원척도법을위한 SAS/PROC MDS 의예 31
2 Configuration Dim1 Dim2 hankook 0.40 0.06 daewoo1-1.11 1.75 dongseo1 0.21 0.62 kyungrun 1.59-0.78 sangkong 1.22 0.05 choongso -0.88-1.33 hyundai -0.84-0.32 samsung 0.81 0.74 sunkyung 0.40 1.45 daewoo2 0.67-0.77 shinhan -0.26 0.47 dongseo2 0.42 0.23 korea -2.54-0.28 chungang -0.09-1.89 Configuration Dim1 Dim2 hankook 0.33 1.55 daewoo1 0.96-0.25 dongseo1 1.49 0.38 kyungrun -1.60 0.92 sangkong -0.48 0.34 choongso 0.09-1.04 hyundai -0.70-1.28 samsung -0.06 0.99 sunkyung 1.49-0.32 daewoo2-1.60 0.92 shinhan 0.93-0.93 dongseo2 1.36 0.62 korea -1.41-0.83 chungang -0.81-1.07 3 _MATRIX_ Number of Nonmissing Data Weight Badness-of-Fit Criterion Distance Correlation Uncorrected Distance Correlation 1 91 1.00 0.15 0.94 0.99 Number of Badness-of-Fit Uncorrected Distance _MATRIX_ Weight Distance Correlation Nonmissing Data Criterion Correlation 1 91 1.00 0.16 0.91 0.99 4 < 그림 1.2> 경제관련기관의경제전망의비계량형다차원척도그림 1.4.3 [ 사례 3] 을위한프로그램및결과 [ 프로그램 1.3] 은 1.1.3절의 12개국가의유사성행렬자료 < 표 1.6> 을이용하여 SAS자료세트인 <nation> 을만드는과정 1) 과다차원척도법을위한 PROC MDS 문의과정 2) 로구성되어있다. 프로그램의수행결과는 [ 결과 1.3] 에정리되어있다. 기본적으로 SAS/PROC MDS 에서는비유사성행렬자료에대한다차원척도법을제공한다. 따라서유사성행렬자료를비유사성행렬자료로바꾸어주는과정내지는이를위한옵션이필요하다. 다시말해서먼저 1.1.3 절에서살펴본바와같이개체자신의유사성이 9점 ( 매우유사하다 ) 을대각원소로하는유사성행렬자료 < 표 1.6> 을입력자료로하여전형적인 PROC MDS 문을사용한다. 그러면 PROC MDS 는자동으로대각원소값이비대각원소값보다크므로대각원소값에서비대각원소값을빼비유사성행렬로만든다. [ 프로그램 1.3] 의 2) 에서측정수준에관한옵션으로 <level=ordinal>( 디폴트 ) 로순서척도를지정하여비계량형다차원척도법을제공하고있다. 이는 < 표 1.4> 의유사성행렬자료에서원소들의크기의순서에의미를갖기때문이다. 옵션 <nophist> 는이미살펴본 [ 사례 1] 과 [ 사례 2] 의 [ 결과 1.1] 과 [ 결과 1.2] 의 1에나타난스트레스최소화알고리즘을위한수치적반복과정을제공하지않는다. 대신에제일마지막 <Badness-of-Fit Criterion> 의 32 1 장다차원척도법의이해
스트레스값 0.20 만을 [ 결과 1.3] 에서보여주고있다. [ 프로그램 1.3] 의과정 2) 의 <ods graphics on;> 으로인하여자동으로 [ 결과 1.3] 의 < 그림 1.3> 을제공한다. 그리고옵션 <dim=1 to 4> 에의해서 1.3.3 절에서언급한형상공간의차원의수를결정할스트레스 -차원수그림 < 그림 1.7> 을제공한다. [ 프로그램 1.3] 12 개국가의유사성행렬자료에대한비계량형다차원척도법 1) data nation; input (brazil congo cuba egypt france india israel japan china ussr usa yugo) (5.2) @60; cards; 9.00 4.83 9.00 5.28 4.26 9.00 3.44 5.00 5.17 9.00 4.72 4.00 4.11 4.78 9.00 4.50 4.83 4.00 5.83 3.44 9.00 3.83 3.33 3.61 4.67 4.00 4.11 9.00 3.50 3.39 2.94 3.84 4.11 4.50 4.83 9.00 2.39 4.00 5.50 4.39 3.67 4.11 3.00 4.17 9.00 3.06 3.39 5.44 4.39 5.06 4.50 4.17 4.61 5.72 9.00 5.39 2.39 3.17 3.33 5.94 4.28 5.94 6.06 2.56 5.00 9.00 3.17 3.50 5.11 4.28 4.72 4.00 4.44 4.28 5.06 6.67 3.56 9.00 ; 2) ods graphics on; proc mds data=nation pfinal nophist dim=1 to 4; [ 결과 1.3] [ 프로그램 1.3] 의수행결과 _MATRIX_ Number of Nonmissing Data Multidimensional Scaling: Data=WORK.NATION.DATA Shape=TRIANGLE Condition=MATRIX Level=ORDINAL Coef=IDENTITY Dimension=2 Formula=1 Fit=1 Configuration Dim1 Dim2 brazil -0.34 1.78 congo 1.41 1.28 cuba 1.43-0.27 egypt 0.79 0.31 france -0.61 0.31 india 0.40 0.61 israel -1.45 0.35 japan -1.30-0.78 china 1.26-1.18 ussr 0.01-1.23 usa -1.66 0.03 yugo 0.07-1.20 Weight Badness-of-Fit Criterion Distance Correlation Uncorrected Distance Correlation 1 66 1.00 0.20 0.85 0.98 < 그림 1.3> 12 개국가의유사성에대한비계량다차원척도그림 < 그림 1.7> 9.2 판의스트레스 - 차원수그림 1.4 다차원척도법을위한 SAS/PROC MDS 의예 33
이번에는 [ 프로그램 1.3] 의과정 1) 에서대각원소 9 대신에 ( 결측값 ) 이나 0.00(zero) 을입력하고과정 2) 의 PROC MDS 문에 <similar=9> 옵션을추가하면동일한 [ 결과 1.3] 을제공받을수있다. 여기서 <similar=9> 는입력자료를비유사성행렬이아닌유사성행렬로처리하라는옵션이다. 그리고지정된 9는이값과자료행렬의원소들중최댓값으로부터각원소를빼비유사성행렬을제공하라는수이다. 이와관련하여 [ 부록 1.1.2] 에서유사성행렬자료를입력자료로사용할경우에대하여자세히설명하고있다. 연습문제 1.1 다음은우리나라경부, 호남, 영동, 남해, 88 올림픽고속도로중심의 8 개도시간고속 도로거리 (km) 에대한자료이다 ( 허명회, 1992). 서울. 대전 152. 전주 225 85. 광주 317 177 92. 대구 305 153 238 208. 부산 428 276 361 258 123. 원주 119 211 284 376 364 598. 강릉 230 322 395 487 475 709 111. 1) 자료가유사성행렬인지또는비유사성행렬인지를말하라. 2) 대각원소값은얼마인가? 3) 측정수준과스트레스값을구하라. 4) 스트레스 -차원수그림을얻고적절한차원을말하라. 5) 다차원척도그림을해석하고새로운축에의미를부여하라. 1.2 다음은미국주요 10개도시들간의비행거리 (miles) 를나타낸다 (Kruskal 과 Wish, 1978, pp.7-9). 1) 비행거리를바탕으로가까운도시를군집할때동부 (New york, Washington D.C., Atlanta, Chicago, Miami, Houston) 와서부 (Los Angeles, San Francisco, Seattle, Denver) 로나누어지는지를확인하여보라. 2) 다차원척도법을통하여군집화를시도하고축을해석하라. 34 1 장다차원척도법의이해
3) 계량형과비계량형다차원척도법의결과를비교하라. 4) 스트레스값은얼마이며적합의정도를판단하라. ATLANTA 0 CHICAGO 587 0 DENVER 1212 920 0 HOUSTON 701 940 879 0 LOS ANGELES 1936 1745 831 1374 1374 MIAMI 604 1188 1726 968 2339 0 NEW YORK 748 713 1631 1420 2451 1092 0 SAN FRANCISCO 2139 1858 949 1645 347 2594 2571 0 SEATTLE 2182 1737 1021 1891 959 2734 2408 678 0 WASHINGTON D.C. 543 597 1494 1220 2300 923 205 2442 2329 0 1.3 다음의자료는 4 개의기업 ( 아남, 대우전자, 금성사, 삼성전자 ) 에대한자료이다 ( 최병진, 1989). 이자료는 239 명의사람들이각각기업을둘씩짝지은 6 가지경우에대해 1 점 ( 아주비슷하다 ) ~ 7 점 ( 매우다르다 ) 의 7 점척도로응답한후그평균으로만들어졌다. 아남. 대우전자 4.2585. 금성사 4.3178 4.1350. 삼성전자 4.4430 4.0000 3.6410. 1) 자료가유사성행렬인지또는비유사성행렬인지를말하라. 2) 대각원소값은얼마인가? 3) 스트레스 -차원수그림을얻고적절한차원을말하라. 4) 측정수준을달리하여다차원척도그림을서로비교하여보라. 5) 다차원척도그림을해석하고개체간의그룹화와그특성을논하라. 1.4 다음은켈로그회사에의해서제조된총 23 종류의시리얼에대한것으로 10 가지변수 으로측정되었고이들을다시표준화한자료이다. 이는 [ 부록 2: 자료 5( 파 일이름 : kellogg.txt)] 에서제공되며변수들은다음과같다. : 칼로리, : 단백질 (g), : 지방 (g), : 나트륨 (mg), : 다이어트식이섬유 (g), : 복합탄수화물 (g), : 당분 (g), : 칼륨 (mg), : 비타민과무기물 ( 하루권장량 (%) : 0, 25, 100), : 유형 ( 온또는냉 ) 2.1 비유사성 35
1) 주관적기준에따라이진수자료를만들어보라. 2) 두개체간에일치하지않는항목의수를이용하여비유사성행렬자료를제공하라. 3) 비유사성행렬자료에대한다차원척도법을실시하고시리얼의유형을군집화하라. 4) 주성분분석을통한주성분점수의산점도와다차원척도그림을비교하여시리얼의유형에차이가있는지를살펴보라. 시리얼 AllB AllF AppJ CorF CorP Crac Cris Froo FroF FrMW FruB JRCN JRFN MuCB Nut& NGAR NutW Prod RaBr Rais RiKr Smac Spec 0.1818 0 0.5455 0.4545 0.5455 0.5455 0.5455 0.5455 0.5455 0.4545 0.6364 0.5455 0.8182 1 0.6364 0.8182 0.3636 0.4545 0.6364 0.3636 0.5455 0.5455 0.5455 0.6 0.6 0.2 0.2 0 0.4 0.2 0.2 0 0.4 0.4 0.2 0.4 0.4 0.2 0.4 0.4 0.4 0.4 0.2 0.2 0.2 1 0.3333 0 0 0 0 1 0 0.3333 0 0 0 0.3333 0.3333 0.6667 0.3333 0.6667 0 0 0.3333 0 0 0.3333 0 0.8125 0.4375 0.3906 0.9063 0.2813 0.4375 0.6875 0.3906 0.625 0 0.75 0.5313 0.5313 0.4688 0.5938 0.6875 0.5313 1 0.6563 0 0.9063 0.2188 0.7188 0.6429 1 0.0714 0.0714 0.0714 0.2857 0.0714 0.0714 0.0714 0.2143 0.3571 0.0714 0.1429 0.2143 0 0.2143 0.2143 0.0714 0.3571 0.1429 0 0.0714 0.0714 0 0.0667 0.2667 0.9333 0.4 0.2 0.9333 0.2667 0.4667 0.4667 0.4667 0.6667 0.8667 0.6667 0.5333 0.9333 0.7333 0.8667 0.4667 0.5333 1 0.1333 0.6 0.3333 0 0.9333 0.1333 0.8 0.4667 0.2 0.8667 0.7333 0.4667 0.8 0.4 0.6 0.8667 0.6 0.4667 0.1333 0.2 0.8 0.4 0.2 1 0.2 1 1 0.5 0 0.5 1 1 0.5 0 0.5 1 1 1 1 0.5 1 1 1 0.5 1 0 0.5 0 0.9677 1 0.0323 0.0484 0 0.4516 0.0323 0.0323 0.0161 0.2581 0.5484 0.129 0.2419 0.4516 0.0645 0.3548 0.2258 0.0806 0.7097 0.2903 0.0484 0.0645 0.1129 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1.5 다음은사람의눈으로색을인지하는실험의결과이다. 색채의파장길이 (434 ~ 674) 에따른 14가지색을각각두색씩짝을지은 91가지경우에대하여 31명이 0 점 ( 전혀유사하지않다 ) ~ 4점 ( 동일하다 ) 의 5점척도로평가하여그평균점수로 14가지색의행렬자료를만들었다. 이는 [ 부록 2: 자료 6( 파일이름 : color.txt)] 에서제공되며참고로파장길이에따라 434= 남색, 445= 청색, 472= 청록색, 504= 녹색, 555= 황녹색, 600= 노랑색, 628= 귤색, 651= 주황색, 674= 적색등몇가지색을살펴볼수있다 (Izenman, 2008, pp. 468-469). 36 1 장다차원척도법의이해
1) 행렬자료가유사성행렬인지또는비유사성행렬인지를말하라. 2) 비계량형다차원척도법에서다차원척도그림은색채환 (color circle) 을제공함을보여라. 3) 비계량형과계량형다차원척도법의결과를비교하라. 434 1 445 0.86 1 465 0.42 0.5 1 472 0.42 0.44 0.81 1 490 0.18 0.22 0.47 0.54 1 504 0.06 0.09 0.17 0.25 0.61 1 537 0.07 0.07 0.1 0.1 0.31 0.62 1 555 0.04 0.07 0.08 0.09 0.26 0.45 0.73 1 584 0.02 0.02 0.02 0.02 0.07 0.14 0.22 0.33 1 600 0.07 0.04 0.01 0.01 0.02 0.08 0.14 0.19 0.58 1 610 0.09 0.07 0.02 0 0.02 0.02 0.05 0.04 0.37 0.74 1 628 0.12 0.11 0.01 0.01 0.01 0.02 0.02 0.03 0.27 0.5 0.76 1 651 0.13 0.13 0.05 0.02 0.02 0.02 0.02 0.02 0.2 0.41 0.62 0.85 1 674 0.16 0.14 0.03 0.04 0 0.01 0 0.02 0.23 0.28 0.55 0.68 0.76 1 2.1 비유사성 37
2 장 비유사성과유사성 다차원척도법에서이용되는최종자료의형태는식 (1.1) 에서정의한크기가 인비유사성행렬, 이거나 1.1.3 절의 [ 사례 3] 에서정의한유사성 에의한유사성행렬, 이다. 비유사성과유사성은경우에따라상호변환 (transformation) 이가능하다. 일반적으로이행렬 D와 C는직접관찰되기도하지만대개 1.3절에서주어진 개의변수로 n개의개체에대해얻은다변량자료행렬, 로부터구해진다. 이장에서는개체간과변수간의비유사성과유사성에대해각각정의하고이를측정할측도에대한소개및적용사례를보이고자한다. 더불어그룹간의비유사성계수와양적변수, 질적변수가혼합되어있는경우의유사성계수를추가적으로설명하고있다. 끝으로원자료나이진수자료로부터비유사성과유사성측도를계산하고이를통하여제공되는비유사성과유사성행렬자료의다차원척도법을통합적으로적용하게하는프로그램을소개하려한다.
2.1 비유사성 비유사성 (dissimilarity) 은개체간의근접성 (proximity 또는 closeness) 과연관성 (association) 을평가하는측도이다. 이는개체가변수라면상관계수의절댓값에의해서측정되며, 일반적으로유클리드거리, 네트워크거리등다양한기하적거리를나타낸다. 비유사성은다차원척도법뿐만아니라군집분석에서도활용되며, 이를정의하고요약하자. 2.1.1 비유사성측도다변량자료행렬 의 번째행벡터 는 번째개체를나타내며이들 개의행벡터 은 차원의공간에서좌표점이다. 따라서다차원척도법에서는 차원의공간에서이들좌표점간의거리가매우중요한역할을하며이를비유사성의측도로사용한다. 두개체 와 사이의거리들중에서가장잘알려진것이식 (1.3) 에서정의하였지만 유클리드거리 : 이다. 여기서나머지비유사성을나타내는거리들에대해정의하기에앞서이들이기본적 으로만족해야할세가지조건은다음과같다. 1). 2). 3). ( 대칭성 ) 추가적으로다음의 4a) 를만족하면계량형 (metric) 이고, 4b) 를만족하면초계량형 (ultrametric) 이라고한다 (Izenman, 2008, pp. 412-413). 4a) +. ( 삼각부등식 ) 4b) max. 40 2 장비유사성과유사성
그러나조건 4a) 와 4b) 는결코필요조건은아니며대부분의거리들이이조건을만족하 지않기때문이다. 일반적으로유클리드거리는모든조건을만족한다고알려져있다. 다음 으로는 민코브스키 (Minkowski) 거리 : (2.1) 가있다. 식 (2.1) 에서 인경우는유클리드거리며 인경우는 시티 - 블럭 (city-block): 로맨하턴 (Manhattan) 거리라고도한다. 이들세가지거리들은변수들이그들의측정단위 가다르거나, 서로상관관계가있거나, 특정한변수의분산이나머지변수들에비해매우 큰경우에크게달라진다 (Chatfield 와 Collins, 1980, pp. 192-193). 이점을개선하여변 수들이중심화, 를만족한다는가정아래표준화를통한표준화거 리로 피어슨 (Pearson) 거리 : 혹은 χ 거리가있다. 여기서 은 번째변수 의분산이다. 다음으로피어슨거리가변수별표준화를고려한것이라면이뿐만아니라변 수들간의상관관계도고려하고있는 마할라노비스 (Mahalanobis) 거리 : 가있다. 여기서 는표본분산 - 공분산행렬이다. 끝으로유클리드거리와피어슨거리의일 반화된 2.1 비유사성 41
가중 (weighted) 유클리드거리 : (2.2) 를생각할수있다. 식 (2.2) 에서 이면유클리드거리이고 이면피어슨거 리가됨을쉽게알수있다. Mardia 외 2 인 (1979, p. 381) 은그룹간의비유사성계수로칼피어슨과마할라노비스 계수를요약하고있다. 만약에임의의두그룹 와 에대하여각그룹의크기를, 라하고 과 을 번째그룹의평균과분산이라고하면그룹간의비유사성계 수인칼피어슨거리 를정의하며마할라노비스거리로다음을정의하고있다. 변수들간의군집을위해서사용하는비유사성은두변수 과 에대하여다음을사용한다. 1- 상관계수 : (2.3) 여기서 은공분산이고 과 은각변수의표 준편차이다. 은두변수의상관계수이다. 특히, 식 (2.3) 에의해서크기가 이고대칭인비유사성행렬 를형성한다. 이외에도 Cox 와 Cox(2001, Table 1.1) 에는다양한비유사성계수가요약되어있다. 행과열을가지는범주형자료에서도수 (frequency) 에의한 분할표를, 라고하면 와 번째두행범주사이의유클리드거리는 42 2 장비유사성과유사성
다음과같다. 행범주간의유클리드거리 : 범주형자료의유클리드거리는행범주와더불어열범주간에도동일하게성립하며다변량통계기법인대응분석 (correspondence analysis) 에서범주들간의기하적인거리로정의된다. 따라서범주들의군집에중요한역할을한다 ( 최용석, 2001, 2장 ; 정광모와최용석, 2009, 12장 ). 2.1.2 비유사성측도의적용일반적으로다차원척도법에서는 1.1.2 절에서소개한 [ 사례 2] 의 < 표 1.2> 우리나라 14개경제관련기관의향후 1년간 10가지경제전망과같이다변량자료행렬 가양적 (quantative) 인경우 < 표 1.3> 의개체간의유클리드거리를비유사성으로하여다차원척도법을실시하였다. 물론앞서정의한다른다양한거리도응용될수있음은당연하다. 더불어양적인자료 < 표 1.2> 를 0과 1 값을가진이진수로구성된질적 (qualitative) 자료행렬로변환하여다차원척도법을적용하였다. 여기서경제전망에관한두기관의의견이다른항목의수를전체항목의수로나누어이를비유사성 로정의하였다. 이는실제앞서정의한두개체간의거리개념에서보면이진수자료의제곱유클리드거리를전체항목수로나눈것과동일하다. 이를수리적으로보기위해이진수자료행렬 가 개체 가 번째변수의성질을만족한다 그렇지않다 (2.4) 을만족하는 < 표 1.4> 로부터한국은행과동서증권두개체만을고려한 < 표 2.1> 을생각해 보자. 두개체 한국은행과 동서증권에대해식 (2.4) 에의해서다음을만족한다. = 2.1 비유사성 43
< 표 2.1> 이진수자료의예 기관 경제전망 1 2 3 4 5 6 7 8 9 10 한국은행 0 1 0 0 0 1 1 1 1 1 동서증권 1 1 0 1 1 0 1 1 1 1 따라서 < 표 2.1> 로부터 10 가지경제전망에대한이들간의제곱유클리드거리는 이다. 이는경제전망에관한두기관의의견이다른항목의수이다. 이값을전체항목의개수 10으로나누어주면 0.4가된다. 이는이미 1.1.2 절의 [ 사례 2] 에서두개체 한국은행과 동서증권에대한비유사성 와동일하다. 이외에도여러가지비유사성을나타낼거리들에대해서는 Mardia 외 2인 (1979, pp. 375-381) 과 Cox와 Cox(2001, Table 1.1) 를참고하기를바란다. 특히, 식 (2.2) 의가중유클리드거리를고려하는다차원척도법을 1.2절에서 Carroll 과 Chang(1970) 의 INDSCAL 이라하였다. 이를수정하여 SAS 에서는 PROC ALSCAL 에서이를수용하였고 PROC MDS 문에서는옵션 <COEF=DIAGONAL> 이그역할을대신하고있다. 유클리드거리에의한다차원척도법은옵션 <COEF=IDENTITY>( 디폴트 ) 이제공한다. 이들에대한자세한내용은 4장의삼원다차원척도법을참고하기를바란다. 2.1.3 비유사성측도의계산을위한프로그램이절에서는 1.1.2 절의 [ 사례 2] 의 14개경제관련기관의 10가지경제전망 < 표 1.2> 에대하여비유사성측도중유클리드거리를계산하고이를비유사성행렬자료로하여다차원척도법을위한 SAS/PROC MDS 프로그램을소개하려한다. [ 프로그램 2.1] 은 < 표 1.2> 와같이원자료가양적인다변량자료행렬 를이루며이로부터유클리드거리등다양한거리와같은비유사성측도계산을행렬프로그래밍언어인 SAS/IML 을활용하여선보이고있다. 이를통하여개체간의유클리드거리로이루어진 < 표 1.3> 과같은비유사성행렬자료를얻게되고더불어 SAS/PROC MDS 와연동하여그결과인비유사성행렬자료에대해직접다차원척도법을실시할수있다. [ 결과 2.1]-1 Euclidean distance 에서유클리드거리를보여주고있다. 물론, 1.4.2 절의 [ 프로그램 1.2]-(a) 는 < 표 44 2 장비유사성과유사성
1.3> 의비유사성행렬자료가입력자료로제공되어있을때다차원척도법적용관점에서작성된것이며실행결과는 [ 결과 1.2]-(a) 에서자세히살펴보았다. 비록 [ 프로그램 2.1] 의실행결과는 [ 프로그램 1.2]-(a) 의결과와동일하나종합적으로요약차원에서 [ 결과 2.1] 에다시정리하고있다. [ 프로그램 2.1] 원자료로부터다차원척도법을위한 SAS/IML 과 MDS /* Creating dissimilarity matrix from a raw data*/ OPTIONS PS=150 LS=250; data economy; input id $ x1-x10; lines; hankook 8.2 1950 698 650 98 280 630 3.0 5.7 12.0 daewoo1 9.5 2100 710 620 110 270 640 2.7 4.5 12.0 dongseo1 9.0 2000 690 630 100 290 630 2.6 6.0 12.0 kyungrung 7.8 1850 668 660 88 280 620 3.0 6.4 13.8 sangkon 8.5 1928 710 670 90 290 620 3.0 6.0 10.0 choongso 9.0 1958 710 615 95 280 603 4.0 6.0 10.0 hyundai 8.5 1900 700 610 100 250 620 3.2 5.5 14.0 samsung 8.0 1900 700 640 100 280 640 2.7 5.5 10.0 sunkyung 8.5 1950 700 620 120 300 630 2.7 7.0 12.0 daewoo2 7.9 1900 697 645 95 280 610 2.9 6.8 15.0 shinhan 9.0 2030 700 620 100 275 630 3.0 7.0 13.0 dongseo2 8.5 1950 690 630 90 290 630 2.9 6.0 12.0 korea 9.9 1870 729 649 123 260 616 3.4 6.1 15.8 chungang 8.5 1700 700 630 90 260 620 4.0 6.0 14.0 ; proc iml; reset nolog; start dissim; /* Creating a matrix from a SAS data set */ use economy; read all var{id} into level; read all var{x1 x2 x3 x4 x5 x6 x7 x8 x9 x10} into X; /* choose variables */ n=nrow(x); p=ncol(x); /* standardization */ Xbar=X[+,]/n; Y=X-J(n,1,1)*Xbar; variance=y`*y/(n-1); if std=1 then do; s=diag(variance); Y=Y*sqrt(inv(s)); end; else Y=Y; 2.1 비유사성 45
D_Eu=shape(.,n,n); D_Ma=shape(.,n,n); D_City=shape(.,n,n); /* Generating Dissimilarity Matrix */ do i=1 to n; do j=1 to n; A=Y[i,]; B=Y[j,]; C=A-B; absc=abs(c); Eu=C*C`; /* Euclidean Distance */ D_Eu[i,j]=sqrt(Eu); Ma=C*inv(variance)*C`; /* Mahalanobis Distance */ D_Ma[i,j]=sqrt(Ma); City=absC[+]; D_City[i,j]=City; /* City-block distance */ end; end; print D_Eu[rowname=level format=5.3]; /* print D_Ma[rowname=level format=5.3];*/ /* print D_City[rowname=level format=5.3];*/ /* Creating SAS Data Set for PROC MDS */ create Euclid from D_Eu[rowname=level]; append from D_Eu[rowname=level]; close Euclid; create Mahala from D_Ma[rowname=level]; append from D_Ma[rowname=level]; close Mahala; create City from D_City[rowname=level]; append from D_City[rowname=level]; close City; Finish; std=1; run dissim; quit; ods graphics on; proc mds data=euclid pfinal; id level; [ 결과 2.1]-2 는비계량형다차원척도법의 ( 크루스칼의스트레스 1) 의최소화알고리즘을위한수치적계산과정과 2차원다차원척도그림을위한형상좌표를제공한다. 결과 3 은결과 2의마지막반복의 <Badness-of-Fit Criterion> 값 0.1496 을제공하고있다. 이는약 0.15 이고크루스칼의판별기준인 < 표 1.9> 에따르면 <0.10 보통 (fair)> 보다는낮고 46 2 장비유사성과유사성
<0.20 나쁨 (poor)> 보다는높은정도를나타낸다. 결과 4 는 < 그림 1.2> 경제관련기관의경 제전망의다차원척도그림으로그해석도와함께이미 1.1.2 절에서살펴보았다. [ 결과 2.1] [ 프로그램 2.1] 의수행결과 Euclidean distance 1 D_Eu hankook 0.000 4.166 2.293 3.269 2.390 4.410 3.573 1.846 3.700 3.131 3.118 1.784 5.362 4.343 daewoo1 4.166 0.000 3.672 6.925 5.476 5.723 4.432 4.197 5.189 6.345 4.344 4.443 5.571 6.693 dongseo1 2.293 3.672 0.000 4.110 3.496 4.635 4.084 2.839 2.854 3.800 2.363 1.515 5.684 5.425 kyungrun 3.269 6.925 4.110 0.000 4.157 5.837 4.812 4.322 5.207 2.789 4.653 3.291 6.926 4.474 sangkong 2.390 5.476 3.496 4.157 0.000 4.316 5.177 3.182 4.631 3.820 4.265 3.061 5.856 5.124 choongso 4.410 5.723 4.635 5.837 4.316 0.000 4.231 5.220 5.231 4.796 4.260 4.263 5.563 4.407 hyundai 3.573 4.432 4.084 4.812 5.177 4.231 0.000 4.233 5.088 3.928 3.592 3.820 4.699 3.336 samsung 1.846 4.197 2.839 4.322 3.182 5.220 4.233 0.000 3.880 4.468 3.920 2.469 6.336 5.114 sunkyung 3.700 5.189 2.854 5.207 4.631 5.231 5.088 3.880 0.000 4.159 2.990 3.401 5.696 6.064 daewoo2 3.131 6.345 3.800 2.789 3.820 4.796 3.928 4.468 4.159 0.000 3.549 3.278 5.349 4.192 shinhan 3.118 4.344 2.363 4.653 4.265 4.260 3.592 3.920 2.990 3.549 0.000 2.648 4.994 4.934 dongseo2 1.784 4.443 1.515 3.291 3.061 4.263 3.820 2.469 3.401 3.278 2.648 0.000 6.088 4.568 korea 5.362 5.571 5.684 6.926 5.856 5.563 4.699 6.336 5.696 5.349 4.994 6.088 0.000 5.176 chungang 4.343 6.693 5.425 4.474 5.124 4.407 3.336 5.114 6.064 4.192 4.934 4.568 5.176 0.000 2 Shape=TRIANGLE Condition=MATRIX Level=ORDINAL Coef=IDENTITY Dimension=2 Formula=1 Fit=1 Mconverge=0.01 Gconverge=0.01 Maxiter=100 Over=2 Ridge=0.0001 lteration Type Badnessof-Fit Criterion Change in Criterion Convergence Measure Monotone Gradient 0 lnitial 0.2776... 1 Monotone 0.2049 0.0727 0.1760 0.5150 2 Gau-New 0.1708 0.0341.. 3 Monotone 0.1656 0.005190 0.0336 0.2572 4 Gau-New 0.1598 0.005814.. 5 Monotone 0.1532 0.006609 0.0436 0.1787 6 Gau-New 0.1525 0.000733.. 7 Monotone 0.1513 0.001152 0.0174 0.1406 8 Gau-New 0.1508 0.000518.. 9 Monotone 0.1503 0.000486 0.0117 0.0958 10 Gau-New 0.1501 0.000215. 11 Monotone 0.1500 0.000130 0.006270 0.0726 12 Gau-New 0.1496 0.000379 0.006127 Configuration Dim1 Dim2 hankook 0.40 0.06 daewoo1-1.11 1.75 dongseo1 0.21 0.62 kyungrun 1.59-0.78 sangkong 1.22 0.05 choongso -0.88-1.33 hyundai -0.84-0.32 samsung 0.81 0.74 sunkyung 0.40 1.45 daewoo2 0.67-0.77 shinhan -0.26 0.47 dongseo2 0.42 0.23 korea -2.54-0.28 chungang -0.09-1.89 3 _MATRIX_ Number of Nonmissing Data Weight Badness-of-Fit Criterion Distance Correlation Uncorrected Distance Correlation 1 91 1.00 0.15 0.94 0.99 4 < 그림 1.2> 경제관련기관의경제전망의비계량형다차원척도그림 : (a) 원자료의유클리드거리 2.1 비유사성 47
2.2 유사성 이번에는비유사성과는정반대의개념인두개체 와 의유사성 를나타낼측도로는유사성계수 (similarity coefficient) 가있다. 대개유사성은 2.1절의비유사성조건 1)- 조건 3) 과같은성질을갖고있다 (Mardia 외 2인, 1979, p. 382; du Toit 외 2인, 1986, p. 76). 다만조건 2) 에서는 을만족한다. 특히, 이진수자료인경우개체간의유사성측도와변수들간의유사성측도에대해서알아보고자한다. 2.2.1 유사성측도 자료행렬 가식 (2.4) 를만족하는이진수자료인경우 먼저두개체간의유사성을나타내는몇가지유사성계수를알아보자. 이를위해 < 표 2.2> 의 2 2 조합표 (association table) 를생각해보자. 이는두개체 와 가 0 과 1 을가지는이진수자료로부터새로구성된이원분할표형태 로 는 1-1 짝의수, 는 1-0 짝의수등을나타내며따라서 는이들의 전체합이된다. 개체 < 표 2.2> 이진수자료의두개체에대한 2 2 조합표 개체 1 0 합계 1 0 합계 Johnson 과 Wichern(2002, pp. 670-679) 은 < 표 2.2> 로부터개체 와 의유사성 를나타내는유사성계수 8가지를소개하고있고이를인용하여 < 표 2.3> 에정리하였다. 이외에도 Cox 와 Cox(2001, Table 1.2) 에는이진수자료에대한유사성계수를더제공하고있다. 이들중에서가장보편적으로이용되는것은 1, 4, 5 세가지로이를다음과같이부른다. 단순매칭계수 (simple matching coefficient):. 러셀- 라오계수 (Russell and Rao coefficient):. 자카드계수 (Jaccard's coefficient):. 48 2 장비유사성과유사성
이러한계수들에의한크기가 인유사성행렬을각각,, 라고하자. 더군다 나, 과 그리고 는이진수자료행렬 로부터식 (2.5) 와식 (2.6) 의행렬연산을이용하면쉽게얻어진다 (Mardia 외 2 인, 1979, p. 383). 와. (2.5) (2.6) 여기서 는크기가 이고모든원소가 1 인행렬이고 의대각원소는모두 1 이다. 그리고,, 는양반정치행렬이다. < 표 2.3> 이진수자료의유사성계수 유사성계수 1 2 3 4 5 6 7 8 참고사항 1-1짝과 0-0짝에대해같은가중치 1-1짝과 0-0짝에대해두배가중치불일치짝에두배가중치분자에 1-1짝만있음분자또는분모에 0-0짝이없음분자또는분모에 0-0짝이없음. 1-1짝에두배가중치분자또는분모에 0-0짝이없음. 불일치짝에두배가중치 0-0짝을제외하고불일치짝에대한일치짝의비 이번에는이진수자료행렬 로부터 < 표 2.2> 의두개체 에대한 조합표대신에두변수에대한 조합표를구성할수있다. 이경우조 2.3 유사성과비유사성의변환 49
합표는분할표 (contingency table) 가되며 < 표 2.4> 와같고여기서 은총개체의수이다. < 표 2.4> 이진수자료에서두변수에대한 2 2 분할표 변수 1 0 합계 변수 1 0 합계 < 표 2.4> 로부터두변수의곱적률상관계수 (product moment correlation coefficient) 는 (2.7) 가되며, 이값을두변수간의유사성측도로사용할수있다. 식 (2.7) 의곱적률상관계수는귀무가설로두개범주형변수들간의유사성이없다는독립성을검정하는카이제곱검정통계량 과는수리적으로 의관계가성립한다. 이고정된경우유사성을나타내는곱적률상관계수가크면귀무가설을기각하게되고독립성에서벗어나통계적으로유의하게유사성이있음을말하게된다. 참고로개체들간의유사성계수를나타낸 < 표 2.3> 에서 대신 을사용하고,,, 로대체하면변수들간의유사성측도를만들수있다. 지금까지이진수자료에대한개체들간의유사성측도와변수들간의유사성측도에대해살펴보았다. 일반적으로양적자료행렬 에서는두변수 과 에대한유사성측도로식 (2.3) 에서사용된피어슨의상관계수 (2.8) 를이용함은잘알려져있다. 특히, 음의상관계수는때때로그절댓값을유사성으로사용 50 2 장비유사성과유사성
한다. 식 (2.8) 에서정의한유사성에의해크기가 이고대각원소가 1 인대칭인유사성 행렬 을형성할수있다. 끝으로양적변수와질적변수가혼합되어있는경우다음과같은유사성계수, 를정의할수있으며이로부터유사성행렬은양반정치이며여기서만약에 번째가질적변 수이면 이고, 양적변수이면 이며 max 은 번째변수의 범위 (range) 라고한다 (Mardia 외 2 인, 1979, pp. 383-384). 2.2.2 유사성측도의적용이절에서는 < 표 2.3> 에서정의한보편적인유사성계수중단순매칭계수를계산하는사례를위하여 < 표 2.1> 로부터두개체 한국은행과 동서증권에대한 < 표 2.5> 와같은 2 2 조합표를구성하자. 이는경제전망이같은짝 1-1과 0-0 이각각 5개와 1개이고, 나머지 4개는경제전망이다른짝 1-0 혹은 0-1 로이루어져있다. 따라서단순매칭계수를활용한두개체 한국은행과 동서증권에대한유사성은 이된다. < 표 2.5> 한국은행과동서증권의 2 2 조합표 동서증권 1 0 합계 한국은행 1 5 1 6 0 3 1 4 합계 8 2 10 같은사례에대하여 2.1.2 절에서두개체간의제곱유클리드거리로살펴본비유사성은 로, < 표 2.5> 에따르면경제전망이다른짝 1-0 혹은 0-1 의수 에전체합 으로나눈 의결과이다. 따라서이들유사성 와비유사성 의관계는 이됨을알수있다. 이와같이유사성과비유사성간의 2.3 유사성과비유사성의변환 51
다양한변환은 2.3절에서자세히설명하고있다. 다음으로변수들간의유사성측도를구하고이를평가하는예를살펴보자. < 표 1.4> 의우리나라 14개경제관련기관의 10가지경제전망중에 1= 성장률과 2=GNP 에대해서 < 표 2.6> 과같이 2 2 분할표를구성할수있다. < 표 2.6> 1= 성장률과 2=GNP 의 2 2 분할표 2=GNP 1 0 합계 1= 성장률 1 6 4 10 0 1 3 4 합계 7 7 14 < 표 2.6> 으로부터식 (2.7) 의곱적률상관계수를계산하면 이다. 이값은낮은상관을보여성장률과 GNP 는유사하지못함을보여준다. 더불어이곱적률상관계수를가지고카이제곱통계량을계산하여보면 가얻어진다. 실제로이값은 < 표 2.6> 으로부터 < 귀무가설 : 성장률과 GNP 는연관성이없다.> 라는범주형자료분석의독립성검정을위한카이제곱검정통계량 와동일하며자유도는 이다. 이경우유의수준 에서기각값은 3.84 로검정통계량값 1.4 보다크므로귀무가설을기각하지못한다. 즉, 성장률과 GNP 는 연관성이없으며통계적으로유사하지못하다. 52 2 장비유사성과유사성
2.3 유사성과비유사성의변환 일반적으로다변량자료행렬 로부터두개체 와 간의거리로나타낸비유사성 가크면두개체간의유사성 는작아지며, 반대로비유사성이작아지면유사성은크게된다. 비유사성과유사성의사이의가장큰차이점은거리를나타내는비유사성은양의값을나타내는반면에유사성은 0과 1 사이의값을나타낸다. 가장잘알려진비유사성에서유사성으로의변환 (transformation) 은 이며 을만족한다. 그반대의경우는비유사성의성질인삼각부등식때문에 명백하지않다. Mardia 외 2 인 (1979, p. 402) 과 du Toit 외 2 인 (1986, p. 77) 에따르면 만약에유사성행렬 가양반정치 (positive semidefinite) 를만족하는경우 (2.9) 를표준변환이라고하며이로부터얻어지는비유사성행렬 는유클리드거리행렬이된다. 단순매칭계수를유사성으로사용할경우에는 2.2.2 절에서살펴보았지만변환 도고려할수있다. 특히, 인경우는 로단순하게변환된다. 끝으로 [ 프로그램 2.2] 와 [ 결과 2.2] 는 1.1.2 절의 [ 사례 2] 의우리나라 14개경제관련기관의 10가지경제전망에대한이진수자료 < 표 1.4> 로부터유사성측도중단순매칭계수를유사성 로하고변환 를통해얻어지는비유사성행렬자료의다차원척도법을위한것이다. SAS/IML 프로그램에서식 (2.5) 와식 (2.6) 의유사성행렬에관한식을이용하고있다. SAS/IML 의문법에대해선 SAS Institute, Inc.(2004) 를참고하기바란다. 2.3 유사성과비유사성의변환 53
특히, 이진수자료에서비교하고자하는개체수가매우많은경우 [ 프로그램 2.2] 의유용성은높다고여겨진다. 실제 SAS/IML 과 PROC MDS 가결합되어작성된프로그램의알고리즘은 2.2.1 절의유사성측도중단순매칭계수와변환이가능하므로이를통하여비유사성행렬자료를제공하게된다. 실제로 [ 결과 2.2]-1 Similarity matrix of simple matching coefficient 와 Dissimilarity matrix 가이를보여주고있다. 나머지는 1.4.2절의 [ 결과 1.2]-(b) 와동일하고해석도자세히언급되어있어생략한다. [ 프로그램 2.2] 이진수자료로부터다차원척도법을위한프로그램 data binary; input id $10. (v1 - v10) (1.) ; cards; hankook 0100011111 daewoo1 dongseo1 kyungrun sangkong choongso hyundai samsung sunkyung daewoo2 shinhan dongseo2 korea chungang ; proc iml; reset nolog; start dissim; 11 1 11 1 11 1 1 1101101111 0000010100 1010000111 1111010011 1011110010 0010111111 1111101101 0000010100 1111111100 1101001111 1010110000 1011010010 /* Creating a matrix from a SAS data set */ use economy_binary; read all var{id} into level; read all var{x1 x2 x3 x4 x5 x6 x7 x8 x9 x10} into X; n=nrow(x); p=ncol(x); J= J(n, n, 1); Cr = X*X`/p; /* Russell-Rao coefficient*/ Cs = Cr + (J-X)*(J-X)` /p; /* Simple matching coefficient */ Ds = 1- Cs; /* Dissimilarity matrix */ 54 2 장비유사성과유사성
print, "Similarity matrix of simple matching coefficient", Cs[rowname=level format=3.1]; print, "Dissimilarity matrix", Ds[rowname=level format=3.1]; /* Creating SAS Data Set for PROC MDS */ create DM from Ds[rowname=level]; append from Ds[rowname=level]; close DM; Finish; run dissim; quit; ods graphics on; proc mds data=dm pfinal; id level; [ 결과 2.2] [ 프로그램 2.2] 의수행결과 Similarity matrix of simple matching coefficient 1 Cs hankook 1.0 0.6 0.6 0.6 0.5 0.5 0.2 0.7 0.4 0.6 0.4 0.7 0.2 0.3 daewoo1 0.6 1.0 0.8 0.2 0.5 0.7 0.6 0.7 0.8 0.2 0.8 0.7 0.4 0.5 dongseo1 0.6 0.8 1.0 0.2 0.5 0.5 0.4 0.5 0.8 0.2 0.6 0.9 0.2 0.3 kyungrun 0.6 0.2 0.2 1.0 0.5 0.3 0.4 0.5 0.2 1.0 0.4 0.3 0.6 0.5 sangkong 0.5 0.5 0.5 0.5 1.0 0.6 0.5 0.6 0.5 0.5 0.3 0.6 0.5 0.6 choongso 0.5 0.7 0.5 0.3 0.6 1.0 0.7 0.4 0.5 0.3 0.5 0.6 0.5 0.8 hyundai 0.2 0.6 0.4 0.4 0.5 0.7 1.0 0.5 0.4 0.4 0.6 0.3 0.8 0.9 samsung 0.7 0.7 0.5 0.5 0.6 0.4 0.5 1.0 0.5 0.5 0.5 0.4 0.5 0.4 sunkyung 0.4 0.8 0.8 0.2 0.5 0.5 0.4 0.5 1.0 0.2 0.8 0.7 0.4 0.3 daewoo2 0.6 0.2 0.2 1.0 0.5 0.3 0.4 0.5 0.2 1.0 0.4 0.3 0.6 0.5 shinhan 0.4 0.8 0.6 0.4 0.3 0.5 0.6 0.5 0.8 0.4 1.0 0.5 0.6 0.5 dongseo2 0.7 0.7 0.9 0.3 0.6 0.6 0.3 0.4 0.7 0.3 0.5 1.0 0.1 0.4 korea 0.2 0.4 0.2 0.6 0.5 0.5 0.8 0.5 0.4 0.6 0.6 0.1 1.0 0.7 chungang 0.3 0.5 0.3 0.5 0.6 0.8 0.9 0.4 0.3 0.5 0.5 0.4 0.7 1.0 Dissimilarity matrix Cs hankook 0.0 0.4 0.4 0.4 0.5 0.5 0.8 0.3 0.6 0.4 0.6 0.3 0.8 0.7 daewoo1 0.4 0.0 0.2 0.8 0.5 0.3 0.4 0.3 0.2 0.8 0.2 0.3 0.6 0.5 dongseo1 0.4 0.2 0.0 0.8 0.5 0.5 0.6 0.5 0.2 0.8 0.4 0.1 0.8 0.7 kyungrun 0.4 0.8 0.8 0.0 0.5 0.7 0.6 0.5 0.8 0.0 0.6 0.7 0.4 0.5 sangkong 0.5 0.5 0.5 0.5 0.0 0.4 0.5 0.4 0.5 0.5 0.7 0.4 0.5 0.4 choongso 0.5 0.3 0.5 0.7 0.4 0.0 0.3 0.6 0.5 0.7 0.5 0.4 0.5 0.2 hyundai 0.8 0.4 0.6 0.6 0.5 0.3 0.0 0.5 0.6 0.6 0.4 0.7 0.2 0.1 samsung 0.3 0.3 0.5 0.5 0.4 0.6 0.5 0.0 0.5 0.5 0.5 0.6 0.5 0.6 sunkyung 0.6 0.2 0.2 0.8 0.5 0.5 0.6 0.5 0.0 0.8 0.2 0.3 0.6 0.7 daewoo2 0.4 0.8 0.8 0.0 0.5 0.7 0.6 0.5 0.8 0.0 0.6 0.7 0.4 0.5 shinhan 0.6 0.2 0.4 0.6 0.7 0.5 0.4 0.5 0.2 0.6 0.0 0.5 0.4 0.5 dongseo2 0.3 0.3 0.1 0.7 0.4 0.4 0.7 0.6 0.3 0.7 0.5 0.0 0.9 0.6 korea 0.8 0.6 0.8 0.4 0.5 0.5 0.2 0.5 0.6 0.4 0.4 0.9 0.0 0.3 chungang 0.7 0.5 0.7 0.5 0.4 0.2 0.1 0.6 0.7 0.5 0.5 0.6 0.3 0.0 2.3 비유사성과유사성의변환 55
2 Shape=TRIANGLE Condition=MATRIX Level=ORDINAL Coef=IDENTITY Dimension=2 Formula=1 Fit=1 Mconverge=0.01 Gconverge=0.01 Maxiter=100 Over=2 Ridge=0.0001 lteration Type Badness -of-fit Criterion Change in Criterion Convergence Measure Monotone Gradient 0 lnitial 0.2275... 1 Monotone 0.2131 0.0144 0.0751 0.5269 2 Gau-New 0.1769 0.0362.. 3 Monotone 0.1763 0.000561 0.0339 0.2793 4 Gau-New 0.1703 0.006019.. 5 Monotone 0.1670 0.003284 0.0366 0.1890 6 Gau-New 0.1668 0.000199.. 7 Monotone 0.1667 0.0000930 0.008599 0.1841 8 Gau-New 0.1639 0.002850. 0.007253 Configuration Dim1 Dim2 hankook 0.34 1.55 daewoo1 0.97-0.25 dongseo1 1.50 0.37 kyungrun -1.61 0.92 sangkong -0.48 0.34 choongso 0.09-1.04 hyundai -0.70-1.28 samsung -0.06 0.99 sunkyung 1.49-0.32 daewoo2-1.61 0.92 shinhan 0.92-0.92 dongseo2 1.36 0.63 korea -1.41-0.83 chungang -0.80-1.08 3 _MATRIX_ Number of Nonmissing Data Weight Badness-of-Fit Criterion Distance Correlation Uncorrected Distance Correlation 1 91 1.00 0.16 0.91 0.99 4 < 그림 1.2> 경제관련기관의경제전망의비계량형다차원척도그림 : (b) 이진수자료의제곱유클리드거리 2.4 비대칭비유사성과유사성의변환 지금까지일반적으로다변량자료행렬 로부터두개체 와 간의비유사성 또는 유사성 에의한행렬자료는 2.1.1 절에서대칭성조건 ( 또는 ) 을만족 하였다. 그러나경우에따라개체들간에대칭성이만족되지못하는비대칭성 (asymmetric) ( 또는 ) (2.10) 이발생하기도한다. 56 2 장비유사성과유사성
< 표 2.7> 아라비아숫자에대한모스부호의비대칭유사성자료 1.---- 84 63 13 8 10 8 19 32 57 55 2..--- 62 89 53 20 5 14 20 21 16 11 3...-- 16 59 86 31 23 41 16 17 08 10 4...- 6 23 38 89 42 44 32 10 3 3 5... 12 8 27 56 90 42 24 10 6 5 6-... 12 14 33 34 30 86 69 14 5 14 7--... 20 25 17 24 18 65 85 70 20 13 8---.. 37 25 16 13 10 22 65 88 61 26 9----. 57 28 9 7 5 8 31 58 91 78 0----- 52 18 9 7 5 18 15 39 79 94 < 표 2.7> 은 Everitt 와 Dunn(1991, Table 5.8), Borg 와 Groenen(1997, Table 4.2) 의 26자알파벳 (A~Z) 과 10개의아리비아숫자 (0~9) 에대한모스부호 (Morse code) 에서아리비아숫자에대한것만정리한자료이다. 이는모스부호를모르는 598명에게청각적으로기계에의해서두수의모스부호신호를짝을지어두번 (1 다음 2, 2 다음 1과같이 ) 들려주고두신호의짝이같다고생각하는사람들의비율을나타낸것이다. < 표 2.7> 은대표적으로식 (2.10) 을만족하지않는비대칭유사성행렬이다. 이와같이비대칭유사성 ( 또는비유사성 ) 을대칭성이만족되도록만드는가장대표적인두변환을비유사성의경우로예를들면, (2.11) 이다. 식 (2.11) 에서새로운비유사성 은대칭성조건을만족하며, 은반 (skew) 대칭성조건 을만족한다. Borg와 Groenen(1997, pp. 402-407) 그리고 Cox와 Cox(2001, pp. 116-121) 에따르면일반적으로정방행렬은대칭행렬과반대칭행렬로이루어진다. 따라서비대칭비유사성행렬 도정방행렬로각각다음과같이분해된다. (2.12) 2.4 비대칭비유사성과유사성의변환 57
여기서 과 은식 (2.11) 로부터이루어진다. 특히, 반대칭행렬 의 대각원소는항상 0 이다. 식 (2.12) 에서대칭성을만족하는 에대하여기존의다차원척도법을적용하 게되며반대칭성을만족하는 에대해서는 의고유값 에서같은값을가지는첫번째두고유값 에대하여크기가 고유벡터쌍 에대한 2차원상의그림통해개체들의관계를설명할수있다. Borg 와 Groenen(1997, pp. 402-404) 에서는만약에식 (2.12) 의행렬분해에서행렬 와 의대각원소의값이같고반대칭행렬 의대각원소는전부 0의값을가지므로대각원소를제외하고다음과같이원소제곱합의분해를고려한다.. (2.13) 그리고식 (2.13) 과대응하여이를다음과같이나타내자.. (2.14) 전체제곱합 에서차지하는 와 의상대적비율 (2.15) 을고려하면식 (2.15) 에서 이 에비해상대적으로매우크다면이는식 (2.12) 의비대칭비유사성행렬 에서대칭행렬 이우세하며반대칭행렬 의역할이미미함을나타내지만개체간의흥미있는부분은보여질수는있다. 그러나이와같은경우일반적으로대칭성을만족하는 에대하여기존의다차 58 2 장비유사성과유사성
원척도법을적용하면된다. 더불어비대칭유사성행렬 에대해서도비대칭비유사성행렬 과같이식 (2.11) ~ 식 (2.15) 의동일한수리적개념과절차를적용할수있다. Cox와 Cox(2001, pp. 116-121) 과 Borg와 Groenen(1997, pp. 402-407) 에서는이외에도비대칭비유사성에대한다양한접근방법을소개하고있으니참고바란다. [ 프로그램 2.3] 과 [ 결과 2.3] 은 < 표 2.7> 아라비아숫자에대한모스부호의비대칭유사성자료에대한계량형다차원척도법을적용한것이다. 즉, < 표 2.7> 은비대칭유사성행렬 이며, 이로부터식 (2.12) ~ 식 (2.15) 와같은개념을적용할수있다. 먼저비유사성행렬을대칭과반대칭행렬에의해행렬분해 를한다. 여기서 와 이다. 다음으로식 (2.13) 과같이원소제곱합의분해 를고려한후식 (2.14) 와같은전체제곱합 에서차지하는 와 의상대적비율 와 을얻게된다. 상대적비율을통하여대칭성을만족하는 의다차원척도법의유용성을살펴보게된다. 실제로 [ 결과 2.3]-1 Symmetric and Skew-symmetric Similarity matrix from Asymmetric Similarity matrix 에서행렬분해 의대칭과반대칭행렬을보여주고있다. 2 Decomposition of sum of squares due to Symmetry and Skew-symmetry 에서는 이 99.25% 로 의 0.75% 에비해매우커서 에서차지하는 이의유용성이매우높음을보여주고있다. 3 Dissimilarity matrix from Similarity matrix 에서는대칭성을만족하는 에의하여표준변환하여얻어진비유사성행렬을나타내고있으며이에대한계량형다차원척도그림이 4에주어져있다. 이그림에대한해석은 3.3절에서대칭유사성행렬자료 < 표 3.2> 에대한계량형다차원척도그림과동일하므로생략한다. 2.4 비대칭비유사성과유사성의변환 59
[ 프로그램 2.3] 모스부호의비대칭유사성자료의계량형다차원척도법을위한프로그램 data morsecode; input code$ x1-x10; cards; 1.---- 84 63 13 8 10 8 19 32 57 55 2..--- 62 89 53 20 5 14 20 21 16 11 3...-- 16 59 86 31 23 41 16 17 08 10 4...- 6 23 38 89 42 44 32 10 3 3 5... 12 8 27 56 90 42 24 10 6 5 6-... 12 14 33 34 30 86 69 14 5 14 7--... 20 25 17 24 18 65 85 70 20 13 8---.. 37 25 16 13 10 22 65 88 61 26 9----. 57 28 9 7 5 8 31 58 91 78 0----- 52 18 9 7 5 18 15 39 79 94 ; proc iml; reset nolog; use morsecode; read all var{code} into code; read all var{x1 x2 x3 x4 x5 x6 x7 x8 x9 x10} into C; n=nrow(c); J=J(n,n,1); CM=(C+C`)/2; CN=(C-C`)/2; dc=diag(c); SSC=C[##]-dc[##]; SSCM=CM[##]-dc[##]; SSCN=CN[##]; RSSCM=100*SSCM/SSC; RSSCN = 100*SSCN/SSC; print, " Symmetric and Skew-symmetric Similarity matrix from Asymmetric Similarity matrix", Cm[rowname=code colname=code format=5.3] Cn[rowname=code colname=code format=5.3]; print, " Decomposition of sum of squares due to Symmetry and Skew-symmetry"; print, "SSC = SSCM + SSCN", SSC SSCM SSCN RSSCM RSSCN; /* Standard Transformation from C to D */ C=Cm; D=sqrt(diag(C)*J -2*C+J*diag(C)); /* d_ij = sqrt[c_ii -2c_ij + c_jj] */ print, "Dissimilarity matrix from Similarity matrix", D[rowname=code colname=code format=5.3]; /* Creating SAS Data Set for PROC MDS */ create dism from D[rowname=code]; append from D[rowname=code]; close dism; quit; ods graphics on; /* Metric MDS */ proc mds data=dism level=absolute pfinal; id code; 60 2 장비유사성과유사성
[ 결과 2.2] [ 프로그램 2.3] 의수행결과 Symmetric and Skew-symmetric Similarity matrix from Asymmetric Similarity matrix CM 1.---- 2..--- 3...-- 4...- 5... 6-... 7--... 8---.. 9----. 0----- 1.---- 84.00 62.50 14.50 7.000 11.00 10.00 19.50 34.50 57.00 53.50 2..--- 62.50 89.00 56.00 21.50 6.500 14.00 22.50 23.00 22.00 14.50 3...-- 14.50 56.00 86.00 34.50 25.00 37.00 16.50 16.50 8.500 9.500 4...- 7.000 21.50 34.50 89.00 49.00 39.00 28.00 11.50 5.000 5.000 5... 11.00 6.500 25.00 49.00 90.00 36.00 21.00 10.00 5.500 5.000 6-... 10.00 14.00 37.00 39.00 36.00 86.00 67.00 18.00 6.500 16.00 7--... 19.50 22.50 16.50 28.00 21.00 67.00 85.00 67.50 25.50 14.00 8---.. 34.50 23.00 16.50 11.50 10.00 18.00 67.50 88.00 59.50 32.50 1 9----. 57.00 22.00 8.500 5.000 5.500 6.500 25.50 59.50 91.00 78.50 0----- 53.50 14.50 9.500 5.000 5.000 16.00 14.00 32.50 78.50 94.00 CM 1.---- 2..--- 3...-- 4...- 5... 6-... 7--... 8---.. 9----. 0----- 1.---- 0.000 0.500-1.50 1.000-1.00-2.00 -.500-2.50 0.000 1.500 2..--- -.500 0.000-3.00-1.50-1.50 0.000-2.50-2.00-6.00-3.50 3...-- 1.500 3.000 0.000-3.50-2.00 4.000 -.500 0.500 -.500 0.500 4...- -1.00 1.500 3.500 0.000-7.00 5.000 4.000-1.50-2.00-2.00 5... 1.000 1.500 2.000 7.000 0.000 6.000 3.000 0.000 0.500 0.000 6-... 2.000 0.000-4.00-5.00-6.00 0.000 2.000-4.00-1.50-2.00 7--... 0.500 2.500 0.500-4.00-3.00-2.00 0.000 2.500-5.50-1.00 8---.. 2.500 2.000 -.500 1.500 0.000 4.000-2.50 0.000 1.500-6.50 9----. 0.000 6.000 0.500 2.000 -.500 1.500 5.500-1.50 0.000 -.500 0----- -1.50 3.500 -.500 2.000 0.000 2.000 1.000 6.500 0.500 0.000 Decomposition of sum of squares Due to Symmetey an Skew-symmetry 2 SSC = SSCM + SSCN SSC SSCM SSCN RSSCM RSSCN 99910 99157 753 99.246322 0.7536783 2.4 비대칭비유사성과유사성의변환 61
Dissimilarity matrix from Similarity matrix 3 CM 1.---- 2..--- 3...-- 4...- 5... 6-... 7--... 8---.. 9----. 0----- 1.---- 0.000 6.928 11.87 12.61 12.33 12.25 11.40 10.15 7.810 8.426 2..--- 6.928 0.000 7.937 11.62 12.88 12.12 11.36 11.45 11.66 12.41 3...-- 11.87 7.937 0.000 10.30 11.22 9.899 11.75 11.87 12.65 12.69 4...- 12.61 11.62 10.30 0.000 9.000 9.849 10.86 12.41 13.04 13.15 5... 12.33 12.88 11.22 9.000 0.000 10.20 11.53 12.57 13.04 13.19 6-... 12.25 12.12 9.899 9.849 10.20 0.000 6.083 11.75 12.81 12.17 7--... 11.40 11.36 11.75 10.86 11.53 6.083 0.000 6.164 11.18 12.29 8---.. 10.15 11.45 11.87 12.41 12.57 11.75 6.164 0.000 7.746 10.82 9----. 7.810 11.66 12.65 13.04 13.04 12.81 11.18 7.746 0.000 5.292 0----- 8.426 12.41 12.69 13.15 13.19 12.17 12.29 10.82 5.292 0.000 4 계량형다차원척도그림 62 2 장비유사성과유사성
연습문제 2.1 다음은 5종 (species) 분류로사자, 기린, 소, 양, 인간에대하여 1= 꼬리가길다, 2= 거친동물이다, 3= 긴목을가졌다, 4= 농가동물이다, 5= 다른동물을먹이로한다, 6= 네다리로걷는다는 6가지특징으로분류한이진수자료이다 (Chatfield 와 Collins, 1980, p. 194). 종 특징 1 2 3 4 5 6 사자 1 1 0 0 1 1 기린 1 1 1 0 0 1 소 1 0 0 1 0 1 양 1 0 0 1 0 1 인간 0 0 0 0 1 0 1) 러셀 - 라오계수와단순매칭계수를개체간의짝을통하여구하라. 2) 식 (2.5) 와식 (2.6) 의유사성행렬 과 에관한행렬식을이용하여계산해보라. 2) 유사성행렬자료 에대하여다차원척도법을하라. 2.2 다음은 Johnson 과 Wichern(2002, p. 675) 의 5 명의학생에대한특성을조사한자료 를변형한것이다. 1) 이자료를주관적기준에따라이진수자료를만들어보자. 2) 이진수자료에대해단순매칭계수를유사성으로하는행렬자료를제공하라. 3) 이행렬자료에대한다차원척도법을실시하고학생들의군집을해석하라. 4) 키와몸무게에대한유사성을곱적률상관계수와카이제곱검정을통하여각각살펴보라. 학생 키 (cm) 몸무게 (kg) 눈색깔 머리색깔 성별 1 172 65 검정색 갈색 여 2 185 70 갈색 갈색 남 3 170 62 푸른색 검정색 남 4 162 60 갈색 갈색 여 5 193 80 갈색 갈색 남 연습문제 63
2.3 1 장의 [ 연습문제 1.4] 에서켈로그회사에의해서제조된총 23 종류의시리얼에대한자 료로부터주관적으로만든이진수자료에대하여다음질문에답하라. 1) 유사성계수로단순매칭계수를이용하여비유사성행렬을구하고다차원척도법을실시하라. 2) 자카드계수나러셀- 라오계수를이용한다차원척도법과 1) 에서구한결과에서시리얼유형의군집을서로비교하라. 2.4 < 표 2.4> 로부터정의한식 (2.7) 의두변수의곱적률상관계수 의제곱이카이제곱검정통계량과수리적으로연관성이있음을보여라. 2.5 다음은세가지재질돌, 청동, 철을가지고만든 5 가지절단공구 T1, T2, T3, T4, T5 를분류한이진수자료이다. 만약에한공구를만든특정한재질이있다면 1, 없다면 0 으로만든이진수자료이다 (Seber, 1984, p. 252). 절단공구 T1 T2 T3 T4 T5 재질돌청동철 0 0 1 0 1 1 0 1 0 1 1 0 1 0 0 1) 자카드계수에의한유사성행렬 가다음과같이계산됨을확인하라. T1 1 T2 0.5 1 T3 0 0.5 1 T4 0 0.5 0.5 1 T5 0 0 0 0.5 1 2) 다차원척도법을실시하여유사한도구를군집화하라. 64 2 장비유사성과유사성
2.6 다음은 8가지직업군 (1. 전문직, 2. 자동화대기업, 3. 자동화소기업, 4. 자동화자영업, 5. 수동화대기업, 6. 수동화소기업, 7. 수동화자영업, 8. 농업 ) 에대한세대간직종의유동성에대한비대칭비유사성자료이다 (Cox와 Cox, 2001, pp. 119-121). 이는 번째직업을가진아버지들에대한 번째직업을가지는아들들에대한백분율을 라고하면비유사성 로부터얻어진것이다. 1 0.0 25.3 19.5 40.1 40.5 38.1 43.1 43.8 2 10.9 0.0 9.5 21.7 18.1 22.8 26.4 29.0 3 26.5 17.4 0.0 28.1 26.3 13.9 30.1 34.6 4 19.5 21.9 13.3 0.0 24.3 25.4 26.7 32.1 5 13.2 17.6 16.1 29.9 0.0 20.0 26.5 31.9 6 20.6 15.4 7.5 24.0 10.9 0.0 19.6 26.1 7 25.5 20.1 19.4 23.5 21.3 12.7 0.0 30.3 8 1.7 2.3 0.9 3.4 3.9 10.7 2.6 0.0 1) 식 (2.11) 에의해비대칭비유사성행렬 의대칭행렬 과반대칭행렬 을구하라. 2) 식 (2.15) 에의해서전체제곱합 에서차지하는 와 의상대적비율 이 을구하고대칭행렬 에대한다차원척도법이타당한지를논하라. 3) 대칭행렬 에대한계량형과비계량형다차원척도법의결과를비교하라. 4) 반대칭행렬 에대하여 의고유값과고유벡터를통한 2차원상의그림을얻고해석하라. 연습문제 65
3 장 이원다차원척도법 이원다차원척도법 (two-way MDS) 이란이원행렬 1개의비유사성행렬 에적용된계량형과비계량형다차원척도법을말한다. 이장에서는이들을위한알고리즘중계량형다차원척도법을위한토거선 (Torgerson) 알고리즘과비계량형다차원척도법을위한크루스칼 -세퍼드 (Kruskal-Shepard) 알고리즘을소개하고, 예제를통해이를이해하고응용을위해프로그램을제공하고있다. 끝으로계량형과비계량형다차원척도법의비교를통하여그차이점을이해하려한다.
3.1 계량형다차원척도법 1장에서살펴보았듯이 Kruskal 과 Wish(1978, pp. 22-23) 는비유사성을나타내는거리 와차원축소된 차원형상공간의거리 의관계가절대척도모형, 구간척도모형, 비율척도모형을만족하도록하는다차원척도법을계량형다차원척도법이라하였다. 그리고순서척도모형의경우를비계량형다차원척도법이라고한다. 먼저계량형다차원척도법을위한대표적인알고리즘은 Young 과 Householder(1938) 를바탕으로기초한토거선알고리즘 (Torgerson, 1958) 이있다. Gower(1966) 는이를주성분좌표분석 (principal coordinate analysis) 이라하여더명료하게논의하였고주성분분석과매우관련성이있음을보였다. 더군다나이알고리즘에의해얻어지는저차원형상공간의좌표를다차원척도법에서는고전적또는계량형해 (solution) 라고한다 (Seber, 1984, pp. 235-240). 3.1.1 토거선알고리즘일반적으로개체간의유클리드거리를비유사성으로하는크기가 인비유사성행렬 가있다면토거선알고리즘은 [ 알고리즘 2] 와같이정리된다 (Mardia 외 2인, 1979, p. 400; du Toit 외 2인, 1986, p. 128; Davison, 1992, pp. 63-64). 특히, Davison(1992, Chapter 4) 은 [ 알고리즘 2: 토거선알고리즘 ] 이유클리드공간에서개체간의유클리드거리를비유사성으로가정하고있어실제다양한거리에바탕을두는응용에서는변형된알고리즘이사용되고있음을지적하고있다. 실제로 Mardia 외 2인 [ 알고리즘 2] 토거선알고리즘 1 단계 : 비유사성행렬 다. 여기서. 로부터행렬 를계산한 2 단계 : 행렬 로부터이중 - 중심화행렬 를계산한다. 여기서, 이며, 그리고 는각각행렬 의 번째행의평 균, 번째열의평균그리고, 모든원소의평균이다. 이며 은 단위행렬이고 은모든원소가 1 인 행렬이다. 68 3 장이원다차원척도법
3단계 : 행렬 의스펙트럼분해 를계산한다. 여기서, 는고유값 를대각원소로하는대각행렬이며, 는고유벡터 가열인직교행렬이다. 4단계 : 행렬 의스펙트럼분해로부터 개의고유값과이에대응하는고유벡터를가지고크기가 인행렬 를계산한다. 이는 차원의형상공간의좌표를제공한다. (1979, Section 14.4) 은비유사성이유클리드거리가아니더라도근사적으로 [ 알고리즘 2] 가 적용될수있음을보여주고있다. 사실 1.3.1 절에서설명한측정수준에근거한절대척도모 형과 5 장의 Ramsay(1977, 1980, 1982) 의최대우도다차원척도법도여기에해당된다. 3.1.2 형상공간의적합도마지막 [4단계 ] 에서제공되는 차원의형상공간의좌표가 차원의다차원척도그림을제공한다. 만약 이 보다훨씬크다면 1차원의형상공간에서개체들의거리가비유사성행렬 의개체들의비유사성인거리를근사적으로나타낸다. 따라서적절한차원의수 를결정하는것도중요한과제이며이와관련하여이미 1.3.3 절에서스트레스 -차원수그림과차원수결정을위한크루스칼의판별기준 < 표 1.9> 를소개한바있다. 여기서는 Mardia 외 2인 (1979, pp. 407-408) 이 [ 알고리즘 2] 를토대로 차원형상공간의 에의해서설명되는비유사성행렬 의설명력인두가지적합도 (goodness of fit) 를 >, (3.1) > (3.2) 3.1 계량형다차원척도법 69
제안하고있다. 식 (3.1) 에서절댓값을사용한것은이들고유값중일부가작은것은음이되는경우를고려한것이다. 특히 는주성분분석에서고유값의전체합계에대한최대고유값부터내림순으로몇개의고유값이차지하는비율을보고서고려할만한고유값에대응되는주성분의수를정하는기준과대동소이함을알수있다. 그리고적절한차원의수 를정하는기준으로 Davison(1992, pp. 68-70) 은수직축은고유값을수평축에는차원수를나타낸그림을권하고있다. 이는일반적으로인자분석에서쉽게찾아볼수있다. Mardia 외 2인 (1979, p. 405) 은실제자료분석상황에서는 [ 알고리즘 2] 의 [1단계 ] 에서크기가 비유사성행렬 로시작하는대신에크기가 인다변량자료행렬, 로시작하게됨을강조한다. 만약에 를크기가 인표본공분산행렬 로부터얻어지는 의고유값이라고하자. 이는 [2단계 ] 의고유값이되며 는중심화내적행렬로 이다. [3단계 ] 인행렬 의스펙트럼분해로부터 개의고유값과이에대응하는고유벡터로이루어진 의행들은직교행렬로다변량자료행렬 의 차원의주성분좌표가된다. 토거선알고리즘의이론적이며수리적증명은 Mardia 외 2인 (1979, Chapter 4) 와 Davison(1992, pp. 73-76) 을참고하기를바란다. 3.1.3 계량형다차원척도법의예이절에서는이미비계량형다차원척도법이적용된 1.1.2 절 [ 사례 2] 우리나라 14개경제관련기관의경제전망에대하여 3.1.1 절의 [ 알고리즘 2] 의토거선알고리즘을바탕으로하는계량형다차원척도법을적용하기위한 SAS/IML 프로그램을주로소개하려고한다. 이로부터얻어진형상좌표를통하여 SAS/PROC GPLOT 과결합하여 2차원다차원척도그림을얻게되며이를위해 [ 프로그램 3.1] 과 [ 결과 3.1] 을제공하고있다. 70 3 장이원다차원척도법
[ 프로그램 3.1] [ 알고리즘 2] 를위한 SAS/IML 과 PROC GPLOT 프로그램 /* Metric MDS based on Torgerson's algorithm */ PROC IML; RESET NOLOG; /* SAS/IML Module for MMDS */ /* 1) Double-Centered Matrix: B */ START MMDS; n = nrow(d); A = -D#D/2; J = J(n,n,1); H = I(n)-J/n; B = H*A*H; print, " Double-Centered Matrix", B ; /* 2) Spectral Decomposition of B */ call eigen(e, V, B); absle = abs(e); sum = sum(absle); percent = absle / sum * 100; G_of_fit = (percent[1,1] + percent[2,1]); print, "eigenvalue proportion Goodness of fit", absle percent G_of_fit; /* 3) Making a vector with positive eigenvalues */ s=0; do k= 1 to n; if e[k] > 0 then s=s+1; end; abse=j(s,2); do k=1 to s; abse[k,1]=k; abse[k,2]=absle[k]; end; /* 4) Configuration */ X = V*diag(sqrt(absle)); X2 = X[,1:2]; print, "Configuration", X2; FINISH; /* 5) Dissimilarity Matrix */ 3.1 계량형다차원척도법 71
D={.0.4.4.4.5.5.8.3.6.4.6.3.8.7,.4.0.2.8.5.3.4.3.2.8.2.3.6.5,.4.2.0.8.5.5.6.5.2.8.4.1.8.7,.4.8.8.0.5.7.6.5.8.0.6.7.4.5,.5.5.5.5.0.4.5.4.5.5.7.4.5.4,.5.3.5.7.4.0.3.6.5.7.5.4.5.2,.8.4.6.6.5.3.0.5.6.6.4.7.2.1,.3.3.5.5.4.6.5.0.5.5.5.6.5.6,.6.2.2.8.5.5.6.5.0.8.2.3.6.7,.4.8.8.0.5.7.6.5.8.0.6.7.4.5,.6.2.4.6.7.5.4.5.2.6.0.5.4.5,.3.3.1.7.4.4.7.6.3.7.5.0.9.6,.8.6.8.4.5.5.2.5.6.4.4.9.0.3,.7.5.7.5.4.2.1.6.7.5.5.6.3.0}; RUN MMDS; /* 6) Convert the matrix of IML into the external data set */ vname={dim1 dim2}; create config from X2 [colname=vname]; append from X2; close config; QUIT; /* 7) Labels & configuration for MMDS plot */ data id; input id $ @@; cards; hankook daewoo1 dongseo1 kyungrun sankong choongso hyundai samsung sunkyung daewoo2 shinhan dongseo2 korea chungang ; data config; merge id config; proc print data=config; /* 8) 2-dimensional MMDS plot */ goptions reset=all; symbol value=circle pointlabel=("#id"); axis1 order=(-0.5 to 0.5 by 0.5) length=5 in; proc gplot data=config; plot dim2 * dim1/ haxis=axis1 vaxis=axis1 href=0 vref=0 frame; [ 프로그램 3.1] 은 8개과정으로구성되어있는데, 새로운비유사성행렬을분석하고자할때는단지 /* 5) Dissimilarity Matrix */ 의 D={...} 와 /* 7) Labels & configuration for MMDS plot */ 의 data 문의개체를나타내는변수 id의라벨만수정하면된다. 경우에따라 <proc print data=config;> 의실행결과인좌표값을보고 /* 8) 2-dimensional MMDS plot */ 의 axis1 order=(-0.5 to 0.5 by 0.5) 에서범위를새롭게지정해야할것이다. 여기에서는 [ 알고리즘 2] 를적용하기위한사례로 1.1.2 절의 [ 사례 2] 의우리나라 14 개경제관련기관의비유사성행렬 < 표 1.5> 를사용하고있다. 72 3 장이원다차원척도법
/* 1) Double-Centered Matrix: B */ 는 [ 알고리즘 2] 의 [1 단계 ] 와 [2 단계 ] 를나타내 고실행결과는 [ 결과 3.1]-1 에주어져있다. [ 결과 3.1] [ 프로그램 3.1] 의수행결과 1 eigenvalue proportion Goodness of fit 2 absle percent G_of_fit 0.9918302 34.205809 56.666533 0.6512702 22.460724 0.3357433 11.578969 0.1902143 6.5600275 0.140498 4.8454324 0.0520351 1.7945622 0.0057069 0.1968161 4.605E-17 1.588E-15 3.53E-17 1.218E-15 0.0414413 1.4292091 0.0712893 2.458596 0.0996532 3.4367968 0.1316732 4.5410882 0.1882409 6.4919699 OBS id DIM1 DIM2 1 hankook 0.11501 0.41472 2 daewoo1 0.28487-0.14126 3 dongseo1 0.38989 0.03242 4 kyungrun -0.38263 0.26388 5 sangkong -0.04057 0.08268 6 choongso 0.06736-0.16944 7 hyundai -0.16227-0.32930 8 samsung -0.01688 0.12132 9 sunkyung 0.31341-0.11213 10 daewoo2-0.38263 0.26388 11 shinhan 0.07181-0.16150 12 dongseo2 0.34812 0.16601 13 korea -0.38007-0.23893 14 chungang -0.22541-0.19234 3 3.1 계량형다차원척도법 73
/* 2) Spectral Decomposition of B */ 는 [ 알고리즘 2] 의 [3단계 ] 를나타내며 3.1.2절에서정의한각고유값과그들이전체에서차지하는비율외에적절한차원수 의결정을위한기준이되는식 (3.1) 의적합도 도제공한다. 이과정의실행결과는 [ 결과 3.1]-2 이고결과를보면적합도 (G-of-Fit) 56.67% 는 2차원다차원척도법이비유사성행렬 를설명하는정도를나타낸다. 매우높은적합도는아니지만 2차원다차원척도그림의해석에는큰무리가없다. /* 3) Making a vector with positive eigenvalues */ 는앞의프로그램과정 2) 의행렬 B의스팩트럼분해에서일부고유값이 0과음이되는경우가발생하므로이들을제외한양의고유값을갖는벡터로만들어주는과정이다. /* 4) Configuration */ 은 [ 알고리즘 2] 마지막 [4단계 ] 에서 차원의형상좌표를제공하며 [ 결과 3.1]-2 의오른쪽에주어져있다. /* 6) Convert the matrix of IML into the external data set */ 은프로그램과정 3) 과과정 4) 에서만들어진 SAS/IML 내의형상좌표를 /* 7) Labels & configuration for MMDS plot */ 에서사용하기위한 SAS 데이터세트 <config> 를만들어준다. 마지막단계로 [ 결과 3.1]-3 의 2차원다차원척도그림은프로그램의 /* 8) 2-dimensional MMDS plot */ 의과정으로부터얻을수있다. 이는 1.1.2 절의 < 그림 1.2> 의 (b) 이진수자료의제곱유클리드거리에의한비계량형다차원척도그림과해석이동일하며개체간의군집도대동소이함을알수있다. 단지두그림에서형상좌표의척도에차이점이있지만다차원척도그림의해석에는아무런문제가되지않는다. 3.2 비계량형다차원척도법 이절에서는비계량형다차원척도법을위한대표적인크루스칼 - 세퍼드 (Kruskal-Shepard) 의알고리즘을소개하려고한다. 먼저 1.3.1 절에서비계량형다차원척도법에관련된순서척 도모형 를다시생각해보자. 모형에서함수 는 모든 에대하여 이면 가성립 하는단조증가함수이므로차원축소된형상공간의개체간의거리 를구하기위해사용할 수있는정보로유클리드공간의개체간의거리 들의크기순서 (rank order) 가유일하다. 예를들어 1.1.1 절의 [ 사례 1] 에서우리나라도시간철도거리로지도를만든다고했을때 74 3 장이원다차원척도법
다음과같은정보를활용하게된다. 인천에서서울까지의거리가 30.9km 로가장가깝다. 부산에서대구까지의거리가 120.6km 로그다음가장가깝다.... 광주에서강릉까지의거리가 523km 로가장멀다. 따라서 Seber(1984, p. 241) 는비계량형다차원척도법의목표는 와 에대한그림이 ( 근사적 ) 단조증가하는 차원의형상공간을찾는것이라고하였다. 예를들어, 만약에 인경우 라면 를만족하는 3개체들의형상좌표를구하는것이다. 이를위한대표적인알고리즘으로 3.2.1 절의크루스칼 -세퍼드알고리즘이있다. 3.2.1 크루스칼 -세퍼드알고리즘비계량형다차원척도법에서는비유사성행렬 가반드시거리행렬이라여기지않아도되며실제로자료가유사성행렬로나타날때가장적절한경우가많다. 이와같은전제에서출발하여 1960년대초에 Shepard(1962) 와 Kruskal(1964) 에의해서비계량다차원척도법의형상공간을제공하는크루스칼 -세퍼드알고리즘이개발되었다. 여기서는 Mardia 외 2인 (1979, p. 414) 과 du Toit 외 2인 (1986, pp. 131-133) 에나타나있는이알고리즘을 [ 알고리즘 3: 크루스칼 -세퍼드알고리즘 ] 으로소개하기로한다. 알고리즘의 [4단계 ] 에서스트레스공식의최소화는 1.3.2절의스트레스에서설명한 [ 알고리즘 1: 스트레스최소화알고리즘 ] 을따른다. 그리고 [3단계 ] 의순위상계산과정을최소제곱단조회귀 (least square monotone regression) 라고한다. Guttman(1968) 이순위상 (rank image) 이라는용어를사용하였고불일치 (disparity) 라고도한다 (Izenman, 2008, pp. 492-493). 그리고 [4단계 ] 의스트레스는 1.3.2 절의식 (1.7) 의 과궁극적으로같아이를크루스칼의 < 스트레스 1> 이라고한다. 따라서식 (3.3) 의 은 의 의최적 ( 적합된 ) 값을의미한다. 스트레스는이외에도 와 Young 의 S-스트레스 과 가있는데 1.3.2 절에잘설명하고있다. 그리고 [ 알고리즘 3] 에서다양한스트레스공식의적용은다차원척도법을위한다양한형상좌표를제공하게된다. 3.2 비계량형다차원척도법 75
[ 알고리즘 3] 크루스칼 - 세퍼드알고리즘 1 단계 : 크기가 인비유사성행렬 로부터 개의비대각원소를 그크기에따라다음과같이순서화한다. 2 단계 : 를 차원형상공간의좌표행렬이라하고이에대응하는비유사성행렬을 라한다면 는당연히 에대응되는값이다. 3단계 : 와거의일치하면서 에단조관계를갖는순위 상 (rank image) 인 을계산한다. 4 단계 : 크루스칼의스트레스 < (3.3) 을정의하고이를최소화하는형상공간좌표행렬 를찾는다. Davison(1992, Chapter 5) 에서크루스칼의스트레스를최소화하는비계량형다차원척도법을제공하는패키지프로그램 (MDSCAL, TORSCA, KYST) 의특징을소개하고있다. 이들중가장최근의 KYST 가나머지의장점을포함하고있고특히사용자가스트레스 1과 2를선택할수있다고하였다. 그리고 ALSCAL(Takane 외 2인, 1977; Young 과 Lewyckyj, 1979) 은사용자가 과 를선택할수있게되어있고이를범용 SAS/PROC ALSCAL 이채택하였다. 특별히 Schiffman 외 2인 (1981) 은 KYST 와 ALSCAL 의알고리즘과사용법에대해설명하고있다. SAS/PROC MDS 에모든스트레스를사용자가옵션 <FIT=> 으로선택할수있고, 이는 [ 부록 1: SAS MDS 절차 ] 에서자세히설명하고있다. 76 3 장이원다차원척도법
3.2.2 상그림과세퍼드그림 [ 알고리즘 3: 크루스칼 - 세퍼드알고리즘 ] 의 [2 단계 ] 에서적절한차원수 를정하는적 합도문제를다루기로하자. 일반적으로가능한차원수 를작게잡는것이해석상유리하 지만차원수 가커질수록스트레스는작아지는경향이있음을 1.3.3 절차원의수에서설 명하였다. 또한차원수결정을위한방법으로는먼저크루스칼의판별기준과스트레스 - 차 원수그림을 1.3.3 절에서이미살펴보았고 3.1.2 절의 [ 알고리즘 2: 토거선알고리즘 ] 에바 탕을두는계량형다차원척도법에서는식 (3.1) 과식 (3.2) 의적합도를정의하였다. 나머지 방법으로는 Guttman(1968) 의상그림 (image diagram) 과세퍼드 (Separd) 그림이있다. 상그 림은수직축에순위상 ( ) 과수평축에 차원의형상좌표로부터얻어지는비유사성 ( ) 에 대한산점도이다. 이는비계량형다차원척도법을위한순서척도모형의적합성을보여준다. 따라서이상그림의점들이원점에서수평축에대해 45 각도로직선상에놓여있다면비계 량형다차원척도법에관한순서척도모형이완벽하게적합되었음을의미한다. 그리고이직 선에서눈에띄게벗어나는점은이상치 (outlier) 이다. 이상치가많을수록크루스칼의 은양적으로커지게된다. 그이유는식 (3.3) 을살펴보면쉽게알수있다. 다음으로세퍼드그림은수직축에순위상 ( ) 과수평축에실제비유사성 ( ) 에대한산 점도이다. 상그림과같이이그림에도순위상이단조관계를보여주기때문에순서척도모 형에서가정한 의단조성을평가하는방법이다. 이그림들의보다자세한설명은 Davison(1992, pp. 95-99) 을참고바라고실제활용의예를다음의 3.2.3 절로넘긴다. 3.2.3 비계량형다차원척도법의예 3.2.1 절과 3.2.2 절에서비계량형다차원척도법을위한 [ 알고리즘 3: 크루스칼 -세퍼드알고리즘 ] 과 차원공간좌표의적합도문제를다루었다. 일반적으로 [ 알고리즘 3] 의다양한수치적계산에따라 MDSCAL, TORSCA, KYST, ALSCAL 등몇가지프로그램이있음을 3.2.1 절에서설명한바있다. 이절에서는특별히범용 SAS/PROC ALSCAL 과대동소이한 PC- 윈도우용 SAS/PROC MDS 를이용하여비계량형다차원척도법의실제활용의예를제공하고자한다. 이미 1.1.2 절 [ 사례 2] 우리나라 14개경제관련기관의경제전망과 1.1.3 절 [ 사례 3] 12개국가의유사성에대한평가에서비계량형다차원척도법을적용한바있다. 3.2 비계량형다차원척도법 77
< 표 3.1> 9 가지직업간의비유사성행렬자료 Preacher 0.00 Surgeon 3.06 0.00 Teacher 2.14 3.95 0.00 Journalist 3.21 3.95 3.03 0.00 Policeman 3.51 4.17 2.82 3.33 0.00 Plumber 4.40 3.77 3.86 4.14 3.60 0.00 Farmer 3.64 3.69 3.47 3.90 3.56 2.53 0.00 Actor 3.12 4.13 2.72 2.58 3.68 4.17 4.10 0.00 Bank clerk 3.73 4.05 3.31 3.46 3.29 3.92 3.59 3.72 0.00 < 표 3.1> 은 9가지직업 preacher( 목사 ), surgeon( 외과의사 ), teacher( 초등학교교사 ), journalist( 기자 ), policeman( 경찰관 ), plumber( 배관공 ), farmer( 농부 ), actor( 배우 ), bank clerk( 은행원 ) 간의비유사성행렬자료이다. 이자료는 62명의사람에게 9가지직업을각각두직업씩짝지은 36가지의경우에대해서로얼마나다른지를 0점 ( 유사하다 ) ~ 5점 ( 완전히다르다 ) 의척도로응답하게한후그평균으로얻어진것이다 (du Toit 외 2인, 1986, p. 128). du Toit 외 2인 (1986, Chapter 6) 에서는이자료에대해계량형과비계량형다차원척도법을모두제공하고있으며군집분석의결과도제공하고있다. 여기서전자는 3.1.1 절의 [ 알고리즘 2: 토거선알고리즘 ] 을바탕으로범용 SAS/PROC MATRIX 의프로그램을이용하였고, 후자는 [ 알고리즘 3: 크루스칼 -세퍼드알고리즘 ] 를위한범용 SAS/PROC ALSCAL 프로그램을이용하여제공되고있다. 이제는본격적으로 < 표 3.1> 의자료의비계량형다차원척도법을위한 SAS/PROC MDS [ 프로그램 3.2] 와 [ 결과 3.2] 를살펴보자. [ 프로그램 3.2] [ 알고리즘 3] 의비계량형다차원척도법을위한프로그램 1) data occupy; input (preach surgeon teacher journal police plumber farmer actor bank) (5.2) @60; cards; 0.00 3.06 0.00 2.14 3.95 0.00 3.21 3.95 3.03 0.00 3.51 4.17 2.82 3.33 0.00 4.40 3.77 3.86 4.14 3.60 0.00 3.64 3.69 3.47 3.90 3.56 2.53 0.00 3.12 4.13 2.72 2.58 3.68 4.17 4.10 0.00 3.73 4.05 3.31 3.46 3.29 3.92 3.59 3.72 0.00 78 3 장이원다차원척도법
2) ods graphics on; proc mds data=occupy level=ordinal nophist pfinal outres=res; 3) goptions reset=all; symbol value=circle; axis1 length=5 in; proc gplot data=res; plot fitdata * data/frame hzero vzero haxis=axis1 vaxis=axis1; 4) proc print data=res; var _row col_ data fitdata fitdist residual; run; [ 프로그램 3.2] 는편의성을위해크게네과정으로구성되어있다. 과정 1) 과 2) 는 1.4 절에서이미보여준전형적인 PROC MDS 문이다. 과정 3) 은세퍼드그림을위한프로그램이다. 이들에대한수행결과는 [ 결과 3.2] 에주어져있다. 과정 4) 는 [ 결과 3.3] 에따로정리해두어 [ 알고리즘 3] 을수치적으로확인하고이해하려한다. 먼저 [ 프로그램 3.2]-2) 의 proc mds 문에서는비계량형다차원척도법을위한옵션 <level= ordinal>( 디폴트 ) 이주어져있다. <outres= res> 는 3.2.2 절에서설명한 Guttman 의상그림과세퍼드그림을위한자료를새로운 SAS 자료세트 res에저장하라는옵션이다. 이를과정 3) 과 4) 에서활용하게된다. 9.2판부터는상그림은자동으로제공되므로이에대한프로그램은생략해도무방하다. 다만세퍼드그림을위한과정 3) 은필요하다. 그러나엄밀히말해서이들두그림의기능과역할이유사하므로다차원척도법을처음다루는이용자들에게는과정 3) 의프로그램을생략해도다차원척도법모형의적합성을평가하고해석하는데별무리가없다고여겨진다. 과정 1) ~ 과정 3) 의수행결과는 [ 결과 3.2] 에요약되어있다. 1의 (a) 다차원척도그림과 (b) 형상좌표, 2의 <Badness-of-Fit Criterion> 그리고 3의 (a) 상그림과 (b) 세퍼드그림이다. 특히, 2의 <Badness-of-Fit Criterion> 값 0.10은 1의 2차원다차원척도그림이개체간의관계를설명하는정도가차원수결정을위한크루스칼의판별기준 < 표 1.9> 에따르면 < 보통 (fair)> 이됨을말한다. 이다차원척도그림에나타나는 9가지직업들은 3가지동질적인직업군으로나누어진다. 그림의수평축 (1차원축 ) 의왼쪽에육체적노동력이요구되는직업인 farmer( 농부 ) 와 plumber ( 배관공 ), 오른쪽에는전문지식이요구되는 teacher( 초등학교교사 ), actor( 배우 ), journal ( 기자 ) 이각각그룹을이루고있다. 수직축 (2차원축 ) 의아래쪽에는정복차림의 bank( 은행원 ) 와 police( 경찰관 ) 가한그룹을이루고있다. 그반대편에는치료와치유를직업으로하 3.2 비계량형다차원척도법 79
는 surgeon( 외과의사 ) 과 preach( 목사 ) 가놓여있지만이들의직업은서로비유사할뿐만 아니라다른직업군과도유사하지않다. [ 결과 3.2] [ 프로그램 3.2]-1)-3) 의수행결과 1 Configuration Dim1 Dim2 preach 0.68 0.85 surgeon -0.38 1.84 teacher 0.42-0.24 journal 1.13-0.19 police 0.21-1.39 plumber -2.05-0.25 farmer -1.41 0.19 actor 1.50 0.25 bank -0.09-1.07 (a) 다차원척도그림 (b) 형상좌표 2 _MATRIX_ Number of Nonmissing Data Weight Badness-of-Fit Criterion Distance Correlation Uncorrected Distance Correlation 1 36 1.00 0.10 0.96 0.99 3 (a) 상그림 (b) 세퍼드그림 80 3 장이원다차원척도법
[ 결과 3.3] [ 프로그램 3.2]-4) 의수행결과 OBS _ROW COL_ DATA FITDATA FITDIST RESIDUAL 1 surgeon preach 3.06 1.02105 1.44773-0.42668 2 teacher preach 2.14 0.83875 1.12308-0.28433 3 teacher surgeon 3.95 2.46380 2.22910 0.23469 4 journal preach 3.21 1.02105 1.13515-0.11411 5 journal surgeon 3.95 2.46380 2.52873-0.06494 6 journal teacher 3.03 1.02105 0.70930 0.31175 7 police preach 3.51 2.15061 2.28826-0.13765 8 police surgeon 4.17 3.30431 3.28270 0.02161 9 police teacher 2.82 1.02105 1.16605-0.14500 10 police journal 3.33 1.50806 1.50635 0.00171 11 plumber preach 4.40 3.30431 2.94298 0.36133 12 plumber surgeon 3.77 2.46380 2.67733-0.21354 13 plumber teacher 3.86 2.46380 2.46881-0.00501 14 plumber journal 4.14 3.21273 3.17692 0.03581 15 plumber police 3.60 2.17187 2.53187-0.36000 16 farmer preach 3.64 2.17187 2.19501-0.02314 17 farmer surgeon 3.69 2.17187 1.95297 0.21890 18 farmer teacher 3.47 1.90292 1.87961 0.02331 19 farmer journal 3.90 2.46380 2.56616-0.10237 20 farmer police 3.56 2.15061 2.26040-0.10979 21 farmer plumber 2.53 0.83875 0.77173 0.06702 22 actor preach 3.12 1.02105 1.01941 0.00163 23 actor surgeon 4.13 2.79613 2.46271 0.33342 24 actor teacher 2.72 1.02105 1.18982-0.16877 25 actor journal 2.58 0.83875 0.58045 0.25830 26 actor police 3.68 2.17187 2.08623 0.08564 27 actor plumber 4.17 3.30431 3.58747-0.28316 28 actor farmer 4.10 2.79613 2.91522-0.11909 29 bank preach 3.73 2.17187 2.07225 0.09961 30 bank surgeon 4.05 2.79613 2.92704-0.13091 31 bank teacher 3.31 1.02105 0.97533 0.04572 32 bank journal 3.46 1.50806 1.50282 0.00524 33 bank police 3.29 1.02105 0.43812 0.58293 34 bank plumber 3.92 2.46380 2.12394 0.33986 35 bank farmer 3.59 2.15061 1.82266 0.32795 36 bank actor 3.72 2.17187 2.07121 0.10066 [ 결과 3.3] 의 OBS 는디폴트로제공되며현재 9 가지직업을각각짝지었을때경우의수 36 가지를나타내고있고이들의짝을 _ROW_ 와 _COL_ 에서볼수있다. 나머지 DATA, FITDATA, FITDIST, RESIDUAL 을 [ 알고리즘 3] 의단계별로비교하여보면 DATA 의값은 [1 단계 ] 의 < 표 3.1> 의비유사성 이고, FITDATA 의값은 [3 단계 ] 의순위상 이며, FITDIST 의값은 [2단계 ] 에서 2-차원형상좌표로부터얻어지는비유사성 에해당한다. 3.2 비계량형다차원척도법 81
RESIDUAL 의값은 [4단계 ] 의스트레스식 (3.3) 의분자에서 인 -잔차이다. 예를들어 DATA 의첫번째행의 3.06 은 < 표 3.1> 에서두개체 surgeon 과 preach 사 이의비유사성을나타낸다. FITDIST 는 [ 결과 3.2]-1 의 (b) 형상좌표로부터얻어진다. 이 를 [ 알고리즘 3]-[2 단계 ] 에서형상좌표행렬을 라하고이행렬로부터얻어지는 비유사성행렬을 라고하였다. 실제 FITDIS 의첫번째행인 는 비유사성 로 [ 결과 3.2]-1 의 (b) 형상좌표로부터다음과같이계산된다. 이번에는 FITDIST 의 36번째행의 은비유사성 로 이다. 이번에는 FITDATA 와 FITDIST 의값은순위상 과형상좌표의비유사성 로나타내 며이들로부터 [ 결과 3.2]-3 의 (a) 상그림을얻을수있다. 상그림은수직축의순위상 과수평축의비유사성 에대한각개체의 36가지짝의산점도이다. 이는 [ 프로그램 3.2]-1) 과 2) 에의해서자동으로주어진다고이미언급한바있다. 이그림에서가장이상 적으로는좌표점들이원점을지나는직선상에놓이면비계량형다차원척도법을위한순서 척도모형이적합함을나타내게된다. 직선상을벗어나는좌표점 ( 이상치 ) 들이많을수록식 (3.3) 의스트레스는커지게된다. 실제이스트레스는 FITDATA( 순위상 ), FITDIST( 비 유사성 ), RESIDUAL(- 잔차 ) 로부터계산될수있다. 먼저스트레스식 (3.3) 에서분자는 82 3 장이원다차원척도법
FITDIST FITDATA RESIDUAL (3.4) 이고분모는 FITDIST (3.5) 이다. 따라서식 (3.4) 와식 (3.5) 의결과로부터식 (3.3) 의스트레스 은 이다. 이는 [ 결과 3.2]-2 의 <Badness-of-Fit Criterion> 값과일치하게된다. 끝으로 [ 결과 3.2]-3 의 (b) 세퍼드그림은 [ 프로그램 3.2]-3) 의결과로수직축의 FITDATA ( 순위상 ) 와 DATA( 비유사성 ) 에의한산점도이다. 이는순서척도모형에서가정한 의단조성을평가하는데실제로본사례에서가정한순서척도모형이단조성을보이고있음을알수있다. 특별히 Davison(1992, Chapter 5) 은비계량형다차원척도법에관한이론및다양한예제와분석을제공하고있으니관심있는독자는참고바란다. 3.3 계량형과비계량형다차원척도법의비교 일반적으로 [ 알고리즘 2: 토거선알고리즘 ] 에바탕을두는계량형다차원척도법이 [ 알고 리즘 3: 크루스칼 - 세퍼드알고리즘 ] 에바탕을두는비계량형다차원척도법보다는수치적으 로계산이더간단하다. 그러나전자가거리함수의단조변환에대하여얼마나로버스트한 3.3 계량형과비계량형다차원척도법의비교 83
것인지는알려져있지않다. 다시말해서거리측정에대한주관적판단을사용하기보다는비계량형다차원척도법과같이비유사성의순위순서를유지하도록함수 를객관적으로세우는것이다. 더군다나두방법은잘알려진사례의경우에는유사한결과를제공한다. 이미비계량형다차원척도법이적용된 1.1.2 절 [ 사례 2] 우리나라 14개경제관련기관의경제전망에대하여 3.1.3 절에서는계량형다차원척도법을적용하고있는데그결과는대동소이함을이미살펴보았다. 이절에서는 SAS/PROC MDS 와 R-프로그램에서제공하는계량형과비계량다차원척도법의프로그램과결과를비교하고자한다. 3.3.1 SAS / MDS 에서비교먼저 SAS/MDS 에서제공하는두방법의비교를위해잘알려진사례를하나고려한다. Mardia 외 2인 (1979, Chapter 14) 에서는점 (. dot) 과선 (- dash) 의짧은신호로구성된모스부호 (Morse code) 에서 0, 1, 2, 3, 4, 5, 6, 7, 8, 9로이루어진 10개의아라비아숫자에대한 < 표 3.2> 와같은유사성자료를제공하고있다. 이자료는모스부호를모르는 598명에게청각적으로기계에의해서두수의모스부호신호를짝을지어두번 (1 다음 2, 2 다음 1과같이 ) 들려주고두신호의짝이같다고생각하는사람들의비율을나타낸비대칭유사성행렬자료 < 표 2.7> 의하삼각행렬만고려한것이다. Seber(1984, Example 5.5) 와 Izenman(2008, pp. 469-471) 에서도전체모스부호자료에대한다차원척도그림을제공하고있으니참고바란다. < 표 3.2> 아라비아숫자에대한모스부호의유사성자료 1.---- 84 2..--- 62 89 3...-- 16 59 86 4...- 6 23 38 89 5... 12 8 27 56 90 6-... 12 14 33 34 30 86 7--... 20 25 17 24 18 65 85 8---.. 37 25 16 13 10 22 65 88 9----. 57 28 9 7 5 8 31 58 91 0----- 52 18 9 7 5 18 15 39 79 94 84 3 장이원다차원척도법
< 표 3.2> 의아라비아숫자에대한모스부호자료가유사성행렬 를이루고이를통해비유사성행렬 를얻기위해 2.3 절의식 (2.9) 의표준변환 를활용한다. 이것의행렬표현은다음과같다. 여기서, 는크기가 행렬 의대각원소로이루어지는대각행렬을나타내 며, 는크기가 이고모든원소가 1 인행렬이다. [ 프로그램 3.3] 모스부호의유사성자료의계량형과비계량형다차원척도법을위한프로그램 3.3 계량형과비계량형다차원척도법의비교 85
data morsecode; input code$ x1-x10; cards; 1.---- 84 62 16 6 2 12 20 37 57 52 2..--- 62 89 59 23 8 14 25 25 28 18 3...-- 16 59 86 38 27 33 17 16 9 9 4...- 6 23 38 89 56 34 24 13 7 7 5... 12 8 27 56 90 30 18 10 5 5 6-... 12 14 33 34 30 86 65 22 8 18 7--... 20 25 17 24 18 65 85 65 31 15 8---.. 37 25 16 13 10 22 65 88 58 39 9----. 57 28 9 7 5 8 31 58 91 79 0----- 52 18 9 7 5 18 15 39 79 94 ; proc iml; reset nolog; use morsecode; read all var{code} into code; read all var{x1 x2 x3 x4 x5 x6 x7 x8 x9 x10} into C; n=nrow(c); J=J(n,n,1); /* Standard Transformation from C to D */ D=sqrt(diag(C)*J -2*C+J*diag(C)); /* d_ij = sqrt[c_ii -2c_ij + c_jj] */ print, "Dissimilarity matrix from Similarity matrix", D[rowname=code colname=code format=5.3]; create dism from D[rowname=code]; append from D[rowname=code]; close dism; quit; ods graphics on; /* Metric MDS */ proc mds data=dism level=absolute pfinal; id code; /* Non-metric MDS */ proc mds data=dism level=ordinal pfinal; id code; run; 이변환을반영하여 [ 프로그램 3.3] 은 /* Standard Transformation from C to D */ 에서아라비아숫자에대한모스부호의유사성자료 < 표 3.2> 로부터비유사성행렬을계산하고이에대하여계량형다차원척도법과비계량형다차원척도법을하기위한대한 PROC MDS 프로그램이다. 계량형다차원척도법은 /* Metric MDS */ 에서옵션 <level=absolute> 86 3 장이원다차원척도법
로, 비계량형다차원척도법은 /* Non-metric MDS */ 옵션 <level=ordinal> 로이루어진다. 이 [ 프로그램 3.3] 의수행결과들중비유사성행렬과다차원척도그림만 [ 결과 3.4] 에서제공하고있다. 결과에는요약되지않았지만적합도는 (a) 계량형다차원척도그림이 0.21 이고 (b) 비계량형다차원척도그림이 0.05 으로 < 표 1.9> 의크루스칼의판별기준에따르면각각나쁨 (poor) 와좋음 (good) 에해당하여상대적으로계량형다차원척도그림보다는비계량형다차원척도그림이적합도에서는좋다고여겨진다. 그러나두그림의경향은대동소이하다. 전체적으로 1축의왼편에서부터위쪽으로 0(-----), 1(.----), 2(..---), 3(...--), 4(...-), 5(...), 6(-...), 7(--...), 8(---..), 9(----.) 순서로다소거칠지만원을형성하고있다. 수평축 (1차원축 ) 은왼쪽에서오른쪽으로갈수록모스부호인점 (.) 의증가되는추세를측정하며, 그반면에수직축 (2차원축 ) 은위쪽은아라비아숫자 1(.----), 2(..---), 3(...--), 4(...-) 로점 (.) 이먼저시작되며아래쪽은 9(----.), 8(---..), 7(--...), 6(-...) 으로선 (-) 이먼저시작되어신호의동질성을측정한다. 0과 5는 2차원축의이런경향에서벗어나있다. 이를제대로분류하게위해서는좌표축을시계방향으로 (a) 에서는 30도가량, (b) 에서는 20도가량회전할필요가있다. 회전한후에특히, (a) 계량형다차원척도그림에서는좌표점을나타내는숫자를원점에서시작되는벡터로보면 0과 9, 그리고 4와 5는각각그들이서로이루는각이매우작아매우연관성이높게여겨진다. 그이유로는마지막한개의신호에서차이를보여실험에참가한모스부호에익숙하지않은사람들이그차이를인지하지못하기때문이라여겨진다. 그리고이러한기하적인해석은 (a) 계량형다차원척도그림이주성분분석의대수적인면과기하적인면을따르는 [ 알고리즘 2: 토거선알고리즘 ] 에바탕을두고있고주성분행렬도 (principal component biplot) 의관점에서이런기하적인해석이유용하게사용되었다. 행렬도에대해서는최용석과신상민 (2013, 1장 ) 을참고바란다. 3.3 계량형과비계량형다차원척도법의비교 87
[ 결과 3.4] [ 프로그램 3.3] 의실행결과중비유사성행렬과다차원척도그림 Dissimilarity matrix from Similarity matrix CM 1.---- 2..--- 3...-- 4...- 5... 6-... 7--... 8---.. 9----. 0----- 1.---- 0.000 7.000 11.75 12.69 13.04 12.08 11.36 9.899 7.810 8.602 2..--- 7.000 0.000 7.550 11.49 12.77 12.12 11.14 11.27 11.14 12.12 3...-- 11.75 7.550 0.000 9.950 11.05 10.30 11.70 11.92 12.61 12.73 4...- 12.69 11.49 9.950 0.000 8.185 10.34 11.22 12.29 12.88 13.00 5... 13.04 12.77 11.05 8.185 0.000 10.77 11.79 12.57 13.08 13.19 6-... 12.08 12.12 10.30 10.34 10.77 0.000 6.403 11.40 12.69 12.00 7--... 11.36 11.14 11.70 11.22 11.79 6.403 0.000 6.557 10.68 12.21 8---.. 9.899 11.27 11.92 12.29 12.57 11.40 6.557 0.000 7.937 10.20 9----. 7.810 11.14 12.61 12.88 13.08 12.69 10.68 7.937 0.000 5.196 0----- 8.602 12.12 12.73 13.00 13.19 12.00 12.21 10.20 5.196 0.000 (a) 계량형다차원척도그림 (b) 비계량형다차원척도그림 3.3.2 R-프로그램에서비교 R-프로그램에서는계량형과비계량형다차원척도법을위한프로그램은 cmdscale 함수와 isomds 함수가각각제공된다. 특히, isomds 함수를이용하기위해선 R-프로그램에서라이브러리 MASS 를지정해야한다. 88 3 장이원다차원척도법
[ 프로그램 3.4] 모스부호의비유사성자료의계량형과비계량형다차원척도법을위한 R-프로그램 # Metric MDS d<- as.matrix(read.table("c://r-mds//morse.txt", header=t, check.names=f)) con<- cmdscale(d, k=2, eig=t) con x<-con$points[,1] y<-con$points[,2] lim<-c(-max(abs(con$points)), max(abs(con$points))) plot(x,y, xlab="dimension 1", ylab="dimension 2", xlim=lim, ylim=lim) text(x,y+0.6, colnames(d), cex=0.8) abline(v=0, h=0) # Nonmetric MDS d<- as.matrix(read.table("c://r-mds//morse.txt", header=t, check.names=f)) library(mass) con<- isomds(d, k=2) con x<-con$points[,1] y<-con$points[,2] lim<-c(-max(abs(con$points)), max(abs(con$points))) plot(x,y, xlab="dimension 1", ylab="dimension 2", xlim=lim, ylim=lim) text(x,y+0.6, colnames(d), cex=0.8) abline(v=0, h=0) 3.3.1 절에서살펴본 < 표 3.2> 아라비아숫자에대한모스부호의유사성자료로부터표준변환 에의한비유사성행렬자료에대하여계량형과비계량형다차원척도법에관한 R-프로그램이 [ 프로그램 3.4] 이다. R-프로그램에서다차원척도법을위한함수에사용되는입력자료는반드시비유사성행렬자료이어야한다. [ 프로그램 3.4] 의 # Metric MDS 이하는계량형다차원척도법에관한 cmdscale 함수를이용하였고, # Nonmetric MDS 이하에는비계량형다차원척도법을위한 isomds 함수를사용하고 library(mass) 문에의해서라이브러리 MASS 를지정하였다. 공통적으로먼저다음의명령문 3.3 계량형과비계량형다차원척도법의비교 89
d<-as.matrix(read.table("c://r-mds//morse.txt", header=t, check.names=f)) 에서 read.table 함수의 <c://r-mds//morse.txt> 는드라이브 c: 에위치한폴더 <R-MDS> 의자료 <morse.txt> 를불러들여행렬 <d> 로저장하라는명령문이다. <header=t, check.names=f> 는첫행에개체인 10개의아라비아숫자와모스부호를나타내는 1(.----), 2(..---), 3(...--), 4(...-), 5(...), 6(-...), 7(--...), 8(---..), 9(----.), 0(-----.) 의문자자료가있음을알리는인수이다. cmdscale 과 isomds 함수에서 는 2차원의형상공간을적합하라는인수 (argument) 이다. 특히, isomds 함수에는알고리즘에서초깃값으로계량형다차원척도법의형상좌표를이용하기위하여 y=cmdscale(d,k) 에의한 cmdscale 함수를이용하는것이디폴트인수로주어진다. 더불어수치적반복을위해 niter=100 과수렴의조건 tol=1e-4 역시디폴트인수로주어진다. [ 프로그램 3.4] 에서실제두방법의비교를위해 3.3.1 절에서활용한자료를고려한다. 즉, 점 (. dot) 과선 (- dash) 의짧은신호로구성된모스부호 (Morse code) 에서 0, 1, 2, 3, 4, 5, 6, 7, 8, 9로이루어진 10개의아라비아숫자에대한 < 표 3.2> 의유사성자료이다. 이는 3.3.1 절의 [ 프로그램 3.3] 의수행결과인비유사성행렬자료를 [ 프로그램 3.4] 에서입력자료로활용되었다. [ 부록 2: 자료 10( 파일이름 : morse.txt)] 를참고바란다. [ 프로그램 3.4] 의수행결과들인 (a) 계량형다차원척도법과 (b) 비계량형다차원척도법의 1 형상좌표 2 최종적합도 3 다차원척도그림이 [ 결과 3.5] 에요약정리되어있다. R-프로그램에서다차원척도법의최종적합도는계량형의경우식 (3.1) 의적합도 를사용하되퍼센트 (%) 가아닌형태로실제결과값에 100을곱해야한다. 다음으로비계량형인경우퍼센트 (%) 형태로제공되므로그차이를잘인식하기를바란다. (a) 계량형다차원척도그림이 0.56(56%) (b) 비계량형다차원척도그림이 4.83%(0.05) 이다. 물론 (a) 계량형다차원척도그림의적합도 0.56 은 [ 결과 3.4] 의적합도에서 0.21 에비해다소높아졌지만둘다적합도에서는좋지는않다. 전반적으로다차원척도그림에대한해석은 3.3.1 절의 SAS/MDS 의 [ 결과 3.4] 와거의동일하나약간의차이점이있다. 가장두드러진차이점은 2차원축 (Dimension 2) 에대하여위쪽과아래쪽좌표점의위치가기하적으로바뀌어있지만해석상전혀문제가되지않으며 0(-----) 이 9(----.) 쪽으로이동해있다는것이다. 전반적으로 1차원축의왼편으로부터아래쪽으로 0(-----), 1(.----), 2(..---), 3(...--), 4(...-), 5(...), 6(-...), 7(--...), 8(---..), 9(----.) 순서로다소거칠지만원을형성하고있다. 수평축 (1차원축 ) 은왼쪽에서오른쪽으로갈수록모스부호인점 (.) 90 3 장이원다차원척도법
의증가되는추세를측정하며그반면에수직축 (2차원축 ) 의아래쪽은 1(.----), 2(..---), 3(...--), 4(...-) 로점 (.) 이먼저시작되며위쪽은 0(-----), 6(-...), 7(--...), 8(---..), 9(----.) 로선 (-) 이먼저시작되어신호의동질성을측정한다. 다만 5(...) 는이경향에서벗어나있다. 반면에이런경향은 SAS/MDS 의경우에는 0(-----) 도해당되었던것이다르다. R-프로그램의 [ 결과 3.5] 에서는두축을시계반대방향으로 10도정도회전하면 2차원축의해석이명확해진다. [ 결과 3.5] [ 프로그램 3.4] 의실행결과 (a) 계량형다차원척도그림 (b) 비계량형다차원척도그림 1 2 3 3.3 계량형과비계량형다차원척도법의비교 91
연습문제 3.1 전국 17 개주요은행별경영평가를 8 가지항목에대해정리한자료이다. 경영평가항목 구분은행 (1) (2) (3) (4) (5) (6) (7) (8) 인수되는은행 인수하는은행 경영평가대상은행 동화 0 0 0 0 0 1 1 0 동남 0 0 0 0 1 1 0 0 대동 0 0 0 0 0 0 1 0 충청 0 0 0 0 0 1 0 1 경기 0 0 0 0 0 1 1 1 신한 1 1 1 1 1 1 1 0 주택 1 1 1 1 1 1 1 0 국민 1 1 1 1 1 1 1 1 하나 1 1 0 1 1 1 1 1 한미 1 1 0 1 1 1 1 1 조흥 0 1 1 0 0 1 1 1 상업 0 1 1 0 0 1 1 1 한일 0 1 1 1 0 1 1 1 외환 0 1 1 0 0 1 1 1 평화 0 0 0 0 1 0 1 1 강원 0 0 0 0 0 0 0 1 충북 0 0 0 0 1 0 0 0 이자료는중앙일보 (1998.6.29) 에서퇴출된은행및시중 17 개은행에대한경영평가 를조사한계량치자료를다음의 8 가지항목을기준으로이진수자료로가공한것이다. (1) 국제결제은행 (BIS) 가자기자본이 8% 이상인가? (2) 총자산이 130,000 억원이상인가? (3) 무수익여신이 8,000 억원이상인가? (4) 총여신대비무수익여신비율이 6% 이하인가? (5) 부실여신은 3,300 억원이하인가? (6) 점포수는 110개이상인가? (7) 인원수는 1700명이상인가? (8) 중소기업지원성적이 B 이상인가? 92 3 장이원다차원척도법
1) 단순매칭계수와러셀- 라오계수를계산하여보라. 2) 비유사성행렬자료를얻어보라. 3) 토거선알고리즘의단계별로계산결과를제시하라. 4) 계량형과비계량형다차원척도그림을얻고해석하고비교하라. 5) 적합도에대하여논의하라. 6) R-프로그램을활용하여계량형과비계량형다차원척도법을수행하라. 그리고 SAS/MDS 결과와비교하라. 3.2 다음은우리나라 10 대도시별지도상의거리 (cm) 를나타낸자료이다 ( 문교부, 1972, 대 한민국전도 ( 척도 1:1,000,000)). 계량형과비계량형다차원척도법을모두실시하여서 로비교하여라. 서울. 부산 32.5. 광주 27 19.5. 대구 24.2 9.5 17. 인천 4 34.4 16.5 25. 강릉 17 29.6 35.5 21 20.7. 청주 11.7 22 17.5 13.5 11.9 18. 평양 20 52 44 43 19.4 30.7 31. 신의주 30.6 68.5 60 58.9 30.4 47.2 46 17. 전주 19.2 18 7.6 12.8 19.2 26.5 9.8 37.8 52. 3.3 다음은 6가지종목의운동경기에대한비유사성을나타낸자료이다 (Davison, 1992, Table 4.1). 이는경기의속도감과선수들간의신체적접촉의정도에따라얼마나다른지를보여주고있다. 예를들면하키와축구는매우빠르면서신체적접촉이있는운동이고골프와크로케는느리면서신체적접촉이없는경기이다. 연습문제 93
하키 0.00 축구 0.71 0.00 농구 1.41 1.41 0.00 테니스 1.73 1.73 1.00 0.00 골프 2.00 2.00 1.41 1.00 0.00 크로케 2.00 2.00 1.41 1.00 0.71 0.00 1) 계량형과비계량형다차원척도그림을얻고해석하라. 2) 운동경기의유형을다차원척도그림에서찾아라. 3) R-프로그램을활용하여계량형과비계량형다차원척도법을수행하라. 3.4 다음은미국의 10 대도시간의비행노선의거리 ( 마일 ) 를제일짧은노선을순위 1(New York 과 Washington D.C.) 로하고제일긴노선을순위 45(Miami 와 Seattle) 로가공 한순위자료이다 (SPSS Inc., 1992, p. 173). Atlanta. Chicago 4. Denver 22 13. Houston 8 15 12. Losangel 34 31 11 24. Miami 6 21 29 18 39. Newyork 10 9 27 25 42 20. Sanfran 35 32 16 28 2 44 43. Seattle 36 30 19 33 17 45 40 7. Washdc 3 5 26 23 37 14 1 41 38. 1) 비계량형다차원척도법을실시하라. 2) [ 문제 3.1] 에서구한비유사성행렬을위와같이순위자료로만들고비계량형다차원척도법을실시하라. [ 문제 3.1] 의비계량형다차원척도법의결과와비교할때어떤차이가있는지설명하라. 3.5 미국내 22 개공익회사에대한평가를위해 8 개변수로측정한자료이다 ( 최용석, 정 광모, 2003, 5 장 ). 여기서 8 개변수는 : 고정요금보상율, : 자금수익률, : KW 당비용, : 연부하율, : 1974-1975 년사이절정의 kwh 수요성장, : 판 94 3 장이원다차원척도법
매량, : 핵비율, : 총연료비용이다. [ 부록 2: 자료 7( 파일이름 : utility.txt)] 을 참고하라. 공익회사 1. 애리조나 2. 보수톤에디슨 3. 루이지내나 4. 코몬웰스에디슨 5. 콘솔에디슨 6. 플로리다파우워 7. 하와이안일렉트릭 8. 아이다호파워 9. 켄터키유틸 10. 매디슨가스 11. 네바다파워 12. 뉴잉글랜드파워 13. 노던스테이트파워 14. 오클라호마가스 15. 퍼시픽가스 16. 푸젯싸운드파워 17. 샌디에고가스 18. 서던캄퍼니 19. 텍사스유틸 20. 위스콘신일렉트릭 21. 유나이트일루미네이팅 22. 버지니아일렉트릭 1.06 0.89 1.43 1.02 1.49 1.32 1.22 1.10 1.34 1.12 0.75 1.13 1.15 1.09 0.96 1.16 0.76 1.05 1.16 1.20 1.04 1.07 9.2 10.3 15.4 11.2 8.8 13.5 12.2 9.2 13.0 12.4 7.5 10.9 12.7 12.0 7.6 9.9 6.4 12.6 11.7 11.8 8.6 9.3 151 202 113 168 192 111 175 245 168 197 173 178 199 96 164 252 136 150 104 148 204 174 54.4 57.9 53.0 56.0 51.2 60.0 67.6 57.0 60.4 53.0 51.5 62.0 53.7 49.8 62.2 56.0 61.9 56.7 54.0 59.9 61.0 54.3 1.6 2.2 3.4 0.3 1.0-2.2 2.2 3.3 7.2 2.7 6.5 3.7 6.4 1.4-0.1 9.2 9.0 2.7-2.1 3.5 3.5 5.9 9077 5088 9212 6423 3300 11127 7642 13082 8406 6455 17441 6154 7179 9673 6468 15991 5714 10140 13507 7287 6650 10093 0 25.3 0 34.3 15.6 22.5 0 0 0 39.2 0 0 50.2 0 0.9 0 8.3 0 0 41.1 0 26.6 0.628 1.555 1.058 0.700 2.044 1.241 1.652 0.309 0.862 0.623 0.768 1.897 0.527 0.588 1.400 0.620 1.920 1.108 0.636 0.702 2.116 1.306 1) 비유사성행렬로유클리드거리와마할라노비스거리를구하라. 2) 두거리의다차원척도법을위한적절한차원수와적합도를구하라. 3) 1) 에서구한각각의거리에대한다차원척도그림을통해적절한군집과특성을해석하고비교하라. 4) R-프로그램을활용하여계량형과비계량형다차원척도법을실시하라. 3.6 Mardia 외 2 인 (1979, pp. 412-413) 은다음과같이정의되는유사성행렬 를 소개하고있다. 이를켄달 (Kendall) 의행렬이라부르며편자효과 (horseshoe effect) 를 보여주기위한가공자료이다. 연습문제 95
, 1) 편자효과에대하여기술하고이유사성행렬의크기를말하라. 2) 표준변환을통해비유사성행렬 를구하라. 3) R-프로그램을활용하여계량형과비계량형다차원척도법을실시하라. 4) 3) 에서구한다차원척도그림을통해편자효과가있음을설명하라. 3.7 22명의남자 (M) 와 18명의여자 (F) 의두개골에대한 12개측정변수에의해측정된자료가다음과같이주어져있다 (Cox 와 Cox, 1994, pp. 30-34). 이자료는고대이집트 Naqada 종족의두개골자료에대한칼피어슨 (Karl Pearson) 의연구에의해서주어졌고 [ 부록 2: 자료 11( 파일이름 : skull.txt)] 에제공되어있다. 12개측정변수는다음과같다. 1) Greatest length(l), 2) Breadth(B), 3) Height(H), 4) Auricular height(oh), 5) Circumference above the superciliary ridger(u), 6) Sagittal circumference(s), 7) Cross-circumference(Q), 8) Upper face height(fh), 9) Nasal breadth(nb), 10) Nasal height(nh), 11) Cephalic index(b/l), 12) Ratio of height to length(h/l). 96 3 장이원다차원척도법
L B H OH U S Q FH NB NH B/L H/L 5F -2.2700-0.7810-1.7400-1.3300-1.8900-0.9020-1.4800-1.9000-1.4100-1.0600 1.4120 0.4960 7M 0.0364 0.3764-0.9660-0.6850 0.3166-0.6520-0.9220 0.1855-0.4530 0.4895 0.2161-1.1200 10F -0.7070 1.5570-0.3270 0.1476-0.4180-0.4010 1.1240 0.5110 0.6635-0.8000 1.7180 0.3807 13M 0.9280 1.4390-0.6750-0.0960 1.2610 0.1838 1.5570 1.3570 2.5770 0.7475 0.2161-1.6600 26M 1.6710 1.6760 1.1630 1.6210 2.1710 1.5200 2.0530 0.4459 0.9187 0.2315-0.2130-0.4650 32M -0.5580 0.8488-1.9300-1.0700-0.2780-1.4000-0.3640-0.8560-0.2930 1.2630 1.0740-1.5800 43F -1.4500 0.2583-1.5500-1.0100-1.0100-1.1500-0.4880-0.5960-1.0900-0.0260 1.4420-0.1960 45F -0.4090-0.4500-1.4500-2.6300-1.0500-1.5700-1.1100-0.5960-0.7720-2.0900 0.0015-1.2000 46F -1.3800 1.0850-0.6750-0.1730-0.2080-0.4010 0.8756-1.7700-0.4530-0.2840 1.9940 0.7268 52M -0.5580-0.0960-0.5790-0.1730-0.3130-0.4010-0.1160 0.4459-0.1340 0.7475 0.3694-0.0810 58F 0.2593-1.0400 0.1955 0.1476 0.3516 0.1838-0.2400 1.2270 1.1420 0.7475-0.9790-0.0810 59F -0.1120-2.0600-0.7720 0.7241-0.7330-0.0670-0.6120-1.5100-1.4100 0.2315-1.4100-0.7340 63F 0.5565 0.7307 0.4858 1.2360 0.8414 1.6040 1.2470-1.2500-0.7720 0.2315 0.0322-0.0810 64F -1.7500-1.0400-0.5790-1.8400-1.7500-2.5300-2.3500-1.2500-0.4530-1.3200 0.5839 1.2650 66M -0.4090 1.2030-0.9660 0.0836-0.0680-1.4900 0.8756 1.2270 0.6635 2.2950 1.1970-0.6580 70F -1.8700-0.9230-0.3850-0.4930-1.9600-1.1500-1.1100-1.1200-2.3700-0.0260 0.9211 1.6110 83F 1.0770 1.5570-0.3850 0.2117 1.1910 1.1030 0.3797 0.4459 1.3810-0.8000 0.1854-1.5000 85M 0.8537 0.8488 0.1955-0.5570 0.9464 0.3091-0.3640-1.6400-0.7720-0.8000-0.1210-0.6580 86M -0.1860 0.0221 0.9696 0.3398-0.0330 0.3091 0.1317 0.7062-0.2930-0.8000 0.1548 1.2650 93bM -1.1500 0.6126-1.3500-1.0700-0.5580-1.2400 0.2557-0.4650 0.6635-1.0600 1.4420-0.3110 96M 1.0020 1.3210 1.7440 1.7490 1.2610 1.7710 2.1150-0.5960-0.4530 0.7475 0.0935 0.8037 97F -1.6000 1.0850 0.0019 0.1476-1.3600-0.7350-0.1160 0.5761 0.6635 0.8764 2.2090 1.7650 99M 0.9280 0.3764 0.9696 1.3650 0.6665 0.6015 0.7516-0.2050-1.2500-1.0600-0.5200 0.0731 102M 0.1850 0.1402 0.1955-0.8130-0.4880-0.1500-0.4880 0.4459 1.1420-1.3200-0.0600-0.0040 112M 0.4822-2.2200 0.8342-0.0450-0.4880-0.2340-0.8600 0.6411 1.3020-0.2840-1.9600 0.3807 120M 2.1910 0.4945 0.9696 0.2117 2.4510 0.8521 0.5036 1.7480 1.3020 2.2950-1.3800-1.1600 121F 0.0364-0.4500-1.1600-1.3300-0.4180-0.9020-0.8600-0.3350-0.4530-0.2840-0.3660-1.3100 125M -0.2610-0.6860 1.6470 1.2360-0.3130 0.1838 0.9995-0.8560-0.6120-1.4500-0.3050 2.0730 136M 1.2250-1.0400-0.3850 0.7241 0.8414 1.1030-0.1160 1.0970 0.5838-0.0260-1.7200-1.6600 137F 0.1850-0.9230-0.3850-0.5570-0.2080 0.3091-1.2300 1.4870 0.1053 0.2315-0.8260-0.6190 138M 0.3336-0.3320-0.1920 0.2117 0.0367 0.1838-0.1160-0.8560-0.7720 0.7475-0.5200-0.5810 139M 0.0364-0.9230-0.3850 0.0836-0.6980-0.0670-0.3640-0.3350 0.5040 1.0050-0.7030-0.4650 140F 0.7794 0.0221 0.9696 1.7490 0.7714 0.9356 1.6190 0.7062 0.8230-1.8300-0.6420 0.2269 143M 0.1850 0.0221 0.7761-0.4290 0.1067 0.1002-0.1160 0.3157-0.2140-0.5420-0.1520 0.6499 144F 1.0770-0.5210 0.9696 1.4930 0.9114 1.1440 0.2557 0.8364-0.7720 1.0050-1.2200-0.0810 145F 0.1850-0.0960 1.7440 0.7241 0.1417 1.8550 0.5036-0.0750 0.5040 0.6443-0.2440 1.6880 146F 0.0364-0.5090 0.3890-1.3300-0.9080 0.1002-1.4800 0.7062-0.7720-0.1550-0.4280 0.3807 148M 0.1850-1.7500 0.2922 0.3398 0.0717-0.1500-0.4880-0.8560-0.7720-0.0260-1.4100 0.1115 151M -1.0000-0.8050 0.3890 0.0836-0.6280-0.1500-0.8600-0.0750 0.0255 0.2315 0.2468 1.4960 152M 1.2250 0.9669 1.9370 0.9803 1.4360 1.3950 0.9995 2.0080 1.7800 1.2630-0.3360 0.8037 1) 개체들간의적절한거리를구하고그타당성을설명하라. 2) 계량형다차원척도법을실시하고남녀군집에차이를설명하라. 3) 주성분분석의주성분점수를이용하여 1) 의결과와비교하라. 4) 남녀따로분리된자료에대한각각의계량형다차원척도법을실시하라. 5) 남자두개골에대한다차원척도그림에서나머지개체들과다른개체를찾아보고그 연습문제 97
특징을설명하라. 6) 여자두개골에대한다차원척도그림에서나머지개체들과다른개체를찾아보고그 특징을설명하라. 3.8 40명으로부터 24대자동차 ( 모델 ) 선호도평가를 8가지관점 ( : 경제성, : 서비스, : 비감가상각, : 가격 ( 매우저렴한차는 1점 ), : 디자인, : 스포티카 : 안전성, : 다루기쉬움 ) 에서 7점척도 (1( 매우좋다 ) ~ 6( 매우나쁘다 )) 에의한설문조사로부터얻어진평균점수가 [ 부록 2: 자료 13( 파일이름 : cartype.txt)] 에제공되어있다 (H rdle 와 Simir, 2007). 1) 비유사성행렬로유클리드거리와마할라노비스거리를구하라. 2) 두거리의계량형과비계량다차원척도법을각각실시하라. 3) 다차원척도그림을통하여자동차의특성에따른적절한군집이얻어지는를살펴보라. 98 3 장이원다차원척도법
4 장 삼원다차원척도법 3장의이원다차원척도법은 개개체들의비유사성 에의한이원 (two-way) 행렬형태인한개의비유사성행렬 에적용된다차원척도법을뜻한다. 더나아가이번에는 명의주체 (subjects) 각각에대해서고려한두개이상의비유사성행렬, 에적용되는삼원다차원척도법을살펴보기로하자. 삼원 (three-way) 이란이원행렬형태의비유사성행렬을주체에대하여각각고려한것을말한다. 이를위한 INDSCAL(INdividual Differences SCALing) 모형의알고리즘을소개하고기하적관점에서이해하려고한다. 또한실제삼원다차원척도법을적용하고이해하기위해사례를통하여프로그램과수행결과를제시하려한다.
4.1 삼원다차원척도법을위한모형 삼원다차원척도법을위한모형과관련된알고리즘으로 Tucker 와 Messick(1963), Horan(1969) 그리고 Carroll 과 Chang(1970) 의것이있다. 가장대표적인방법이 Carroll 과 Chang 이제안한 INDSCAL 이다. 그들은 3.1.1 의 [ 알고리즘 2: 토거선알고리즘 ] 에서각주체의가중치를고려한모형을제안하였고이를종종 INDSCAL 모형이라고불렀다. Davison(1992, pp. 121-123) 은가중치를차원가중치, 중요 (importance) 가중치혹은중요점 (salience) 가중치라한다. 그러나엄격히말하자면 INDSCAL 모형은삼원다차원척도법을제공하는컴퓨터프로그램을일컫는다 (Schiffman 외 2인, 1981, p. 348; Davison, 1992, p. 121). 특히삼원다차원척도법을위한 INDSCAL 모형의내용에대해서는 Davison(1992, Chapter 6), Young(1987, Chapter 6) 그리고 Schiffman 외 2인 (1981, pp. 371-389) 을참고할수있다. 4.1.1 INDSCAL 모형의소개이절에서는 Schiffman 외 2인 (1981, p. 372) 이정리요약한 INDSCAL 모형을소개하려고한다. 이미식 (1.2) 에서정의한 명의주체에대해서고려한삼원행렬형태인비유사성행렬 을고려하자. 여기서 는 번째주체에대해 번째와 번째개체사이의가중유클리드 거리에의한비유사성을나타낸다. 삼원다차원척도법에서궁극적으로구하고자하는 차원형상공간에서크기가 인형상좌표를 라하자. 번째주체에대한 번째차원에대한가중치를 라 고하고, 번째와 번째개체간의비유사성을 (4.1) 라고하면삼원다차원척도법을위한모형은 100 4 장삼원다차원척도법
(4.2) 를만족한다. 여기서 는일반적으로계량형인경우선형함수이고비계량형인경우는 단조함수이며 는왜곡오차이다. 입력 : 비유사성행렬. 개체 와 의비유사성. 1 2 개 i 체 n 1 2 j n 개체 1 2 결과 : 차원의 형상좌표행렬. 개 i 차원 에서개체 의좌표. 형상공간에서개체 와 의비유사성. 체 n 1 r k 차원 < 그림 4.1> 이원다차원척도법을위한입력자료와결과의도식도 4.1 삼원다차원척도법을위한모형 101
입력 : 개의 비유사성행렬,. 주체 에대해개체 와 의비유사성. 결과 : 차원의 형상좌표행렬. 차원 에서의개체 의좌표. 1 2 개 체 i 1 2 주 체 s 주체의 가중치행렬. 차원 에서주체 의가중치. n m 1 r k 1 r k 차원차원 형상공간에서주체 에대한개체 와 의비유사성 < 그림 4.2> 삼원다차원척도법을위한입력자료와결과의도식도 특히, 식 (4.1) 은 INDSCAL 모형의차원축소된형상공간의비유사성이 3장에서살펴본유클리드거리대신에가중유클리드거리를고려하고있음을나타낸다. 이런이유로 INDSCAL 모형을가중다차원척도법 (weighted MDS) 이라고도한다. < 그림 4.1> 과 < 그림 4.2> 는이원과삼원다차원척도법에대한입력자료와다차원척도법결과에서얻어지는형태를비교하고있다. 이들그림을입력자료와결과의도식도 (schematic diagram) 라고한다 (Young 과 Lewyckyj, 1979, Chapter 1; Schiffman 외 2인, 1981, pp. 372-373; Young, 1987, pp. 122-135). 먼저 < 그림 4.1> 의이원다차원척도법에서입력자료로사용되는비유사성행렬 의도형적형태는정사각형이며, 이는 가 인이원 102 4 장삼원다차원척도법
정방대칭행렬임을나타내고있다. 그리고 차원의 형상좌표행렬 의모양은일 반적으로개체수 이차원수 보다는매우크므로직사각형을이룬다. 이형상좌표행렬로 부터형상공간에서개체 와 의비유사성 를계산할수있다. 다음으로 < 그림 4.2> 의 삼원다차원척도법인 INDSCAL 모형의입력자료는주체 개체 개체의삼원행렬자료이 다. 다시말해서각주체에따른개체간의비유사성으로이루어진정사각형인이원정방 대칭행렬이, 이다. 그러므로각각의정사각형은이원다차원척도법의입 력자료로볼수있고이들을각 명의주체에따라모아두었다고생각하면된다. 그리고 < 그림 4.1> 에서이원다차원척도법의결과는차원축소된 차원형상공간에서의개체들의 단하나의좌표행렬 이지만 INDSCAL 모형의결과는 2 개의좌표행렬로이루어져있 다. 그하나는개체형상공간에서의좌표행렬 와나머지는주체형상공간에서의가중 치좌표행렬 이다. 이들로부터형상공간에서주체 에대한개체 와 의비유사성 를계산하게된다. 특히, 개체공간을그룹자극 (group stimulus) 공간이라고도한다 (Schiffman 외 2 인, 1981, p. 374). 4.1.2 INDSCAL 모형의기하적해석 INDSCAL 모형에바탕을두는삼원다차원척도법의기하적해석을이해하기위해다음 을생각해보자. 삼원다차원척도법의적용결과에서차원축소된 차원형상공간에개체들 의좌표행렬, 을얻게된다. 여기서 은개체공간의 차원에서 번째개체의좌표이다. 특히, 삼원다차원척도법에서는식 (4.1) 의주체 에 대하여 번째와 번째개체간의비유사성 가정의되기위해서는가중치가필요하다. 만약에 차원에서 번째주체에대한가중치를 이라고하면이젠 차원에서 번째주 체에대한개체공간상의좌표는 (4.3) 에의해서제공된다. 식 (4.3) 에의해서제공되는가중형상공간을개인지각공간 (private perceptual space) 이라고한다. 따라서이공간에서주체 에대하여 번째와 번째개체 간의비유사성은식 (4.3) 에의해서유클리드거리 4.1 삼원다차원척도법을위한모형 103
(4.4) 로나타낼수있다. 그리고식 (4.3) 을식 (4.4) 에대입하면식 (4.1) 을얻게된다. 이와같 이식 (4.3) 과식 (4.4) 는식 (4.1) 인유클리드거리의가중일반화의해석을제공하며대수 적으로는가중치에의한선형변환을통해 INDSCAL 모형을나타내고있다. 다시말해서각차원에대한각주체의가중치의제곱근 에의해서각차원이재측 정된다. 즉식 (4.4) 에서 가증가한다면 차원에있는개체간의차이는개체 와개 체 의비유사성을판단하는데큰영향을준다. 지금까지설명을기하적으로보이기위해 du Toit 외 2 인 (1986, p. 146) 이요약한예를 살펴보자. 먼저임의의세개체의 차원의형상좌표행렬 를삼원다차원척도법의적용으로제공되었다하자. 그리고두주체에대한가중치행렬로 를고려한다고하자. PROC MDS 에서는이를차원계수 (dimension coefficient) 라고한다. 주체 1( ) 에대한개인지각공간의좌표는식 (4.3) 에의해서 [ ] 104 4 장삼원다차원척도법
이다. 이와같이주체 2( ) 에대한개인지각공간의좌표 도계산을할수있다. 이러한좌표들의대수적계산과정과기하적해석을위하여 [ 프로그램 4.1] 을이용하면 [ 결과 4.1] 을얻게된다. 프로그램은일반적인 SAS/STAT 과 IML로이루어져있어설명은생략한다. [ 결과 4.1] 에따르면 (a) 개체형상공간좌표와그림, (b) 주체별가중치와그림, (c) 주체 1의개인지각공간좌표와그림, (d) 주체 2의개인지각공간좌표와그림이요약되어있다. 이결과는주체별가중치가개체형상좌표에기하적으로어떻게영향을주는가를나타내고있다. 기하적으로각그림 (a), (c), (d) 에서개체좌표점 o1, o2, o3를이어만든삼각형을보면그림 (a) 보다는그림 (c) 와 (d) 의것이작다. 이는 와 의좌표가제공하는그림 (c) 와 (d) 의경우 (a) 에대해 (b) 의가중치가각각고려되어크기가변화된것이다. 보다자세히그림 (c) 를제공하는 의수치적계산과정을살펴보면개체들의형상좌표행렬 의첫번째열의각원소에가중치 과두번째열의각원소에는가중치 이각각곱해져있다. 이들은주체 1의가중치로그값들이 1보다작아그림 (a) 의큰삼각형모양을그림 (c) 의작은삼각형모양으로기하적변화를가져왔다. 따라서각주체에대한가중치에따라개체간의비유사성이충분히달라질수있음을알수있다. [ 프로그램 4.1] 삼원다차원척도법의대수적기하적이해를위한예 data config; input id$ dim1 dim2; cards; o1-0.5-1.6 o2-1.3-1.2 o3 1.6 0.8 ; data weight; input subject$ dim1 dim2; cards; s1 0.6 0.4 s2 0.8 0.2 4.1 삼원다차원척도법을위한모형 105
; ods graphics on; goptions reset=all; symbol value=point pointlabel=("#subject"); axis1 order=(-0.0 to 1.0 by 0.1) length=4 in; /* Weights for Subjects Plot */ proc gplot data=weight; plot dim2 * dim1/ haxis=axis1 vaxis=axis1 noframe; proc iml; reset nolog; use config; read all var{id} into id; read all var{dim1 dim2} into X; n=nrow(x); s=nrow(w); use weight; read all var{subject} into subject; read all var{dim1 dim2} into W; W1=J(n,1,1)*sqrt(W[1,]); W2=J(n,1,1)*sqrt(W[2,]); Y1=W1#X; Y2=W2#X; print, "Objects' configuration coordinante", X[rowname=id]; print, "Weights for Subjects", W[rowname=subject]; print, "Subjects' configuration coordinate",y1[rowname=id format=4.2], Y2[rowname=id format=4.2]; vname={dim1 dim2}; create config from X[colname=vname]; append from X; close config; create sub1 from Y1[colname=vname]; append from Y1; close sub1; create sub2 from Y2[colname=vname]; append from Y2; close sub2; quit; 106 4 장삼원다차원척도법
data id; input id$@@; cards; o1 o2 o3 ; data config; merge id config; data sub1; merge id sub1; data sub2; merge id sub2; ods graphics on; goptions reset=all; symbol value=point pointlabel=("#id"); axis1 order=(-2.0 to 2.0 by 0.5) length=4 in; /* Objects Configuration Plot */ proc gplot data=config; plot dim2 * dim1/ haxis=axis1 vaxis=axis1 href=0 vref=0 noframe; /* Subject 1 Weighted Configuration Plot*/ proc gplot data=sub1; plot dim2 * dim1/ haxis=axis1 vaxis=axis1 href=0 vref=0 noframe; /* Subject 2 Weighted Configuration Plot */ proc gplot data=sub2; plot dim2 * dim1/ haxis=axis1 vaxis=axis1 href=0 vref=0 noframe; run; 4.1 삼원다차원척도법을위한모형 107
[ 결과 4.1] [ 프로그램 4.1] 의수행결과 (a) 개체형상공간좌표와그림 (b) 주체별가중치와그림 (c) 주체 1 의개인지각공간좌표와그림 (d) 주체 2 의개인지각공간좌표와그림 108 4 장삼원다차원척도법
사실이삼원다차원척도법을위한 INDSCAL 알고리즘을수정하고보완하여 Takane 외 2 인 (1977) 은 ALSCAL 을제시하였다. 대개 INDSCAL 모형을추정할때교대최소제곱 (alternating least squares) 법을사용하여이방법의수치해석적절차를 ALS 알고리즘이라한다. 그리고이알고리즘을이용하는다차원척도법을 ALSCAL 이라고도한다. 다음절에서는범용 SAS/PROC ALSCAL 의많은점을수용한 PC- 윈도우용 SAS/PROC MDS 프로그램에서제공되는삼원다차원척도법의실제예를보이고자한다. [ 부록 1.3] 에서는 PROC ALSCAL 과 PROC MDS 를간단히요약비교하고있으니참고하기를바란다. 4.2 삼원다차원척도법의예 1.1.4 절의 [ 사례 4] 15군데신체부위의비유사성에대한삼원다차원척도법의적용에서는이해의관점에서 < 그림 1.4> 의다차원척도그림을먼저인용하여결과를해석하였다. 이절에서는이사례를위한 SAS/PROC MDS [ 프로그램 4.2] 를제시하고수행결과인 [ 결과 4.2] 에서요약된내용들을자세히설명하려한다. 4.2.1 신체부위자료 Young(1987, pp. 4-10) 에따르자면 Jacobowitz(1975) 는아동과성인에게 15군데신체부위 (cheek, face, mouth, head, ear, body, arm, elbow, hand, palm, finger, leg, knee, foot, toe) 의유사성을서로판단하도록조사하였다. 이조사에는나이가 6세, 8세, 10세의아동들과대학교 2년생들로구성되었고각각 15명씩배당되어총 60명의주체에대해서이루어졌다. 이는신체에대해아동이생각하는특성과이런생각들이아동이성인이됨에따라어떻게변하는지에대한경향을파악하기위한것이다. 이들자료는 Young(1987, Table 1.2) 이편의상일부를생략해두었고 PROC MDS 를위한 SAS Institute Inc.(1992, pp. 277-278) 는분석편의상처음 6세아동 15명과대학교 2학년생 15명에대한자료를제시하였지만이것도일부생략된것이다. 이미자료에대해서는 1.1.4 절의 < 표 1.7> 에서첫번째주체 ( ) 가평가한이들신체부위의크기가 인비유사성행렬 을제시하여자세히설명하고있다. 즉, 주체인한사람이 15군데신체부위를각각돌아가면서표준부위로두고 15점척도로이와나머지신체부위와의유사성을판단한순위-순서형 (rank-order) 자료이다. 여기서는 [ 프로그램 4.2] 와 [ 결과 4.2] 를중심 4.2 삼원다차원척도법의예 109
으로설명하려고한다. 추가로완전한자료는 Young 과 Lewyckyj(1979, pp. 105-108) 에나타나있고, 이를 [ 부록 2: 자료 1( 파일이름 : body.txt)] 에정리해두었다. 자료에대한보다자세한설명은 Young 과 Lewyckyj(1979, pp. 102-103) 와 Young(1987, pp. 4-9) 을참고하기를바란다. 4.2.2 프로그램과결과 [ 프로그램 4.2] 의삼원다차원척도법을위한 PROC MDS 프로그램은크게두부분으로구성되어있다. 과정 1) 은신체부위의비유사성행렬을 SAS 자료세트 <body> 로제공하고있다. 이자료를이용한과정 2) 는 PROC MDS 문으로다양한옵션에따라삼원다차원척도법을수행한다. 따라서이옵션과관련하여분석하고자하는내용을설명하기로하자. 이자료 (data=body) 는 3차원 (dimension=3) 에서가중유클리드모형에바탕을둔 INDSCAL 모형 (coef=diagonal) 을적용한순서척도 (level=ordinal) 로자료의조건은행- 조건 (condition=row) 으로분석된다. 이것만으로도 [ 결과 4.2] 의 3 삼원다차원척도그림, 5-7 차원계수그림과 8 상그림을제공한다. 더불어 <nophist> 에의해서스트레스최소화알고리즘의수치적계산과정은출력되지않도록하였고, <pfinal> 에의해서 4 최종적합도를제공받는다. 끝으로삼원다차원척도법의특징인주체에대한표시를이미 [ 프로그램 4.2] 의과정 1) 의 DATA 문에서지정한 < 변수 subject 의 C( 아동 ) 와 A( 성인 )> 로나타내기로한다 (subject subject;). 삼원다차원척도법과관련하여보다자세한옵션에대한설명은 [ 부록 1: SAS MDS 절차 ] 에잘정리되어있다. [ 프로그램 4.2] 15 군데신체부위자료에대한삼원다차원척도법 1) data body; input cheek face mouth head ear body arm elbow hand palm finger leg knee foot toe; if _n_ <= 225 then subject='c'; else subject='a'; cards; 0 2 1 3 4 10 5 9 6 7 8 11 12 13 14 2 0 12 1 13 3 8 10 11 9 7 4 5 6 14 3 2 0 1 4 9 5 11 6 7 8 10 13 12 14 2 1 3 0 4 9 5 6 11 7 8 10 12 13 14 10 1 11 2 0 6 3 4 5 12 13 7 8 14 9 14 12 9 6 13 0 8 7 5 10 11 1 4 2 3 12 14 11 10 13 5 0 4 1 3 2 6 9 7 8 5 7 14 8 6 9 1 0 2 3 4 10 11 12 13 13 11 12 10 14 9 3 4 0 1 2 6 5 7 8 8 6 7 9 4 5 3 10 1 0 2 12 11 13 14 14 5 13 6 9 12 3 4 1 2 0 7 8 10 11 14 12 13 11 9 7 4 6 5 3 10 0 8 1 2 110 4 장삼원다차원척도법
12 11 14 10 13 4 5 8 6 7 9 1 0 2 3 12 14 10 13 11 9 4 5 8 6 7 2 3 0 1 13 8 9 11 14 3 6 5 7 10 12 2 4 1 0 ; 0 1 2 4 3 14 12 10 6 5 8 13 11 7 9 2 0 3 1 4 14 8 10 5 6 12 9 11 7 13 2 1 0 4 3 14 12 9 5 11 7 13 10 6 8 2 1 4 0 3 14 8 10 6 11 12 7 9 5 13 1 3 2 4 0 14 12 9 8 7 5 13 10 11 6 13 10 11 1 14 0 3 7 5 12 8 2 6 4 9 13 9 11 10 12 14 0 1 3 6 5 2 4 7 8 10 12 8 13 9 14 1 0 6 11 4 3 2 5 7 12 9 11 10 13 14 5 4 0 1 3 8 6 2 7 9 12 11 13 10 14 5 4 1 0 2 6 7 3 8 10 12 11 13 9 14 6 5 1 3 0 8 7 4 2 12 10 11 9 13 14 2 5 6 8 7 0 1 3 4 11 12 9 13 10 14 3 2 7 8 4 1 0 5 6 12 10 11 9 13 14 5 8 1 6 7 3 4 0 2 10 12 11 13 9 14 8 7 4 6 2 3 5 1 0 2) proc mds data=body level=ordinal condition=row coef=diagonal dimension=3 nophist pfinal; subject subject; [ 결과 4.2] [ 프로그램 4.2] 의수행결과 : 1 형상좌표 2 주체가중치 3 삼원다차원척도그림 4 최종적합도 1 Configuration Dim1 Dim2 Dim3 cheek 1.46 0.77-0.30 face 1.40-0.56 0.43 mouth 1.25-0.97-0.51 head 1.32 0.39 0.97 ear 1.22 0.03-1.39 body 0.24-0.18 2.24 arm -0.70 1.23 1.08 elbow -0.73 0.40 0.29 hand -0.71 1.50-0.26 palm -0.24 1.59-0.96 finger -0.74 0.57-1.35 leg -0.69-1.44 0.88 knee -1.44-0.63 0.42 foot -0.78-1.51-0.36 toe -0.87-1.20-1.19 2 Dimension Coefficients subject 1 2 3 C 1.18 1.02 0.76 C 0.94 1.05 1.01 C 0.93 1.00 1.06 C 1.08 1.10 0.79 C 0.98 1.05 0.97 C 1.28 0.85 0.80 C 0.90 1.03 1.06 C 0.95 1.04 1.01 C 1.18 1.06 0.69 C 0.95 0.99 1.05 C 1.07 1.13 0.76 C 0.98 0.94 1.08 C 1.34 0.82 0.73 C 0.95 1.00 1.05 C 1.03 1.09 0.86 A 1.30 0.82 0.80 A 1.05 0.64 1.22 A 1.28 0.85 0.81 A 0.95 0.88 1.15 A 1.34 0.75 0.80 A 1.27 0.81 0.85 A 1.50 0.37 0.78 A 1.38 0.83 0.65 A 1.44 0.56 0.78 A 1.53 0.74 0.36 A 1.19 0.95 0.84 A 0.85 0.86 1.24 A 1.29 0.62 0.97 A 1.20 0.58 1.10 A 1.24 0.62 1.04 4.2 삼원다차원척도법의예 111
3 4 < 그림 1.4> 삼원다차원척도그림 : (a) 와 (b) subject Number of Nonmissing Data Weight Badness-of-Fit Criterion Distance Correlation Uncorrected Distance Correlation C 210 0.03 0.16 0.85 0.99 C 210 0.03 0.25 0.51 0.97 C 210 0.03 0.23 0.58 0.97 C 210 0.03 0.16 0.85 0.99 C 210 0.03 0.21 0.69 0.98 C 210 0.03 0.15 0.89 0.99 C 210 0.03 0.26 0.40 0.96 C 210 0.03 0.25 0.47 0.97 C 210 0.03 0.13 0.91 0.99 C 210 0.03 0.24 0.55 0.97 C 210 0.03 0.15 0.87 0.99 C 210 0.03 0.23 0.59 0.97 C 210 0.03 0.15 0.90 0.99 C 210 0.03 0.21 0.69 0.98 C 210 0.03 0.19 0.74 0.98 A 210 0.03 0.12 0.94 0.99 A 210 0.03 0.17 0.84 0.98 A 210 0.03 0.12 0.93 0.99 A 210 0.03 0.21 0.68 0.98 A 210 0.03 0.14 0.91 0.99 A 210 0.03 0.16 0.87 0.99 A 210 0.03 0.09 0.98 1.00 A 210 0.03 0.11 0.95 0.99 A 210 0.03 0.11 0.96 0.99 A 210 0.03 0.13 0.95 0.99 A 210 0.03 0.13 0.90 0.99 A 210 0.03 0.21 0.72 0.98 A 210 0.03 0.12 0.93 0.99 A 210 0.03 0.10 0.95 0.99 A 210 0.03 0.11 0.94 0.99 _All_ 6300 1.00 0.17 0.84 0.98 [ 결과.2] ( 연속 ) 5-7 차원계수그림 8 상그림 5 6 112 4 장삼원다차원척도법
7 8 4.2.3 결과의해석 [ 결과 4.2] 의 1은 15군데신체부위에대한 3차원형상공간의좌표이고 2는각주체에대한차원별가중치이다. 이들의역할은이미 4.1.2 절에서예를들어기하적해석과함께보였다. 결과 3의 < 그림 1.4> 삼원다차원척도그림 : (a) 와 (b) 의해석은 1.1.4 절에자세히설명되어있으니참고바란다. 결과 4에서는각아동 (C) 과성인 (A) 그룹별주체 15 명씩총 30명에대한스트레스 (Badness-of-Fit Criterion) 가 1.3.2 절식 (1.7) 의크루스칼의 공식에의해제공되었고이들의평균스트레스값 = 이최종적합도로맨아래 <-ALL-> 에나타나있다. 이값은차원수결정을위한크루스 4.2 삼원다차원척도법의예 113
칼의판별기준에따르면보통 (0.10) 과나쁨 (0.20) 사이에있어 2차원의삼원다차원척도법의결과가자료를어느정도요약해준다고여겨진다. 결과 5-7 차원계수그림은차원별로조합되어주어져있는데이들의영향으로형상공간좌표의기하적변화를 4.1.2 절에서자세히설명한바있다. 실제로이들차원계수그림은사실결과 2의각주체별로주어진가중치로이루어진차원계수좌표로그려진것이다. 참고로이들과관련된삼원다차원척도그림에대한그룹별해석을위하여 < 그림 1.4> 를 < 그림 4.3> 으로여기서다시인용하기로하자. 먼저결과 5-7 을보면 2차원축은아동 (C) 이성인 (A) 과다름을보여주고있다. 아동들은각차원에서가중치가거의 1.0으로대동소이하나성인들은아동보다다양하다. 특히성인들의가중치는 2차원축에대해서 1.0보다작으며실제이들의평균은약 0.7이다. 따라서이런사실로부터 < 그림 4.3> 의 (a) 1차원과 2차원의삼원다차원척도그림의 2차원축 ( 팔과다리부위를분할하는축 ) 에서본다면성인들은아동들이생각하는것보다팔과다리부위가더욱더비슷하다고생각한다. 그리고대다수성인들이결과 5의 1차원축에높은가중치를받고있는데, 이를 < 그림 4.3>-(a) 삼원다차원척도그림의 1차원축 ( 팔과다리부위와머리부위로분할하는축 ) 에서본다면성인들은아동들이생각하는것보다머리부위와팔과다리부위가더욱더비슷하지않다고생각한다는점을알수있다. 결과 6의 3차원축에서는아동과성인의가중치가다양하므로 < 그림 4.3>-(b) 1차원과 3차원에의한삼원다차원척도그림의 3차원축 ( 신체의포괄적부위와세밀한부위를분할하는축 ) 의관점에서아동과성인모두가신체부위에대해서는상당히다양한판단을내림을알수있다. 지금까지의분석의내용은 SAS Institute, Inc.(1992, pp. 277-285; 2008, pp. 3726-3735) 를참고하였다. 끝으로결과 8 상그림은삼원다차원척도법의적합성을위한 Guttman 의상그림이다. 이그림에서원점을지나는직선상에좌표점들이많이놓여있어삼원다차원척도법을위한가중유클리드모형이적합함을알수있다. 이 Guttman 의상그림에대해서는 3.2.2 절에서자세히소개하였다. 특히, SAS/PROC MDS 9.2판에서결과 8 상그림은자동으로주어지는데, 이버전이전에는옵션 <out=out> 과 <outres=res> 에의해서다차원척도그림을위한형상좌표에관련된추정결과와모형의적합성을보여주는값을저장한자료세트를만들어상그림과세퍼드그림을얻어내었다 ( 최용석, 1995, 4장 ). 114 4 장삼원다차원척도법
(a) 1 차원과 2 차원 (b) 1 차원과 3 차원 < 그림 4.3> (< 그림 1.4> 의재인용 ) 15 군데신체부위에대한삼원다차원척도그림과해석도 : (a) 1 차원과 2 차원 (b) 1 차원과 3 차원 4.2 삼원다차원척도법의예 115
연습문제 4.1 다음은두명의학생들이여덟나라의비유사성을판단한자료이다 (Davison, 1992, pp. 147-149). 학생 1 학생 2 Angola Argentina Australia China Cuba Japan United States Zimbabwe Angola Argentina Australia China Cuba Japan United States Zimbabwe. 1.41. 1.00 1.00. 1.00 1.73 1.41. 1.41 1.41 1.73 1.00. 1.41 1.41 1.00 1.00 1.41. 1.73 1.00 1.41 1.41 1.00 1.00. 0.71 1.41 1.00 1.00 1.41 1.41 1.73.. 1.00. 2.00 2.00. 3.00 3.00 2.00. 1.00 1.00 3.00 1.00. 2.00 2.00 1.00 2.00 1.00. 3.00 3.00 2.00 3.00 2.00 2.00. 1.00 1.00 3.00 1.00 3.00 3.00 1.00. 1) 적절한차원수결정을위하여 1.3.3 절에서언급한스트레스 -차원수그림을제공하라. 2) 삼원다차원척도법을실시하고모형의적합성을제시하는상그림을해석하라. 3) 삼원다차원척도그림을제공하고해석하라. 4) 차원계수그림과더불어다차원척도그림을추가해석하라. 116 4 장삼원다차원척도법
4.2 다음은두사람이네가지식용작물 ( 감자, 시금치, 상치, 튜나 ) 에대한비유사성의순위를매겨얻은자료 (Schiffman 외 2인, 1981, p. 86; Young, 1987, p. 137) 로원래다섯사람에대한자료이다. 이자료는아래쪽삼각형이첫번째사람, 위쪽삼각형이두번째사람에대한것이다. 삼원다차원척도법을실시하고해석하라. 감자시금치상치튜나. 1 3 6 4. 2 5 2 1. 4 3 6 5. 4.3 다음은건강, 과학, 기술, 상업, 사무, 중개, 사회, 예술여덟가지관심영역에대한네그룹각각의심리적시험점수에대한상관계수를구한것이다 (du Toit 외 2인, 1984, p. 148). 네그룹은유색여성, 아시아여성, 남아프리카공용네덜란드어를사용하는백인여성, 영어를사용하는백인여성으로이루어져있다. [ 부록 2: 자료 8( 파일이름 : field.txt)] 를참고바란다. 1) 스트레스 -차원수그림을통하여적절한차원수를결정하라. 2) 네그룹각각에대한이원다차원척도법을실시하고관심영역간의유사성을비교하라. 3) 삼원다차원척도법을실시하고상그림을통하여모형의적합성을논의하라. 4) 삼원다차원척도그림을제공하고해석하라. 연습문제 117
유색여성 건강과학기술상업사무중개사회예술 1.00 0.71 1.00 0.72 0.67 1.00 0.60 0.55 0.88 1.00. 0.55 0.60 0.55 0.55 1.00 0.63 0.41 0.69 0.71 0.76 1.00 0.67 0.54 0.61 0.56 0.66 0.76 1.00 0.63 0.58 0.76 0.76 0.49 0.64 0.59 1.00 아시아여성 건강과학기술상업사무중개사회예술 1.00 0.80 1.00 0.54 0.72 1.00 0.34 0.52 0.84 1.00. 0.35 0.43 0.66 0.69 1.00 0.33 0.45 0.62 0.67 0.78 1.00 0.52 0.65 0.60 0.50 0.54 0.66 1.00 0.32 0.53 0.79 0.76 0.64 0.72 0.59 1.00 남아프리카공용 네덜란드어사용 백인여성 건강과학기술상업사무중개사회예술 1.00 0.77 1.00 0.55 0.74 1.00 0.47 0.61 0.85 1.00. 0.23 0.23 0.49 0.53 1.00 0.37 0.36 0.62 0.60 0.74 1.00 0.59 0.52 0.55 0.49 0.47 0.74 1.00 0.48 0.59 0.72 0.69 0.43 0.64 0.63 1.00 영어를사용 백인여성 건강과학기술상업사무중개사회예술 1.00 0.72 1.00 0.53 0.69 1.00 0.45 0.51 0.77 1.00. 0.17 0.16 0.45 0.40 1.00 0.31 0.25 0.49 0.38 0.77 1.00 0.54 0.41 0.47 0.37 0.44 0.67 1.00 0.38 0.50 0.67 0.55 0.36 0.49 0.55 1.00 118 4 장삼원다차원척도법
5 장 최대우도다차원척도법 다차원척도법에서 Ramsay(1977, 1980, 1982) 가제안한최대우도다차원척도법 (maximum likelihood MDS) 에대한모형을램지모형이라고부르기도하는데, 비유사성의로그- 정규분포를가정하고최대우도추정법이사용된다. 최대우도다차원척도법도 4장의삼원다차원척도법과같이주체에대한개체간의삼원형태의비유사성행렬의분석에활용되며, 사례를통하여서로비교하고그차이점을이해하려고한다. 그리고최대우도다차원척도법을위한 SAS/PROC MDS 프로그램과그결과를제시하여활용도를높이고자한다.
5.1 최대우도다차원척도법을위한모형 최대우도다차원척도법은 Ramsay(1977, 1980, 1982) 가제안하였다. 이를램지모형이라고한다. Young(1987, pp.36-39) 은다차원척도법에서최대우도기법이다차원척도법을자료분석의기술적이며탐색적도구에서추론적도구로변화발전시켰다고평가한다. 그는덧붙여적절한가정아래최대우도다차원척도법은차원수, MDS 모형그리고오차모형을적절하게결정하는유의성검정도제공한다고하였다. 5.1.1 램지모형의소개 Ramsay(1977, 1980, 1982) 는최대우도다차원척도법을위한그의모형에대해서설명하고있는데, 이절에서요약해보자. 일반적으로삼원다차원척도법에서와같이 명의주체에대해서고려한삼원행렬형태인비유사성행렬 에서 는 번째주체에대해 번째와 번째개체사이의가중유클리드거리에의한비유 사성을나타낸다고하자. 최대우도다차원척도법에서도궁극적으로구하고자하는 차원형상공간에서크기가 인형상좌표를 라고하면 는크기가 인벡터로 차원에서개체 ( 의좌표점이된다. 번째주체에대한 번째와 번째차원에대한가중치를 라고하면, (5.1) 는크기가 인가중치행렬이된다. 따라서가중치를고려한개인지각공간에서 번째와 번째개체간의비유사성을 (5.2) 120 5 장최대우도다차원척도법
라하면최대우도다차원척도법을위한모형은식 (4.2) 와같이 를만족한다. 여기서 는일반적으로단조함수이고 는왜곡오차이다. Ramsay(1982) 는특히식 (5.1) 에서가중치행렬이 인단위행렬이라면항등계량 형 (identity metric) 모형이라고하였고 인경우는대각계량형 (diagonal metric) 모형이라고하였다. 만약대각원소를 로두면 4 장의삼원다차원척도법을위한 INDSCAL 모형에서식 (4.1) 의비유사성과 일치함을알수있다. 그는최대우도다차원척도법의모형에서단조함수 를추정하기위해비유사성 의로그 - 정규분포 (lognormal distribution) log ~ Nlog (5.3) 가정아래최대우도추정 (MLE) 과정을유도하고있다. Everitt 와 Dunn(1991, pp. 91-95) 은이런과정의주된부분을요약하고있는데이를단계별로구성하여 [ 알고리즘 4: 램지 최대우도추정법 ] 을제시하고있다. 따라서램지최대우도다차원척도법은 [ 알고리즘 4] 의 [2 단계 ] 에서가정한모형의오차분산 를추정하고저차원형상공간의좌표 를얻는데최대우도추정법을적용하는최대우도추정과정을따르고있다. 여기서 는주 체특수분산 (subject specific variance) 이고 은짝특수분산인자 (pair specific component) 이다. [ 알고리즘 4] 램지최대우도추정법 1단계 : 비유사성 를구하고 log 를계산한다. 2단계 : 로그-정규분포 log ~ Nlog 를가정하고 log 와 5.1 최대우도다차원척도법을위한모형 121
log 의관계는다음과같다. log log (5.4) 여기서 는단조함수이고오차 는서로독립이면서 N 를따르 며 를고려한다. 3단계 : 식 (5.4) 를만족하는 log 에대해 log 가최적적합을이루고동 시에분산 를추정하여거리와좌표를구하고저차원형상 공간좌표를얻는다. Ramsay(1982) 는이를각각 <within-subject variance> 와 <within-pair variance factor> 라고하였다. 는다양한방법으로분해되거나 1이될수도있다. 그중에서 Ramsay(1982) 는다음의짝특수분산 을고려하고있다. 여기서계수 는 을만족하며주체 에대한각개체의상대적인지도를나타 낸다. 즉개체 와개체 의상대적인지도가주체 에대해크다면잔차의분산을크게 하게된다. Ramsay(1982) 는이분산을추정하는데세가지접근방법 (conditional moment estimate, MINQUE theory, maximum likelihood) 을제시하고있다. 5.1.2 등분산가정에서최대우도추정 5.1.1 절의최대우도추정법인 [ 알고리즘 4] 의 [2 단계 ] 에서 Ramsay(1977) 는편의성에따 라오차의등분산을가정하여자세히요약하고있으며이를간단히정리해보기로하자. 크기가 인벡터 를 차원형상공간에서개체 ( 의좌 표점이라면이들에의해개체간의비유사성 를식 (5.2) 에의해서정의된다고하자. 그러면실제개체간의비유사성 의분포는독립으로 를따른다고가 정하게된다. 독립성이란가정에의해서로그우도함수 (log likelihood function) 는 122 5 장최대우도다차원척도법
log log (5.5) 이다. 따라서최대우도추정은개체 의좌표점 가 개좌표 로이루어져있어전체 개개체에대하여 개의좌표점과분산 에대해식 (5.5) 의로그우도함수 log 을최대화하는것이다. 여기서 개의좌표점은 차원형상공간에서크기가 인형상좌표 를이룬다. 식 (5.5) 에서대개확률밀도함수 로는로그정규분포 log log log 를취한다. 이는 log 하다. 식 (5.5) 로부터로그우도함수는다음과같다. ~ Nlog 이며식 (5.3) 에서 인경우와동일 log log log S 여기서 S log 이다. 따라서 에대한최대우도추정치는 S 이다. 이외에도 Ramsay(1977) 는근사적불편추정치와베이즈추정치를제시하고있다. 특히 식 (5.1) 에서 인대각계량형모형인경우 N, 라는제약을두자. 그러면형상좌표행렬 와가중치행렬 의최대우도추정치는 Q log N 5.1 최대우도다차원척도법을위한모형 123
를최대화하도록찾으면되고여기서 를라그랑지승수라고한다. 그리고그 결과는다음과같다.,. 여기서, N, log log 이다. Ramsay(1977, 1980, 1982) 의논문들은최대우도다차원척도법의여러가지면을잘다루고있으니관심있는독자는참고하기를바란다. 램지최대우도다차원척도법은범용 SAS에서 PROC MLSCALE 로 1986년에채택되었다. 이와는별도로프로그램 MULTISCALE 도자체개발하였다. 여기에대한자세한설명을 Schiffman 외 2인 (1981, pp. 389-405) 에램지가직접하고있다. 비록 PC- 윈도우즈용 PROC MDS 가 PROC MLSCALE 의몇가지부분을받아들였지만똑같은결과를제공하지는못한다. 여기에대해서는 [ 부록 1.4] 에서비교하고있으니참고하기를바란다. 근본적으로 PROC MDS 는추정방법으로최소제곱법을사용한다. 그러나최소제곱법도대개오차항이서로독립이고등분산인표준정규분포를따른다면최대우도법과같은결과를제공함은잘알려져있다. 124 5 장최대우도다차원척도법
5.2 최대우도다차원척도법의예 이미 1.1.5 절의 [ 사례 5] 에서는 10명의사람이 15가지레크리에이션의비유사성을평가한자료에대하여최대우도다차원척도법을적용하였고 < 그림 1.5> 의최대우도다차원척도그림을제공하여해석을하였다. 이절에서는이사례를위한 [ 프로그램 5.1] 을제공하고 [ 결과 5.1] 에서그수행결과를요약하고해석하려고한다. 5.2.1 레크리에이션자료 Ramsay(1983) 는 10명에게 15가지레크리에이션 (concert, museum, theatre, movie, watch TV, conference, reading, watch hockey, ballet, political debate, fashion show, documentary film, exhibition, window shopping, restaurant) 의비유사성을판단하기위해조사하였다. 이조사는레크리에이션을각각둘씩짝지은 105가지경우에대해다음과같이비유사성의정도를 25점척도로표시한설문지로부터얻어진것이다. 예 ) Museum 과 Hockey 매우유사하다 (0 점 ) (very similar) 매우다르다 (24 점 ) (very different) [ 부록 2: 자료 2( 파일이름 : recreation.txt)] 에크기가 인비유사성행렬 10개가정리되어있다. 이것은설문응답자 10명의주체에대하여삼원행렬자료, 에해당한다. 이중에서첫번째한사람의평가로이루어진비유사성행렬 을 1.1.5 절의 < 표 1.8> 에서참고로제공하였고이행렬의구성에대해서자세히설명하고있으니참고하기를바란다. 다음으로이자료에대한최대우도다차원척도법을위한프로그램을 5.2.2 절에서본격적으로살펴보자. 5.2.2 프로그램과결과 [ 프로그램 5.1] 은최대우도다차원척도법을 5.2.1 절에서설명한자료에적용하기위한 SAS/PROC MDS 프로그램이다. 이는크게두과정으로구성되어있는데, 과정 1) 은램지 5.2 최대우도다차원척도법의예 125
의레크리에이션자료를 10명의각사람별로 (if _n_ <16 then subject=1; else subject=10;) 비유사성자료를읽어들여 SAS 자료세트 <recreat> 이름으로저장하게한다. 과정 2) 는이자료 (data=recreat) 를이용하여가중유클리드거리 (coef=diagonal) 를이용한최대우도다차원척도법 (fit=log level=loginterval) 으로입력자료의조건과행렬형태는디폴트인 <condition=matrix shape=triangular> 가사용되었다. 추가적으로옵션 <pfinal nophist> 는스트레스최소화알고리즘의최종수치적결과만제공하라는것이다. [ 프로그램 5.1] 레크리에이션자료에대한최대우도다차원척도법 1) data recreat; input (concert museum theatre movie watch_tv conferen reading hockey ballet politic fashion document exhibit shopping restaura ) (3.0) @45; if _n_ < 16 then subject= 1; else if _n_ < 31 then subject= 2; else if _n_ < 46 then subject= 3; else if _n_ < 61 then subject= 4; else if _n_ < 76 then subject= 5; else if _n_ < 91 then subject= 6; else if _n_ < 106 then subject= 7; else if _n_ < 121 then subject= 8; else if _n_ < 136 then subject= 9; else subject=10; cards; 0 8 0 18 21 0 5 22 16 0 8 24 22 11 0 11 13 19 18 22 0 19 12 15 9 21 14 0 6 6 15 19 21 13 23 0 24 18 21 15 9 19 16 23 0 21 21 23 23 23 13 12 11 23 0 22 20 24 21 23 10 13 12 7 7 0 10 7 21 11 9 10 6 8 14 22 22 0 23 21 18 9 8 10 7 14 22 9 11 8 0 5 14 19 16 23 22 19 20 8 17 23 21 20 0 14 23 11 8 21 22 7 10 23 19 21 9 7 22 0 126 5 장최대우도다차원척도법
0 22 0 25 9 0 3 22 25 0 14 25 16 7 0 18 22 7 20 24 0 22 5 11 14 22 5 0 9 6 11 22 22 4 19 0 25 21 18 4 13 18 14 22 0 22 21 23 16 19 20 21 20 12 0 19 22 23 21 23 7 21 15 7 18 0 4 19 23 21 12 22 7 6 19 21 12 0 9 6 16 12 18 22 22 13 21 20 21 6 0 21 6 22 22 5 23 4 22 17 19 23 20 17 0 16 22 17 4 7 5 16 16 21 6 21 5 23 17 0 ; run; 2) ods graphics on; proc mds data=recreat fit=log level=loginterval coef=diagonal pfinal nophist; subject subject; 프로그램의수행결과는 [ 결과 5.1] 의 1 형상좌표, 2 주체가중치, 3 변환함수의기울기와멱승, 4 최대우도다차원척도그림, 5 최종적합도, 6 차원계수그림, 7 상그림을제공한다. 삼원다차원척도법과같이최대우도다차원척도법도각주체별비유사성행렬을분석하는것이므로실제분석에 SUBJECT 문 (subject subject;) 을사용하였다. 최대우도다차원척도법과관련된프로그램의문법과옵션에대해서는 [ 부록 1: SAS MDS 절차 ] 를참고하기를바란다. 5.2 최대우도다차원척도법의예 127
[ 결과 5.1] [ 프로그램 5.1] 의수행결과 : 1 형상좌표, 2 주체가중치, 3 변환함수의 기울기와멱승, 4 최대우도다차원척도그림, 5 최종적합도, 6 차원계수그림 1 Configuration Dim1 Dim2 2 3 concert 0.01 1.06 museum 0.19 1.51 theatre 1.38-0.14 movie 1.28-0.46 watch_tv 0.77-1.92 conferen 0.19 0.80 reading 0.19-0.13 hockey 0.01 1.37 ballet -1.56-1.39 politic -1.28-0.34 fashion -1.56-1.17 document 0.01 0.52 exhibit 0.59-0.55 shopping -1.49 1.06 restaura 1.28-0.20 Dimension Coefficients subject 1 2 1 1.01 0.99 2 0.96 1.04 3 0.70 1.23 4 1.41 0.00 5 1.20 0.76 6 0.78 1.18 7 0.79 1.18 8 0.98 1.02 9 1.04 0.96 10 1.41 0.00 subject Slope Power 1 12.29 0.35 2 9.89 0.50 3 9.98 0.45 4 15.36 0.11 5 11.43 0.36 6 11.74 0.28 7 11.22 0.50 8 11.90 0.24 9 8.50 0.42 10 14.62 0.07 4 < 그림 1.5> 최대우도다차원척도그림 subject Number of Nonmissing Data Weight Badness-of-Fit Criterion Distance Correlation Uncorrected Distance Correlation Fit Correlation Uncorrected Fit Correlation 1 105 0.10 0.84 0.56 0.96 0.55 0.99 2 105 0.10 0.78 0.54 0.95 0.62 0.99 3 105 0.10 0.85 0.48 0.92 0.52 0.98 5 4 105 0.10 0.76 0.54 0.95 0.66 0.99 5 105 0.10 0.88 0.42 0.93 0.47 0.98 6 105 0.10 0.91 0.38 0.94 0.41 0.99 7 105 0.10 0.75 0.59 0.95 0.66 0.99 8 105 0.10 0.94 0.31 0.94 0.35 0.99 9 105 0.10 0.88 0.45 0.92 0.48 0.97 10 105 0.10 0.92 0.35 0.93 0.39 0.98 _All_ 1050 1.00 0.85 0.49 0.94 0.54 0.99 6 128 5 장최대우도다차원척도법
[ 결과 5.1] ( 연속 ) 7 상그림 7 5.2.3 결과의해석 [ 결과 5.1] 을살펴보면결과 1은 15가지레크리에이션에대한 2차원형상좌표이며 10 명의각사람에대한차원별가중치가결과 2에주어져있다. 결과 3은각사람별멱승 (power) 변환 log log 에서기울기 (slope) 와멱승 (power) 의값을나타낸다. 단조함수의변환의유형은크 게척도 (scale) 와멱승이있다. 척도변환은다음과같다. log log. 이는 [ 알고리즘 4] 에서 log 에대해 log 가최적적합되도록단조변환함수 를찾게해준다. 5.2 최대우도다차원척도법의예 129
결과 4의최대우도다차원척도그림은 1.1.5 절의 [ 사례 5] 에서 < 그림 1.5> 로해석도와함께축에대한해석과더불어이미제시된것으로편의상다음절인 5.3절에서삼원다차원척도그림과의비교를위해재인용하고있다. 결과 5는각사람에대한스트레스 Badness-of-Fit Criterion 으로부터최종적합도를제공한다. 이는 1.3.2 절의식 (1.8) 의 공식에의한것으로 [ 프로그램 5.1] 의 PROC MDS 문의옵션 <fit=log> 에대한디폴트스트레스공식이크루스칼의스트레스 2이며, 실제 <fit=log formular=2> 를지정한것과동일하다. 따라서이들의평균스트레스값 가맨아래 <-ALL-> 에있음을알수있다. 이값은차원수결정을위한크루스칼의판별기준에따르면나쁨 (0.20) 보다매우좋지않아 2차원의최대우도다차원척도법의결과가자료를요약하기에매우부족하다고여겨진다. 이를결과 7 상그림도반영하고있다. 6 차원계수그림에서보면 2차원의경우주체 4와 10은나머지사람들과다르게가중치가 0.00 으로다차원척도그림의 2차원에형성된레크리에이션간에는유사하다고여기고있다. 1차원의경우이들은가중치가모두 1.41 로나머지사람에비해훨씬크므로 1차원에형성된레크리에이션간에상대적으로매우비유사하다고판단하고있다. 5.3 삼원과최대우도다차원척도법의비교 삼원과최대우도다차원척도법은공통적으로 는 () 번째주체에대해 번 째와 번째개체사이의가중유클리드거리에의한비유사성이라고하면각주체에의해서 삼원행렬형태인비유사성행렬 에대한다차원척도법이다. 다 만최대우도다차원척도법의식 (5.2) 에서정의한개인지각공간에서 번째와 번째개체 간의비유사성 130 5 장최대우도다차원척도법
은가중치행렬로인하여일반화가중유클리드거리라고볼수있다. 만약에가중치행렬을 대각행렬 로한다면삼원다차원척도법의식 (4.1) 의비유사성 가됨을쉽게알수있다. 그러나최대우도다차원척도법에서는로그- 정규분포 log ~ log 를가정하고 [ 알고리즘 4] 와같이최대우도추정의과정을거쳐 차원의형상공간좌표를구하게된다. 반면에삼원다차원척도법인경우분포에대한가정 이없이교대최소제곱법에의해다차원척도법을수행하므로상대적으로탐색적다차원척도 법으로여길수있다. 삼원과최대우도다차원척도법을위한각각의 [ 프로그램 4.2] 와 [ 프로그램 5.1] 의차이 점을살펴보자. PROC MDS 문에서삼원의경우는옵션 <level=ordinal condition=row coef=diagonal> 를사용하고최대우도는 <fit=log level=loginterval coef=diagonal> 을사 용한다는점이다. 삼원을위한옵션 <condition=row> 는입력자료의형태에따른것으로, 최대우도의경우이에해당하는옵션 <condition=matrix shape=triangular> 는디폴트이 므로생략되어있다. 그리고 [ 결과 4.2] 와 [ 결과 5.1] 의차이점은 [ 결과 5.1] 의 3 변환함수 의기울기와멱승을제외하고는동일하다. 이는최대우도다차원척도법에서는단조함수에 대한변환을고려하기때문이다. 다음으로두다차원척도법의다차원척도그림을비교하기 위하여 < 그림 5.1> 을살펴보자. 그림 (b) 는이미 1.1.5 절의 [ 사례 5] 에서최대우도다차원 척도법의이해를위해제공되었고이를재인용하였다. 다만비교를위해제공된 (a) 삼원 다차원척도그림은 [ 프로그램 5.1] 의 PROC MDS 문에서최대우도다차원척도법의옵션 <fit=log level=loginterval coef=diagonal> 대신에삼원다차원척도법의옵션 <level=ordinal coef=diagonal> 을사용하면된다. 이들 2 차원의다차원척도그림의최종적합도는 (a) 삼원다차원척도그림은 0.32 로상대 적으로 (b) 최대우도다차원척도그림의 0.85 에비해훨씬좋은적합도를보여준다. 그러 나차원수결정을위한크루스칼의판별기준에따르면나쁨 (0.20) 보다좋지않아모두가 2 5.3 삼원과최대우도다차원척도법의비교 131
차원의다차원척도법의결과가자료를요약하기에매우부족하다고여겨진다. 다만상대적 으로삼원다차원척도법이적합도관점에서훨씬안정되어있다고볼수있다. [ 프로그램 5.2] 레크리에이션자료에대한삼원다차원척도법 data recreat; input (concert museum theatre movie watch_tv conferen reading hockey ballet politic fashion document exhibit shopping restaura ) (3.0) @45; if _n_ < 16 then subject= 1; else if _n_ < 31 then subject= 2; else if _n_ < 46 then subject= 3; else if _n_ < 61 then subject= 4; else if _n_ < 76 then subject= 5; else if _n_ < 91 then subject= 6; else if _n_ < 106 then subject= 7; else if _n_ < 121 then subject= 8; else if _n_ < 136 then subject= 9; else subject=10; cards; 0 8 0 18 21 0 5 22 16 0 8 24 22 11 0 11 13 19 18 22 0 19 12 15 9 21 14 0 6 6 15 19 21 13 23 0 24 18 21 15 9 19 16 23 0 21 21 23 23 23 13 12 11 23 0 22 20 24 21 23 10 13 12 7 7 0 10 7 21 11 9 10 6 8 14 22 22 0 23 21 18 9 8 10 7 14 22 9 11 8 0 5 14 19 16 23 22 19 20 8 17 23 21 20 0 14 23 11 8 21 22 7 10 23 19 21 9 7 22 0 132 5 장최대우도다차원척도법
0 22 0 25 9 0 3 22 25 0 14 25 16 7 0 18 22 7 20 24 0 22 5 11 14 22 5 0 9 6 11 22 22 4 19 0 25 21 18 4 13 18 14 22 0 22 21 23 16 19 20 21 20 12 0 19 22 23 21 23 7 21 15 7 18 0 4 19 23 21 12 22 7 6 19 21 12 0 9 6 16 12 18 22 22 13 21 20 21 6 0 21 6 22 22 5 23 4 22 17 19 23 20 17 0 16 22 17 4 7 5 16 16 6 6 21 5 23 17 0 ; run; ods graphics on; proc mds data=recreat fit=log level=oridnal coef=diagonal pfinal nophist; subject subject; 그림 (b) 에서수평축인 1 차원축 (Dimension 1) 은왼편의쇼핑, 정치적논쟁, 패션쇼, 발 레등과같이현장감이있는동적인레크리에이션이며오른편의독서, 영화, 박물관, 전시 회등은주로정적인레크리에이션으로구분하고있다. 5.3 삼원과최대우도다차원척도법의비교 133
(a) (b) < 그림 5.1> 삼원과최대우도다차원척도그림 : (a) 삼원다차원척도그림, (b) 최대우도원척도법 ( 재인용 ) 반면에 (a) 에서는이미 (b) 에서 1차원축에대하여동적인레크리에이션경향을보인쇼핑, 정치적논쟁, 패션쇼, 발레외에도 (b) 의 1차원축의중앙인원점주위에위치한박물관, 하키관람, 독서, 콘서트가동적인레크리에이션으로분류되고있다. 독서가의외이기는하지만나머지는정적인것으로보기보다는현장에서느끼는레크리에이션으로충분히여길만하다. 사실 (b) 에서기하적으로 1차원축의중앙원점주위에위치한레크리에이션들은어느한쪽의경향도뚜렷하게나타내고있지않아정적인것으로분류하는것도애매한면은있다. 이는최대우도다차원척도법의낮은적합도문제와도관련성이있다고여겨지며아무튼큰맥락에서는서로유사한경향을보여준다. 134 5 장최대우도다차원척도법
연습문제 5.1 다음은 18명의학생들로부터 9점척도 [ 매우다르다 (1점) ~ 매우유사하다 (9점)] 로얻어진 12개국가의유사성자료중 2명의학생에대한자료이다 (Kruskal 과 Wish, 1978, p. 64). 밑쪽삼각행렬자료는학생 1에대한유사성행렬이고위쪽삼각행렬자료는학생 2에대한유사성행렬이다. 이들 18명학생들의응답의평균으로된자료는이미 1.1.3 절 [ 사례 3] 에서살펴본것이다. [ 부록 2: 자료 9( 파일이름 : nation.txt)] 를참고. Brazil. 6 8 5 3 4 3 3 2 2 5 2 Congo 7. 6 7 3 5 4 3 2 2 2 2 Cuba 8 5. 4 2 3 2 3 3 2 3 2 Egypt 2 7 6. 2 3 5 2 2 2 2 4 France 3 3 2 6. 3 4 3 2 4 8 5 India 2 7 2 6 2. 3 5 5 4 5 4 Israel 3 2 3 8 5 7. 3 3 4 6 7 Japan 2 1 1 4 3 7 2. 7 6 7 4 China 2 6 8 7 4 5 3 7. 8 3 4 USSR 2 3 7 7 3 6 3 6 8. 5 6 USA 5 3 3 4 8 5 7 8 1 2. 3 Yugoslavia 2 2 8 3 4 5 4 6 8 8 2. 1) 최대우도다차원척도법을실시하고해석하라. 2) 적절한차원수를정하고적합도에대하여해석하라. 3) 삼원다차원척도법과비교하라. 4) 차원계수그림을통하여비유사성을각주체들이판단하는정도를해석하라. 5.2 4 장의 [ 연습문제 4.1] 에서삼원다차원척도법을적용한 8 개나라비유성자료에대하여 최대우도다차원척도법을실시하고다차원척도그림과상그림을서로비교하라. 5.3 4 장의 [ 연습문제 4.2] 의 4 가지식용작물의비유사성자료에대해최대우도다차원척도 법을실시하고삼원다차원척도법의결과와비교하라. 연습문제 135
5.4 4장의 [ 연습문제 4.3] 의 8가지관심영역 ( 건강, 과학, 기술, 상업, 사무, 중개, 사회, 예술 ) 에대한 4개그룹 ( 유색여성, 아시아여성, 남아프리카공용네덜란드어를사용하는백인여성, 영어를사용하는백인여성 ) 각각의심리적시험점수의상관계수에대한자료를고려하자. 1) 스트레스 -차원수그림을통하여적절한차원수를결정하라. 2) 최대우도다차원척도법을실시하고상그림을통하여모형의적합성을논의하라. 3) 최대우도다차원척도그림을제공하고해석하라. 4) [ 연습문제 4.3] 의삼원다차원척도법의결과와비교하라. 5) 차원계수그림을통하여 8개관심영역에대한각주체들이판단하는정도를해석하라. 136 5 장최대우도다차원척도법
6 장 베이즈다차원척도법 다차원척도법에서베이즈추정을적용한베이즈다차원척도법 (Bayesian MDS) 에대한모형을 Oh와 Raftery(2001) 가개발하여소개하였다. 특히, 그들은계량형다차원척도법에서 MCMC(Markov chain Monte Carlo) 알고리즘에바탕을둔베이즈방법을적용하여저차원형상공간을얻고차원수를결정하는방법을제공하였는데이들의연구를보다엄밀히말하자면베이즈계량형다차원척도법을개발하였다. 이들의연구는기존의방법보다자료를더잘적합시키고측정오차와어긋난모형의가정에로버스트함을보였다. 지금까지살펴본다차원척도법에서는대부분이고차원의측정자료로부터얻어지는개체간의비유사성 와차원축소를통해얻어지는저차원의형상좌표자료의비유사성 와의관계에서측정오차 를고려하고있다. 다차원척도법에서이측정오차에대하여베이즈관점과같은모형틀을고려하고자하는것이다. 따라서베이즈다차원척도법과관련된베이즈모형을소개하고사례를통하여기존계량형과베이즈계량형다차원척도법을서로비교하고그차이점을이해하려고한다. 그리고베이즈계량형다차원척도법을위한 R-프로그램과그결과를제시하여활용도를높이고자한다.
6.1 베이즈계량형다차원척도법 베이즈계량형다차원척도법은 Oh와 Raftery(2001) 가제안하였다. 일반적으로통계적모형에서사용될분포의종류를가정하기가가끔쉽지는않다. 베이즈계량형다차원척도법도예외는아니다. Okada 와 Shigemasu(2009, 2010), Okada 와 Mayekawa(2011), Okada(2012) 도다양한상황에서 Oh와 Raftery(2001) 의베이즈추정법을적용한다양한베이즈다차원척도법을소개하고있다. 특히, Okada 와 Shigemasu(2009) 는베이즈다차원척도법의알고리즘에대하여 Oh와 Raftery(2001) 의 FORTRAN 프로그램을 R-프로그램으로전환하여제공하고있다. 이절에서는베이즈다차원척도법을위한적절한분포를가정하고사전과사후분포의관계를통해수치해석관점에서몬테칼로방법인 MCMC 알고리즘과이를위한임의보행메트로폴리스 -해스팅스 (random walk Metropolis-Hastings) 알고리즘에의한베이즈추정법에대하여알아보고자한다. 6.1.1 베이즈모형다변량자료행렬 의 번째행벡터 는관측된 번째개체를나타내며이들 개의행벡터 은 차원의공간에서 개개체들의좌표점이다. 식 (1.3) 으로부터두개체 와 사이의유클리드거리 를고려하여이를 차원의유클리드공간에서두개체간의비유사성으로하자. 따라서일반적으로다차원척도법이란비유사성으로정의한거리 와차원축소된 차원의공간에서두개체사이의거리 사이의관계가서로일치되도록하는것이다. 여기서이들간의관계는일반적으로 1.3.1 절의측정수준에서 4가지모형으로임의의함수 에대해서, 로정의되며, 여기서 는측정및 차원공간근사에따른왜곡오차인오차항이다. 138 6 장베이즈다차원척도법
특별히베이즈다차원척도법의모형을위해서함수 를절대척도모형인 로두자. 그리고오차항에대하여다음의정규분포, (6.1) 를가정하자. 베이즈다차원척도법에의해서얻고자하는 차원형상좌표행렬, 에서 은비관측 (unobserved) 좌표이며 번째행벡터 로부터형상공간의두개체간의비유사성은다음과같이정의된다. 이형상공간의비유사성 를미지 (unknown) 라고하고, 차원유클리드공간의비유사성 가절단 (truncated) 정규분포 (6.2) 를따른다고가정하자. 식 (6.2) 의가정으로부터비유사성행렬 가주어질때 차원의형상좌표행렬 와 은미지의모수로이들에대한우도함수는 다음과같다. exp exp log, (6.3) 여기서 는식 (1.5) 에서정의한잔차제곱합이며, 는표준 정규분포의누적함수이고 은비유사성의개수이다. 6.1 베이즈계량형다차원척도법 139
식 (6.3) 으로부터베이즈추정을위해 차원형상좌표행렬 와 에대한사전 (prior) 분포가요구된다. 먼저 의 번째행, 의사전분포로평균이 이 고대각공분산행렬 를가지는다변량정규분포, (6.4) 를따른다고하자. 의완전조건부사후 (posterior) 밀도함수는 이다. 여기서 과 의이차 (quadratic) 함수이다. exp 다음으로오차항의분산 에대한켤레 (conjugate) 사전분포로 log (6.5) 는 (6.6) 을고려하자. 여기서 는모수 와 를가진역 - 감마분포로 를따른다. 유사하게 의사전분포로, (6.7) 로두면 이다. 끝으로,, 그리고 의사전분포들은 을만족하는서로독립이라고 가정하자. 그러면식 (6.2) 의가정으로부터비유사성행렬 가주어질때미지의모수 (,, ) 의결합사후밀도함수는식 (6.3) 의우도함수와사전분포함수식 (6.4), 식 (6.6) 그리고식 (6.7) 로부터 140 6 장베이즈다차원척도법
, (6.8) 이다. 여기서 는다음과같다. log. 6.1.2 MCMC 알고리즘비유사성행렬 가주어질때미지의형상좌표행렬, 모수 과 의결합사후밀도함수인식 (6.8) 의복잡한형태때문에모수들의베이즈추정치를얻기위해서는수치적분 (numerical integration) 이요구된다. 이를위해서 MCMC 추정법을사용하며사후밀도함수의 와미지의모수 과 의초깃값으로기존의토거선의알고리즘에바탕을둔계량형이나 ALSCAL 알고리즘에바탕을둔삼원다차원척도법의결과를활용한다. 먼저이들기존의다차원척도법으로부터얻어진형상좌표행렬을중심화를시켜초깃값으로 라고하면행들의합은 을만족한다. 이로부터표본공분산행렬 를구하게된다. 이때 의 () 번째 대각원소 은분산이며 의초깃값 로사용할수있다. 더군다나중심화된 로부터잔차제곱합 를계산하여이를초깃값 라고하면 을오차항의분산 의초깃값으로사용할수있다. 이번에는 MCMC 알고리즘에서표본생성에대하여상세한설명을하기로하자. 각반복 단계에서식 (6.8) 의비유사성행렬 가주어질때미지의모수 (,, ) 의결합사후밀도함수 로부터 의완전조건부사후분포는, (6.9) 6.1 베이즈계량형다차원척도법 141
이된다. 여기서 이다. 이번에는 MCMC 알고리즘각단계에서 의 번째행 와 을생성하기위해서 Hastings(1970) 의임의보행메트로폴리스 - 해스팅스알고리즘을적용하였다. 식 (6.8) 로부 터 의완전조건부사후분포는 exp log (6.10) 이다. 여기서 과 이다. 다음으로 의완전조건부사후분포는근사적으로 (6.11) 을따르게된다. 여기서 은비유사성의개수이다. 일반적으로개체수 의이차함수인 의값이크게되므로식 (6.11) 의역-감마분포는정규분포로잘근사된다. 따라서식 (6.11) 의역-감마분포의분산에비례하는분산을가진정규분포로임의보행메트로폴리스 -해스팅스알고리즘을제안하게된다. 형상좌표행렬, 미지의모수 과 의충분한시간에걸친반복생성은미지의모수에의한사후분포를통해표본을얻고이로부터모수들의베이즈추정을하게된다. 일반적으로다차원척도법과관련된모형에서는형상공간의미지의비유사성 가유클리드거리로정의되어있으므로형상좌표행렬 의사후표본은강력한사전정보가없는한다른다차원척도법과같이원점에대하여이동, 회전그리고반사에도불변하게된다. 따라서 MCMC 알고리즘의수렴을검증하기위해서는 보다는비유사성행렬 의수렴을점검해야한다. 더군다나 Okada 와 Mayekawa (2011) 는손실함수에의한사후- 과정 (post-processing) 알고리즘을제안하여객관적수렴과정을점검하였다. 를 의 번째 MCMC 표본이라고하고, 는모든 들의평균이면서프로크러스티즈 (Procrustes) 회전의목표행렬이 142 6 장베이즈다차원척도법
라고하고, 를 에대응하여추정될회전행렬이라하자. 사후 - 과정은손실함수 (6.12) 를최소화하는것으로다음과같이 [ 알고리즘 5] 에요약할수있다. [ 알고리즘 5] 사후 - 과정알고리즘 1단계 : MCMC 표본 들을마련하고평균 를구한다. 2단계 : 프로크러스티즈회전에의해서목표행렬 로각표본 를회전시킨다. 3단계 : 새롭게회전하여얻어진 들로부터 를다시계산한다. 4단계 : 수렴할때까지 [2단계] 와 [3단계] 를반복한다. 6.1.3 차원의수일반적으로다차원척도법에서는궁극적으로개체들의관계를보여주는형상공간의차원의수 는미지이고이를결정하는것이중요하다. 이미 1.3.3 절에서스트레스를최소화하는관점에서스트레스 -차원수그림이나크루스칼판별기준을제시한바있다. Oh 와 Raftery(2001) 는베이즈다차원척도법에서도차원의수를최종적으로얻어지는개체형상공간에바탕을두는간단한베이즈차원선택법을제안하고있다. 차원 를미지의변수라고하면사후분포는식 (6.8) 로부터다음과같다.. (6.13) 여기서, exp log, 6.1 베이즈계량형다차원척도법 143
exp 이다. 식 (6.13) 으로부터주변사후분포함수는 (6.14) 이다. 여기서 이고 는 와 와 는독립인상수이다. 식 (6.14) 의 에서 로 의 번째좌표의분 산이므로 는 의척도 (scale) 에종속되어있어이분산이작을수록더커 지게된다. 즉, 의척도는차원의수 에따라변할수있다. 만약에다음과같이 1 차 원과 2 차원의공간좌표가있다고하면, 이들공간좌표는유클리드거리가 4 로동일하나 2 차원의좌표 의분산이더작게된다. 따라서이러한차원에따른척도문제를극복하기위해서 대신에처음 개좌표는 와같고나머지좌표는모두 0인것으로하여 차원의형상좌표 를만들면된다. 따라서 큰주변사후분포함수값을가지면차원의수로 를선택하면된다. 와 를비교하여 가 보다 이를위하여식 (6.14) 로부터 와 의주변사후분포함수의비 (ratio) (6.15) 144 6 장베이즈다차원척도법
를고려하고 의 번째좌표의분산으로부터계산된 와이로부터 라고하고 과 이라두면식 (6.15) 의비 의 log 는 log log (6.16) log log (6.17) 이됨을쉽게보여줄수있다. 식 (6.16) 을살펴보면 은로그- 우도비와유사하고이는 차원의잔차제곱합 가상대적으로 차원의 보다작을수록음의값을가진다. 식 (6.17) 은차원이 1씩높아질때마다증가되어벌점 (penalty) 과같은역할을한다. 만약 와 사이에유의한변화가없다면 이되어벌점은근사적으로 log 이된다. 따라서 의값이양이면차원의수는 이며음이면 을선호하게되므로이값이양으로변하는곳에서차원의수를결정하면된다. 대안적으로다음의 를제안하고있다. log,. (6.18) 식 (6.18) 의 를최소화하는차원의수를최적차원으로정하면된다. 6.1 베이즈계량형다차원척도법 145
6.2 베이즈계량형다차원척도법의예 6.1절에서정리한베이즈계량형다차원척도법을적용하기위한사례로 Okada 와 Shigemasu(2009) 에서소개한유럽 10대도시간거리자료를이용하려한다. 기존의계량형다차원척도법과의상세한비교는 6.3절로미루고여기서는베이즈계량형다차원척도법에대하여설명하고자한다. StatLib 사이트 (lib.stat.cmu.edu/general/bmds.f90) 에서 Oh 와 Raftery(2001) 의베이즈계량형다차원척도법을위한 FORTRAN 프로그램대신에최근 Okada 와 Shigemasu(2009) 가 R과 WinBUG 를사용한 BMDS 프로그램을참고하려고한다. 6.2.1 유럽 10대도시간의거리자료유럽의대표적인 10대도시인 London, Stockholm, Lisboa, Madrid, Paris, Amsterdam, Berlin, Prague, Rome, Dublin 간의거리에대한자료가 < 표 6.1> 에주어져있다 (Borg 와 Groenen, 2005, p. 20). < 표 6.1> 유럽 10대도시간거리 London 0 Stockholm 569 0 Lisboa 667 1212 0 Madrid 530 1043 201 0 Paris 141 617 596 431 0 Amsterdam 140 446 768 608 177 0 Berlin 357 325 923 740 340 218 0 Prague 396 423 882 690 337 272 114 0 Rome 569 787 714 516 436 519 472 364 0 Dublin 190 648 714 622 320 302 514 573 755 0 참고로이자료는 [ 부록 2: 자료 12( 파일이름 : eurodist.txt)] 에분석을위해정리되어 있으니활용하기를바란다. 6.2.2 R- 프로그램과결과 [ 프로그램 6.1] 의 # Bayes Metric MDS 이하는베이즈계량형다차원척도법을 6.2.1 절 에서설명한자료에적용하기위한 R- 프로그램으로 bmds 함수를활용하고있다. 특히, 이 146 6 장베이즈다차원척도법
를사용하기위해선먼저 WinBUGS 프로그램과 BMDS 코드를 BUGS 전용사이트로부터내려받고 WinBUGS 개발전용사이트 (winbugs-development.org.uk) 로부터 WBDev 를다운받아 WinBUGS 를업데이트해야한다. 다음으로 R2WinBUGS, gtools, plotrix 를 R- 프로그램의메뉴패키지에서선택하고 bmds 함수를사용하기전에 library(r2winbugs), library(gtools), library(plotrix) 문에의해서추가적으로지정하여 RGui 환경을조성해야한다. 그리고 BMDS 코드를사전에실행해야한다 (Okada 와 Shigemasu, 2009). [ 프로그램 6.1] < 표 6.1> 유럽 10 대도시간거리에대한베이즈계량형다차원척도법을 위한 R- 프로그램 # Bayes Metric MDS delta<-read.table("c:/programfiles/winbugs14/eurodist.txt", header=t) delta bmds.res<-bmds(delta, maxp=5, n.iter=25000, n.burnin=5000, MCMCsample=T) bmds.res$mdsic bmds.res$stress plot.bmds(bmds.res, p=2) abline(v=0, h=0) [ 프로그램 6.1] 에서먼저입력자료에대한다음의명령문 delta<-read.table("c:/programfiles/winbugs14/eurodist.txt", header=t) 에서 read.table 함수의 <c:/programfiles/winbugs14/eurodist.txt> 는드라이브 c: 에위치한폴더 <ProgramFiles/WinBUGS14> 의자료 <eurodist.txt> 를불러들여표형식의 <delta> 로저장하라는명령문이다. <header=t> 는첫행에개체를나타내는유럽의대표적인 10대도시인 London, Stockholm, Lisboa, Madrid, Paris, Amsterdam, Berlin, Prague, Rome, Dublin 이있음을알리는인수이다. 베이즈계량형다차원척도법을위한 bmds 함수 bmds(delta, maxp=5, n.iter=25000, n.burnin=5000, MCMCsample=T) 를이용하였고인수로 maxp=5 는 1차원부터 5차원까지형상공간의적합을요구하며, n.iter=25000, n.burnin=5000, MCMCsample=T 는 MCMC 알고리즘과관련된인수로수치적반복수 25,000 과 [ 알고리즘 5] 에서 MCMC 표본 5000 개를사용하라는것이다. 이외에도인수로 a=5 는식 (6.6) 의오차항의분산 에대한켤레사전분포 와관련되어있고, alpha=0.5 와 beta0=0.5 는식 (6.7) 에서 의 6.2 베이즈계량형다차원척도법의예 147
사전분포로, 로부터식 (6.9) 에서 과 와관련된디폴트인수이다. [ 프로그램 6.1] 에서 delta, bmds.res$mdsic, bmds.res$stress, plot.bmds(bmds.res, p=2) 는출력명령문으로 [ 결과 6.1] 에순서적으로정리되어있다. 먼저 1은유럽 10개국의거리에의한비유사성행렬자료로실제다차원척도법의분석에활용된다. 2에는 6.1.3 절의식 (6.18) 에서최적차원수를정하는 통계량값과이에관련된스트레스값이 3에제공되고있다. 4에는베이즈계량형다차원척도그림과 5는비계량형다차원척도법에서제공하는상그림과같은최적적합의정도를나타내는그림으로이를최적적합그림이라고하자. [ 결과 6.1] [ 프로그램 6.1] 의수행결과 : 1 입력자료, 2 3 최종적합도, 4 베이즈계량형다차원척도그림, 5 최적적합그림 1 2 3 4 < 그림 6.1> 베이즈계량형다차원척도그림 148 6 장베이즈다차원척도법
5 최적적합그림 6.2.3 결과의해석 [ 결과 6.1] 을살펴보면결과 1은입력자료로사용된유럽 10개국거리를비유사성으로하는대칭행렬을나타내고있다. 베이즈계량형다차원척도법에서최적의차원수는 인 2차원의적합이적절하며이는결과 2에서식 (6.18) 의 통계량값중에서최솟값 -486.90 은위치상두번째에해당하기때문이다. 다음으로 2차원적합의정도는결과 3과결과 5로부터확인가능하다. 이경우결과 3의두번째스트레스값 0.000396 이충분히작으며더군다나 < 표 1.9> 크루스칼판별기준에따라도 <0.0 완벽 (perfect)> 에가깝다. 결과 5의최적적합그림은수직축의적합된 2차원공간의개체간의거리 와수평축의비유사성 에대한각개체의 45가지짝의산점도이다. 이그림에서가장이상적으로는좌표점들이원점을지나는직선상에놓이면베이즈계량형다차원척도법을위한베이즈모형이적합함을나타내게된다. 실제적합이매우잘된경우이다. 직선상을벗어나는좌표점 ( 이상치 ) 들이많을수록스트레스는커지게된다. 여기에대해서는 3장에서자세히언급한바있다. 결과 4의 < 그림 6.1> 베이즈계량형다차원척도그림은유럽 10개국의지도상의위치를상대적으로잘나타내고있다. 다만, 실제지도를고려해서비교한다면 1차원축은왼편과오른편이각각남북을나타내며 2차원축의위쪽과아래쪽은각각동서를나타내고있다. 특히, 프랑스파리는두축에대하여지리적으로중간지점에위치하고있다. 6.2 베이즈계량형다차원척도법의예 149
6.3 계량형과베이즈계량형다차원척도법의비교 일반적으로다차원척도법은비유사성으로정의한거리 와차원축소된 차원 의공간에서두개체사이의거리 사이의관계가서로일치되도록하는것이다. 여기서 이들간의관계는계량형과베이즈다차원척도법의모형은다음과같이정의하였다., 여기서 는측정및 차원공간근사에따른왜곡오차인오차항이다. 특히, 베이즈 다차원척도법의모형은다만오차항에대하여, 과같이정규 분포를가정한다는점이계량형다차원척도법과다르다. 더불어 차원유클리드공간의비 유사성 에대한절단 (truncated) 정규분포 를따른다고가정한다. 더군다나비유사성행렬 가주어질때미지의 차원형상좌표행렬 와모수인 과 의결합사후밀도함수인식 (6.8) 의복 잡한형태때문에모수들의베이즈추정치를얻기위한 MCMC 추정법을사용한다. 이경 우에수치적계산을위해사후밀도함수의 와미지의모수 과 의초깃값으로 기존의토거선의알고리즘에바탕을둔계량형이나 ALSCAL 알고리즘에바탕을둔삼원 다차원척도법의결과를활용한다. 따라서계량형다차원척도법을통해탐색적으로개체간의비유사성을살펴본다음에 이들의값을초깃값으로활용하는베이즈다차원척도법을실시하는것이바람직하다. [ 프로그램 6.2] < 표 6.1> 유럽 10 대도시간거리에대한계량형다차원척도법을위한 R- 프로그램 # Metric MDS delta<-as.matrix(read.table( "c:/program Files/WinBUGS14/eurodist.txt", header=t)) delta con<- cmdscale(delta, k=2, eig=t) con x<-con$points[,1] y<-con$points[,2] lim<-c(-max(abs(con$points)), max(abs(con$points))) plot(x,y, xlab="dimension 1", ylab="dimension 2", xlim=lim, ylim=lim) text(x,y-20, colnames(delta), cex=0.8) abline(v=0, h=0) 150 6 장베이즈다차원척도법
이미베이즈계량형다차원척도법은 [ 프로그램 6.1] 의수행결과에서살펴보았고계량형다차원척도법과의비교를위하여다차원척도그림만재인용하자. [ 프로그램 6.2] 는베이즈계량형다차원척도법을적용했던 < 표 6.1> 의유럽 10대도시간거리에대한계량형다차원척도법을위한 R-프로그램이다. 이는 cmdscale 함수를사용함을 3장을통해잘알고있다. 따라서여기서는프로그램에대한설명은생략하며프로그램실행결과를따로정리요약하지않으려한다. 다만스트레스값과다차원척도그림만비교를위해인용하기로하자. 두다차원척도법의비교를위한다차원척도그림은 < 그림 6.2> 에제공되어있다. 먼저그들의최종적합도는각각 0.999 와 0.000396 로 2차원적합이모두가완벽에가까움을보여주고있다. (a) 계량형다차원척도그림에대한경향은이미 6.2.3 절에서살펴본 (b) 베이즈계량형다차원척도그림과대동소이하다. (a) (b) < 그림 6.2> (a) 계량형다차원척도그림 (b) 베이즈계량형다차원척도그림 연습문제 6.1 다음은 1명의학생으로부터 9점척도 [ 매우다르다 (1점) ~ 매우유사하다 (9점)] 로얻어진 12개국가의유사성자료로그들의평균에대한자료이다 (Kruskal 과 Wish, 1978, p. 64). 이들 18명학생들의응답의평균으로된자료와 2명으로학생들의응답자료는이미 1.1.3 절 [ 사례 3] 에서와 [ 연습문제 5.1] 에서살펴보았다. 연습문제 151
Brazil. Congo 7. Cuba 8 5. Egypt 2 7 6. France 3 3 2 6. India 2 7 2 6 2. Israel 3 2 3 8 5 7. Japan 2 1 1 4 3 7 2. China 2 6 8 7 4 5 3 7. USSR 2 3 7 7 3 6 3 6 8. USA 5 3 3 4 8 5 7 8 1 2. Yugoslavia 2 2 8 3 4 5 4 6 8 8 2. 1) 베이즈계량형다차원척도법을실시하고해석하라. 2) 적절한차원수를정하고적합도에대하여해석하라. 3) 18명의평균과 2명의유사성자료각각의계량형과베이즈계량형다차원척도법의결과와비교하라. 6.2 Mardia 외 2 인 (1979, p. 238) 에서는무덤에서도자기형태에대한고고학에관련된 자료를소개하고있다. G1-G6 의 6 기무덤과그곳에서소장된 5 종류의도자기에대하 여 번째무덤에 번째도자기가있으면 1, 아니면 0 으로하는이진수자료형태이다. 무덤 도자기종류 1 2 3 4 5 G1 0 0 1 1 0 G2 1 1 0 0 1 G3 0 1 1 1 1 G4 0 0 1 1 0 G5 1 0 0 0 1 G6 1 0 1 1 1 152 6 장베이즈다차원척도법
1) 단순매칭계수를이용하여무덤간의유사성행렬 를구하라. 2) 무덤 G1-G6 에대한 는다음과같음을확인하라. 3) 유사성 과비유사성 간의표준변환 을이용하여비유 사성행렬을구하고토거선알고리즘에의한다차원척도법을실시하라. 4) 베이즈계량형다차원척도법을실시하고토거선알고리즘의다차원척도법의결과와 비교하라. 5) 어떤무덤이비슷한종류의도자기를소장하고있는지를설명하라. 6) 적절한차원수를계량형과베이즈계량형다차원척도법에따라결정하고서로비교 하라. 6.3 4장의 [ 연습문제 4.3] 의 8가지관심영역 ( 건강, 과학, 기술, 상업, 사무리, 중개, 사회, 예술 ) 에대한 4개그룹 ( 유색여성, 아시아여성, 남아프리카공용네덜란드어를사용하는백인여성, 영어를사용하는백인여성 ) 각각의심리적시험점수의상관계수에대한자료를고려하자. 1) 네그룹별베이즈계량형다차원척도법을실시하라. 2) 최대우도다차원척도법의다차원척도그림과네그룹별베이즈계량형다차원척도그 림을비교하고그차이점을논의하라. 6.4 영국의가장규모가크고오래된로이드은행 (Lloyds Bank) 에서 1890 ~ 1970 년사이에근무한은행종사원의경력에대한연구가 Stovel 외 2인 (1996) 에의해서이루어졌다. 이들은 1900 년대초기에전통적으로지위에근거한경력제도가동적인성취감에의한경력제도에의해서어떻게대체되었는지를살펴보았다. 여기서제시된사례에는로이드은행의두개의코호트인 1905 ~ 1909 년과 1925 ~ 1929 년사이에각각 80명의은행종사원의고용기록에대한자료를활용하였다. 고용기록은각종사원을나타내 연습문제 153
는일련번호 (id), 처음근무를시작한연도, 그리고맡은모든직무를 1년단위로근무한지점의규모와위치 (1= 작은지방, 2= 큰지방, 3= 작은도시, 4= 큰도시, 5= 전문적본사나해외지점, 6= 본사 ) 와맡은일 (1= 행원, 2= 선임행원, 3= 정규직경영인, 4= 전문경영인 ) 에따라두자리숫자를연속적으로기록한것으로 71개변수가사용되었다. 이들지점의규모와위치의조합은 가지로그형식은개인별로 < 해 @ 지점 지위 > 로문자화되었다. 그리고 101-107 숫자를이용하여회사로부터퇴직했음을표시하였고은행원의해마다경력이다르므로필요치않은것은숫자 999로표시하였다. 물론이들은매칭알고리즘에는사용되지않았다. 예를들면 40년경력의일련번호 4238 은행원이 1907 년에업무를시작하여 25년간큰지방지점에서행원으로일을하였고, 15년간작은지방지점의정규직경영인으로승진하여근무하다가퇴직하였다면그의자료는다음과같다. 4238 1907 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 107 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 999 실제이자료는개인별문자화한형식 < 해 @ 지점 지위 > 에의해서 {25@21, 15@13} 와같이요약될수있다. Izenman(2008, 13장 ) 은이자료로서열정렬알고리즘을통하여다음과같은크기가 비유클리드거리로된비유사사성행렬자료를만들었다. 이는 1905 1909 년에근무한로이드은행원 80명에대한비유사성행렬자료의일부이다. 515 ~ 4514 는 80명은행원의일련번호이다. 이와함께 1925 ~ 1929 년의은행원 80명의비유사성행렬자료에대해서는 [ 부록 2: 자료 3( 파일이름 : Lloyds05.sd2, Lloyds05.xlsx)] 과 [ 부록 2: 자료 4( 파일이름 : Lloyds25.sd2, Lloyds25.xlsx] 에 SAS와엑셀자료세트로각각제공되어있으니참고하기를바란다. 154 6 장베이즈다차원척도법
515 0 547 4.214285714 0 573 3.333333333 4.904761905 0 638 4.108108108 0.892857143 4.837837838 0 653 4.634146341 2.178571429 4.87804878 2.682926829 0 781 3.357142857 4.797619048 1.791666667 4.567567568 5.182926829 0 794 3.511627907 3.406976744 4.953488372 3.697674419 3.279069767 4.965116279 0 797 4.243902439 0.744047619 4.597560976 1.097560976 1.682926829 4.756097561 842 3.404761905 4.952380952 1.875 4.878378378 5.158536585 1.045454545 883 3.795454545 1.886363636 5.102272727 2 3.795454545 4.875 914 4.31875 1.291666667 4.5875 1.5 1.487804878 4.9875 4514 3.464285714 1.238095238 4.836956522 1.488095238 3.059523809 4.797619047 0 1) 계량형다차원척도법을위한다음의프로그램을실행하라. LIBNAME MDS "C:\" ; /* (a) Lloyds Bank Data for 1905-1909 */ data lloyds05; set mds.lloyds05; ods graphics on; proc mds data=lloyds05 level=absolute pfinal plots=coefficients(one); id col1; /* (b) Lloyds Bank Data for 1925-1929 */ data lloyds25; set mds.lloyds25; proc mds data=lloyds25 level=absolute pfinal plots=coefficients(one); id col1; 2) 다음의다차원척도그림을얻고각각의적합도에대하여기술하라. 연습문제 155
(a) (b) 계량형다차원척도그림 : (a) 1905-1909 년 (b) 1925-1929 년 3) 다차원척도그림 (a) 와 (b) 를서로비교하고, 특히 (a) 에서이상치로보이는세은행원 (1587, 1590, 3240) 의형상좌표를제시하라. 4) 베이즈계량형다차원척도법의결과와비교하라. 156 6 장베이즈다차원척도법
7 장 비선형다차원척도법 Sammon(1969) 의비선형사상알고리즘을적용한새먼사상 (Sammon mapping) 은일반적으로패턴인식 (pattern recognition) 에서잘알려진도구이다. 이는고차원공간의개체를나타내는벡터를저차원공간의벡터로사상시키려는것이다. 물론개체간의패턴이가능한유지되도록하는것은당연하다. 이는다차원척도법의기하적관점과동일하다. 따라서새먼사상을다차원척도법에적용한것을비선형다차원척도법 (nonlinear MDS) 라하자. 비선형다차원척도법은근본적으로계량형다차원척도법의스트레스최소화알고리즘의비선형버전으로생각할수있다. 그러므로엄밀히말해서비선형계량형다차원척도법이라고볼수있다. 반면에계량형다차원척도법을위한크루스칼의스트레스를최소화하는알고리즘과차원축소를위한주성분분석의대수적성질을따른토거선의알고리즘은상대적으로선형버전이라고볼수있다. 따라서이절에서는다차원척도법의관점에서새먼사상의비선형사상알고리즘을간단하게요약하고, 이를위해 R-프로그램에서 sammon 함수를활용하여사례에적용하고기존계량형다차원척도법과비교하려고한다. 이함수도수치적반복연산을필요로하는비계량형다차원척도법을위한 isomds 함수처럼초깃값으로계량형다차원척도법을위한 cmdscale 함수를사용한다.
7.1 비선형계량형다차원척도법 새먼사상은 Sammon(1969) 의비선형사상알고리즘에바탕을둔것으로, Dzwinel(1994) 은고차원의자료를분석하는데이것의유용한활용성을요약하고있다. 특히, Johnson 과 Wichern(2002, p. 708) 그리고 Izenman(2008, pp. 488-490) 이다차원척도법의관점에서새먼사상을간단히언급하고있다. 이절에서는새먼의비선형사상을다차원척도법에적용한비선형계량형다차원척도법의이론을정리요약하기로하자. 새먼사상은일반적으로패턴인식에서고차원공간의자료들간의관계를잘유지하도록저차원공간으로비선형사상시키는매우잘알려진기법으로이에대한여러가지성질을비교분석한 Ridder 와 Duin(1997) 을참고할수있다. 여기서그들은새먼사상알고리즘의단점은새자료점이사상되어야할때, 전체사상과정이반복되어야하며대신에주성분분석과같이수리적이거나대수적인사상과정을제공하지못한다는것이다. 이를극복하는다양한방법이제시되어있고사례들도살펴볼만하다. 7.1.1 비선형모형다변량자료행렬 의 번째행벡터 는관측된 번째개체를나타내며이들 개의행벡터 은 차원의공간에서 개개체들의좌표점이다. 두개체 와 사이의거리를 라고하고이를 차원의공간에서두개체간의비유사성으로고려하자. 대개거리 는유클리드거리가사용된다. 따라서일반적으로다차원척도법이란이거리 와차원축소된 차원의공간에서두개체의거리 사이의관계가서로일치되도록하는것이다. 여기서이들간의관계를일반적으로 1.3.1 절에서임의의함수 에대해서, 로정의되며여기서 는측정및 차원공간근사에따른왜곡오차인오차항이다. 특별히비선형계량형다차원척도법의모형을위해서함수 를절대척도모형인 로두자. 그리고새먼의스트레스를 158 7 장비선형다차원척도법
(7.1) 로정의하자. 이는 1.3.2 절의크루스칼이나영의스트레스공식과유사하나식 (7.1) 의스트레스는개체간의원거리 에의해서동일하게나누어져가중화되어있다. 이로인하여척도 (scale) 에영향을받기쉽다. 특히, 새먼의스트레스는찾고자하는 차원의형상공간에서개체 의좌표점 가 개좌표 로이루어져있어두개체의거리 를형성하는 개의좌표점의함수로이루어져있다. 그러므로이스트레스를최소화하는 차원형상공간에서크기가 인형상좌표, 를찾는것이다. 이는지금까지다차원척도법에서얻고자하는형상공간의형상좌표개념 과동일하다. 7.1.2 비선형사상알고리즘식 (7.1) 의새먼의스트레스는찾고자하는 차원의형상공간에서두개체의거리 를형성하는 개의좌표점의함수로이루어져있다. 따라서스트레스를최소화하는과정에서최경사하강법과같은수치최적화알고리즘이활용되며이를 [ 알고리즘 6: 새먼비선형사상알고리즘 ] 으로정리하였다. 이는 1.3.2 절의 [ 알고리즘 1: 스트레스최소화알고리즘 ] 에서도언급한바있다. 참고로 [ 알고리즘 6] 의식 (7.3) 에서편도함수들은다음과같다.,. 7.1 비선형계량형다차원척도법 159
Dzwinel(1994) 에따르면식 (7.3) 의경험적으로주어진마요인 (magic factor) 의범위가모든문제에서최적화가될것이라고기대하기는어렵다는점을지적한다. 대안으로정규경사하강법 (normal gradient descent) 에의해서 [ 알고리즘 6] 의 [2단계 ] 의식 (7.3) 대신에 번째에서 차원형상공간의좌표로다음을사용할수있음을제안하고있다. [ 알고리즘 6] 새먼비선형사상알고리즘 1 단계 : 번째반복후사상오차 를정의한다. 여기서 (7.2) 이고 이다. 2 단계 : 번째에서 차원형상공간의좌표는 (7.3) 이다. 여기서 또는 로경험적으로결정된마요인이다. 일반적으로비계량형과베이즈계량형다차원척도법에서는반복적으로계산하는수치해석적알고리즘에서초깃값으로계량형다차원척도법의형상좌표를사용한다. 이와동일하게비선형계량형다차원척도법의비선형사상알고리즘에서도초깃값으로이를사용한다. 실제로비선형계량형다차원척도법을수행하기위한 sammon 함수를제공하는 R-프로그램에는초깃값에관한인수로계량형다차원척도법을위한 cmdscale 함수를사용하고있다. 160 7 장비선형다차원척도법
7.2 비선형계량형다차원척도법의예 이미 3.3절에는 10개의아라비아숫자의모스부호 (Morse code) 에대한계량형과비계량의다차원척도법을비교하기위하여 SAS/MDS 와 R-프로그램을적용하였다. 이절에서는이자료를활용하여비선형계량형다차원척도법을실시하고이를위한 R-프로그램을제공하여얻어진결과를 3.3.2 절의계량형다차원척도법의결과와비교하려한다. 7.2.1 모스부호자료 7.1절에서정리한비선형계량형다차원척도법을적용하기위한사례로 3.3.1 절과 3.3.2 절에서사용한 Mardia 외 2인 (1979, Chapter 14) 의점 (. dot) 과선 (- dash) 의짧은신호로구성된모스부호를고려하자. 여기서 0, 1, 2, 3, 4, 5, 6, 7, 8, 9로이루어진 10개의아라비아숫자에대한 < 표 3.2> 와같은유사성자료이다. 이자료는아라비아숫자에대한유사성행렬 로모스부호를모르는 598명에게청각적으로기계에의해서두수의모스부호신호를짝을지어두번 (1 다음 2, 2 다음 1과같이 ) 들려주고두신호의짝이같다고생각하는사람들의비율을나타낸다. R-프로그램에서입력자료인비유사성행렬 을얻기위해이유사성행렬부터표준변환 을실시한다. 이과정은 3.3.1 절의 [ 프로그램 3.3] 에잘나타나있고그결과인비유사성행렬자료는 [ 부록 2: 자료 10( 파일이름 : morse.txt)] 에정리되어있다. 이를입력자료로하는비선형계량형다차원척도법에관한 R-프로그램이 [ 프로그램 7.1] 이다. 7.2.2 R-프로그램과결과 [ 프로그램 7.1] 의 # Nonlinear Metric MDS 이하는 7.2.1 절에서설명한모스부호자료를사용하여새먼의비선형사상을사용한비선형계량형다차원척도법을위한 R-프로그램이다. 자료를불러들이는형식은이미 3.3.2 절에서설명한바있으니참고하기를바란다. [ 프로그램 7.1] 모스부호의비유사성자료의비선형계량형다차원척도법을위한 R- 프로그램 # Nonlinear Metric MDS d<-as.matrix(read.table("c://r-mds//morse.txt", header=t, check.names=f)) d 7.2 비선형계량형다차원척도법의예 161
library(mass) con<-sammon(d, k=2, magic=0.3) con x<-con$points[,1] y<-con$points[,2] lim<-c(-max(abs(con$points)), max(abs(con$points))) plot(x,y, xlab="dimension 1", ylab="dimension 2", xlim=lim, ylim=lim) text(x,y+0.6, colnames(d), cex=0.8) abline(v=0, h=0) [ 프로그램 7.1] 을보면새먼의비선형사상을사용한비선형계량형다차원척도법에관한 sammon 함수를이용하였고그이전에 library(mass) 문에의해서라이브러리 MASS 를지정하였다. 함수에서인수로 는 2차원의형상공간을적합을요구하며, 특히, sammon 함수에는알고리즘에서계량형다차원척도법의형상좌표를초깃값으로이용하기위하여인수로 y=cmdscale(d, k) 에의해 cmdscale 함수를이용하는것이디폴트로주어진다. 더불어수치적반복을위해 niter=100 과수렴의조건 tol=1e-4 역시디폴트인수로주어진다. 이런인수설정은 3.3.2 절의비계량형다차원척도법을위한 isomds 함수와동일하다. 다만 magic=0.3 은 [ 알고리즘 6] 의 [2단계 ] 에서정의한마요인 값에관한인수이다. 실제이값을 0.4로하여도결과는거의동일하다. [ 프로그램 7.1] 의수행결과는 [ 결과 7.1] 에정리되어있다. 먼저 1은 0(zero)-9(nine) 로이루어진 10개의아라비아숫자에대한비유사성행렬자료이다. 2의 $points 에는 2차원의형상좌표와 $stress 에는최종적합도 0.05 가주어져있고끝으로 3 비선형계량형다차원척도그림이제공되고있다. [ 결과 7.1] [ 프로그램 7.1] 의수행결과 1 162 7 장비선형다차원척도법
2 3 7.2.3 결과의해석 [ 결과 7.1] 을보면 2의최종적합도 0.05 는 2차원의형상좌표에의한 3 비선형계량형다차원척도그림이 < 표 1.9> 의크루스칼판별기준에따르면 <0.05 좋음 (good)> 에해당한다. 이다차원척도그림은전반적으로 1축의왼편아래쪽부터오른편으로 0(-----), 1(.----), 2(..---), 3(...--), 4(...-), 5(...), 6(-...), 7(--...), 8(---..), 9(----.) 순서로매끈한원을형성하고있다. 즉, 수평축 (1차원축 ) 은왼쪽에서오른쪽으로갈수록모스부호인점 (.) 의증가되는추세를측정하며그반면에수직축 (2차원축 ) 은아래쪽은아라비아숫자 1(.----), 2(..---), 3(...--), 4(...-) 로점 (.) 이먼저시작되며위쪽은 6(-...), 7(--...), 8(---..), 9(----.) 로선 (-) 이먼저시작되어신호의동질성을측정한다. 신호의동질성을나타내는 2차원축에대하여그경향성이벗어난 5(...) 와 0(-----) 을제대로분류하기위해서는전체적으로축의회전을반시계방향으로 30도정도할필요가있다. 7.2 비선형계량형다차원척도법의예 163
7.3 계량형과비선형계량형다차원척도법의비교 지금까지일반적으로다차원척도법은고차원의두개체간의비유사성으로정의한거리 와차원축소된 차원의공간에서두개체사이의거리 사이의관계가서로일치되도록하는것이기본개념이다. 계량형과비선형계량형다차원척도법도더불어두방법모두다음과같은기본모형을가정한다., 여기서 는측정및 차원공간근사에따른왜곡오차인오차항이다. 이절에서두방법의비교를위해서 R-프로그램에서제공하는계량형다차원척도법과비선형계량형다차원척도법의결과를비교하고자한다. R-프로그램에서비선형계량형다차원척도법을위한 sammon 함수를사용할때반복적인수치적알고리즘의초깃값으로계량형다차원척도법을위한 mdscale 함수를활용한다는점을이미 7.2.2 절에서설명한바있다. 다만비선형계량형다차원척도법은새먼의스트레스공식식 (7.1) 을최소화시키는 [ 알고리즘 6: 새먼비선형사상알고리즘 ] 을활용하고계량형다차원척도법은 [ 알고리즘 2: 토거선알고리즘 ] 을활용하여 차원형상공간에서크기가 인형상좌표 를찾는것이다. 더불어계량형다차원척도법의다차원척도그림이주성분분석의대수적성질과기하적성질을따르므로최용석과신상민 (2013, 1.6절 ) 의주성분행렬도관점에서기하적인해석이유용하게사용됨을 3.3.1 절에서이미설명한바있다. 반면에비선형계량형다차원척도법은비록알고리즘의초깃값으로계량형다차원척도법의형상좌표를사용하지만계량형다차원척도법의이러한기하적성질이유지된다고말할수없다. 두방법의실제사례를활용한비교를위해 1 형상좌표 2 최종적합도 3 다차원척도그림은계량형다차원척도법의경우 3.3.2 절의 [ 결과 3.5] 를참고하여재인용하였고, 비선형계량형다차원척도법은 [ 프로그램 7.1] 의수행결과인 [ 결과 7.1] 을참고하였다. 특별히 < 그림 7.1> 에는이들의다차원척도그림만재인용하였다. < 그림 7.1> 의 (a) 계량형다차원척도그림과 (b) 비선형계량형다차원척도그림의최종적합도는각각 0.56 과 0.05 로계량형다차원척도그림보다는비선형계량형다차원척도그림이 < 표 1.9> 크루스칼의판별기준에따라상대적으로적합도가좋다. 전반적으로다차원척도그림에대한해석은 3.3.2 절과 7.2.3 절에자세히언급하고있다. 다만일부모스부호가 1 축의왼쪽으로부터다소겹친원을형성한 (a) 계량형다차원척도그림보다는 (b) 비선형계 164 7 장비선형다차원척도법
량형다차원척도그림이보다모스부호가고루분포된매끄러우면서큰원을형성하고있다. 즉, 계량형다차원척도그림 (a) 에서좌표점을나타내는숫자를원점에서시작되는벡터로보면 0과 9, 그리고 4와 5는각각그들이서로이루는각이매우작아매우연관성이높게여겨진다. 반면에비선형계량형다차원척도그림 (b) 에서는다소이들의기하적성질이줄어들고있다. 그러나실제로비선형계량형다차원척도법에서는비선형사상알고리즘의초깃값만계량형다차원척도법을사용하고있기때문에이러한기하적성질이유지된다고말할수없다. (a) (b) < 그림 7.1> (a) 계량형다차원척도그림 (b) 비선형계량형다차원척도그림 연습문제 7.1 [ 연습문제 6.4] 에는로이드은행의 1905 ~ 1909 년과 1925 ~ 1929 년사이에각각 80명의은행종사원의고용기록에대한자료를활용하여얻어진 비유클리드거리로된비유사사성행렬자료를소개하고있다. 이들은각각 [ 부록 2: 자료 3( 파일이름 : Lloyds05.sd2, Lloyds05.xlsx), 자료 4( 파일이름 : Lloyds25.sd2, Lloyds25.xlsx] 에 SAS 와엑셀자료세트로각각제공되어있다. 1) 비선형계량형다차원척도법을실시하고해석하라. 연습문제 165
2) 적절한차원수를정하고적합도에대하여해석하라. 3) [ 연습문제 6.4] 의계량형과베이즈다차원척도법의결과와비교하라. 7.2 [ 연습문제 6.2] 에서 Mardia 외 2인 (1979, p. 238) 에서는 6기무덤에서소장된다섯종류의도자기형태의유사성에관한고고학자료를소개하고있다. 어떤무덤이비슷한종류의도자기를소장하고있는지를비유사성행렬을통하여비선형계량형다차원척도법을실시하고 [ 연습문제 6.2] 의 4) 의계량형과베이즈계량형다차원척도법과의결과를비교하라. 7.3 6.2.1 절에는유럽 10 개도시 (London-Dublin) 간의거리에대한 2 차원계량형과베이 즈계량형다차원척도법의적합값과다차원척도그림을해석하고비교하고있다. 추가 로비선형계량형다차원척도법을실시하여서로비교하라. 7.4 [ 연습문제 4.2] 의네가지식용작물 ( 감자, 시금치, 상치, 튜나 ) 에대한비유사성의순 위를매겨얻은두사람의자료가있다. 1) 평균에의한비유사성행렬자료를구하라. 2) 계량형다차원척도법을실시하고해석하라. 3) 베이즈와비선형계량형다차원척도법을실시하고비교하라. 7.5 [ 연습문제 3.4] 에는미국내 22개공익회사에대한평가를위해 8개변수 ( : 고정요금보상율, : 자금수익률, : KW당비용, : 연부하율, : 1974 ~ 1975 년사이절정의 kwh 수요성장, : 판매량, : 핵비율, : 총연료비용 ) 로측정한자료가주어져있다. 1) 비유사성행렬로피어슨거리와마할라노비스거리를구하여보라. 2) 이들거리의비선형계량형다차원척도법위한적절한차원수와적합도를구하라. 3) 2) 에서구한각각의거리에대한다차원척도그림을통해적절한군집과특성을해석하고비교하라. 4) 계량형다차원척도법과의결과를비교하라. 166 7 장비선형다차원척도법
부록 1 SAS MDS 절차 SAS/STAT 에서다차원척도법을제공하는 MDS 절차가 6.07 판이후현재 9.2판인 SAS Institute Inc.(2008, Chapter 5) 에나와있다. 더불어 9.2판이후에 ODS GRAPHICS ON 문은다차원척도법과관련된그림 ( 다차원척도그림, 스트레스 -차원수그림, 상그림, 세퍼드그림등 ) 을자동으로쉽게제공한다. 이미 6장베이즈다차원척도법을제외하고 5장까지다양한사례들에대한전형적인이원과삼원, 최대우도다차원척도법을위한 PROC MDS 프로그램을사용하였다. [ 부록 1.1] 에서는 PROC MDS 문법의전반에대해서설명하고 [ 부록 1.2] 에서는 9.2판이후에그림을용이하게얻게하는 ODS GRAPHICS 에서 MDS 와관련된것을설명하려한다. 4장의삼원과 5장의최대우도다차원척도법을위한범용 PROC ALSCAL 과 PROC MLSCALE 을수용한 PC- 윈도우용 PROC MDS 와의비교를 [ 부록 1.3] 과 [ 부록 1.4] 에서각각요약하기로하자. < 표 1> PROC MDS 절차 1) PROC MDS <options>; 2) VAR variables; 3) INVAR variables; 4) ID/OBJECT variable; 5) MATRIX/SUBJECT variable; 6) WEIGHT variables; 7) BY variables; 167
< 표 1> 의문법형식에서반드시필요한부분은 1) 의 PROC MDS 문이다. 2) 의 VAR 문의 variables 는입력자료의각개체를나타내는변수를지정하나일반적으로이 VAR 문의활용도는낮다. 3) 의 INVAR 문의 variables 는옵션 <INITIAL =SASdataset> 에서지정된 SAS 자료세트에들어있는다차원척도그림을위한형상좌표를제공하는변수명을지정하여초깃값으로사용한다. 실제이문을생략한다면변수명 DIM1 DIMm( 여기서 m은최대차원의수 ) 이디폴트로사용된다. 4) 의 ID(/OBJECT) 문은각개체의라벨을위한변수를지정한다. 그러나이 ID 문은 1.4절의 [ 프로그램 1.1]-[ 프로그램 1.3] 과같은전형적인형식을이용한다면없어도된다. 5) MATRIX/SUBJECT 문은주체 (subject) 에대하여개체들의비유사성행렬이존재하는경우에대한 4장의삼원과 5장의최대우도다차원척도법에서주체와관련된변수를지정하게한다. 6) WEIGHT 문은비유사성을측정할때고려되는가중치 (weight) 를포함하는수치형변수를지정한다. 이문에서지정될변수의개수와순서는입력자료의각개체를나타내는변수와일치한다. 그리고이문이지정되지않았다면가중치는동일하게지정된다. 7) BY 문은 SAS 의여러절차에두루사용되므로여기서설명은생략한다. 지금까지 < 표 1> 의 PROC MDS 절차의일반형식을간략하게소개하였다. 이중에서일반적으로 SAS 의여러절차에서두루사용되는전형적인 2) VAR 문, 4) ID 문그리고 7) BY 문에대한자세한설명과활용은생략하고다차원척도법에관련된 PROC MDS 문법을본격적으로설명하려고한다. 부록 1.1 PROC MDS 문의옵션 PROC MDS 문의 <options> 에는크게 49가지의옵션을사용할수있다. 이옵션을사용하지않은디폴트의 PROC MDS 는단지스트레스값을찾는수치적반복계산과정만을제공한다. 9.2판인 SAS Institute Inc.(2008, Chapter 5) 이후에는 PROC MDS 문을실행하기전에 ODS GRAPHICS ON 문을실행한다면다차원척도법과관련된그림 ( 다차원척도그림, 스트레스 -차원수그림, 상그림, 세퍼드그림등 ) 을자동으로쉽게얻게된다. 이는최용석 (1995, 4장 ) 에서참고한 SAS Institute Inc.(1985) 의 6.07 판과같은구판에서 PROC PLOT 문을이용하는수고를덜어주었다. ODS GRAPHICS ON 문에서제공하는그림에대한출력결과를 PROC TEMPLATE 문에서수정이가능하며여기에대해서는 [ 부록 1.2] 에서정리하고있다. < 표 2> 에는 PROC MDS 문의옵션을기능별로나누어정리하였고이에대하여상세히설명하고자한다. 168 부록 1: SAS MDS 절차
< 표 2> PROC MDS 문의옵션 측정수준지정 (MDS 모형의종류 ) 자료의형태자료세트의지정스트레스최적척도화 OUT=dataset 에저장출력결과조정결측치조정수렴문제조정기타선택 LEVEL= SIMILAR=, COEF=, CONDITION=, SHAPE= DATA=, OUT=, OUTFIT=, OUTRES=, INITIAL= DIMENSION= <to>, FIT=, FORMULA=, ALTERNATE= OCOEF, OCONFIG, OCRIT, OTRANS, OUTITER NOPHIST, PCOEF, PCONFIG, PDATA, PFINAL PFIT, PFITROW, PINAVDATA, PINEIGVAL PININ, PINIT, PITER, PTRANS CUTOFF=, INAV=, NOULB CONVERGE=, GCONVERGE=, MCONVERGE= MAXITER=, MINCRIT=, OVER=, RIDGE= DECIMALS=, EPSILON=, NEGATIVE, NONORM RANDOM=, SINGULAR=, UNTIE 부록 1.1.1 측정수준지정 LEVEL=ABSOLUTE/INTERVAL/RATIO/ORDINAL/LOGINTERVAL (=ABS/INT/RAT/ORD/LOG =A/I/R/O/L) 디폴트는 ORDINAL 이다. 이들측정수준에대한설명은 1.3.1 절에서하였다. 계량형다차원척도법을위해서는 <LEVEL= ABSOLUTE/INTERVAL/RATIO> 를사용하고, 비계량형다차원척도법을위해서는 <LEVEL= ORDINAL>( 디폴트 ) 이사용되며 5장과 6장을제외한여러장에걸쳐활용되고있다. 특히 <LEVEL= LOGINTERVAL> 은 5장의최대우도다차원척도법에서사용한다. 범용 PROC ALSCAL 에서는 <LEVEL=NORMINAL/INTERVAL/RATIO/ORDINAL> 옵션이사용되었으나 PROC MDS 에서는 <NORMINAL> 이빠지고 <ABSOLUTE> 가대신지원되며 [ 부록 1.3] 의 < 표 3> 에서이들을서로비교하고있다. 부록 1.1 PROC MDS 문의옵션 169
부록 1.1.2 자료의형태 SIMILAR SIMILAR=max (SIM=max) COEF=IDENTITY/DIAGONAL (COEF=IDEN/DIAG =I/D) CONDITION=UN/MATRIX/SUBJECT/RO W (CON=U/M/S/R) SHAPE=TRIANGULAR/SQUARE (=TRI/SQU=T/S) 입력자료가유사성행렬일경우이를비유사성행렬로바꾸라는옵션이다. 디폴트는 IDENTITY 로이원다차원척도법에해당한다. 삼원다차원척도법에서는 DIAGONAL 을사용한다. 입력자료의조건을지정하는옵션이다. <SHAPE=> 옵션과같이사용되며디폴트는 MATRIX 이다. 입력자료의행렬형태를지정하는옵션이다. <CONDITION=> 옵션과같이사용된다. 유사성행렬 이프로그램에서입력자료로사용될경우 <SIMILAR> 옵션을사용한다. 특히, 옵션 <SIMILAR=max> 에서 =max 를지정하지않으면유사성행렬에서대각원소를포함하여가장큰유사성 를찾고, 만약에 =max 를지정하면 max 값과유사성행렬에서대각원소를포함하여가장큰유사성 max 을찾아가장단순한변환 을통해얻어지는비유사성행렬 을가지고분석하게된다. 그리고대각원소에 (missing value) 나 0(zero) 이있는경우 <SIMILAR=max> 옵션을꼭사용하고대각원소에가장큰유사성이있는경우디폴트로이옵션을사용하지않아도된다. 이는이미 1.1.3 절의 [ 사례 3] 에서대각원소에가장큰유사성 가있는유사성행렬이제공되어있어 1.4.3 절의 [ 프로그램 1.3] 에서디폴트로처리되어있다. 특히 <COEF=DIAGONAL> 은삼원다차원척도법을위한 INDSCAL 모형을지정하는것으로결과에서각주체별가중치를제공하는차원계수 (dimension coefficients) 를제공하며활용의예는 4.2.2 절의 [ 프로그램 4.2] 에서참고하면된다. 4.1.2 절에서이차원계수의기하적역할에대해서자세히설명하고있다. <CONDITION=> 과 <SHAPE=> 이들두옵션은입력자료의조건과행렬형태에따라다르게사용된다. 입력자료의조건에대해서는 Young(1987, pp. 60-63) 은 5가지를정의하고있다. 특히, PROC MDS 에서행렬 -조건 (matrix-conditional), 조건없이 (unconditional), 행-조건 (row-conditional) 을채택했고, 열-조건 (column-conditional) 과일반- 조건 (general -conditional) 이나머지에입력자료조건에해당한다. 행렬형태는대칭이면서삼각행렬형태인비유사성행렬하나가분석에서이용되는 3장의 170 부록 1: SAS MDS 절차
이원다차원척도법과각주체에따라여러개의비유사성행렬이분석에사용되는 5장의최대우도다차원척도법이있다. 이경우에 <CONDITION=MATRIX SHAPE=TRIANGULAR> 를활용하면된다. 특히 <SHAPE=TRIANGULAR> 는 <CONDITION=MATRIX> 옵션에대해디폴트이고실제로 <CONDITION=MATRIX> 도디폴트이다. 그리고 4장의삼원다차원척도법에서처럼각주체에대해비대칭이고정방행렬형태의입력자료인경우 <CONDITION= ROW SHAPE=SQUARE> 옵션을사용한다. 이때는 <SHAPE=SQUARE> 옵션이 <CONDITION= ROW> 옵션에대해디폴트이다. 끝으로그룹별로나뉘어진행렬자료 (split-file data) 인경우는 <CONDITION=UN SHAPE=SQUARE> 옵션을사용한다. 부록 1.1.3 자료세트의지정 DATA=SASdataset OUT=SASdataset OUTFIT=SASdataset OUTRES=SASdataset INITIAL=SASdataset PROC MDS 에의해서분석될자료세트의이름을지정한다. 이는 SAS 프로그램의전형적인옵션이다. 다차원척도그림을위한형상좌표에관련된모든결과를포함하는새로운자료세트를생성한다. 만약에 <OCOEF, OCONFIG, OCRIT, OTRANS, OUTITER> 옵션중하나혹은그이상을지정한다면지정한옵션에관련된결과만 SASdataset 에저장된다. 부적합도 (badness-of-fit criterion) 를포함하여적합도에관련된척도를저장한다. MDS 모형이추정되고일반적회귀분석에서처럼잔차들이저장된다. 따라서 MDS 모형의적합성을보여주는세퍼드그림등을제공받기위한옵션이다. MDS 모형의모수들에대한초깃값을설정하는자료세트를지정한다. 디폴트는자료로부터초깃값이계산된다. 9.2판이전에는다차원척도법과관련된다차원척도그림, 스트레스 -차원수그림, 상그림, 세퍼드그림등을얻기위해서는 PROC MDS 문에두옵션 <OUT=SASdataset> 과 <OUTRES=SASdataset> 을지정하고 PROC PLOT 문에서이들자료세트를이용하고는하였다. 그러나 9.2판에서는세퍼드그림을제외하고는 ODS GRAPHICS ON 문을 PROC MDS 문이전에실행하면자동으로얻게되어이들두옵션에대한활용도가낮아졌다. 그러나 [ 프로그램 3.2] 와 [ 결과 3.2] 에서와같이스트레스계산을포함하여모형의적합과정을수치적으로확인하고이해하는작업을위해서는여전히필요하다. 부록 1.1 PROC MDS 문의옵션 171
1 <OUT=SASdataset> 옵션에서자료세트로저장하고자하는결과에관련된옵션 <OCOEF, OCONFIG, OCRIT, OTRANS, OUTITER> 에대하여다음과같이요약할수있다. OUT=SASdataset OCOEF OCONFIG 차원계수 (dimension coefficient). 이옵션의활용은 4 장의삼원다차원척도법에서 찾아볼수있다. 형상좌표 (configuration coordinates). OCRIT 부적합도. 이옵션은스트레스 - 차원수그림 (1.3.3 절을참고 ) 을얻을때유용하다. OTRANS OUTITER 변환모수의추정치. 비계량형다차원척도법을제공하는 <LEVEL=ORDINAL( 디폴트 )> 이지정되어있다면이옵션에해당하는결과는없다. 그이유는비계량형다차원척도법은모수적표현이없는단조변환에의한순서척도모형이기때문이다. 스트레스최소화알고리즘의수치적계산과정에서각반복마다형상좌표와부적합도를제공한다. 이옵션은특별히 <OUTFIT=> 과 <OUTRES=> 에서지정된자료세트에도결과를저장한다. 부록 1.1.4 스트레스및최적척도화 DIMENSION=n <to m> (DIMENS/DIM=) FIT=DISTANCE/SQUARED/LOG (=DIS/SQU/LOG=D/S/L=1/2/0) 디폴트는 <DIMENSION=2> 로다차원척도법에서차원의수를정하여준다. 차원수결정을위해서는 <DIMENSION=1 to 4> 와같이 1차원부터 4차원까지의다차원척도법의결과와스트레스 -차원수그림을제공받을수있다. 여기서 n과 m은 1보다커거나같아야하고개체의수보다작아야한다. 디폴트는 <FIT=DISTANCE> 이다. 스트레스공식과관련되어 와 의관계를주는최적변환을지정하는옵션이다. FORMULA=0/1/2 (FOR=OLS/USS/CSS=O/U/C) ALTERNATE =NONE/MATRIX/SUBJECT/ROW<= n> (ALT=N/M/S/R <=n>) 디폴트는 <FORMULA=1> 이다. <FIT=LOG> 는최대우도다차원척도법의옵션으로 <FORMULA=2> 가디폴트이다. 옵션 <FORMULA=0> 은각스트레스공식에서수정척도인자 (SC) 가없는형태를의미한다. 교대최소제곱법형태의결정을위한옵션이다. 172 부록 1: SAS MDS 절차
이옵션들은 1.3.2 절의스트레스공식과관련되어있고비유사성 와단조함수 의입력형태에대한것이다. 특히, 디폴트 <FIT=DISTANCE> 옵션은식 (1.7) 과식 (1.8) 에서비유사성 와단조함수 에의한최적의 을찿기위한크루스칼의스트레 스 1 과 2 인 과 를이용한다. <FIT=SQUARED> 옵션은식 (1.9) 와식 (1.10) 에서 와 에의한최적의 를찾게하는 Young 의 S-스트레스 1과 2인 과 를이용하게한다. 끝으로 <FIT=LOG> 옵션은각주체 에대하여 log 와 log 를이용하게하며이는최대우도다차원척도법과관련된옵션으로 5 장을참고하기바란다. <FORMULA=0/1/2> 옵션들은앞서설명한 <FIT=> 옵션과함께사용되며이를스트레 스의표준화형태에관한옵션이라고한다. 표준화는수정척도인자식 (1.6) 에의해서이루 어지며스트레스공식에서수정척도인자가없다면 <FORMULA=0> 을지정하며특히 <LEVEL=ORDINAL> 옵션과사용할수없다. 식 (1.8) 과식 (1.10) 과같이수정척도인자가 총평균에대해수정되었다면 <FORMULA=2> 옵션을, 수정되지않았다면 <FORMULA=1> 옵션을지정한다. 다시말해서크루스칼의스트레스 1 과 2 인 과 의차이는수정 척도인자가총평균에대하여수정되었는지에따라정해지며 Young 의 S- 스트레스 1 과 2 인 과 의차이도동일하다. <FORMULA=1> 옵션은 <FIT=LOG> 옵션과는사용 될수없다. 참고로 <LEVEL=ORDINAL( 디폴트 ) FIT=DISTANCE FORMULA=1> 옵션은크루스칼의 에해당하며, <LEVEL=ORDINAL( 디폴트 ) FIT=DISTANCE FORMULA=2> 옵션은 에해당한다. <LEVEL=ORDINAL( 디폴트 ) FIT=SQUARED FORMULA=1> 옵션은 Young 의 에해당하며, <LEVEL=ORDINAL( 디폴트 ) FIT=SQUARED FORMULA=2> 옵션은 에해당한다. 그리고 [ 결과 1.1]-[ 결과 1.3] 과같이 PROC MDS 프로그램수 행결과의제일첫머리에어떤스트레스공식을사용하였는지가이들옵션과관련하여제 공된다. 이들에대한활용과관련된스트레스공식은 1.3.2 절을참고바란다. <ALTERNATE=NONE/MATRIX/SUBJECT/ROW<=n>> 옵션은 MDS 모형에서최적화시 킬 를찾을때최소제곱법에의한모형추정단계와자료최적척도화단계를교대로반복 하는 ALSOS 알고리즘을지정한다. 이알고리즘은 SAS 의 ALSCAL 절차에서구현된교대최 소제곱 (ALS, alternating least squares) 방법에의한최적척도화 (OS, optimal scaling) 기 법이다. 이들의수치적연산은메모리를많이요구한다. 이들옵션 (NONE/MATRIX/ROW) 은메모리를덜사용하는순서로되어있다. 일반적으로디폴트로하여도무난하다고생각 부록 1.1 PROC MDS 문의옵션 173
된다. 여기에대한자세한설명은 Young(1987, pp. 199-203) 과허명회 (1994, p. 4) 에잘 나와있다. 부록 1.1.5 출력결과조정 NOPHIST(NOP) 스트레스최소화알고리즘의수치적계산과정이출력되지않는다. PCOEF 추정된가중치에관한차원계수를출력한다. PCONFIG 형상좌표를출력한다. PDATA 자료행렬을출력한다. PFINAL 스트레스최소화알고리즘의수치적계산과정의마지막부적합도를출력한다. 일반적으로 <NOPHIST PFINAL> 옵션을같이사용하는것이바람직하다. PFIT PFINAL 결과와대동소이하다. PFITROW PINAVDATA 행부적합도를출력한다. 이옵션은 4장의삼원다차원척도법과관련된것으로 <CONDITION=ROW> 옵션과함께사용된다. 옵션 <INVA=DATA( 디폴트 )> 에의해서초기화동안에계산되는자료행렬의가중평균과가중합을출력한다. PINEIGVAL 초기형상좌표를제공할행렬의고유값을출력한다. PININ <INITIAL=dataset> 의초기형상좌표. PINIT 초기부적합도와초기형상좌표및변환모수의초깃값. PITER PLOTS<(flip)> =COEFFICIENT (ONE)/NONE> 스트레스최소화알고리즘의수치적계산과정의각반복에서부적합도, 형상좌표및변환모수값을출력한다. (flip) 은다차원척도그림과차원계수그림의차원축을서로바꾸어출력한다. <=COEFFICIENT(ONE)> 은삼원다차원척도법에서차원계수그림을하나로합친형태로출력한다. <=NONE> 모든그림을출력하지않는다. PTRANS 변환모수를출력한다. 다음의결과는 [ 부록 1.1.5] 출력결과조정옵션중에서삼원다차원척도법의출력결과를조정하는옵션 <PLOTS=COEFFICIENTS(ONE)> 에대한활용의예이다. [ 프로그램 4.2] 의 [ 결과 4.2] 에서차원별각주체에대한차원계수에대한그림으로이옵션을 PROC MDS 문에 (a) 사용하지않은경우 (b) 사용한경우이다. 그차이점은 (b) 의경우 (a) 의두그림을결합한형태이다. 174 부록 1: SAS MDS 절차
(a) 사용하지않은경우 (b) 사용한경우 부록 1.1.6 수렴문제조정 CONVERGE=p (CONV=) GCONVERGE=p (GCONV=) MCONVERGE=p (MCONV=) 스트레스최적화알고리즘의단조 (monotone) 와기울기 (gradient) 두종류의수렴조건을지정한다. 이고디폴트는 p=0.01 이다. 0.0001 보다작으면수렴이만족되지않는다. 기울기수렴조건만지정한다. 단조수렴조건만지정한다. MAXITER=n n( 0) 은최대반복수를나타낸다. 디폴트는 n=100 이다. MINCRIT=n (CRITMIN=) OVER=n RIDGE=n 부적합도기준이 n( 0) 이하이면스트레스최소화알고리즘의수치적계산이멈춘다. 디폴트는 n=1e-6(=10-6 ) 이다. n 1일경우최대과이완인자 (maximum overrelation factor) 를지정하며수렴되지않을때사용한다. 일반적으로 n이 1과 2사이에존재하고디폴트 n=2는 <LEVEL=ORDINAL ALTERNATE=MATRIX 또는 ALTERNATE=ROW> 일때이다. 그외에디폴트는 n=1 이다. 수치적연산에서부동소수점오버플로우 (floating point overflow) 를방지하기위한초기능형 (ridge) 값 n( 0) 을지정한다. 만약에이런현상이일어났다면 n=0.01, 1 또는 100처럼크게지정한다. 디폴트는 n=1e-4. 좋은초기추정값이있다면 n=0 이수렴을빠르게한다. 스트레스최소화알고리즘을위한수렴방법으로특히반복계산의수렴문제에대해서는 부록 1.1 PROC MDS 문의옵션 175
Kennedy 와 Gentle(1980, Chapter 10) 을참고하기를바란다. 컴퓨터내부에서정수는고정소수점 (fixed point) 으로실수는부동소수점 (floating point) 으로표현된다. 수치적연산중최대정수보다더큰정수가일어나는현상을오버플로우 (overflow) 라고하며이때는컴퓨터가실행을중지한다 (Conte 와 de Boor, 1980, pp. 7-11). 이경우에 <OVER=n> 옵션을사용하여 1과 2 사이에존재하는 n을지정하면된다. 부록 1.1.7 결측치조정 CUTOFF=n 디폴트는 CUTOFF=0 이다. n 보다작은자료는결측치로처리하라. INAV=DATA/SSCP NOULB (=D/S) 초기좌표계산에서결측치를추정하여형상좌표를제공하는행렬을계산한다. 이경우 <=DATA> 는자료행렬의가중평균을계산하고 <=SSCP> 는가중평균이없는형상좌표를제공하는행렬로만들라는의미이다. 디폴트는 <=DATA> 이다. 디폴트이면결측치는 Rabinowitz 상하한보간법에의해서추정된다. 이옵션은이를방지한다. 부록 1.1.8 기타선택 DECIMALS=n (DEC=) EPSILON=n (EPS=) NEGATIVE 소수점이하의자리수를지정하며디폴트는 n=2 이다. n(0<n<1) 은 MDS 모형에서제곱거리에더해진양으로 0으로나누는수치적문제를제거하는옵션이다. 디폴트는 n=1e-12(10-12 ) 이다. 비율척도, 구간척도모형의기울기와로그구간모형의멱승이음수가됨을허용한다. 로그구간모형은 5장의최대우도다차원척도법을참고바란다. NONORM 초기와마지막추정치의정규화를억제한다. RANDOM 초기좌표값을균일분포 (uniformly distribution) 로부터랜덤하게주어지게한다. SINGULAR=p 0(zero) 로간주되는값 p(0 p 1) 를제시한다. 디폴트는 p=1e-8 이다. UNTIE 순서척도모형 (LEVEL=ORDINAL( 디폴트 )) 에서등위자료라도다르게척도하라는 옵션이다. 지금까지 PROC MDS 문에관련된다양한종류의옵션을기능별로살펴보았다. 독자들 은이들옵션중에서대개 [ 부록 1.1.1] 의측정수준지정, [ 부록 1.1.2] 에서자료의형태, 176 부록 1: SAS MDS 절차
[ 부록 1.1.3] 에서자료세트의지정 ( 특히 OUT= 과 OUTRES=)], [ 부록 1.1.4] 스트레스및최적척도화에관련된것만잘활용해도 PROC MDS 가제공하는다양한다차원척도법의결과를얻을수있을것이다. 특히, 허명회 (1994, 부록 3) 의 <PROC MDS 의용법 > 은이절의문법정리에주된역할을하였다. 부록 1.2 ODS GRAPHICS SAS Institute Inc.(2008) 의 9.2판이후에 ODS(Output Delivery System) 를활용한 Statistical Graphics 가 PROC MDS/CORRESP/PRIN COMP/REG 등통계적분석에서필요로하는그림을자동으로제공하고있다. 이절에서는다차원척도법과관련된 ODS GRAPHICS 문에대하여활용의관점에서간단히설명하고자한다. 먼저 ODS GRAPHICS 문은 <ODS GRAPHICS ON;> 을 PROC MDS 문이전에먼저실행시켜다차원척도법과관련된그림 ( 다차원척도그림, 스트레스 -차원수그림, 상그림, 세퍼드그림등 ) 을자동으로얻게한다. 9.2판이전에는 PROC MDS 문의 [ 부록 1.1.3] 자료세트의지정 ( 특히 <OUT= 과 OUTRES=>] 옵션을통해얻어지는결과를저장한자료를이용하여 PROC PLOT 에의해그림을얻었다. 먼저다차원척도법을위한 ODS GRAPHICS 문의내용을알기위해서는 [ 프로그램 1] 의템플릿 (template) 절차를실행하면 SAS 의로그화면에그내용을보여준다. [ 결과 1] 이로그화면에서템플릿내용만복사한것으로이를프로그램편집창에가져와서그림의제목이나변화를주고싶은것을편집하거나수정하면된다. [ 프로그램 2] 가원하는형태의다차원척도그림을위해수정된 PROC TEMPLATE 절차이다. 즉, [ 결과 1] 에서정사각형의그림을위해서 <equatetype=fit> 을 <equatetype=square> 로수정하고, 원점을지나는참고선을넣기위해서 <referenceline x=0;> 과 <referenceline y=0;> 을추가하여 <proc template;> 를제일상단에추가한후 SAS 프로그램실행하듯이하면된다. [ 프로그램 1] PROC MDS 를위한템플릿 (template) 절차 proc template; source stat.mds.graphics.configuration; 부록 1.2 ODS GRAPHICS 177
[ 결과 1] PROC MDS 를위한템플릿 (template) 의내용 define statgraph Stat.MDS.Graphics.Configuration; notes "MDS Configuration Plot"; dynamic xvar yvar Legend head; begingraph; layout overlayequated / equatetype=fit xaxisopts=(offsetmin=0.1 offsetmax=0.1) yaxisopts=(offsetmin=0.1 offsetmax=0.1); scatterplot y=yvar x=xvar / datalabel=label; endlayout; endgraph; end; [ 프로그램 2] 수정된 PROC TEMPLATE 절차 proc template; define statgraph Stat.MDS.Graphics.Configuration; notes "MDS Configuration Plot"; dynamic xvar yvar Legend head; begingraph; layout overlayequated / equatetype=square xaxisopts=(offsetmin=0.1 offsetmax=0.1) yaxisopts=(offsetmin=0.1 offsetmax=0.1); referenceline x=0; referenceline y=0; scatterplot y=yvar x=xvar / datalabel=label; endlayout; endgraph; end; 부록 1.3 PROC ALSCAL 과 PROC MDS SAS Institute Inc.(1992, pp. 272-274) 는범용 PROC ALSCAL 과 PC- 윈도우용 PROC MDS 를잘비교하고있다. 이를간단히요약하기로하자. PROC MDS 의옵션으로 <fit=2 formular=1 pfinal> 을사용하면 PROC ALSCAL 의결과와대동소이함을제공하며이는 4장의삼원다차원척도법에서활용되고있다. 이외에는두절차의결과는때론다를수도있다. PROC ALSCAL 은다차원척도법에관련된그림을제공하지만 PROC MDS 는 9.2판이전에는수행결과를저장하여 PROC PLOT 이나 PROC GPLOT 을이용하였으나 9.2 판이후에는 [ 부록 1.2] ODS GRAPHICS 를활용하면된다. < 표 3> 은 PROC ALSCAL 의옵션들중 PROC MDS 가채택하고있는것을비교하고있다. PROC MDS 의옵션에대해서는이미 [ 부록 1.1] 에서자세히설명하고있다. 특히, PROC ALSCAL 의옵션 NEGATIVE ( 예 ) 는 PROC MDS 에의해서채택은되었으나옵션의원래의미와는다름을나타낸다. 178 부록 1: SAS MDS 절차
< 표 3> PROC ALSCAL 과 PROC MDS 옵션의비교 PROC ALSCAL 옵션 PROC MDS 채택여부 PROC MDS 옵션과명령어 CONDITION= CONVERGE= 예수렴척도는비교가안됨 CUTOFF= DATA= DEGREE= DIMENS= DIRECTIONS= 예 예 예 아니오 예 아니오 HEADER 예 PROC MDS 에서디폴트 IN= ITER= 예 MAXITER= 예 LEVEL= 예 LEVEL=NOMINAL 은지원이안됨 MAXDIM=m 예 DIMENSION=n TO m MINDIM=n 예 DIMENSION=n TO m MINSTRESS= 예 MINCRIT= MODEL=EUCLID MODEL=INDSCAL MODEL=GEMSCAL MODEL=ASYMSCAL MODEL=ASYMINDS 예예아니오아니오아니오 NEGATIVE ( 예 ) NOULB 예 COEF=IDENTITY COEF=DIAGONAL 이옵션은기울기나멱승에음수를허용함. OUT= 예저장되는내용에차이가있음 PLOT PLOTALL PRINT 아니오 아니오 아니오 READV, etc. 아니오자료세트옵션 WHERE 을사용함 READFIXV, etc. ROWS= SHAPE=SYMMETRI SHAPE=ASYMMETR SHAPE=RECTANGU SIMILAR 아니오 아니오 예예아니오 TIESTORE= 예무시됨 UNTIE 예 예 SHAPE=TRIANGLE SHAPE=SQUARE 결측치가있다면 SHAPE=TRIANGLE 을사용함 부록 1.3 PROC ALSCAL 과 PRO 179
부록 1.4 PROC MLSCALE 과 PROC MDS 최대우도다차원척도법에관한 5.1절의끝부분에서 PROC MLSCALE 과 PROC MDS 의추정방법에있어서차이점이있음을언급해두고있다. 여기서는 PC- 윈도우용 PROC MDS 가범용 PROC MLSCALE 의어떤옵션을채택하고있는지를 < 표 4> 에간단히요약하려한다. 이는 SAS Institute Inc.(1992, pp. 274-275) 에서발췌한것이다. 특별히다음의 PROC MLSCALE 과 PROC MDS 는대개유사한결과를제공한다. MDS 과정 : proc mds fit=log level=loginterval ; MLSCALE 과정 : proc mlscale stvarnce=constant suvarnce=constant ; < 표 4> PROC MLSCALE 과 PROC MDS 의옵션의관계 PROC MLSCALE 옵션 PROC MDS 채택여부 PROC MDS 옵션과명령어 SQUARE 예 SHAPE=SQUARE INPUT=MATRIX 아니오디폴트 INPUT=VECTOR STLABEL= STLBDS SULABEL= SULBDS CONFIG CONFDS= NEQU= CONSDS METVAL METVDS SEWGTS SEWGDS= SPLVAL SLPVDS= DIMENS= METRIC=IDENTITY METRIC=DIAGONAL METRIC=FULL 아니오 아니오아니오 아니오아니오 아니오아니오 아니오아니오 아니오아니오 아니오아니오 아니오아니오 예 예예아니오 ID statement MATRIX statement IN=data set IN= COEF=IDENTITY COEF=DIAGONAL 180 부록 1: SAS MDS 절차
< 표 4( 계속 )> PROC MLSCALE 과 PROC MDS 의옵션의관계 PROC MLSCALE 옵션 PROC MDS 채택여부 PROC MDS 옵션과명령어 TRANSFRM=SCALE TRANSFRM=POWER TRANSFRM=SPLINE STVARNCE= SUVARNCE= 예예아니오 아니오 아니오 LEVEL=RATIO LEVEL=LOGINTERVAL NORMAL 아니오디폴트 (FIT=DISTANCE) ITMAX= 예 MAXITER= ITXMAX= ITWMAX= ITAMAX= ITPMAX= 아니오 아니오 아니오 아니오 CONV= ( 예 ) 의미가다름 ( 수렴의조건을지정 ) FACTOR= 아니오 HISTORY 아니오 PITER ASYMP 아니오 OUTCON 아니오 OUT= OUTDIS 아니오 OUTMET 아니오 OUT= OUTSPL 아니오 OUTRES ( 예 ) OUTRES=dataset 부록 1.4 PROC MISCALE 과 PROC MDS 181
부록 2 자료 자료 1: 신체부위 ( 파일이름 : body.txt). 자료 2: 레크레이션 ( 파일이름 : recreation.txt). 자료 3: 로이드은행 ( 파일이름 : Lloyds05.sd2, Lloyds05.xlsx). 자료 4: 로이드은행 ( 파일이름 : Lloyds25.sd2, Lloyds25.xlsx). 자료 5: 켈로그 ( 파일이름 : kellogg.txt). 자료 6: 색채환 ( 파일이름 : color.txt). 자료 7: 공익회사 ( 파일이름 : utility.txt). 자료 8: 관심영역 ( 파일이름 : field.txt). 자료 9: 국가 ( 파일이름 : nation.txt). 자료 10: 모스부호 ( 파일이름 : morse.txt). 자료 11: 두개골 ( 파일이름 : skull.txt). 자료 12: 유럽 10 대도시 ( 파일이름 : eurodist.txt). 자료 13: 자동차선호도평가 ( 파일이름 : cartype.txt). 183
자료 1: 신체부위 ( 파일이름 : body.txt). 30 명 ( 아동 15 명, 성인 ( 대학생 ) 15 명 ) 과 15 군데신체부위. cheek, face, mouth, hand, ear, body, arm, elbow, hand, palm, finger, leg, knee, foot, toe. 184 부록 2: 자료
자료 1 185
186 부록 2: 자료
자료 2: 레크레이션 ( 파일이름 : recreation.txt). 10 명의 15 가지레크리에이션평가. concert, museum, theatre, movie, watch TV, conference, reading, watch hockey, ballet, political debate, fashion show, documentary film, exhibition, window shopping, restaurant. 자료 2 187
188 부록 2: 자료
자료 3: 로이드은행 ( 파일이름 : Lloyds05.sd2, Lloyds05.xlsx). 1905 년 ~1909 년근무한 80 명은행원 : 515-4514. 자료 4: 로이드은행 ( 파일이름 : Lloyds25.sd2, Lloyds25.xlsx). 1925 년 ~1929 년근무한 80 명은행원 : 505-4570. 자료 4 189
자료 5: 켈로그 ( 파일이름 : kellogg.txt). 23 종류의시리얼과 10 개의측정변수. : 칼로리, : 단백질 (g), : 지방 (g), : 나트륨 (mg), : 다이어트식이섬유 (g), : 복합 탄수화물 (g), : 당분 (g), : 칼륨 (mg), : 비타민과무기물 ( 하루권장량 (%) : 0, 25, 100), : 유형 ( 온또는냉 ). 190 부록 2: 자료
자료 6: 색채환 ( 파일이름 : color.txt). 31 명의파장길이에따른 14 가지색인지. 434= 남색, 445= 청색, 472= 청록색, 504= 녹색, 555= 황녹색, 600= 노랑색, 628= 귤색, 651= 주황색, 674= 적색. 자료 6 191
자료 7: 공익회사 ( 파일이름 : utility.txt). 22 개의공익회사와 8 개평가변수. : 고정요금보상율, : 자금수익률, : KW 당비용, : 연부하율, : 1974 ~ 1975 년사이절정의 kwh 수요성장, : 판매량, : 핵비율, : 총연료비용. 1.06 0.89 1.43 1.02 1.49 1.32 1.22 1.10 1.34 1.12 0.75 1.13 1.15 1.09 0.96 1.16 0.76 1.05 1.16 1.20 1.04 1.07 9.2 10.3 15.4 11.2 8.8 13.5 12.2 9.2 13.0 12.4 7.5 10.9 12.7 12.0 7.6 9.9 6.4 12.6 11.7 11.8 8.6 9.3 151 202 113 168 192 111 175 245 168 197 173 178 199 96 164 252 136 150 104 148 204 174 54.4 57.9 53.0 56.0 51.2 60.0 67.6 57.0 60.4 53.0 51.5 62.0 53.7 49.8 62.2 56.0 61.9 56.7 54.0 59.9 61.0 54.3 1.6 2.2 3.4 0.3 1.0-2.2 2.2 3.3 7.2 2.7 6.5 3.7 6.4 1.4-0.1 9.2 9.0 2.7-2.1 3.5 3.5 5.9 9077 5088 9212 6423 3300 11127 7642 13082 8406 6455 17441 6154 7179 9673 6468 15991 5714 10140 13507 7287 6650 10093 0 25.3 0 34.3 15.6 22.5 0 0 0 39.2 0 0 50.2 0 0.9 0 8.3 0 0 41.1 0 26.6 0.628 1.555 1.058 0.700 2.044 1.241 1.652 0.309 0.862 0.623 0.768 1.897 0.527 0.588 1.400 0.620 1.920 1.108 0.636 0.702 2.116 1.306 192 부록 2: 자료
자료 8: 관심영역 ( 파일이름 : field.txt). 4 개의여성그룹과 8 가지관심영역. 건강, 과학, 기술, 상업, 사무, 중개, 사회, 예술. 자료 9: 국가 ( 파일이름 : nation.txt). 2 명의학생 ( 하삼각행렬과상삼각행렬 ) 과 12 개국가. 자료 9 193
자료 10: 모스부호 ( 파일이름 : morse.txt). 598 명의아라비아숫자에대한모스부호의인식 자료 11: 두개골 ( 파일이름 : skull.txt). 40 명 (22 명의남자 (M), 18 명의여자 (F)) 두개골과 12 개측정변수. 1) Greatest length, L 2) breadth, B 3) Height, H 4) auricular height, OH 5) Circumference above the superciliary ridger, U 6) Sagittal circumference, S 7) cross-circumference, Q 8) Upper face height, FH 9) Nasal breadth, NB 10) Nasal height, NH 11) cephalic index, B/L 12) Ratio of height to length, H/L 194 부록 2: 자료
195
자료 12: 유럽 10 대도시 ( 파일이름 : eurodist.txt). 유럽 10 대도시간의거리 London Stockholm Lisboa Madrid Paris Amsterdam Berlin Prague Rome Dublin 0 569 667 530 141 140 357 396 569 190 569 0 1212 1043 617 446 325 423 787 648 667 1212 0 201 596 768 923 882 714 714 530 1043 201 0 431 608 740 690 516 622 141 617 596 431 0 177 340 337 436 320 140 446 768 608 177 0 218 272 519 302 357 325 923 740 340 218 0 114 472 514 396 423 882 690 337 272 114 0 364 573 569 787 714 516 436 519 472 364 0 755 190 648 714 622 320 302 514 573 755 0 자료 13: 자동차선호도평가 ( 파일이름 : cartype.txt). 40 명의 24 대자동차 ( 모델 ) 선호도평가 [1( 매우좋다 )-6( 매우나쁘다 )] 의평균점수와 8 개의 평가변수. : 경제성, : 서비스, : 비감가상각, : 가격 ( 매우저렴한차는 1 점 ), : 디자인, : 스 포티카 : 안전성, : 다루기쉬움. Audi 100 3.9 2.8 2.2 4.2 3.0 3.1 2.4 2.8 BMW 5 series 4.8 1.6 1.9 5.0 2.0 2.5 1.6 2.8 Citroen AX 3.0 3.8 3.8 2.7 4.0 4.4 4.0 2.6 Ferrai 5.3 2.9 2.2 5.9 1.7 1.1 3.3 4.3 Fiat Uno 2.1 3.9 4.0 2.6 4.5 4.4 4.4 2.2 Ford Fiesta 2.3 3.1 3.4 2.6 32 3.3 3.6 2.8 Hyundai 2.5 3.4 3.2 2.2 3.3 3.3 3.3 2.4 Jaguar 4.6 2.4 1.6 5.5 1.3 1.6 2.8 3.6 Lada Samara 3.2 3.9 4.3 2.0 4.3 4.5 4.7 2.9 Mazda 323 2.6 3.3 3.7 2.8 3.7 3.0 3.7 3.1 Merceedes 200 4.1 1.7 1.8 4.6 2.4 3.2 1.4 2.4 Mitsubishi Galant 3.2 2.9 3.2 3.5 3.1 3.1 2.9 2.6 Nisan Sunny 2.6 3.3 3.9 2.1 3.5 3.9 3.8 2.4 Opel Corsa 2.2 2.4 3.0 2.6 3.2 4.0 2.9 2.4 Opel Vectra 3.1 2.6 2.3 3.6 2.8 2.9 2.4 2.4 Peugeot 306 2.9 3.5 3.6 2.8 3.2 3.8 3.2 2.6 Renault 19 2.7 3.3 3.4 3.0 3.1 3.4 3.0 2.7 Rover 3.9 2.8 2.6 4.0 2.6 3.0 3.2 3.0 Toyota Corolla 2.5 2.9 3.4 3.0 3.2 3.1 3.2 2.8 Trabant 601 3.6 4.7 5.5 1.5 4.1 5.8 5.9 3.1 VW Golf 3.8 2.3 1.9 4.2 3.1 3.6 1.6 2.4 VW Passat 3.1 2.2 2.1 3.2 3.5 3.5 2.8 1.2 Wartburg 1.3 3.7 4.7 5.5 1.7 4.8 5.2 5.5 4.0 196 부록 2: 자료
부록 3 프로그램 프로그램파일 (MDS2013.exe: 압축파일 ) 은아래의홈페이지를방문하시어 Programs in my published books 메뉴에서받아가시기바랍니다. home.pusan.ac.kr/~yschoi [ 프로그램압축풀기 ] 압축파일 MDS2013.exe 을더블클릭하면자동으로 MDS2013 폴더아래프로그램 (PGM1-1 ~ PGM7-1, PGM1, PGM2) 이 PGM 폴더에생성되고, [ 부록 2 : 자료 ] 의자료파일 13개가 Data 폴더에생성된다. [ 프로그램목록 ] 1 장. 다차원척도법의이해 PGM1-1 [ 프로그램 1.1] 도시간철도거리의계량형다차원척도법 [ 프로그램 1.2] 경제관련기관의경제전망에관한비계량형다차원척 PGM1-2 PGM1-3 도법 (a) 원자료의유클리드거리 (b) 이진수자료의제곱유클리드거리 [ 프로그램 1.3] 12개국가의유사성행렬자료에대한비계량형다차원척도법 197
2 장. 비유사성과유사성 PGM2-1 PGM2-2 PGM2-3 [ 프로그램 2.1] 원자료로부터다차원척도법을위한 SAS/IML과 MDS [ 프로그램 2.2] 이진수자료로부터다차원척도법을위한프로그램 [ 프로그램 2.3] 모스부호의비대칭유사성자룡의계량형다차원척도법을위한프로그램 3 장. 이원다차원척도법 PGM3-1 PGM3-2 PGM3-3 PGM3-4 [ 프로그램 3.1] [ 알고리즘 2] 를위한 SAS/IML과 PROC GPLOT 프로그램 [ 프로그램 3.2] [ 알고리즘 2] 의비계량형다차원척도법을위한프로그램 [ 프로그램 3.3] 모스부호의유사성자료의계량형과비계량형다차원척도법을위한프로그램 [ 프로그램 3.4] 모스부호의비유사성자료의계량형과비계량형다차원척도법을위한 R-프로그램 4 장. 삼원다차원척도법 PGM4-1 [ 프로그램 4.1] 삼원다차원척도법의대수적기하적이해를위한예 PGM4-2 [ 프로그램 4.2] 15 군데신체부위자료에대한삼원다차원척도법 5 장. 최대우도다차원척도법 PGM5-1 [ 프로그램 5.1] 레크레이션자료에대한최대우도다차원척도법 PGM5-2 [ 프로그램 5.2] 레크레이션자료에대한삼원다차원척도법 198 부록 3: 프로그램
6 장. 베이즈다차원척도법 PGM6-1 PGM6-2 [ 프로그램 6.1] < 표 6.1> 유럽 10대도시간거리에대한베이즈계량형다차원척도법을위한 R-프로그램 [ 프로그램 6.2] < 표 6.1> 유럽 10대도시간거리에대한계량형다차원척도법을위한 R-프로그램 7 장. 비선형다차원척도법 PGM7-1 [ 프로그램 7.1] 모스부호의비유사성자료의비선형계량형다차원척도법을 위한 R- 프로그램 부록 1: SAS MDS 절차 PGM1 PGM2 [ 프로그램 1] PROC MDS 를위한템플릿 (template) 절차 [ 프로그램 2] 수정된 PROC TEMPLATE 절차 프로그램 199
참고문헌 이재창, 박정섭 (1986). 다차원축척 (multidimensional scaling) 기법, < 應用統計 ( 고려대학교통계연구소 )>, 1권 1호, 61-79 장광국 (1990). 최소차원분석 (MDA) 에의한자료분석및다차원축척 (MDS) 와의결과비교. < 고려대학교통계학과석사학위논문 >. 정광모, 최용석 (2009). < 범주형자료분석 -SAS 의응용및해석->, 제2판, 자유아카데미, 서울 최병진 (1989). 기업의이미지유사성과소비자선택에관한연구, 통계상담사례집제1 호, 고려대학교대학원통계학과. 최용석 (1995). <SAS 다차원척도법 >, 자유아카데미, 서울. 최용석 (2001). <SAS 대응분석의이해와응용 >, 자유아카데미, 서울. 최용석, 신상민 (2013). <R을활용한행렬도분석의이해 >, 자유아카데미, 서울. 최용석, 정광모 (2003). <SAS 를활용한다변량분석기법과응용 >, 자유아카데미, 서울. 허명회 (1992). < 수량화방법론의이해 >, 자유아카데미, 서울. 허명회 (1994). <SAS 최적척도법 : 사례분석을중심으로 >, 자유아카데미, 서울. Attneave, F. (1950). Dimensions of similarity. American Journal of Psychology, 63, 516-556. Borg, I and Groenen, P.J.F. (2005). Modern Multidimensional Scaling: Theory and Applications, Springer, New York. Boyle, G.J. and Katz, I. (1991). Multidimensional scaling of the eight state questionnaire and the differential emotions scale, Personality and Individual Differences 12(6), 565-574. Bronstein, A.M., Bronstein, M.M. and Kimmel, R. (2006). Generalized multidimensional scaling: A frame work for isometry-invariant partial surface matching, Proceedings of the National Academy of Sciences, 1168-1172. 200 참고문헌
Carroll, J.D. and Chang, J.J. (1970). Analysis of individual differences in multidimensional scaling via an N-way generalization of "Ekart-Young" decomposition, Psychometrika, 35, 283-319. Catell, R. B.(1966). The scree test for the number of factors. Journal of Multivariate Behavior Research, 1, 245-276. Chatfield, C. and Collins, A.J. (1980). Introduction to Multivariate Analysis, Chapman and Hall, London. Choi, Y.S., Jolliffe, I.T. and Lee, J.R. (1998). Robust weighted nonmetric scaling, The Journal of Data Science and Classification, 2, 33-47. Conte, S.D. and de Boor, C. (1980). Elementary Numerical Analysis, McGraw-Hill, New York. Cox, T.F. and Cox, M.A.A. (2001). Multidimensional Scaling, Chapmann and Hall, London. Davison, M.L. (1992). Multidimensional Scaling, Krieger, Malabar, Florida. Dryden, I.L. and Mardia, K.V. (1998). Statistical Shape Analysis. John Wiley & Sons, Chichester. du Toit, S.H.C., Steyn, A.G.W. and Stumpf, R.H. (1986). Graphical Exploratory Data Analysis, Springer-Verlag, New york. Dzwinel, W. (1994). How to make Sammon's mapping useful for multidimensional data structure analysis, Pattern Recognition, 27, 949-959. Everitt, B.S. and Dunn, G. (1991). Applied Multivariate Data Analysis, Edward Arnold, London. Forero, P.A. and Giannakis, G.B. (2012). Sparsity-exploiting robust multidimensional scaling, IEEE Transactions On Signal Processing, 60(8), 4118-4134. Gower, J.C. (1966). Some distance properties of latent root and vector methods used in multivariate analysis, Biometrika, 53, 325-338. Green, P.E. (1975). Marketing Applications of MDS: Assessment and Outlook, Journal of Marketing, 39(1), 24-31. Guttman, L. (1968). A general nonmetric technique for finding the smallest coordinate space for a configuration of points, Psychometrika, 33, 469-506. 참고문헌 201
Hordle, W. and Simir, L. (2007). Applied Multivariate Statistical Analysis, Springer, Berlin. Hastings, W.K. (1970). Monte Carlo sampling methods using Markov chains and their applications, Biometrika, 57, 97-109. Horan, C.B. (1969). Multidimensional scaling: Combining observations when individuals have different perceptual structures. Psychometrika, 34, 139-165. Izenman A.J. (2008). Modern Multivariate Statistical Techniques, Springer, New York. Jacobowitz, D. (1975). The Acquisition of Semantic Structure, Doctorial dissertation, University of North Carolina at Chapel Hill. Jobson, J.D. (1992). Applied Multivariate Data Analysis, Springer-Verlag, New York. Johnson, R.A. and Wichern, D.W. (2002). Applied Multivariate Statistical Analysis, Prentice-Hall, New Jersey. Kennedy, W.J. and Gentle, J.E. (1980). Statistical Computing, Marcel Dekker Inc., New York. Kruskal, J.B. (1964). Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis, Psychometrika, 29, 1-28. Kruskal, J.B. and Wish, M. (1978). Multidimensional Scaling, Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-011, Sage Publications, Beverly Hills and London. Lawless, H.T., Sheng, N. and Knoops, S.S.C. (1995). Multidimensional scaling of sorting data applied to cheese perception, Food Quality and Preference, 6, 91-98. Mardia, K.V., Kent, J.T. and Bibby, J.M. (1979). Multivariate Analysis, Academic Press, New york. Messick, S. J. and Abelson, R. P. (1956). The additive constant problem in Multidimensional scaling. Psychometrika, 21, 1-15. Oh, M.S. and Raftery, A.E. (2001). Bayesian multidimensional scaling and choice of dimension, Journal of the American Statistical Association, 96(455), 1031-1044. Okada, K. (2012). A Bayesian approach to asymmetric multidimensional scaling. 202 참고문헌
Behaviormetrika, 39, 1-14. Okada, K. and Mayekawa, S. (2011). Bayesian nonmetric successive categories multidimensional scaling. Behaviormetrika, 38, 17-31. Okada, K. and Shigemasu, K. (2009). BMDS: A collection of R functions for Bayesian Multidimensional Scaling. Applied Psychological Measurement, 33, 570-571. Okada, K. and Shigemasu, K. (2010). Bayesian multidimensional scaling for the estimation of a Minkowski exponent, Behavior Research Methods, 42, 899-905. Ramsay, J.O. (1977). Maximum likelihood estimation in multidimensional scaling, Psychometrika, 42, 241-266. Ramsay, J.O. (1980). Some small sample results for maximum likelihood estimation in multidimensional scaling, Psychometrika, 45, 139-144. Ramsay, J.O. (1982). Some statistical approaches to multidimensional scaling data, Journal of Royal Statistical Society, A(145), 285-312. Ramsay, J. O.(1983). Multiscale Manual, Scientific Software, Chicago. Rider, D. de and Duin, R.P.W. (1997). Sammon s mapping using neural networks: A comparison, Pattern Recognition Letters, 18, 1307 1316. Sammon, J.W. (1969). A nonlinear mapping for data structure analysis, IEEE Transactions on Computers, C-18, 401-409. SAS Institute Inc. (1985). SAS Language Guide for Personal Computers, Version 6, Cary, NC: SAS Institute Inc. SAS Institute Inc. (1992). SAS Technical Report p-229 SAS/STAT Software; Changes and Enhancements, Release 6.07. Cary, NC: SAS Institute Inc. SAS Institute Inc. (2004). SAS/IML 9.1 User's Guide, SAS Institute Inc., Cary, NC: SAS Institute Inc. SAS Institute Inc. (2008). SAS/STAT 9.2 User's Guide, SAS Institute Inc., Cary, NC: SAS Institute Inc. Schiffman, S.S., Reynolds, M.L. and Young, F.W. (1981). Introduction To Multidimensional scaling, Academic, New York. Seber, G.AF.(1984). Multivariate Observations, John Wiley & Sons, Inc., New York. Shepard, R.N. (1962). The analysis of proximities; Multidimensional scaling with 참고문헌 203
an unknown distance function. Ⅰ and Ⅱ, Psychometrika, 27, 125-140, 219-246. SPSS Inc.(1992) SPSS for Windows: Professional Statistics, Release 5, 173. Stovel, K., Savage, M. and Bearman P. (1996). Ascription into achievement: Models of career systems at Lloyds Bank, 1890-1970, American Journal of Sociology, 102(2), 358-399. Takane, Y., Young, F.W. and de Leeuw, J. (1977). Nonmetric individual differences multidimensional scaling: An alternating least squares method with optimal scaling features, Psychometrika, 42, 7-67. Torgerson, W. S. (1952). Multidimensional scaling:Ⅰ. Theory and Method. Psychometrika, 17, 401-419. Torgerson, W. S.(1958). Theory and Methods of Scaling. Wiley, New York. Torgerson, W. S. and Meuser, G. (1962). Informal notes on Torgerson and Meuser's IBM 7090 program for multidimensional scaling. Mimeographed report, Johns Hopkins University, Baltimore, MD. Tucker, L.R. and Messick, S. (1963). An individual differences model for multidimensional scaling, Psychometrika, 28, 333-367. Young, F.W. (1987). Multidimensional Scaling: History, Theory, and Applications (edited by Hamer, R.M.), NJ: Lawrence Erlbaum Associates, Hillsdale. Young, F.W. and Lewyckyj, R. (1979). ALSCAL-4 User's Guide, 2nd edition, Data Analysis and Theory Associates. Young, G. and Householder, A.S. (1938). Discussion of a set of points in terms of their mutual distances, Psychometrika, 3, 19-22. 204 참고문헌
찾아보기 가우스 -뉴튼법 24, 28 가중다차원척도법 3, 102 가중유클리드거리 44, 102, 120, 116 가중치 19, 149, 170 가중치행렬 102, 120, 131 결합사후밀도함수 140, 141, 150 개인지각공간 103, 104, 120, 130 개체형상좌표 105 결측치 168, 176, 179 계량형다차원척도법 2, 18 계량형해 68 고전적척도법 2 곱적률상관계수 50, 52, 63, 64 공간근사 21, 138, 150, 158, 164 교대최소제곱법 131, 172 근접성 40 등분산 122, 124 라그랑지승수 123 러셀- 라오계수 48, 63, 64, 91 로그우도함수 122, 123 로그- 정규분포 119, 121, 131 마할라노비스거리 42, 94, 97, 166 맨하턴거리 41 몬테칼로방법 138 멱승변환 129 메트로폴리스 -해스팅스 138, 142 민코브스키거리 41 다차원척도그림 1, 2 다차원척도법 1, 2, 15 단순매칭계수 8, 29 단조 21, 74, 101, 172 단조함수 21, 24, 101, 121, 173 도식도 101, 102 독립성검정 52 대각계량형모형 123 반대칭행렬 57, 58, 59, 65 벌점 145 범주형자료 42, 43, 52 범주형자료분석 52 불편추정치 123 베이즈다차원척도법 3, 19 베이즈추정치 123 비관측 139 비계량형다차원척도법 2, 18 찾아보기 205