13. 다차원척도법 (MultiDimensional Scaling) 13.1 개념및목적 다차원척도법 (mds) 는다차원관측값또는개체들간의거리 (distance) 또는비유사성 (dissimilarity) 을이용하여개체들을원래의차원보다낮은차원 ( 보통 2차원 ) 의공간상에위치시켜 (spatial configuration) 개체들사이의구조또는관계를쉽게파악하고자하는데목적이있다. 즉, 차원의축소를통해개체들의상대적위치등을통해개체들사이의관계를쉽게파악하고자하는데목적이있다고할수있으며, 공간적배열에대한주관적인해석에중점을두고있다. 차원의축소를위해개체들사이의근접도 (proximity) 를나타내는측도로서거리또는비유사성을이용하며오차 (error) 또는잡음 (noise) 이포함되기도한다. 차원축소시 ( ) 가능하면축소된후의개체들사이의근접도에의한개체들사이의순위 (ordering) 가축소전의근접도에의한개체들사이의순위와거의일치하도록하는것이바람직하며이를위해근접정도를나타내는측도로 를이용한다. 심리학 : 청각반응 (speech and musical tones) 및시각반응 (colors and faces) 등을이용하여지각과평가를이해하는데이용사회학 : 상대방을어떻게인식하는지와상호작용의양식을이용하여그룹과조직간의구조를이해인류학 : 종교, 언어문화유산등을이용하여서로다른문화를비교마케팅 : 제품과이에대한고객들의반응을규명 nonmetric mds( 비계량형다차원척도법 ) 개체들사이의거리또는비유사성을나타내는데절대적인크기는무시하고판단 (judgement) 에의한순위에관한정보만을이용하여근접도로이용 개의개체를 개의순위에관한정보를이용하여표현가능 metric mds( 계량형다차원척도법 ) 개체들사이의실제거리또는비유사성을근접도로이용 principal coordinate analysis 라고도부름. 13.2 다차원척도법의이론 (1) 차원상에서의배열또는배치 (configuration)
: -차원상의관측값, : 관측값 와 사이의거리 유크리드거리 : 개의개체들사이에는 개의근접도가존재하며, 가장거리가멀거나유 사하지않은정도에따라다음과같이순서대로나열할수있다고하자. 즉, 은가장멀리 떨어져있거나유사하지않은경우의근접도이다. (13.1) 개체들의차원을 -차원으로축소한후, -차원상에서의개체들사이의거리를 라고 하고이들사이에다음과같은관계가성립한다고하자. (13.2) 또는유사성의 라고하면 다차원척도법의목적은근접도들사이의순위가 (13.1) 과같은경우 - 차원상에서의개체들 사이의거리 들도 (13.1) 과동일한순위를유지할수있도록하는 -차원상에서의배열법 (configuration) 을찾는것이다. 즉, 들이 (13.2) 와같은관계를만족하는 -차원상의배열 법을찾는것이목적이다. 일단순위가유지된다면거리자체의크기는별로중요하지않다. (2) 와 의관계원래의 -차원상에서의거리 와 -차원상의 사이에는척도의종류에따라다음과같은관계가존재한다고생각하며, 와 의산점도를이용하여어느관계를사용할것인지를결정하게된다. 거리를이용하는계량형척도의경우 ( 구간척도또는비율척도 ) 절대척도 : 구간척도 : 순위를이용하는비계량형척도의경우 ( 순서척도또는명목척도 ) :, 단, 는단조증가함수
(3) 차원축소방법 : 관측값들의행렬 비유사성을이용한근접도행렬, 대각선원소는 0 이됨 ( 유사성대신에비유사성 ( 또는거리 ) 를이용하는이유는유사성의경우대각선원소의값을 정의하기어려움 ) 1) 목적 : -차원상에서정의된 개의개체들사이의거리또는비유사성을계산하여근접도행렬 를만든후, 를이용하여 행렬을유도해낸다는점이다른다변량분석법과다르다. 만일 의차원을 ( 단, ) 로축소시킬수있다면차원의축소에의해해석이용이하게될것이다. 2) positive semidefinite matrix 의구성 는 p.s.d. 가아니므로 를이용하여 p.s.d. 행렬 를구한다. 즉, 행렬기호를이용하면 단, 벡터 단위행렬 은평균을빼주는역할을하는행렬 로부터행과열을 centering 하여중심화시킨 를구하므로행렬의최대차수 (rank) 는, 단, 3) MDS 의기본정리 정의 (Euclidean) : - 차원상의 개의점 이존재하고이들사이의거리가다 음과같을때
근접도행렬 를 Euclidean 이라고부른다. 정리 : : Euclidean 다음을만족하는 p.s.d. 행렬 가존재한다. 단, : -차원상의 개의관측값으로구성된행렬 : 을만족하도록 를변환시킨행렬. 즉, 의각열의평균이 0 이되도록변환시킨행렬. 4) MDS 의해 의스펙트럼분해를 라고할때 의계수가 라면, 개의 0 이아닌고유값 와대응되는고유 벡터 를이용하여 라고정의하면 를구할수있다. 분석의목적이차원의축소이므로 를만족하는 개의고유값과고유벡터만을이용 하여 와 를구하면 가된다. 행렬인 에서각행벡터를 로나타내면, 차원에서개체 들사이의거리는다음과같다. 5) 목적함수 주어진 값에따라서는 - 차원상의거리들사이의순위가 (13.1) 과같은순위와일치하는 - 차원배열법을찾을수없는경우가대부분이다. 따라서배열법의적합성여부 (goodness of fit) 를설명하기위해 Kruskal(1964) 은이들이일치하지않는정도를나타내는측도로 를제안하였다. : 부적합도 (badness of fit) 단, 는실제거리가아니라 (13.2) 식의관계를만족하는근접도의적합된값으로 적합된거리 (fitted distance) 라고한다.
즉, -차원에서가장적합이잘되는 의형태를찾아 를계산하고, 의크기를변화시켜가며가장 의크기가작은차원을찾으면된다. -차원상에서의거리 와 -차원상의 의관계를나타내는함수형태를찾기위해서는 의산점도를이용한다. 특히, 인경우 와 를구하기위해서는최소제곱단조회귀법 (least squares monotone regression method) 을이용한다. 순위를이용하는비계층적다차원척도법의경우 를만족하는 는다음과같은성질을갖는단조함수이어야한다. Kruskal(1964) 에의하면 의값에따라적용된배열법의적합정도를다음과같이 해석할수있다. (4) 최적의 값을결정하는기준 1) 의상관계수를이용 2) 이용 1 개의개체들의관측값을이용하여 개의근접도를구한후이를순서 대로정렬한다. 근접도를정의하기어려운경우는순위를상세히기술하여야한다. 2 -차원에서의잠정적인배열법을이용하여개체들사이의거리 와 값을결정한 다. 대부분의패키지에서는단조회귀법을이용한다. 3 를이용하여 steepest descent법을이용하여최적의배열법을찾는다. 4 의최소값과 의그림을통해최적의차원 를구한다. 일반적으로 값 이커짐에따라 의값은줄어들어 이되면 =0 이된다. 따라 서 부터시작하여 를구한후 를가로축, 를세로축으로 하는그림을그려보아감소하는정도가완만해지기시작할때의 값을최적의차원으로 선택하면된다. 또는다음과같은기준을사용하기도한다, Takane et al. (1977)
참고 1 다차원척도법의목적은차원을축소시켜일반적으로 2-3 차원에서의그림을이용하여 시각적으로해석을용이하게하고자하는것이다. 2 만일관측값들이거리의개념을적용하기에적당한경우에는 - 차원상에서의거리인 를구한후다음을최소로하는 를구하면된다. 3 비계층적척도법이사용되거나개체들이몇개의군집을이루는경우대부분의점들이몇군데에몰려있는 degeneracy문제가발생 의크기는 0에가까우나적합이잘된것을의미하지는않는다. 해결법 : 각군집별로다차원척도법을적용하거나계층적다차원척도법을적용한다. - 도시간의거리예제 - 군집분석에서사용된예제이용 - 도시간의항공거리이용예제 - 비유사성예제 Example 12.14 (p. 709) Multidimensional scaling of U.S. cities Fig 12.15 & Fig 12.16 q=2 Example 12.15 (p. 711) Multidimensional scaling of public utilities) Fig 12.17 & Fig 12.18 q=4 difficult to display Example 12.16 (p.713) Multidimensional scaling of universities Fig 12.19 & Fig 12.20 average SAT scores of entering freshmen percent of freshmen in top 10% of high school class percent of applicants accepted student-faculty ratio
estimated annual expenses graduation rate(%)
13.3 SAS에서사용되는 MDS분석을위한절차 (1) MDS 절차의이용 PROC MDS <options>; VAR variables; ID OBJECT variable; BY variables; MDS 절차에서사용되는 SAS 문과옵션 1 PROC MDS <options>; OUT=SAS-data-set : 디폴트에의해 iteration 과정만이출력되므로 PLOT 또는 GPLOT 절차에의해그림을그릴위치정보 (configuration information) 를출력할장소를지정. OCONFIG 또는 OCRIT 등의옵션에의해출력될추정량의형태를지정한다. OCONFIG : 각개체의 coordinates를출력 OCRIT : badness-fit-criterion을출력 DATA= SAS-data-set : 분석에사용될자료가들어있는장소를지정. 자료는 SIMILAR 옵션이사용되지않는한디폴트로비유사성 (dissimilarity) 을가정. LEVEL = ABSOLUTE / RATIO / INTERVAL / ORDINAL 자료들이어떤형태 (type) 인지를지정하며형태에따라사용될변환의형태가결정된다. 디폴트는 ORDINAL. ABSOLUTE RATIO INTERVAL ORDINAL 2 ID 문 DATA= SAS-data-set 에들어있는개체들을설명하기위한 label 정보를가진변수를지정. 이 label 들은출력시 'OUT=' 옵션에의해지정된장소에저장된다. 3 VAR 문 분석에사용될변수들의이름을지정. /* MDS1.SAS : MULTIDIMENSIONAL SCALING ANALYSIS OF FLYING MILEAGES BETWEEN CITIES */ DATA MILEAGES; TITLE 'ANALYSIS OF FLYING MILEAGES BETWEEN TEN U.S. CITITES'; INPUT (ATLANTA CHICAGO DENVER HOUSTON LOSANGEL
MIAMI NEWYORK SANFRAN SEATTLE WASHDC) (5.) @55 CITY $15.; datalines; 0 ATLANTA 587 0 CHICAGO 1212 920 0 DENVER 701 940 879 0 HOUSTON 1936 1745 831 1374 0 LOS ANGELES 604 1188 1726 968 2339 0 MIAMI 748 713 1631 1420 2451 1092 0 NEW YORK 2139 1858 949 1645 347 2594 2571 0 SAN FRANCISCO 2182 1737 1021 1891 959 2734 2408 678 0 SEATTLE 543 597 1494 1220 2300 923 205 2442 2329 0 WASHINGTON D.C. ; RUN; PROC MDS DATA=MILEAGES LEVEL=ABSOLUTE PCONFIG OUT=GRAPH ; ID CITY; RUN; LEVEL=ABSOLUTE : 도시간의거리가유크리디안거리이므로사전에변환을할필요가 없다. 따라서측정값이 absolute level에서분석이이루어지므로절대척도를이용한다. PCONFIG에의해배열과그림이생성된다 (produce configuration). SIMILAR 옵션이없으므로비유사성자료임을의미한다. MDS 절차는디폴트에의해 iteration 에어떻게이루어졌는지만을출력한다. 이예제의 경우는한번의 iteration 만을필요로하며부적합성을나타내는 badness-of-fit 의값이 0.001689 로서모형이아주잘적합이되었다. 분석에의한수렴과정
도시간거리의배열 도시간거리의 2 차원배열