13. 다차원척도법 (MultiDimensional Scaling) 13.1 개념및목적 다차원척도법 (mds) 는다차원관측값또는개체들간의거리 (distance) 또는비유사성 (dissimilarity) 을이용하여개체들을원래의차원보다낮은차원 ( 보통 2차원 ) 의공간상에

Similar documents
Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

PowerPoint 프레젠테이션

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

Microsoft PowerPoint Predicates and Quantifiers.ppt

Microsoft PowerPoint - MDA 2008Fall Ch2 Matrix.pptx

머리말 1995 년고려대학교통계연구소강의총서 19권째로출간된 SAS 다차원척도법 은다차원척도법을정리해보고자하였던동기부여차원에서이루어졌으나보면볼수록부족함이많았다. 사실이책의전면개정과보완이필요하다고생각은하였지만, 다차원척도법에대한지식이부족하여많이망설였다. 그리고이를극복하기

실험 5

statistics

CHU 통계교육 Workshop (DAY 7. MDA 군집분석 ) 1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (simila

8. ARIMA 모형 (ARIMA Procedure) 8.1 ARMA(AutoRegressive Moving-Average) 모형 ARIMA 모형의기본형태 계절형 ARIMA 모형 8.2 ARIMA modeling 과정 데이터 모형의식별 (identification) 모

(001~006)개념RPM3-2(부속)

학습목차 2.1 다차원배열이란 차원배열의주소와값의참조

Microsoft Word - SPSS_MDA_Ch6.doc

PowerPoint Presentation

제 12강 함수수열의 평등수렴

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint Presentation

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에


1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Microsoft PowerPoint - ch07 - 포인터 pm0415

Microsoft PowerPoint - 26.pptx

설계란 무엇인가?

Microsoft PowerPoint - chap06-2pointer.ppt

Microsoft PowerPoint - Java7.pptx

PowerPoint Presentation

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

MATLAB and Numerical Analysis

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

슬라이드 1

Microsoft PowerPoint - chap06-1Array.ppt

C# Programming Guide - Types

Design Issues

<322EBCF8C8AF28BFACBDC0B9AEC1A6292E687770>

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

목차 배열의개요 배열사용하기 다차원배열 배열을이용한문자열다루기 실무응용예제 C 2

Microsoft Word - SAS_Data Manipulate.docx

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

Ver 1.0 마감하루전 Category Partitioning Testing Tool Project Team T1 Date Team Information 김강욱 김진욱 김동권

PowerPoint Presentation

exp

모수검정과비모수검정 제 6 강 지리통계학

R

슬라이드 1

Microsoft PowerPoint - ch12 - Graph, Graph Algorithms

Poison null byte Excuse the ads! We need some help to keep our site up. List 1 Conditions 2 Exploit plan 2.1 chunksize(p)!= prev_size (next_chunk(p) 3

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

untitled

목차 포인터의개요 배열과포인터 포인터의구조 실무응용예제 C 2

adfasdfasfdasfasfadf

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

시스템경영과 구조방정식모형분석

Python과 함께 배우는 신호 해석 제 5 강. 복소수 연산 및 Python을 이용한 복소수 연산 (제 2 장. 복소수 기초)


슬라이드 1

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로

Tcl의 문법

cat_data3.PDF

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

쉽게 풀어쓴 C 프로그래밍

PowerPoint 프레젠테이션

에너지경제연구 제12권 제2호

PowerPoint Template

UI TASK & KEY EVENT

= ``...(2011), , (.)''

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

Microsoft Word - ch2_smoothing.doc

제이쿼리 (JQuery) 정의 자바스크립트함수를쉽게사용하기위해만든자바스크립트라이브러리. 웹페이지를즉석에서변경하는기능에특화된자바스크립트라이브러리. 사용법 $( 제이쿼리객체 ) 혹은 $( 엘리먼트 ) 참고 ) $() 이기호를제이쿼리래퍼라고한다. 즉, 제이쿼리를호출하는기호

벡터자기회귀 (Vector Autoregression : VAR) 모형은경제이론없이모형만으로변수들간의관계를설명할수있다는점에서자주이용되는모형임. y t =α 1 y t-1 + +α p y t-p +βx t +ε t 여기서 y t 는내생변수 (endogenous varia

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Study on the Pe

Microsoft Word - FunctionCall

nonpara6.PDF

Microsoft Word - multiple

슬라이드 1

< 고급 C 프로그래밍및실습 > 11 장구조체실습문제 문제에대한안내 - 특별한언급이없으면문제의조건에맞지않는입력은입력되지않는다고가정하라. - 특별한언급이없으면, 각줄의맨앞과맨뒤에는공백을출력하지않는다. - 출력예시에서 는각줄의맨앞과맨뒤에출력되는공백을의미한다. - 입출력예시

슬라이드 제목 없음

Microsoft PowerPoint - ch12 - Graph, Graph Algorithms

<B8F1C2F72E687770>

금오공대 컴퓨터공학전공 강의자료

온습도 판넬미터(JTH-05) 사양서V1.0

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

G Power

대한산업공학회_2011_manuscript_대국_최종.hwp

2002년 2학기 자료구조

[INPUT] 뒤에는변수와관련된정보를표기한다. [CARDS;] 뒤에는각각의변수가가지는관측값들을표기한다. >> 위의프로그램에서데이터셋명은 wghtclub 이고, 변수는 idno, name, team, strtwght, endwght 이다. 이중 name 과 team 은

자율학습

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

Microsoft Word - LectureNote.doc

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

Microsoft Word - logic2005.doc

chap 5: Trees

Microsoft Word - PLC제어응용-2차시.doc

PowerPoint Presentation

True number of clusters = 3 V V1 2 군집의수선택 2.1 군집내와군집간제곱합이용 군집분석은각군집의평균의차이를크게하고 ( 군집간의변동을크게하고 ) 군집내의변동을작게하는 것이좋다. 군집의개수가늘어날수록커지고

#Ȳ¿ë¼®

Microsoft PowerPoint - C++ 5 .pptx

Transcription:

13. 다차원척도법 (MultiDimensional Scaling) 13.1 개념및목적 다차원척도법 (mds) 는다차원관측값또는개체들간의거리 (distance) 또는비유사성 (dissimilarity) 을이용하여개체들을원래의차원보다낮은차원 ( 보통 2차원 ) 의공간상에위치시켜 (spatial configuration) 개체들사이의구조또는관계를쉽게파악하고자하는데목적이있다. 즉, 차원의축소를통해개체들의상대적위치등을통해개체들사이의관계를쉽게파악하고자하는데목적이있다고할수있으며, 공간적배열에대한주관적인해석에중점을두고있다. 차원의축소를위해개체들사이의근접도 (proximity) 를나타내는측도로서거리또는비유사성을이용하며오차 (error) 또는잡음 (noise) 이포함되기도한다. 차원축소시 ( ) 가능하면축소된후의개체들사이의근접도에의한개체들사이의순위 (ordering) 가축소전의근접도에의한개체들사이의순위와거의일치하도록하는것이바람직하며이를위해근접정도를나타내는측도로 를이용한다. 심리학 : 청각반응 (speech and musical tones) 및시각반응 (colors and faces) 등을이용하여지각과평가를이해하는데이용사회학 : 상대방을어떻게인식하는지와상호작용의양식을이용하여그룹과조직간의구조를이해인류학 : 종교, 언어문화유산등을이용하여서로다른문화를비교마케팅 : 제품과이에대한고객들의반응을규명 nonmetric mds( 비계량형다차원척도법 ) 개체들사이의거리또는비유사성을나타내는데절대적인크기는무시하고판단 (judgement) 에의한순위에관한정보만을이용하여근접도로이용 개의개체를 개의순위에관한정보를이용하여표현가능 metric mds( 계량형다차원척도법 ) 개체들사이의실제거리또는비유사성을근접도로이용 principal coordinate analysis 라고도부름. 13.2 다차원척도법의이론 (1) 차원상에서의배열또는배치 (configuration)

: -차원상의관측값, : 관측값 와 사이의거리 유크리드거리 : 개의개체들사이에는 개의근접도가존재하며, 가장거리가멀거나유 사하지않은정도에따라다음과같이순서대로나열할수있다고하자. 즉, 은가장멀리 떨어져있거나유사하지않은경우의근접도이다. (13.1) 개체들의차원을 -차원으로축소한후, -차원상에서의개체들사이의거리를 라고 하고이들사이에다음과같은관계가성립한다고하자. (13.2) 또는유사성의 라고하면 다차원척도법의목적은근접도들사이의순위가 (13.1) 과같은경우 - 차원상에서의개체들 사이의거리 들도 (13.1) 과동일한순위를유지할수있도록하는 -차원상에서의배열법 (configuration) 을찾는것이다. 즉, 들이 (13.2) 와같은관계를만족하는 -차원상의배열 법을찾는것이목적이다. 일단순위가유지된다면거리자체의크기는별로중요하지않다. (2) 와 의관계원래의 -차원상에서의거리 와 -차원상의 사이에는척도의종류에따라다음과같은관계가존재한다고생각하며, 와 의산점도를이용하여어느관계를사용할것인지를결정하게된다. 거리를이용하는계량형척도의경우 ( 구간척도또는비율척도 ) 절대척도 : 구간척도 : 순위를이용하는비계량형척도의경우 ( 순서척도또는명목척도 ) :, 단, 는단조증가함수

(3) 차원축소방법 : 관측값들의행렬 비유사성을이용한근접도행렬, 대각선원소는 0 이됨 ( 유사성대신에비유사성 ( 또는거리 ) 를이용하는이유는유사성의경우대각선원소의값을 정의하기어려움 ) 1) 목적 : -차원상에서정의된 개의개체들사이의거리또는비유사성을계산하여근접도행렬 를만든후, 를이용하여 행렬을유도해낸다는점이다른다변량분석법과다르다. 만일 의차원을 ( 단, ) 로축소시킬수있다면차원의축소에의해해석이용이하게될것이다. 2) positive semidefinite matrix 의구성 는 p.s.d. 가아니므로 를이용하여 p.s.d. 행렬 를구한다. 즉, 행렬기호를이용하면 단, 벡터 단위행렬 은평균을빼주는역할을하는행렬 로부터행과열을 centering 하여중심화시킨 를구하므로행렬의최대차수 (rank) 는, 단, 3) MDS 의기본정리 정의 (Euclidean) : - 차원상의 개의점 이존재하고이들사이의거리가다 음과같을때

근접도행렬 를 Euclidean 이라고부른다. 정리 : : Euclidean 다음을만족하는 p.s.d. 행렬 가존재한다. 단, : -차원상의 개의관측값으로구성된행렬 : 을만족하도록 를변환시킨행렬. 즉, 의각열의평균이 0 이되도록변환시킨행렬. 4) MDS 의해 의스펙트럼분해를 라고할때 의계수가 라면, 개의 0 이아닌고유값 와대응되는고유 벡터 를이용하여 라고정의하면 를구할수있다. 분석의목적이차원의축소이므로 를만족하는 개의고유값과고유벡터만을이용 하여 와 를구하면 가된다. 행렬인 에서각행벡터를 로나타내면, 차원에서개체 들사이의거리는다음과같다. 5) 목적함수 주어진 값에따라서는 - 차원상의거리들사이의순위가 (13.1) 과같은순위와일치하는 - 차원배열법을찾을수없는경우가대부분이다. 따라서배열법의적합성여부 (goodness of fit) 를설명하기위해 Kruskal(1964) 은이들이일치하지않는정도를나타내는측도로 를제안하였다. : 부적합도 (badness of fit) 단, 는실제거리가아니라 (13.2) 식의관계를만족하는근접도의적합된값으로 적합된거리 (fitted distance) 라고한다.

즉, -차원에서가장적합이잘되는 의형태를찾아 를계산하고, 의크기를변화시켜가며가장 의크기가작은차원을찾으면된다. -차원상에서의거리 와 -차원상의 의관계를나타내는함수형태를찾기위해서는 의산점도를이용한다. 특히, 인경우 와 를구하기위해서는최소제곱단조회귀법 (least squares monotone regression method) 을이용한다. 순위를이용하는비계층적다차원척도법의경우 를만족하는 는다음과같은성질을갖는단조함수이어야한다. Kruskal(1964) 에의하면 의값에따라적용된배열법의적합정도를다음과같이 해석할수있다. (4) 최적의 값을결정하는기준 1) 의상관계수를이용 2) 이용 1 개의개체들의관측값을이용하여 개의근접도를구한후이를순서 대로정렬한다. 근접도를정의하기어려운경우는순위를상세히기술하여야한다. 2 -차원에서의잠정적인배열법을이용하여개체들사이의거리 와 값을결정한 다. 대부분의패키지에서는단조회귀법을이용한다. 3 를이용하여 steepest descent법을이용하여최적의배열법을찾는다. 4 의최소값과 의그림을통해최적의차원 를구한다. 일반적으로 값 이커짐에따라 의값은줄어들어 이되면 =0 이된다. 따라 서 부터시작하여 를구한후 를가로축, 를세로축으로 하는그림을그려보아감소하는정도가완만해지기시작할때의 값을최적의차원으로 선택하면된다. 또는다음과같은기준을사용하기도한다, Takane et al. (1977)

참고 1 다차원척도법의목적은차원을축소시켜일반적으로 2-3 차원에서의그림을이용하여 시각적으로해석을용이하게하고자하는것이다. 2 만일관측값들이거리의개념을적용하기에적당한경우에는 - 차원상에서의거리인 를구한후다음을최소로하는 를구하면된다. 3 비계층적척도법이사용되거나개체들이몇개의군집을이루는경우대부분의점들이몇군데에몰려있는 degeneracy문제가발생 의크기는 0에가까우나적합이잘된것을의미하지는않는다. 해결법 : 각군집별로다차원척도법을적용하거나계층적다차원척도법을적용한다. - 도시간의거리예제 - 군집분석에서사용된예제이용 - 도시간의항공거리이용예제 - 비유사성예제 Example 12.14 (p. 709) Multidimensional scaling of U.S. cities Fig 12.15 & Fig 12.16 q=2 Example 12.15 (p. 711) Multidimensional scaling of public utilities) Fig 12.17 & Fig 12.18 q=4 difficult to display Example 12.16 (p.713) Multidimensional scaling of universities Fig 12.19 & Fig 12.20 average SAT scores of entering freshmen percent of freshmen in top 10% of high school class percent of applicants accepted student-faculty ratio

estimated annual expenses graduation rate(%)

13.3 SAS에서사용되는 MDS분석을위한절차 (1) MDS 절차의이용 PROC MDS <options>; VAR variables; ID OBJECT variable; BY variables; MDS 절차에서사용되는 SAS 문과옵션 1 PROC MDS <options>; OUT=SAS-data-set : 디폴트에의해 iteration 과정만이출력되므로 PLOT 또는 GPLOT 절차에의해그림을그릴위치정보 (configuration information) 를출력할장소를지정. OCONFIG 또는 OCRIT 등의옵션에의해출력될추정량의형태를지정한다. OCONFIG : 각개체의 coordinates를출력 OCRIT : badness-fit-criterion을출력 DATA= SAS-data-set : 분석에사용될자료가들어있는장소를지정. 자료는 SIMILAR 옵션이사용되지않는한디폴트로비유사성 (dissimilarity) 을가정. LEVEL = ABSOLUTE / RATIO / INTERVAL / ORDINAL 자료들이어떤형태 (type) 인지를지정하며형태에따라사용될변환의형태가결정된다. 디폴트는 ORDINAL. ABSOLUTE RATIO INTERVAL ORDINAL 2 ID 문 DATA= SAS-data-set 에들어있는개체들을설명하기위한 label 정보를가진변수를지정. 이 label 들은출력시 'OUT=' 옵션에의해지정된장소에저장된다. 3 VAR 문 분석에사용될변수들의이름을지정. /* MDS1.SAS : MULTIDIMENSIONAL SCALING ANALYSIS OF FLYING MILEAGES BETWEEN CITIES */ DATA MILEAGES; TITLE 'ANALYSIS OF FLYING MILEAGES BETWEEN TEN U.S. CITITES'; INPUT (ATLANTA CHICAGO DENVER HOUSTON LOSANGEL

MIAMI NEWYORK SANFRAN SEATTLE WASHDC) (5.) @55 CITY $15.; datalines; 0 ATLANTA 587 0 CHICAGO 1212 920 0 DENVER 701 940 879 0 HOUSTON 1936 1745 831 1374 0 LOS ANGELES 604 1188 1726 968 2339 0 MIAMI 748 713 1631 1420 2451 1092 0 NEW YORK 2139 1858 949 1645 347 2594 2571 0 SAN FRANCISCO 2182 1737 1021 1891 959 2734 2408 678 0 SEATTLE 543 597 1494 1220 2300 923 205 2442 2329 0 WASHINGTON D.C. ; RUN; PROC MDS DATA=MILEAGES LEVEL=ABSOLUTE PCONFIG OUT=GRAPH ; ID CITY; RUN; LEVEL=ABSOLUTE : 도시간의거리가유크리디안거리이므로사전에변환을할필요가 없다. 따라서측정값이 absolute level에서분석이이루어지므로절대척도를이용한다. PCONFIG에의해배열과그림이생성된다 (produce configuration). SIMILAR 옵션이없으므로비유사성자료임을의미한다. MDS 절차는디폴트에의해 iteration 에어떻게이루어졌는지만을출력한다. 이예제의 경우는한번의 iteration 만을필요로하며부적합성을나타내는 badness-of-fit 의값이 0.001689 로서모형이아주잘적합이되었다. 분석에의한수렴과정

도시간거리의배열 도시간거리의 2 차원배열