Journal of the Korean Data & Information Science Society 2015, 26(6), 한국데이터정보과학회지 서울아파트매매가자료의

Similar documents
CNVZNGWAIYSE.xls

???? 1

???? 1

(001~006)개념RPM3-2(부속)

A Time Series and Spatial Analysis of Factors Affecting Housing Prices in Seoul Ha Yeon Hong* Joo Hyung Lee** 요약 주제어 ABSTRACT:This study recognizes th

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

서울도시연구_13권4호.hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

44-4대지.07이영희532~

statistics

복지통계표지-속지

True number of clusters = 3 V V1 2 군집의수선택 2.1 군집내와군집간제곱합이용 군집분석은각군집의평균의차이를크게하고 ( 군집간의변동을크게하고 ) 군집내의변동을작게하는 것이좋다. 군집의개수가늘어날수록커지고

04김호걸(39~50)ok

012임수진

<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99

<30342EB1B3C0B02E687770>

서론 34 2

#Ȳ¿ë¼®

DBPIA-NURIMEDIA

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

hwp

DBPIA-NURIMEDIA

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

433대지05박창용


레이아웃 1

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

Kor. J. Aesthet. Cosmetol., 및 자아존중감과 스트레스와도 밀접한 관계가 있고, 만족 정도 에 따라 전반적인 생활에도 영향을 미치므로 신체는 갈수록 개 인적, 사회적 차원에서 중요해지고 있다(안희진, 2010). 따라서 외모만족도는 개인의 신체는 타

1. KT 올레스퀘어 미디어파사드 콘텐츠 개발.hwp

DBPIA-NURIMEDIA

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

Development of culture technic for practical cultivation under structure in Gastrodia elate Blume

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

188 최 영 환 청률을 통한 가치측정을 통한 자기 권리를 주장할 수 있 는 근거 자료로 활용할 수 있다. 즉, 방송사가 주장하는 낮은 중계권료를 주장할때는 프로야구가 낮은 시청률을 기록했을 때만이 정당하다. 하지만, 프로야구의 뜨거운 열기만큼이나 시청률도 급 성장세를

09È«¼®¿µ 5~152s

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

시정통계 1. 행정구역 단위 : 개 면적 ( km2 ) Area 구 Gu 구성비 (%) 자치구 일반구 Composition Autonomous Non-autonomous

02이용배(239~253)ok

DBPIA-NURIMEDIA

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

10(3)-09.fm

11¹ÚÇý·É

09구자용(489~500)

확률 및 분포

*논총기획(1~160)


Kor. J. Aesthet. Cosmetol., 라이프스타일은 개인 생활에 있어 심리적 문화적 사회적 모든 측면의 생활방식과 차이 전체를 말한다. 이러한 라이프스 타일은 사람의 내재된 가치관이나 욕구, 행동 변화를 파악하여 소비행동과 심리를 추측할 수 있고, 개인의

02À±¼ø¿Á

45-5대지.05태경섭

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: * A Study on Teache

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

자율학습

316 시정통 XVI. 시정통 1. 경제활동인구총괄 단위 : 천명 15 세이상인구 Population 15 years old & over 경제활동인구 Economically active population 취업자 Employed 실업자 Unemployed ,

<303720C7CFC1A4BCF86F6B2E687770>

칼라기사(1407)

인문사회과학기술융합학회

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

03이경미(237~248)ok

03-ÀÌÁ¦Çö


44-3대지.08류주현c

김기남_ATDC2016_160620_[키노트].key

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

,......

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

03±èÀçÈÖ¾ÈÁ¤ÅÂ

<3136C1FD31C8A35FC3D6BCBAC8A3BFDC5F706466BAAFC8AFBFE4C3BB2E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

Bus Map.pdf

이용석 박환용 - 베이비부머의 특성에 따른 주택유형 선택 변화 연구.hwp

03 장태헌.hwp

09권오설_ok.hwp

guidebook_P _K_n.indd

59

CHU 통계교육 Workshop (DAY 7. MDA 군집분석 ) 1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (simila

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

Crt114( ).hwp

October Vol

<31335FB1C7B0E6C7CABFDC2E687770>

ÀÌÁÖÈñ.hwp

HCCP 패널 이슈 브리프 분석 - 기업의 조직문화를 관계, 혁신, 위계, 그리고 시장문화로 분류하여 각 조직 문화가 구성원들의 직무만족 및 조직몰입에 어떻게 영향을 미치는지 분석 함. 직무만족은 일의 내용, 임금, 그리고 인간관계에 대한 만족으로 나누어 분석하였고,

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

기술통계

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

Lumbar spine

Microsoft PowerPoint - bioinfo_09lect12_shpark_microarray.ppt [호환 모드]

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

부문별 에너지원 수요의 변동특성 및 공통변동에 미치는 거시적 요인들의 영향력 분석

Journal of Educational Innovation Research 2016, Vol. 26, No. 3, pp.1-16 DOI: * A Study on Good School

<31372DB9DABAB4C8A32E687770>

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

300 구보학보 12집. 1),,.,,, TV,,.,,,,,,..,...,....,... (recall). 2) 1) 양웅, 김충현, 김태원, 광고표현 수사법에 따른 이해와 선호 효과: 브랜드 인지도와 의미고정의 영향을 중심으로, 광고학연구 18권 2호, 2007 여름

First Quarter 2013 Office Market Report COMPANY OVERVIEW

에너지경제연구 제13권 제1호

10(3)-12.fm

대한한의학원전학회지26권4호-교정본(1125).hwp

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 95~118 학술 탄소은행제의가정용전력수요절감효과 분석 1) 2) 3) * ** *** 95

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

Transcription:

Journal of the Korean Data & Information Science Society 2015, 26(6), 1239 1247 http://dx.doi.org/10.7465/jkdi.2015.26.6.1239 한국데이터정보과학회지 서울아파트매매가자료의 심볼릭데이터를이용한군집분석 김재직 1 1 성균관대학교통계학과 접수 2015 년 7 월 17 일, 수정 2015 년 10 월 23 일, 게재확정 2015 년 11 월 2 일 요약 이논문에서는아파트매매가활발히일어나는서울시내 64 개행정동들에대해아파트전용면적별실거래매매가를기준으로군집분석을실시하였다. 군집분석에있어서각행정동의실거래가에대한정보를최대한이용하기위해실거래가의평균뿐만아니라그분포까지고려할수있도록전통적인형태의데이터를히스토그램형태의데이터로변환하여분석을하였다. 히스토그램데이터는심볼릭데이터의한종류이고, 심볼릭데이터는기본적으로구간, 목록, 히스토그램, 분포, 모형등과같이데이터자체가내부적인변동을갖는모든형태의데이터를포함한다. 이러한각행정동들의내부적인매매가의변동을고려한군집분석의결과강남구, 서초구, 송파구와그에인접한행정동들이상대적으로다른지역보다매매가도높았고실거래가의분포도훨씬더넓은것으로조사되었다. 전반적으로도심에대한접근성이좋고교육환경이우수한지역과강북의뉴타운지역이상대적으로주변지역보다더높고넓은매매가분포를보이는것으로분석되었다. 주요용어 : 군집분석, 심볼릭히스토그램데이터, 아파트실거래가. 1. 서론인간이삶을살아가는데있어서기본적으로반드시필요한요소로써우리는의식주를이야기한다. 이중에서한국인들이정서상가장중요시하는부분이주거에대한부분이고, 가장비용을많이소비하고있는부분또한주거이다. 오늘날아파트는한국인의여러주거공간중에서가장인기있고일반적인주거의한형태라할수있겠다. 특히, 아파트는한국인들에게재산증식을위한하나의수단으로써인식되고있기때문에아파트의소유자나미래의아파트구매자들, 즉, 매매에당장관심있지않은사람이라할지라도아파트의지역과그에대응하는실거래가에항상관심을가지고있다. Lim (2014) 는아파트를포함한우리나라주택가격에대한예측문제를다루었다면, 본연구에서는서울시안에서아파트매매가활발히일어나는행정동들을중심으로그행정동에속한아파트들이전용면적별로어떠한형태의매매가분포를보이는지그리고어떤행정동들이비슷한매매가의분포를갖는지알아보기위해심볼릭데이터 (symbolic data) 기법을이용한군집분석을실시하였다. 이를통해서울아파트를구입하고자하는미래구매자에게지역에대한유용한정보를제공할것으로기대한다. 자료는국토교통부홈페이지 (http://rt.molit.go.kr/) 에나와있는 2013년 6월부터 2015년 5월까지 2년간서울시에서발생한모든매매에대한아파트실거래가를이용하였다. 본논문에서는서울시의 250여개의행정동중에서조사기간인 2년동안 1,000건이상의매매가발생한 64개의행정동을군집분석의대상으로고려하였고그행정동들은 Table 1.1에나와있다. 대상이되는행정동들에대해조사기간동안총 112,029건의매매가발생하였다. 1 (110-745) 서울시종로구성균관로 25-2, 성균관대학교통계학과, 조교수. E-mail: jaejik@skku.edu

1240 Jaejik Kim Table 1.1 64 administrative regions in Seoul for the cluster analysis Gu Dong Gangnam Gaepo, Daechi, Dogok, Samseong, Yeoksam Gangdong Gil, Dunchon, Myeongil, Amsa Gangbuk Mia Gangseo Gayang, Naebalsan, Deungchon, Banghwa, Yeomchang, Hwagok Gwanak Bongcheon, Sillim Gwangjin Gwangjang, Jayang Guro Gocheok, Gaebong, Guro, Sindorim Geumcheon Siheung Nowon Gongneung, Sanggye, Wolgye, Junggye, Hagye Dongbong Dobong, Banghak, Ssangmun, Chang Dongdaemun Dapsimni, Jangan Dongjak Sangdo, Sadang Seodaemun Hongje Seocho Banpo, Bangbae, Seocho, Jamwon Seongdong Geumho, Seongsu, Haengdang Seongbuk Gireum, Donam, Jeongneung, Jongam, Hawolgok Songpa Garak, Sincheon, Jamsil Yangcheon Mok, Sinwol, Sinjeong Yeongdeungpo Dangsan, Singil, Yangpyeong Eunpyeong Bulgwang Jung Sindang Jungnang Myeonmok, Sinnae 이렇게수집된아파트실거래매매가자료에대해본논문에서는심볼릭히스토그램데이터기법을사용하여분석하려고한다. 심볼릭데이터에대해간단히설명하자면, 예를들어, 우리가자료를분석하고자할때개개의관찰값에관심있기보다는그관찰값들의그룹들에관심있다고가정해보자. 이경우보통우리는각그룹의관찰값들의평균만을이용하여분석을시도하고, 이는각그룹내부의변동에대한정보를잃게되는결과를초래한다. 여기서만일우리가평균과같은각그룹의대표값을사용하는대신그그룹에해당하는구간 (interval), 히스토그램 (histogram), 통계테이블등을사용한다면, 우리는그러한정보의손실을줄일수있을것이다. 이러한구간이나히스토그램, 통계테이블등과같은형태의자료를심볼릭데이터 (symbolic data) 라고하고이는 Diday (1989) 에의해처음소개되었다. 고전적인데이터가 p- 차원의실수공간에서하나의점으로써표현이된다면심볼릭데이터는 p-차원의공간에서고차원큐브 (hypercube) 들이나분포들의 Cartesian 곱으로써표현될수있다 ( 심볼릭데이터에대한더자세한내용은 Bock과 Diday (2000) 과 Billard 와 Diday (2006) 참조 ). 본논문에서는 112,029건의개개의아파트매매건수에집중하기보다는 64개행정동들에관심이있으므로각행정동에대해전용면적별로매매가에대한원자료를히스토그램데이터로변환할수있다. 아파트의전용면적별로아파트의가격이차이가나기때문에 Table 1.2에나와있는전용면적에대한 3개의변수별로매매가에대한분포를히스토그램데이터로만들었다. 즉, 112,029건의원자료가 64개의히스토그램관찰값과 3개의히스토그램값을갖는변수로변환되었다. 이렇게변환된히스토그램변수를이용하여전용면적들에대해비슷한매매가의분포를보이는행정동들을 Kim (2009) 와 Brito와 Chavent (2012) 에의해소개된히스토그램데이터에대한계층분할적군집방법 (hierarchical divisive clustering method) 을이용하여찾아내려고한다. 계층적군집분석은자료의구조를파악하고탐색하는데유용한방법이다. 특히 Woo 등 (2014) 에서와같이유전자에대한마이크로어레이 (microarray) 나시퀀싱 (sequencing) 자료에서유전자간의관계와구조를탐색하는데많이사용되는방법이다. 본논문에서사용되는분할적방법은병합적방법과달리초기단계에서대상이잘못분류될가능성더낮은방법이다. 본논문의구성은 2절에서심볼릭히스토그램데이터와그러한데이터를분류하는계층분할적군집방법을소개하고, 서울시아파트실거래매매가에대한분석결과가 3절에설명된다.

Cluster analysis for Seoul apartment price using symbolic data 1241 Variable X 1 X 2 X 3 Table 1.2 Symbolic histogram variable for the analysis Meaning of each variable Sales price for an apartment with exclusive area less than 80m 2 (small size) Sales price for an apartment with exclusive area between 80m 2 and 100m 2 (medium size) Sales price for an apartment with exclusive area more than 100m 2 (large size) 2. 심볼릭히스토그램데이터를이용한계층분할적군집분석 이절에서는 Kim (2009) 과 Brito 와 Chavent (2012) 에의해소개된히스토그램데이터에대한계층 분할적군집분석방법에대해설명하도록하겠다. 우선 Ω = {x 1,..., x n} 는분석의대상이되는 n 개 의히스토그램관찰값들에대한집합이라고정의하자. 그리고, 각히스토그램관찰값 x i = {x ij, j = 1,..., p} 는 p 개의히스토그램변수 {X 1,..., X p} 로구성되어있다고하자. j 번째히스토그램변수의 i번째관찰값 x ij = ( ) [a jk, a j,k+1 ), p ijk, k = 1,..., v j, i = 1,..., n, j = 1,..., p 이고, 여기서 [a jk, a j,k+1 ) 은히스토그램의연속적인구간이고 v j 는변수 X j 에대한히스토그램의구간의개수를나 타낸다. 또한, p ijk 는각히스토그램구간에대응하는상대도수또는가중값이고, v j k=1 p ijk = 1 이다. 일반적으로히스토그램데이터의구간들은각관찰값들에대해다르지만, 히스토그램의각구간에대해 자료가균일하게분포되어있다는가정하에서각각의히스토그램관찰값들은모두동일한구간들을갖 도록변환될수있다 (Kim 과 Billard, 2013). 따라서, 본논문에서모든히스토그램관찰값들이똑같은 히스토그램구간들을갖는다고가정한다 ( 즉, 히스토그램구간 [a jk, a j,k+1 ) 는모든 i = 1,..., n 에대해 동일하다 ). 계층분할적군집분석은모든 n 개의관찰값부터시작해서각단계에서하나의군집을두개의군집 으로분할하면서위에서아래로진행되는방식이다. 이방식은개개의관찰값부터시작해서아래에서 위로합쳐지는군집분석방식 (agglomerative clustering) 보다는속도가느리지만초기단계에서잘못 군집될우려가적다는장점이있다. 기본적으로 Kim (2009) 과 Brito 와 Chavent (2012) 는 supervised learning 방법인분류와회귀나무 (classification and regression tree; CART) 모형을이용하여히스 토그램데이터에대한군집분석을개발하였다. 군집분석알고리즘에대한설명을위해 r 번째단계에서 의분할 (partition) 은 P r = {C r u, u = 1,..., r} 로정의되고, 여기서 C r u 은 r 번째분할에속하는군집 들이다. 분할적군집분석에서는기본적으로 (r + 1) 번째단계에서분할 P r 에속한하나의군집 C r u 이 두개의군집 C r u,1 과 C r u,2 로나누어진다 ( 즉, P r+1 = ( P r {C r u,1, C r u,2)} ) {C r u}). 각단계에서군 집분석알고리즘은총군집내변동을최소화하는나누어질군집 C r u 과그군집이나누어져서이루어진 {C r u,1, C r u,2)} 를찾는다. r 번째분할에대한총군집내변동 W (P r) 은다음과같이정의된다. 정의 2.1 r 번째분할 P r = {C r u, u = 1,..., r} 에대해총군집내변동 W (P r) 은다음과같다 : W (P r) = r I(Cu), r (2.1) 여기서 I(C r u) 는군집 C r u 에대한군집내변동으로군집 C r u = {x 1,..., x nu } 에대해다음과같다 : I(C r u) = 1 n u n u i 1 =1 u=1 i 1 <i 2 D 2 (x i1, x i2 ), (2.2) 여기서 D 2 (x i1, x i2 ) 는두히스토그램관찰값 x i1 과 x i2 간의거리또는비유사성척도에제곱한값이고, n u 는군집 C u 에있는관찰값의개수이다. 따라서, 총군집내변동은각군집안에있는모든관찰값들의쌍에대한거리의제곱합으로정의된 다. 이를통해군집들의크기를측정할수있고알고리즘은각단계에서이군집들의총크기를최소화

1242 Jaejik Kim 하는 C r u 와 {C r u,1, C r u,2)} 를찾는것을목적으로한다. 이를위해 CART 의검색방법을이용한다. 예를 들어, 히스토그램변수가 2 개 (X 1, X 2) 가있고히스토그램관찰값이 3 개 (Ω = {x 1,..., x 3}) 가있다고 가정해보자. 먼저각변수에대한히스토그램관찰값들의평균을 (2.3) 에의해구한다. 정의 2.2 변수 X j 에대한히스토그램관찰값 x ij 의평균 M ij 는다음과같이정의된다. v j ( ajk + a ) j,k+1 M ij = p ijk, i = 1,..., n, j = 1,..., p. (2.3) 2 k=1 변수 X 1 에대해히스토그램관찰값들을평균의크기순으로정렬한결과를 {x 1 (1), x 1 (2), x 1 (3)} 라고 하면우리는관찰값들의순서를이용하여다음의 2 개의분할 ( {x 1 (1)}, {x 1 (2), x 1 (3)} ) 와 ( {x 1 (1), x 1 (2)}, {x 1 (3)} ) 를얻을수있다. 마찬가지로변수 X 2 에대한관찰값들의평균에의해정렬된순서를이용하여 또다른 2 개의분할을얻을수있고이총 4 개의분할각각에대해식 (2.1) 를이용하여총군집내변동 을계산할수있다. 이 4 개의값중에서가장작은총군집내변동값에해당하는분할을사용하여최종 적으로군집을구할수있고, 각단계에서이과정을반복함으로써군집분석을수행할수있다. 이방법은 CART 와마찬가지로군집분석의각단계에대해군집을나누는데사용된변수와군집이 나누어지는경계점을제시함으로써군집결과에대한해석을돕는다는장점이있다. 위의예로부터만 일가장작은총군집내변동값을주는분할이변수 X 2 에의해정렬된분할 ( {x 2 (1), x 2 (2)}, {x 2 (3)} ) 에서 발생했다면, 경계점은나누어진군집의경계선이지나가는두관찰값 x 2 (2) 와 x 2 (3) 의 X 2 변수에대한평 균에의해구해진다. 이때변수 X j 에대한두히스토그램 x i1 j 와 x i2 j 의평균 M (i1,i 2 ),j 는다음과같이 구해진다 : v j ( ajk + a ) j,k+1 M (i1,i 2 ),j = p (i 2 1,i 2 ),jk, (2.4) k=1 여기서 p (i 1,i 2 ),jk = p (i1,i 2 ),jk/ v j k=1 p (i 1,i 2 ),jk 이고, p (i1,i 2 ),jk = max{p i1 jk, p i2,jk}, k = 1,..., v j 이다. 식 (2.4) 를이용하여각단계에서군집이분할되는경계점을알수있고, 경계점과그에대응하는변 수를통해군집의구조에대한이해와해석이용이해진다. 3. 분석결과계층적군집분석에서는두대상간의거리또는비 / 유사성을측정하는척도가필수적이며, 지금까지다양한히스토그램데이터에대한거리또는비유사성척도가개발되어왔다 (Kim과 Billard, 2013; Cha와 Srihari, 2002; Irpino와 Verde, 2006; Strelkov, 2008 등 ). 본논문에서는다양한히스토그램데이터에대한다양한거리척도중에서 Kim (2013) 에서제안된누적분포함수거리척도 (CDF distance measure) 를사용하여분석하였다. Figure 3.1은 2절에서소개된알고리즘을이용하여군집분석한결과를보여준다. 조사대상인 64개의모든행정동들에대해실시한첫번째분할은변수 X 1 에서찾아졌으며, 42,956만원인평균에서나누어졌다. 이것은첫번째분할의왼쪽에속한행정동들내의전용면적 80m 2 이하인아파트들의평균실거래가가 42,956만원보다작다는것을의미하고, Table 3.1에보이는군집1과 2에속하는행정동들이이그룹에속한다. 반대로오른쪽에속한행정동들은소형아파트의평균가격이 42,956만원이상이라는것을뜻하고, 군집3과 4가이그룹에해당된다. 두번째분할역시소형아파트에해당하는변수 X 1 에서이루어졌으며분할의경계점은 31,068만원이었다. 즉, Table 3.1의군집1의행정동들의소형아파트평균가격이그경계점보다낮았으며군집2는그것보다높았다. 세번째분할에서는상대적으로소형아파트의가격이높았던군집3과 4가중형아파트가격 (X 2) 에의해 73,440만원인평균을경계로나누어졌다.

Cluster analysis for Seoul apartment price using symbolic data 1243 X 42,956 31,068 73,440 Figure 3.1 Dendrogram for administrative regions in Seoul by apartment sale price Cluster Cluster 1 Cluster 2 Cluster 3 Cluster 4 Table 3.1 Clusters for administrative regions Dong Gayang, Gaebong, Gocheok, Gongneung, Guro, Gil, Dapsimni, Dobong, Donam, Deungchon, Myeonmok, Mia, Banghak, Banghwa, Bongcheon, Sanggyhe, Siheung, Singil, Sinnae, Sillim, Sinwol, Ssangmun, Yangpyeong, Yeomchang, Wolgye, Jangan, Jeongneung, Junggye, Chang, Hagye, Hawolgok, Hongje, Hwagok Geumho, Gireum, Naebalsan, Dangsan, Myeongil, Bulgwang, Sadang, Sangdo, Seongsu, Sindang, Sindorim, Sinjeong, Amsa, Jayang, Jongam, Haengdang Garak, Gwangjang, Dunchon, Mok, Bangbae, Seocho Gaepo, Daechi, Dogok, Banpo, Samseong, Sincheon, Yeoksam, Jamsil, Jamwon Figure 3.2 Distributions of apartment sale price of administrative regions for each variable (left-above panel: X 1; right-above panel: X 2; left-below panel: X 3)

1244 Jaejik Kim 0.00015 5000 10000 15000 20000 25000 30000 35000 0.00010 0.00005 0.00000 0.00010 0.00000 0.00000 0.00010 0.00020 0.00020 0.00030 Figure 3.2에서 보듯이 군집1은 소형, 중형, 대형 아파트들 모두에 대해 전반적으로 가장 낮은 실거 래 매매가의 분포를 가지고 있으며 각각의 전용면적별로 상대적으로 작은 분산을 가지고 있다. 군집2는 군집1과 비슷한 분산의 정도를 보이지만 그 중심이 군집1 보다 소형, 중형, 대행 아파트 모두에 대해 약 간 더 높다. 군집3은 군집1과 2에 비해 상대적으로 더 높은 평균 매매가와 더 넓게 퍼진 분포를 가지고 있다. 군집4는 군집1, 2, 3에 비해 훨씬 더 높은 평균과 큰 분산을 갖는 매매가의 분포를 보여준다. 이 군집들의 지리적인 특성을 살펴보면 소형, 중형, 대형 아파트 모두에서 제일 높고 넓은 매매가의 분포를 보인 군집4에 해당하는 행정동들은 강남3구라고 불리우는 강남구, 서초구, 송파구에 속하는 동들이었 다. 강남구에 속한 5개의 모든 행정동들이 이 군집에 속했으며 서초구, 송파구에 속한 행정동들 중에서 는 도심과 한강에 가까운 반포, 잠원, 잠실, 신천동이 이 그룹에 해당되었다. 군집3의 경우에는 강남3구 이거나 강남3구에 인접한 강동구와 광진구에 위치한 일부 행정동들이 속했다. 강남3구에서 상대적으로 멀리 떨어진 지역으로 군집3에 해당하는 유일한 행정동은 양천구의 목동이었고, 목동은 전통적으로 학 원가가 발달하여 주변보다 매매가가 더 높다고 해석될 수 있다. 군집2에 해당되는 지역은 군집1에 비해 상대적으로 도심과 한강에 더 가까운 지역들과 최근에 개발된 은평과 길음과 같은 강북의 뉴타운 지역이 었다. 0 10000 SD of X1 20000 30000 40000 0 20000 SD of X2 40000 60000 80000 SD of X3 500 1000 1500 X1: Price per m^2 2000 0.004 0.000 0.001 0.002 0.003 0.004 0.003 0.002 0.000 0.001 0.002 0.000 0.001 0.003 0.004 Figure 3.3 Distributions of standard deviation of administrative regions for each cluster 500 1000 1500 2000 500 X2: Price per m^2 1000 1500 2000 X3: Price per m^2 Figure 3.4 Distributions of sale price per m2 for each cluster Figure 3.3은 각 변수들에 대한 각 군집들 내의 행정동들의 매매가에 대한 표준편차의 분포를 나타낸 다. 아파트의 크기에 상관없이 군집1과 2는 비슷한 표준편차의 분포를 보여주고 있으며 행정동들 내의 매매가의 편차와 행정동들 간의 편차 모두 작은 편이다. 이는 군집1과 2에 속하는 행정동들 내의 아파 트들의 매매가 차이가 크지 않다는 것을 의미하고, 행정동들 간에도 매매가의 차이가 상대적으로 크지 않다는 것을 의미한다. 이에 반해 군집3과 4에 속하는 행정동들은 같은 행정동 안에서도 매매가의 편차 가 상대적으로 컸으며 행정동들 간에도 매매가의 편차가 큰 편이었다. 이에 대한 원인을 더 자세히 살펴 보기 위해 Figure 3.4에 나타난 각 군집들에 대한 소형, 중형, 대형 아파트별 행정동들의 m2 당 매매가

Cluster analysis for Seoul apartment price using symbolic data 1245 의분포들을살펴보면, 평균적으로군집1이가장낮은면적당실거래가를가지고있었고, 군집4가가장높은면적당실거래가를보였다. 그러나, 군집1, 2, 3 모두면적당실거래가의분포가비슷하게퍼져있는반면군집4의면적당실거래가는다른군집에비해비교적더넓게퍼져있음을알수있다. 따라서, 군집4에속하는행정동들의실거래가편차가큰이유는면적당실거래가의편차가상대적으로더크다는데서그원인을찾을수있다. 종합해보면, 군집1과 2에속하는행정동들은평균적으로낮은아파트실거래가를가지고있었고그실거래가의편차또한작은편이었다. 즉, 행정동내의비슷한크기의아파트들의가격이비슷한편이었다. 군집3에있는행정동들의아파트들은군집1과 2에비해평균적으로더높은실거래가를가지나실거래가의편차가큰편이었다. 군집4 내의행정동들은가장높은실거래가를보이고있고실거래가의편차또한가장컸다. 즉, 같은행정동내에서도아파트별로실거래가의차이가더컸음을보여준다. 4. 결론본논문에서는서울시내의아파트실거래매매가를전용면적별로행정동들을중심으로심볼릭데이터기법을사용하여군집분석하였다. 분석에서는아파트매매가상대적으로활발히일어나는 64개행정동을대상으로하였으며각행정동의매매가의평균과같은중심에대한척도뿐만아니라매매가의분포까지고려하여행정동들간의유사성을찾기위해심볼릭히스토그램데이터로원자료를변환하였다. 히스토그램데이터를이용하여분석한결과행정동들의실거래가의평균뿐만아니라그것들의분산이실거래가에따라행정동들을분류하는데있어서큰요인이었음을알수있었다. 군집1과2에속하는행정동들은아파트의크기에상관없이상대적으로낮은실거래가를보였고그편차또한크지않았다. 즉, 행정동그자체에의해아파트가격이결정되는경향이있다고볼수있다. 이에반해군집3과 4에속하는행정동들은상대적으로높은매매가와면적당실거래가를보였고, 그편차또한큰편이었다. 즉, 행정동내에서도매매가가상대적으로큰차이를보였고, 이는행정동내에서도아파트가격을결정하는다른요인들이존재한다고볼수있다. 군집3과 4에속하는행정동들로는일반적으로알려진바와같이주로강남구, 서초구, 송파구의행정동들이었다. 또한, 서초구와송파구내에서도도심과한강에더가까운지역이더매매가가높았음을알수있었고, 강남3구주변지역과학원이유명한목동근처역시매매가가상대적으로높은것으로나타났다. 아파트매매가이외에도그지역아파트의준공연도, 브랜드, 단지의크기등을종합적으로고려하여분석을실시한다면더욱의미있는정보들을아파트를구입하려는사람들에게제공할수있을것으로예상된다. References Cha, S. H. and Srihari, S. H. (2002). On measuring the distance between histograms. Pattern Recognition Letter, 35, 1355-1370. Billard, L. and Diday, E. (2006). Symbolic data analysis: Conceptual statistics and data mining, John Wiley and Sons, England. Bock, H. H. and Diday, E. (2000). Analysis of symbolic data: Exploratory methods for extracting statistical information from complex data, Springer-Verlag, Berlin. Brito, P. and Chavent, M. (2012). Divisive monothetic clustering for interval and histogram-valued data. ICPRAM 2012, Portugal. Diday, E. (1989). Introduction à l approche symbolique en analyse des données. Recherche Opérationnelle, 2, 193-236. Irpino, A. and Verde, R. (2006). A new Wasserstein based distance for the hierarchical clustering of histogram symbolic data. IFCS 2006, 185-192

1246 Jaejik Kim Kim, J. (2009). Dissimilarity measures for histogram-valued data and divisive clustering of symbolic objects, Ph.D. Thesis, University of Georgia. Kim, J. and Billard, L. (2013). Dissimilarity measures for histogram-valued observations. Communications in Statistics - Theory and Methods, 42, 283-303 Lim, S. S. (2014). A study on the forecasting models using housing price index. Journal of the Korean Data & Information Science Society, 25, 65-76. Strelkov, V. V. (2008). A new similarity measure for histogram comparison and its application in time series analysis. Pattern Recognition Letter, 29, 1768-1774. Woo, S. Y., Lee, J.W. and Jhun, M. (2014). Microarray data analysis using relative hierarchical clustering. Journal of the Korean Data & Information Science Society, 25, 999-1009..

Journal of the Korean Data & Information Science Society 2015, 26(6), 1239 1247 http://dx.doi.org/10.7465/jkdi.2015.26.6.1239 한국데이터정보과학회지 Cluster analysis for Seoul apartment price using symbolic data Jaejik Kim 1 Department of Statistics, Sungkyunkwan University Received 17 July 2015, revised 23 October 2015, accepted 2 November 2015 Abstract In this study, 64 administrative regions with high frequencies of apartment trade in Seoul, Korea are classified by the apartment sale price. To consider distributions of apartment price for each region as well as the mean of the price, the symbolic histogramvalued data approach is employed. Symbolic data include all types of data which have internal variation in themselves such as intervals, lists, histograms, distributions, and models, etc. As a result of the cluster analysis using symbolic histogram data, it is found that Gangnam, Seocho, and Songpa districts and regions near by those districts have relatively higher prices and larger dispersions. This result makes sense because those regions have good accessibility to downtown and educational environment. Keywords: Apartment price, cluster analysis, symbolic histogram-valued data. 1 Assistant professor, Department of Statistics, Sungkyunkwan University, 110-745 Seoul, Korea, E-mail: jaejik@skku.edu