1) < 論文 > 표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 53 주택연구제 26 권 4 호 2018. 11.: 53~74 Housing Studies Review Vol. 26, No. 4: 53~74 http://dx.doi.org/ 10.24957 / hsr.2018.26.4.53 표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 Estimating the Real Estate Price Index Based on Sample House Price: Focusing on the Use of Machine Learning Method 배성완 (Seong-Wan Bae) * ㆍ유정석 (Jung-Suk Yu) ** < Abstract > The Purpose of this study is to estimate the real estate price index based on the estimated price by machine learning. The price of a sample house was estimated using the machine learning method Random forest and Deep neural networks, and the real estate price index was calculated using the Jevons index calculation method. First, the result of the study showed that the RF index and DNN index are similar, and the variability was changed according to the learning period. Second, the RF index and DNN index showed similar long-term trends compared to the KAB index, but it was found that there was a considerable difference in short-term trends. Third, the RF index and DNN index were found to be more variable than the KAB index, KB index, and real transaction price index, and the relationship with real transaction price index could not be confirmed. If the researcher s qualitative analysis on the RF index and DNN index is added, it is expected that there is a high possibility of utilization as a new price index that can improve existing price index. 키워드 : 머신러닝, 부동산가격지수, 랜덤포레스트, 심층신경망 Keyword : Machine Learning, Real Estate Price Index, Random Forest, Deep Neural Networks * 단국대학교일반대학원도시계획및부동산학과박사수료, swbae618@gmail.com, 제1저자 ** 단국대학교사회과학대학도시계획부동산학부부교수, jsyu@dankook.ac.kr, 교신저자
54 住宅硏究제 26 권제 4 호 I. 서론 국토교통부는주택시장판단지표로활용하기위해다양한부동산가격지수를발표하고있다. 한국감정원에서수행중인전국주택가격동향조사에의해산출된부동산가격지수 ( 이하 KAB지수 ) 는 조사자에의해산출된표본주택가격에기반한지수 로서지수의정확성을위해서는표본주택가격의정확한산정이필수적이다. Berry and Bednarz(1975) 와 Goolsby(1997) 는과세평가사 (assessor) 에의한체계적인오차 (systematic error) 를지적한바있으며, 이용만ㆍ이상한 (2008) 은 KAB지수와산정방식이유사한국민은행가격지수 ( 이하 KB지수 ) 에대해 지수의평활화 가능성을지적한바있다. 이는결국 조사자에의해산출된표본주택가격에기반한지수 는조사자의성향, 경험, 능력에따라오류또는편의 (bias) 가발생할수있는위험요인을내재하고있다는것을시사한다. 따라서시장의움직임에부합하는부동산가격지수산정을위해서는조사자에의한오류또는편의를제거할수있는방법을고안할필요가있다. 인공지능관련기술인머신러닝 (machine learning 또는기계학습 ) 은데이터를분석하고결론을도출하는데좋은성과를보여주고있다. 배성완ㆍ유정석 (2018a) 은머신러닝을통한공동주택공시가격산정이조사자에의한가격산정과유사한성과를보여준다고주장한바있다. 조사자들의성향, 능력, 경험에따라발생할수있는오류또는편의를배제할수있으며, 실거래가자료나매물자료와같은부동산가격자료에대한습득이용이하다는점에서부동산가격지수산출을위한표본주택가격산정에있어서머신러닝의활용가능성이매우높다고할수있다. 본연구의목적은 머신러닝에의해산출된표본주택가격 을기반으로부동산가격지수를산정하고이것의활용가능성을검토하는것이다. 이는기존의평가기반가격지수산정에있어서활용된 조사자에의한표본주택가격 을 머신러닝에의한표본주택가격 으로대체하여부동산가격지수를산정하는것과같다. 서울강남구아파트를조사모집단으로설정하여표본추출후머신러닝방법인랜덤포레스트 (random forest) 와심층신경망 (deep neural networks) 을이용하여표본주택가격을산정하였고, 제본스지수 (Jevons index) 산정방법을활용하여부동산가격지수를산정하였다. 표본주택가격산정을위한학습자료는 2015년 1월부터 2017년 12월까지의
표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 55 강남구아파트실거래가자료를활용하였으며, 표본추출을위한조사모집단으로부동산테크의시세제공단지를활용하였다. 본연구는부동산가격지수산정에있어서기초재료가되는표본주택가격산정방법에초점을맞췄다는점, 머신러닝방법을부동산가격지수산정에활용하였다는점, 머신러닝이인공지능기술의한종류라는점에서본연구는 인공지능가격에기반한부동산가격지수 라는새로운부동산가격지수의활용가능성을검토하였다는점에서의의가있다. 본연구의구성은다음과같다. 2장은부동산가격지수산정방법에대해고찰하고부동산가격지수와관련선행연구에대해검토한다. 3장에서는본연구에적용할분석모형, 분석자료및분석방법에대해고찰한다. 4장은실증분석으로표본추출, 표본가격및부동산가격지수산정을시도하고, 5장에서는분석결과를바탕으로결론과시사점, 한계점및추후과제에대해설명한다. II. 이론적고찰및선행연구검토 1. 부동산가격지수산정방법 부동산가격지수는산정에활용되는표본주택의특성에따라사용되는모형이달라진다. 기준시점과비교시점의주택표본이동일하지않을수있는혼합표본 (mixed sample) 방식의경우, 헤도닉가격지수모형 (hedonic price index model), 반복매매가격지수모형 (repeat sale price index model), SPAR지수모형 (SPAR index model) 등을사용할수있다. 반면, 시점간특성변화가발생하지않는동일표본 (matched sample) 방식은물량기준또는대표치의산출방법에따라다양한지수가만들어질수있는데, 바스켓방법 (basket approach) 에의한지수는라스파이레스지수 (Laspeyres index), 파쉐지수 (Paasche index), 피셔지수 (Fisher index), 월쉬지수 (Walsh index), 톤퀴비스트지수 (Tӧrnqvist index) 등이있으며, 표본추출방법 (sampling approach) 에의한지수는칼리지수 (Carli index), 듀토지수 (Dutot index), 조화평균지수 (harmonic average index), 제본스지수 (Jevons index) 등이있다. 국가통계로승인된부동산가격지수에는전국지가변동률조사, 전국주택가격동향조사,
56 住宅硏究제 26 권제 4 호 공동주택매매실거래가격지수, 상업용부동산임대동향조사등이있다. 전국주택가격동향 조사는제본스지수, 공동주택매매실거래가격지수 ( 이하 실거래가격지수 ) 는반복매매모 형을이용하여산정된다. 2. 선행연구검토 부동산가격지수와관련하여기존연구는크게부동산가격지수의예측을시도하는연구와부동산가격지수의산정을시도하는연구로구분할수있다. 부동산가격지수를예측하는연구는이미산정된부동산가격지수를시계열분석모형이나머신러닝방법을이용하여예측하는방식으로이루어지고있다. 민성욱 (2017) 은딥러닝방법을이용하여예측을시도하였으며, 배성완ㆍ유정석 (2017) 은딥러닝방법인 DNN 및 LSTM(Long Short Term Memory networks) 과 ARIMA모형의예측력을비교하였다. 배성완ㆍ유정석 (2018b) 은머신러닝방법과 ARIMA, VAR 및베이지안VAR 모형의예측력을비교한바있다. 민성욱 (2017), 배성완ㆍ유정석 (2017), 배성완ㆍ유정석 (2018b) 모두시계열분석모형보다머신러닝계열방법의예측력이우수한것을보고하고있다. 부동산가격지수의산정과관련된연구는헤도닉모형 (hedonic approach), 반복매매모형 (repeat sales index), 중위수모형, SPAR모형을이용하여지수의활용가능성을검토하거나지수간정확성을비교하는방식으로진행되고있다. 헤도닉모형은 Lancaster (1966) 와 Rosen(1974), 반복매매모형은 Bailey et al.(1963), Case and Shiller(1987), SPAR모형은 Bourassa et al.(2006) 등에의해시도된바있다. 국내에서는반복매매모형과관련된연구가활발히이루어지고있다. 이창무외 (2002) 는표본조사에의한라스파이레스지수산정방식인 KB지수는가중치, 스톡의변동성처리, 그리고시세조사자료의정확성등에서한계점을갖는다는점을지적하면서이를대체할수있는지수산정방식으로반복매매모형을제안한바있으며, 이모형은현재발표되고있는실거래가격지수산정의근간이되고있다. 반복매매모형의경우표본선정의편의 (sample selection bias) 와자료활용의비효율성, 지수의갱신 (revision) 문제, 주택의질적변화를반영이어려움등과같은문제점을가지고있다 ( 김재익외, 2015). 이에따라이를개선하거나대체할수있는지수에대한연구가진행되고있다.
표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 57 류강민외 (2009) 는비선형회귀분석에의한산술평균반복매매지수, OLS에의한기하평균반복매매지수, 가치가중산술평균에의한반복매매지수를비교하여산정방식별차이점과한계점을제시하였고, 비선형반복매매모형이비교적정확하게산술평균반복매매지수를산정할수있는것을확인하였다. 류강민ㆍ이상영 (2010) 은가치가중반복매매지수산정방법을이론적으로제시하고, 동일한자료를이용하더라도산정방법에따라지수가다르게나타난다는점을확인하였다. 김재익외 (2015) 는반복매매모형의문제점을개선하기위해실거래자료의이상치제거기준과하위지수병합방식으로의지수산정방식전환을제안하였으며, 이제안은 2015년 3월부터발표된실거래가격지수산정에적용되고있다. 단독ㆍ다가구주택이나연립ㆍ다세대주택과같은비아파트의경우해당주택에대한정보가많지않기때문에라스파이레스지수나반복매매모형을이용한지수산정이어렵다. 이에따라비아파트를대상으로는중위수지수산정과관련된연구가시도되고있다. 류강민외 (2012) 는단독ㆍ다가구주택과연립ㆍ다세대주택의매매및전세중위수지수산정을시도하였다. 분석결과매매중위수지수는 KB지수보다실거래가격지수와더유사하며, 실거래가격지수보다평활화되는경향을보이는것으로나타났다. 류강민외 (2017) 는미국의 Rador Logic사가고안한 3개의멱법칙 (triple power law, TPL) 을이용하여단독주택의일단위중위수지수를산정을시도하였다. 단독주택을분석대상으로하였다는점, 자료수부족으로인한지수산정이어려움을 TPL방법을통해극복할수있는방안을제시하였다는점에서의의가있으나초기값가정문제, 개별주택들의특성을반영할수없다는점에서한계를가진다. SPAR지수는특성가격지수산정시나타날수있는모형설정오류가능성이낮고, 반복매매지수에서발생할수있는표본추출오류가심하지않으며, 좁은지역에서도지수작성이가능하다는장점이있다 ( 이용만, 2007). 이해경외 (2010) 는 SPAR지수모형을이용한경매가격지수산정을시도하였으며, 실거래가격지수와변동성이유사하고동행하는것으로나타났으며, KB지수보다는변동성이크고 1분기정도선행하는것으로나타났다. 한편부동산가격지수의특징을탐색하거나문제점을고찰하는연구도시도되고있는데주요관심사항은지수의평활화여부이다.
58 住宅硏究제 26 권제 4 호 이용만ㆍ이상한 (2008) 은부분조정모형과시간변동계수모형을활용하여 KB지수의평활화여부를검토하였으며, KB지수가평활화로인해실제거래가격동향과차이를보이고있을가능성을지적하고있다. 박연우ㆍ방두완 (2011) 은 KB지수의평활화현상이대칭적인지아니면비대칭적인지검토하였으며, 분석결과상승시장보다하락시장에서의평활화정도가큰것으로나타났다. 3. 선행연구와의차별성 본연구는선행연구와비교했을때다음과같은차별성을갖는다. 첫째, 기존연구는부동산가격지수산정방법에초점이맞춰져있으나본연구는지수산정의재료가되는표본가격산정에초점이맞춰져있다. 둘째, 머신러닝방법에의해산출된표본주택가격은조사자에의한정성적분석과주관적판단이배제된가격으로서, 현행부동산가격지수산정방식에있어서조사자의가격산정역할을머신러닝방법으로대체할수있을지에대한검토를시도하였다. 셋째, 머신러닝이인공지능기술의한종류라는점에서본연구는 인공지능가격에기반한부동산가격지수 라는새로운지표를제시하였다. 넷째, 주로부동산가격지수예측에활용되던머신러닝방법을본연구에서는부동산가격지수산정에활용하였다. III. 분석모형, 분석자료및분석방법 1. 분석모형 머신러닝 (machine learning) 은컴퓨터또는기계가프로그램이나알고리즘을통해경험적데이터를분석ㆍ학습하여데이터구조를파악하거나새로운결과를예측하는것을말한다. 머신러닝은학습에이용되는데이터에따라지도학습 (supervised learning) 과비지도학습 (unsupervised learning) 으로구분할수있다. 지도학습은입력값에상응하는결과값을가진데이터를이용한학습을통해새로운데이터에대한결과값을예측하는학습
표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 59 알고리즘이다. 반면, 비지도학습은입력값에상응하는결과값이없는데이터를이용한학습을통해데이터의구조, 규칙등을밝히는데목적이있는학습알고리즘이다. 본연구에서는지도학습알고리즘인랜덤포레스트 (random forest, RF) 와심층신경망 (deep neural networks, DNN) 을활용한다. 랜덤포레스트는부트스트랩 (bootstrap) 표본을다수생성하고결정트리 (decision tree) 모형을적용하여그결과를종합하는앙상블 (ensemble) 방법으로 Breiman(2001) 에의해제시되었다 ( 유진은, 2015). 회귀트리모형은설명변수 를 개의지역 (region) 에서로겹치지않게분할하고, 지역에속하는관찰치에대해 지역관찰치평균값을예측치로제시하며, 지역은잔차제곱합 (residual sum of squares) 이최소가되도록분할한다 ( 이창로, 2015). 잔차제곱합을최소화하는기준으로트리를구성하면과다적합의가능성이높아지기때문에트리의규모를최대한키워놓고해당트리의가지를쳐가면서적정규모의트리를결정하게되는데이는식 (1) 을최소화하는것과같다 ( 이창로, 2015). 식 (1) 에서 는트리 의가지 (terminal node) 수를, 은 번째가지에해당하는분할지역, 는동조파라미터 (tuning parameter) 로서 이면아무런패널티가없으므로최대트리가되며, 가커질수록트리규모는작아지게된다 ( 이창로, 2015). (1) 심층신경망 (deep neural networks, DNN) 은 < 그림 1> 과같이다수의은닉층 (hidden layer) 을가지고있는인공신경망이다. 인공신경망은생물의뇌신경망을모형화하여만든알고리즘으로서 1958년 Rosenblatt에의해제안된퍼셉트론학습모형또는단층신경망을시작으로다양한형태로개발되고있다 ( 구성관ㆍ홍석빈, 2017). 인공신경망은과잉학습, 기울기소실 (gradient vanishing) 과같은문제점으로상당기간침체기를맞이하였으나, Hinton et al.(2006) 에의해제안된가중치초기화방법을통해이러한문제점은해결되었으며, 딥러닝 (deep learning) 또는심층신경망이라는새로운이름으로활발한연구가이루어지고있다. 1)
60 住宅硏究제 26 권제 4 호 자료 : 구성관ㆍ홍석민 (2017) < 그림 1> 심층신경망의구조 2. 분석자료 표본가격은머신러닝방법에따라산정하게된다. 머신러닝모형의분석알고리즘은학습데이터를이용한훈련 (train) 및검증 (validation) 을통해모형을최적화하고, 최적화된모형에시험 (test) 데이터를적용하여결과물을예측하는방식으로이루어진다. 국토교통부에서제공하는 2015년 1월부터 2017년 12월까지의서울강남구아파트실거래자료 18,020건을머신러닝모형의학습및검증을위한데이터로활용한다. 부동산테크에서시세를제공하는강남구아파트단지를모집단으로설정하여이로부터추출된표본주택은 < 표 1> 실거래가자료기초통계량 구분 최소값 최대값 평균 표준편차 건물면적 ( 단위 : m2 ) 22.78 264.3 86.67 37.36 입지층 ( 단위 : 층 ) 1 68 8.89 7.12 총세대수 ( 단위 : 호 ) 100 5,040 1,267.30 1,370.60 준공년도 ( 단위 : 년 ) 1,976 2,016 1,995 11.29 지하철역거리 ( 단위 :m) 50 2,660 477.03 426.12 거래가격 ( 단위 : 만원 ) 12,000 532,000 112,791 54,932 1) Hinton et al.(2006) 은제약볼츠만머신 (Restricted Boltzman Machine) 이라는가중치초기값설정방법을제안하였는데, 최근에는제약볼츠만머신보다성능이뛰어나면서도사용하기편한가중치설정방법이제시되고있다.
표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 61 머신러닝모형에적용할시험데이터 (test data) 에해당한다. 본연구에활용된실거래자료 와조사모집단의기초통계량은각각 < 표 1> 및 < 표 2> 와같다. 머신러닝을적용함에있어 서적용된변수는건물면적, 입지층, 총세대수, 준공년도, 지하철역과의거리이다. 2) < 표 2> 조사모집단의기초통계량 구분 최소값 최대값 평균 표준편차 건물면적 ( 단위 : m2 ) 23.34 245.2 101.83 45.22 최고층 ( 단위 : 층 ) 3 69 19 12 총세대수 ( 단위 : 호 ) 100 5,040 506 593 준공년도 ( 단위 : 년 ) 1,976 2,016 1,996 10 지하철역거리 ( 단위 :m) 50 2,660 446.83 435.63 3. 분석방법 본연구에서는동일표본 (matched sample) 방식에기초한지수산정방법을활용하여 부동산가격지수를산정한다. 부동산가격지수산정을위한실증분석은 < 그림 2> 와같은 절차에진행된다. < 그림 2> 실증분석절차 2) 아파트실거래가자료는국토교통부실거래가공개시스템 (rt.molit.go.kr), 조사모집단은부동산테크 (www.ret.co.kr) 를이용하였다. 조사모집단에포함된아파트의실거래가자료만을활용하였다.
62 住宅硏究제 26 권제 4 호 먼저표본설계를위해부동산테크에서시세를제공하는강남구아파트를모집단으로설정하였으며이로부터표본주택을추출한다. 머신러닝방법인 RF와 DNN을이용하여표본주택의가격을산정하였으며학습기간은 1개월, 3개월, 6개월, 12개월로구분하여시점별표본가격을산정하였다. 예를들어 2017 년 12월의표본가격을산정한다고가정했을때학습기간이 12개월이면 2017년 1월부터 2017년 12월까지의실거래자료가활용되며, 학습기간이 3개월이면 2017년 10월부터 2017년 12월까지의실거래자료가활용된다. RF와 DNN의투입변수 (input variables) 로는건물면적, 입지층, 총세대수, 경과년수, 경과년수제곱, 지하철역과의거리, 출력변수 (output variable) 로는거래가격이활용된다. 머신러닝모형은초모수 (hyper-parameter) 의설정에따라모형의성능이달라지기때문에최적의모형을결정하기위한초모수탐색과정이필요하다. 본연구에서는최적의모형을위한초모수를찾기위해그리드서치 (grid search) 를이용하였다. 그리드서치는초모수의범위를설정해주면컴퓨터가각초모수의조합에따른오차를계산하고최적의초모수를제시해주는방법으로시행착오법과유사한방법이다. 그리드서치를통한초모수결정과정에는 k-겹교차검증이함께활용된다. k-겹교차검증은훈련데이터를 k등분하고등분된훈련데이터중 k-1개를훈련데이터로사용하고나머지 1개의데이터를이용하여모형의성능을검증하는방법이며, 등분된숫자만큼검증 주 : E 는예측에러 (prediction error) 을의미하며, 본연구에서는 값이활용됨. 자료 : https://sebastianraschka.com/faq/docs/evaluate-a-model.html < 그림 3> k- 겹교차검증의과정
표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 63 데이터가존재하기때문에 k번의검증과정이이루어지게된다. 본연구에서는 3겹교차검증을이용하였으며, k-겹교차검증과정은 < 그림 3> 과같다. 부동산가격지수산정방법으로 KAB지수와동일하게제본스지수산정방법을활용하였으며이는식 (2) 와같다. 는 지역의가격지수이며 는 표본의기준시점산정가격, 는 표본의비교시점산정가격이며 는표본 의가격변동률이며표본의가격변동률 을기하평균하여가격지수를산정하게된다. 지수산정에있어서기준시점은 KAB 지수와 동일하게 2017 년 11 월로결정하였다. (2) Ⅳ. 실증분석 1. 표본설계 부동산테크에서시세를제공하는강남구아파트단지를조사모집단으로설정하였으며, 이로부터표본주택을선정하였다. 먼저동일한규모의가구들로구성한집락을 1차추출단위로활용하며, 무작위로추출된단지를 2차추출단위로활용하게된다. < 표 3> 과같이조사모집단을규모에따라 5개집락으로구분하였으며, 각집락별로배분된단지수만큼무작위추출을통해조사단지를선정하였다. 그리고선정된조사단지별로층을기준으로무작위추출을통해 2호씩표본주택을선정하였다. 3) 3) 국토해양부 (2012) 는전국주택가격동향조사를위한아파트표본설계를위해주택규모를기준으로 5개층으로구분한후층화 2단집락추출법 (stratified 2nd stage cluster sampling) 을사용하여표본을추출하였으며, 강남구의조사모집단은 109,450호, 조사표본은 130호이다 ( 표본단지는 65 단지이며, 단지별 2호를표본호로선정, 65단지 x 2호 = 130호 ).
64 住宅硏究제 26 권제 4 호 < 표 3> 조사모집단및표본주택 구분 조사모집단표본주택세대수비율표본단지표본호 소형 60m2이하 27,572 28.3% 18 36 중소형 60m2초과 ~85m2이하 31,734 32.6% 22 44 중형 85m2초과 ~102m2이하 5,414 5.6% 4 8 중대형 102m2초과 ~135m2이하 18,588 19.0% 12 24 대형 135m2초과 14,077 14.5% 9 18 합계 83,308 85.5% 56 112 2. 표본가격및부동산가격지수산정 부동산가격지수산정을위해서는시점별표본주택의가격산정이필요하다. 이를위해머신러닝방법인 RF와 DNN을이용하여표본주택의시점별가격산정을시도하였다. 머신러닝은모형의최적화를위해초모수에대한결정이필요하다. RF의중요초모수는 tree의개수이며, DNN의중요초모수는은닉층 (hidden layer) 의개수, 은닉층내뉴런 (neuron) 의개수, 활성화함수 (activation function), 최적화방법 (optimizer method), 초기화 (initialization) 방법, 드랍아웃 (dropout) 등이있다. 중요초모수를변화시키면서그리드서치와 k-겹교차검증을통해 값을기준으로최적의초모수조합을결정하였다. 4) 데이터의학습기간이 1개월, 3개월, 6개월, 12개월로상이하기때문에시점별최적초모수의조합이상이할수있다. 이에따라시점별로최적의모형을결정한후시점별표본주택가격을산정하였다. 5) 4) RF는트리수를변화시키면서최적모형을결정하였고, DNN은은닉층의개수는 3개, 활성화함수는렐루함수 (Relu function), 최적화방법은 ADAM 알고리즘으로결정한상태에서은닉층내뉴런의수와드랍아웃비율을변화시키면서최적모형을결정하였다. 5) DNN은하나의초모수조합당 100회의시행을반복하기때문에시점별로최적모형을선택하게되면분석시간이지나치게너무오래걸리는문제점이있었기때문에, 전체데이터 (3년간의데이터 ) 를기준으로최적모형을결정하였으며, RF만분석시점별최적모형을결정하는절차를거쳤다.
표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 65 < 표 4> RF 및 DNN의평균 MAE 및 RMSE 구분 RF DNN MAE RMSE MAE RMSE 1개월 1,197 1,885 1,589 2,295 3개월 604 1,030 1,457 2,121 4개월 570 899 1,381 1,988 12개월 523 806 1,327 1,886 평균 724 1,155 1,439 2,073 훈련데이터를기준으로 RF와 DNN에의해결정된최적모형의평균 MAE 및 RMSE는 < 표 4> 와같이 760~2,111 만원이다. 실거래자료의평균주택가격이 112,791만원인점을감안했을때머신러닝모형에의해산출된가격과실제가격은평균적으로약0.6~1.8% 정도의차이를보이는것으로나타났다. RF와 DNN에의해산출된표본주택가격을이용하여산정된부동산가격지수는 < 표 5> 및 < 그림 4> 와같다. RF지수와 DNN지수는전반적인방향성은대체로유사한모습을보여주고있으나변동성은 RF지수보다 DNN지수가더큰것으로나타났다. 또한머신러닝가격지수는학습기간이짧아질수록변동성이커지는것으로나타났는데이는시점별표본주택가격산정에있어서학습기간이길어질수록학습데이터의중복비율이높아지기때문인것으로이해된다. 예를들어학습기간이 12개월인경우 2015년 12월과 2016년 1 월의지수를산정하게되면, 학습데이터는각각 2015 년 1월 ~2015 년 12월, 2015 년 2 월 ~2016년 1월 을활용하게되어 11개월분량의학습데이터가서로중복된다. 절대적인가격수준은학습기간에따라다소차이를보이고있다. 기준시점 (2017년 11 월 ) 과비교했을때학습기간이 6개월또는 12개월인경우는 KAB지수및실거래가격지수보다가격수준은대체로높은것으로나타나고있으나학습기간이 1개월또는 3개월인경우는 KAB지수및실거래가격지수보다대체로낮은가격수준을보여주고있다. 이것역시학습기간에따른과거데이터의영향력차이로인해발생하는것으로판단된다.
66 住宅硏究제 26 권제 4 호 < 표 5> DNN 지수, RF 지수, KAB 지수, 실거래가격지수 (SPI) 구분 KAB SPI RF 가격지수 DNN 가격지수 1 개월 3 개월 6 개월 12 개월 1 개월 3 개월 6 개월 12 개월 15.01 82.3 145.0 87.1 87.4 15.02 82.9 146.4 92.3 89.7 15.03 84.0 147.9 91.7 86.8 91.8 87.2 15.04 84.8 149.2 93.9 91.7 94.1 93.2 15.05 85.5 150.1 84.9 86.8 84.6 88.6 15.06 86.4 151.0 84.6 84.3 92.0 84.1 85.3 92.4 15.07 87.3 152.5 91.0 86.4 92.8 89.8 88.3 93.7 15.08 88.1 154.1 86.6 86.7 93.3 86.4 87.8 93.1 15.09 88.7 154.9 89.6 90.7 94.7 89.8 91.9 95.5 15.10 89.1 156.1 92.8 90.7 94.9 92.0 91.9 95.3 15.11 89.7 156.1 90.6 91.0 95.2 89.7 91.5 96.0 15.12 90.0 155.2 90.1 90.4 97.9 93.9 89.3 89.2 97.5 93.1 16.01 89.7 155.8 94.8 89.9 98.1 93.9 92.8 89.6 98.4 93.7 16.02 89.5 156.5 92.9 91.3 98.1 94.1 92.5 93.2 99.8 92.7 16.03 89.5 156.7 96.0 93.3 97.1 94.3 93.4 94.3 97.7 94.1 16.04 89.8 157.6 86.7 87.0 94.0 93.4 86.7 88.7 94.6 92.3 16.05 90.4 158.6 91.2 87.3 94.1 93.7 89.2 88.9 94.1 92.8 16.06 91.4 160.2 94.2 87.6 94.4 94.5 94.0 88.7 94.2 93.5 16.07 92.1 162.3 92.4 90.9 94.5 94.6 91.9 92.8 95.1 93.3 16.08 92.8 164.3 90.3 90.3 94.6 94.8 90.5 91.2 95.7 93.8 16.09 93.7 166.2 96.2 90.5 95.1 94.0 94.6 92.2 96.0 92.6 16.10 95.2 167.9 93.2 91.0 97.7 94.1 92.5 91.1 99.1 93.5 16.11 95.6 168.1 95.5 92.7 97.6 93.8 94.9 93.2 99.0 93.0 16.12 95.4 167.3 88.8 93.0 97.7 93.9 90.8 95.1 98.4 93.9 17.01 95.2 167.4 93.9 93.8 97.9 93.9 93.3 95.2 99.3 92.7 17.02 95.2 167.7 94.9 95.3 102.2 95.8 93.2 98.9 102.7 94.6 17.03 95.6 169.0 91.8 95.8 102.3 95.9 90.4 95.4 102.9 94.3 17.04 95.9 170.0 96.0 95.7 102.7 98.9 95.2 97.7 103.5 99.4 17.05 96.4 172.4 92.8 93.0 102.0 99.5 91.0 93.6 101.8 97.9 17.06 98.0 175.4 90.1 91.8 100.6 98.9 88.7 92.3 100.8 97.1 17.07 98.3 179.1 89.9 92.1 100.3 98.8 91.6 92.0 100.7 97.3 17.08 99.1 178.5 99.3 90.4 99.0 98.9 100.0 90.9 100.2 98.4 17.09 98.9 179.3 98.2 91.1 99.2 99.2 100.0 91.7 99.2 98.5 17.10 99.3 181.0 96.3 98.6 99.4 99.3 93.6 100.5 100.0 98.6 17.11 100.0 182.2 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 17.12 101.7 183.4 93.9 97.5 100.8 100.6 96.4 97.8 103.0 99.0 주 : 기준시점은 2017년 11월임.
표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 67 3. DNN 지수및 RF 지수의적정성검토 < 그림 4> 에서 2015.12~2017.12까지의장기추세를보면대체로우상향하는모습을보여주고있으며특히학습기간이 12개월인경우 KAB지수및실거래가격지수와비교적유사한양상을보여주고있다. 하지만월별변동성에서는 KAB지수및실거래가격지수와상당한차이를보여주고있다. 6) < 학습기간 1 개월 > < 학습기간 3 개월 > < 학습기간 6개월 > < 학습기간 12개월 > 주 : 분석기간이중복되는 2015년 12월부터 2017년 12월까지의가격지수이며, 실거래가격지수 (SPI) 는 2017년 11월을기준시점으로변환후그래프작성하였음. < 그림 4>DNN지수, RF지수, KAB지수및실거래가격지수 (SPI) 비교 6) 비교대상인 KAB지수는강남구의아파트매매가격지수이며, 실거래가격지수는서울전체아파트를기준으로작성된지수이다.
68 住宅硏究제 26 권제 4 호 이용만ㆍ이상한 (2008) 은 지수의평활화 는정책자및투자자들에게위험을과소평가함으로써문제를야기할수있다는점을지적한바있으며, 이런측면에서부동산가격지수의평활화여부는지수의적합성및활용가능성을판정하는데있어서중요한기준이될수있다. 지수의평활화여부는실거래가격지수변동률과의관계를분석하여판단하는데표준편차분석, 부분조정모형, 시간변동계수모형등을통해확인할수있다. 박연우ㆍ방두완 (2011) 은실거래아파트가격지수의변화율인 이평가기반아파트가격지수의 변화율인 에미치는영향을추정한식 (3) 과같은부분조정회귀모형을이용 하여지수의평활화여부를분석하였다. 식 (3) 의 값은통해평가기반지수가실거래지수 변화율을얼마만큼반영하는지를확인할수있다. 값이클수록상대적으로평활화정도가 낮은것으로이해할수있다. (3) < 표 6> 은실거래가격지수, KAB 지수, KB 지수, RF 지수및 DNN 지수의지수변동률에 대한평균및표준편차이다. RF 지수와 DNN 지수는 KAB 지수및 KB 지수보다변동성이더 < 표 6> 지수변동률에대한평균및표준편차 구분 평균 표준편차 실거래가격지수 0.010118 0.010473 KAB 지수 0.006047 0.005317 KB 지수 0.005092 0.004009 RF1 0.002148 0.048124 RF3 0.003523 0.028223 RF6 0.003045 0.013352 RF12 0.002872 0.008333 DNN1 0.002800 0.043318 DNN2 0.003476 0.033314 DNN6 0.003620 0.014940 DNN12 0.002560 0.015020
표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 69 큰것으로나타났다. 실거래가격지수와비교하면, 학습기간 12개월을적용한 RF지수를제외한모든경우에서 RF지수및 DNN지수의변동성이더큰것으로나타났다. < 표 7> 은식 (3) 을이용한부분조정회귀모형의추정결과이다. KAB지수, KB지수는 가모두유의한것으로나타났다. KAB지수는 KB지수보다 값이더크기때문에실거래가격의변동추세를더많이반영하고있는것으로나타났다. 반면 RF지수및 DNN지수는 값이모두유의하지않은것으로나타났으며, 조정된 값역시매우낮거나음수값이산출되어 < 식 3> 을통해서는실거래가격지수의변동률과 RF지수및 DNN지수변동률과의관계를분석하는것이적합하지않은것으로나타났다. 7) 부분조정회귀모형에서는 RF지수및 DNN지수는실거래가격지수와관련성을확인하기어렵다. 이러한결과는첫째, RF지수및 DNN지수산정에있어서재료가되는표본주택가격이정성적인분석없이산출되었다는점, 둘째, 머신러닝에의한표본가격산정시적용된거래사례들이시점에따른가중치가반영되지않은점때문인것으로판단된다. < 표 7> 부분조정회귀모형분석결과 구분 KAB 0.0007 0.005 *** 0.3123 0.000 *** 0.2918 KB 0.0006 0.000 *** 0.2232 0.000 *** 0.2755 RF1 0.0025 0.317-0.9889 0.260 0.0090 RF3 0.0015 0.331-0.3444 0.509-0.0175 RF6-0.0010 0.147-0.2010 0.408-0.0102 RF12 0.0007 0.165-0.0551 0.734-0.0398 DNN1 0.0019 0.391-0.6452 0.417-0.0095 DNN3 0.0020 0.257-0.6149 0.314 0.0014 DNN6 0.0009 0.246-0.0855 0.754-0.0320 DNN12 0.0012 0.186-0.3084 0.286 0.0084 7) 실거래가격지수, KAB지수는한국감정원부동산통계정보 (www.r-one.co.kr), KB지수는 KB부동산 Live ON(nland.kbstar.com) 에서확인가능하다.
70 住宅硏究제 26 권제 4 호 V. 결론 본연구는지수산정방식에초점이맞춰져있던기존연구와달리지수산정의재료가되는표본가격산정에초점을맞췄다는점, 부동산가격지수산정과정에있어서머신러닝방법을활용하였다는점, 새로운부동산가격지수로서머신러닝가격기반부동산가격지수의활용가능성을검토하였다는점에서의의가있다. 본연구의결과를요약하면다음과같다. 첫째, RF지수와 DNN지수는서로유사한모습을보이고있으며, 학습기간에따라변동성이달라지는것으로나타났다. 둘째, RF지수및 DNN지수는 KAB지수비교했을때장기적인추세는유사하나단기적추세에있어서는상당한차이를보이는것으로나타났다. 셋째, RF지수및 DNN지수는 KAB지수, KB지수, 실거래가격지수보다변동성이큰것으로나타났으며, 실거래가격지수와의관련성은확인할수없었다. 본연구의시사점은다음과같다. RF지수및 DNN지수는장기간추세에있어서는 KAB 지수및실거래가격지수와유사성이있으며상당한변동성을보여주고있으나, 실거래가격지수변동률과의관련성을확인할수없기때문에시장상황을적절히반영한다고인정하기어렵다. 이러한결과는 RF지수및 DNN지수는단순히정량적인분석만을기반으로작성되었기때문인것으로이해된다. 하지만 RF지수및 DNN지수는기존가격지수와비교했을때변동성이크고, 표본주택가격산출에있어서조사자의주관이개입될여지가없기때문에해당시점의가격을비교적객관적으로산출할수있는방법이라고할수있다. 따라서현행부동산가격지수산출에있어서참고자료로활용함으로써시장조사자또는분석가들의판단에도움을줄수있을것으로기대된다. 또한, 머신러닝에의해산출된표본가격에대한조사자의정성적분석이더해진다면기존가격지수를개선할수있는새로운가격지수로서의활용가능성역시높을것으로기대된다. 지수의타당성은산출된부동산가격지수가실제부동산가격추세를얼마나적절히반영하고있는지여부이다. 본연구는적용된학습기간에따라지수의추이가상이한데적절한학습기간결정에대한기준을제시하지못하고있다는점에서도한계점이있다. 학습데이터의기간이짧아질수록최근의가격추세를반영할가능성은높으나상대적으로데이터의양이부족하기때문에가격의변동성이증가할가능성이높다. 반면학습데이터의기간
표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 71 이길어지는경우데이터의양이증가하기때문에가격의변동성은감소할가능성은높으나상대적으로최근의가격추세를반영하기어렵거나지수가평활화될가능성이높아진다. 따라서안정적인가격의변동성을확보하면서시장의가격추세를반영하기위해서는적절한학습기간의결정방법과최근자료의영향력을높일수있는방법에대한추가적인연구가필요하다. 본연구는모형을어떻게최적화할것인가하는머신러닝의근본적인문제점과함께최소한의특성자료만을이용하여표본주택가격을산정하였다는점에서한계점이있다. 또한본연구는실거래자료를활용하여부동산가격지수를산정하였는데실거래자료의노출시간을고려하면적시성있는가격지수산정이어렵다는문제점이있다. 다만, 최근에는부동산정보사이트를통한매물자료의수집이가능하다는점에서실거래자료뿐만아니라매물자료를함께활용한다면적시성있는가격지수산정이가능할것으로기대된다. 참고문헌 1. 구성관ㆍ홍석민, 심층신경망을활용한활주로가시거리예측모델개발, 한국항해학회논문지, 제21권제5호, 한국항해학회, 2017, pp. 435-442. 2. 김재익ㆍ김달호ㆍ서안나ㆍ조애정, 반복매매모형에기반한아파트실거래가격지수의산정방식비교 : 표본산정방식과하위지수병합방식을중심으로, 주택연구, 제23권제4호, 한국주택학회, 2015, pp. 47-71. 3. 국토해양부, 전국주택가격동향조사표본및통계개편방안연구, 2012. 4. 류강민ㆍ박유미ㆍ이창무, 비선형회귀분석을이용한산술평균반복매매지수산정방법에관한연구, 주택연구, 제17권제4호, 한국주택학회, 2009, pp. 259-278. 5. 류강민ㆍ이상영, S&P/Case-Shiller 반복매매모형을이용한주택가격지수산정에관한연구, 주택연구, 제18권제2호, 한국주택학회, 2010, pp. 183-204. 6. 류강민ㆍ최성호ㆍ이상영, 서울시단독다가구연립다세대의중위수지수산정에관한연구, 부동산학연구, 제18권제2호, 한국부동산분석학회, 2012, pp. 57-72. 7. 류강민ㆍ한제선ㆍ정상준ㆍ이창무, TPL을이용한일단위실거래가격지수산정방법에관한연구, 주택연구, 제25권제2호, 한국주택학회, 2017, pp. 5-23. 8. 민성욱, 딥러닝을이용한주택가격예측모형연구, 강남대학교박사학위논문, 2017.
72 住宅硏究제 26 권제 4 호 9. 박연우ㆍ방두완, 평가기반아파트가격지수에서의비대칭평활화현상에관한연구, 주택연구, 제19권제2호, 한국주택학회, 2011, pp. 23-46. 10. 배성완ㆍ유정석, 딥러닝을이용한부동산가격지수예측, 부동산연구, 제27집제3 호, 한국부동산연구원, 2017, pp.71-86. 11. 배성완ㆍ유정석, 기계학습을이용한공동주택가격추정 : 서울강남구를사례로, 부동산학연구, 제24권제1호, 한국부동산분석학회, 2018a, pp. 69-85. 12. 배성완ㆍ유정석, 머신러닝방법과시계열분석모형을이용한부동산가격지수예측, 주택연구, 제26권제1호, 한국주택학회, 2018b, pp. 107-133. 13. 유진은, 랜덤포레스트 : 의사결정나무의대안으로서의데이터마이닝기법, 교육평가연구, 제28권제2호, 한국교육평가학회, 2015, pp. 427-448. 14. 이창로, 비모수공간모형과앙상블학습에기초한단독주택가격추정, 서울대학교박사학위논문, 2015. 15. 이창무ㆍ김병욱ㆍ이현, 반복매매모형을활용한아파트매매가격지수, 부동산학연구, 제8권제2호, 한국부동산분석학회, 2002, pp. 1-19. 16. 이용만, 주택가격지수의목적과방법을둘러싼쟁점 - 실거래가격에기초한지수를중심으로, 부동산학연구, 제13권제3호, 한국부동산분석학회, 2007, pp. 147-167. 17. 이용만ㆍ이상한, 국민은행주택가격지수의평활화현상에관한연구, 주택연구, 제 16권제4호, 한국주택학회, 2008, pp. 27-47. 18. 이해경ㆍ방송희ㆍ이용만, 경매시장의주택가격지수추정에관한연구 - 강남3구의아파트를중심으로, 부동산학연구, 제16권제2호, 한국부동산분석학회, 2010, pp. 101-117. 19. Bailey, M. J., R. F. Muth and H. O. Nourse, A Regression Method for Real Estate Price Index Construction, Journal of American Statistical Association, Vol. 58, 1963, pp. 933-942. 20. Berry, B. and R. Bednarz, A Hedonic Model of Prices and Assessments for Single-Family Homes: Does the Assessor Follow the Market or the Market Follow the Assessor?, Land Economics, Vol. 51 No. 1, 1975, pp. 21-50. 21. Bourassa, S. C., M. Hoesli and J. Sun, A Simple Alternative House Price Index Method, Journal of Housing Economics, Vol. 15, 2006, pp. 80-97.
표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 73 22. Brieman, L., Random forests, Machine learning, Vol. 45 No. 1, 2001, pp. 5-32. 23. Case, K. E, and R. J. Shiller, Prices of Single Family Home Since 1970: New Indexes for Four Cities, New England Economics Review, 1987, pp. 45-56. 24. Goolsby, W., Assessment Error in the Valuation of Owner-Occupied Housing, Journal of Real Estate Society, 1997, pp. 33-45. 25. Hinton, G. E., S. Osindero and Y. W. Teh, A Fast Learning Algorithm for Deep Belief Nets, Neural Computation, Vol. 18 No. 7, 2006, pp. 1527-1554. 26. Lancaster, K. J., A New Approach to Consumer Theory, Journal of Political Economics, Vol. 74 No. 2, 1966, pp. 132-157. 27. Rosen, S., Hedonic Prices and Implicit Markets: Product Differentiation in Pure Competition, Journal of Political Economy, Vol. 82, 1974, pp. 34-55. 28. nland.kbstar.com, KB부동산 Live ON 29. rt.molit.go.kr, 국토교통부실거래가공개시스템 30. www.ret.co.kr, 부동산테크 31. www.r-one.co.kr, 한국감정원부동산통계정보 32. sebastianraschka.com/faq/docs/evaluate-a-model.html, Dr. Sebastian Raschka 접수일 2018. 06. 05. 심사일 2018. 06. 18. 심사완료일 2018. 10. 12.
74 住宅硏究제 26 권제 4 호 국문요약 표본주택가격기반부동산가격지수산정 : 머신러닝방법의활용을중심으로 본연구의목적은 머신러닝에의한표본주택가격 을기반으로부동산가격지수를산정하는것이다. 머신러닝방법인랜덤포레스트 (random forest) 와심층신경망 (deep neural networks) 을활용하여표본주택의가격을산정하였으며, 제본스지수 (Jevons index) 산정방법을이용하여부동산가격지수를산정하였다. 연구결과첫째, RF지수와 DNN지수는서로유사한모습을보이고있으며, 학습기간에따라변동성이달라지는것으로나타났다. 둘째, RF지수와 DNN지수는 KAB지수와비교했을때장기적추세는유사하나단기적추세는상당한차이를보이는것으로나타났다. 셋째, KAB지수, KB지수, 실거래가격지수보다변동성이큰것으로나타났으며, 실거래가지수와의관련성은확인할수없었다. RF지수와 DNN지수는에대한조사자의정성적분석이더해진다면기존가격지수를개선할수있는새로운가격지수로서의활용가능성이높을것으로기대된다.