1) < 論文 > 머신러닝방법과시계열분석모형을이용한부동산가격지수예측 107 주택연구제 26 권 1 호 2018. 02.: 107~133 Housing Studies Review Vol. 26, No. 1: 107~133 http://dx.doi.org/ 10.24957 / hsr.2018.26.1.107 머신러닝방법과시계열분석모형을이용한부동산가격지수예측 Predicting the Real Estate Price Index Using Machine Learning Methods and Time Series Analysis Model 배성완 (Seong-Wan Bae) * ㆍ유정석 (Jung-Suk Yu) ** < Abstract > This study aims to explore the feasibility of using machine learning methods to forecast the real estate price index. To do so, machine learning methods, such as support vector machine, random forest, gradient boosting regression tree, deep neural networks, and long short term memory networks (LSTM), and the time series analysis methods such as the autoregressive integrated moving average model (ARIMA), the vector autoregression model (VAR), and the Bayesian vector autoregressive model (Bayesian VAR), were used to predict the real estate price index for apartments. The following were the main findings of the comparison of their predictive abilities. First, the predictive power of machine learning methods is superior to that of the time series analysis methods. Second, in a stable market situation, both machine learning and time series analysis methods can predict market trends moderately well. Third, when the market undergoes a dramatic change due to structural changes or external shocks, the machine learning method can accurately predict market trends for the most part, whereas the time series analysis method fails to do so. Thus, the accuracy of real estate market forecasts can be expected to improve with the use of machine learning methods. 키워드 : 머신러닝, 부동산가격지수, 예측, 시계열분석 Keyword : Machine Learning, Real Estate Price Index, Predicting, Time Series Analysis * 단국대학교일반대학원도시계획및부동산학과박사수료, swbae618@gmail.com, 제1저자 ** 단국대학교사회과학대학도시계획부동산학부부교수, jsyu@dankook.ac.kr, 교신저자
108 住宅硏究제 26 권제 1 호 I. 서론 국가ㆍ기업ㆍ가계가보유한자산중에서가장큰비중을차지하는것이부동산이다. 부동산에편중된자산구조로인해부동산가격변동은국가ㆍ기업ㆍ가계의경제상황에큰영향을미치게된다. 이로인해부동산가격의상승또는하락여부는주요관심사항이며, 부동산가격변화에대비하기위해다양한방법을이용한부동산시장예측이시도되고있다. 부동산시장예측은주로시계열분석모형을이용하여부동산가격지수를예측하는방식으로이루어진다. 하지만시계열분석모형은선형모형을가정하기때문에비현실적이고예측효율성이떨어진다는문제점이있어새로운분석방법적용의필요성이제기되고있다 ( 배성완ㆍ유정석, 2017). 최근주목받고있는머신러닝 (machine learning) 방법은비선형추정기법으로분류 (classification) 와회귀 (regression) 분야에서활발한연구와좋은성과를보여주고있다는점에서부동산가격지수예측과관련해서도활용가능성이높을것으로기대된다. 1) 본연구의목적은부동산가격지수예측을위한머신러닝방법의적용가능성을확인하는것으로서, 이를위해시계열분석모형과머신러닝방법의예측력을비교분석하였다. 본연구를위한분석자료로서종속변수는부동산가격지수인아파트매매실거래가격지수를이용하였고, 설명변수는회사채수익률, 소비자물가지수, 통화량, 광공업지수를이용하였다. 분석지역은서울지역, 분석기간은 2006년 1월부터 2017년 8월까지로설정하였다. 분석방법은시계열분석모형인자기회귀이동평균모형 (autoregressive integrated moving average model, ARIMA), 벡터자기회귀모형 (vector autoregression model, VAR), BVAR 모형 (bayesian VAR) 과머신러닝방법인서포트벡터머신 (support vector machine, SVM), 랜덤포레스트 (random forest, RF), 그래디언트부스팅회귀트리 (gradient boosting regression tree, GBRT), 심층신경망 (deep neural networks, DNN), LSTM(long short term memory networks) 을이용하였다. 본연구의구성은다음과같다. 2장은이론적고찰및선행연구검토로서머신러닝에대한개념과관련선행연구를검토하고, 3장에서는본연구에적용할분석모형, 분석자료 1) 머신러닝방법은문자인식, 영상인식, 음성인식, 날씨예측, 주가지수예측, 강수량예측등다양한분야에서연구및활용되고있다.
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 109 및분석방법에대해고찰한다. 4 장은실증분석으로시계열분석모형과머신러닝방법의 예측력을비교ㆍ분석하고. 5 장에서는분석결과를바탕으로결론과시사점, 한계점과향후 과제에대해설명한다. II. 이론적고찰및선행연구검토 1. 머신러닝이란? 머신러닝 (machine learning) 은인공지능의한분야로서, 컴퓨터가학습할수있도록하는알고리즘과기술을개발하는분야로서, 알고리즘을이용해데이터를분석하고, 분석을통해학습하며, 학습한내용을기반으로판단이나예측을한다 ( 이요섭ㆍ문필주, 2017). 머신러닝은학습방법에따라지도학습 (supervised learning) 과비지도학습 (unsupervised learning) 으로구분할수있다. 지도학습은입력값과출력값을가지고있는자료를이용한학습을통해경험하지못한데이터나미래의데이터에관해예측하는학습알고리즘으로분류 (classification) 또는회귀 (regression) 분석에이용된다. 지도학습의대표적학습알고리즘은 SVM, 의사결정나무 (decision tree), 인공신경망 (artificial neural netwroks, ANN), 릿지회귀 (ridge regression), 라쏘회귀 (lasso regression) 등이있다. 비지도학습은출력값을알수없는데이터를컴퓨터가스스로학습하여데이터내부의패턴과관계를찾아내는학습알고리즘으로주성분분석 (principal component analysis, PCA), 비음수행렬분해 (non-negative matrix faxtorization, NMF), k-평균군집 (k-means), DBSCAN(densitybased spatial clustering of applications with noise) 등이있다. 지도학습과비지도학습의가장큰차이점은결과값이주어진데이터를이용하여학습하는지여부이다. 본연구는지도학습방식의머신러닝방법중에서 SVM, RF, GBRT, DNN, LSTM을이용하였다. 2. 선행연구검토 김근용 (1998) 은 ARIMA 모형과상태공간모형의예측력을비교하였다. 주택가격지수는 ARIMA 모형이전세가격지수는상태공간모형이적합도가더높게나타났다.
110 住宅硏究제 26 권제 1 호 손정식외 (2002) 는 ARIMA모형과 VAR모형을이용하여주택매매가격변동률과전세가격변동률및지가변동률에대한예측을시도하였으며, VAR모형의예측력이 ARIMA모형보다우수하다는것을확인하였다. 임성식 (2014) 은자기회귀오차모형, ARIMA모형, 개입분석모형을이용하여주택가격지수예측을시도하여모형간예측력을비교하였다. 분석결과개입분석모형, ARIMA 모형, 자기회귀오차모형순으로예측력이우수한것을확인하였다. 김성환외 (2016) 는베이지언 (bayesian) 개념을도입하여기존 VAR모형의한계로지적되고있는 차원수의저주 (curse of dimensionality) 를극복하고, 공간적영향을고려하여변수간가중치를상관계수로적용하여아파트실거래가지수에대한예측을시도하였다. VAR, VEC, BVAR, BVEC, Correlate BVAR, Correlate BVEC, RVAR, RVEC, Correlate RVAR, Correlate RVEC 모형을이용한분석결과 Correlate RVEC의활용가능성을확인하였으며, 시차에따라모형별예측력이상이하다는결과를보고하고있다. 함종영ㆍ손재영 (2016) 은 VAR모형과베이지언 VAR모형을이용하여주택매매가격지수에대한예측을시도하였다. 베이지언 VAR모형은일부구간에서 VAR모형보다예측력이다소떨어지는것으로나타났으나, 전반적으로는베이지언 VAR모형의예측력이단순 VAR모형보다우수한것을보고하고있다. 특히베이지언 VAR모형에사전제약을강하게부과할수록전망의질이개선됨을확인하였다. 정원구ㆍ이상엽 (2007) 은 2개의은닉층으로구성된인공신경망을이용하여공동주택가격지수예측을시도하였다. 입력변수는거시경제변수와공동주택가격지수등총60개를이용하였다. 이형욱ㆍ이호병 (2009) 은 ARIMA모형과인공신경망모형을이용하여주택가격지수예측을시도하여, 인공신경망모형이 ARIMA모형보다예측력이우수하다는것을확인하였다. 민성욱 (2017) 은딥러닝방법을이용하여부동산가격지수예측을시도하였다. 투입변수예측을위한단일시계열자료분석결과선형회귀모형, SVM, RF보다인공신경망의예측력이더우수한것으로나타났다. 그리고부동산가격지수예측에는 2개의은닉층으로구성된인공신경망인다층퍼셉트론의예측력이가장우수하다는것으로확인하였다. 배성완ㆍ유정석 (2017) 은부동산가격지수를이용하여 ARIMA모형과딥러닝모형의예측력을비교하였다. 딥러닝모형중에서는 DNN과 LSTM 모형을이용하였으며, 분석결과 ARIMA
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 111 모형보다 DNN과 LSTM 의예측력이더우수한것을확인하였다. 딥러닝모형중에서는 DNN 이 LSTM 보다예측력이더우수한것으로나타났으나그차이는미미한것을보고하고있다. 부동산가격지수예측과관련하여시계열분석모형인 ARIMA모형, VAR모형또는벡터오차수정모형 (vector error correction model, VECM) 등을이용한분석이주를이루고있으며, 일부인공신경망또는딥러닝모형을이용한분석이시도되고있다. 전반적인연구결과는단일시계열모형인 ARIMA모형보다는다변량시계열분석모형인 VAR모형의예측력이우수한것으로나타나고있으며, 개입분석모형이나베이지언 VAR모형과같이기존시계열분석모형의문제점을보완또는개선한방법의예측력이기존시계열분석모형보다우수한것으로나타나고있다. 그리고인공신경망, SVM, RF, DNN, LSTM과같은머신러닝모형은 ARIMA모형, 회귀분석모형보다우수한예측력을보이는것으로나타고있다. 3. 선행연구와의차별성 최근머신러닝방법을이용한연구가여러분야에서활발하게이루어지고있으나, 부동산가격지수예측에적용된연구는다소부족한편이다. 본연구는첫째, SVM, 앙상블모형인 RF와 GBRT, 딥러닝모형인 DNN과 LSTM과같이다양한종류의머신러닝모형을적용하였다는점, 둘째, 단변량시계열분석모형인 ARIMA모형, 다변량시계열분석모형인 VAR모형및베이지언 VAR모형과머신러닝모형의예측력을비교하였다는점, 셋째, 안정적인시장상황과시장상황이급변하는시기를구분하여분석기법들의예측력을비교하였다는점에서선행연구와차별성을갖는다. III. 분석모형, 분석자료및분석방법 1. 분석모형 1) 서포트벡터머신 (support vector machine, SVM) SVM은 Vapnik(1996) 이제시한머신러닝방법으로분류 (classification) 또는회귀 (regression) 문제해결에이용이가능하다. SVM 선형회귀문제는 의
112 住宅硏究제 26 권제 1 호 를최소화하는것이다. 이를위해 (1) 을최적화해야하며, 슬랙 (slack) 변수인 와 를도입하여 (1) 을 (2) 와같이변환할수있다. (2) 에서상수인 C는추정오차에대한페널티로서 0보다큰수치로결정된다. C가크면오차는최소화되지만일반화수준은낮아지며, C 가작으면오차는증가하지만일반화수준은높아진다. 따라서 SVM모형의성능은 C를어떻게선택하는지에따라달라지게된다. (2) 는라그랑지승수 (lagrange multiplier) 를도입하여이를최대화시키는해를구함으로써최적화문제를해결할수있다. 2) minimize, subject to (1), subject to (2) 2) 랜덤포레스트 (random forest, RF) RF는 Breiman(2001) 에의해제시된앙상블학습 (ensemble learning) 모형으로부트스트랩 (bootstrap) 방식을이용하여다수의결정트리 (decision tree) 모형을결합시킨형태이다 ( 서종덕, 2016). 회귀트리모형은설명변수 를 개의지역 (region) 에서로겹치지않게분할하고, 지역에속하는관찰치에대해 지역관찰치평균값을예측치로제시하게된다 ( 이창로, 2015). 지역은잔차제곱합 (residual sum of squares) 이최소가되도록분할하되, 과적합문제를해결하기위해트리의규모를최대한키워놓고해당트리의가지를쳐가면서적정규모의트리를결정하게되며이는 (3) 을최소화하는것과같다 ( 이창로, 2015). (3) 에서 는트리 의가지 (terminal node) 수를, 은 번째가지에해당하는분할지역, 는동조파라미터 (tuning parameter) 로서 이면아무런패널티가없으므로최대트리가되며, 가커질수록트리규모는작아지게된다 ( 이창로, 2015). (3) 2) SVM 알고리즘에대한자세한설명은 Smola and Schölkopf(2004) 를참고하기바란다.
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 113 3) 그래디언트부스팅회귀트리 (gradient boosting regression tree, GBRT) GBRT는 RF와마찬가지로여러개의결정트리를결합시킨앙상블방법이다. RF와달리 GBRT는이전트리의오차를보완하는방식으로순차적으로트리를만들기때문에이전단계에서만들어진트리모양에많은영향을받는다. (4) 는상수항만으로구성된초기모델로서 는설명변수, 는종속변수, 는미분이가능한손실함수 (loss function) 이며, 아래 (5) 와같이유사잔차 (pseudo-residuals) 를 M번반복하여계산한다 ( 이창로, 2015). 그리고 (5) 와같이계산된유사잔차에대해기본학습자 (base learner) 인 를적합한후 (6) 의 을계산하고 (7) 과같이잔차를업데이트하게된다. 그리고 (4)~(7) 까지의과정을 M번반복한다 ( 이창로, 2015). arg (4) (5) arg (6) (7) DNN LSTM 출처 : 이영호ㆍ구덕회 (2017) 출처 : 김은희ㆍ오혜연 (2017) < 그림 1> DNN 과 LSTM 의구조도
114 住宅硏究제 26 권제 1 호 4) 심층신경망 (deep neural networks, DNN) 심층신경망은 < 그림 1> 과같이다수의은닉층을가지고있는인공신경망이다. 인공신경망은생물의뇌신경망을모형화한것으로층 (layer), 연결강도, 전이함수, 학습알고리즘등으로이루어진데이터처리시스템으로서입력값과출력값들을통해가중치들이반복적으로조정되어결국입력및출력자료간의관계가학습되는구조이다 ( 이우식, 2017). 다수의은닉층을가지고있는인공신경망은학습이되지않거나기울기가소실 (gradient vanish) 되는문제가있었으며이로인해인공신경망관련연구는한동안침체되었다. 하지만 Hinton et al.(2006) 이고안한신경망가중치의초기값설정방법인제약볼츠만머신 (restricted boltzman machine, RBM) 을통해다수의은닉층에서도학습이가능하게되었고, 인공신경망은딥러닝 (deep learning) 또는심층신경망 (deep neural network, DNN) 이라는명칭으로활발한연구가이루어지고있다. 3) 5) LSTM(Long Short Term Memory networks) 순환신경망 (recurrent neural network, RNN) 은일반적인인공신경망과달리신경망내부에기억된기존입력에대한은닉층값이다음입력값에대한출력시고려되기때문에순차적이거나시계열적인정보를효과적으로모델링할수있는특징을가지고있다 ( 이세희ㆍ이지형, 2016). 하지만 RNN은과거관측값에의존하는구조이기때문에기울기가소실 (vanishing gradient) 되거나기울기가매우큰값 (exploding gradient) 을가지게되는문제가있다 ( 안성만외, 2017). LSTM은 RNN의문제점을해결하기위해제시된방법으로서, 내부노드를메모리셀 (memory cell) 이라불리는형태로대체하여오랜기간동안정보를축적하거나이전정보를잊을수있도록고안된개폐장치를사용한다 ( 안성만외, 2017). LSTM의구조는 < 그림 1> 과같다. 각각의 LSTM블록내부는기억소자 (memory cell) 와입력게이트 (input gate), 잊기게이트 (forget gate), 출력게이트 (out gate) 로구성되어있다 ( 김양훈외, 2016). LSTM 내부에서는입력ㆍ잊기ㆍ출력게이트를통해기억소자에어 3) 최근에는 RBM보다성능이뛰어나고사용하기편한초기값설정방법이제시되고있다. He et al.(2015) 와 Glorot and Bengio(2010) 은초기값을 노드의입력값의숫자와출력값의숫자 를 입력값의숫자또는입력값의숫자를 2로나눈값 으로나눠서산출된값의범위에서랜덤하게결정하는방식을제시하고있다 ( 배성완ㆍ유정석, 2017).
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 115 떤정보가반영될지결정되며, 각단계의연산수식은식 (8)~ 식 (13) 과같다. tanh 는비 선형활성화함수, 는입력값, 는 시점의은닉변수, 는 시점의출력값, 는바이어 스 (bias), 와 는가중치를의미한다. 4) (8) (9) tanh (10) (11) (12) tanh (13) 2. 분석자료 2006년 1월부터 2017년 8월까지서울특별시전체기준아파트매매실거래가격지수 (SPI) 를분석대상으로한다. 주택시장과거시경제변수의관계를분석한선행연구에서는주로금리, 주가지수, 환율, 국내총생산, GDP성장률, 소비자물가지수, 전세가격지수, 통화량, 건축허가면적, 실거래가신고건수등이설명변수로활용되고있다. 송인호 (2015) 는주택시장과거시경제변수들간의종합적검증을위한이론적모형이나실증적모형이다소미진함을지적하면서소비자효용함수를통해이론적모형을제시하였고, 주택시장과거시경제변수의관계를주택소비, 주택매매가격지수, 금리, 인플레이션, 총생산등의변수를이용하여분석하고있다. 김문성ㆍ배형 (2015) 은주택매매가격지수와광공업생산지수, 회사채수익률, 통화량, 물가지수, 명목도시가계소비지출자료의관계분석을통해주택가격지수의순환주기변동과거시경제변수의영향을분석하고있다. 함종영ㆍ손재영 (2016) 은주택매매가격지수, 지가지수, 국내총생산, 소비자물가지수, 회사채수익률을이용하여 VAR모형및 Bayesian VAR모형의예측력비교를시도하였다. 본연구에서는기본적으로송인호 (2015) 가제시한이론적모형을기반으로하되, 기존선행연구에서사용된설명변수들의사용빈도등을고려하여회사채수익률 (CBD), 소비자물가지수 (CPI), 통화량 (M2), 광공업지 4) LSTM 모형에대한자세한설명은 Hochreiter and Schmidhuber(1997) 을참조하기바란다.
116 住宅硏究제 26 권제 1 호 수 (MMI) 를설명변수로선정하였다. 국내총생산 은분기별자료로서월자료로의변환이필 요하다는문제점이있기때문에동일한방향성을가지고있는광공업지수를총생산을대리 하는지표로선정하였다. 5) < 표 1> 기초통계량 구분평균중위수최대값최소값표준편차 SPI 아파트매매실거래가격지수 133.964 133.100 169.800 100.000 12.973 CBD 회사채수익률 9.232 8.750 12.400 7.720 1.274 CPI 소비자물가지수 93.118 95.574 103.480 79.306 7.288 M2 통화량 1,744,478 1,747,971 2,485,630 1,027,697 410,163 MMI 광공업지수 98.870 103.950 118.000 67.832 12.814 SPI CBD CPI M2 MMI 출처 : SPI는 www.r-one.co.kr, CBD, CPI, M2, MMI는 ecos.bok.or.kr임. 주 : 2006년 1월부터 2017년 8월까지의자료를그래프로표시함. < 그림 2> 적용변수변동추이 < 표 1> 는본연구에서사용된변수들의기초통계량이며 < 그림 2> 는각변수들의 2006년 1월부터 2017년 8월까지의변화양상을보여주고있다. 회사채수익률 (CBD) 을제외한모든변수가분석기간동안상승하는추세를보이고있으며, 아파트매매실거래가격지수 (SPI) 와광공업지수 (MMI) 는 2008년금융위기이후급락하는모습을보이고있다. 5) 아파트매매실거래가격지수 (SPI) 는 2006년 1월부터발표되었으며, CBD는회사채수익률 (3년, BBB-) 를적용하였다.
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 117 3. 분석방법 본연구는시계열분석방법과머신러닝방법의예측력을비교하여, 머신러닝방법의실제활용가능성을검토하는것이목적이다. 시계열분석모형중에서는단변량시계열분석모형인 ARIMA모형, 다변량시계열분석모형인 VAR모형, 베이지언 VAR모형을이용하였다. 베이지언 VAR모형은모수에대한사전적인제약방법에따라 4가지모형으로분류된다. 머신러닝방법은 SVM, RF, GBRT, DNN, LSTM모형을이용하였으며단변량시계열변수를적용한모형과다변량시계열변수를적용한모형으로구분하였고, 투입변수의형태는시계열분석모형과동일하다. 이에따라본연구에활용된모형은시계열분석모형은 6개, 머신러닝모형은 10개로구분할수있다. 6) 머신러닝방법은초모수 (hyper-parameter) 설정에따라모형의성능차이가발생하기때문에다른모형과의비교전에각방법별로최적의모형을선택할필요가있다. 이를위해본연구에서는 k겹교차검증 (k-fold cross validation) 방법을적용하였다. 이는훈련데이터를 k등분하고등분된훈련데이터중 k-1개를훈련데이터로사용하고나머지 1개의데이터를이용하여모형의성능을검증하는방법이며, 등분된숫자만큼검증데이터가존재하기때문에 k번의검증과정이이루어진다. 본연구에서는 10겹교차검증을적용하였다. 머신러닝방법별로초모수를변화시키면서 k겹교차검증에의해산출된평균절대값오차 (mean absolute error, MAE) 및평균제곱근오차 (root mean square error, RMSE) 의평균값이가장낮은모형을각방법별최적모형으로결정하였다. < 그림 3> 은 k겹교차검증과정을도식화한것이다. 시장상황에따라모형의예측력이상이할수있다는점에서분석기간을안정적인시장과불안정적인시장으로구분하였다. < 그림 2> 를보면 2008년에는금융위기로인해부동산가격이급락하였으며, 2015년부터최근까지지속적인상승세를보여주고있는것을알수있다. 이에따라기간 1은 2006년 1월 ~2016년 8월 (128개월) 을학습 (train) 데이터, 안정적인상승추세를보여주고있는 2016년 9월 ~2017년 8월 (12개월) 을시험 (test) 데이터로설정하였고, 기간 2는 2006년 1월 ~2008년 8월 (32개월) 을학습데이터, 구조적인변화또는시장충격으로시장이급변하는모습을보이고있는 2008년 9월 ~2009년 8월 (12 6) 본연구에적용된모형은 < 표 5> 및 < 표 6> 과같다.
118 住宅硏究제 26 권제 1 호 개월 ) 을시험데이터로설정하여시장상황에따른모형별예측력차이를비교 분석하였다. 시계열분석방법과머신러닝방법의예측력은각모형에따라산출된 MAE 및 RMSE와그래프를통해비교한다. 시계열분석모형은이뷰즈 (eviews), 머신러닝모형은파이썬 (python) 을실증분석을위한통계패키지로이용하였다. 출처 : https://sebastianraschka.com/faq/docs/evaluate-a-model.html 주 : E는예측에러 (prediction error) 을의미함. < 그림 3> k 겹교차검증과정 IV. 실증분석 1. 시계열분석모형 1) 단위근검정 불안정한시계열자료로분석할경우가성회귀 (spurious regression) 현상으로인해분석결과의신뢰성이떨어지게된다. 본연구는분석자료가시계열자료임을감안하여 ADF(Augmented Dickey-Fuller) 및 PP(Phillips-Perron) 단위근검정방법을이용하여자료의안정성여부를확인하였다. 단위근검정시정확성을높이기위해상수항과추세를갖지않는경우 (none), 상수항을갖는경우 (con.t), 상수항과추세를갖는경우 (con.t+trend) 를모두검정하였으며분석결과는 < 표 2> 와같다. 원시계열자료는대체로단위근이존재하는불안정한자료인것으로
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 119 나타났으며, 1 차차분된자료는단위근이없는안정적인자료인것으로확인되어 1 차차분 된자료를이용하여분석을진행하였다. 7) SPI 구분 수준변수 차분변수 none con.t con.t+trend none con.t con.t+trend ADF 1.118-2.324-2.889-4.804 *** -4.948 *** -4.934 *** PP 1.180-1.795-2.137-4.854 *** -4.888 *** -4.874 *** CBD ADF -0.167-1.515-1.838-7.284*** -7.254 *** -7.261 *** PP -0.358-1.411-1.599-7.258 *** -7.228 *** -7.223 *** CPI M2 MMI < 표 2> 단위근검정 ADF 5.608-2.579 * -0.774-2.242 ** -8.829 *** -9.321 *** PP 7.026-2.707 * -0.507-6.681 *** -8.768 *** -9.347 *** ADF 3.326-3.588 *** -2.375-1.369-3.820 *** -8.594 *** PP 9.948-3.440 ** -2.148-2.918 *** -8.290 *** -9.019 *** ADF 1.017-1.495-2.238-16.366 *** -16.406 *** -16.366 *** PP 1.386-1.84-2.853-16.781 *** -17.024 *** -17.033 *** 2) ARIMA 모형종속변수인아파트매매실거래가격지수 (SPI) 에대해자기상관함수및편자기상관함수를추정한결과, ARIMA(1,1,0), ARIMA(2,1,0) 이식별되었으며추가적으로 ARIMA(1,1,1) 을포함하여모수를추정하였다. 추정후잔차의계열상관성여부를 LM-test를통해검정하였으며잔차의계열상관성이없다는귀무가설을기각하지못한 ARIMA(1,1,1) 을최종모형으로선정하였다. 3) VAR 모형 VAR모형에서는각변수들의배열순서에따라분석결과가달라질수있는점을고려하여변수간의관계를확인하기위해그랜저인과분석을실시하였으며, 분석결과는 < 표 3> 과같다. 아파트매매실거래가격지수 (SPI) 와회사채수익률 (CBD), 소비자물가지수 (CPI) 는상호그랜저인과하는것으로나타났다. SPI는 M2, MMI에그랜저인과하고있으며, M2는 CBD 7) 원자료중 SPI, CPI, MMI는 X-12 ARIMA법으로계절조정하였으며, CBD를제외한모든변수는로그변환하였고, 머신러닝방법에서도차분된자료를적용하였다.
120 住宅硏究제 26 권제 1 호 < 표 3> 그랜저인과분석결과 Null F-statistic F-statistic F-statistic lag2 lag4 lag8 CBD SPI 7.209 *** 2.928 ** 1.546 SPI CBD 2.662 * 1.800 2.945 *** CPI SPI 0.679 1.011 1.845 * SPI CPI 2.325 2.591 ** 1.514 MMI SPI 0.777 0.974 0.624 SPI MMI 33.326 *** 16.442 *** 9.449 *** M2 SPI 1.547 0.839 0.654 SPI M2 2.595 * 1.139 1.619 CPI CBD 0.101 1.611 1.485 CBD CPI 0.916 0.976 0.919 MMI CBD 0.031 1.624 1.626 CBD MMI 8.497 *** 5.827 *** 4.360 *** M2 CBD 0.142 2.064 * 2.091 ** CBD M2 1.819 1.397 1.085 MMI CPI 0.040 0.355 0.508 CPI MMI 0.006 1.049 2.567 ** M2 CPI 3.054 * 2.342 * 1.510 CPI M2 1.536 1.117 0.767 M2 MMI 0.471 0.880 0.947 MMI M2 1.358 0.499 0.501 와 CPI 에그랜저인과하며, CBD 와 CPI 는 MMI에그랜저인과하는것으로나타났다. 이러한결과를바탕으로 VAR모형구축시변수배열은 SPI, CBD, CPI, M2, MMI 순으로하였다. VAR 모형의시차를결정하기위해우도비 (likelihood ratio, LR), AIC(akaike information criterion), SC(schwarz criterion) 를이용하였으며, 가장적합한모형은 LR이최대가되거나, AIC, SC가최소가되도록시차를결정하는것이다. 기간2의경우추정모수의한계로인해시차2까지만추정이되었으며, 분석결과는 < 표 4> 와같다. 기간1의경우 LR은시차7, AIC는시차2, SC는시차1이최적시차로결정되었으며모수절약의원칙 (principle of parsimony) 에따라최종모형은시차1로결정하였다. 기간2의경우 LR은시차1, AIC는시차2, SC는시차 0이최적시차로결정되었다. 시계열변수가동일시점에영향을준다고보기어려운점과모수절약의원칙에따라기간2 역시최종모형은시차1로결정하였다.
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 121 < 표 4> LR, AIC, SC 결과 기간1 기간2 lag LR AIC SC LR AIC SC 0 NA -27.44712-27.32908 NA -26.91389-26.67815 * 1 199.5506-28.81752-28.10927 * 46.88721 * -27.22833-25.81389 2 53.75082-28.89726 * -27.59880 32.80346-27.32661 * -24.73346 3 41.52026-28.88100-26.99233 4 33.21771-28.79967-26.32079 5 36.00348-28.76796-25.69888 6 20.11396-28.57449-24.91520 7 40.50640 * -28.64722-24.39772 8 28.58694-28.59601-23.75631 4) 베이지안 VAR(Bayesian VAR, BVAR) 모형 BVAR모형은베이지안통계를적용하여사전분포와사후분포라는개념을도입하고우도함수를통한선험적경험치를활용하여비제약 VAR모형의문제점인과모수 (overparameterization) 와과적합 (over-fitting) 문제를극복함으로써비제약 VAR모형보다예측력을향상시킬수있다. 과모수화를극복하기위해모형의추정치에대한사전적인제약 (prior restrictions) 을더하는것이있으며, 제안된방법은 Litterman/Minnesota Prior, Normal-Wishart Prior, Sims-Zha Prior 등이있다. Litterman/Minnesota Prior의기본개념은 VAR모형의 번째계수, 에대하여평균과분산을각각, 로하는정규분포를가정한다는점이가장특징이라고할수있다 ( 함종영ㆍ손재영, 2016). Normal-Wishart Prior는오차공분산행렬이고정되고대각행렬이라는가정을없애기위해시도된방법으로, 의사전분포를역 (inverse) Wishart분포로대치하고, 정규분포를따르는계수의산전분포를구하는방법이며, 이는 VAR모형개별방정식간의독립성을가정하지않고, 계수추정치에대한 Litterman/Minnesota Prior의임의보행적인특성을유지하게된다 ( 정승, 2014). Sims-Zha Prior는더미자료를이용하여 VAR모형계수의선형관계에사전분포를추가하는방법이며 Normal-Wishart 와 Normal-Flat 으로구분할수있고, 시계열자료가단위근또는공적분관계를가지는경우에정보의손실가능성을완화할수있는장점이있다 ( 함종영ㆍ손재영, 2016). 8)
122 住宅硏究제 26 권제 1 호 각사전분포에서적용된초모수 (hyper-parameter) 는 Litterman/Minnesota Prior 는 =0, =0.1, =0.99, =1, Normal-Wishart Prior 는 =0, =0.1, Sims-Zha s Normal- Wishart Prior 와 Sims-Zha s Normal-Flat Prior 은 =0, =1, =1 로설정하였다. 9) 2. 머신러닝모형 1) SVM SVM모형을최적화하기위해서는적용할커널함수 (kernel function), 오류에대한벌칙 (penalty) 을제어하는초모수 (hyper-parameter) 인, 그리고훈련데이터의영향도와영향력의범위와관련된, 그리고훈련데이터허용에러율과관련된 에대한결정이필요하다. 커널함수로는방사기저함수 (radial basis function, RBF) 커널을적용하였으며,,, 을변화시키면서 MAE 및 RMSE가최소가되는모형을 SVM 최종모형으로결정하였다. 10) 단변량시계열변수를적용시기간1은 는 1, 는 0.3, 은 0.05, 기간2는 는 6, 는 0.2, 은 0.05인경우, 다변량시계열변수적용시기간1은 는 2, 는 0.1, 은 0.01, 기간2는 는 2, 는 0.1, 은 0.05인경우 MAE 및 RMSE가최소가되었다. 2) RF RF는트리수를변화시키면서검정데이터의 MAE 및 RMSE가최소가되는모형을최종모형으로결정하였다. 단변량시계열변수를적용시기간1과기간2 모두트리수가 100인경우, 다변량시계열변수를적용시기간1과기간2 모두트리수가 200인경우 MAE 및 RMSE가최소가되었다. 3) GBRT GBRT 적용시이전트리 (tree) 의오차를얼마나강하게보정할것인지를제어하는학습 8) 베이지언 VAR의사전적인제약에대해서는성병희 (2001), 정승 (2014), Litterman(1993), Sims and Zha(1998) 의연구를참고하기바란다. 9) 초모수설정과관련해서는정승 (2014) 의연구를참고하였다. 10) SVM에는 RBF커널외에정규선형 (linear) 커널, 폴리 (poly) 커널, 시그모이드 (sigmoid) 커널이있으며, 본분석에서는 RBF커널을적용하였다.
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 123 률 (learning rate, l.r.) 은 0.1 로결정하였다. 단변량시계열변수적용시기간 1 은트리수 20, 기간 2 는트리수 10 인경우, 다변량시계열변수적용시기간 1 은트리수 20, 기간 2 는 트리수 10 인경우 MAE 및 RMSE 가최소가되었다. 4) DNN DNN을최적화하기위해서는은닉층 (hidden layer) 개수, 노드 (node) 개수, 활성화함수 (activation function), 최적화방법 (optimizer), 테스트회수 (epochs), 배치 (batch), 드랍아웃 (dropout) 등을결정해야한다. 11) 본연구에서는은닉층은 3개, 테스트횟수는 100회, 배치사이즈는 10, 활성화함수는렐루함수 (relu function), 최적화 (optimizer) 방법은아담 (ADAM) 알고리즘, 초기화 (initialization) 방법은 He et al.(2015) 이제시한방법을기준으로노드수와드라아웃비율을변화시키면서최적의모형을결정하였다. 단변량시계열변수적용시기간1은노드수 20, 기간2는노드수 50인경우, 다변량시계열변수적용시기간1 은노드수 20, 기간2는노드수는 200인경우 MAE 및 RMSE가최소가되었다. 12) 5) LSTM LSTM은 DNN과마찬가지로모형을최적화하기위한초모수를결정해야한다. 본연구에서는투입변수 (input variables) 는단변량시계열변수인경우 1개, 다변량시계열변수인경우 5개, 출력변수 (output variables) 는 1개, 은닉층은 1개, 테스트횟수는 100회, 배치사이즈는 10, 활성화함수는렐루함수 (relu function), 최적화방법은아담 (ADAM) 알고리즘, 초기화 (initialization) 방법은 He et al.(2015) 이제시한방법을기준으로노드 (node) 수를변화시키면서최적의모형을결정하였다. 단변량시계열변수적용시기간1과기간2 모두노드수 20인경우, 다변량시계열변수적용시기간1은노드수 20, 기간2는노드수가 150인경우 MAE 및 RMSE가최소가되었다. 11) 최적화는신경망노드의최적가중치를찾는방법이며, 배치 (batch) 는효율적인계산을위해분석자료를집합으로구분하는것이고, 드랍아웃 (dropout) 은입력값중일부를제외하여과적합을방지하는방법이다. 12) 드랍아웃이 20% 인경우보다 0% 인경우의 MAE 및 RMSE가더낮게나타났으며최종모형은드랍아웃 0% 를적용하였다.
124 住宅硏究제 26 권제 1 호 3. 검토 시계열분석모형의 MAE 및 RMSE는 < 표 5> 와같다. 기간1은 ARIMA모형보다 VAR계열모형의예측력이더우수하며, 특히 Sims-Zha s Normal-Wishart Prior를적용한 BVAR모형 ( 이하 SZ_NW_BVAR 모형 ) 의예측력이가장우수한것으로나타났다. 기간2 역시 SZ_NW_BVAR모형의예측력이가장우수한것으로나타났다. < 그림 4> 는시계열분석모형의예측결과를그래프로나타낸것이다. < 표 5> 시계열분석모형결과 구분 기간1 기간2 MAE RMSE MAE RMSE ARIMA 0.042365 0.050389 0.058883 0.072567 VAR(1) 0.018517 0.025323 0.083143 0.093021 LM_BVAR 0.027115 0.032703 0.120015 0.127914 NW_BVAR 0.03227 0.03732 0.12436 0.132273 SZ_NW_BVAR 0.011374 0.017205 0.056443 0.069307 SZ_NF_BVAR 0.025587 0.031159 0.120628 0.128635 기간1을보면 ARIMA모형을제외한나머지모형들은모두우상향하는것으로나타나실제데이터와유사한추세를보이는것으로나타났다. 반면기간2는급격히하락하다가다시반등하는실제데이터의추세를시계열분석모형을통해서는전혀확인할수없음을알수있다. MAE 및 RMSE를기준으로기간2에서는 SZ_NW_BVAR 모형을제외한나머지모형중에서는 ARIMA모형이 VAR계열의모형보다예측력이더우수한것으로나타나고있다. 하지만실제데이터의추세를전혀확인할수없다는점에서비교자체가무의미하기때문에 ARIMA모형이 VAR모형보다예측력이뛰어나다고단정하기에는다소무리가있다고판단된다. 머신러닝방법의결과는 < 표 6> 및 < 표 7> 과같다. 기간1은단변량변수를적용한 LSTM모형 (LSTM_M) 의예측력이가장우수한것으로나타났다. 그리고다변량변수를적용한 RF모형 (RF_M), 다변량변수를적용한 DNN모형 (DNN_M) 순으로예측력이우수하며, SVM모형의예측력이가장낮은것으로나타났다. 기간2는다변량변수를적용한
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 125 < 그림 4> 시계열분석모형결과 LSTM모형 (LSTM_M) 의예측력이가장우수한것으로나타났다. 그리고단변량변수를적용한 RF모형 (RF_U), 단변량변수를적용한 DNN모형 (DNN_U), 다변량변수를적용한 GBRT모형 (GBRT_M) 순으로상대적인예측력이우수한것으로나타났다. < 그림 5> 는머신러닝모형의예측결과를그래프로나타낸것이다. 기간 1의경우머신러닝모형의예측값과실제데이터가거의일치하고있으며, 시각적으로는머신러닝모형간예측력차이는거의없는것을확인할수있다. 기간 2는머신러닝모형에의한예측값과실제데이터가다소차이를보이고있으나일부모형의경우상당히유사함을확인수있다. 적용된
126 住宅硏究제 26 권제 1 호 머신러닝모형모두하락추세를정확히예측하는반면반등후상승하는부분에서예측값과실제데이터가차이를보이고있다. 시각적으로는단변량변수및다변량변수를적용한 RF모형 (RM_U, RF_M), 다변량변수를적용한 GBRT모형 (GBRT_M), 단변량변수를적용한 DNN모형 (DNN_U), 그리고다변량변수를적용한 LSTM모형 (LSTM_M) 이실제데이터를비교적유사하게예측하는것으로보여진다. < 표 6> 머신러닝결과 ( 기간1) 구분 MAE RMSE 초모수설정 SVM 단변량 (U) 0.019945 0.024170 =2, =0.3, =0.05 다변량 (M) 0.019083 0.023187 =6, =0.2, =0.05 RF 단변량 (U) 0.010582 0.014256 트리수 = 100 다변량 (M) 0.005912 0.007409 트리수 = 100 GBRT 단변량 (U) 0.009445 0.011699 트리수 =20 다변량 (M) 0.006705 0.007614 트리수 =10 DNN 단변량 (U) 0.008536 0.009495 hidden layer node: 20-20-20 다변량 (M) 0.006217 0.007594 hidden layer node: 50-50-50 LSTM 단변량 (U) 0.005239 0.007033 노드 =20 다변량 (M) 0.011155 0.014922 노드 =20 < 표 7> 머신러닝결과 ( 기간2) 구분 MAE RMSE 초모수설정 SVM 단변량 (U) 0.084689 0.105881 =2, =0.1, =0.01 다변량 (M) 0.124583 0.161247 =2, =0.1, =0.05 RF 단변량 (U) 0.049636 0.056236 트리수 = 200 다변량 (M) 0.064522 0.079009 트리수 = 200 GBRT 단변량 (U) 0.069382 0.088423 트리수 =20 다변량 (M) 0.059743 0.068923 트리수 =10 DNN 단변량 (U) 0.055915 0.064111 hidden layer node : 20-20-20 다변량 (M) 0.088034 0.109266 hidden layer node : 200-200-200 LSTM 단변량 (U) 0.091358 0.097444 노드 =20 다변량 (M) 0.038145 0.050033 노드 =200
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 127 < 그림 5> 머신러닝방법결과
128 住宅硏究제 26 권제 1 호 이상의결과를종합하면머신러닝모형은시계열분석모형보다예측력이더우수한것을알수있다. 기간1과같이시장이안정적이거나일정한추세를가지고움직이는경우머신러닝방법과시계열분석모형모두시장추세를적절히예측하고있으며머신러닝방법에의한예측값과실제데이터는거의일치하고있어정확성측면에서시계열분석모형보다머신러닝방법이더우수한것을확인할수있다. 기간2와같이외부적인충격이나구조적인변화로인해시장이급변하는경우시계열분석모형을통해서는시장추세를예측하는것이어려운반면머신러닝방법을이용하면시장추세를비교적유사하게예측할수있는것을확인할수있다. 이러한결과는시계열분석모형이선형모형을가정하기때문인것으로이해되며, 상대적으로머신러닝모형은비선형모델링이가능하기때문에시장이급변하는시기에도비교적유사하게시장추세를예측할수있는것으로판단된다. 적용변수에따른머신러닝방법의결과를보면기간1에서는 LSTM 단변량모형의예측력이가장우수하며, 세부모형내에서는 SVM, RF, GBRT, DNN은다변량모형이, LSTM 은단변량모형의예측력이우수한것으로나타났다. 반면기간2에서는 LSTM 다변량모형의예측력이가장우수하며, 세부모형내에서는 SVM, RF, DNN 은단변량모형이, GBRT, LSTM 은다변량모형의예측력이우수한것으로나타났다. 선행연구를고려했을때일반적으로단변량시계열분석모형보다다변량시계열분석모형의예측력이더우수하다는점, 그리고통계모형의경우설명변수가증가하면모형의설명력이개선되는특징이있다는점을고려했을때, 일부이기는하지만다변량머신러닝모형보다단변량머신러닝모형의예측력이더우수하게나타난것은다소이례적인결과라고할수있다. 이러한결과의원인은머신러닝방법은초모수설정에따라모형의성능및예측력이달라진다는점, 그리고다변량변수들이보여주는다양한방향성이시장의급변시기에서는오히려예측력을저해하는것이아닌지의심할수있다. 13) V. 결론 본연구는시계열데이터예측과관련된방법론을비교한연구로서, 부동산가격지수를 이용한부동산시장예측에있어서머신러닝방법의활용가능성을확인하였다는점에서 13) 본연구에있어서최종모형을선정하는규칙 (rule) 에따라선정된모형보다시험 (test) 데이터적용시예측력이더우수한모형이존재하는것을확인하였다.
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 129 연구의의의가있다. 본연구의결과는다음과같다. 첫째, 비교적안정적인시장인기간1의경우머신러닝모형이시계열분석모형보다예측력이우수한것으로나타났으며, 시계열분석모형은예측력은다소떨어지지만시장의추세를적절히예측하고있는것으로나타났다. 둘째, 시장이급변하는시기인기간 2의경우머신러닝모형은비교적유사하게시장추세를예측하는반면시계열분석모형을통해서는시장추세를예측하기가어렵다는것을확인할수있다. 셋째, 일반적인통계모형의특징과다르게일부머신러닝방법의경우다변량변수를적용한모형보다단변량변수를적용한모형의예측력이더우수한것으로나타났다. 넷째, 기간 2의경우 MAE 및 RMSE를기준으로 ARIMA모형이 VAR계열의모형보다예측력이우수하며, 일부 BVAR모형의경우머신러닝모형보다예측력이우수한것으로나타나고있는데그래프를보면시계열분석모형의예측값이실제시장추세와는전혀다른양상을보이고있어시계열분석모형의적용자체가어려운것으로판단되어 MAE 및 RMSE를통한예측력비교는큰의미가없는것으로나타났다. 본연구의시사점은다음과같다. 시장상황이일정한추세를보이면서움직이는경우에는시계열분석모형과머신러닝방법모두의미있는예측력을보여주고있는것으로나타났다. 하지만시장이비선형형태로급변하는경우시계열분석모형은선형모형을가정하는한계점으로인해시장예측이어려운반면비선형모델링이가능한머신러닝방법은의미있는예측이가능한것을시사하고있다. 이러한점에서머신러닝방법은기존시계열분석모형을보완하거나대체하는역할을할수있을것으로기대된다. 본연구는시계열분석방법론을비교한연구로서분석자료, 변수설정에따라분석결과가달라질수있기때문에, 특정방법이우수하다라고단정하기에는무리가있으며이에대해서는추가적인연구가필요하다. SVM, DNN, LSTM은결과값이산출되는이유를확인할수없는데이러한점은인과관계를중요시하는과학에있어서큰문제라고할수있다 ( 배성완ㆍ유정석, 2017). 또한머신러닝방법은모형을최적화하기위한명확한기준이없다는점, 적용변수에따라결과가달라질수있다는점, DNN모형의경우실험할때마다조금씩결과값이달라지는점에서한계가있으며향후이러한문제점및한계점에대해서도추가적인연구가필요하다.
130 住宅硏究제 26 권제 1 호 참고문헌 1. 김근용, 주택가격예측을위한모형설정과검정, 국토, 제197권, 국토연구원, 1998, pp.54-61. 2. 김문성ㆍ배형, 주택가격지수의순환주기변동과거시경제변수의영향분석, 부동산연구, 제25권제3호, 한국부동산연구원, 2015, pp.7-25. 3. 김성환 김갑성ㆍ유예진, 주택경기예측향상을위한시계열모형구축, 2016년한국주택학회상반기학술대회발표자료집, 한국주택학회, 2016, pp.33-49. 4. 김양훈 황용근 강태관 정교민, LSTM 언어모델기반한국어문장생성, 한국통신학회논문지, 제41권제5호, 한국통신학회, 2016, pp.592-601. 5. 김은희ㆍ오혜연, LSTM모델기반주행모드인식을통한자율주행에관한연구, 한국 ITS학회논문지, 제16집제4호, 한국ITS학회, 2017, pp.153-163. 6. 민성욱, 딥러닝을이용한주택가격예측모형연구, 강남대학교박사학위논문, 2017. 7. 배성완ㆍ유정석, 딥러닝을이용한부동산가격지수예측, 부동산연구, 제27집제3호, 한국부동산연구원, 2017, pp.71-86. 8. 서종덕, 데이터마이닝기법을이용한환율예측 : GARCH와결합된랜덤포레스트모형, 산업경제연구, 제29집제5호, 한국산업경제학회, 2016, pp.1607-1628. 9. 성병희, Bayesian VAR모형을이용한경제전망, 경제분석, 제7권제2호, 한국은행, 2001, pp.59-90. 10. 손정식ㆍ김관영ㆍ김용순, 부동산가격예측모형에관한연구, 주택연구, 제11집제1호, 한국주택학회, 2002, pp.49-75. 11. 송인호, 주택시장과거시경제의관계 : 주택가격, 금리, 소비, 총생산을중심으로, 부동산ㆍ도시연구, 제8집제1호, 건국대학교부동산도시연구원, 2015, pp.47-65. 12. 안성만ㆍ정여진ㆍ이재준ㆍ양지헌, 한국어음소단위 LSTM 언어모델을이용한문장생성, 지능정보연구, 제23집제2호, 한국지능정보시스템학회, 2017, pp.71-88. 13. 이세희ㆍ이지형, RNN을이용한고객이탈예측및분석, 한국컴퓨터정보학회학술발표논문집, 제24집제2호, 한국컴퓨터정보학회, 2016, pp.153-163. 14. 이영호ㆍ구덕희, 데이터분석적사고력향상을위한딥러닝기반학습시스템개발연구, 정보교육학회논문지, 제21집제4호, 한국정보교육학회, 2017, pp.393-401. 15. 이요섭ㆍ문필주, 딥러닝프레임워크의비교및분석, 한국전자통신학회논문지, 제
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 131 12권제1호, 한국전자통신학회, 2017, pp.115-122. 16. 이우식, 딥러닝분석과기술적분석지표를이용한한국코스피주가지수방향성예측, 한국데이터정보과학회지, 제28집제2호, 한국데이터정보과학회, 2017, pp.287-295. 17. 이창로, 비모수공간모형과앙상블학습에기초한단독주택가격추정, 서울대학교박사학위논문, 2015. 18. 이형욱ㆍ이호병, 서울시주택가격지수의모형별예측력비교분석, 부동산학보, 제 38집, 한국부동산학회, 2009, pp.215-235. 19. 임성식, 주택가격지수예측모형에관한비교연구, 한국데이터정보과학회지, 제25권제1호, 한국데이터정보과학회, 2014, pp.65-76. 20. 정승, Bayesian VAR모형을이용한울산경제예측, 이슈리포트, 제77권, 울산발전연구원, 2014, pp.1-26. 21. 정원구ㆍ이상엽, 인공신경망을이용한공동주택가격지수예측에관한연구, 주택연구, 제15집제3호, 한국주택학회, 2007, pp.39-64. 22. 함종영ㆍ손재영, 사전확률분포를이용한주택시장예측모형비교연구-Bayesian VAR모형을중심으로, 부동산ㆍ도시연구, 제8집제2호, 건국대학교부동산도시연구원, 2016, pp.25-38. 23. Brieman, L., Random forests, Machine learning, Vol. 45, No. 1, 2001, pp. 5-32. 24. Glorot, X., Y. Bengio, Understanding the difficulty oftraining deep feedforward neural networks, In Proceedings of the 13th International Conference on Artificial Intelligence and Statistics, 2010, pp.249-256. 25. He, Kaiming, X. Zhang, S. Ren and J. Sun, Delving Deep into Rectifers: Surpassing Human-Level Performance on ImageNet Classification, The IEEE International Conference on Computer Vision (ICCV), 2015, pp.1026-1034. 26. Hinton, G. E., S. Osindero, and Y. W. Teh, A Fast Learning Algorithm for Deep Belief Nets, Neural Computation, Vol. 18 No. 7, 2006, pp.1527-1554. 27. Hochreiter, S., J. Schmidhuber, Long short-term memory, Neural Computation, Vol. 9 NO. 8, 1997, pp.1735-1780. 28. Litterman, R. B., Forecasting with Bayesian Vector Autoregressions, Journal of Forecasting, Vol. 12 No. 4, 1993, pp.365-378.
132 住宅硏究제 26 권제 1 호 29. Sims, C. A., T. A. Zha, Bayesian Methods for Dynamic Multivariate Models, International Economic Review, Vol. 39 No. 4, 1998, pp.949-968. 30. Smola, A. J., B. Schölkopf, A tutorial on support vector regression, Statistics and Computing, Vol. 14, No. 3, 2004, pp.199-222. 31. Vapnik, V., The nature of statistical learing theory, Springer, 1996. 32. www.r-one.co.kr, 한국감정원부동산통계정보 33. ecos.bok.or.kr, 한국은행경제통계시스템 34. https://sebastianraschka.com/faq/docs/evaluate-a-model.html, sebastianraschka 홈페이지 접수일 2018. 01. 29. 심사일 2018. 02. 04. 심사완료일 2018. 03. 06.
머신러닝방법과시계열분석모형을이용한부동산가격지수예측 133 국문요약 머신러닝방법과시계열분석모형을이용한부동산가격지수예측 본연구의목적은부동산가격지수예측을위한머신러닝방법의활용가능성을확인하는것이다. 이를위해머신러닝방법인서포트벡터머신, 랜덤포레스트, 그래디언트부스팅회귀트리, 심층신경망, LSTM과시계열분석방법인자기회귀이동평균모형, 벡터자기회귀모형, 베이지언벡터자기회귀모형을이용하여아파트매매실거래가격지수를예측하고모형간예측력을비교하였다. 연구결과, 첫째, 머신러닝방법의예측력이시계열분석모형보다우수한것으로나타났다. 둘째, 시장이안정적인상황에서는머신러닝방법과시계열분석방법모두시장추세를적절히예측하는것으로나타났다. 셋째, 구조적인변화또는외부충격으로시장이급변하는경우머신러닝방법은시장추세를대체로유사하게예측하는것으로나타났으나, 시계열분석방법은시장추세를전혀예측할수없는것으로나타났다. 향후머신러닝방법을활용함으로써부동산시장에대한예측의정확성이향상될것으로기대된다.