머신러닝알고리즘을이용한부동산가치산정에관한소고 심재헌부연구위원한국감정원 KAB 부동산연구원연구개발실 Ⅰ. 들어가며 2016년상반기대한민국의가장큰화두는바둑대결로널리알려진 AlphaGo 1) 와인공지능 (artificial intelligence) 이었다. 수많은경우의수를가진복잡한바둑경기만큼은아직까지인공지능기술이인간을상대로우위를점하기어렵다는일반적인예상과상반된결과가나오자, 과학또는인공지능에관심이없던사람들까지충격을받았으며, 다수의외신들이묘사한바와같이우리사회전반에 AI에대한공포심 (AI phobia) 이확산되었다. 이와같은사회적분위기에이어인공지능분야의연구개발역량부족과해외대비기술수준격차를우려한정부는인공지능기술, 인공지능-로봇융합, 정보통신기술융합촉진분야를제 4차산업혁명대응분야로규정하고막대한연구개발예산투자를확정하게된다 2). 인공지능분야는지금까지오랜기간동안붐 (boom) 과암흑기가반복되는부침을겪어왔다. 과거인공지능열풍은복잡한현실문제에대한적용상의어려움, 컴퓨터연산속도의한계, 고질적인과적합 (overfitting) 문제 3) 등으로사라진바있다. 인공지능기술에대한현재의뜨거운관심은컴퓨터성능의괄목할만한발전, 빅데이터환경의조성, 그리고빅데이터처리에적합한딥러닝알고리즘의개발에기인한것으로볼수있다. 바둑대결이초래한인공지능에대한놀라움을넘어선막연한공포감은지금까지도우리사회에자리잡고있고, 각종언론매체는일자리와직업구조의변화등인공지능기술의발전이미래사회에미칠크고작은영향에대한수많은주제를쏟아내고있다. 전문가들은부동산중개, 관리, 판매및마케팅, 파이낸싱과투자등다양한부동산분야에서도인공지능기술이응용 확산되어머지않은미래에구조적인변화를가져올것으로전망하고있다. 이글에서는인공지능의정의와주요분야를기술하고, 인공지능기술인머신러닝알고리즘에대해살펴본후, 머신러닝알고리즘을이용한부동산가치산정에대해논하고자한다. 1) 구글 (Google) 의자회사인 DeepMind 가개발한인공지능기술기반바둑프로그램으로딥러닝 (deep learning) 이라는고도화된머신러닝기술이적용되었다. 2) 2017 년도정부연구개발사업예산배분 조정 ( 안 ) 은제 4 차산업혁명과신기후체제에대응하는것을골자로한다. 제 4 차산업혁명분야를구성하는인공지능기술, 인공지능 - 로봇융합, 정보통신기술융합촉진분야에각각 1,656 억원, 246 억원, 2,404 억원가량의예산이배정되었으며, 이는지난 6 월 30 일제 13 회국가과학기술심의회를거쳐심의 확정되었다. 3) 머신러닝에서모델이학습데이터에과도하게적합됨으로써학습에사용되지않은데이터에대해서는정확성이떨어지는것을뜻한다. 52 부동산포커스 REAL ESTATE FOCUS
기획특집 4 I 머신러닝알고리즘을이용한부동산가치산정에관한소고 Ⅱ. 인공지능의정의와주요분야 1956년여름개최된다트머스학술회의 (Dartmouth Conference) 를통해인공지능이라는용어가널리알려지고, 인공지능이새로운연구분야로서확립되게된다. 인공지능이라는용어를처음고안한 4) 존매카시 (John McCarthy) 교수는 인공지능은지능적인기계 (intelligent machines), 즉지능적인컴퓨터프로그램을만드는과학과공학으로, 인간지능을이해하기위해컴퓨터를사용하는작업과관련되어있고, 이는생물학적으로관찰되는방법으로국한되지않는다. 5) 고언급했다. 인공지능은일반적으로인지, 추론, 학습등인간의사고능력을모사한기술로서정의할수있다. 그러나한편으로지능에대한개념이추상적이기때문에인공지능을명확하게정의할수없다거나, 인공적으로만들어진인간과같은지능이라는견해등전문가의관점에따라인공지능의정의에대한폭넓은스펙트럼이존재하는것도사실이다. 또한, 인공지능에대한일반 사람들의인식, 즉세상에서인공지능이라불리는것은전문가견해와는또다른성격을가지는데, 이는유타카마쓰오 (Yutaka Matsuo) 교수가제시한 < 표 1> 의단계별분류를통해비교적쉽게이해될수있다. 인공지능은컴퓨터과학, 수학, 통계등다양한분야가연계된융복합학문의산물로서, 그영역은상호연관성과공통성을가지는광범위한하위분야로구성된다. 인공지능에대한표준화된분류체계는아직존재하지않으나, 주요분야로서머신러닝, 자동번역과질의응답등의자연어처리, 전문가시스템 6), 컴퓨터비전, 음성인식, 로봇공학등을언급할수있으며, 이가운데딥러닝과로봇공학은가장트렌디한분야로볼수있다.(< 그림 1> 참조 ). < 표 1> 인공지능에대한일반사람들의인식 단계주요내용비고 level 1 level 2 level 3 마케팅측면에서에어컨, 청소기, 세탁기등전자제품에탑재된단순한제어프로그램을인공지능으로칭하는것 입력과출력의조합수가극단적으로많은경우로서적절한판단을내리기위해추론ㆍ탐색하거나기존에보유한지식베이스를기반으로판단함. 퍼즐을푸는프로그램, 진단프로그램등이해당 검색엔진에내장되어있거나빅데이터를바탕으로자동으로판단하는인공지능. 추론의구조나지식베이스가데이터를바탕으로학습되는것으로머신러닝알고리즘이일반적으로이용됨 제어공학또는시스템공학분야의기술로서, 인공지능으로칭하는것은적합하지않음 고전적인공지능이라일컬음 표본이되는데이터를바탕으로규칙이나지식을학습 level 4 머신러닝과정에서데이터의특징을스스로발견하고학습함딥러닝이이단계에해당 자료 : 유타카마쓰오, 2015, 인공지능과딥러닝 - 인공지능이불러올산업구조의변화와혁신 -, pp.54-55 의내용을요약. 4) 컴퓨터과학의아버지로평가받는영국의수학자앨런튜링 (Alan Turing) 은 인공지능 이라는용어가등장하기전이미기계지능 (machine intelligence) 이라는용어를사용하고인공지능의개념을만들었다. 5) John McCarthy, 2007, What is Artificial Intelligence?, http://www-formal.stanford.edu/jmc/whatisai/ 6) 전문가시스템 (expert system) 은어떤전문분야의지식과경험을데이터베이스에저장하고이를바탕으로추론한정보를제공함으로써비전문가들이전문가와같이업무를처리할수있게하는시스템을의미한다. 2016 September Vol.100 53
< 그림 1> 인공지능의주요분야 출처 : Michael Mills, 2016, Artificial Intelligence in Law: The State of Play 2016 (Part1), Thomson Reuters Legal Executive Institute blog. Ⅲ. 머신러닝 머신러닝 (machine learning) 은인공지능의주요 분야로서인간의학습능력을컴퓨터를기반으로구현 하는기술이다. 본장에서는다양한머신러닝알고리 즘가운데 2000 년대에들어서등장한랜덤포레스트 (random forests) 와딥러닝 (deep learning) 에대해 살펴보고자한다. 이터셋에서임의추출 (random sampling) 을통해다수의샘플셋을만들고, 학습을통해다수의트리를생성한후, 이를결합하여최종의결과를산출한다. 다시말해, 랜덤포레스트는하나의데이터셋에서다수의부트스트랩 (bootstrap) 표본을추출한후, 각표본을이용하여생성된결정트리모델의결과를평균또는투표를통해결합한다. 랜덤포레스트는부트스트랩표본의추출과결정트리각마디에서의설명변수선택이무작위로이루어진다는특징을가진다. 이와같은무작위성 (randomness) 은서로다른특성을갖는결정트리를생성함으로써결정트리간상관관계를낮추어예측의정확도를높이는결과를가져온다. 랜덤포레스트의또다른특징으로성능평가와관련하여기존의결정트리모델과는달리 OOB(out-of-bag) 분석이가능하다는점을들수있다. 앞서언급한부트스트랩표본으로추출되지않는데이터는 OOB 데이터라고불리며, 이는테스트데이터로활용될수있다. < 그림 2> 랜덤포레스트의일반적인구조 1. 랜덤포레스트 (random forests) 레오브레이먼 (Reo Breiman) 교수가 2001년발표한랜덤포레스트는결정트리 (decision tree) 에기반한분류 (classification) 와회귀 (regression) 를위한앙상블 (ensemble) 기법이다. 결정트리는하나의데이터셋 (data set) 에서하나의학습데이터를만들고, 학습을통해하나의트리 (tree) 를생성하여예측 ( 분류또는회귀 ) 을수행한다. 반면, 랜덤포레스트는하나의데 출처 : Verikas et al., 2011, Mining data with random forests: A survey and results of new tests, Pattern Recognition, 44(2), Elsevier. 54 부동산포커스 REAL ESTATE FOCUS
기획특집 4 I 머신러닝알고리즘을이용한부동산가치산정에관한소고 2. 딥러닝 (deep learning) 딥러닝은고도화된머신러닝알고리즘으로신경모형패러다임 (neural model paradigm) 에속한다 7). 신경모형패러다임의흐름을살펴보면, 워렌맥컬록 (Warren McCulloch) 과월터피츠 (Walter Pitts) 에서시작된인공신경망이론이프랭크로센블래트 (Frank Rosenblatt) 의퍼셉트론으로이어져연결주의론이라는머신러닝의한분야를형성했고, 이후 2000년대에들어서심층신뢰망 (deep belief network) 과컨볼루션신경망 (convolution neural network) 등새로운알고리즘의등장과컴퓨터성능의발전을바탕으로현재의딥러닝으로발전하게된다 8). 딥러닝의딥 (deep) 이라는단어는신경망을구성하는계층 (layer) 의수가많다는의미이다. 2~3개의계층으로구성된기존의인공신경망구조는쉘로우러닝 (shallow learning) 이라고하며, 계층의수가이보다많으면딥러닝이라칭한다. 이와같은맥락에서딥러닝은심층신경망 (deep neural network) 이라고도한다 (< 그림 3> 참조 ). < 그림 3> 심층신경망의구조 2000년대에들어딥러닝의효율성을향상시키려는연구가지속적으로수행되는데, 제프리힌튼 (Geoffrey E, Hinton) 교수연구진은 2006년심층신뢰망 (deep belief network) 이라는딥러닝에적합한알고리즘을발표했다. 심층신뢰망은제한된볼츠만머신 (restricted boltzmann machine) 이라는사전학습방법을이용해심층신경망구조에서발생하는경사감소소멸 (vanishing gradient descent) 문제 9) 를해결하게된다. 2010년대에들어등장한 ReLU(rectified linear unit) 활성화함수와드롭아웃 (dropout) 알고리즘은딥러닝의발전을가속했다 10). ReLU 함수는 < 그림 4> 와같이입력값이 0보다작은경우함수값은 0을가지고, 입력값이 0보다크면 1차함수형태를갖는함수로서경사감소소멸문제를줄이는특징을가진다. 또한, 2012년힌튼교수연구진이발표한드롭아웃알고리즘은연속된계층에위치하여서로민감하게반응하는노드간의연결을배제함으로써오버피팅 (overfitting) 을줄이는규제화를구현하였다. < 그림 4> ReLU 활성화함수 7) 머신러닝에관한연구는신경모형패러다임, 심볼개념의학습패러다임 (symbolic concept- acquisition paradigm), 현대지식의집약적패러다임 (modern knowledge-intensive paradigm) 이라는세가지접근방식으로수행되어왔다. 8) 김의중, 2016, 알고리즘으로배우는인공지능, 머신러닝, 딥러닝입문, 위키북스, p.52. 9) 경사감소소멸이란신경망을학습시키기위해사용되는경사감소법 (gradient descent) 기반의역전파알고리즘에서발생하는, 모델의해가국부적최소값을벗어나지못하거나최적해를찾기위해수많은반복적인계산이발생하는문제를의미한다. 경사감소법이란학습모델이추정하는값과실제값 ( 참값 ) 사이의오차를최소화하는가중치를찾는방법이다. 10) 김의중, 전게서, p.202. 2016 September Vol.100 55
딥러닝은기존의머신러닝과비교하여다음과같 은특징을가진다 11). 첫째, 인간이사전에정의한학 습데이터에기반하지않고데이터의특징을자동적으 로탐지하는능력을가진다. 둘째, 최소한으로가공된 원시데이터 (raw data) 를처리해가장예측성이높은 특징을자동으로학습한다. 셋째, 미분류 (unlabeled data) 데이터에서기본적인패턴을파악해유사한항 목을군집하거나예외적값을식별할수있다. 한편으 로, 딥러닝은복잡한중간과정을해석하기어렵고, 모 델구축에상당한수준의컴퓨팅성능이요구됨으로써 많은비용이소요된다. Ⅳ. 머신러닝알고리즘을이용한부동산가치산정 머신러닝알고리즘을이용한부동산가치산정과정 은 < 그림 5> 에표현된바와같이크게가치산정대상 부동산의설정, 부동산특성데이터구축및데이터 전처리, 알고리즘탐색및모델링, 구축모델의운용 및고도화로구분할수있다. 부동산가치산정과정의 단계별내용을살펴보면다음과같다. < 그림 5> 머신러닝알고리즘을이용한부동산가치산정프로세스 STEP 1. 가치산정대상부동산설정 부동산유형, 용도등을고려한가치산정대상설정 STEP 2. 데이터구축및전처리 부동산특성데이터구축및데이터전처리 STEP 3. 알고리즘탐색및모델링 부동산데이터특성에적합한알고리즘탐색 앙상블기법을통한모델통합및정확성향상 STEP 4. 실무적운용및고도화 실무적운용을통한지속적인성능개선 부동산전문가의경험을반영한모델정교화 가치산정대상의설정은산정대상이토지인지또는 토지와건물로결합되어구성된복합부동산인지, 복 합부동산중에서도어떠한용도를대상으로하는지등 가치산정대상부동산의범위를획정하는단계이다. 모든유형과용도의부동산을대상으로가치를산정 하는것이이상적이겠지만, 해당부동산의거래데이 터를구득하기어렵거나, 호텔, 백화점, 종합병원, 공 연장등부동산의개별적특성이가격에큰영향을미 치는경우에는머신러닝알고리즘을이용한가치산정 이용이하지않을수있다. < 표 2> 복합부동산의용도별분류 용도 주거용 상업매장용 업무용 숙박용 산업용 용도혼합용 공익용 설명 단독주택, 공동주택과같이사람들이거주하는공간을제공하는부동산 소비자에게상품과서비스를판매하는데사용되는부동산 업무기능의수행을위한제반서비스시설을제공하는부동산 여관, 호텔등과같이수익을목적으로숙박서비스를제공하는부동산 제품의생산 분배 수송과정에사용되는부동산 주거용도와비주거용도 ( 상업매장용, 업무용, 숙박용, 산업용등 ) 가혼합된형태의부동산 공공업무시설, 종교시설, 교정및군사시설등공익을목적으로사용되는부동산 자료 : 국토교통부, 2014, 비주거용부동산모집단파악및건물내용연수산정방안연구, 표 Ⅱ-1(p.3) 의내용을재구성. 가치산정을위해서는실거래가격, 감정평가선례, 공시가격, 건축물관리대장, 토지대장등가격또는특 성정보를담고있는다양한부동산관련데이터베 이스가활용될수있다. 기구축된데이터를정제, 통 합, 변환, 축소하는일련의전처리과정도물론중요 11) SriSatish Ambati, 2016, 딥러닝에대한실전문제해결가이드, Machine Learning Guide, IDG Deep Dive. 56 부동산포커스 REAL ESTATE FOCUS
기획특집 4 I 머신러닝알고리즘을이용한부동산가치산정에관한소고 하지만, 가치산정의정확도를향상시키기위해서는대상부동산가격에유의한영향을미치는다양한특성데이터를추가적으로구축할필요가있다. 예를들어, 수치표고모델 (digital elevation model), 연속지적도와같은공간데이터를기반으로지리정보시스템 (geographic information system) 을활용하여토지의수치화된고도및경사정보를구축하는것이여기에해당한다 12). 부동산데이터특성에적합한머신러닝알고리즘을탐색하고모델링하는과정은머신리닝알고리즘기반부동산가치산정과정의핵심이라할수있다. 인공신경망 (artificial neural networks), 서포트벡터회귀 (support vector regression), 랜덤포레스트 (random forests) 등광범위한알고리즘이고려되어야하며, 도출된단일모델들을앙상블 (ensemble) 기법으로조합하여예측성능을향상시킬필요가있다. 적합한머신러닝알고리즘을바탕으로가치산정프로세스가자동화되면실무적운용을통한모델의지속적인성능개선이이루어져야한다. 이과정에서부동산전문가의폭넓은지식과경험을반영함으로써오차율을줄이고구축된모델을보다정교하게만들수있다 13). Ⅴ. 맺음말 근래빅데이터처리에적합한딥러닝기술의급속한발전에따라전세계적으로인공지능관련기술에대한관심이고조되고있다. 다시맞이한인공지능의붐속에서전문가들은부동산중개, 관리, 투자, 판매등광범위한부동산분야역시머지않은미래에인공 지능기술로인해커다란변화를겪을것으로전망하고있다. 이글에서는인공지능의정의와주요분야, 머신러닝알고리즘에속하는랜덤포레스트와딥러닝에대해기술한후, 머신러닝알고리즘을이용한부동산가치산정에대해살펴보았다. 머신러닝알고리즘을이용한부동산가치산정과정은크게가치산정대상부동산의설정, 부동산특성데이터구축및데이터전처리, 알고리즘탐색및모델링, 구축모델의운용및고도화라는일련의단계로구분할수있다. 특히부동산데이터특성에적합한알고리즘을탐색하고모델링하는과정은머신러닝알고리즘기반부동산가치산정의핵심이라할수있다. 또한, 부동산전문가의지식과경험은정확한시장가치를자동으로산정하는모델을구축하는전과정에서필수불가결한요소로사료된다. 머신러닝알고리즘기반부동산가치산정기술의정착은다음과같은효과를가질것으로예상된다. 첫째, 정확한부동산가치정보를신속하게제공함으로써정부의효과적인부동산정책수립을지원하고, 부동산시장의질서유지에기여할수있다. 둘째, 부동산담보가치의적정성판별을가능하게함으로써금융기관의대출리스크를해소하고부동산시장의건전성제고에이바지할수있다. 셋째, 감정평가사등부동산전문가들이가치산정업무와관련하여합리적인의사결정을내리도록지원할수있다. 끝으로알파고로시작된인공지능에대한우리사회의뜨거운관심이붐으로끝나지않고, 인공지능기술에대한건설적인논의와연구개발에대한지속적인투자로이어지기를기대한다. 12) 공간데이터와지리정보시스템의연계는토지특성조사과정에서발생하는조사자의주관적판단에대한여지를줄여정확한데이터를생성할수있게한다. 13) 모델의실무적운용및고도화단계뿐만아니라, 적절한 feature 선정등을포함한데이터구축및전처리단계에서도부동산전문가의지식과경험은반드시필요하다. 2016 September Vol.100 57
< 참고문헌 > 국토교통부, 2014, 비주거용부동산모집단파악및건물내용연수산정방안연구. 김의중, 2016, 알고리즘으로배우는인공지능, 머신러닝, 딥러닝입문, 위키북스. 유진은, 2015, 랜덤포레스트 : 의사결정나무의대안으로서의데이터마이닝기법, 교육평가연구, 28(2), 한국교육평가학회 : 427~448. 유타카마쓰오, 2015, 인공지능과딥러닝 : 인공지능이불러올산업구조의변화와혁신, 동아엠앤비. 이수경, 2013, 노인만성질환자의건강관련삶의질영향요인분석및예측모델개발, 서울대학교박사학위논문. 이형찬, 2016, 인공지능과부동산서비스산업의미래, 부동산포커스, Vol. 96, 한국감정원 KAB부동산연구원. Veri kas, A., Gelzinis, A., & Bacauskiene, M., 2011, Mining data with random forests: A survey and results of new tests, Pattern Recognition, 44(2), Elsevier: 330~349. 테크라이브러리, http://www.itworld.co.kr/ techlibrary. 58 부동산포커스 REAL ESTATE FOCUS