J. Korean Soc. Transp. Vol.32, No.4, pp.369-379, August 2014 http://dx.doi.org/10.7470/jkst.2014.32.4.369 Journal of Korean Society of Transportation pissn : 1229-1366 eissn : 2234-4217 Article 유전자프로그래밍을이용한고속도로사고예측모형 곽호찬 1 김동규 1 고승영 2 이청원 2 * 1 서울대학교건설환경종합연구소, 2 서울대학교건설환경공학부 KWAK, Ho-Chan 1 KIM, Dong-Kyu 1 KHO, Seung-Young 2 LEE, Chungwon 2 * 1 Integrated Research Institute of Construction and Environmental Engineering, Seoul National University, Seoul 151-744, Korea 2 Department of Civil and Environmental Engineering, Seoul National University, Seoul 151-744, Korea Abstract The Statistical regression model has been used to construct crash prediction models, despite its limitations in assuming data distribution and functional form. In response to the limitations associated with the statistical regression models, a few studies based on non-parametric methods such as neural networks have been proposed to develop crash prediction models. However, these models have a major limitation in that they work as black boxes, and therefore cannot be directly used to identify the relationships between crash frequency and crash factors. A genetic programming model can find a solution to a problem without any specified assumptions and remove the black box effect. Hence, this paper investigates the application of the genetic programming technique to develope the crash prediction model. The data collected from the Gyeongbu expressway during the past three years (2010-2012), were separated into straight and curve sections. The random forest technique was applied to select the important variables that affect crash occurrence. The genetic programming model was developed based on the variables that were selected by the random forest. To test the goodness of fit of the genetic programming model, the RMSE of each model was compared to that of the negative binomial regression model. The test results indicate that the goodness of fit of the genetic programming models is superior to that of the negative binomial models. 전통적인사고예측모형은통계적회귀분석에주로의존하였으나, 이는자료분포및함수형태에대한가정에따른한계를가지고있다. 이에따라일부연구는신경망등의비모수적기법을모형구축에활용하였으나, 이는독립변수와종속변수간의직접적인관계규명이어렵다는한계가있다. 유전자프로그래밍기법은모형개발에특별한가정이필요없고, 사고요인규명이가능하다는장점이있다. 따라서본연구에서는고속도로의사고예측에유전자프로그래밍기법을적용함으로써이러한한계를극복하고자하였다. 이를위하여경부고속도로에서최근 3년간 (2010-2012년) 구득된자료를활용하였으며, 보다세밀한사고특성규명을위해고속도로구간을직선구간과곡선구간으로구분하였다. 사고발생에중요한영향을미치는변수를선택하기위하여랜덤포레스트기법을이용하였으며, 최종선택된변수들을활용하여사고예측을위한유전자프로그래밍모형을구축하였다. 구축된모형의예측성능을평가하기위해음이항회귀모형과비교해본결과, 유전자프로그래밍모형의예측성능이더우수한것으로나타났다. Keywords crash prediction, expressway, genetic programming, random forest, traffic safety 사고예측, 고속도로, 유전자프로그래밍, 랜덤포레스트, 교통안전 * : Corresponding Author Received 25 December 2013, Accepted 21 May 2014 chungwon@snu.ac.kr, Phone: +82-2-880-7368, Fax: +82-2-873-2684 C Korean Society of Transportation This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 대한교통학회지제 32 권제 4 호, 2014 년 8 월 369
Article 서론사고예측모형은교통사고에영향을미칠수있는도로의기하구조, 교통특성, 그리고기타주변환경등을독립변수로하여해당도로구간의단위시간당예측되는사고빈도수를추정하는모형이다 (Zhong et al., 2009). 이는예산의효율적집행을위해도로안전개선사업의우선순위를정하는기준으로사용될수있으며, 교통사고에영향을미치는요인에대한규명을통해도로안전을개선하기위한방향을제시할수있기때문에교통안전분야에서중요한이슈가되고있다. 특히, 고속도로의경우다른일반도로에비해교통사고발생으로인한피해심각도가상당히높은것으로알려져있기때문에고속도로에대한보다현실성높은사고예측모형이구축된다면안전성증진효과를높일수있을것이다. 사고예측모형개발및적용과관련된기존의연구들은대부분교통사고발생의확률적분포를가정한통계적회귀모형에초점을맞추어왔다. 이들연구에서는교통사고의발생분포를정규분포, 포아송분포혹은음이항분포를따르는것으로가정하고모형을추정하였으며, 모수추정을위해최소자승법또는최우추정법을사용하였다. 이렇듯전통적인통계적회귀분석은일반적으로자료의분포와독립변수및종속변수간의관계를설명할수있는함수형태에대한가정이필요하다. 이러한기본적인가정에위배되었을경우, 부적절한추정결과가도출될수있으며, 해당분석결과는큰의미를가지기어렵다 (Hauer, 2004). 통계적회귀분석과관련된이와같은한계로인해몇몇연구자들은사고예측모형개발에신경망등의비모수적기법을사용하였다. 하지만이러한비모수적기법의가장중요한한계는해당모형들이블랙박스 (black box) 로작용한다는점이다. 즉, 비모수적기법을통해구축된사고예측모형은사고빈도수와다양한독립변수간의관계를직접적으로규명할수없다. 따라서이러한방법론으로는사고요인규명을통한개선방안도출이라는사고예측모형의기본적인목적을달성할수없다. 유전자프로그래밍 (genetic programming) 은진화론적이론에기반한최적화기법으로, 분류및회귀문제를풀이하기위한방법론으로많이사용되고있다 (Koza, 1994). 통계적회귀모형및비모수적모형과비교하여유전자프로그래밍모형은크게두가지장점을가지고있다. 첫째, 자료분포및함수형태에대한특별한가정 없이문제의해법을찾을수있다. 유전자프로그래밍모형의해는수학연산자로표현가능한모든선형및비선형함수형태를모사할수있다. 둘째, 비모수적기법과달리블랙박스효과를제거하고수학적으로해석가능한모형을도출한다. 이는독립변수와종속변수간의관계를정의할수있음을의미하며, 이를통해사고요인의개선등공학측면에서의실제적인적용이가능하다. 이러한장점에도불구하고고속도로의사고예측을위한유전자프로그래밍모형의적용성을규명한연구는거의이루어지지않았다. 본연구의목적은고속도로에서발생하는사고에영향을미치는변수와사고빈도수와의관계를규명하고, 사고를예측하는데있어유전자프로그래밍모형의적용성을평가하는것이다. 유전자프로그래밍의경우자체적으로사고에중요한영향을미치는변수를선택하는것이어렵기때문에본연구에서는랜덤포레스트 (random forest, RF) 기법을활용하여변수를선택하였다. 이방법은변수의중요도를평가하는데가장효율적인방법중하나로알려져있으며 (Breiman, 2001), 이를통해도출된변수들을기반으로유전자프로그래밍사고예측모형을구축하였다. 유전자프로그래밍모형의예측성능을평가하기위하여사고예측모형에가장많이사용되는음이항회귀모형을동일한자료에대해구축하여각모형의평균제곱근오차 (root mean square error, RMSE) 를비교하였다. Ⅱ장에서는사고예측모형과관련된기존문헌을고찰하고, 분석에사용된랜덤포레스트와유전자프로그래밍에대한이론적고찰을수행하였다. Ⅲ장에서는사고예측모형구축을위해사용된자료의범주및내용을기술하였으며, Ⅳ장에서는유전자프로그래밍모형의구축결과를제시하고예측성능평가결과를비교하였다. 마지막으로 Ⅴ장에서는본연구의결론을요약하고향후연구에대해기술하였다. 기존문헌고찰및분석방법론 1. 기존문헌고찰 Abdel-Aty and Radwan(2000) 은대부분의사고자료에서과분산현상이나타나고있으며, 이에따라사고예측모형에서는음이항모형이포아송모형에비해우수한결과를도출한다는결론을도출하였다. Lord et 370 Journal of Korean Society of Transportation Vol.32 No.4, August 2014
KWAK, Ho-Chan KIM, Dong-Kyu KHO, Seung-Young LEE, Chungwon Article al.(2005) 은포아송모형과음이항모형을통해사고에대한통계학적접근이가능하다고결론지었다. 포아송모형은일부제한적인조건하에서사고를잘설명하는반면, 음이항모형은대부분의경우에더나은결과를도출한다고언급하였다. Zhong et al.(2009) 은중국고속도로에서발생한사고자료에대한분포를포아송, 음이항, ZIP(zero inflated Poisson), ZINB(zero inflated negative binomial) 네가지로가정하여사고예측모형을구축하였으며, 최적모형으로음이항모형을선택하였다. Kononov et al.(2008) 과 Kononov et al.(2011) 은신경망을이용한사고예측모형을구축하였으며, Li et al.(2008) 의연구에서는서포트벡터머신 (support vector machine, SVM) 을이용하여사고예측모형을구축하였다. 이들연구에서는음이항회귀모형과의모형적합도비교를통해해당모형의적합도가더높음을증명하였다. 사고예측모형과관련된연구는국내에서도활발히이루어지고있는데, 국내연구의대부분은아직통계학적회귀모형에의존하고있다. Kang and Lee(2002) 는고속도로의직선부와곡선부에대해사고를예측하는선형회귀식을개발하였으며, Kang et al.(2002) 은고속도로곡선부에대한음이항회귀모형을개발하였다. Park(2007) 은고속도로트럼펫연결로전체와연결로형식별로사고를예측하기위한음이항회귀모형을개발하였다. Han et al.(2008) 은사고예측을위하여 Hauer (2004) 가제시한방법론을한국의고속도로에적용하였다. 이와같이국내외의사고예측모형개발과관련된연구는대부분통계적회귀모형과일부비모수적기법에한정되어있었다. 따라서본연구에서는이들의한계를보완할수있는유전자프로그래밍모형을통한사고예측프로세스를제시하고모형의적용성을검토하였다. 트스트랩샘플 (bootstrap sample) 에기반하여생성되기때문에과적합문제없이비교적정확한결과를도출할수있다 (Breiman, 2001). RF 모형에서는미리지정된수의트리가임의적으로생성되고각트리에서생성된결과를바탕으로예측결과를도출하는데, 회귀문제의경우각트리결과에대한평균값이최종예측결과로도출된다. 이러한과정에서 RF 기법은 out-of-bag(oob) 자료에대한예측정확도평가를통해각설명변수의중요도를평가할수있다. 회귀문제에대한 RF 모형에서는평균제곱오차 (mean square error, MSE) 에기초한지표가변수중요도를평가하기위해주로사용된다. 즉, 트리내각노드의분할 (split) 단계에서분할에따른 MSE 의감소분이분할하기위해사용되는설명변수에대해계산된다. 그리고각설명변수에대한변수중요도지표는모든트리에서의 MSE 평균감소분으로계산된다. 이와같은과정을통해최종적으로 MSE 감소분이큰변수일수록더큰변수중요도값을가지게된다. 2) 유전자프로그래밍유전자프로그래밍은진화론적알고리즘의일종으로어떤문제의정확한해또는추정치를나타내는수학적모형을생성하기위해사용될수있다 (Koza, 1992). 이는대부분의배후이론이유전자알고리즘 (genetic algorithm) 과같아유전자알고리즘의확장이라고볼수있으며, 둘사이의주요한차이는개체를표현하는방법이다. 유전자알고리즘모형에서개체는고정된길이의이진스트링 (binary string) 으로코드화된숫자이지만, 유전자프로그래밍모형에서의개체는수학적인기호및설명변수로이루어진트리로코드화된수학적인모형이다 (Figure 1). 여기서종착노드는설명변수또 2. 분석방법론 1) Random Forest (RF) RF 기법은트리모형에기반한분석방법론중하나로, 일반적인트리모형은결과에대한불안정성이단점으로지적되고있는데반해, RF 기법은임의로생성되는다수의트리를통해평균적인결과를도출한다는측면에서일반적인트리모형에비해상당히안정적인결과를도출할수있다는장점이있다. 또한 RF 모형의학습과정에서각트리는학습자료중랜덤하게선택된부 Figure 1. Example of genetic programming model 대한교통학회지제 32 권제 4 호, 2014 년 8 월 371
Article 임의적으로변경시키는것이다. 적합도함수는개체군에대한트리가얼마나잘문제를해결할수있는지를결정하는요소이다. 적합도함수는문제의형태별로상당히다양하며, 일반적으로모형에의해예측된값과실제값간의오차에기초하여개발된다. 분석자료구축 1. 분석자료개요 Figure 2. Flowchart of genetic programming 는상수를나타내며, 연결노드들은이들을조합하기위한수학연산자를의미한다. 유전자프로그래밍은유전자알고리즘과마찬가지로유전연산자를통한최적적합체들의생존이라는진화론적이론에기초하여수행된다. 즉, 각세대에서다수의개체가적합도에기초하여확률적으로선택되고, 교배 (crossover), 돌연변이 (mutation) 등의유전연산자에의해새로운개체군이형성된다. 새로생성된개체군이또알고리즘의다음순서에사용되고, 이러한과정을반복하다종료조건을만족할경우알고리즘이종료된다 (Figure 2). 유전자프로그래밍에서가장중요한구성요소는바로유전연산자와적합도함수이다. 유전자프로그래밍에서주로사용되는유전연산자는교배, 재생성, 돌연변이등이다. 유전자알고리즘에서와유사하게교배연산자는두개의개체를선택해서각개체의일부분을교환시키는것이다. 재생성은단순히현재세대의구성원을다음세대로복사하는것이다. 돌연변이는개체군의다양성을제공해주는중요한연산자로써임의의노드를선택하여 본연구에서는사고예측모형구축을위하여경부고속도로에대해수집된자료를활용하였다. 경부고속도로는서울과부산을연결하는 416.0km 의연장을가지는한국에서가장긴고속도로이며, 연간가장많은사고가발생하는고속도로이기도하다. 분석에필요한사고자료및교통량자료는 2010-2012 년의 3년동안한국도로공사에의해집계된자료를활용하였다. 본연구의분석범위는고속도로본선부를대상으로하고있으며, 이에따라램프부와휴게소등본선부이외에서발생한사고를제외한 5,191 건의사고를대상으로분석을수행하였다. 보다세밀한사고특성을반영하기위하여도로구간을직선구간과곡선구간으로구분하였으며, 2010-2011년자료는모형의구축을위한학습자료로, 2012 년자료는모형의예측성능비교를위한검증자료로활용하였다. 사고예측모형을구축하기위해서는도로구간을적절한분석단위로나눌필요가있는데, 이를위하여도로구간을일정한단위길이로나누는고정길이방법론 (fixed length method) 과도로의동질성에기초하여나누는가변길이방법론 (variable length method) 이사용되고있다 (Zhong et al., 2009). 본연구에서는상대적으로통계적적합도가높고, 도로구간의기하구조특성및교통특성을보다정확히반영할수있는가변길이방법론을사용하였다. 이에따라연평균일교통량 (AADT) 및도로의기하구조, 즉평면곡선반경과종단구배가동일한구간을하나의분석단위로설정하였으며, 경부고속도로구간을세분한결과, 상행선의경우 1,696 개의구간으로나누어져각구간에대한평균길이는약 245m 인것으로나타났으며, 하행선의경우 1,694 개의구간으로나누어져각구간에대한평균길이는약 246m 인것으로나타났다. 372 Journal of Korean Society of Transportation Vol.32 No.4, August 2014
KWAK, Ho-Chan KIM, Dong-Kyu KHO, Seung-Young LEE, Chungwon Article Table 1. Candidate variables Factor Exposure Geometry Traffic Environment Variable (Symbol) EXPO (X1) Curve (X2) Slope (X3) In (X4) Out (X5) HV (X6) E1 (X7) E2 (X8) E3 (X9) E4 (X10) E5 (X11) E6 (X12) E7 (X13) E8 (X14) E9 (X15) E10 (X16) E11 (X17) Description Exposure variable (10 6 veh-km) Radius of horizontal curve (1,000m) Grade of vertical curve (%) On-ramp Off-ramp Heavy vehicle ratio Safety sign Roadway surface roughness Road side barrier Speed camera Antiskid sign Tubular marker Visual guidance facility Lighting Lighting (night) Median barrier Crash cushion Table 2. Descriptive statistics of continuous variables Section Vari able Avg. S.D. Max. Min. Straight EXPO 4.23 5.37 45.72 0.12 Slope 0.02 0.97 6.40-5.02 HV 0.38 0.08 0.54 0.19 Curve EXPO 2.54 2.36 16.31 0.12 Curve 2.10 3.04 16.00 0.01 Slope 0.03 1.03 6.00-5.00 HV 0.41 0.07 0.54 0.19 다음으로기하구조변수로는도로의선형을나타내는평면선형의곡선반경변수 (Curve) 와종단선형의기울기변수 (Slope) 를설정하였으며, 진입램프 (In) 와진출램프 (Out) 의존재유무또한더미변수로설정하였다. 버스및트럭등의중차량들은일반승용차에비해더낮은속도로도로를주행하기때문에이들로인해발생하는교통류의속도차이는사고발생에큰영향을주기마련이다. 따라서본연구에서는전체교통량중버스및트럭등의중차량이차지하는비율을교통류특성변수로검토하였다. 주변환경관련변수로는교통안전표지, 노면요철포장, 노측방호울타리, 무인단속카메라, 미끄럼방지표지, 시선유도봉, 시선유도시설, 조명시설, 조명시설 ( 야간 ), 중분대방호울타리, 충격흡수시설등도로주변에설치된각종시설물의존재유무를더미변수로설정하여사고와의관련성을검토하였다. 이와같이본연구에서는 Table 1에나타난것과같이총 17개의후보변수들을검토하였으며, 이들중연속변수에대한기술통계량은 Table 2에나와있다. 2. 후보변수설정 분석결과 본연구에서사고예측모형구축을위해사용되는종속변수는연간발생한사고빈도수이다. 또한이를설명하기위한독립변수로사고발생에영향을미치는요인으로알려진노출도변수, 기하구조변수, 교통류특성변수, 그리고주변환경과관련된변수들을본연구에서검토하였다. 먼저, 도로구간의길이와 AADT 는사고빈도수에가장큰영향을미치는것으로연구된바있다 (Zhong et al., 2009). 따라서식 (1) 을통해이들을사고에의노출도를나타내는변수 (EXPO) 로설정하였다. 여기서, L : 구간길이 (km) (1) 1. 변수선정결과본연구에서는직선구간및곡선구간에대해사고발생에영향을미치는중요변수가 RF 기법을통해선택된다. 본연구에서는 MATLAB 을통해코딩된 RF package 를사용하여변수중요도분석을수행하였다. RF 기법을통한변수중요도분석을수행하기위해서는 forest 를구성하는트리의개수와각노드에서분할에사용되는독립변수의수를사전에지정할필요가있다. 변수중요도에대한안정적인결과를도출하기위하여트리의개수를변화시키면서분석을수행한결과 대한교통학회지제 32 권제 4 호, 2014 년 8 월 373
Article Table 3. MSE error rates by number of variables Number of MSE error rates variables Straight section Curve section 3 1.320 0.505 6 1.224 0.501 12 1.258 0.529 400 개의트리부터최소의오차율이일정하게유지되는패턴을확인할수있었다. Liaw and Wiener(2002) 에따르면트리내각노드에서분할을위해사용되는변수의수는분석결과에큰영향을미치지는않는다고언급하였다. 하지만모형의성능을높이기위하여최적의변수수를산정하는방법론을제시하였다. 알고리즘에서는전체변수의 1/3 을기본값으로설정하고있으며, 이에기본값과기본값의 1/2, 그리고기본값의 2배를대안으로검토하여최적의오차율을가지는값을선택할것을제시하였다. 본연구에서검토되는전체독립변수의수는 17개이기때문에각노드에서사용되는최적의변수수산정을위하여 6개, 3개, 12개의대안을분석해보았으며, 직선구간과곡선구간모두에대해 6개의변수를사용하였을때최소의오차율을가지는것으로분석되었다 (Table 3). 따라서본연구에서는트리의수는 400 개로, 각노드에서사용되는변수의수는 6개로설정하여 RF 분석을수행하였다. 이에따라직선구간과곡선구간에대해 RF 기법을통한변수중요도분석결과는 Figure 3과같다. 본연구에서는중요도가가장높은 EXPO 변수를기준으로표준화한척도를사용하였으며, 변수중요도가높을수록해당변수가사고예측에사용되었을경우모형의정확도를더크게향상시킬수있음을의미한다. 이에따라직선구간과곡선구간모두 AADT 와구간길이로부터산출되는노출도변수와전체교통량중버스및트럭등중차량이차지하는비율이사고발생에가장중요한영향을미치는것으로분석되었다. 또한도로의기하구조와관련된변수들이사고발생에중요한영향을미치는것으로분석되었는데, 직선구간의경우종단선형및진출입부의존재유무가, 곡선구간의경우평면선형, 종단선형, 그리고진출입부의존재유무가사고발생에중요한영향을미치는것으로나타났다. 주변환경변수는이에비해상대적으로사고발생에영향을미치는중요도가작은것으로나타났으며, 이중무인단속카메라의영향이비교적높은것으로분석되었다. 유전자프로그래밍모형구축에사용할최종독립변 (a) Straight section (b) Curve section Figure 3. Normalized variable importance measure based on mean decrease in MSE 수를선택하기위하여본연구에서는중요도가높은변수부터순서대로입력변수로활용하여 RF 모형의 MSE 변화를검토하였다. 직선구간과곡선구간각각에대해상위 1개변수부터상위 17개변수까지를순서대로검토해본결과직선구간은상위 7개변수를선택했을때최소의 MSE 값이도출되었으며, 곡선구간은상위 8개변수를선택했을때최소 MSE 값이도출되었다. 따라서본연구에서는직선구간의경우 EXPO, HV, Slope, In, Out, E4, E2 변수를, 곡선구간의경우 EXPO, HV, Curve, Slope, In, E4, E6, Out 변수를유전자프로그래밍모형구축에사용하였다. 2. 유전자프로그래밍모형 본연구에서는고속도로의직선구간과곡선구간에대해앞서선택된중요변수들을기반으로사고예측을위한유전자프로그래밍모형을구축하였다. 유전자프로그래밍모형은 MATLAB 으로코딩된 GPLAB toolbox v3.0 을사용하여구축되었으며, 유전자프로그래밍알고 374 Journal of Korean Society of Transportation Vol.32 No.4, August 2014
KWAK, Ho-Chan KIM, Dong-Kyu KHO, Seung-Young LEE, Chungwon Article Table 4. Summary of parameters Parameter Selected value Number of generations 50 Number of individuals 1,000 Depth limited to 30 Initial maximum depth 6 Probability of crossover automatic adaptation procedure Probability of mutation automatic adaptation procedure Probability of reproduction 0 Selection Lexictour Function set +, -,,,, ln Terminal set Selected variables 리즘구현을위해본연구에서사용된파라미터는 Table 4와같다. 먼저한세대에존재하는개체군의크기는다양한개 체들을생성시키기위하여충분히큰 1,000 개로설정하 였다. 또한알고리즘의종료조건으로사용되는세대수 파라미터는 50으로설정하였다. 적합도함수는개선되 지않으면서모형의크기만커지는 bloat 현상을방지하기위해트리의깊이를 30으로한정시켰다. 본연구에서는부모세대개체의선택방법론으로 lexictour 방법을사용하였다. 이방법은개체군중에서임의의개체를선택하여이중가장좋은적합도를가지는개체를최종적으로선택하는방법으로, 동일한적합도를가지는개체에대해서는노드수가적은개체를선택하여 bloat 현상을최소화한다 (Silva, 2007). 모형구축을위한유전연산자는새로운개체의출현에가장중요한역할을수행하는교배와돌연변이만을사용하였으며, +, -,,, 루트, 자연로그등 6개의표준적인수학연산자가사용되었다. 유전연산자의선택확률은유전자프로그래밍의구현과정에서자동적으로연산된다. 만약해당연산자가모형의적합도를향상시킨다면해당연산자의선택확률값은증가할것이고, 반대의경우라면해당연산자의선택확률값은감소할것이다. 알고리즘의연산에사용되는변수는 Figure 4. Genetic programming model for the straight section 대한교통학회지제 32 권제 4 호, 2014 년 8 월 375
Article Figure 5. Relationship between crash frequency and continuous variables on straight section 앞서 RF 분석을통해선택된변수들이사용되며, 적합도함수로는회귀문제에효과적인 RMSE 가사용된다. 1) 직선구간사고예측모형 고속도로직선구간에대해도출된유전자프로그래밍모형은 Figure 4와같다. 앞서설명한바와같이 Figure 4는선택된 6개의수학연산자와사고빈도수에주요한영향을미치는설명변수들이조합된수식을나타내는트리로표현된다. 노출도변수와종단선형의기울기, 중차량비율, 진출입부존재유무, 무인단속카메라및노면요철포장변수가직선구간모형에서사고발생에주요한영향을미치는설명변수로사용되었다. 유전자프로그래밍모형은사고빈도수와설명변수들간의복잡한관계를표현한다. 따라서본연구에서는각설명변수의변화에따라사고빈도수가어떻게변화하는지를살펴보기위하여해당변수외다른변수들은샘플평균값으로고정하고해당변수를현실적인범위내에서변화시키면서사고빈도수에미치는영향을분석하였다. 직선구간모형에서연속변수인노출도, 종단선형기울기, 중차량비율변수에대한분석결과는 Figure 5와같다. 노출도가증가할수록사고빈도수역시증가하는것으로나타났으며, 종단선형의기울기는내리막경사가급해질수록사고빈도수가증가하지만, 오르막경사의경우사고빈도수에큰영향을미치지않는것으로분석되었다. 또한중차량비율이증가할수록사고빈도수가증가하는것으로분석되었다. 이진변수인진출입부존재유무, 무인단속카메라및노면요철포장변수에대한분석결과는 Table 5에나와 Table 5. Relationship between crash frequency and binary variables on straight section variable 0 1 variation In 0.225 0.981 +0.756 Out 0.510 0.611 +0.101 E4 0.720 0.472-0.248 E2 0.613 0.552-0.060 있다. 연속변수와마찬가지로해당변수외다른변수들은샘플평균값으로고정하고해당이진변수만을 0과 1 로변화시키면서해당시설물의존재유무에따른사고빈도수및변화량을분석하였다. 분석결과진출입부의존재는사고빈도수를증가시키는요인으로나타났으며, 무인단속카메라와노면요철포장시설은사고를감소시키는요인으로분석되었다. 유전자프로그래밍모형의적합도를비교하기위하여본연구에서는동일한자료를활용하여음이항회귀모형을구축하였으며, 직선구간에대해구축된회귀모형은식 (2) 와같다. 유의수준 0.05 하에서유전자프로그래밍모형과동일한변수들이유의성을가지는것으로나타났으며, 각설명변수별로사고빈도수의증가와감소에미치는영향은유전자프로그래밍모형의결과와유사한패턴을가지는것으로분석되었다. exp (2) 두모형간비교를위한비교지표로는모형에의해도출된사고빈도수와실제사고빈도수와의차이를나타내는 RMSE 를사용하였다. 본연구에서구축된직선구간의유전자프로그래밍모형의 RMSE 는 0.573으로나타났으며, 음이항회귀모형의 RMSE 는 0.688로나타나유전자프로그래밍모형의적합도가더우수한것으로분석되었다. 이처럼본연구에서는유전자프로그래밍모형에의해도출되는함수식을기반으로사고빈도수와설명변수사이의관계에대한도식화를통해사고요인에대한규명이가능하고, 음이항회귀모형에비해상대적으로우수한적합도를가지는사고예측모형을구축할수있었다. 2) 곡선구간사고예측모형고속도로곡선구간에대해구축된유전자프로그래밍모형이 Figure 6에나와있다. 곡선구간의경우앞서설정한 6개의수학연산자와노출도, 평면선형의곡선 376 Journal of Korean Society of Transportation Vol.32 No.4, August 2014
KWAK, Ho-Chan KIM, Dong-Kyu KHO, Seung-Young LEE, Chungwon Article Figure 6. Genetic programming model for the curve section 반경, 종단선형의기울기, 중차량비율, 진출입부존재유무, 무인단속카메라, 시선유도봉등 8개의설명변수의조합으로표현되는트리모형이사고빈도수를예측하기위해구축되었다. 직선구간과마찬가지로곡선구간에대해구축된유전자프로그래밍모형을통해설명변수와사고빈도수와의관계를도출하였다. 곡선구간모형에서사용된연속변수는노출도, 평면선형의곡선반경, 종단선형의기울기, 중차량비율등네개의변수이며, 이에대한분석결과는 Figure 7과같다. 직선구간과마찬가지로노출도가증가할수록사고빈도수역시증가하는것으로나타났으며, 평면선형의곡선반경이증가할수록사고빈도수가감소하는것으로나타났다. 종 Figure 7. Relationship between crash frequency and continuous variables on curve section 대한교통학회지제 32 권제 4 호, 2014 년 8 월 377
Article Table 6. Relationship between crash frequency and binary variables on curve section variable 0 1 variation In 0.175 0.941 +0.766 Out 0.353 0.807 +0.454 E4 0.363 0.332-0.032 E6 0.353 0.339-0.014 단선형의기울기는내리막경사의기울기가클수록사고빈도수가증가하는것으로나타났으며, 오르막경사의경우사고빈도수에큰영향을미치지않는것으로분석되었다. 직선구간과마찬가지로곡선구간에서도중차량비율이증가할수록사고빈도수가증가하는것으로분석되었다. 곡선구간모형에서사용된이진변수인진출입부존재유무, 무인단속카메라및시선유도봉변수에대한분석결과는 Table 6에나와있다. 앞서설명한바와같이이진변수의존재유무에따라 0과 1로변화시키면서사고빈도수및변화량을분석하였으며, 분석결과진출입부의존재는직선구간과마찬가지로사고빈도수를증가시키는요인으로나타났으며, 무인단속카메라와시선유도봉시설은사고를감소시키는요인으로분석되었다. 유전자프로그래밍모형의적합도를비교하기위하여곡선구간에대한음이항회귀모형을구축하였으며, 이는식 (3) 과같다. 유의수준 0.05 하에서시선유도봉을제외한대부분의변수들이유의성을가지는것으로나타났다. 시선유도봉의경우, 회귀모형추정결과비상식적인부호를가지는동시에통계적으로도유의하지않은것으로분석되었다. 다른설명변수의경우, 사고빈도수의증가와감소에미치는영향은유전자프로그래밍모형의결과와유사한패턴을가지는것으로분석되었다. exp (3) 그결과본연구에서구축된곡선구간의유전자프로그래밍모형의 RMSE는 0.326 으로나타났으며, 음이항회귀모형의 RMSE는 0.445 로나타나유전자프로그래밍모형의적합도가더우수한것으로분석되었다. 결론및향후연구 본연구에서는고속도로의사고예측을위한유전자프로그래밍모형의적용성을조사하였다. 한국의경부고속도로에대해 3년 (2010-2012 년 ) 동안구득된사고 빈도수, 노출도, 기하구조, 교통류특성, 주변환경관련변수를기반으로분석을수행하였다. 고속도로의직선구간과곡선구간에대해사고발생에영향을미치는중요한변수를선택하기위하여 RF 기법을통한변수중요도분석을수행하였다. RF에의해선택된변수들에기초하여직선및곡선구간에대해사고예측을위한유전자프로그래밍모형을구축하였다. 직선구간의경우노출도및중차량비율, 종단선형의기울기, 진출입부의존재유무, 무인단속카메라및노면요철포장변수가사고빈도수에영향을미치는것으로나타났으며, 곡선구간의경우노출도, 평면선형의곡선반경, 종단선형의기울기, 중차량비율, 진출입부의존재유무, 무인단속카메라, 시선유도봉변수가사고빈도수에중요한영향을미치는것으로분석되었다. 이들변수와사고빈도수와의관계를도출해본결과, 노출도가증가할수록, 내리막기울기의절대값이증가할수록, 곡선반경이감소할수록, 중차량비율이높아질수록사고빈도수가증가하는것으로나타났으며, 진출입부의존재는사고빈도수를증가시키고, 무인단속카메라와노면요철포장, 그리고시선유도봉시설등은사고빈도수를감소시키는요인으로분석되었다. 본연구결과는사고요인규명과사고빈도수의정확한예측을통한도로안전도평가, 그리고도로안전사업에대한투자우선순위결정을위한의사결정에사용될수있을것이다. 도로의계획및설계측면에서는기하구조및시설물정보를활용한도로의안전도평가가가능하며, 도로의운영측면에서사고발생위험이높은지점의사고감소를위하여무인단속카메라, 노면요철포장및시선유도봉시설설치, 그리고중차량분리운영등의대안을제시할수있을것이다. 본연구에서구축된유전자프로그래밍모형의적합도를비교하기위하여동일한자료를활용하여음이항회귀모형을구축하였다. 유전자프로그래밍모형과음이항회귀모형의 RMSE 를비교해본결과직선구간과곡선구간모두에대해유전자프로그래밍모형의적합도가높은것으로분석되었다. 즉, 본연구에서제시한유전자프로그래밍기법을사고예측모형구축에도입함으로써설명변수와사고빈도수와의관계를규명하는동시에모형의적합도를향상시킬수있었다. 하지만본연구에서제안된방법이실제적으로사용되기위해서는몇가지추가적인연구가필요하다. 우선, 경부고속도로이외에다른고속도로에서수집된자료를 378 Journal of Korean Society of Transportation Vol.32 No.4, August 2014
KWAK, Ho-Chan KIM, Dong-Kyu KHO, Seung-Young LEE, Chungwon Article 이용하여유전자프로그래밍모형의공간적전이성을검토해볼필요가있다. 또한본연구에서는유전자프로그래밍모형의적합도를비교하기위하여전통적인회귀분석모형을비교대상으로사용하였다. 하지만본연구에서제시된방법론의우수성을강조하기위하여회귀모형에비해모형의적합도가상대적으로더높은것으로알려진신경망이나 SVM 같은비모수적기법과의추가적인성능비교가이루어질필요가있다. 그리고통계적회귀모형은동일한분석자료에대해일관된모형추정결과를도출하지만, 유전자프로그래밍모형과같은학습기반의분석법의경우모형구축결과에차이가있을수있으며, 이에따라최적결과도출을위한파라미터산정에대한추가적인연구가필요하다. 마지막으로사고발생에영향을미치는추가적인변수및보다자세한사고특성자료구득을통해교통사고에영향을미치는추가적인요인규명및보다세밀한모형구축이필요할것으로판단된다. 이러한추가연구가이루어진다면본연구에서제시된방법론을통해보다안전한고속도로의설계및운영이가능해질것이다. REFERENCES Abdel-Aty M. A., Radwan A. E. (2000), Modeling Traffic Accident Occurrence and Involvement, Accid. Anal. Prev., 32(5), 633-642. Breiman L. (2001), Random Forests, Mach. Learn., 45(1), 5-32. Han S., Kim K., Oh S. (2008), What Goes Problematic in the Existing Accident Prediction Models and How to Make It Better. J. Korean Soc. Road Eng., 10(1), 19-29. Hauer E. (2004), Statistical Road Safety Modeling, TRR, 1987, TRB, 81-87. Kang J. G., Lee S. H. (2002), Traffic Accident Prediction Model by Freeway Geometric Types, J. Korean Soc. Transp., 20(4), Korean Society of Transportation, 163-175. Kang M. W., Doh T. W., Son B. S. (2002), Fitting Distribution of Accident Frequency of Freeway Horizontal Curve Sections & Development of Negative Binomial Regression Models, J. Korean Soc. Transp., 20(7), Korean Society of Transportation, 197-204. Kononov J., Bailey B., Allery B. K. (2008), Relationships Between Safety and Both Congestion and Number of Lanes on Urban Freeways, TRR, 2083, TRB, 26-39. Kononov J., Lyon C., Allery B. K. (2011), Relation of Flow, Speed, and Density of Urban Freeways to Functional Form of a Safety Performance Function, TRR, 2236, TRB, 11-19. Koza J. R. (1992), Genetic Programming: On the Programming of Computers by Means of Natural Selection, MIT Press (Cambridge, MA, USA), 73. Li X., Lord D., Zhang Y., Xie Y. (2008), Predicting Motor Vehicle Crashes Using Support Vector Machine Models, Accid. Anal. Prev., 40(4), 1611-1618. Liaw A., Wiener M. (2002), Classification and Regression by randomforest, R news, 2(3), 18-22. Lord D., Washington S. P., Ivan J. N. (2005), Poisson, Poisson-gamma and Zero-inflated Regression Models of Motor Vehicle Crashes: Balancing Statistical Fit and Theory, Accid. Anal. Prev., 37(1), 35-46. Park H. S., Son B. S., Kim H. J. (2007), Development of Accident Prediction Models for Freeway Interchange Ramps, J. Korean Soc. Transp., 25(3), Korean Society of Transportation, 123-135. Silva S. (2007), GPLAB: A Genetic Programming Toolbox for MATLAB, Mathworks (Natick, MA, USA), 10. Zhong L., Sun X., Yulong H., Zhong X., Chen Y. (2009), Safety Performance Function for Freeway in China, 88th Annual Meeting of the TRB, Washington D.C. 주작성자 : 곽호찬 교신저자 : 이청원 논문투고일 : 2013. 12. 25 논문심사일 : 2014. 2. 17 (1차) 2014. 5. 8 (2차) 2014. 5. 21 (3차) 심사판정일 : 2014. 5. 21 반론접수기한 : 2014. 12. 31 3인익명심사필 1인 abstract 교정필 대한교통학회지제 32 권제 4 호, 2014 년 8 월 379