자연과학연구 제27권 Bulletin of the Natural Sciences Vol. 27. 2013.12.(33-44) 교통DB를 이용한 교통정책 발굴을 위한 통계분석 시스템 설계 및 활용 Statistical analytic system design and utilization for transport policy excavation by transport database 이재경(Jae Gyeong Lee) 충북대학교 정보통계학과 Department of information statistics, Chungbuk National University, Chungbuk, 361-763, Korea 요 약 본 연구의 목적은 다양한 교통 및 기상 DB의 분석을 통해 과학적이고 합리적인 교통정책을 발굴하기 위한 분석시스템을 설계 및 활용하는데 있다. 본 연구에서는 유가에 의한 교통량 변화를 고려해 교통정책을 수립할 수 있도록 교통량에 영향을 주는 다양한 요인들을 모형에 반영하여 교통량에 대한 순수한 유가의 영향력을 확 인하였다. 모형 개발을 위해 교통량을 종속변수로 하고 유가를 비롯한 교통량에 영향을 미치는 요인들을 설명 변수로 다중회귀모형을 개발하였다. 한국도로공사 OASIS에서 제공한 교통량 자료, 기상청에서 제공한 기상 조건 자료, 한국석유공사에서 제공한 유가 자료를 이용하였고, 모든 분석 및 시각화 작업은 통계패키지 R을 사용하였다. 주요어: 교통 DB, 교통량, 유가, 기상, 휴일교통량, 회귀모형, 교통량 예측, 교통 정책, 융합, 자동화 시스템 ABSTRACT The purpose of this study is to design scientific and rational system for transport policy exacavation to be utilized through analyze various tarffic and weather DB. In this study, consider the traffic changes due to oil price, allowing the various factors affecting the traffic model reflecting the influence of the pure oil was confirmed. Developing model include tarffic volume dependent variable, and affecting factors are considered to independent variables as multiple regression model. Traffic volume data provided by The Korea Expressway Corporation OASIS Database, weather data provided by The Korea Meteorological Administration, and Opinet website operating in The Korea National Oil Corporation allow the value of oil price. The R statistical packages was used in all analysis and visualization. keywords: transport DB, traffic volume, oil price, weather,, regression model, prediction, policy, automation system 서론 1) 연구의 배경 2008 도로 교통량 통계연보 에 따르면 세계 금 융위기와 함께 유가가 급등했던 2008년 일교통량 이 전년대비 감소한 것으로 조사되었다. 특히 이는 자동차 등록대수가 연간 꾸준히 증가한 것과는 대 조되는 결과로 고유가를 비롯한 경기침체 등의 영 향으로 차량 이용이 감소한 것으로 분석되었다. 이 러한 사실은 자명한 결과로서 유가와 교통량은 서로 역(-)의 관계일 것이라고 충분히 짐작할 수 있다. 하지만, 유가와 교통량이 역의 관계에 있다는 사 실을 부정하는 견해와 주장이 많이 있다. 유가와 교통량은 거의 무관하다는 견해와 유가의 고공 행 진에도 불구하고 교통량이 늘어 완만한 유가상승에 는 충격을 덜 느낀다는 견해 등이 있는데 많은 전 문가들과 전문기관이 그 견해를 뒷받침 해주는 분 석까지 내 놓고 있다.
34 이재경 유가의 파급효과에 대해서는 경제 분야에서도 꾸준히 연구되어 왔는데 유가와 거시경제 관계가 역의 관계에 놓여 있다는 것은 실증 분석 연구에서 일반적인 사실로 받아들여지고 있으며 많은 연구들 (김성현 김영덕 조경엽;1999, 손양훈;1999, Kim Oh; 2001, 김영덕;2002)이 이를 확인하고 있다. 특히 우리나라는 에너지 사용량의 97%를 수입 에 의존하고 있으므로 국제유가의 급상승과 같은 유가 충격에 민감할 수밖에 없다. 따라서 유가와 경제변수간의 관계가 얼마나 밀접한지 그 정도에 대한 것은 그 다음으로 자연스레 제기되는 문제이 며, 교통량도 경제변수의 범주 안에 사회전반에 대 한 거시적인 요소에 속한다고 볼 수 있으므로 유가 충격이 교통량 증감에 미치는 영향이 얼마나 큰지 를 파악하여 중요한 교통정책을 발굴하고 운영하는 기준을 마련하는 것은 사회 전반의 효율성 측면에 서 매우 중요하다. 이렇게 유가의 영향력에 대해 상반된 의견들이 계속해서 제기됨에 따라, 유가가 상승하면 교통량 이 감소하는지 혹은 교통량이 증가하는지 어떤 방 향으로든 통계적으로 명확하게 규명할 필요가 있 다. 또한 이러한 분석 체계의 이용이 단편적으로 끝나지 않도록 실시간(real-time)으로 얻어지는 교통 DB의 분석을 실시간 통계분석체계의 시스템 으로 구현할 필요가 있다. 2) 연구의 목적 본 연구는 교통량에 미치는 유가의 영향력을 확 인하는 데 우선목적을 두었다. 하지만, 교통량에 영향을 미칠 수 있는 요인은 여러 가지가 존재할 수 있으므로 여러 요인들을 함께 고려하면서 동시 에 통계적으로 유의한 요인들을 각각 확인하여 예 측 오차 비율을 줄일 수 있는 교통량 모형을 개발 하고자 한다. 또한, 교통량에 유의한 영향을 미치 는 유가와 다른 요인들로 개발된 모형을 바탕으로 각 요인들의 파급효과에 대응할 수 있는 자동화 시 스템을 통계패키지 R을 통해 구현하고 교통 정책 의사 결정이 쉽게 이루어질 수 있도록 하는 시스템 자동화 과정을 제안하고자 한다. 3) 연구의 시공간적 범위 본 연구는 OASIS DB에서 제공받은 일 별 교 통량 중 경기지역본부 관할의 TCS 영업 출구 교 통량(마그네틱 카드 수납) 자료를 토대로 하였다. 통계적 방법론의 적용 특성상 표본수가 많을수 록 분석이 용이하므로 연구제한범위인 2011년 1 월 1일부터 2013년 5월 30일까지의 자료가 사용 되었다. 그 외, 유가와 기상정보 등의 자료도 교통량과의 기간 일치를 위해 같은 기간의 자료가 사용되었다. 또한, 서울경기지역 인구가 우리나라 전체 인구 대 비 약 50%에 이를 정도로 수도권의 인구밀집도가 높아 교통량도 가장 많은 지역이므로 공간적 범위 를 서울경기지역으로 분석대상을 설정하였다. 4) 분석방법 본 연구에서는 가장 대표적인 통계적 방법론 중 하나인 회귀분석을 이용하였다. 다중회귀분석을 이 용하여 변수간의 통계적 선형 함수식을 파악함으로 써 상호관계를 추론하는 회귀식을 산출하였다. 본 연구에서 산출된 회귀식으로 수립된 모형은 회귀모 형으로 통칭하였다. 분석에는 통계패키지 R 3.0.1 버전이 사용되었다. 회귀모형은 한 변수를 종속변수로, 그리고 다른 변수들을 설명변수로 설정하여 이들 간의 관계를 모형화한 것이다. 설명변수가 한 개인 경우 단순회 귀모형, 그리고 두 개 이상인 경우를 다중회귀모형 이라고 한다. 다중회귀모형은 여러 개의 변수들 간 의 관계를 함수식으로 모형화한 것으로서 한 개의 종속변수를 여러 설명변수들의 선형 함수식으로 표 현하는 통계적인 모형이다. 일반적으로 이 추정된 모형을 사용하여 예측에 이용하거나 관계 규명을 위한 추정 및 검정을 실시하게 된다. 종속변수를 로, 개의 설명변수들을 로 표기할 때 회귀모형은 [식 1]과 같이 표현된다. [식 1] : 종속변수 : 독립변수 : 회귀계수, : 오차항 이 회귀모형에서 를 회귀계수라고 부 르며 이 값들은 데이터로부터 추정된다. 즉, 설명 변수 가 종속변수 값에 미치는 영향력을 나타 낸다.
교통DB를 이용한 교통정책 발굴을 위한 통계분석 시스템 설계 및 활용 35 분석을 위해 추가된 데이터( )를 이용하여 설정한 회귀모형은 각 회귀계수에 대한 추정치를 주어진 자료로부터 구할 수 있으며 구해 진 추정식(예측식)은 다음과 같다. [식 2] 모형에 대한 평가가 완료되면 이를 이용해 예측 을 수행할 수 있는데 이 예측 자료에 대한 평가 지 표로 MAPE(Mean Absolute Percentage Error) 수치를 사용하였다. MAPE는 평균 절대오차 비율 값으로서 예측값이 실제값에 비해 얼마나 오차를 가지는지 비율로 나타내어 이 때, 회귀모형에서 결정계수( )의 값은 종속 변수의 총 변동에 대한 설명변수들의 설명력의 크 기를 나타내는 척도이기 때문에 의 범 위를 갖게 되며 1에 가까울수록 설명변수들이 종 속변수를 잘 설명하고 있다고 판단하고 그 반대로 0에 가까우면 설명변수들이 합당하지 않게 추가되 었다고 판단한다. 회귀 이론에서는 회귀식에 포함 되는 설명변수의 수가 늘어나면 결정계수 의 값 이 자동으로 높아지므로 수정된 결정계수(adjusted R-squared)를 사용한다. 비슷한 개념으로, 설명 변수들이 선형가정을 만족하면서 종속변수를 잘 설 명해내는지에 대한 통계적 가설검정을 거칠 수 있 다. 이를 회귀요인에 대한 분산분석이라 하며 모형 적합 통계량을 확인하는 과정에 해당한다. 모형 설정 시 설명변수 각각이 가지는 설명정도 의 크기가 서로 다를 수 있으므로 이를 적절히 조 절하여 선택하는 변수선택법을 모형평가 과정에서 적용할 수 있다. 본 연구에서는 AIC(Akaike Information Criteria)를 이용한 단계별(stepwise) 변수선택법을 행하였다. 단계별 변수선택법이란 매 단계에서 새로운 변수를 선택하여 이전에 선택된 모든 변수들에 대한 중요성을 판단하여 제거 여부 를 검토하는 방식인데 더 이상 중요한 변수가 없다 고 판단될 때 변수의 선택을 중단한다. 변수에 대한 또 다른 기준으로는 회귀모형에 적 용되는 중요한 전제조건 중의 하나인 설명변수들의 상호 독립성을 확인하는 방법이다. 이를 위해 다중 공선성(multicollinearity) 진단을 수행하는데 각 변수의 다중공선성에 대한 분산팽창계수(VIF ; Variation Inflation Factor) 수치가 10을 넘으 면 변수 간 상관관계가 높은 것으로 판단하여 변수 를 삭제시킨다. 이렇게 선택된 변수들에 대해 회귀계수를 추정 하고 추정된 계수의 통계적 유의성을 검토하기 위 해 각 계수별 t-검정을 수행하며, 유의확률이 유의 수준보다 작은 수치를 나타내야 해당 회귀계수가 통계적으로 유의하다고 판단한다. [식 3] : 실제값 : 예측값(추정값) : 데이터 수 와 같은 값으로 확인해 볼 수 있다. 값이 작을수록 모형의 과다 예측이 적다는 것을 의미한다. 본 연구에서 수행한 회귀모형에 대한 수립 절차 는 다음 순서도와 같다. [fig. 1] 분석 순서도 먼저 모형수립에 사용될 자료를 탐색한 후 변수 를 정의 및 설정한다. 선정된 데이터를 이용해 회 귀분석을 수행하여 모형을 수립한 후 여러 기준을 통해 검토하여 변수를 재설정하거나 모형을 선정한 다. 이렇게 선정된 모형이 예측 등에 활용된다.
36 이재경 자료 설정 1) 단위 설정 분석 자료의 단위에 대한 기준은 연구 목적 측 면에서 교통량과 유가가 기준점이 될 수 있다. 교 통량은 최소범위인 시간 단위(한 시간 간격)부터 산정되어 있으므로 일 단위 혹은 월 단위까지 확장 이 가능하다. 특히, 유가정보는 일 단위, 주 단위, 월 단위로 계산되어 실시간으로 공시되고 있는데 현재 한국석유공사에서 운영하고 있는 오피넷(주유 소 종합정보 시스템, www.opinet.co.kr)에서 전 국 주유소의 실시간 판매가격을 수집하여 인터넷으 로 공개하고 있다. 일 단위로 수집된 유가는 시간 에 의존하는 시계열 자료이기 때문에 순수 그 영향 력만을 확인하기 위해서는 차분을 통해 시간 효과 가 제거된 자료이어야 한다. 즉, 차량이용자 입장 에서 봤을 때 이전 유가와 현재 유가의 차이에 얼 마나 민감한가를 확인하는 것이다. 따라서 가계운 영 심리상 적당히 유가변동에 반응할 수 있는 시간 단위로서 주 단위를 기준 단위로 선정하였다. 이에 따라 교통량과 기상 및 다른 변수들도 주 단위로 기준을 마련하였으며 2011년 1월 첫째 주부터 2013년 5월 마지막 주까지 총 126주간의 데이터 를 대상으로 선정하였다. 주 단위로 기준을 선정할 경우 무슨 요일이 그 주의 시작점인지가 중요 관심 사이다. 오피넷에 공시되는 주간 유가의 경우 목요 일을 매 주의 시작점으로 사용한다. 2011년 1월 1일이 토요일이므로 목요일인 2010년 12월 30일 부터 첫째 주가 시작하고 수요일인 2013년 5월 29일이 126번째 주의 마지막 날로 계산되어 분석 에 사용되었다. 2) 변수 설정 본 연구에서 구축된 모형은 변수들의 관계를 규 명하고 이용하는 회귀모형이다. 교통량에 영향을 미치는 변수는 실로 다양하기 때문에 가장 대표적 인 영향요인인 기상조건을 포함해 분석목적에 해당 하는 유가 정보까지 여러 요인들을 포함하여 변수 를 설정하였다. 교통량에 영향을 주는 변수로 선정된 설명변수 는 <table 1>과 같으며 각종 공공기관에서 공시하 는 자료를 기반으로 탐색적으로 정리하였다. 추가된 설명변수는 크게 주기 요인과 기상조건 요인, 공휴일 요인, 유가정보 요인으로 나누어져 있다. <table 1> Variable Definition 종 속 변 수 설 명 변 수 요인 변수명 단 위 - 주간 교통량 대 주기 기상 조건 공휴일 유가 정보 정의 서울경기지역 주간 평균 교통량 년 년 분석 시작 년도부터의 연차 주 주 연내 주 단위 순서 강수횟수 강수량 강설횟수 강설량 주말기상 패턴 평일휴무 여부 일 m m 일 cm 패 턴 패 턴 서울경기지역 주간 강수 일 수 서울경기지역 주간 총 강수량 서울경기지역 주간 강설 일 수 서울경기지역 주간 총 강설량 서울경기지역 토요일 강수여부와 일요일 강수여부 조합 평일 중 법정공휴일 해당여부 명절일수 일 주중 명절일수 주유가 변화량 원 전 주 대비 해당 주의 주유소 평균가격 차이 주기 요인은 교통량은 기본적으로 계절성을 가 지고 있다는 가정 하에 추가된 변수들이다. 년 변 수는 매년 소득수준 향상(GDP기준)에 따라 차량 보유대수 증가에 의해 교통량은 자연스레 향상된다 고 알려진 사실에 의해 추가되었다. 주 변수는 계 절성을 나타내는 변수인데, 예를 들어 7월 마지막 주와 8월 첫째 주는 휴가차량에 의해 다른 주에 비 해 교통량이 많다는 사실 등을 확인해 줄 수 있다. 기상조건 변수는 비나 눈이 오는 경우 한 주 동 안 비 오는 날의 횟수나 그 양에 따라 교통량이 변 할 것이라는 가정 하에 추가되었다. 기존의 다양한 연구결과(최정순;1999, 오주삼;2002, 김성환 이 청원;2009)를 보면 비가 올 경우 전체 차로의 소 통능력은 맑은 날에 비해 감소하고 Manish (2005)는 비 뿐 아니라 눈이 올 경우에 대해, 그 리고 1967년 캘리포니아의 연구는 안개에 따른 교 통류 상태 분석에 대해 구체적인 수치까지 제시하 고 있다. 따라서 직접적으로 산출해 낼 수 있는 강 우 및 강설 변수를 고려했다. 주말기상패턴 변수는
교통DB를 이용한 교통정책 발굴을 위한 통계분석 시스템 설계 및 활용 37 주말 기상패턴에 의해 영향을 받는 나들이 차량을 고려한 변수이다. 주말 기상패턴은 토요일과 일요 일 모두 맑은 경우(패턴 1), 토요일은 맑고 일요일 은 비가 오는 경우(패턴 2), 토요일에 비가오고 일 요일은 맑은 경우(패턴 3) 그리고 토요일 일요일 모두 비가 오는 경우(패턴 4)로 구분하였다. 공휴일 요인은 평일휴무여부와 명절일수변수로 구분하였다. 각종 법정공휴일이 있을 경우 그 주의 교통량이 달라짐을 확인하기 위해 추가되었다. 법 정공휴일은 말 그대로 해당 년도에 법으로 지정된 공휴일에 해당한다. 국외의 연구 중 미국 플로리다 지역의 법정 공휴일과 주말에 대한 상시교통량 조 사에서 상식적으로 휴일 동안의 교통량이 더 많다 는 일반적인 믿음에 반하는 결론에 도달한 경우가 있다. 평일 중에 공휴일이 있다면 산업용차량은 교 통량이 줄어들 것이고, 휴가 차량은 많아질 수 있 으므로 분명 확인해 볼 필요가 있는 부분이다. 명 절일수 변수는 명절에 필연적으로 교통량에 변동이 생기는 것을 고려한 것이다. 데이터가 주 단위로 나누어지기 때문에 한 주에 명절 연휴가 포함된 일 수(days)로 구분하였다. 유가정보 역시 변수로 추가되었다. 석유는 경제 정치 금융 상품의 특성을 모두 가진 점을 감안하여 기본적 정치적 심리적 투기적 요인으로 가격 결정 메커니즘을 설명할 수 있는데 대표적인 예로 미 서 부 텍사스 중질유(WTI)가 훨씬 비쌈에도 불구하 고 그 가격변동에 두바이유가 영향을 받는다는 점 이다. 한국은 원유 수입의 약 80%를 중동 지역에 서 수입하기 때문에 두바이유의 가격이 국내 경제 와 유가에 미치는 영향은 아주 크다. 국제 원유 가 격의 변동은 국내에 비용 측면으로 반영되어 국내 유가와 양의 비례관계를 갖는다. 즉, 국제 원유 가 격의 상승(하락)은 이를 정제하는 국내 정유사에 추가적인 비용 상승(하락)을 불러와 국내 유가를 상승(하락)시킨다. 휘발유, 경유, 원유(두바이유)의 가격을 주 단위 로 비교해 보았다[fig. 2]. [fig. 2]에서 두바이유의 증감추세와 국내주유소 의 유가변동이 비슷한 패턴을 보이는 것을 확인 할 수 있다. 즉, 분석에는 주유소의 가격변동이 사용 되지만 이는 국제유가를 어느 정도 대변하고 있다 고 할 수 있다. 마찬가지로, 휘발유와 경유의 가격 변동이 같은 패턴을 보이고 있으므로 동일하다고 여길 수 있다. 따라서 가장 대표적인 유가인 휘발유 가격으로 주간 가격 차이 값을 변수로 사용하였다. [fig. 2] 두바이유와 국내주유소의 가격추세 비교 모형 수립 1) 모형 식 본 연구의 회귀모형은 교통량에 대한 다른 변수 들의 영향력을 규명하는 것이므로 교통량을 종속변 수로 하며 유가를 비롯해 여러 요인을 반영한 변수 들이 설명변수로 설정되어 확률 오차 항을 포함하 는 선형 회귀식으로 표현된다. 이렇게 설계된 회귀 식은 R 패키지를 이용하여 분석하였고, 모든 검정 은 95% 유의수준(α=0.05)를 기준으로 하였다. 분석에 추가된 설명변수는 일곱 가지 연속형 변 수와 세 가지 범주형 변수로 이루어져있다. 세 가 지 범주형 변수는 추정 시 더미변수(가변수)로 취 급된다. 추정식은 [식 4]와 같다. 주 주 주 [식 4] 유 무 : 주간 교통량 : 년 : 주 : 강우횟수 : 강우량 : 강설횟수 : 강설량 : 주말기상패턴 : 평일휴무여부 : 명절일수 : 주유가변화량 = 1, 2,, 126
38 이재경 사용된 데이터로부터, 회귀모형식을 이루는 각 모 수를 추정하였다<table 2>. <table 2> Result of Regression model 단위 : 교통량(천 대), 강우량(mm), 강설량(cm) 표준 구분 변수 추정량 t p 오차 기준 값 1276.231 26.770 47.674 0.000** 년도 36.666 5.318 6.895 0.000** 1월 둘째 주 1월 셋째 주 7월 넷째 주 8월 첫째 주 8월 둘째 주 12월 셋째 주 12월 넷째 주 주 41.137 32.766 1.255 0.214 주 51.269 33.017 1.553 0.125 주 248.216 40.466 6.134 0.000** 주 227.562 37.496 6.069 0.000** 주 254.926 41.404 6.157 0.000** 주 112.745 36.837 3.061 0.003** 주 88.397 35.843 2.466 0.016* 강우횟수 -8.619 4.549-1.895 0.063 강우량 -0.165 0.104-1.589 0.117 강설량 -8.090 1.965-4.116 0.000** 주말 기상패턴 2 30.581 14.645 2.088 0.041* 주말 기상패턴 3 15.271 13.293 1.149 0.255 주말 기상패턴 4 26.917 17.938 1.501 0.138 평일 휴일여부 -20.769 15.647-1.327 0.189 명절일수 -16.566 7.821-2.118 0.038* 유가 변화량 -1.048 0.445-2.357 0.022* * : p<0.05, **: p<0.01 2) 모형 타당성 평가 회귀분석에서 단계별 변수선택법을 이용하여 분 석한 결과, 강설횟수 변수가 제거된 모형이 AIC가 가장 낮으므로(AIC수치가 낮은 쪽이 상대적 우위 를 가짐) 해당모형을 분석에 사용하였다. 추정된 회귀 모형은 통계적으로 유의미하게 (F=11.41, p<0.05) 적합한 것을 확인하였다 <table 2>. 설명변수들의 교통량에 대한 설명력( )은 0.8355이다. 즉, 기상과 공휴일, 유가를 포함하는 설명변수들로 교통량을 약 84% 설명할 수 있다는 의미이다. 회귀계수 검정 결과 대부분의 변수에 대해 추정 된 계수들이 p<0.05로 유의함을 나타내고 있다. 그러므로 예측모형으로부터 신뢰할 만한 예측 값을 얻어낼 수 있다<table 2>. 마지막으로, 설명변수 간에 강한 상관관계가 있 어 회귀계수를 무의미하게 만드는 다중공선성의 존 재여부를 확인하기 위해 VIF(분산팽창계수) 수치 를 확인해보았다. 각 변수별 VIF수치가 허용 최대 한계치인 10에 훨씬 못 미치는 값을 가지므로 다 중공선성이 없는 것으로 간주한다. 3) 모형 해석 a) 변수별 교통량에 대한 영향여부 교통량 모형에 대한 분산분석 결과 각 변수가 통계적으로 유의하면 교통량에 대한 영향력이 있다 고 볼 수 있다<table 3>. 본 연구에서 가장 중점적으로 관심을 둔 변수는 바로 유가이다. 유가 변화량 설명변수는 통계적으 로 유의하였다(p=0.022). 이것은 유가 변화량에 의해 교통량이 영향을 받는다는 것을 의미한다. 마 찬가지로 명절여부도 교통량에 유의하게 영향을 미 친다는 것을 확인할 수 있다(p=0.016). 이 외에 어느 정도 영향을 확인할 수 있는 강우량 (p=0.054)을 비롯해 강우횟수(p<0.000), 강설량 (p<0.000)도 교통량에 영향을 미침을 알 수 있다. 또한 연간 교통량 증가를 의미하는 연차 변수 (p<0.000)와 계절성(p<0.000)을 의미하는 주차 변수도 모두 유의한 것으로 나타났다. b) 변수별 영향력 다른 변수들이 동일한 수준일 때 각 변수의 계수값 은 그 변수 변화에 의한 교통량의 변화량, 즉, 교통량
교통DB를 이용한 교통정책 발굴을 위한 통계분석 시스템 설계 및 활용 39 <table 3> ANOVA Table of Regression model 구분 Df 제곱합 평균 제곱합 F-통계 량 유의확률 연차 1 21448 21448 15.346 0.000** 주차 51 877607 17208 12.312 0.000** 강우횟수 1 22269 22269 15.933 0.000** 강우량 1 5377 5377 3.847 0.054 강설량 1 22825 22825 16.331 0.000** 주말 기상패턴 3 4315 1439 1.029 0.386 평일 휴일여부 1 2746 2746 1.965 0.166 명절일수 1 8484 8484 6.070 0.016* 유가 변화량 1 7764 7764 5.555 0.022* 잔차 64 89450 1398 모형의 설명력( ) = 83.55% 평균 제곱근 편차(RMSE) = 37.39(df=64), 모형 적함통계량(F=11.41, p<0.05), * : p<0.05, **: p<0.01 에 대한 각 변수의 영향력을 의미한다<table 3>. 절편에 대한 추정값 는 1276.231로 기준 값 은 1,276,231대로 나타났다. 년 변수에 대한 추정값 는 36.666로서 매년 36,666대 정도씩 증가한다는 것을 나타내고 있다. 주 변수는 범주형 변수이므로 첫째 주를 기준으 로 각 주차별 상대적 차이가 추정 계수로 나타났 다. 예를 들어, 33주차(2011년 기준 8월 둘째 주)의 추정 계수는 주 =254.926 이므로 33번 째 주가 첫째 주 대비 교통량이 254,926대가 더 많은 것으로 추정되었다. 강우횟수에 대한 추정 계수는 =-8.619 이다. 연속형 변수에 대한 추정계수로 주중 비 오는 날이 하루씩 늘어날 때마다 교통량이 8,619대씩 감소한 다는 것을 의미한다. 마찬가지로 강우량에 대한 추 정계수는 =-0.165이므로 강우 1mm당 165대 씩 교통량이 감소한다. 강설량에 대한 추정 계수는 =-8.090이다 즉, 총강설량이 1cm 늘어날 때마다 교통량은 8,090대 씩 감소한다는 뜻이다. 주말기상패턴 변수는 주 변수와 마찬가지로 범 주형 변수로서 패턴 1을 기준으로 상대적으로 비 교할 수 있다. 패턴 2는 30,581대, 패턴 3은 15.271대, 패턴 4는 26,917대씩 각각 패턴 1보 [fig. 3] 교통량과 유가 변화량 비교 다 많은 교통량을 보였다. 평일 휴일여부에 대한 추정계수는 =-20.769 이므로 주중 평일휴일 있을 경우 평균 교통량이 20,769대 감소한다고 추정되었다. 명절일수에 대한 추정계수는 =-16.566 이 므로 주중에 명절이 하루 추가될 때마다 16,566대 씩 교통량이 감소한다는 것을 의미한다. 만약 명절 연휴 3일을 합치면 16,566 3=46,698대가 감소 할 것으로 추정되는데 설 연휴에 수도권지역 출구 교통량이 줄어드는 것을 보여주고 있다. 마지막으로 유가 변화량 변수에 대한 추정계수 는 =-1.048로 주간 유가 증가폭이 커지면 교 통량은 감소하는 것으로 나타났다. 유가 변화량 곡선이 상승하면 교통량이 증가세 가 둔감해지거나 감소하고 유가 변화량 곡선이 하 락하면 교통량이 증가하거나 그 기울기가 증가하는 서로 상반된 방향으로 진행하는 것을 알 수 있다 [fig. 3]. 추정된 계수 값으로부터 유가 변화량이 최대 100원을 기록한다면 교통량은 최대 104,800 대 줄어들 수 있을 것으로 예상된다. 4) 교통량 예측 모형에 대한 추정 식으로부터 종속변수인 교통 량에 대한 예측을 수행할 수 있다. [식 4]에서 설 명변수들의 각 계수들은 <table 2>에서 추정되었 으므로 예측을 원하는 해당 주의 예상 기상정보, 공휴일정보 및 유가정보를 입력하면 예측 교통량을 알 수 있다. 모형 설계에 사용된 설명변수들을 추 정 결과 식에 대입한 예측교통량과 실제교통량을 비교해 보았다[fig. 4]. 붉은색으로 표시한 예측교통량과 초록색으로 나 타낸 실제교통량이 거의 일치하는 것을 볼 수 있 다. 전체 자료를 이용하여 예측 값과 실제 값의 오 차비율(MAPE: Mean Absolute Percentage
40 이재경 [fig. 4] 실제교통량과 예측교통량 비교 행하였다. 교차 타당도란, 전체 데이터 중 일정한 비율로 데이터를 분리하여 사전 데이터(train data;분석 데이터)로 모형을 세우고 예측 한 후 사후 데이터(validation data;검증 데이터)와 비 교하는 검증하는 과정을 말한다. 본 연구에서는 2011년 첫째 주부터 2013년 5월 마지막 주까지 총 126주에 해당하는 데이터가 사용되었는데 126 주 중 70%에 해당하는 1주~88주(126주 중 88 주)를 분석 데이터, 30%에 해당하는 89주~126 주(126주 중 38주)를 검증 데이터로 사용하였다. 교차타당도에 의한 분석그래프는 [fig. 6]과 같다. 분석 데이터에 의해 추정된 예측 값과 신뢰구간이 검증 데이터 영역에 붉은색으로 표시되어 초록색으 로 표시된 실제 값(검증 데이터)과 얼마나 일치하 는지를 알 수 있다[fig. 6]. 교차 타당도 검증과정 에서 실제 값에 대한 예측 값의 오차비율(MAPE) 은 3.72% (0.0372)로 나타났다. [fig. 5] 실제교통량과 예측교통량의 신뢰구간 [fig. 6] 교차타당도에 의한 교통량 예측 검토 Error)을 나타내는 값은 1.45%(0.0145)로 나타 났다. 또한, 회귀모형의 예측에 대한 신뢰구간을 확인 할 수 있다[fig. 5]. 신뢰구간은 허용한계범위까지 나타내는 것으로, 본 연구에서 일반적으로 사용되는 95% 유의수준 에서 실제교통량이 예측신뢰구간의 한가운데에 위 치하고 있음을 알 수 있다[fig. 5]. 또한, 교통량 예측 모형을 평가하기 위해 설명변 수에 대한 새로운 정보가 입력되었을 때 예측값과 실제값의 오차가 작을수록 더 큰 타당성을 갖게 된 다. 본 연구에서는 예측 모형에 대한 평가로 교차 타당도(Cross Validation)에 의한 비교과정을 수 5) 유가의 영향력에 대한 고찰 본 연구에서 수립된 모형을 통해 유가가 교통량 에 대해 통계적으로 의미가 있는 영향력을 미치고 있음을 확인했다. 더 명확히 표현하면 주유소 자체 가격보다 가격 변동의 정도에 따라 교통량이 영향 을 받는다고 할 수 있다. 이를 운전자 입장에서 해 석하면 지난주 대비 이번 주의 주유소가격의 변동 에 체감적으로 반응한다는 의미로 해석될 수 있다. 교통량에 대한 유가 변화량의 영향은 다양한 형 태로 확인해볼 수 있다. 차량 형태 구분 별 교통량 에 대한 유가 변화량의 영향을 확인해 보았다 <table 4>. 소형차의 경우 유가 변화량이 1원 증가 시 약 849대가 감소하는 것으로 나타나 가장 큰 영향을 받는 것을 알 수 있고, 중형차의 경우 1원 증가 시 약 42대가 감소하는 것으로 나타나 가장 영향을 덜 받는 것을 알 수 있다. OASIS DB의 차종 구분에서 소형차는 경차포 함 승용차와 16인승 이하 승합차, 2.5t미만 화물 <table 4> Constrast car type with oil price 구분 유가 변화량의 추정량 표준 오차 소형차 -848.95 389.22-2.181 0.033 중형차 -42.39 26.22-1.617 0.111 대형차 -122.32 54.13-2.260 0.027 t p
교통DB를 이용한 교통정책 발굴을 위한 통계분석 시스템 설계 및 활용 41 차를 의미하므로 대부분 승용차량에 해당한다. 승 용차 운전자들이 연비절감에 민감한 점을 고려했을 때 명확한 결과이다. 반면, 중형차는 17~32인승 승합차와 2.5t~5.5t 화물차를 의미하고, 대형차 는 33인승 이상 승합차와 5.5t 이상 화물차를 의 미한다. 운수업종의 여객 및 화물이송 목적 차량 이용자들은 대부분 직업 특성상 유가에 상관없이 항상 운행을 유지해야 하므로 유가변동에 상대적으 로 둔감하다고 판단된다. 기름 값에 직접적으로 영향을 미치는 각 차량개 체의 연비에 대해 파악할 수 있는 데이터가 없으므 로 (모든 개인차량의 연비는 제각각이므로) 차종을 그 대안으로서 연비에 대한 범주로 고려하였다. 그 럼에도 불구하고 교통 변화량의 예측에 대해 좋은 결과를 얻을 수 있었다. 같은 방법으로 차량의 주 행거리를 범주화 하여 비교하거나 혹은 운전자의 직업군, 주거지 등을 범주화하여 비교하는 연구도 필요할 것으로 사료된다. 자동화 시스템 1) 모형 활용 본 연구에서 수립된 모형은 가장 일반적인 통계 적 모형으로서 데이터가 가지고 있는 내재적 의미 를 파악하는데 중요한 도구가 될 수 있다. 이러한 모형을 자동화 시스템에 도입하면 몇 가지 분석결 과 도출로 끝나지 않고 다양한 방식의 데이터 분석 및 활용이 가능하다. 본 연구에서 수립된 모형이 예시가 될 수 있다. 교통량을 종속변수로 하는 회 귀모형을 수립하였으므로 기본적으로 OASIS DB 의 교통정보를 대상으로 하고 기상청 및 석유공사 DB를 설명변수로 이용하여 R 패키지를 통해 DBMS를 구축하면 실시간으로 본 연구의 결과와 같은 의미 있는 결과를 이끌어 낼 수 있다. 이는 곧 데이터간의 융합을 의미한다. 이 때, 초점(FOCUS)을 어디에 두느냐에 따라 결과는 달라질 수 있다. 유가의 영향력을 확인하는 데 목적(초점)을 둔다면 보고서는 교통량에 있어서 유가변동이 어떤 방식으로, 얼마나 영향을 미치는 지 보여줄 것이다. 이러한 자동화 시스템을 이용한 일련의 과정을 도식화 하였다[fig 7]. OASIS는 고속도로 교통 이력자료 관리 시스템 (ADMS: Archived Data Management [fig. 7] 통계모형 자동화 시스템 구조도 System)이 구축된 사례로 볼 수 있는데 연구자들 이 교통 이력자료를 이용하는 연구 환경을 제공해 준다는 장점이 있고 종합적 첨단 솔루션인 지능형 교통 체계(ITS: Intelligent Transportation System)에 활용되는 기술 환경 지원을 목표로 한 다. ITS 상에서 센터 내 소프트웨어로서 통계자료 분석 설계 시스템이 구축되어 있지만 단순통계수치 추출에만 국한되거나 단일변수에 대한 시계열 분석 등이 수행되고 있다. 또한 데이터를 파악하는 방식 에 있어서 시각화 방식은 다양하게 발전해 왔지만 구체적으로 들여다보는 다차원적인 방법이 이루어 지지 못하고 있다. 따라서, 자동화 분석 시스템이 구축 되어 복잡한 실시간 교통 정보를 장기간에 걸쳐 저장하고 분석 하여 향후 교통 계획이나 운영 전략의 수립을 위한 연구를 수행하는데 사용되는 것은 운영 효율성을 위해 꼭 필요하다. 2) 데이터 시각화 통계 모형이 활용된 자동화 시스템에서의 시각 화 결과(graphic report)는 단순히 데이터를 디자 인하는데 국한되지 않는다. 현재 데이터 시각화 분야에서는 통상적으로 디 자이너들이 정보를 전달하기 위한 주요 내용을 제 공하기 어려운 상태로 아름다운 데이터 시각화를 창조하여, 형태와 기능 사이에서 균형을 만드는데 실패하는 경우가 많다. 이렇듯 디자이너가 중심이 되어 행해지는 인포그래픽과 데이터를 시각화 하는 부분에서 데이터의 시각화의 기능성과 심미적 표현 사이에 균형을 잡기가 쉽지 않다. 일반적으로 일컫 는 데이터 시각화는 원 데이터(raw data)를 디자 인하여 직관적 관점을 제공하는 것인데, 정보 분류 에 따르면 통계모형이 포함된 자동화 시스템의 시 각화 자료는 설득형과 정보형 통합적인 메시지를 통해 데이터에 대한 인사이트를 제공해 준다. 시각
42 이재경 화를 위해서는 전문가 수준의 툴을 이용하여 진행 하는 것이 필요한데 시각화 분야에서 최근 가장 범 용적으로 많이 쓰이고 있는 툴로 오픈소스인 R 패 키지가 각광받고 있다. 이미 교통데이터에 대해서 도 한국도로공사에서 공공에 개방한 OpenOASIS 의 데이터를 이용하여 R 패키지로 데이터 시각화 프로젝트가 수행된 바 있다. 본 연구에서 수립한 모형이 증명해 낸 유가의 영향력을 시각화 하였다[fig 8]. 유가 변화량이 포함된 모형의 예측교통량과 포함되지 않은 모형 의 예측교통량 차이를 그려냈다. 파란색으로 표 현된 원은 유가 증가량과 그 크기를 나타내는 것 인데, 이 때 그래프는 음의 영역에 위치하고, 빨 간색으로 표현된 원은 유가 감소량과 그 크기를 나타내는 것인데, 이 때 그래프는 양의 영역에 위치한다. 즉, 유가 변화량이 교통량과 역의 관 계에 있음을 모형에 대한 시각화를 통해 한 눈에 들여다 볼 수 있다. 결 론 [fig. 8] 회귀모형결과의 시각화 1)결과 고찰 및 결론 본 연구에서 수립된 회귀모형을 이용한 분석결과 는 다음과 같다. ➀ 유가가 교통량에 영향을 주며, 유가변동이 증가 하면 교통량이 감소한다. ➁ 유가와 더불어 기상과 휴일여부도 교통량을 감 소(증가)하게 만드는 영향요인이다. ➂ 수립된 모형으로 정확도 높은 교통량 예측을 수 행할 수 있다. 이러한 분석결과를 도출하기 위해 사용한 데이터 와 회귀모형은 여러 가지 가정을 전제했다. 교통량은 서울경기지역의 TCS교통량을 이용하 였는데 이는 표본에 불과하며 모집단인 전국 전체 교통량을 대변하는 성격을 띠고 있지만 분명히 공 간적 특성에 의한 차이가 있다. 따라서, 각 지역 교통량을 각각 분석하거나 전체 교통량에 대해 일 괄 분석하는 과정이 필요할 것으로 보인다. 또한 교통량 집계특성상 TCS교통량 외에 민자 관리도 로의 교통량이나 개방식 집계 교통량도 포함하여 분석할 필요가 있다. 설명변수로 유가의 영향력을 확인하는 과정에서 소비자 심리에 맞게 민감한 반응을 보일 수 있는 국내 주유소의 평균가격을 분석에 추가하였다. 하 지만 가장 원천적인 유가변동은 국제유가부터 발생 한다. 본 연구에서는 국내 유가와 동일한 추세를 가진다는 가정을 전제 하였는데, 엄연히 국내도입 과정에 가격편차가 생기며 또한 유통과정에 의한 편차도 생긴다. 이러한 편차가 모형에 의한 분석결 과에는 오차로 적용될 수 있으므로 이를 적절하게 확인하고 조절할 필요가 있다. 기상 역시 교통량에 맞춰 서울경기지역 기상정보 를 활용하였다. 기상부문에 있어서 공간조건은 실 제 교통에 의해 적용된 지리적인 공간조건과는 또 다른 방식으로 구분된다. 즉, 교통량은 서울경기, 충청, 강원과 같은 주소지 방식으로 구분할 수 있 지만 기상은 영동지방(태백산맥 동쪽), 영서지방, 영남지방(소백산맥 남쪽)등과 같은 방식으로 구분 되므로 이에 대해 일치된 기준이 필요할 것으로 보 인다. 이렇듯 어느 정도의 오차를 수반한 모형임에도 불구하고 전체데이터의 예측오차(MAPE) 1.45%, 교차타당도에 의한 예측오차(MAPE) 3.72%인 높은 정확도를 가지는 모형임을 확인했다. 또한, 여러 의미 있는 영향력 요인들을 확인할 수 있었 다. 특히 유가가 주 단위 변화량에 의해 교통량 변 화를 만든다는 사실은 그간에 있던 유가는 교통량 에 영향을 미치지 않을 수도 있다는 여러 추측들과 의구심을 해결해주는 고무적인 결과라 할 수 있다. 따라서, 향후 이를 이용하여 적절하게 대처할 수 있는 정책들을 수립하는 것이 중요한 과제라 하겠 다.
교통DB를 이용한 교통정책 발굴을 위한 통계분석 시스템 설계 및 활용 43 2) 정책 발굴 교통정책이란 교통문제가 나타나는 현 실태를 파악하고 미래의 바람직한 상태를 위해서 정부가 공식적으로 노력하는 것을 의미하며 교통 분야에서 나타나는 질적 또는 양적 문제들에 대한 객관적이 고 구체적인 정책목표를 수립하고 적절한 수단을 가 지고 이를 집행하는 것을 의미한다(Meyer Miller, 1982). 본 연구에서 수립한 회귀모형의 결과로서 정책 결정에 근간 및 수단이 될 수 있는 사례는 여 러 가지가 있다. 어떤 특정 시기에 대한 데이터를 분석하였는데 해당 시기에 유가가 감소하여 교통량 이 증가할 것으로 예상이 되었다. 그렇다면 해당 구간에서 정체가 발생할 가능성이 있으므로 계획적 인 운영을 할 수 있다. 또 다른 사례로는 좀 더 장 기적인 계획에 관한 내용이 있다. 연간 교통량을 차종별로, 그리고 거리별로 하여 총체적으로 유가 변동에 영향을 받는 것을 예측하였을 때, 고속도로 요금징수가 차종별 및 거리별로 이루어지므로 연간 요금징수 수입규모를 유가에 의한 영향력을 고려한 형태로 예측할 수 있다. 이에 따라 요금 산정을 탄 력적으로 할 수 있게 된다. 이러한 것들은 모두 교 통량에 대한 통계분석의 결과이다. 한국도로공사 OASIS DB에는 다양한 종류의 데이터들이 있으므로 여러 가지 정책적 근거가 될 수 있는 통계분석이 가능하다. 본 연구의 모형으로 도출한 결과처럼 현재까지 공개된 데이터에 대해 가능한 연구는 다음과 같다. ➀ 유가에 의해 교통량이 영향을 받는 것을 확인하 였으므로 이에 대해 정책적으로 탄력(elasticity) 적인 대처 가능(차종별, 거리별 등). ➁ 교통량에 영향을 주는 요인이 계절성, 휴일, 유 가, 기상 등 여러 변량이 존재하므로 하나가 아 닌 여러 요인을 복합적으로 적용한 통계모형으 로 교통량 예측을 수행. ➂ G20 회의 및 핵안보정상회의 등 국제적 행사 개최(이벤트 발생)시 시행되는 차량 부제 운행 정책의 효과를 입증하는 모형을 수립. ➃ 검지기(VDS)로부터 얻는 원시적인 데이터(속 도, 점유율 등)들을 이용하여 각 검지기가 운영 이 필요한지, 혹은 중복된 역할로 인해 운영이 필요 없는지 통계적으로 분석하여 비용절감효 과를 목표로 함. ➄ 제한시속이 차등 적용된 구간을 비교분석하여 적절성을 판단함. 예를 들어, 경부고속도로 양 재IC-천안IC 구간의 제한시속이 110km로 높 아진 후 사고수가 증가하였거나 사망사고발생 이 증가했는지를 통계적으로 확인하여 추가적 인 제한시속 변경구간을 검토할 수 있게 함. ➅ 고속도로상의 사고발생시 정체를 유발할 수 있 는데, 발생시점으로부터 처리종료시점까지 걸리 는 사후처리 경과시간이 정체 길이나 정체지속 시간을 좌우하므로 경과시간에 대한 통계적 모 형을 수립하여 이를 줄일 수 있게 함. ➆ 고속도로 상 사고발생시 각 사고유형도 제각각 이고 그에 따른 사회 경제적으로 미칠 수 있는 양적 피해의 정도 역시 다를 수 있으므로 사고 와 관련된 많은 변수를 통해 사고에 따른 피해 를 보다 정확히 예측할 수 있게 모형화 함. 이처럼 다양한 통계분석법들이 OASIS의 교통데 이터에 적용 가능하다. 따라서 각각의 목적에 맞는 통계분석 및 모형수립이 향후 과제로 제시된다. 이 미 많은 연구들이 이루어지고 있고 데이터도 충분 히 구축이 되어있으므로 자동화 시스템을 통해 이 를 적절히 활용하는 것 역시 중요하다고 판단된다. 감사의 글 통계학도로서 연구에 필요한 데이터를 얻을 수 있게 해주시고 지도교수로서 항상 많은 조언을 해 주신 허태영 교수님께 감사의 말씀을 드리며 과정 상의 도움을 준 연구실 동기생들에게도 감사의 뜻 을 전하고 싶습니다. 참고문헌 1. 국토해양부. (2009) 2008 도로 교통량 통계 연보. 2. 김선태, 고유가, 약이 될 수도 있다., 한국경제 신문, 2012/05/01 http://www.hankyung.com/news/app/ne wsview.php?aid=2012050174451 3. 이태형, 고유가 무색? 교통량 다시 증가, 헤럴 드경제, 2011/04/05 http://news.heraldcorp.com/view.php?ud
44 이재경 =20110405000347&md=20120422162732_AT 4. 조석, (2007) 유가충격이 거시경제에 미치는 영 향에 관한 연구, 경희대학교 대학원 경제학과, 5. 박성현, (1998) 회귀분석, 제 3판 6. Robert H.Shumway David S.Stoffer, (1999) Time Series Analysis and Its Applications with R Examples Second Edition, August 7. 심상우 최기주, (2009) 도로기상요인의 영향에 따른 고속도로 교통상황 유형 분류, 대한토목학 회, 대한토목학회논문집 D Vol.29 No.6D, pp.685-691. 8. 유형목, (2013)기상 악화시 고속도로 용량 변화 에 관한 연구, 명지대학교 대학원 교통공학과, 9. 오주삼 정진혁 김연복, (2002) 일반국도에서 법 정 공휴일에 따른 교통량 변동패턴 분석, 대한토 목학회, 대한토목학회논문집 D Vol.22 No.5-D, pp.881-889, 10. 김진웅 김종호, (2009) 국제 유가 변동에 대 한 국내 휘발유 가격의 비대칭적 반응, 에너 지경제연구원, 에너지경제연구, Vol.8 No.2, pp.105-131, 11. Picard, Richard; Cook, Dennis. "Cross Validation of Regression Models". Journal of the American Statistical Association 79 (387): 575 583, 1984 12.오철 이민수 남궁성 이현석 강경훈 정수정, (2006)고속도로 교통 이력 데이터의 분석을 위한 데이터웨어하우스의 설계, 대한교통학회, 대한교통학회 학술대회지, Vol.2006 No.3, pp.900-909, 13. 이지선, (2013) 빅데이터를 위한 정보디자인 의 시각화 방법 및 표현 연구, 한국기초조형 학회, 기초조형학연구, Vol.14 No.3, pp.261-269, 14. 박용길, (2004) 고속국도 교통수요예측 결과의 실증적 분석. 연세대학교 대학원 도시공학과, 15. 전진우, (2013) TCS를 이용한 폐쇄식 고속 도로 교통량 예측기법, 한양대학교 대학원 교 통공학과, 16. 한상용, (2009) 국내 고속도로 이용 효율성 증대방안 연구, 한국교통연구원, 17. 하동원, (2001) 고유가 시대에 대응한 차량 10부제 실시에 대한 비판적 고찰, 한국정책개 발연구원, 정책개발연구 제 1권 제 1호, 18. 한경닷컴 산업경제팀, 2부제 실시에도 차 막 힌 이유 있었다, 한국경제신문, 2012/03/27 http://www.hankyung.com/news/app/ne wsview.php?aid=201203270023g 19. Suheyla Yerel Huseyin Ankara, (2010) Assessment of Water Quality Parameters by Using the Multidimensional Scaling Analysis, E-Journal of Chemistry. 20. 최새로나 이기영 오철, (2012) 교통안전을 고 려한 고속도로 가변제한속도 운영구간 우선순 위 결정 연구, 대한교통학회, 대한교통학회지 Vol.30 No.3 pp.57-70, 21. 홍정표, (2011) 고속도로 최고제한속도 상향 적용방안에 관한 연구, 전남대학교 대학원 토 목공학과, 22. 정연식 송상규 최기주, (2007) AFT 생존분 석 기법을 이용한 고속도로 교통사고 지속시 간 예측모형, 대한교통학회, 대한교통학회지, Vol.25 No.5, pp.135-148, 23. 이기영 서임기 박민수 장명순, (2012) 고속도 로 교통사고 시 돌발상황 지속시간 영향 요인 분석, 한국도로학회, 한국도로학회논문집, Vol.14 No.1, pp.85-94, 24. Bent Jørgensen Marta C., (1994) Fitting Tweedie s compound poisson model to insurance claims data, Scandinavian Actuarial Journal, Vol. 1994 Issue 1,