주간기술동향 2018. 7. 18. 딥러닝기반도심지교통혼잡해결 * 이홍석한국과학기술정보연구원단장 인구의증가에따라늘어나는도심지교통혼잡비용문제는여러가지기술개발추진에도불구하고개선되지않는대표적인사회현안문제이다. 이러한국민생활문제를해결하기위해새로운패러다임의인공지능 (AI) 혁신기술개발이필요하다. 최근정부에서는 4차산업혁명대응을위해지능형인프라응용분야의혁신기술개발을추진하고있다. 인공지능기반교통분야에서데이터기반도심지교통혼잡비용해결을위한인공지능기반융합기술개발이시급하다. 본고에서는이러한문제해결을위해딥러닝기반도심지교통혼잡예측기법과강화학습기반신호제어기술을소개하고자한다. I. 서론 인공지능 (AI) 기술의비약적인발전은국내외적으로경제성장과사회난제해결의돌파구가될것으로기대되고있다. AI가향후경제 사회전반을혁신할근본기술임을고려해볼때국민삶의질과국가경쟁력제고를위한 AI 기술력확보는이제는필수가되었다. 최근정부에서는 I-KOREA 4.0 실현을위한 AI 기술, 인재, 인프라분야의현상황을종합분석하여 AI 기술력조기확보를위한 AI 연구개발전략을추진하고있다 [1]. 최근인공지능연구개발추세는국민의일상생활에영향을미치는심각한현안을해결하기위해인공지능기술을접목하는것이다. 예를들어, 교통혼잡비용문제를해결하기위해서는인공지능, 교통데이터, 딥러닝기술및고성능컴퓨팅등복합기술들이융합되어야한다. 도심지에서지속해서늘어나는교통량으로인해발생하는교통혼잡비용은줄어들지않고있다. 인구가밀집된대도시지역이더욱심해지고있어지속적인도시사회경제발전에저해 * 본내용은이홍석단장 ( 042-869-0579, hsyi@kisti.re.kr) 에게문의하시기바랍니다. ** 본내용은필자의주관적인의견이며 IITP의공식적인입장이아님을밝힙니다. 2 www.iitp.kr
기획시리즈 인공지능 < 자료 > http://eecatalog.com/machine-learning-ai/2017/11/02/new-machine-learning-group-at-arm/ [ 그림 1] 인공지능, 머신러닝, 딥러닝, 강화학습, 지도학습, 비지도학습범위요소로작용하고있다. 일부도시에서여러기술개발을추진한사례도있지만, 2016년교통혼잡비용은 30.3조원이며, 이비용은여전히개선되지않아서전반적인현황에대한조망과인공지능기반교통혼잡과같은혁신기술이필요하다. 본고에서는인공지능기반교통분야에응용가능한인공지능혁신기술을소개하고자한다. 인공지능은모든사람마다정의가달라서의미하는뜻이다르게전달되기도한다. [ 그림 1] 과같이본고에서는인공지능을가장큰범위로기계학습의모든것을포함하는것으로사용한다 [2]. 잘알려진기계학습도의사결정나무, 서포트벡터머신 (SVM) 등매우다양한방법들도있지만, 여기서는지도학습 (Supervised Learning), 강화학습 (Reinforcement Learning), 비지도학습 (Unsupervised Learning) 으로정의하였다. 지도학습은입력데이터와출력데이터쌍이있어야하며, 출력데이터는이미레이블 (Label) 이되어있어야한다. 예측은레이블링값과예측값차이 ( 오차 ) 의최소화를통해서학습된다. 비지도학습은입력데이터와출력데이터쌍이있는것은지도학습과같지만, 출력데이터를레이블링할필요는없다. 따라서비지도학습은차원축소, 데이터클러스터링방법으로많이사용한다. 강화학습은데이터가없더라도주어진환경에서에이전트의올바른행동을제어하기위해보상을최적화하는기법이다. 에이전트의예로는자율주행자동차와교통신호등이있다. 기존인공신경망 (Artificial Intelligence Network: ANN) 은은닉층 (Hidden Layer) 의수를증가할수록역전파알고리즘과정에서미분값이사라지는문제로학습할수없었다. 딥러닝은활성함수로시그모이드 (Sigmoid) 대신 ReLU를사용함으로써이기울기사라짐 (Vanishing Gradient) 문제를해결하였다. ReLU의발견은기존 ANN의많은 ( 깊은 ) 은닉층개수의신경망을계산할수있게하였다. 지도학습에서예측정확도는은닉층개수의증가로높일수있다. 실제로대표적인딥러닝성공사례인합성곱신경망 (Convolutional Neural Network: CNN) 에서는 100개이상의은닉층사용으로정확도를 99% 까지얻게되었다. 정보통신기술진흥센터 3
주간기술동향 2018. 7. 18. II. 딥러닝기반도심지교통혼잡예측 1. 장단기메모리 (LSTM) 기반교통혼잡예측 시계열데이터의반복패턴은지도학습기반의순환신경망 (Recurrent Neural Network: RNN) 으로학습할수있다 [3]. RNN의원리는데이터의반복적인패턴을찾는것이다. 예들들어, 방이 2개인집에룸메이트와함께살고있으며, 룸메이트는 3가지음식인돈가스, 짜장면, 김치찌개요리를반복적으로하는규칙이있었다. 이는월요일에돈가스를먹었으면, 화요일에는짜장면을먹었고, 수요일에는김치찌개를먹는간단한 RNN 예제를보여준다. 조금복잡한 RNN 신경망을이해하기위해 [ 그림 2] 와같이날씨요소를추가해보면, 맑은날에는룸메이트가낮에놀다가늦게돌아오기때문에요리준비시간부족으로전날먹다남았던음식을했고, 비가오는날이면집에있으니까원래규칙대로요리하는것이다. < 자료 > https://www.youtube.com/watch?v=unmqtionrfg [ 그림 2] 날씨에따른시계열데이터패턴 RNN은딥러닝이나오기이전부터사용되었지만, RNN 모델은은닉층개수가많아질수록기울기사라짐이자주발생하여규모가큰계산에서의학습은성공하기가매우어려웠다. 딥러닝기법을적용한 CNN처럼 RNN 아키텍처도활성함수로 ReLU를사용하면큰계산을할수는있다. 하지만 RNN 모델적용은성공하기가어려웠다. 그이유는 RNN 모델은시계열데이터의패턴추출을충분히기억할수없는단기기억구조이기때문이다. 비록, [ 그림 2] 의예제처럼하루정도짧은기억정보를이용해서 RNN으로해결할수있는간단한문제도여러종류가있지만도심지교통혼잡예측은하루가아닌비교적 1주에서 1달정도중기기억을요구하는패턴추출문제로귀결된다. 딥러닝기반 LSTM 즉, 장단기메모리 (Long Short Term Memory: LSTM) 는 RNN 보다중기기억을학습할수있어서딥러닝기반주식예측등대표적인성공 4 www.iitp.kr
기획시리즈 인공지능 < 자료 > https://medium.com/@kangeugine/long-short-term-memory-lstm-concept-cb3283934359 [ 그림 3] LSTM 아키텍처및교통혼잡예측정확도 95% 사례들이있다. LSTM을이용한교통혼잡분석은시계열데이터를이용하여단기, 중기그리고장기예측을정확히할수있는아키텍처이다. LSTM 아키텍처의특징은 [ 그림 3] 과같이 RNN의기본구조에 3개의입력, 출력, 망각게이트가있고, 2개의활성함수로기억흐름을조절한다 [4]. 즉, 망각게이트를최적화하여신경망의기억흐름을조절할수있는구조이다. 비유를들자면, RNN은수도꼭지하나가있어서흐르는물 ( 기억 ) 의양은조절이가능하지만, 물의온도는조절하지못한다. LSTM 모델은마치수돗물을조절하는 2개의밸브 ( 꼭지 ) 가있어서물의양, 물의온도도조절이가능한장치로이해하면쉽다. 한편, 교통혼잡을예측하는데사용하는데이터중의하나를소개한다. 주어진도로구간에서차들의처음과끝의통행시간과구간길이를측정할수있으며, 일반적으로 5분단위로실시간데이터를측정하면, 구간평균통행속도를얻을수가있어서교통혼잡예측의입력으로사용할수있다. [ 그림 3] 의우측은 2017년 5월부터약 3개월간정체가심한경부고속도로의부산쪽한구간에서의평균통행속도를이용한교통혼잡지수 (TPI) 를보여준다. TPI 지수가 1에가까우면매우혼잡하고 0.4 이하이면비교적통행이원활한경우이다. 이데이터를이용하여딥러닝기반 LSTM 예측을해보면실측과예측이유사함을알수있다. 비록많은검증이필요하겠지만, 딥러닝기반 LSTM 방법은도로의한구간에서의교통혼잡예측에매우핵심적인기술이될수있음을알수있다. 따라서딥러닝기반 AI+ 지능형교통기술은지금까지해결하기어려운문제를풀수있는혁신기술로시급히연구개발이필요한시점이다. 해마다줄어들지않는도심지교통혼잡비용절감을위해서는새로운혁신적인연구기법의적용이 정보통신기술진흥센터 5
주간기술동향 2018. 7. 18. 필요하며, 딥러닝기반도심지교통혼잡예측기술과강화학습기반의 AI+ 교통신호제어를혼 합하면새로운시너지를낼가능성이있다. 2. 도심지교통혼잡예측을위한 CNN 합성곱신경망 (CNN) 은딥러닝성공의대표적인사례이다. 딥러닝공부를시작하고자하면교과서처럼접하는주제가 0에서 9까지의숫자이미지세트인 MNIST 데이터를이용한 CNN[5] 이다. MNIST 데이터를이용한 CNN 기반예측정확도를 99% 이상향상시키는많은기술이 github나 Reddit에공개되었다. 또한, 지금도계속해서딥러닝 CNN 등예측정확도를향상하는연구가진행중이다. CNN에대해간략히이해를해보면, [ 그림 4] 와같이합성곱필터와최대값을추려내는풀링과정의반복으로구성된다. 출력이전에는 Fully Connected로모든특성요소를곱하고합한후활성화한다. 즉, CNN이란입력이미지를학습하기위해작은합성곱필터로전체이미지를필터링하고, 이후풀링으로최대값을취하는과정을반복한다. 이후 Fully Connected 신경망에모든요소가분포될것이고, 출력의레이블링항목개수에따른 Softmax 혹은 Sigmoid로분류한다. < 자료 > http://parse.ele.tue.nl/cluster/2/cnnarchitecture.jpg [ 그림 4] 합성곱신경망 CNN 구성도 교통분야의경우, 시계열교통데이터를이용해서 RNN, LSTM을적용한연구결과는많이있지만, 이미지기반의 CNN 적용사례는많지않다. 그이유는교통데이터를이미지로변환하는것도어렵지만, 변환된이미지를레이블링하는것이더어렵기때문이다. [ 그림 5] 는교통혼잡예측을위해교통흐름데이터를 2차원시공간이미지로변환하는과정을보여준다 [6]. 도로를일정한간격으로나누고, 혼잡도로별, 요일별, 시간대별로열지도 (Heat-map) 를만든 6 www.iitp.kr
기획시리즈 인공지능 < 자료 > Xiaolei Ma, et al., Sensor 2017, 17(4), 818 [ 그림 5] 교통흐름데이터를시간, 공간에서 2차원이미지변화다. 또다른방법으로는도심지지도를놓고전체를균일한 2차원그리드 (Grid) 로나누어서교통혼잡데이터를빛깔지도로만들어서레이블링할수도있다. 도심지교통데이터이외에날씨정보, 미세먼지정보, 시간대별, 요일정보등을고려한맞춤형복합데이터를활용할수도있다. 날씨등환경정보를 2차원시공간교통이미지데이터와혼합한 CNN을통해신경망을학습한다. 맞춤형복합데이터역시시계열데이터이미지데이터이기때문에기본적으로 RNN 혹은 LSTM 적용이가능하다. 이처럼 CNN과 RNN 혼합기술개발은기존에해결하지못한문제들을해결할가능성이있을것이다. III. 강화학습의응용분야 1. 불연속적인에이전트행동은 DQN 을이용 지능형인프라기반강화학습은기존기술로해결하기어려운사회현안문제들자율주행, 교통신호등을제어할수있는핵심적인기술이다. 최근구글의 DeepMind는알파고바둑프로그램의성공에앞서개발한인공지능핵심알고리즘인 DQN(Deep Q-Network) 알고리즘을공개하였다 [7]. 강화학습은주어진환경 (Environment) 에서에이전트가원하는목적을이룰수있 정보통신기술진흥센터 7
주간기술동향 2018. 7. 18. < 자료 > https://becominghuman.ai/the-very-basics-of-reinforcement-learning-154f28a79071 [ 그림 6] 미로에서 DQN 강화학습환경 도록최대로보상을주는정책 (Policy) 을따른다. 강화학습은데이터없이스스로학습하는과정으로최적의보상을설정하는것이매우중요하다. [ 그림 6] 은강화학습을설명하는간단한예제이다. 미로에서쥐 ( 에이전트 ) 가출구로최대한빨리나오게하기위해서는보상 ( 치즈등 ) 을잘주면된다. 현재의시간 (t) 에서쥐의위치 (x, y) 좌표와주위의미로구조는상태 (state) 이며, 쥐는동서남북한칸씩움직이는행동 (action) 을한다. 쥐가다음순간한행동을했을때얻을수있는보상을알면이문제는풀수있다. 하지만그보상을알수가없기때문에 Q(s, a) 라는함수를도입하고, 그함수는미로의모든상태와행동에대한정확한값을알고있다고가정한다. 그러면최대의보상은 Q(s, a) 를최대화하는신경망을통해근사하고, 그시간의최종출력으로행동 (a) 과상태를출력한다. 따라서 DQN은위의예제처럼불연속적인행동 ( 동서남북으로 1칸씩 ) 인경우적합하며, 보통은 CNN 이미지를기반으로최적화한다. DQN을자율주행자동차에적용하는시도들이있었지만성공하지는못하였다. 그이유는 DQN은 ATRAI 게임처럼불연속적인행동을처리하는조작이간단한문제에적합하기때문이다. 또한, DQN은시뮬레이션크기를조금만키워도현재의컴퓨터계산용량으로처리할수없는 차원의저주 라는컴퓨팅자원의한계도가지고있다 [8]. 이러한문제점을해결하기위해서는연속적인행동을제어할수있는심화결정론적정책경사 (Deep Deterministic Policy Gradient: DDPG) 가최근에개발되었다. 강화학습측면에서보면, 자율주행자동차의행동은차량의가속페달, 브레이크, 핸들로구분할수있으며, 이값들은모두연속적인값을가지므로 DDPG 알고리즘적용이적합한분야이다. 8 www.iitp.kr
기획시리즈 인공지능 2. 연속적인에이전트행동은 DDPG 를이용 강화학습기반자율주행차량의제어를위해서 DQN을적용하면, 차량의 3가지행동즉, 브레이크, 핸들, 가속페달의값이연속적이라서계산량이기하급수적으로증가하여차원의저주문제에봉착한다. 이경우에는연속적인행동을기술할수있는정책경사 (Policy Gradient) 방법이적합하다 [9]. 일반적으로정책은상태와행동에따른확률론적분포를보이는함수로주어지는데, 주어진상태에서정책을최적화하면행동에따른확률밀도를사용하거나평균값행동에따른정책을사용하더라도같은값을준다고알려져있다. 이러한방법을심화결정론적정책경사 DDPG 기법이라고한다. 실제도로환경에서차선변경이빈번히일어나며, 운전자의양보가필요한위빙 (Weaving) 구간에서의차량의안전한주행, 양보, 차선변경등과같은실제도로상황과유사한환경에서의물리적인차량의제어연구는아직이루어지지않고있는실정이다. [ 그림 7] 은차선변경이빈번히발생하는위빙구간을구현하였다 [10]. 각각의차량에이전트를단순화하여원으로표현하였고, 원에있는실선은차량의진행방향을나타낸다. 자율주행도중차선변경을학습하기위한목적으로차량을초록색과빨간색으로구분하여각자지정된도착점에이르게하였다. 차량은 7개의센서를갖고있어도로및이웃하고있는다른에이전트의위치및속도를알수있다. 멀티에이전트에의한차선변경이빈번하게발생할수있도록편도 4차선으로시뮬레이터를설계하였다. 에이전트는가속페달, 핸들, 브레이크에해당하는 3가지행동을갖고있으며, 이들행동은 < 자료 > Hongsuk Yi, Deep Deterministic Policy Gradient for Autonomous Vehicle Driving, ICAI, 2018. [ 그림 7] 위빙 (Weaving) 발생도로 ( 위쪽 ) 와자율주행도로환경시뮬레이터 ( 아래쪽 ) 정보통신기술진흥센터 9
주간기술동향 2018. 7. 18. 연속적인값들을갖고있다. 강화학습에서사용된 2차원시뮬레이터는 12개의상태로구성하였다 [11]. 실제차량의차선변환을학습하기위해서빨간색차량의목적지는 4차선중에서아래 2개에도착해야하며, 초록색차선은위의 2개차선에도착하도록설정하였다. 초기에는도로왼쪽에서임의의차선에입력되고, 자율주행구간에서학습을통해서목적지인오른쪽에도착하게되며, 강화학습에서에이전트학습의성과는최적의보상설계에서나온다. 본고에서는차선변경과멀티에이전트양보를학습하기위해서보상은차량의속도와차선을따르는각도를이용하여정의하였고, 출발차량이목적지에도착하면추가의보상점수를주었다. 하지만목적지를벗어나다른차선에도착하거나, 차들끼리서로충돌하면벌칙으로감점을받도록보상을정의하였다. 멀티에이전트환경에서자율주행차량들의양보, 경쟁, 안전주행등을학습하기위해 DDPG 의 Actor-Critic 알고리즘을구현하였다. 강화학습에사용된보상 (reward) 은각각의에이전트차량이목적지차선에도착하면높은점수를받지만, 에이전트가다른목적지차선에도착할경우나혹은에이전트끼리충돌이발생할경우에는벌점으로낮은점수를받도록설계하였다. 심화 Actor-Critic 신경망아키텍처에서 Actor와 Critic 네트워크각각은 12개의상태를받으며, Critic-네트워크의경우추가로 3개의행동을입력으로구성되었다 [12]. [ 그림 8] 에서는각각의은닉층은 600개의뉴런을갖고있으며, Critic은 2개의네트워크로, Actor-네트워크는 3개의은닉층으로구성하였다. 차선변경이빈번히발생하는도로구조에서의심화강화학습시뮬레이션결과는충분히학습된차들이안정적으로주행할수있음을보여주었다. < 자료 > 이홍석외, 자율주행자동차주행을위한심화강화학습, 한국정보과학회 KSC 2017. [ 그림 8] DDPG Actor-Critic 신경망과 16 에이전트사용시평균보상 10 www.iitp.kr
기획시리즈 인공지능 3. 사회현안을해결하기위해서는다양한 AI 기술을사용 쉬운게임환경에서 Model-free 기반인 DQN, DDPG 등의강화학습은매우우수한성능을보인다. 하지만이방법을멀티에이전트기반자율주행자동차나교통신호제어등의복잡한사회문제에직접적용하기에는무리가있다. 그이유는복잡한환경에서강화학습을결정하는보상을설정하기가매우어렵기때문이다. 또한, 매우많은초기데이터와에이전트의안정화를위해매우큰계산을학습에투자해야한다. 이를보완하기위해서사람수준의행동을모방하도록에이전트에게모방학습 (imitation learning) 을적용하기도한다. 한편, 구글에서개발한최초의 AlphaGo는기보를학습한지도학습버전으로, 지도학습과강화학습을혼합한기술을적용한 AlphaGo-Lee보다성능이떨어진다. 에이전트가초기에기보를충분히학습한이후정책경사강화학습을혼합하였기때문에이세돌 9단을이길수있는새로운수들이나온것이다. 한편, 데이터없이스스로학습하는 AplhaGo-Zero 버전은 40시간학습하면 AlphaGo- Lee 버전보다우수한성능을보여준다. 즉, 바둑에서 AlpaGo-Zero는완벽한기술이다. 강화학습기반교통신호제어에대해최근많은연구가진행되고있다. 신호교차로 4개이하는불연속적인행동을제어하는 DQN 기반시뮬레이터수준에서제어할수있다. 하지만신호교차로개수가많아지면 DQN은 차원의저주 라는한계로신호제어가어렵다. 도심지의동단위즉, 10~20개신호교차로수준에서는 DDPG로신호를제어하는연구가한창진행중이다. 앞의 DDPG를이용한자율주행시뮬레이션의결과를보더라도, 멀티에이전트기반 DQN 및 DDPG가시뮬레이터에서학습이잘되었다고하더라도, 경찰관이제어하는수준으로발전하기는매우어렵다. AI+ 교통신호분야에서는교통신호에이전트가경찰관을따라서학습하는모방학습을적용하는등제어를위한최적화혁신기술개발이필요하다. 현재수준의혁신기술로는 TDM 방법및 Model- based 추론 / 학습기술을하이브리드하는방법을고려해볼수있다. [ 그림 9] 는 AI+ 교통중점추진프로젝트의하나인 데이터기반교통혼잡비용문제 를해결하는개념도이다. 2016년 30.3조원인교통혼잡비용을 5년후인 2022년에 27조원으로, 10% 비용저감을위해서는도심지에서의딥러닝기반교통혼잡예측과신호제어등 AI 혁신기술이필요하다. 또한, 강화학습기반 Model-based 교통신호제어기술이개발되고, 전국모든대도시에적용한다면도심지교통혼잡비용 10% 절감은가능할것이다. 최종적으로실시간환경에따라변화하는수요에대응이가능한교차로신호운영으로도시혼잡을줄일수있을것으로기대된다. 정보통신기술진흥센터 11
주간기술동향 2018. 7. 18. < 자료 > 과학기술정보통신부, 사람중심의 4 차산업혁명, 2018, [ 그림 9] AI+ 교통응용 : 데이터기반도심지교통혼잡비용 10% 감소 IV. 결론및시사점 지금까지인공지능기반국민생활연구분야에서딥러닝기반 LSTM, CNN, DQN, DDPG 알고리즘을활용하여사회현안문제인교통혼잡비용을줄이는방안을위한 AI+ 교통응용사례를소개하였다. CNN 및 LSTM을적용한딥러닝응용사례는많이있으나, 실제국민생활과밀접하게연결된사회현안문제등을해결하기위해 AI가국민생활에적용된사례는많지않다. 이에본고에서는 Deep-TraC처럼기존기술의한계를극복하는방법으로교통데이터와날씨, 환경, 미세먼지등을맞춤형이미지로변환하고, 새로운 CNN-LSTM 기법을적용한인공지능과교통혼잡예측방법을다루었다. 기계학습기반강화학습분야에서는도심지교통혼잡지역교통신호제어를위해이미지기반단일에이전트 DQN에대해서자세히알아보았다. 하지만현실적으로는단일에이전트에서멀티에이전트문제를다룰필요가있으며, 이를위해자율주행자동차처럼멀티에이전트의연속적인행동을제어할수있는결정론적정책경사 DDPG 알고리즘을소개하였다. 교통분야에서 DDPG를실제상황에적용하기위한응용으로, 멀티에이전트기반자율주행문제를고려하였다. 특히, 위빙 (Weaving) 이자주발생하는위험한도로와유사한멀티에이전트기반강화학습환경을만들어서시뮬레이션하였다. 자율주행차량시뮬레이션결과, 현실상황에서 DDPG를독립적으로적용하는것은매우어렵다는결론을얻었다. 인공지능기반교통신호분야는아직한창연구를진행중이다. 자율주행자동차보다더많은사람의생명을다루는기술이므로매우체계적이고치밀한접근이필요하다. 따라서강화학습단독으로개발한모델의적용보다는 Model-based 방법혹은데이터기반하이브리드방법을개발하여적용해야한다는것을알수있었다. 교통신호제어를위해서는멀티에이전 12 www.iitp.kr
기획시리즈 인공지능 트기반강화학습 DDPG 알고리즘과 Model-based 신호제어알고리즘이하이브리드된형태의혁신적인기술이개발되어야함을알수있다. 즉, 지도학습기반교통혼잡예측 Deep-TraC의결과와교통신호제어기술이함께작동하는시스템으로발전해야한다. 지역및로컬교통신호제어기술의연구개발은국내외적으로아직시도되지않았으므로, 지능형인프라기술혁신을통해선도기술경쟁력을확보할수있을것으로기대된다. [ 참고문헌 ] * [1] 과학기술정보통신부, 인공지능 R&D 전략, 2018, http://www.msit.go.kr [2] 딥러닝, https://en.wikipedia.org/wiki/deep_learning [3] RNN, https://en.wikipedia.org/wiki/recurrent_neural_network [4] LSTM, https://en.wikipedia.org/wiki/long_short-term_memory [5] CNN, https://en.wikipedia.org/wiki/convolutional_neural_network [6] Xiaolei Ma, Learning Traffic as Images: A Deep Convolutional Neural Network for Large-Scale Transportation Network Speed Prediction, Sensors 818, 2017. [7] DQN, https://deepmind.com/research/dqn/ [8] Mnih V, Human-level control through deep reinforcement learning, Nature, 2015. [9] DDPG, Continuous control with deep reinforcement learning, arxiv:1509.02971, 2015. [10] 이홍석, 자율주행을위한멀티에이전트심화강화학습, 정보과학회지, 제34권 9호, 27, 2016. [11] 이홍석, 자율주행자동차주행을위한심화강화학습, 한국정보과학회 KSC 2017. [12] Hongsuk Yi, Deep Deterministic Policy Gradient for Autonomous Vehicle Driving, ICAI 2018, 2018. * 본고는 2018 년도정부 ( 과학기술정보통신부 ) 의재원으로정보통신기술진흥센터의지원 (No. 2018-0-00494, 딥러닝기반도심지교통혼잡예측및신호제어솔루션시스템 ) 과 2018 년도한국과학기술정보연구원 (KISTI) 의지원을받아수행한연구임 (K-18-L15-C01, 지능형인프라기술연구 ) 정보통신기술진흥센터 13