대한조선학회논문집 Journal of the Society of Naval Architects of Korea pissn:1225-1143, Vol. 56, No. 1, pp. 58-65, February 2019 eissn:2287-7355, https://doi.org/10.3744/snak.2019.56.1.058 심층결정론적정책경사법을이용한선박충돌회피경로결정 김동함 1 이성욱 2 남종호 2, 요시타카후루카와 3 한국해양대학교조선해양시스템공학과 1 한국해양대학교조선해양시스템공학부 2 큐슈대학교마린시스템공학과 3 Determination of Ship Collision Avoidance Path using Deep Deterministic Policy Gradient Algorithm Dong-Ham Kim 1 Sung-Uk Lee 2 Jong-Ho Nam 2, Yoshitaka Furukawa 3 Department of Naval Architecture and Ocean Systems Engineering, Graduate School, Korea Maritime and Ocean University, Korea 1 Division of Naval Architecture and Ocean Systems Engineering, Korea Maritime and Ocean University, Korea 2 Department of Marine Systems Engineering, Kyushu University, Fukuoka, Japan 3 This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. The stability, reliability and efficiency of a smart ship are important issues as the interest in an autonomous ship has recently been high. An automatic collision avoidance system is an essential function of an autonomous ship. This system detects the possibility of collision and automatically takes avoidance actions in consideration of economy and safety. In order to construct an automatic collision avoidance system using reinforcement learning, in this work, the sequential decision problem of ship collision is mathematically formulated through a Markov Decision Process (MDP). A reinforcement learning environment is constructed based on the ship maneuvering equations, and then the three key components (state, action, and reward) of MDP are defined. The state uses parameters of the relationship between own-ship and target-ship, the action is the vertical distance away from the target course, and the reward is defined as a function considering safety and economics. In order to solve the sequential decision problem, the Deep Deterministic Policy Gradient (DDPG) algorithm which can express continuous action space and search an optimal action policy is utilized. The collision avoidance system is then tested assuming the 90 intersection encounter situation and yields a satisfactory result. Keywords : Collision avoidance( 충돌회피 ), Reinforcement learning( 강화학습 ), Deep Deterministic Policy Gradient(DDPG, 심층결정론적정책경사법 ), Markov Decision Process(MDP, 마르코프결정과정 ), Autonomous ship( 자율운항선박 ) 1. 서론 최근국제해사기구 (IMO) 해사안전위원회 (MSC) 의이내비게이션 (e-navigation) 에대한채택승인과관련하여선박의자동화를위한활동이증가하고있는추세다. 해사안전위원회의승인내용 ( 제85차, 제94차 ) 은 ICT 와융합을통하여차세대해양안전종합관리체계를마련하고자하는데목적을두고있다 (Shim et al., 2010; Jeong, 2015). 이와더불어선박을건조하거나관련항해장비를개발하는기업에서는스마트선박 (smart ship) 개념을도입하여이와관련된시스템개발에힘쓰고있다. 스마트선박은기존의선박에비해운항경제성및안전성을대폭향상시킨선박이라정의할수있다 (Van, 2007). 선박운항의자동화에있어가장비중있게고려되고있는사항중하나는선박이항내로입항또는출항할때지켜져야하는안전성이다. 항내에서발생할수있는해양사고의원인으로여러가지요소가있지만, 그중선박들간의충돌및좌초가특히중요한요소로고려된다. 실제로최근 5년 (2012~2017 년 ) 사이중앙해양안전심판원통계자료 (Korean maritime safety tribunal, 2017) 에따르면충돌및좌초와관련된국내해양사고의 Received : 16 July 2018 Revised : 6 September 2018 Accepted : 19 October 2018 Corresponding author : Jong-Ho Nam, jhnam@kmou.ac.kr
김동함 이성욱 남종호 요시타카후루카와 96.5% 는항해자의판단착오등의운항과실에의해발생하고있으며, 이들중 97% 가출항후직무별과실및안전수칙미준수와같은직접적인인적과실에기인하는것으로보고되었다 (Kim & Kwak, 2011). 따라서스마트선박또는이내비게이션 (e-navigation) 을도입하기위해서는이러한충돌방지회피시스템에대한연구가필수적인요소로인식될수있다. 자동충돌회피시스템구축에서가장어려운문제로인식되고있는기술은여러가지다양한패턴의문제에대해획기적으로자동충돌회피를할수있는강건한알고리즘의구축이다. 이는다른운송시스템과마찬가지로, 일종의무작위현상에서일어나는문제에대한해결방안을제시할수있는일반적인규칙을찾는문제로인식될수있다. 하지만무작위현상에대한일반적인행동규범을찾는것은일반적으로어려운문제로인식되어왔는데, 최근이에대한접근이론의하나로기계학습 (machine learning) 을적용한연구가수행되고있다. 구글딥마인드 (DeepMind) 가개발한알파고 (AlphaGo) 의등장은기계학습이바둑과같은다양한패턴의문제해결에도적용가능함을보여주었다 (Silver et al., 2016). 본연구에서는기계학습을구성하고있는요소기술중하나인강화학습 (reinforcement learning) 을이용하여선박충돌문제를해결하고자한다. 강화학습의목적은환경 (environment) 으로부터받는보상 (reward) 들의합이최대가되는최적의행동양식을학습하는것이다 (Fig. 1). 선박의조종운동시뮬레이션을통해충돌시나리오를반복적으로구현할수있기때문에강화학습은충돌회피를위한최적의행동을결정하기에적합하다. Fig. 1 Interaction between environment and agent 강화의개념은행동학자인스키너 (B. Skinner) 가처음제시하였으며, 쥐가보상을통해행동과그결과사이의관계를학습하는것을스키너상자를이용하여확인하였다. 이개념을컴퓨터학습에도입하여순차적행동결정문제를푸는것이강화학습의핵심이된다. 순차적행동결정문제는 MDP(Markov decision process) 를통해수학적으로정의될수있으며, 벨만 (Bellman) 기대방정식과벨만최적방정식을통해 MDP 의최적가치함수와최적정책을찾을수있다. 벨만방정식들은기본적으로다이나믹프로그래밍 (dynamic programing) 을통해풀수있으며이는살사 (SALSA), 큐러닝 (Q-learning) 으로발전하였다 (Lee et al., 2017). 이후딥마인드는인공신경망을큐러닝에인공신경망을적용한오프폴리시 (off-policy) 방법인 DQN(deep Q networks) 을소개하였다 (Mnih et al., 2013). 하지만 DQN 은이산화된행동공 간을갖기때문에행동공간의수가많아지거나연속적인행동제어가필요한환경에서는적용하기힘들다. 이를해결하기위해결정론적정책경사법 (deterministic policy gradient, DPG) 알고리즘 (Silver et al., 2014) 을기반으로엑터-크리틱 (actor-critic) 방법을응용한심층결정론적정책경사법 (deep deterministic policy gradient, DDPG) 이제안되었다 (Lillicrap et al., 2016). 충돌회피시스템은자동항해시스템을구성하는주요요소로이와관련된다양한연구가진행되어왔다. Kose et al.(1998) 은충돌위험도에의한위험분포를지도에나타내어안전한항로를결정할수있도록보조하는시스템을개발하였다. Lee and Rhee (2001), Kijima and Furukawa (2002), Ota et al.(2016) 는모두퍼지 (fuzzy) 이론을사용하여충돌위험도를산출하였다. Lee and Rhee(2001) 는전문가시스템과 A* 탐색법을이용하여충돌회피시스템을개발하였고, Kijima and Furukawa(2002) 는충돌위험도에따라회피방향의범위를변화시키는방법을제안하였다. 위두방법은회피행동공간을재구성할때행동공간사이의변화를고려하기힘들다는단점이있는데, Son et al.(2009) 은가변공간탐색법을이용하여이단점을극복하고자하였다. Ota et al.(2016) 은강화학습을이용한충돌회피시스템을제안하였으며자선 (own ship) 의속도, 회피시작지점, 회피종료지점, 회피경로를충돌회피항로결정을위한중요요소로두었다. 각요소에서이산적행동들이매개변수로정의되었으며, 두선박의특정조우상황에서최적회피행동을하는매개변수들을찾기위해큐러닝방법을활용하였다. 하지만자선과타선 (target ship) 의상태에따라주기적으로최적행동이결정되는대신, 초기조우상황에맞는하나의최적행동이결정되는데, 이러한경우타선의목표경로변경과같은변화에대응하기힘들다는단점을수반한다. 이와같은단점을극복하기위해서충돌회피문제를순차적행동문제로정의하는것이필요하다. 본연구에서는조종운동방정식을기반으로강화학습의환경을구축하고, 선박의충돌회피문제를순차적행동문제로다루기위해 MDP 를정의한다. 연속된행동공간에서 MDP 의최적정책과행동을찾기위해 DDPG 를이용하며, 이를통해선박의충돌을회피경로를결정한다. 그리고 90도횡단상태의조우상황에서 MDP 를테스트하여그유효성을검증하였다. 2. 조종운동방정식및수학모델 2.1 조종운동방정식 일반적으로평수중에서선박의조종운동은종후동요 (surge), 좌우동요 (sway), 선수동요 (yaw) 에대한연성운동으로표현된다. 선박운동은 Fig. 2에보이는좌표계를이용하여나타낼수있으며, O-x 0 y 0 는공간고정좌표계, G-xy 는선체고정좌표계를나타낸다. 무차원화된조종운동방정식은식 (1) 과같이나타낼수있으며, 무차원화는식 (2) 와같은방식을따른다. JSNAK, Vol. 56, No. 1, February 2019 59
심층결정론적정책경사법을이용한선박충돌회피경로결정 발생하는종방향유체력은식 (5), 방향타에의한유체력은식 (6) 과같다. X βr, Y β, N β, Y r,... N βrr 은유체력미계수로 Mori(1995) 가제안한선미선형을나타내는파라미터를사용하여표현된다 (Kijima & Nakiri, 2003). Fig. 2 Coordinate system cos sin sin sin cos cos (1) (2) 위식에서 m, m x, m y 는선체질량및 X, Y 방향의부가질량, I zz, i zz 는선체의관성모멘트및부가관성모멘트, U는선속, β는편각, r 는선회각속도, L은선체길이, d는흘수를나타낸다. 기호옆에표기된홑따옴표 ( ) 는무차원화된값을의미한다. 식 (1) 우변에있는외력항의경우식 (3) 과같이 MMG(manoeuvring mathematical model group) 형으로표현할수있으며 (Kijima & Nakiri, 2003), 아래첨자 H, P, R은각각선체, 프로펠러, 타를의미한다. 프로펠러에의한외력중, 횡력 (Y P ) 과모멘트 (N P ) 는다른유체력에비해매우작으므로생략하였다. 2.2 유체력수학모델 (3) sin cos (4) (5) sin cos (6) cos 여기서 t P 는추력감소계수, n은프로펠러의초당회전수, D P 는프로펠러직경, J P 는전진계수, K T 는추력계수, t R 은타에의한저항증가보정계수, F N 은단독상태에서타의압력, x R 은무게중심에서타축까지거리, 는선체와타의상호간섭계수, x H 는무게중심에서 의작용점까지거리를나타낸다. 두선박의조우상황을강화학습모델로나타낼때자선과타선의상태 (S) 가환경이며, 자선이에이전트가된다. 위와같이조종운동방정식과수학모델을통해선박의운동을나타냄으로써반복구현을통한학습이가능하며, 두선박의행동에따른산술적조우상태를산출할수있다. 3. 마르코프결정과정 순차적행동결정문제는 MDP 를통해수학적으로나타낼수있다. MDP 의구성요소는상태 (states, S), 행동 (actions, A), 보상 (reward, R), 상태변환확률 (state transition probability, P a (S,S )), 그리고감가율 (discount factor, γ) 이다. 상태변환확률은현재상태 (S) 에서어떤행동 (A) 을할경우다음상태 (S ) 에도달할수있는확률이다. 자유모델기반강화학습방법에서상태변환확률은신경망 (neural network) 학습에반영되나 (Li, 2017), 본연구에서사용하는 DDPG 는자유모델기반강화학습방법이기때문에상태변환확률은생략한다. 감가율은현재의보상이나중에받을보상보다얼마나더중요한가를나타내는상수이며, 상태, 행동, 보상에대한정의는다음절에서상세히설명된다. 3.1 상태 선체에작용하는유체력은식 (4) 와같으며, 프로펠러에의해 상태 (S) 는 MDP 의한요소로두선박의조우상황에서에이 60 대한조선학회논문집제 56 권제 1 호 2019 년 2 월
김동함 이성욱 남종호 요시타카후루카와 전트가처해있는상태를수치적으로표현한집합이다 (Fig. 3). Lillicrap et al.(2016) 은 DDPG 를제안하면서아타리 (Atari) 게임의연속된이미지를상태집합의예시로활용한다. 하지만두선박의조우상황을이미지로타나내면, 각선박은윤곽수준의단순한이미지로나타낼수있으며윤곽은픽셀단위로표현된다. 이미지크기가작으면선박의현재운동상태를명확히나타내기어렵게되며, 이미지크기를키우게되면운동상태가보다명확해지지만상태집합의크기도커지기때문에학습속도가저하된다. 본논문에서는이미지를활용하는것보다상태요소를파라미터로하여활용하는것이유리하다판단하였으며, 식 (7) 과같이상태집합을정의하였다. _ _ (7) 여기서아래첨자와 i 는 j 목표경로방향과목표경로에수직한방향을의미한다. v i1, v j1 은자선의 i, j 방향속도, r 1 은자선의선회각속도, 은목표경로에서자선까지수직하게떨어진거리, ψ s 는목표경로와선수방향 (heading) 이이루는각도, δ는타각, i rel, j rel 은 i와 j 방향으로타선의상대거리, v i_rel, v j_rel 은와 i j 방향으로타선의상대속도 (v i2 -v i1, v j2 -v j1 ) 이다 (Fig 3). 타선의정보는선박자동식별장치 (automation information system, AIS) 로부터획득하는것으로가정한다. 자동경로추종제어기는목표경로를설정하였을때배가목표경로를따라운항하도록타를조종한다. 자동경로추종제어기구축에는 PID(proportional-integral-derivative) 제어와퍼지제어등을이용한방법이연구되어왔으며, 본연구에서는 Furukawa et al.(2004) 의퍼지를이용한자동경로추종제어기를활용하였다. Fig. 4와같이타선이나타날경우목표경로를회피경로로대체하고, 자동경로추종제어기를통해자선이회피경로를향하도록한다. 자선과타선사이에충돌가능성이없을때에는회피경로를목표경로와일치시킴으로써자선이목표경로를유지할수있다. 강화학습을통해타선을회피하는것이충돌하는것보다높은보상을받는다는것을학습하면, 충돌가능성이있는상태 (S) 일경우회피경로를이동하여목표경로를벗어나도록변침한다. 회피후, 회피경로를목표경로에가깝게이동하는것이높은보상을받는다는것을학습하면자선은목표경로로복귀하게된다. Fig. 4 Action of agent 3.3 보상 Fig. 3 State of agent at encounter situation 3.2 행동 에이전트가할수있는행동 (A) 은 DDPG 이전강화학습방법들과달리이산적으로표현하지않고연속적행동공간으로정의한다. 본연구에서는충돌가능성이있는선박이나타났을때 Fig. 4와같이목표경로에평행한새로운회피경로 (avoidance course) 를추가하고, 식 (8) 과같이목표경로에서회피경로까지수직한방향의거리 ( ) 를행동집합의원소로정의하였다. 범위인 max 는목표경로에서회피경로까지의최대거리로 20L 로설정한다. max max (8) Fig. 1에도시되었듯이에이전트는현재처한상태 (S t ) 에서어떤행동 (A t ) 을했을때, 다음상태 (S t+1 ) 가되면서환경으로부터보상 (R t+1 ) 을받는다. 보상을최대로받거나받게될행동을학습하는것이강화학습의목표이기때문에보상은강화학습적용에서가장중요한요소이다. 본연구에서는두선박의조우상황에서경제성과안전성을고려한최적의회피경로를찾도록한다. (9) max max (10) if else if else (11) 식 (9) 와같이보상 (R) 은경제성과안정성에관련된두가지보상 (R e, R s ) 으로나눌수있다. 운항경제성은항해거리를줄 JSNAK, Vol. 56, No. 1, February 2019 61
심층결정론적정책경사법을이용한선박충돌회피경로결정 이고항해속도를유지하는것과밀접한관계가있다. 충돌회피상황에서자선이목표경로에수직한거리 ( ) 만큼운항거리는늘어나며, 변침에의해속도 (U) 가줄어든만큼운항시간이늘어나기때문에경제성과관련된보상 (R e ) 은목표경로에가까이위치하고속도를유지하면높은보상을받을수있도록한다. 식 (10) 에서첫번째항은목표경로에서벗어날수록목표경로에수직한거리 ( ) 에비례하여음의보상을받게하며, 자선이목표경로에가까워지도록학습한다. 두번째항은 c e 를조건변수로두어자선이좌현변침을통해목표경로의좌측에위치할경우 ( < 0) 음의보상받게하며, 타선을좌현에두고자선이우현으로선회할수있도록한다. 세번째항은자선의속도 (U) 를양의보상으로주어선회시에자선의속도가느려지지않는방향으로학습한다. 안전성과관련된보상 (R s ) 은식 (11) 과같다. w s 는충돌에대한가중치상수로그값을 5로두었으며, c s 는충돌유무에대한조건변수로두선박이충돌할경우 1, 그렇지않으면 0 이다. 실제충돌은두선박이부딪힌상태지만본논문에서는블록영역 (blocking area) 을설정하고회피거리의안전성을확보하기위해블록영역안에타선의선체윤곽이들어오면충돌하였다고간주한다. 블록영역은타선의감시영역 (watching area) 이블록영역을침범했을때자선이현재경로를변경또는유지할것인지여부를결정하는영역으로 Kijima and Furukawa(2003) 에서식 (12) 와같이사용하였다. (12) 여기서 T 90 은선수방향이 0도에서 90도까지회전하는데걸리는시간, D T 는선회지름 (tactical diameter), s, 는 t 조우상황을고려한계수이다. 조우각도및상대속도에따라 s와 t 계수의값이변하기때문에블록영역의크기역시달라진다 (Kijima & Furukawa, 2003). Fig. 5는 90도각도교차조우상황에서블록영역을나타내고있다. 이때블록영역은 R bf, R ba, S b 파라미터에의해생성된두타원의조합으로만들어진다. 강화학습과정중두선박이충돌할경우, 안전성보상 (R s ) 은경제성보상 (R c ) 에비해상당히큰음의값을갖기때문에자선은 Fig. 5 Blocking area 타선과충돌하지않는범위에서경제성보상을최대화하는회피동작을하게된다. 즉, 자선은타선이블록영역에들어오지않으면서최대한블록영역에가깝게거리를유지하며둘러가도록학습한다. 4. 심층결정론적정책경사법적용 두선박의충돌조우상황에대한순차적행동문제정의를 DDPG 방법에적용한다. DDPG 는엑터-크리틱에서엑터네트워크를업데이트할때 DPG 방법을사용하며재생버퍼를활용하는특징을갖고있다. 4.1 탐험 보상을최대화할수있는행동을찾기위해무작위행동을수행하는탐험 (exploration) 이 DDPG 과정에필요하다. 본연구에서는 Lillicrap et al.(2016) 이제안한 Ornstein-Uhlenbeck 방법을사용하여무작위노이즈 (noise) 값을생성하고, 식 (13) 과같이엑터네트워크에서산출되는행동 ( ) 에노이즈를더해줌으로써탐험이가능하도록한다. 또한감소하는엡실론-탐욕 (epsilon-greedy) 정책 (Lee et al., 2017) 을활용하여에피소드를거듭할수록노이즈의영향을줄인다. 엡실론 (ε) 은한에피소드를수행할때마다식 (14) 와같이업데이트된다. 엡실론이 ε min 보다클경우 ε decay 만큼감소하고, 그렇지않으면 ε min 값이된다. 초기엡실론과 ε decay, ε min 은각각 1.0, 5.0E-4, 2.0E-4 로설정되며, 이는 2,000 에피소드가지나면탐험을거의하지않도록하는값이다. (13) min if min (14) 4.2 시나리오 DDPG 시나리오는 15노트속도의두선박이 90도각도에서 교차조우하는상황이며, 시나리오의시작조건은 Table 1과같 다. 본연구에서는선박해양플랜트연구소공개선형인 KVLCC 의주요제원을 Table 2와같이축척하여활용하였으며, 유체력 미계수는 Kijima and Nakiri(2003) 의추정식을통해산출된 Table 3의값을사용하였다. Table 1 Initial conditions for encounter scenario Item Own ship Target ship [m] -40.0 0.0 [m] 0.0 40.0 [deg] 0.0-90.0 [m/s] 0.6821 0.6821 62 대한조선학회논문집제 56 권제 1 호 2019 년 2 월
김동함 이성욱 남종호 요시타카후루카와 Table 2 Principal dimensions of KVLCC Item Value Length[m] 2.5 Breadth[m] 0.4531 Draft[m] 0.1625 Block Coefficient 0.8101 Table 3 Hydrodynamic derivative values Item Value Item Value -0.02050873 0.36208424 0.113776326-0.032517508 0.125635713-0.0533008836 (hidden layer) 의개수, n a, n c 는각네트워크에서각은닉층의유닛 (unit) 개수, α a, α c 는각네트워크의학습률, γ는감가율, τ 는각네트워크를천천히갱신하기위한상수로학습의안전성을높여준다. B는재생버퍼의크기, 은 r 배치크기로한번학습할때사용되는샘플의수이며, w s 는충돌가중치로식 (11) 의보상식에사용되는상수이다. 4.4 학습 최적화된하이퍼파라미터로시나리오를학습하였을때, 8,000 에피소드동안받은보상은 Fig. 6과같다. 보상을최대화하는방향으로학습되었으며, 약 4,000 에피소드부터보상값이수렴하는것을확인할수있다. 0.843024015 0.0761068165-0.362524033 0.423484325 0.0141946375-0.0286193416-0.191315025-0.0610068738 4.3 하이퍼파라미터최적화 심층결정론적정책경사법은신경망을활용하고있기때문에하이퍼파라미터 (hyper parameter) 최적화가중요하다. 최적화에활용되는기법중그리드탐색법 (grid search) 과같은규칙적인탐색보다는무작위샘플링을통해탐색하는것이좋은결과를낸다고알려져있다 (Bergstra & Bengio, 2012). 본연구에서는무작위탐색법을활용하여 Table 4와같이하이퍼파라미터값을최적화하였다. 하이퍼파라미터에서아래첨자 a와 c는각각엑터네트워크와크리틱네트워크를의미한다. L a, L c 는각네트워크에서은닉층 Table 4 Hyper parameters Item Value (number of actor hidden layers) 2 (number of actor hidden units) 500 (learning rate of actor) 1.4917255E-5 (number of critic hidden layers) 4 (number of critic hidden units) 500 (learning rate of critic) 1.7392787E-4 (discount factor) 1-2.0815591E-7 (tau) 8.2819554E-5 B (buffer size) 16,400 (batch size) 32 (collision weight) 5.0 Fig. 6 History of achieved rewards through training 5. 조우상황조종운동예제 DDPG 방법을이용하여최적정책을찾는학습결과는 Fig. 7과같다. Fig. 7의위그림에서굵은실선은자선의경로이며점선은타선의경로를나타낸다. 특정시간에자선의블록영역들을도식화였는데, 십자형상의표식은같은시간대에서자선과타선의위치를나타낸다. 전체결과를보면약 100 초까지목표경로를유지하다타선을회피하기위한행동을시작한다. 회피행동에의해선수방향이우현으로향하도록조타를시작하며, 그로인해자선의속도가줄어들기시작한다. 약 115 초에타가복원되면서자선은선수방향을유지하며속도가상승되지만, 타선을회피하였다고판단한시점인약 130 초부터다시목표경로로향하는행동을시작한다. 조타에의해선수는좌현방향으로향하고속도는다시줄어들며, 약 150 초부터목표경로에진입하기위해타가복원되면서속도가상승하지만회두모멘트의영향이남아있기때문에선수방향은여전히좌현쪽으로향한다. 약 170 초구간은목표경로를안정적으로추종하기위해타를사용하고오버슈트없이약 200 초구간부터목표경로와선수방향을일치시켜 15노트까지속도를회복하게된다. 이결과는횡단상태에서타선의홍등을바라보고있는선박이우현측로진로를피하여야한다는규칙을준수하고있다. JSNAK, Vol. 56, No. 1, February 2019 63
심층결정론적정책경사법을이용한선박충돌회피경로결정 6. 결론 두선박의조우상황에서경제성과안전성을고려하여회피동작을최적화하는강화학습방법을개발하였다. 우선조종운동수학모델을기반으로강화학습환경을구축하고, 조종운동수학모델은 MMG 에서제안한모델을활용하였다. 선박의조우상황에서충돌회피를위한동작은순차적행동문제로간주하고, MDP 를이용해수학적으로표현하였다. 목표경로에수평한새로운회피경로를생성하고목표경로와회피경로사이의거리를행동으로설정한후, 두선박의조우상태에따른최적의행동정책, 즉최적의회피경로를찾았다. 보상함수는경제성과안전성을동시에고려하여실제선박운항조건과가깝게설정하였다. 마지막으로두선박의 90도교차조우상황을테스트하여제안된방법의유효성을검증하였다. 본연구에서는 90도교차조우상황만을가정하여테스트하였으나보다포괄적인조우상황을고려하기위하여향후마주침 (head-on) 및추월 (overtaking) 상황에대한테스트를진행할계획이다. 또한조타만을이용하여피항이가능한상황에대해테스트를하였는데향후행동집합에추력조절요소를추가함으로써속도에대한영향을포함하는연구가진행되어야할것으로사료된다. 후기 본연구는 2018 년도한국연구재단의이공학개인기초연구지원사업 (NRF-2017R1D1A3B03030423) 의지원으로수행된연구임을밝히며, 연구비지원에감사드립니다. 아울러산업통상자원부조선해양산업핵심기술개발사업 ( 조선소생산관리정밀도향상을위한리드타임기준정보체계개발 ) 의재정지원에도감사드립니다. References Fig. 7 Results of reinforcement learning Bergstra, J. & Bengio, Y., 2012. Random search for hyper-parameter optimization. Journal of Machine Learning Research, 13, pp.281-305. Furukawa, Y., Kijima, K. & Ibaragi, H., 2004. Development of automatic course modification system using fuzzy inference. International Federation of Automatic Control Proceedings, 37(10), pp.77-82. Jeong, J.S., 2015. Korean e-navigation goal and government plan. Telecommunications Technology Association Journal, 159, pp.20-27. Kijima, K. & Furukawa, Y., 2002. Development of collision avoidance algorithm using fuzzy inference. Proceedings of ISOPE Pacific/Asia Offshore Mechanics Symposium, 64 대한조선학회논문집제 56 권제 1 호 2019 년 2 월
김동함 이성욱 남종호 요시타카후루카와 pp.123-130. Kijima, K. & Furukawa, Y., 2003. Automatic collision avoidance system using the concept of blocking area. International Federation of Automatic Control Proceedings, 36(21), pp.223-228. Kijima, K. & Nakiri, Y., 2003. On the practical prediction method for ship manoeuvring characteristics. Transaction of the West-Japan Society of Naval Architects, 105, pp.21-31. Kim, D.J. & Kwak, S.Y., 2011. Evaluation of human factors in ship accidents in the domestic sea. Journal of the Ergonomics Society of Korea, 30(1), pp.87-98. Korean Maritime Safety Tribunal, 2017, Current situation of causes of maritime accidents by type of accident [online] Available at: https://www.kmst.go.kr/kmst/statistics/annualreport/select AnnualReportList.do [Accessed 21 May 2018]. Kose, K., Hirono, K., Sugano, K. & Sato, I., 1998. A new collision-avoidance-supporting-system and its application to coastal-cargo-ship SHOYO MARU. IFAC Proceeding, 31, 263-268. Lee, H.J. & Rhee, K.P., 2001. Development of collision avoidance system by using expert system and search algorithm. International Shipbuilding Progress, 48, pp.197-212. Lee, W.W., Yang, H.R., Kim, K.W., Lee, Y.M. & Lee, U.R., 2017. Reinforcement Learning with Python and Keras. Wikibook. Li, Y., 2017. Deep Reinforcement Learning: An Overview. arxiv preprint arxiv:1701.07274. Lillicrap, T.P., Hunt, J.J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., Silver, D. & Wierstra, D., 2016. Continuous control with deep reinforcement learning. International Conference on Learning Representations, 1509.02971. Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D. & Riedmiller, M., 2013. Playing Atari with Deep Reinforcement Learning. Neural Information Processing Systems, Lake Tahoe, USA, 9 December 2013. Mori, S., 1995. Note of Ship Form Design(24). FUNE-NO-KAGAKU, 48, pp.40-49. Ota, D., Masuyama, T., Furukawa, Y. & Ibaragi, H., 2016. Development of automatic collision avoidance system for ships using reinforcement learning. Proceedings of 7th PAAMES and AMEC2016, Hong Kong, 13-14 October 2016. Shim, W.S., Park, J.W. & Lim, Y.K., 2010. The study on the trend of international standards and the domestic plan to cope with e-navigation. Journal of the Korea Institute of Information and Communication Engineering, 14(5), pp.1057-1063. Silver, D., Huang, A., Maddison, C., Guez, A., Sifre, L., Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M., Dieleman, S., Grewe, D., Nham, J., Kalchbrenner, N., Sutskever, I., Graepel, T., Lillicrap T., Leach, M., Kavukcuoglu, K. & Hassabis, D., 2016. Mastering the game of go with deep neural networks and tree search. Nature, 529(7587), pp.484-489. Silver, D., Lever, G., Heess, N., Degris, T., Wierstra, D. & Riedmiller, M., 2014. Deterministic policy gradient algorithms. International Conference on Machine Learning, 32, pp.387-395. Son, N.S., Furukawa, Y., Kim, S.Y. & Kijima, K., 2009. Study on the collision avoidance algorithm against multiple traffic ships using changeable action space searching method. Journal of the Korean Society for Marine Environmental Engineering, 12(1), pp.15-22. Van, S.H., 2007. Planning research for development of core technologies for smart ship. KORDI Report No. UCPM0147A-42-7. 김동함이성욱남종호 Furukawa, Y. JSNAK, Vol. 56, No. 1, February 2019 65