<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DB0FBB3EBC1D8>

딥러닝기술동향 - CNN 과 RNN 을중심으로 - 곽노준박성헌 * 김대식 * 서울대학교교수서울대학교박사과정 * 본고에서는딥러닝의여러가지분야중최근영상인식분야에서기존방법들보다월등한성능을보이고있는컨볼루션신경망 (Convolutional Neural Networks: CNN) 과음성인식이나자연어처리등에적용되어뛰어난성능을보이는순환신경망 (Recurrent Neural Networks: RNN) 의최근동향을소개하도록한다. I. 서론 최근전국적으로알파고열풍이대단하다. 구글의자회사딥마인드에서개발한인공지능엔진인알파고가바둑초고수인이세돌을 4:1 로이기고나서사람들은 이제드디어영화에서나보던인공지능로봇이멀지않았다, 미래에는인공지능이인간을지배할것이다 라는등기술의발전을놀라운눈으로바라보고있다. 하지만일반인들이전율에떨며일면공포심과경외심을가지고바라보는알파고기술의발전상황은이분야를연구하는연구자의입장에서는어느정도당연한결과이다. 이미 1997 년 IBM 의 Deep Blue 가체스계의이세돌인카스파로프를이겼으며, 2011 년에는같은회사의 Watson 이미국의유명퀴즈쇼인 Jeopardy 에서역대우승자들을상대로큰점수차로이기는성과를거두기도했다. 이러한이벤트외에도이미인공지능기술은사람들의생각보다우리생활에깊숙이파고들어우리삶의모습을하나씩바꾸어가고있다. 일례로주차장을드나들때자동으로번호판을인식하는기술이라든지, 사진을찍을때사람얼굴을찾아서네모박스를쳐주는기술, 인터넷쇼핑이나음악감상할때나와성향이비슷한사람들이좋아하는아이템이라고추천을해주는시스템, 외국어로되어있는웹사이트를자동으로한글로번역해주는자동번역시스템등에서부터주식매매, 날씨예측, 자율주행등이루헤아릴수없는많은곳에서 * 본내용은곽노준교수 ( 031-888-9166, nojunk@snu.ac.kr) 에게문의하시기바랍니다. ** 본내용은필자의주관적인의견이며 IITP 의공식적인입장이아님을밝힙니다. 정보통신기술진흥센터 13

주간기술동향 2016. 5. 11. 이미초보적인수준에서부터보다차원이높은다양한인공지능기술이활용되고있다. 그럼도대체인공지능이란무엇인가? 인공지능이란말그대로컴퓨터와같이인간이아닌것이인간의지능을모방하여인간의판단이필요한분야에서독자적인가치판단및결정을내릴수있도록하는기술을통틀어서일컫는용어이다. 이중특히기계학습은백지상태에있던갓난아이가 1 년도안되어말을알아듣고, 의사표현을하고, 걷고, 뛰는것을배우는과정처럼컴퓨터가학습을통해새로운분야의전문가가될수있게하는연구분야로, 1940 년대부터생물의신경망을논리회로로모델링하고자하는연구를그시초로볼수있다. 그후 1957 년인공신경망을이용하여영상을인식하고자하는목적으로퍼셉트론 (perceptron) 이라는알고리즘이개발되었고, 1986 년 Rumelhart 등이퍼셉트론을여러층으로쌓아서입출력간의관계를학습할수있도록한다층퍼셉트론 (multi-layer perceptron) 이라는구조와이를학습하는역전파 (back-propagation) 알고리즘을개발함으로써인공신경망의첫번째붐을이끌었다. 이러한기반위에현재 2006 년이후로최근많은사람들의입에오르내리며, 알파고의성공을이끌어낸한축이기도한, 신경망층을매우깊게쌓아서학습을수행하는딥러닝기술이엄청난속도로발전하고있다. 본고에서는딥러닝의여러가지분야중최근영상인식분야에서기존방법들보다월등한성능을보이고있는컨볼루션신경망과음성인식이나자연어처리등에적용되어뛰어난성능을보이는순환신경망의최근동향을소개하도록한다. II. 컨볼루션신경망 1. 개요컨볼루션신경망 (CNN) 은영상에적용이용이하도록만들어진인공신경망의한종류이다. CNN 은 Lecun et al.[1] 이 1998 년처음제안하였으며일반적인다층퍼셉트론에서사용되는구조와다르게컨볼루션레이어와풀링레이어로이루어져있다. CNN 은처음제안된이후성능면에서다른알고리즘에비해뛰어나지못했기때문에큰주목을받지못하고있었다. 하지만이후 2012 년 ImageNet Challenge[2] 의영상분류문제에서 CNN 기반의알고리즘이 2 위를큰폭으로누르고우승하여이후 CNN 연구에불을지피는계기가되었다. ImageNet Challenge 는영상분류와객체검출분야경진대회로이전에존재하지않 14 www.iitp.kr

< 자료 > Russakovsky, Olga, et al. Imagenet large scale visual recognition challenge, International Journal of Computer Vision 115.3 (2015): 211-252. [ 그림 1] ImageNet 영상및 ground truth 예제 았던대용량데이터베이스를구축하여대용량영상분류및객체검출분야의연구를활성화시 키기위해 2010 년시작된워크샵이다. 이중영상분류의경우 1,000 개의서로다른클래스영 상을학습하고테스트영상이들어왔을때이를알맞게분류하는문제이다. 영상분류데이터 셋은 100 만장이상의학습데이터, 5 만장의밸리데이션데이터, 10 만장의테스트데이터로 구성되어있다. [ 그림 1] 은이미지넷 (ImageNet) 의영상과 ground truth( 정답 ) 의예를보여준다. CNN 이최근들어다른알고리즘에비해영상분류및객체검출에우수한성능을보이고있 는이유는크게세가지를들수있다. 첫번째는 Rectified Linear Unit(ReLU)[3] 이라는활성화함 수 (activation function) 의도입으로이전 sigmoid, tanh 등의활성화함수에서나타나던문제인그 레이디언트베니싱 (gradient vanishing) 문제가없어진것이다. Gradient vanishing 은신경회로망을 학습하는대표적인알고리즘인 backpropation 알고리즘에서낮은층으로갈수록전파되는에러 의양이적어짐으로인해그레이디언트변화가거의없어져학습이일어나지않는현상이다. 이문제로인해깊은인공신경망의학습이어려웠는데 ReLU 의도입으로이문제를해결하여 깊은인공신경망에서도낮은층까지학습이가능해졌다. 두번째이유는이미지넷과같은대용량데이터베이스의출현이다. 하드웨어의발달로인해 대용량저장장치가보편화되었고 Amazon Mechanical Turk[4] 등을이용한크라우드소싱이가능 해지면서대용량학습데이터의정답을수작업으로레이블링하는일이가능해졌다. 이러한 100 만장이상의대용량영상데이터베이스를바탕으로여러층으로이루어진 CNN 을학습함으로 써과적합 (overfitting) 문제를해결할수있었다. 일반적인인공신경망의경우학습해야하는변 수의개수가매우많기때문에적은양의학습데이터로는과적합이쉽게일어나게되는데대 용량데이터베이스의출현으로깊은인공신경망을과적합없이학습할수있게된것이다. 마 지막이유는 Dropout[5] 을활용한 regularization 을들수있다. Dropout 은인공신경망의과적합 정보통신기술진흥센터 15

주간기술동향 2016. 5. 11. 을방지하기위해학습알고리즘상에서특정비율의뉴런을무작위로작동하지않게만든채학습을수행하게된다. 매 iteration 마다작동하지않는뉴런을다르게뽑아서학습을시켜각각의뉴런이같은정보를학습하거나아무런정보도학습하지않는것을방지하였다. 위와같은이유로컨볼루션신경망은대용량의영상데이터가존재할때영상분류및객체검출을효과적으로수행하며현존하는알고리즘중가장좋은성능을보이는것으로보고되고있다. 다음절에서영상분류에사용되는다양한 CNN 의구조에대해알아보도록하겠다. 2. CNN 을이용한영상분류동향이미지넷챌린지 (ImageNet Challenge) 의영상분류성능은 Top-5 에러로측정이된다. 테스트영상에서가장확률이높은 5 개의부류 (class) 를알고리즘을통해선택한뒤 5 개중그라운드트루즈에해당하는부류가있을경우정답을맞춘것으로처리해정답을맞추지못한이미지의비율을 Top-5 에러로측정한다. 2012 년이미지넷챌린지에서우승한 AlexNet[6] 의경우 16.4% 의 Top-5 에러를보였다. 2012 년 2 위에오른방법이 26.2% 의에러를보인것과비교하면이는매우큰격차이다. 이결과로인해많은사람들이 CNN 의연구에뛰어드는계기가되었다. AlexNet 은 5 개의컨볼루션층과 2 개의 fully-connected 층 ( 일반적인다층퍼셉트론과같이위와아래의모든뉴런이연결된구조 ) 으로이루어져있다. 이후 2015 년까지이미지넷챌린지에참여한팀들은대부분 CNN 기반알고리즘을사용하고있으며주로 CNN 의구조를변형하여학습의효율성을높이고성능을향상시킨방법들이많이등장하였다. 2013 년우승팀인 Clarify 사의 ZFNet[7] 은 AlexNet 의컨볼루션필터크기를줄여 Top-5 에러를 11.7% 까지줄였다. 2014 년등장한 VGGNet[8] 과 GoogleNet[9] 은층의개수를늘려네트워크를깊게만들고필터크기를줄이는것이네트워크의표현력을높이는데유리하다는것을증명하였다. VGGNet 의경우모든컨볼루션층의필터크기를 3 3 또는 1 1 로고정하고 17 개의층을사용해매우깊은 CNN 구조를만들었다. 1 1 컨볼루션의경우주위정보를포함하지않음에도불구하고차원축소와비슷한효과로표현력을높일수있음이밝혀졌다. GoogleNet 은 1 1, 3 3, 5 5, 3 3 pooling 으로이루어진인셉션구조바탕으로네트워크를구축하였다. VGGNet 은 7.33%, GoogleNet 은 6.67% 의 Top-5 에러를기록하여 2013 년에비해많은성능향상을보였다. 2015 년영상분류에서가장좋은성능을보인 Microsoft research Asia 의 ResNet[10] 은 150 16 www.iitp.kr

개이상의층으로이루어진네트워크를효과적으로학습이가능하도록하는알고리즘을개발하여 3.57% 의 Top-5 에러를기록하였다. 사람이이미지넷데이터를분류했을때 5.1% 정도의 Top-5 에러를가진다고보고된것을참고하면 [11], 이는 CNN 이영상을분류하는능력이사람보다뛰어남을의미한다. 이외에도 Batch Normalization[12], Parametric ReLU[13] 등 CNN 의학습속도와성능을향상시킬수있는방법이많이등장하여이미지넷영상분류문제는거의정복된문제로여겨지는분위기이다. 3. CNN 을이용한객체검출동향객체검출문제는영상분류문제와달리영상한장의부류를분류하는것이아니라영상에서객체에해당하는부분을찾아서객체의외곽상자 (bounding box) 를결과로출력해야한다. 따라서한장의영상에서도여러종류의객체가검출될수있어영상분류보다어려운문제로다루어진다. 객체검출에사용되는 CNN 은주로영상분류에서사용된 CNN 과같은구조가사용되며 CNN 의성능이객체검출의성능에큰영향을미친다. 다만외곽상자를추정하기위해객체의외곽상자에해당하는후보군을먼저검출하는작업이필요하다. 초기 CNN 을이용한객체검출은후보군검출을위한방법으로비지도학습기반의방법인 selective search[14], edgebox[15] 등이주로사용되었다. 이렇게검출된후보군부분을영상에서잘라내 CNN 을통해분류하여최종적으로객체를검출하게된다. 이러한프레임워크를사용한대표적인방법이 R-CNN[16] 이다 ([ 그림 2] 참조 ). 이후후보군또한 CNN 으로함께학습시켜사용하는방법이더좋은성능을보이게되었다. 기존의후보군검출방법은이미지한장에후보군이 1,000 개이상검출되었기때문에이를모 Warped Region aeroplane? no. person? yes. CNN tvmonitor? no. 1. Input image 2. Extract region proposals(~2k) 3. Compute CNN features 4. Classify regions < 자료 > Girshick, Ross, et al. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. [ 그림 2] R-CNN 구조도개요 정보통신기술진흥센터 17

주간기술동향 2016. 5. 11. 두분류하는데시간이오래걸렸다. 반면에 CNN 학습시에객체위치를함께이용하여학습함으로써객체검출시간및분류시간을크게단축하였다. 특히, Microsoft research Asia 의 Faster R-CNN[17] 은앞서설명한 ResNet 과결합하여사용해 2015 년이미지넷객체검출분야에서 2 위와큰격차로우승을차지하였다. 4. CNN 의발전방향 Generative 모델 CNN 은영상분류에가장먼저활용되면서인기를끌기시작하였으나컴퓨터비전분야전반에걸쳐활용될수있는여지가많다. 특히, 하위층에서간단한특징을학습하고위로갈수록고차원적인특징을학습하는성질때문에 CNN 의학습은새로운레프리젠테이션을학습하는과정으로도볼수있다. 최근 CNN 에서화두가되고있는문제는 generative model 이다. 기존영상분류나다른여러분야에서사용된 CNN 은주로 discriminative model 을학습하는용도로사용되어왔다. 이는데이터 x 가주어졌을때각부류 C 마다 p(c x) 를학습하는모델이다. 반면에 generative model 은데이터 x 의확률분포 θ 의추정을통해 p(x θ) 를학습하는모델이다. Generative model 보다 discriminative model 이분류등기본적인문제에있어서우수한성능을보인다고알려져있지만 Generative model 의장점은학습된모델로부터새로운데이터를생성할수있다는점이다. 따라서성능이 discriminative model 에비해좋지않음에도새로생성된데이터의활용방안이많기때문에중요히여겨지고활발히연구되고있는분야이다. CNN 과같은인공신경망을 generative model 에어떻게접목시킬것인가에대해많은연구가진행되어왔다. 딥러닝의시대를처음으로열었던 Hinton et al. 의 Deep belief network(dbn)[18] 의경우 generative model 로써층별로학습시키는모델이다. 이후 CNN 에서는 discriminative model 의연구가주로이어지다가최근 variational auto-encoder(vae)[19] 와 generative adversarial network (GAN)[20] 의등장으로인해 generative model 이다시인기를얻고있다. VAE 의경우, 베리에이션 (variational) 인퍼런스문제를단순화시켜이를 gradient descent 방법을이용하여학습할수있도록만들었다. GAN 의경우, 데이터의확률분포를학습하는네트워크와실제데이터와생성된데이터를분류하는네트워크의미니맥스게임을통해데이터의확률분포가네트워크를통해학습이되게하였다. DRAW[21] 네트워크에서는다음장에서좀더자세히설명될 RNN 을 VAE 와결합하여이미지를생성하는알고리즘을개발하였다. 또한, 최근 Deep convolutional GAN(DCGAN)[22] 에서는 18 www.iitp.kr

주 ) DCGAN[21] 을이용하여생성한침실의영상. 실제침실의사진이라할수있을만큼사실적인영상을보여준다. < 자료 > Radford, Alec et al. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, arxiv preprint arxiv:1511.06434, 2015. [ 그림 3] DCGAN[22] 를이용한침실영상생성예 GAN 을이용하여더크고자세한이미지를생성하는방법을연구하였다. 그결과생성된얼굴, 침실등의영상은꽤자연스러운모습을보여주고있다 ([ 그림 3, 4] 참조 ). 특히, 얼굴데이터로학습한 DCGAN 에서생성에입력으로사용한확률분포들간의벡터연산을통해생성된새로운이미지를생성하는실험을통해서입력으로사용한벡터공간이고차원적인의미를표현하는 주 ) DCGAN[21] 을이용하여생성한얼굴영상과입력벡터간의영상을통해새로생성한영상. 의미적으로더하기, 빼기연산을수행한결과를영상으로생성해주는것을알수있다. < 자료 > Radford, Alec et al. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, arxiv preprint arxiv:1511.06434, 2015. [ 그림 4] DCGAN[22] 를이용한얼굴영상생성예 정보통신기술진흥센터 19

주간기술동향 2016. 5. 11. 공간이되도록학습이수행된다는것을볼수있다 ([ 그림 4] 참조 ). 앞으로이러한 generative model 을활용한새로운영상또는동영상의생성문제가 CNN 의 주요연구분야가될것으로보여진다. III. 순환신경망 (RNN) 의소개 1. 개요최근음성이나언어등연속된입력데이터를다루는연구자들이딥러닝모델중순환신경망 (Recurrent Neural Network: RNN) 에주목하고있다. 순환신경망은 [ 그림 5] 에표현한것과같이연속된데이터상에서이전순서의히든노드 (hidden node) 의값을저장한다. 이후다음순서의입력데이터로학습할때이전에저장해놓은값을이용하게된다. 결국학습이진행되어도과거학습의정보를잃지않고연속적인정보의흐름을학습에반영할수있다. 즉순환신경망은강력한동적시스템의역할을한다. 학습방법은인공신경망의역전파방법을따르게되지만시간방향의학습이추가되어 backpropagation through time(bptt)[24] 이라는변형된학습방법을따르게된다. 이러한 BPTT 학습방법은역전파의거리가늘어나면서 gradient 값이폭증하거나사라지는현상이발생하는문제점이있으며이로인해데이터의길이가길어질수록학습은힘들어진다 [25]. < 자료 > LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." Nature 521.7553 (2015): 436-444. [ 그림 5] RNN 의구조 2. LSTM 및 GRU 기본인공신경망구조를바탕으로한순환신경망학습의문제점을극복하기위해 Long short-term memory(lstm) 구조가제안되었다 [26]. 인공신경망의히든노드대신에 LSTM cell 을사용하는아이디어인데구간이길어지더라도정보를지속하는데효과적이다. LSTM cell 은여러게이트들과상태값들이조합된구조로이루어져있다. 게이트는입력 (i), 출력 (o), 망각 (f) 의세가 20 www.iitp.kr

지종류가있으며, 시그모이드 (sigmoid) 함수를통해 0 과 1 사이의값으로제한시켜통과비율 을정해주게된다. 입력게이트는입력값의사용비율을결정하며망각게이트는이전단계에 서넘어온히든노드값의사용비율을결정한다. 출력게이트는최종아웃풋의사용비율을 정해준다. 즉, 학습을통해게이트들은얼마만큼정보를통과시켜줄지결정할수있게되고이 로인해장기간기억을보존하여사용할수있게된다. [ 그림 6 (a)] 는 LSTM 의구조를간략히 보여준다. (a) Long Short-Term Memory (b) Gated Recurrent Unit < 자료 > Chung, Junyoung, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling. arxiv preprint arxiv:1412.3555, 2014. [ 그림 6] LSTM 의구조와 GRU 의구조 LSTM 의기본구조이외에도다양한변형구조가연구되고있다. 그중 Gated Recurrent Unit (GRU) 의경우보다간단한구조임에도 LSTM 못지않은성능을보여최근연구에많이사용되 고있다 [28]. GRU 의경우는게이트의수가 [ 그림 6 (b)] 와같이 2 개로 LSTM 보다적으며, GRU 에 서는리셋게이트 (r) 와업데이트게이트 (z) 가 LSTM 의 3 가지게이트의역할을나누어수행한다. 리셋게이트는입력값과이전단계의히든노드의값을어떻게섞을지그비율을정해주어업데 이트게이트는리셋게이트를통과한후보값과이전단계의히든노드값의조합비율을결정하 여최종결과값을결정한다. GRU 는구조가간단하고변수의수가적어 LSTM 보다학습시간이 짧게걸리고과적합이덜일어나는장점이있다. 하지만데이터의수와복잡도에따라 LSTM 이 좀더나은성능을보이는경우도있어어느구조가낫다고보기힘들다 [27]. 3. 순환신경망의응용 가. 자연어처리 순환신경망은최근학습방법및구조면에서많은연구가진행되고있다. 그와더불어음 성인식, 자연어처리등연속데이터를처리하는분야에다양하게응용되고있다. 그중순환신 정보통신기술진흥센터 21

주간기술동향 2016. 5. 11. 경망이자연어로문장을이루는패턴을잘익히면서자연어처리분야에서큰두각을나타내고있다. 예를들어, 영어자연어문장을독일어및프랑스언어로번역할때기존번역연구와달리순환신경망을이용할수있다. 최근뉴럴기계번역 (Neural Machine Translation: NMT) 모델은순환신경망을기반으로하여언어간의특징을스스로학습하여좋은성능을보여준다 [29],[30]. NMT 모델은 [ 그림 7] 과같이인코더네트워크와디코더네트워크로구성되며두네트워크모두순환신경망구조로이루어져있다. 앞서소개한 LSTM 이나 GRU 등의메모리셀이히든노드를이루게된다. 인코더네트워크의입력은문장을이루는단어들을벡터로변환하여처리한다. 연속된단어벡터의입력값은입력문장을의미하는하나의표현벡터를생성하여디코더네트워크로넘겨지게되며디코더네트워크는인코더네트워크에서넘어온벡터를기반으로다른언어의자연어문장을생성한다. 디코더네트워크는확률모델로서후보단어중가장높은확률의단어를연속적으로생성한다. 첫번째단어를생성한후그단어가다시입력값이되어두번째단어의생성에영향을주는방식으로자연스러운문장을만드는패턴을따르게 < 자료 > Introduction to Neural Machine Translation with GPUs, <https://devblogs.nvidia.com/parallelforall/introduction-neuralmachine-translation-gpus-part-3/> [ 그림 7] 뉴럴기계번역모델의구조 22 www.iitp.kr

된다. 이를통해서로다른언어간에도자연어입력과출력이가능하게되는것이다 [30]. 나. 이미지설명생성순환신경망을이용한모델은단지언어에만국한되지않는다. 순환신경망은앞서소개한 CNN 과결합하여이미지와언어간의번역모델을구축할수있다 [31]. [ 그림 8] 과같이이미지설명생성모델을자세히살펴보면 CNN 을인코더네트워크로대체하여입력이미지의특징을담은표현벡터를디코더네트워크에넘기게되고, 이후디코더네트워크는이미지의내용에따라자연어문장을생성하게된다. 본모델과마찬가지로연속적으로출력값이다음순서의입력값이되는방식으로자연스러운문장패턴을생성하게된다. 더많은수의이미지와설명데이터를이용하여학습할수록이미지의내용을자연스럽게설명해주는모델을만들수있게된다. 이모델에서는 NMT 모델에서의인코더네트워크를 CNN 으로대체하여다른종류의입력값을사용하였다고볼수있고딥러닝모델의큰장점으로생각할수있다. 인공신경망이이미지, 언어, 소리, 비디오등다양한종류의데이터를표현벡터로변환하고이를학습하는데적합하기때문이다. 또한, 사용자가입력데이터를모델에입력만하게되면모델스스로학습하고특 < 자료 > Introduction to Neural Machine Translation with GPUs, <https://devblogs.nvidia.com/parallelforall/introduction-neuralmachine-translation-gpus-part-3/> [ 그림 8] 이미지설명생성모델의구조 정보통신기술진흥센터 23

주간기술동향 2016. 5. 11. 징을찾아결과를도출하는엔드투엔드 (end-to-end) 모델링이가능하다는점이딥러닝모델 의또다른장점이다. IV. 결론 본고에서는최근이미지넷, 알파고등의성공에따른인공지능의붐을이끈가장큰견인차역할을하고있는딥러닝기술에관해소개하였다. 딥러닝기술중특히영상인식및검출분야에서활발히사용되고있는 CNN 과이의최신동향인 generative model 들에대해살펴보았으며, 자연어처리및이미지설명자동생성에서사용되고있는 RNN 에대해살펴보았다. 딥러닝기술은최근몇년간빅데이터기술과 GPU 처리속도의향상등에힘입어빠르게발전하고있으며, 많은연구자들이활발히활동하고있는분야로최근의연구동향에비추어보았을때영상인식및자연어처리등의분야외에도다양한분야에응용될수있을것으로보인다. [ 참고문헌 ] [1] LeCun, Yann, et al. Gradient-based learning applied to document recognition, Proceedings of the IEEE 86.11, 1998, 2278-2324. [2] Russakovsky, Olga, et al. Imagenet large scale visual recognition challenge, International Journal of Computer Vision 115.3, 2015, 211-252. [3] Nair, Vinod, and Geoffrey E. Hinton. Rectified linear units improve restricted boltzmann machines, Proceedings of the 27th International Conference on Machine Learning(ICML-10). 2010. [4] https://www.mturk.com/ [5] Srivastava, Nitish, et al. Dropout: A simple way to prevent neural networks from overfitting, The Journal of Machine Learning Research 15.1, 2014, 1929-1958. [6] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. Imagenet classification with deep convolutional neural networks, Advances in neural information processing systems. 2012. [7] Zeiler, Matthew D., and Rob Fergus. Visualizing and understanding convolutional networks, Computer vision ECCV 2014. Springer International Publishing, 2014. 818-833. [8] Simonyan, Karen, and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition, arxiv preprint arxiv:1409.1556, 2014. [9] Szegedy, Christian, et al. Going deeper with convolutions, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. [10] He, Kaiming, et al. Deep Residual Learning for Image Recognition, arxiv preprint arxiv:1512.03385, 2015. [11] http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/ 24 www.iitp.kr

[12] Ioffe, Sergey, and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift, arxiv preprint arxiv:1502.03167, 2015. [13] He, Kaiming, et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification, Proceedings of the IEEE International Conference on Computer Vision. 2015. [14] Uijlings, Jasper RR, et al. Selective search for object recognition, International journal of computer vision 104.2, 2013, 154-171. [15] Zitnick, C. Lawrence, and Piotr Dollár. Edge boxes: Locating object proposals from edges, Computer Vision ECCV 2014. Springer International Publishing, 2014. 391-405. [16] Girshick, Ross, et al. Rich feature hierarchies for accurate object detection and semantic segmentation, Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. [17] Ren, Shaoqing, et al. Faster R-CNN: Towards real-time object detection with region proposal networks, Advances in Neural Information Processing Systems. 2015. [18] Hinton, Geoffrey E., Deep belief networks, Scholarpedia 4.5, 2009, 5947. [19] Kingma, Diederik P., and Max Welling., Auto-encoding variational bayes, arxiv preprint arxiv:1312.6114, 2013. [20] Goodfellow, Ian, et al. Generative adversarial nets, Advances in Neural Information Processing Systems. 2014. [21] Gregor, Karol, et al. DRAW: A recurrent neural network for image generation, arxiv preprint arxiv:1502.04623, 2015. [22] Radford, Alec, Luke Metz, and Soumith Chintala. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, arxiv preprint arxiv:1511.06434, 2015. [23] LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton., Deep learning, Nature 521.7553, 2015, 436-444. [24] Williams, Ronald J., and David Zipser., Gradient-based learning algorithms for recurrent networks and their computational complexity, Back-propagation: Theory, architectures and applications, 1995, 433-486. [25] Bengio, Yoshua, Patrice Simard, and Paolo Frasconi. Learning long-term dependencies with gradient descent is difficult, Neural Networks, IEEE Transactions on 5.2, 1994, 157-166. [26] Hochreiter, Sepp, and Jürgen Schmidhuber., Long short-term memory, Neural computation 9.8, 1997, 1735-1780. [27] Chung, Junyoung, et al., Empirical evaluation of gated recurrent neural networks on sequence modeling, arxiv preprint arxiv:1412.3555, 2014. [28] Cho, Kyunghyun, et al., Learning phrase representations using RNN encoder-decoder for statistical machine translation, arxiv preprint arxiv:1406.1078, 2014. [29] Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio., Neural machine translation by jointly learning to align and translate, arxiv preprint arxiv:1409.0473 2014. [30] Introduction to Neural Machine Translation with GPUs, <https://devblogs.nvidia.com/parallelforall/introduction-neural-machine-translation-gpus-part-3/> [31] Xu, Kelvin, et al., Show, attend and tell: Neural image caption generation with visual attention, arxiv preprint arxiv:1502.03044 2015. 정보통신기술진흥센터 25