2020-02-19 Deep Residual Learning for Image Recognition He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition(cvpr) 2016. ISL 안재원
2020-02-19 Introduction Deep residual learning Experiments 2
Intro Introduction 신경망이깊으면깊을수록더좋지않을까? 어떻게하면더깊은신경망을학습할수있는가? 어떻게하면더깊은신경망을빠르게학습할수있는가? - Residual Network(34-layer) - VGG-19 Network VS 3
Deeper and deeper Introduction - GoogleNet - 세계최대의영상데이터베이스 - 약 22000 종류, 1500 만장의영상데이터보유 - 2010 년부터 ILSVRC 개최함 ImageNet Large Scale Visual Recognition Competition(ILSVRC) ImageNet 의영상데이터를이용한영상인식대회 Learning 기법을도입하면서에러율이급격하게감소했다. Inception module 의구조 Deeper 4
Deeper and deeper Introduction 왜깊을수록좋은가? 깊으면무조건좋은가? - High level features 더복잡한특징 - Mid level features 복잡한특징 - Low level features 단순한특징 5
Introduction Deeper network always better? 왜깊을수록좋은가? 깊으면무조건좋은가? - 잘학습된 Shallower Network Identity mapping I I I Identity mapping 에의해잘학습된특징이그대로전달된다. 그렇기때문에적어도 Training error 가유지되거나줄어들것이다. But 성능저항의원인이 Overfitting 만의문제는아니다. - K. He and J. Sun. Convolutional neural networks at constrained time cost. In CVPR, 2015. - R. K. Srivastava, K. Greff, and J. Schmidhuber. Highway networks. arxiv:1505.00387, 2015. 현재의네트워크구조와학습형태가필요한정보를온전히전달하도록구성되어있지않기때문에발생하는문제다. 6
Paradigm shift Introduction 현재의네트워크구조와학습형태가필요한정보를온전히전달하도록구성되어있지않기때문에발생하는문제다. - 얼굴을학습할수있는깊이의네트워크에서눈, 코, 입을학습하고싶다면? - High level features 더복잡한특징 - 기존네트워크의학습방향 층을거듭할수록, Low level 의특징 (feature) 를이용해얼마나더복잡한특징을학습시킬것인가. - High level features 사람 1, 사람 2, 사람 3 - Residual network 의학습방향 층을거듭할수록, Low level 의특징과얼마나더 ( 복잡한방향으로 ) 다른형태의특징을학습시킬것인가. - Mid level features 눈, 코, 입 - Mid level features 복잡한특징 - Mid level features 눈, 코, 입 - Mid level features 눈, 코, 입 - Low level features 단순한특징 - Low level features 점, 선, 면 - Low level features 점, 선, 면 7
Deep Residual Learning Residual? A Residual is generally a quantity left over at the end of process. Error. - Residual function. Hypothesis(End of process) F xx Η xx xx Input - Residual learning framework. Shortcut connections Backward Forward - 각층 (Layer) 의 Hypothesis. Η xx = F xx + xx Learing 을통해학습하고자하는것. 작은값 (Small responses) Weight layer 는 2 개이상. 아래층 (Low layer) 의특징 (Feature) 과얼마나달라지는가를학습한다. Residual 8
Deep Residual Learning Residual learning framework - Residual learning 일반적인네트워크처럼동작한다. 학습에유리한구조를갖는다. Precondition Η xx = F xx + xx Forward Backward 학습되고자하는형태가사전에정해져있다. 작은변화 (Perturbations) 작은값 (Small responses) 9
Deep Residual Learning Residual learning framework - Shortcut connections Residual learning framework 에서처음등장한개념은아니다. - Inception module(v3) in GoogleNet Gain Gain Gain Η xx = F xx + xx 획득하고자하는특징에적합한 Convolutions 의크기를알수없다. 그렇기때문에여러크기의 Convolutions 으로학습을진행한다. 특징검출에따라선택적으로 Short connection 이활성화된다. Short connection 이언제나활성화되어있다. 즉, Residual 한특성이언제나유지된다. 10
Deep Residual Learning Residual Network - Residual Network(34-layer) VGG-19 network 를기반으로만들었다. - 각층 (Layer) 에서출력되는특징 (feature map) 의수가같으면, 같은수의 filter 를사용한다. - 출력되는특징의수가반으로줄면, 사용하는 filter 의수는 2 배가된다. - 위의특징에의해각층에서출력되는특징의수에상관없이각층의복잡도는보존된다. VGG-19 network 보다덜복잡하다. - VGG-19 network : 19.6 billion FLOPs - Residual network : 3.6 billion FLOPs - VGG-19 network VGG-19 network 보다 filter 의수도더적다. 입출력의크기가다른구간은두옵션중하나를선택한다. - A : Zero padding( 입력에대한 Identity 를보장할수없다.) - B : Projection shortcut(1x1 convolutions : dimension 조절 ( 증가, 감소 ) 을위한 convolutions.) Η xx = F xx + WW ss xx 11
Experiments Training on ImageNet ImageNet 을이용한학습결과비교. Batch normalization SGD Don t use dropout 600,000 iterations - Residual Network(34-layer) - Plain Network(34-layer) 12
Experiments Training on ImageNet - Error 변화비교 - 굵은선 : Training error - 얇은선 : Validation error 더깊은네트워크가더좋은성능을보인다. 학습속도가더빠르다. 깊을수록성능차이가더두드러지는것으로보인다. - Top-1 error 13
Experiments Exploring over 1000 Layers Training data set : CIFAR-10 - Error 비교. - Error 비교. - Over-fitting 에의한결과라고판단되지만.. Test error 작은값 (Small responses) Identity mapping 이보장되는가? Training error 14
Q & A 2020-02-19