Figure 4.2 컨볼루션 (C) 과서브샘플링 (S) 그림 4.3 은컨볼루션의아이디어를설명하고있다. 완전연결층, 지역연결층과비교하여컨볼루션층이어떻게다른지를설명한다. 완전연결층은이웃한층의뉴런간에연결선이존재하는데, 하나의층에있는모든뉴런과이웃한층에있는모든뉴런이연결된다. 즉

Similar documents
PowerPoint 프레젠테이션

딥러닝 첫걸음

때문이다. 물론가장큰이유는, 다음절에서살펴보겠지만최근들어딥러닝구조를학습하는데필요한여러가지테크닉들이개발되었기때문이다 [6,7]. 딥러닝이산업현장에서선호되는데는몇가지이유가있다. 일단은어려운문제를잘해결한다는것이다. 예를들어서, 물체인식과음성인식등전통적인패턴인식의문제에서딥러닝

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Introduction to Deep learning

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

논문제출양식

다중 곡면 검출 및 추적을 이용한 증강현실 책

신경망 (Neural Networks) < 인공지능입문 > 강의 허민오 Biointelligence Laboratory School of Computer Science and Engineering Seoul National University

1-1-basic-43p

표상학습을이용한딥러닝이미지특성의범용분류성에대한실험적분석 지도교수장병탁 이논문을공학학사학위논문으로제출함 년 12 월 21 일 서울대학교공과대학컴퓨터공학부한동식 2016 년 2 월

( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

Ch 1 머신러닝 개요.pptx

02본문

Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology Vol.7, No.11, November (2017), pp

Sequences with Low Correlation

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

2 : (EunJu Lee et al.: Speed-limit Sign Recognition Using Convolutional Neural Network Based on Random Forest). (Advanced Driver Assistant System, ADA

290 정보과학회컴퓨팅의실제논문지제 24 권제 6 호 ( ) 1. 서론음성인식시스템은모바일디바이스의보편화로음성데이터에대한접근과확보가용이해짐에따라지난몇년간크게발전하였다. 화자식별 (Speaker Identification) 은개인성도의음성학적특징을모델링하고분류

PowerPoint Presentation

PowerPoint Presentation

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

DBPIA-NURIMEDIA

딥러닝튜토리얼 Deep Learning Tutorial - 신경망과딥러닝의이해 Understanding Neural Network & Deep Learning

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

표본재추출(resampling) 방법

PowerPoint 프레젠테이션

PowerPoint Presentation

Resampling Methods

Reinforcement Learning & AlphaGo

Artificial Intelligence: Assignment 5 Seung-Hoon Na December 15, Numpy: Tutorial 다음 자료를 참조하여 numpy기본을 공부하시오.

Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology Vol.8, No.10, October (2018), pp

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DB0FBB3EBC1D8>

논문제출양식

(JBE Vol. 24, No. 4, July 2019) (Special Paper) 24 4, (JBE Vol. 24, No. 4, July 2019) ISSN

PowerPoint 프레젠테이션

소성해석

DBPIA-NURIMEDIA

ch3.hwp

Ch 8 딥강화학습

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

04 Çмú_±â¼ú±â»ç

PowerPoint 프레젠테이션

슬라이드 1

PowerPoint 프레젠테이션

실험 5

슬라이드 1

<BFACB1B831382D31355FBAF2B5A5C0CCC5CD20B1E2B9DDC0C720BBE7C0CCB9F6C0A7C7E820C3F8C1A4B9E6B9FD20B9D720BBE7C0CCB9F6BBE7B0ED20BFB9C3F8B8F0C7FC20BFACB1B82D33C2F7BCF6C1A E687770>

빅데이터_DAY key

< 목차 > Ⅰ. 연구동기 1 Ⅱ. 연구목적 1 Ⅲ. 연구내용 2 1. 이론적배경 2 (1) 직접제작한물질의기본구조 2 (2) 회절격자의이론적배경 3 (3) X-선회절법-XRD(X-Ray Diffraction) 3 (4) 브래그의법칙 (Bragg`s law) 4 (5)

< B1E8B0E6C5C25FC0DAB5BF2E687770>

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

SuaKITBrochure_v2.2_KO

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

2 : CNN (Jaeyoung Kim et al.: Experimental Comparison of CNN-based Steganalysis Methods with Structural Differences) (Regular Paper) 24 2, (JBE


09( ) CPLV16-04.hwp

Slide 1

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

(JBE Vol. 22, No. 2, March 2017) (Special Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

Microsoft PowerPoint - chap06-2pointer.ppt

17장 클래스와 메소드

제1강 인공지능 개념과 역사

쉽게배우는알고리즘 6장. 해시테이블 테이블 Hash Table

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

(001~006)개념RPM3-2(부속)

Electronics and Telecommunications Trends 인공지능을이용한 3D 콘텐츠기술동향및향후전망 Recent Trends and Prospects of 3D Content Using Artificial Intelligence Technology

<34342D342D B9DAC0E7BCB120B1E8C1D8C8AB20B1E8C7FCBCAE20B8F0B0E6C7F620B0ADC7CABCBA2E687770>

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

PowerPoint 프레젠테이션

OCW_C언어 기초

소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

Microsoft PowerPoint - Java7.pptx

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

IP 심화 라우팅프로토콜적용시 라우팅테이블에서 이니셜이있는네트워크를설정하는것 : onnected 직접연결된네트워크를의미한다. 그러므로라우팅은 나는이런네트워크와연결되어있다. 를직접연결된라우터들에게알려주는것 1>en 1#conf t 1(config)#router rip 1

PowerPoint Presentation

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

adfasdfasfdasfasfadf

MVVM 패턴의 이해

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

BY-FDP-4-70.hwp


05( ) SA17-36.hwp

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

02장.배열과 클래스

PowerPoint 프레젠테이션

슬라이드 1

<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN


Chapter ...

Transcription:

기계학습개론 / 딥러닝강의노트, 서울대학교컴퓨터공학부장병탁, Copyright 2013-2016 4 장 : 컨볼루션신경망 4.1 CNN 구조 4.2 AlexNet 4.3 DeepFace 4.4 GooLeNet 4.1 CNN 구조 컨볼루션신경망 (Convolutional Neural Networks, CNN) 은영상처리를위해고안된특수한연결구조를가진다층신경망이다 (LeCun & Bengio, 1995). 일반적인다층신경망에서는인접한두개의층간의뉴런들이모두연결된완전연결구조를갖는다. 이러한완전연결구조를이용하면이론적으로입력영상에있는위상학적구조를찾을수는있으나현실적으로는입력영상이다차원으로이루어져있기때문에문제복잡도가매우크다는문제가있다. CNN 의핵심아이디어는영상의위상학적구조를학습할수있는신경망의구조를새롭게설계한것이다. 이러한설계는픽셀영상으로부터최소한의전처리를통해서다양한영상인식에사용할수있다. 그림 4.1 컨볼루션신경망 (CNN) 의구조 CNN 은기존의패턴인식방식에서특징추출과분류의두단계를하나의단계로합친통합한모델로볼수있다. CNN 은기본적으로다수의컨볼루션층 (convolution layer) 과서브샘플링층 (subsampling layer) 으로구성되어있다. 그림 4.1 은 A 자의문자이미지를인식하는 CNN 의구조를보여준다. 그림 4.2 는컨볼루션과서브샘플링의핵심아이디어를기술하고있다. 컨볼루션층은입력에대해서다양한컨볼루션커널을적용하여특징맵 (feature map) 을생성한다. 컨볼루션은고차원의입력영상에대해서특징을추출하는일종의템플릿역할을한다. 하나의컨볼루션은부분입력을대상으로하며위치를바꾸어가며여러번반복적으로적용되어전체이미지를스캔한다. 즉하나의컨볼루션은적은수의연결선을가지며위치가바뀌어도그연결가중치가공유된다 (weight sharing). 이는컨볼루션이위치에무관하게특징을추출할수있도록해준다. 하나의컨볼루션에대해서는위치가바뀌어도가중치를공유하는것은학습할전체파라미터의수를줄여줌으로써문제의복잡도를줄여주는핵심아이디어중하나이다. 서브샘플링 (subsampling) 층은만들어진특징맵에대해서공간적해상도를줄인뉴런층이다. 서브샘플링은차원을축소하는과정이며이를통해서역시문제의복잡도를줄일수있다. 서브샘플링연산자로는대상뉴런들에대해서최대치를취하는맥스풀링 (max pooling) 연산자나평균치를취하는평균풀링 (average pooling) 연산자를주로사용한다. 풀링을통해서차원을축소할뿐만아니라특징맵이이동 (shift) 과왜곡 (distortion) 에대해강인하도록하는효과가있다.

Figure 4.2 컨볼루션 (C) 과서브샘플링 (S) 그림 4.3 은컨볼루션의아이디어를설명하고있다. 완전연결층, 지역연결층과비교하여컨볼루션층이어떻게다른지를설명한다. 완전연결층은이웃한층의뉴런간에연결선이존재하는데, 하나의층에있는모든뉴런과이웃한층에있는모든뉴런이연결된다. 즉, 두층의뉴런의수가각각 5 개라고하면두층간에는총 5 x 5 = 25 개의연결선이존재하고 25 개의가중치가존재한다. 이에반해서지역연결층을사용하면상위층의뉴런이하부층에있는일부뉴런에만연결된다 ( 가운데그림 ). 가운데그림을보면, 상위층에있는 5 개의뉴런은아래층에있는 2~3 개의뉴런과만연결이되어있고, 각각 2 + 3+ 3 + 2 = 13 개의연결선을가진다. 각뉴런의연결선들은서로다른가중치를갖는다. 컨볼루션층은 ( 오른쪽그림 ) 부분연결층과같이부분적인연결을가지는것은같으나, 상위층뉴런들이서로가중치를공유한다. 즉, 각상위층에있는뉴런이아래층에있는왼쪽, 중앙, 오른쪽세개의뉴런과연결된다고하면, 상위층에있는 5 개의뉴런은이세개의가중치를공유한다. 따라서연결선은 13 개임에도불구하고가중치는 3 개이다. 이렇게함으로써학습해야할파라미터의수를줄인다. 이러한연결구조를이용하면위치는다르지만비슷한특징을가지는부분을추출할수있기때문에, 입력이미지에서물체가좌우로이동하는것에무관하게특징을추출할수있다. Figure 4.3 완전연결층, 지역연결층, 컨볼루션층의비교

Figure 4.4 LeNet5 의구조 구체적인예로서 LeNet5 의구조를살펴보자 ( 그림 4.4). 이모델은 32 x 32 픽셀이미지를입력으로받아서세번의컨볼류션과두번의서브샘플링을거친후최종적으로완전연결된다층망을통해서출력을결정한다. 컨볼루션은 5 x 5 매트릭스를사용하며서브샘플링은 ½ 로하였다. 전체구조는다음과같이기술될수있는데여기서 Cn 은 n 번째컨볼류션층을나타내며 Sm 은 m 번째서브샘플링층을나타낸다. 입력영상 : 32 x 32 C1: 6 x 28 x 28 S2: 6 x 14 x 14 C3: 16 x 10 x 10 S4: 16 x 5 x 5 C5: 120 F6: 84 출력뉴런수 (RBF): 10 32 x 32 의이미지로부터 5 x 5 의컨볼루션매트릭스를사용해서 28 x 28 특징맵 6 개를구성한다 (C1). C1 에있는각각의 28 x 28 의맵으로부터 ½ 서브샘플링을사용하여 14 x 14 서브샘플링맵 6 개를구성한다 (S2). 다시 5 x 5 의컨볼루션매트릭스를사용해서 10 x 10 특징맵 16 개를구성한후 (C3) 다시 ½ 서브샘플링을사용하여 5 x 5 서브샘플링맵 16 개를구성한다 (S4). 그결과로부터 120 개의컨볼루션을구성하여 (C5) 완전연결망층구조를이용하여 84 개의서브샘플링후 (F6) 최종으로 10 개의방사기저함수 (RBF) 뉴런을통해출력을계산한다. F6 층전의모든뉴런들은시그모이드활성화함수를가지며다음으로정의된다. 여기서 S 와 A 는활성화함수의모양을결정하는파라미터로보통은상수를사용한다. 마지막층에서 CNN 의출력값은다음과같이출력특징지도와영상지도가정해진다. 여기서는출력영상특징값들이고는목표영상특징값들이다. 이렇게설계할때전체연결선수는 187,000 개이다. 이는완전연결된 (28 x 28) x 236 x 10 의구조를가진다층신경망에서의가중치개수 (187,384) 에해당된다. 그러나실제로학습하는가변가중치의수는 14,000 개로서, 이는전체연결선수보다훨씬작다 (10% 이하 ). LeNet CNN 의구조는완전연결다층신경망 (MLP) 보다크지는않다. 그러나실행시간에컨볼루션을수행하는것이시간을 67% 정도차지하기때문에느리다. 위에서기술한 CNN 의경우 3 개의컨볼루션층을사용하므로실행속도는같은크기의 MLP 보다세배정도느리다.

Figure 4.5 완전연결층에서의감독학습 LeNet 형태의초기 CNN 모델은전단의컨볼루션층에서는시그모이드함수를활성함수로사용하고후단의완전연결층에서는가우스함수형태의방사기저함수 (radial basis function, RBF) 을사용하였다. 그러나최근에는활성함수로서정류선형함수 ReLU (rectified linear unit) 뉴런을많이사용한다. ReLU 는오차신호희석문제 (vanishing gradient problem) 를완화할수있는것으로알려져있다. Figure 4.6 ReLU 함수와시그모이드함수의비교 4.2 AlexNet 알렉스넷은딥러닝혁명을이끈초기딥러닝모델중하나로컨볼루션신경망구조를갖는다. 이모델은대규모물체인식콘테스트 (ImageNet LSVRC-2010) 에서 2012 년에우승하였다. LSVRC (Large-Scale Visual Recognition Competition) 대회는 120 만장의영상을 1000 개의클래스로구분하는대회이다. AlexNet 은 top-5 에러율 ( 모델이예측한 5 개의클래스중에정답이포함되지않은경우 ) 17% 를달성하여기존의기록을갱신하였다. 이는딥러닝으로기존의컴퓨터비전기법들을사용한알고리즘들의성능을월등히능가하였다는점에서후속딥러닝연구를촉발한연구결과이다. AlexNet 은총 65 만개의뉴런과 6 천만개의파라미터로이루어져있고, 5 개의컨볼루션층과 3 개의완전연결층으로구성되었으며최상위층은 1000 개의소프트맥스뉴런으로구성되었다. 학습을빠르게하기

위해서 ReLU 뉴런을사용하였으며 GPU 를사용하여컨볼루션연산을수행하였다. 과도학습을방지하기위해서완전연결층에드랍아웃 (dropout) 정규화방법을사용하였다. 이모델을사용하여 ILSVRC-2012 대회에도참가하였으며상위 5 개테스트에러율 15.3% 로최고성능을획득하였다. 이성능은 26.2% 를획득한 2 등보다월등한성과이다. ILSVRC 대회와기계학습분야에서많이사용되는 ImageNet 데이터는 2 만 2 천개의카테고리로구분된 1 천 5 백만여장의고해상도이미지로이루어진대용량데이터집합이다. 이미지는웹에서수집하여아마존미케니컬터크 (AMT) 크라우스소싱도구를이용하여사람들이라벨링을하였다. 2010 년부터 Pascal Visual Object Challenge 의일부로 ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) 대회가개최되었다. ILSVRC 는 1,000 개의카테고리를가지며, 120 만장의훈련이미지와 5 만장의검증이미지, 15 만테스트이미지로구성되어있다. Figure 4.7 ImageNet 데이터 Figure 4.8 AlexNet 의 CNN 신경망구조 AlexNet 의구조를그림 4.8 에기술하였다. 그림에서보인바와같이 AlexNet 은 8 개의가중치층으로구성되어있다. 다섯개의층은컨볼루션층이고나머지세개의층은완전연결층이다. 마지막완전연결층의출력은 1000 개의클래스에대한확률분포를생성하는소프트맥스에입력된다. 소프트맥스함수의출력값을이용하여다항분포로지스틱회귀함수를 (multinomial logistic regression function) 를최대화하도록학습하였다. 제 1 컨볼루션층은 224 224 3 의입력이미지를스트라이드 4 ( 즉커널맵에있는이웃뉴런들의수용영역센터간의픽셀거리가 4) 로떨어진 96 개의커널 ( 각각 11 11 3 크기 ). 제 2 컨볼루션층은제 1 컨볼루션응의출력을입력으로가지며크기 5 5 48 인 256 개의커널을가지고여과한다. 제 3, 4, 5 컨볼루션층은중간에아무런풀링이나표준화층없이

상호연결된다. 제 3 컨볼루션층은 3 3 256 크기의 384 개의커널을가지며제 2 컨볼루션응에연결되었다. 제 4 컨볼루션층은 3 3 192 크기의 384 개의커널, 제 5 컨볼루션층은 3 3 192 크기의 256 개의커널을가진다. 완전연결층은각각 4096 개의뉴런을갖는다. AlexNet 의특징중하나는전체망을두개의 GPU 로분산시켰다는점이다. 한개의 GTX 580 GPU 를사용하면 3GB 의 VRAM 을사용할수있는데 120 만장의훈련이미지를한개의 GPU 로학습하기에는부족하여두대의 GPU 를사용하였다. 두대의 GPU 를사용하기위하여전체망을두개의 GPU 로분산하였는데, 각 GPU 는전체커널수의반을수용하며두개의 GPU 는특정한층에서만서로통신한다. 예를들어, 세번째층의커널들은두번째층의모든커널들로부터입력을받지만, 네번째층의커널입력은같은 GPU 에있는세번째층의커널들로부터만입력을받는다. 망의연결패턴을선택하는것은교차검증 (crossvalidation) 에어려움을주지만이것은수용할만한계산시간의범위내에서통신양을조절할수있게해준다. 각 2 번째, 4 번째, 5 번째의컨볼루션층의커널은같은 GPU 안에있는아래층의커널맵에만연결되어있다. 3 층의커널들은 2 층의모든커널맵에연결되어있다. 완전연결층에있는뉴런들은바로아래층의모든뉴런들과연결되어있다. 1, 2 컨볼루션층은이어서응답표준화층을거친다. 맥스풀링층은응답표준화층과 5 번째컨볼루션층다음에사용되었다. AlexNet 의두번째특징은노드의활성화함수로 ReLU 사용한점이다. ReLU 는포화가되지않는 (non-saturating) 비선형구조를가지며포화되는 (saturating) 시그모이드비선형구조보다여러배빠르게수렴한다. AlexNet 의또다른혁신중의하나는과도학습을방지하기위한정규화방법으로드랍아웃 (dropout) 을도입한것이다. 서로다른모델들의예측을결합함으로써테스트에러를줄일수있는것은잘알려진사실이다. 그러나딥러닝에서는한개의큰신경망만훈련하는데도이미훈련시간이몇일씩걸리는데이를여러개결합하는것은현실적으로쉽지않다. 그러나최대 2 배의시간이걸리면서모델을아주효율적으로결합하는방법이있다. 드랍아웃 (dropout) 이라고불리는이방법은각은닉뉴런의출력을 0.5 의확률로 0 으로만든다. 이렇게 제거된 뉴런은전방패스에기여하지않고또한역전파에도참여하지않는다. 입력이제시될때마다신경망은다른구조를샘플링하며이모든구조들은가중치를공유한다. 이방법은한개의뉴런이특별한다른뉴런에의존하지않도록만들기때문에뉴런들간의복잡한공적응 (co-adaptation) 을줄여준다. 결과적으로뉴런들이다른뉴런들의랜덤부분집합들과함께보다안정적인유용한특징을학습할수있게해준다. 테스트시에는모든뉴런들을사용하나그출력을 0.5 만큼곱한다. 이값은지수적으로많은수의드랍아웃망에의해생성된예측분포의기하평균을취하는것에해당한다. AlexNet 에서는드랍아웃이완전연결신경망에만이용되었다. 드랍아웃없이는과다학습현상을보였다. 그러나드랍아웃을사용함으로써수렴하는데걸린반복횟수는두배로늘어났다. 4.3 DeepFace 최근엄청난수의사진데이터가검색엔진과소셜네트워크를통해서수집되고있다. 이러한데이터는물체, 얼굴, 장면들을담고있는데, 실제사진데이터로부터얼굴과물체를인식하기위해서는물체의변형, clutter, 가림, illumination 등다양한문제들을풀어야한다. 이러한문제에대해서 SVM (support vector machines), PCA (principal component analysis), LDA (linear discriminant analysis) 등기존의기계학습알고리즘으로해결하려는시도가많이있었으나, 학습데이터의수가많을때에는학습이잘되지않는다는단점이있다. 한편기계학습이아닌, 컴퓨터비전분야의연구들은얼굴이나물체를인식하는문제를해결하기위하여얼굴이나물체에대한다양한 descriptor ( 기술자 ) 를찾는연구를해왔다.

이러한 descriptor 는사람이미리고안해두어야하고, 영상의모든위치에같은연산자를사용한다는특징이있다. 하지만최근에는학습을통해 descriptor 를자동으로추출하는방법이많이이용되고있다. 이러한방식은주어진문제에특화된특징들을학습을통해자동으로추출할수있기때문에얼굴이나물체인식문제에서더좋은성능을보이고있다. 딥페이스시스템은대규모딥망을통해서얼굴영상의일반적인표상을학습하는방법이다. 페이스북은 9 층짜리심층신경망을사용하여인간수준의얼굴인식성능을데모하였다. 이심층망은일반 CNN 과는달리노드들이가중치를공유하지않는다는점이특징이다. 이신경망은지역적으로연결된 1 억 2 천만개의노드와파라미터로구성되었다. 이모델의특징은심층망으로학습한특징벡터와정확한모델기반정렬알고리즘을결합하여, 최종분류단계에서간단한분류기를사용하였음에도불구하고일반환경에서뛰어난얼굴인식성능을보였다는점이다. 심층망의학습을위하여 4 천명의사람에대한 4 백만장의얼굴영상이학습데이터로사용되었고야외환경에서모은얼굴데이터셋인 LFW 에대해서 97.35% 의정확도를보였다. 이는최신얼굴인식성능을 27% 향상한것이고인간이보이는성능과거의유사하다. 4.3.1 딥페이스의구조와학습. 그림 2 는딥페이스시스템의전체구조를보여준다. 3 차원으로정렬된 152 x 152 픽셀의 3 채널 (RGB) 얼굴영상이 11x11x3 크기의 32 개필터를가진컨볼루션층 C1 에입력된다. 이를 32x11x11x3@152x152 로표기한다. 이로부터나오는 32 개의특징맵은 2 픽셀간격으로 (stride 2) 3x3 의공간이웃에대해서최대치를취하는맥스풀링층 M2 에입력된다. 이는다시 9x9x16 크기의 16 개필터를갖는컨볼루션층 C3 에입력된다. 이세개의층의목적은모서리 (edge) 와질감 (texture) 과같은저수준의특징들을추출하는것이다. 이세개의층은앞단의적응적인전처리단계로본다. 이층들은대부분의계산에관여하지만파라미터의수는적으며, 입력을단순한지역적특징집합으로단지확장한다. 여기에서사용된맥스풀링층은 CNN 의출력이지역적인변환에덜민감하도록만드는역할을한다. 얼굴영상에대해서는특히이는작은등록에러에대해서더견고하게만든다. 그러나많은층의풀링을사용하면구체적인얼굴구조와정확한위치에대한정보를잃어버린다. 그림 4.7. 딥페이스시스템의구조. 정류입력에대한컨볼루션 - 풀링 - 컨볼루션필터링으로구성된전단과이어서 3 개의지역적연결층과 2 개의완전연결층으로구성되어있다. 딥망은 1 억 2 천만개이상의파라미터를가지며이중 95% 는지역적연결층과완전연결층에속한다. 이어지는세개의층 (L4, L5, L6) 은지역적으로연결되어있다. 컨볼루션층처럼이들은필터뱅크를적용한다. 그러나특징맵의모든위치들이서로다른필터집합을학습한다. 정합된영상의다른지역이다른지역적통계값을가지기때문에컨볼루션이공간적으로불변이라는가정은성립되지않는다. 예를들어, 눈과눈썹사이의영역은매우다른모습을보이며코와입사이의영역과비교하여큰변별능력을갖는다. 딥페이스에서는입력영상들이정합되어있다는사실을이용하여심층신경망의구조를설계하였다. 지역층을

사용하는것은특징추출의계산에는부담을주지않지만학습에참여하는파라미터의수에는영향을준다. 표지된학습데이터셋의크기가아주크기때문에세개의지역연결층을가질수있다. 가중치공유없이지역연결층을사용해도되는이유는지역연결층의출력유닛들각각이입력영상의아주큰팻치에의해영향을받는다는가정하에정당화될수있다. 예를들어, L6 의출력은입력의 74 x 74 x 3 팻치에의해서영향을받으며정합된얼굴에있는큰팻치들간에는통계적인특성의공유가거의없다. 마지막으로제일위의두층은 (F7, F8) 은완전연결되어있다. 세개의층은눈과입의위치와모양과같이얼굴영상의멀리떨어진부분에서추출된특징들간의상관관계를잡아낸다. 첫번째의완전연결층 (F7) 의출력은얼굴표상특징벡터로사용된다. 이것은아주지역적인디스크립터를풀링하는기존의 LBP 기반표상과대조적이다. 마지막완전연결층의출력은 K 개클래스에대한소프트맥스에입력되어클래스표지에대한분포를출력한다. ok 를망의 k 번째출력이라고하면 k 번째클래스에대한소프트맥스함수의출력은다음과 같다. p k = exp (o k ) exp (o h ) h 학습의목표는올바른클래스 ( 얼굴표지 ) 의확률을최대화하는것이다. 이는학습샘플각각에대한교차엔트로피손실을최소화함으로써얻을수있다. K 가진짜표지에대한인덱스일때손실은 L = log pk 가된다. 이손실은 L 의파라미터에대한경사도를 계산하고확률적경사도강하 (SGD) 알고리즘을사용하여파라미터를변경함으로써최소화할수있다. 경사도는표준적인오류역전파알고리즘에의해계산된다. 이망에의해서생성되는특징들의특성중하나는그들이아주 sparse 하다는것이다. 평균적으로최상위층에있는특징요소들의 75% 가 0 에해당한다. 그이유는 RuLU 활성화함수 max(0, x) 를사용하기때문이다. 이소프트역치비선형함수는매컨볼루션후에 ( 국부연결층및완전연결층 ) 적용되며긴체인들이매우비선형적이고희소한 (sparse) 특징을생성하도록한다. 희소성은드랍아웃 (dropout) 이라불리는정규화방법을사용하여보장된다. 딥페이스시스템에서는첫번째의완전연결층에만드랍아웃기법이사용되었다. 영상 I 가주어지면표상 G(I) 는딥신경망에의해계산된다. L 개의층을가진어떤순방향망도함수들 g φ 의결합으로볼수있다. 딥페이스망의경우표상은 G(I) = g {F 7 } (g {L 6 } ( g {C 1 } T(I, θ T ) ) 이고여기서파라미터는 φ = {C1,..., F7} 와 θt = {x2d, P, r} 이다. ReLU 활성화함수를취하기때문에이시스템은영상 intensity 의 recaling 에불변하지않는다. DNN 에편향이있기때문에표준화를통해서완전한동치성은손실하게된다. 그러나표준화는보통분류성능을향상하는데효과적으로알려져있다. 4.3.2 데이터셋. 학습은페이스북의얼굴사진데이터셋인 SFC (Social Face Classification) 로학습하였다. 딥러닝에의해서학습된표상을 LFW (Labeled Faces in the Wild database) 와 YTF (YouTube Faces) 에적용하여성능을평가하였다. LFW 는제약이없는실제환경에서모아진얼굴이미지데이터셋이며, YTF 는 LFW 와유사하나유튜브비디오로부터추출된얼굴사진집합이다. SFC 는 4,030 명으로부터각각 800 내지 1200 개의얼굴사진을찍은총 4 백 4 십만장의표지된얼굴을포함한다. 이중에서 5% 는테스트를위해서사용하였다.

LFW 데이터셋은 5,749 명의연예인의웹사진 13,323 개로구성되어있다. 10 개의군으로나누어각각 6,000 개의얼굴의쌍으로구성되어있다. 성능은인식정확도를측정하였으며세가지다른방법의프로토콜을사용하였다. 첫번째로, 제한된프로토콜에서는훈련데이터가단지같은얼굴인지다른얼굴인지에대한표지만포함하고있다. 두번째의비제한프로토콜에서는훈련시추가의훈련쌍을사용하였다. 세번째의무감독세팅에서는 LFW 이미지에대해서아무런훈련을사용하지않았다. YTF 데이터셋은 1,595 명의연예인 (LFW 의부분집합 ) 의 3,425 개의유튜브동영상의집합이다. 5,000 개의비디오쌍으로구성된 10 개의그룹으로구성되어있다. SFC 의표지는사람이하였으며 3% 의오류가있다. 페이스북얼굴사진은보통스마트폰보다는전문사진작가에의해촬영되었으며영상의질, 조명등에많은변화가있다. 4.3.2 학습방법및결과 SFC 데이터를학습한방법은다음과같다. 다중클래스분류문제로보고오류역전차알고리즘을사용하여확률구배법 (stochastic gradient descent, SGD) 으로전방향딥신경망을학습시켰다. GPU 를사용하였으며모멘텀상수는 0.9 를사용하였다. 미니배치크기는 128 을사용하였으며모든층에대해서학습률은 0.01 로모두같은것을적용하였고검증에러가줄때마다수동적으로학습률을 0.0001 까지줄였다. 각층의연결가중치를평균값 0, 표준편차 0.01 의가우스분포로초기화했으며편향값은 0.5 로하였다. 전체데이터집합을약 15 번반복학습했으며이는 3 일이걸렸다. 학습된딥러닝구조의완전연결층 F7 을추출하여얼굴표상으로사용하였다. 다양한구조의심층신경망에대해평가하기위하여 SFC 테스트데이터에대해서평가하였다. 먼저, SFC 의부분집합을사용하여훈련 / 테스트데이터집합의크기를다양하게변경하였다. 1.5K, 3K, 4K 명의사람 ( 얼굴사진 ) 을사용하여 DF-1.5K, DF-3.3K, DF- 4.4K 의세가지딥구조를실험하였을때오분류율이 1.5K 데이터에서 7.0% 로부터 3K 데이터에서 7.2% 로다소커지는것이확인되었다. 이는이딥구조의메모리능력이 3K 데이터를수용할수있음을시사한다. 오분류율은 4K 명의 4.4K 이미지에대해서 8.7% 로커졌으며이는더많은수의사람을포함해도에러는크게증가되지않는것으로해석될수있다. 이후사람수는고정시킨후에샘플의수만 10%, 20%, 50% 로증가시킨실험결과에서는작은훈련셋에대해서과도학습됨에따라서테스트에러가 20.7% 증가하는것을관찰할수있았다. 4 백만개의영상에대해서도성능이포화되지않았으며이딥구조는더큰데이터셋을사용함으로써더욱더성능을향상할수있음을암시한다. 망의깊이를변경하여서도실험하였다. 각각의 C3 층, L4 층, L5 층또는이모든세개의층을제거하여깊이를줄여보았다. 이러한더얕은신경망을 4.4M 의데이터셋에학습했을때오분류율이심층신경망보다더이상줄지않는것을관측할수있었다. 이는아주큰얼굴인식데이터에대해서는깊은신경망구조가필요함을의미한다. 4.5 GooLeNet 4.5.1 GooLeNet 구조구글넷은 22 층짜리컨볼루션신경망으로인셉션모듈이라는빌딩블록을반복적으로사용한다. 이는 ILSVRC 2014 의물체분류와물체검출과제에서신기록을갱신하였다. 일반적으로딥러닝은층의수와각층에포함되는노드의수를증가시킬수록성능이향상된다. 하지만컴퓨팅파워와기억용량의한계때문에무조건큰신경망을구성할수없다. 예를들어, 시각처리를위한깊은컨볼루션신경망의경우두개의층이컨볼루션연산으로연결될때필터의수를균일하게증가할경우계산량은제곱으로증가한다. 또한큰크기의망은더많은수의파라미터를요구하기때문에과다학습될가능성이커진다.

구글넷구조의핵심은제한된계산자원을최대한이용할수있는신경망을만드는것이다. 구조를잘설계함으로써제한된자원내에서망의깊이와폭을증가시킬수있도록하였다. 이를위한인셉션모듈의핵심아이디어는컨볼루션신경망의최적인지역적희소구조를찾아내고이를사용가능한자원으로근사해내는것이다. translation invariance 를컨볼루션모듈을조합하여근사하는방법을예를들어생각해보자. Arora et al. [2] 는아래층을분석하여상관관계가높은노드들을군집화하는방식으로층을쌓는방법을제안하였다. 아래층의각노드들은입력영상의특정한영역에대응되며상관관계가높은노드들은상위층에서군집을형성하여필터뱅크가된다. 즉아래쪽층에서상관관계가큰노드들이상위층에서비슷한지역이위치하게되고이들은다음층에서 1 1 컨볼루션층에사용될수있다. 이때더큰패치에대해서컨볼루션연산을하게되면더적은수의클러스터로도더넓은지역을커버할수도있다. 그러나가장적합한패치의크기를미리아는것이어려운문제이기때문에, 현재인셉션모듈은필터의크기를 1 1, 3 3, 5 5 의세가지로제한한다. 이세가지크기의출력필터뱅크들을모두연결하여하나의출력벡터를구성하고이는다음층의입력을형성한다. 한편, 풀링연산이현재 CNN 의성공에중요한것으로여겨지기때문에각단계에서다른병렬풀링경로를더해주는것이유용하다고알려져있다 ( 그림 4.8). 그림 4.8. GoogLeNet 의구조. 인셉션모듈중심의다층구조로구성되었다. 인셉션모듈은다른모듈의위에쌓이게되는데, 이때출력상관통계가변하게된다. 일반적으로상위층으로갈수록고차의추상적인특징들이추출되어그공간적인밀집도가줄어들기때문에상위층으로갈수록 3 3, 5 5 컨볼루션의비율은적어져야할것이다. 한가지큰문제는작은수인 5 5 컨볼루션조차도아주많은수의필터에대해서컨볼루션층을구성할때는너무경비가많이든다는것이다. 이문제는풀링노드들이여기에추가되면더욱심각해지는데이는출력필터의갯수가아래층의필터의수와같기때문이다. 풀링층출력을컨볼루션층의출력과결합하면단계별로출력의수가증가할수밖에없다. 이구조는최적의희소구조를구성할수있지만, 몇개의층만되어도계산시간이폭증하게되어서비효율적이다. 이로인해인셉션구조의두번째아이디어가필요한데, 계산량이크게증가하게되면차원을줄이는것이다. 이는임베딩 (embedding) 의이점을활용하는것인데, 실제로고차원의데이터가저차원의공간으로잘임베딩이된다면차원이작더라도상대적으로많은정보를포함할수있다. 그러나고밀도압축형태로정보를표상하고압축된정보를처리하는것이어려운작업이기때문에꼭결합될필요가있을때에만신호들을압축해야한다. 따라서구글넷에서는비용이더큰 3 3, 5 5 컨볼루션을사용하기전에 1 1 컨볼루션을사용하여차원축소계산을수행한다. 이때 1 1 컨볼루션은정류선형활성화함수를사용하는 ReLU 뉴런을사용한다. 구글넷은위의모듈들이적층된망으로, 입력해상도를반으로줄이기위해서간격이 2 인맥스풀링을하는층을곳곳에추가한다. 또한아래층에서는전통적인컨볼루션을사용하고위층에서만인셉션모듈들을사용하는것이더효과적이라고보고되었다. 결과적으로구글넷구조의핵심은상위층에서의계산복잡도를줄이면서각층의노드수를증가시키는것인데, 큰크기의패치를사용하여계산량이많은컨볼루션을하기전에차원축소를사용함으로써

이를구현한다. 뿐만아니라, 이러한설계는다양한스케일에서처리된시각정보들의특징들을동시에결합하는것이좋다는실용적인직관을따르는것이다. 이러한측면에서구글넷의구조는성능에약간의손해를보면서계산비용을줄이는방법으로도볼수있다. 구조를잘설계한다면 3-10 배의속도를향상하면서도유사한성능을도달할수있다는것이알려져있다. 4.5.2 GooLeNet 학습 구글넷의깊이는파라미터층만고려하면 22 층이고풀링까지고려한다면 27 층이다. 구글넷을구성하는전체층의수는약 100 층이지만정확한층의수는머신러닝시스템에서층을어떻게정의하느냐에따라다르다. 많은층으로구성된깊은신경망에서기울기정보 ( 변화율벡터, gradient) 을모든층을통해서전파하는능력이항상문제가되었다. 실제로신경망의중간층에서생성된특징들이매우변별력이있다는연구결과가많이보고되었다. 이것은중간층에보조분류기를추가함으로써분류기의아랫단에서의패턴분류가가능함을시사한다. 구글넷에서는인셉션모듈의출력위에작은컨볼루션망을추가하여보조분류기아이디어를적용하였다. 훈련시에각각의보조분류기에서계산되는손실값이구글넷전체손실값에 (0.3 의할인가중치를곱해서 ) 더해진다. 추론시에는이보조망은사용되지않는다. 보조분류기를포함해서옆에붙은추가망의구체적인구조는다음과같다. 필터크기와간격의평균풀링층을사용하여 4 4 512 의 (4a) 층출력과 4 4 528 의 (4d) 염탐층 (stag) 1,024 개의수정선형 (ReLU) 뉴런으로구성된완전연결층 70% 비율로소거된출력을갖는드랍아웃층 소프트맥스손실치를갖는선형층의분류기 ( 주분류기와같은 1000 개의분류를예측하나추론시에는사용되지않음 ) 실제로구글넷을학습할때에는모델과데이터병렬성을이용하는 DistBelief 분산학습시스템을이용하였다. 학습에는비동기확률적기울기하강알고리즘을사용하였으며 0.9 의모멘텀요소와고정된학습률 ( 매 8 번학습주기마다 4% 씩학습률을줄임 ) 을사용하였다. 4.5.3 데이터및결과 구글넷은 ILSVRC 2014 데이터셋에대해당시최고성능을보였던알렉스넷 (AlexNet) 에비해 12 배적은수의파라미터를사용하면서도더높은정확도를획득하였다. 이대회에서구글넷은독립적으로 7 가지의버전을훈련시킨후이를앙상블하여결과를예측하였다. 각모델은단지샘플링방법과입력이미지의순서만달랐으며가중치초기화나학습률정책등은모두동일하였다. 최종결과는상위 5 위오류가검증데이터와테스트데이터에대해서 6.67% 였으며참가팀중에서 1 등을하였다. 이는 2012 년의 SuperVision 방법에비해서성능을상대적으로 56.5% 향상한것이며, 직전해의우승팀인 Clarifai 에비해서 40% 상대적인성능향상을가져온것이다. 참고문헌

. [10] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backprop- agation applied to handwritten zip code recognition. Neural Comput., 1(4):541 551, Dec. 1989.. Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recog- nition. Proceedings of the IEEE, 86(11):2278 2324, 1998.. A. Krizhevsky, I. Sutskever, and G. Hinton. Im- agenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106 1114, 2012.. G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature de- tectors. CoRR, abs/1207.0580, 2012.