Journal of the Korean Data & Information Science Society 2017, 28(6), 1217 1227 http://dx.doi.org/10.7465/jkdi.2017.28.6.1217 한국데이터정보과학회지 딥러닝모형의복잡도에관한연구 김동하 1 백규승 2 김용대 3 123 서울대학교 통계학과 접수 2017년 10월 31일, 수정 2017년 11월 22일, 게재확정 2017년 11월 23일 요약 딥러닝은 영상 인식, 음성 인식 등 기존의 머신 러닝 기법들로 해결이 어려웠던 분야에서 매우 우 수한 성능을 보였고, 그로 인해 딥러닝의 폭발적인 연구의 증가가 있었다. 좋은 성능을 보이는 모형 및 모수 추정 방법에 대한 연구들이 주를 이루고 있는 현 흐름 속에서 딥러닝의 이론적인 연구 또한 조심스럽게 진행되고 있다. 본 논문에서는 딥러닝의 성공을 딥러닝 함수가 복잡한 함수를 효율적으로 잘 표현할 수 있음에서 해답을 찾고, 이에 관련된 이론적인 연구들을 조사하여 분석하고자 한다. 주요용어: 딥러닝, 복잡도, 선형 영역, 심층 신경망 함수, 함수 궤적, 함수 전이. 1. 서론 딥러닝은 동물과 인간의 뉴런 구조를 모사한 심층 인공 신경망 모형 (deep neural network model; Larochelle 등, 2007)을 응용하여 만든 모형 및 이를 학습하기 위한 알고리즘을 총칭한다. 딥러닝은 특 히 예전까지 좋은 성능을 내지 못했던 분야들 (사진 인식, 음성 인식, 비디오 인식 및 자연어 처리)에 서 압도적인 성능을 보이고 있다 (Hochreiter와 Schmidhuber, 1997; Krizhevsky 등, 2012; Sutskever 등, 2014; Chung 등, 2008; Ioffe와 Szegedy, 2015; He 등, 2016). 다양하고 복잡한 모형들(Krizhevsky 등, 2012)과 다양한 학습 알고리즘의 개발 (Kingma와 Ba, 2014), 데이터 규모의 증가, 그리고 다중 GPU (graphics processing units)의 사용 (Krizhevsky 등, 2012) 등으로 인해 딥러닝은 급격한 성장 을 이루게 되었고, 그 결과 딥러닝을 이용한 인공지능 프로그램인 AlphaGo (Silver 등, 2016; Silver 등, 2017)는 지금까지 인공지능에게 금단의 구역이라 여겨지던 바둑에서 인간 프로기사를 압도적으로 이기 는 상황에 오게 되었다. 또한 의료 보건 서비스, 금융 시장 등 사회 전반적인 분야에 딥러닝 모형을 적용 하여 좋은 성과를 거두고 있다 (Lee 등, 2015; Lee와 Chun, 2016; Lee, 2017; Miotto 등, 2017). 대부분의 딥러닝에 관한 연구들은 뛰어난 성능을 보이도록 하는 모형 또는 기법, 그리고 좋은 추정량 을 제공해주는 학습 방법들에 대한 제안이 주를 이루고 있다. 딥러닝 연구의 시발점은 2006년 G. E. Hinton이 제한된 볼츠만 기계 (restricted Boltzmann machine; Smolensky, 1986)를 이용하여 심층 신 경망 모수의 초기값을 설정해주는 pre-training 방법이며, 이를 통해 과거에 비해 좋은 추정량을 얻을 수 있게 되었다 (Hinton 등, 2006; Hinton과 Salakhutdinov, 2006). 딥러닝의 한 요소인 활성 함수에 대 한 연구도 활발히 진행되었는데 2010년에 제안된 ReLU (rectified linear unit; Nair와 Hinton, 2010)가 이 논문은 삼성미래기술육성재단의 지원을 받아 수행된 연구임. (과제번호 SSTF-BA1601-02). 1 (08826) 서울시 관악구 관악로 1, 서울대학교 통계학과, 박사과정. 2 (08826) 서울시 관악구 관악로 1, 서울대학교 통계학과, 박사과정. 3 교신저자: (08826) 서울시 관악구 관악로 1, 서울대학교 통계학과, 교수. E-mail: ydkim0903@gmail.com
1218 Dongha Kim Gyuseung Baek Yongdai Kim 대표적이다. 이후에는 ReLU를 응용하여 LeakyReLU (Maas 등, 2013), PReLU (He 등, 2015), ELU (Clevert 등, 2015) 등 많은 활성 함수가 제안되었다. 딥러닝은 많은 모수를 사용하기 때문에 과적합될 가능성이 높다. 따라서 과적합을 방지하기 위한 다 양한 정규화 (regularization) 방법 또한 연구되었는데 2012년에 발표된 은닉 노드들의 상관관계를 줄여 주는 drop-out (Hinton 등, 2012)과 각 은닉 노드들의 분포를 일관성있게 바꾸어 좋은 추정값을 얻을 수 있도록 해주는 batch-normalization algorithm (Ioffe와 Szegedy, 2015)이 대표적이다. 또한 모수를 효율적으로 빠르게 추정하는 그래디언트 기반의 알고리즘 또한 다양하게 개발되었는데, 대표적인 알고 리즘으로는 RMSProp (Tieleman과 Hinton, 2012), Adadelta (Zeiler, 2012), Adam (Kingma와 Ba, 2014) 등이 있다. 위에서 언급한 여러 연구들을 이용하여 GoogLeNet (Szegedy 등, 2015), ResNet (He 등, 2016), WaveNet (Oord 등, 2016) 등 다양한 모형들이 개발되었고, 사진 인식, 음성 인식 등 인공지 능 분야에서 월등한 성능을 보이고 있다. 이러한 딥러닝 모형의 성공과 더불어 딥러닝 모형이 어떻게 잘 작동하는지, 다른 방법론들에 비해 왜 뛰어난 성능을 가지는지에 대한 이론적 연구 또한 조심스럽게 진행되고 있다. 최초로 인공 신경망 모형 의 이론적인 특성을 밝힌 논문은 Hornik 등 (1989)과 Cybenko (1989)의 연구로, 단층 인공 신경망 모 형이 임의의 연속 함수를 원하는 정밀도로 근사할 수 있음을 수학적으로 증명하였다. 최근에 발표된 대 부분의 연구들은 한 개의 은닉층을 갖는 단층 인공 신경망 모형 (shallow neural network)과 여러개의 은닉층을 갖는 심층 인공 신경망 모형 (deep neural network)를 비교하는 것을 목표로 하였다. 한 예로 Eldan과 Shamir (2016)는 단층 인공 신경망으로 심층 인공 신경망을 근사하기 어렵다는 것을 예제를 통해 보였다. 또한, 다양한 측도를 이용하여 심층 인공 신경망 모형이 단층 인공 신경망 모형에 비해 높은 복잡 도 (complexity)를 갖는다는 사실을 이론적으로 밝히기도 하였는데 Pascanu 등 (2013)과 Montufar (2014)는 모형의 복잡도를 나타내는 측도로써 함수가 가지는 선형 영역의 수를 이용하였다. 이 복잡도 를 이용하여 같은 개수의 노드를 갖고 있더라도 은닉층의 개수가 커질수록 함수의 복잡도가 증가한다는 사실을 수학적으로 증명하였다. 또한 Raghu 등 (2016)은 선형 영역의 수 뿐만 아니라 더 나아가서 입 력 변수가 움직이면서 만들어내는 함수의 궤적의 길이를 복잡도의 측도로 제안하였다. 이 복잡도를 이 용해서 다양한 모수에서 함수의 복잡도가 은닉층의 개수에 따라 지수적으로 증가한다는 사실을 보였다. 본 논문에서는 선형 영역의 수와 함수 궤적의 길이를 이용하여 단층 인공 신경망 모형과 심층 인공 신경 망 모형의 복잡도를 비교하는 이론 연구들에 대해 자세히 살펴보고자 한다. 본 논문의 구성은 다음과 같다. 2장에서는 인공 신경망 모형에 대해 간단한 언급을 한다. 3장에서는 인공 신경망 모형의 복잡도를 나타내는 두가지의 측도에 대해 설명하고, 이 측도를 사용했을 때 알 수 있는 이론적인 결과에 대해 설명한다. 4장에서는 3장에서 소개한 다양한 복잡도를 실제로 측정하여 이 론적인 결과와 비교해보고, 마지막으로 5장에서 결론을 맺는다. 2. 신경망모형 인공 신경망 모형 (artificial neural network)은 기계 학습에서 연구하는 분야 중 하나로, 동물의 뇌 구조를 모방하여 만든 수학적 모형이다. 사용하고자 하는 목적에 따라 컨볼루션 신경망 모형 (convolutional neural network; LeCun 등, 1998), 순환 신경망 모형 (recurrent neural network; Mikolov 등, 2010) 등이 있지만 본 논문에서는 가장 간단한 형태인 완전 연결된 인공 신경망 모형 (fully connected neural network; Larochelle 등, 2007)만을 고려하도록 한다. m차원의 벡터 x를 입력 변수로 하는 임의의 인공 신경망 모형을 A라 하고, A 모형의 구조를 갖는 인공 신경망 예측 함수를 F A(x; W, b)라 하자. 이 때 (W, b)는 함수에 필요한 모수를 의미한다. 인공
A study on complexity of deep learning model 1219 신경망 모형 중에서 k차원의 은닉층 n개를 갖는 완전 연결된 인공 신경망 모형을 A n,k 라 하자. 이 때 n = 1인 인공 신경망 모형을 단층 인공 신경망 모형이라 하고, n > 1인 인공 신경망 모형을 심층 인공 신경망 모형이라 한다. A n,k 모형의 구조를 갖는 인공 신경망 예측 함수는 F An,k (x; W, b)라 표현할 수 있으며, 이를 수식으로 나타내면 다음과 같다: h (0) = x z (l+1) = W (l) h (l) + b (l), l = 0,..., n 1 ( h (l+1) = σ z (l+1)), l = 0,..., n 1 F An,k (x; W, b) = W (n) h (n) + b (n). 이 때 σ( )는 활성 함수 (activation function)라 불리우며, 선형 변환을 통해 계산된 값에 비선형성 을 갖도록 하는 역할을 한다. 많이 사용하는 함수로는 시그모이드 함수, 탄젠트의 역함수, ReLU 함 수, hard tanh 함수 등이 있고, 앞으로 전개될 내용에 대해서는 특별한 언급이 없으면 ReLU 함수 (ReLU(x) = max(0, x))를 활성 함수로 사용하는 것으로 가정한다. 또한 위 식에서 나타나는 h (l) 의 원소 하나하나를 노드라고 부르도록 한다. 앞으로 전개될 이론에 대해서 예측 모형의 출력 변수의 차원 의 수는 중요하지 않으므로 편의상 1차원이라 정한다 (i.e. F A( ; W, b) : R m R). 3. 신경망모형의복잡도 3.1. 선형영역의수를이용한복잡도 인공 신경망 모형 A 구조를 갖는 예측 함수 F A(x; W, b)의 형태를 생각해보자. 많은 모수들로 이루어 져있는 복잡한 함수이지만 결국 F A(x; W, b)는 입력 변수 x에 대한 부분 선형 (piecewise linear) 함수라 는 것을 파악할 수 있다 (아래의 Figure 3.1에서 인공 신경망 예측 함수가 어떤 형태를 띠고 있는지 확 인할 수 있다.). 즉, 주어진 모형 A와 모수 W, b에 대해서 예측 함수 F A(x; W, b)를 다음과 같이 쓸 수 있다: F A(x; W, b) = R(A;W,b) p=1 (α p + x T β p) I(x R p). 위의 식에서 R p는 같은 선형식 α p + x T β p을 같는 정의역 내의 가장 큰 연결 집합으로, 선형 영역 (linear region)이라고 불린다. 그리고 R(A; W, b)는 예측 함수 F A(x; W, b)가 가지는 선형 영역의 개수 를 의미한다. 이 식을 통해 인공 신경망 함수는 연속적으로 이어져 있는 선형 함수들로 구성되어 있음 을 알 수 있으며, 따라서 선형 영역의 개수가 많으면 많을수록 주어진 인공 신경망 함수가 복잡한 형태 를 띠고 있다고 생각할 수 있다. 또한 선형 함수의 개수는 선형 영역의 개수와 일치한다는 사실을 알 수 있다. Pascanu 등 (2013)는 주어진 인공 신경망 모형 A n,k 가 가질 수 있는 선형 영역의 개수를 처음으 로 연구하였으며 신경망 구조를 이루고 있는 노드의 총 숫자가 같더라도 은닉층의 개수가 많아질수록 심 층 인공 신경망 모형이 단층 인공 신경망 모형보다 훨씬 더 많은 수의 선형 영역을 가질 수 있음을 수학 적으로 증명하였다. 구조 A n,k 를 갖는 인공 신경망 함수가 가질 수 있는 선형 영역의 개수의 최대값을 R(A n,k )라 정의하자 (i.e. R(A n,k ) = max W,b R(A n,k ; W, b)). 이 때 단층 인공 신경망 모형과 심층 인 공 신경망 모형에 대해서 아래의 정리들이 성립한다.
1220 Dongha Kim Gyuseung Baek Yongdai Kim Figure 3.1 Example of an artificial neural network prediction function 정리 3.1 (Proposition 1 of Pascanu 등 (2013)) n k개의 노드를 갖는 단층 인공 신경망 모형 A 1,nk 를 생각하자. 이 때 모형 A 1,nk 가 가질 수 있는 선형 영역의 개수에 대해서 다음의 식이 성립한다: ( ) m nk R(A 1,nk ) = = O (n m k m ). j j=1 (여기서 f(x) = O(g(x))는 모든 x x 0에 대해서 f(x) C g(x) 가 성립하는 실수 x 0와 양수 C가 존재한다는 의미이다.) 정리 3.2 (Theorem 1 of Pascanu 등 (2013)) n개의 은닉층을 가지며, 각 층마다 k개의 노드로 이루어 져 있는 심층 인공 신경망 모형 A n,k 을 생각하자. 이 때 모형 A n,k 가 가질 수 있는 선형 영역의 개수에 대해서 다음과 같은 식이 성립한다 (n m이라 가정한다.): ( ) n 1 m ( ) k k R(A n,k ) m j j=0 ( ) n 1 k = Ω k m. m (여기서 f(x) = Ω(g(x))는 모든 x x 0에 대해서 f(x) c g(x) 가 성립하는 실수 x 0와 양수 c가 존 재한다는 의미이다.) Montufar 등 (2014)는 위에서 언급한 Pascanu 등 (2013)의 정리 3.2를 발전시켜서 심층 신경망 모형 에서의 더욱 큰 R(A n,k )를 만들 수 있음을 증명하였다. 정리 3.3 (Theorem 4 of Montufar 등 (2014)) Theorem 2와 같은 가정을 만족할 때 다음과 같은 식이 성립한다: R(A n,k ) ( ) m(n 1) m ( ) k k m j j=0 ( ) m(n 1) k = Ω k m. m
A study on complexity of deep learning model 1221 입력 변수의 차원 m과 각 은닉층마다의 노드의 개수 k가 고정되어 있다고 가정하자. 정리 3.1에 의 해서 단층 인공 신경망 모형이 가질 수 있는 선형 영역의 최대 개수는 은닉층의 개수 n에 대해서 다항식 의 증가세를 가지고 있음을 알 수 있다. 이와 대비하여 정리 3.2와 정리 3.3에 의해서 알 수 있듯이 심층 인공 신경망 모형이 가질 수 있는 선형 영역의 최대 개수는 은닉층의 개수 n에 대한 지수함수의 증가세 를 가진다. 특히 k 2m을 만족한다면, 은닉층의 개수 n이 커질수록 단층 인공 신경망에 비해서 심층 인공 신경망이 더욱 많은 선형 영역을 가질 수 있을 것이다. 이 사실은 주어진 인공 신경망 모형이 가질 수 있는 선형 영역의 수의 최대값을 모형의 복잡도의 측도로 사용할 때, 충분히 큰 n에 대해서 심층 인 공 신경망 모형이 단층 인공 신경망 모형보다 높은 복잡도를 가짐을 의미한다. 위에서 언급한 3개의 정리들로부터 주어진 인공 신경망 모형 A에 대해서 R(A)를 인공 신경망 모형 A에 대한 복잡도를 나타내는 측도로 사용할 때, 구조 전체의 노드의 수가 동일하더라도 은닉층의 개수 가 커질수록 심층 인공 신경망 모형이 단층 인공 신경망 모형에 비해 더 높은 복잡도를 가짐을 알 수 있 었다. 하지만 R(A)는 정의 그대로 선형 영역의 개수의 최대값이기 때문에 훈련 자료를 통해 학습한 모 수 Ŵ, ˆb로부터 얻을 수 있는 예측 함수 F A(x; Ŵ, ˆb)의 선형 영역의 수 R(A; Ŵ, ˆb)와는 큰 차이가 있을 수 있다 (i.e. R(A) >> R(A; Ŵ, ˆb)). 따라서 R(A)를 이용한 복잡도는 주어진 인공 신경망 모형 A의 일반적인 함수들을 대표하는 복잡도라고 보기는 어렵다는 한계가 있다. 3.2. 함수의궤적의길이를이용한복잡도 함수의 복잡도를 측정하는 또 다른 방법으로 정의역 내에서 곡선 (trajectory)을 따라 움직일 때 함수 가 어떻게 변화하는지를 살펴볼 수 있다. x가 동일한 곡선을 따라 움직일 때 지나가는 선형 영역의 수가 많을수록 더 복잡한 함수라고 말할 수 있다. 이는 3.1절에서 살펴본 선형 영역의 개수를 세는 방법과 유 사한 방식으로 복잡도를 측정하는 것이라고 볼 수 있으나, 탐색 영역을 정의역 전체 (R m )에서 일차원으 로 매개화된 곡선으로 축소해서 측정하는 방식으로 받아들일 수 있다. Raghu 등 (2016)은 은닉층의 개 수가 많을 수록 한 곡선이 지나는 선형 영역의 개수가 지수적으로 증가한다는 사실을 보였으며, 매 은닉 층을 지날 때 마다 변화하는 곡선의 길이를 이용해서 곡선이 지나는 선형 영역의 개수를 측정할 수 있음 을 보였다. 또한 이러한 신경망 모형의 복잡도가 모수 (W, b)의 선택과는 무관하다는 것을 밝혔다. 본 내용에 들어가기에 앞서 필요한 개념들에 대한 정의를 하겠다. 정의역 내의 곡선은 일차원 변수 로 매개화된 정의역의 부분집합으로, x( ) : [0, 1] R m 으로 표기하겠다 (예: 정의역 내의 임의의 두 점 x 0, x 1 R m 을 잇는 선분 x(t) = x 0 + t(x 1 x 0), t [0, 1]). 가능한 곡선의 종류는 가장 단순 한 형태인 선분부터 원호 등 다양한 형태가 있지만, 여기에서는 일반적인 곡선에 대해서 다룰 것이다. 주어진 신경망 모형 함수에 대해서, 정의역 내의 곡선 x( )은 매개변수에 따라 서로 다른 선형 영역에 포함될 수 있다. 매개변수가 변화함에 따라 곡선위의 점이 속하는 선형 영역이 변화하는 순간을 전이 (transition)가 일어났다고 정의한다. 신경망 모형 A와 모수 (W, b)에 대해서 곡선 x( )가 전이를 일으 키는 횟수를 T (F A(x( ); W, b))로 표현하겠다. 전이 횟수 T 는 곡선 x( )의 복잡도에 영향을 받을 수 있 으나, 고정된 곡선에 대해서는 모형 A와 모수 (W, b)가 예측 함수 F 를 복잡하게 만들수록 큰 값을 갖게 될 것이다. 전이 횟수를 이용해서 너비가 k인 n개의 은닉층을 갖고 있는 완전 연결된 인공 신경망 모형 A n,k 의 복잡도에 대해서 알아보고자 한다. 특정 모수가 아닌 다양한 모수 (W, b)에 대해서 모형 A n,k 의 복잡성 을 알아보기 위해서, 모든 가중치 W 는 N (0, σw/k)에서, 2 모든 절편항 b는 N (0, σb 2 )에서 임의로 추출되 었다고 가정하였다. 이 때 다음과 같은 정리가 성립한다.
1222 Dongha Kim Gyuseung Baek Yongdai Kim 정리 3.4 (Theorem 4 of Raghu 등 (2016)) 활성함수로 hard tanh 함수 (hard tanh(x) = min{1, max{x, 1}})를 사용할 때 임의의 곡선 x( )에 대해서 인공 신경망 모형 A n,k 의 전이 횟수 T (F An,k (x( ); W, b))는 다음 과 같은 식을 만족한다. [ E W,b T (FAn,k (x( ); W, b)) ] ( ) n k = O 1 + σb 2/σ2 w T 가 함수의 복잡도를 나타낸다는 사실로 미루어 볼 때, 위 정리는 신경망 모형의 복잡도가 은닉층의 너비 k보다는 은닉층의 개수 n에 많은 영향을 받는다는 것을 시사한다. 은닉층의 너비 k에 대해서는 다 항함수의 증가세를 보여주지만 은닉층의 개수 n에 대해서는 T 가 지수적으로 증가하는 것을 알 수 있다. 흥미롭게도, 정리 3.4의 결과는 곡선의 길이와도 밀접한 연관을 갖는 것을 확인할 수 있었다. 임의의 곡선의 길이 l(x( ))는 다음과 같이 계산할 수 있다. l(x( )) = 1 0 dx(t) dt dt (3.1) 곡선 x( )과 신경망 예측 함수 F A( ; W, b)의 합성함수 F A(x( ); W, b) : [0, 1] R은 일차원 변수로 매 개화된 치역의 부분집합으로 바라볼 수 있으므로 치역 내의 곡선이라고 할 수 있다. 이를 이미지 곡선이 라고 하자. 마찬가지로 신경망 모형 A n,k 에 대해서 d (d n)번째 은닉층의 사전활성값 z (d) (x( )) 또한 R k 상의 곡선으로 생각할 수 있으며, 식 3.1를 이용해서 길이를 측정할 수 있다. 정리 3.5 (Theorem 3 of Raghu 등 (2016)) 신경망 모형 A n,k 에 대해 예측 함수 F An,k ( ; W, b)에 대해 모든 가중치 W 는 N (0, σ 2 w/k)에서, 모든 절편항 b는 N (0, σ 2 b )에서 임의로 추출되었다고 가정하자. 임 의의 곡선 x( )에 대해 신경망 모형 A n,k 의 d(d n)번째 은닉층의 사전활성값 z (d) (x( ))의 길이는 다 음 부등식을 만족한다. ] E (W,b) [l(z (d) ( )) ( Ω σ w k k + 1 ) d l(x( )) Ω σ w k σw 2 + σb 2 + k σw 2 + σb 2 d l(x( )) (ReLU) (hard tanh) (3.2) d = n인 경우에는 F An,k (x( ); W, b) = z (d) (x( ))가 성립하게 된다. d = n인 경우에 집중해서 정리 3.5를 살펴본다면 이 정리는 정의역에서의 곡선 x( )이 예측 함수 F An,k ( ; W, b)를 거치면서 길이가 증 ] 가하는 정도를 식으로 표현했다고 할 수 있다. 이러한 관점에서 E (W,b) [l(z (d) (x( ))) /l(x( ))을 이미지 곡선의 길이의 증가율이라고 할 수 있다. 정리 3.5의 결과는 정리 3.4의 결과와 매우 밀접하다. 이미 지 곡선의 길이의 증가율이 은닉층의 개수에 지수적으로 비례한다는 점은 전이 횟수가 은닉층의 개수에 지수적으로 비례한다는 정리 3.4의 결과와 유사하다. 무엇보다 중요한 것은 식 3.2에서 활성화 함수로 hard tanh함수를 사용했을 때의 결과이다. 만일 가중치의 분산 σ w가 절편항의 분산 σ b 보다 매우 크다 면 정리 3.5에서 밝힌 이미지 곡선의 길이의 증가율의 하계와 전이 횟수의 차수 (order)가 일치하게 된 다. 따라서 이미지 곡선의 길이의 증가율을 인공 신경망 모형의 복잡성을 설명하는 측도로써 사용할 수 있는 것이다.
A study on complexity of deep learning model 1223 정리 3.4와 정리 3.5를 통해 인공 신경망 모형의 복잡도에는 은닉층의 개수가 중요한 영향을 끼친다 는 사실을 알 수 있었다. 주어진 곡선을 따라 움직일 때 인공 신경망 모형의 예측 함수가 어떻게 변하는 지 살펴보는 것은 선형 영역의 개수를 세는 것과 동일한 철학을 공유하는 방법이지만 문제를 단순화함으 로써 좀 더 수학적인 접근을 가능케 하였다. 정리 3.4의 결과 인공 신경망 모형의 전이 횟수를 복잡도의 측도로 이용할 경우에 복잡도는 은닉층의 개수에 대해 지수적으로 증가한다는 사실을 확인할 수 있었으 며, 이 결과는 모수 (W, b)의 선택과는 큰 관련이 없다는 점 또한 확인할 수 있었다. 다른 복잡도와 관 련된 연구들의 경우 특정한 모수의 선택 하에서의 복잡도에 대해 다루었던 점을 상기하면 (Pascanu 등, 2013; Montufar 등, 2014), 정리 3.4는 다양한 모수에서 신경망 모형의 복잡도에 대해서 탐구하였다고 할 수 있다. 또한 정리 3.5를 통해 전이 횟수는 이미지 곡선의 길이의 증가율과 밀접한 연관이 있음을 밝혀냈으며, 이를 통해 이미지 곡선의 길이의 증가율을 인공 신경망 모형의 복잡도를 나타내는 측도로 사용할 수 있는 이론적인 근거를 마련하였다. 4. 실험 앞에서 소개한 인공 신경망 모형의 복잡도를 실제 인공 신경망 함수에 대해서 측정해보았다. 앞에서 의 모든 결과들이 은닉층의 개수가 증가할수록 완전 연결된 신경망 모형의 복잡도가 지수적으로 증가한 다는 사실을 보였으므로, 은닉층의 너비는 고정시키고 은닉층의 개수만을 변화시켜가며 어떠한 결과가 나오는지 확인해 보았다. 편의를 위해 정의역과 공역은 1차원으로 고정시켰으며, 은닉층의 너비는 2로 고정하였고 은닉층의 개수는 1부터 10까지 변화시켜보았다. 활성화함수로는 ReLU 함수를 사용하였으 며, 각 모수들은 표준정규분포에서 임의로 생성하였고 추가적인 학습을 진행하지는 않았다. (a) Depth=2 (b) Depth=10 Figure 4.1 Two graphs of deep neural network Figure 4.1은 각각 은닉층의 개수가 2, 10인 경우의 신경망 모형 함수의 그래프이다. 활성화 함수로 부분 선형함수인 ReLU함수를 사용하였기 때문에 최종 신경망 모형 함수 또한 부분 선형 함수의 형태를 띄는 것을 확인할 수 있었다. 또한 두 그래프를 비교하면 은닉층의 개수가 많을수록 좀 더 복잡한 형태 의 함수가 만들어지는 것을 확인할 수 있다. 3.1절에서 소개한 선형 영역은 이 경우에는 같은 선형 함수를 공유하고 있는 구간을 의미한다. 은닉층 의 개수가 2개인 경우 선형 영역을 Figure 4.1 (a)의 하단에 화살표모양으로 나타내었다. 정의역이 일 차원인 경우 선형 영역의 개수는 함수가 꺾이는 지점의 개수에 1을 더한 값과 동일한 것을 알 수 있다.
1224 Dongha Kim Gyuseung Baek Yongdai Kim 따라서 선형 영역의 개수가 많다는 것은 함수가 자주 꺾인다는 사실과 일치한다고 볼 수 있으며, 꺾이는 횟수가 많을수록 복잡한 함수라고 생각한다면 선형 영역의 개수를 함수의 복잡도를 나타내는 측도로 사 용하는 것이 타당하다고 볼 수 있다. 이를 실험적으로 입증하기 위해, 은닉층의 개수를 1부터 10까지 변화시킬 때 선형 영역의 개수가 어 떻게 변화하는지를 실험을 통해 알아보았다. 모수의 선택에 의한 효과를 무시하기 위해 각 은닉층의 개 수마다 함수를 100개씩 생성하였으며, 각각의 함수의 선형 영역의 개수를 계산하였다. 각 은닉층의 개 수 별로 계산된 선형 영역의 개수의 평균에 로그를 씌운 값과 은닉층의 개수 간의 그래프를 Figure 4.2 (a)에 나타내었다. (a) The number of linear regions (b) The length of the image trajectory Figure 4.2 Complexity measures of deep neural networks 실험 결과 정리 3.2와 정리 3.3의 결과를 뒷받침하는 결과를 얻을 수 있었다. 은닉층의 개수가 증가할 수록 선형 영역의 개수 또한 증가하는 것을 확인해 볼 수 있었으며, 이러한 증가가 지수적으로 이루어진 다는 사실 또한 확인할 수 있었다. Raghu 등 (2016)가 제시한 측도인 함수의 궤적의 길이 또한 측정해 보았다. 정의역 상에서의 곡선 [-10,10]이 신경망 모형을 거친 후 길이변화가 어떻게 되는지를 실험해 보았다. 앞의 실험과 마찬가지로 은닉층의 개수는 1부터 10까지 변화시켜보았으며, 각 은닉층의 개수마다 함수를 100개씩 생성한 후 곡 선 [-10,10]이 신경망 모형을 거친 후 변화한 자취의 길이의 평균을 측정하였다. Figure 4.2 (b)를 통해 자취의 길이의 평균에 로그를 씌운 값과 은닉층간의 개수 간의 관계를 확인할 수 있다. 실험 결과, 자취 의 길이 또한 선형 영역의 개수처럼 은닉층의 개수가 증가함에 따라 지수적으로 증가한다는 사실을 확인 할 수 있었다. 이는 정리 3.5의 결과를 실험적으로 입증한다고 할 수 있으며, ReLU를 선형함수로 사용 하였을 때 선형 영역의 개수와 자취의 길이 간에 밀접한 연관이 있다는 점 또한 시사하는 결과이다. 5. 결론 본 논문에서는 딥러닝의 성공의 이유를 딥러닝 함수의 높은 표현력에서 찾고, 함수의 복잡도를 나타낼 수 있는 여러 측도들을 이용하여 은닉층의 수가 증가할 수록 복잡도가 지수적으로 커짐을 연구한 다양한 논문들을 정리하였다. 구체적으로 인공 신경망이 나타낼 수 있는 선형 영역의 최대값을 복잡도로 정의 한 논문들 (Pascanu 등, 2013; Montufar 등, 2014)에 대해서 조사하였고, 이 복잡도의 단점을 개선하여
A study on complexity of deep learning model 1225 전이 횟수 및 함수 궤적의 길이 등 특정 모수에 구애받지 않는 새로운 복잡도를 제안한 논문 (Raghu 등, 2016)에 대해서도 살펴보았다. 또한 복잡도에 관한 이론적인 결과를 모의 실험을 통해 확인하였다. 향후 연구로는 이 논문에서 조사한 연구들을 포함하여 지금까지 제안된 여러 복잡도가 갖는 통계적인 성질을 규명하고, 이를 바탕으로 새로운 복잡도 측도를 개발하여 이 측도에 대한 다양한 이론적 성질들 을 밝혀낼 예정이다. References Chung, J., Gulcehre, C., Cho, K. and Bengio, Y. (2014). Empirical evaluation of gated recurrent neural networks on sequence modeling. arxiv preprint arxiv:1412.3555. Clevert, D., Unterthiner, T. and Hochreiter, S. (2015). Fast and accurate deep network learning by exponential linear units (elus). arxiv preprint arxiv:1511.07289. Cybenko G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals, and Systems (MCSS), 2, 303-314. Eldan, R. and Shamir, O. (2016). The power of depth for feedforward neural networks. Conference on Learning Theory, 907-940. He, K., Zhang, X., Ren, S. and Sun, J. (2015). Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. Proceedings of the IEEE International Conference on Computer Vision, 1026-1034. He, K., Zhang, X., Ren, S. and Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 770-778. Hinton, G. E. and Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313, 504-507. Hinton, G. E., Osindero, S. and Teh, Y. (2006). A fast learning algorithm for deep belief nets. Neural Computation, 18, 1527-1554. Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I. and Salakhutdinov, R. R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. arxiv preprint arxiv:1207.0580. Hochreiter, S. and Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9, 1735-1780. Hornik, K., Stinchcombe, Ma. and White, H. (1989). Multilayer feedforward networks are universal approximators. Neural Networks, 2, 359-366. Ioffe, S. and Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. arxiv preprint arxiv:1502.03167. Kingma, D. and Ba, J. (2014). Adam: A method for stochastic optimization. arxiv preprint arxiv:1412.6980. Krizhevsky, A., Sutskever, I. and Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 1097-1105. Larochelle, H., Erhan, D., Courville, A., Bergstra, J. and Bengio, Y. (2007). An empirical evaluation of deep architectures on problems with many factors of variation. Proceedings of the 24th International Conference on Machine Learning, 473-480. LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86, 2278-2324. Lee, K. J., Lee, H. J. and Oh, K. J. (2015). Using fuzzy-neural network to predict hedge fund survival. Journal of the Korean Data & Information Science Society, 26, 1189-1198. Lee, W. (2017). A deep learning analysis of the KOSPI s directions. Journal of the Korean Data & Information Science Society, 28, 287-295. Lee, W. and Chun, H. (2016). A deep learning analysis of the Chinese Yuan s volatility in the onshore and offshore markets. Journal of the Korean Data & Information Science Society, 27, 327-335. Maas, A. L., Hannun, A. Y. and Ng, A. Y. (2013). Rectifier nonlinearities improve neural network acoustic models. Proceedings of the 30th International Conference on Machine Learning, 30. Mikolov, T., Karafiát, M., Burget, L., Cernockỳ, J. and Khudanpur, S. (2010). Recurrent neural network based language model. Interspeech, 2. Miotto, R., Wang, F., Wang, S., Jiang, X. and Dudley, J. T. (2017). Deep learning for healthcare: review, opportunities and challenges. Briefings in Bioinformatics. Montufar, G. F., Pascanu, R., Cho, K. and Bengio, Y. (2014). On the number of linear regions of deep neural networks. Advances in Neural Information Processing Systems, 2924-2932.
1226 Dongha Kim Gyuseung Baek Yongdai Kim Nair, V. and Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. Proceedings of the 27th International Conference on Machine Learning, 807-814. Oord, A., and Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A. and Kavukcuoglu, K. (2016). Wavenet: A generative model for raw audio. arxiv preprint arxiv:1609.03499. Pascanu, R., Montufar, G. and Bengio, Y. (2013). On the number of response regions of deep feed forward networks with piece-wise linear activations. arxiv preprint arxiv:1312.6098. Raghu, M., Poole, B., Kleinberg, J., Ganguli, S. and Sohl-Dickstein, J. (2016). On the expressive power of deep neural networks. arxiv preprint arxiv:1606.05336. Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M. and others. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529, 484-489. Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A. and others. (2017). Mastering the game of go without human knowledge. Nature, 550, 354-359. Smolensky, P. (1986). Information processing in dynamical systems: Foundations of harmony theory. Colorado University at Boulder Department of Computer Science. Sutskever, I., Vinyals, O and Le, Q. V. (2014). Sequence to sequence learning with neural networks. Advances in Neural Information Processing Systems, 3104-3112. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V. and Rabinovich, A. (2015). Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 1-9. Tieleman, T. and Hinton, G. (2012). Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. Coursera: Neural Networks for Machine Learning, 4. Zeiler, M. D. (2012). ADADELTA: an adaptive learning rate method. arxiv preprint arxiv:1212.5701.
Journal of the Korean Data & Information Science Society 2017, 28(6), 1217 1227 http://dx.doi.org/10.7465/jkdi.2017.28.6.1217 한국데이터정보과학회지 A study on complexity of deep learning model Dongha Kim 1 Gyuseung Baek 2 Yongdai Kim 3 123 Department of Statistics, Seoul National University Received 31 October 2017, revised 22 November 2017, accepted 23 November 2017 Abstract Deep learning has been studied explosively and has achieved excellent performance in areas like image and speech recognition, the application areas in which computations have been challenges with ordinary machine learning techniques. The theoretical study of deep learning has also been researched toward improving the performance. In this paper, we try to find a key of the success of the deep learning in rich and efficient expressiveness of the deep learning function, and analyze the theoretical studies related to it. Keywords: Complexity, deep learning, deep neural network, linear regions, trajectory of a function, transition of a function. This work was supported by Samsung Science and Technology Foundation under Project Number SSTF-BA1601-02. 1 Ph.D.Candidate, Department of Statistics, Seoul National University, 56-1 Mountain, Sillim-dong, Gwanak-gu, Seoul metropolis, 151-742, Korea. 2 Ph.D.Candidate, Department of Statistics, Seoul National University, 56-1 Mountain, Sillim-dong, Gwanak-gu, Seoul metropolis, 151-742, Korea. 3 Corresponding author: Professor, Department of Statistics, Seoul National University, 56-1 Mountain, Sillim-dong, Gwanak-gu, Seoul metropolis, 151-742, Korea. E-mail: ydkim0903@gmail.com