주간기술동향 2016. 5.18. 컴퓨터 비전과 인공지능 장혁 한국전자통신연구원 선임연구원 최근 많은 관심을 받고 있는 인공지능(Artificial Intelligence: AI)의 성과는 뇌의 작동 방식과 유사한 딥 러닝의 등장에 기인한 바가 크다. 이미 미국과 유럽 등 AI 선도국에서는 인공지능 연구에서 인간 뇌 이해의 중요성을 인식하고 관련 대형 프로젝트들을 진행하고 있다. 본 고에서는 인간 뇌를 모델로 하는 컴퓨터 시스템의 개발을 목적으로 여러 학제를 아우르는 통섭적 연구 분야로서의 인지컴퓨팅 기술 동향 및 발전 전망에 대해 고찰한다. I. 서론 미국의 정보기술 연구 및 자문 회사 가트너에서는 2016 년 10 대 전략기술 중의 하나로 고 급 기계학습(Advanced Machine Learning)을 선정하였다. 심층신경망(Deep Neural Nets)은 IoE (Information of Everything) 환경에서 빅데이터를 처리하는 핵심역할을 수행한다. 여기서 신경망 이란 바로 두뇌의 신경세포가 작동하는 원리를 모방하여 이를 소프트웨어적 알고리즘으로 구 현한 것이다. 이 알고리즘은 사람의 기억과 관련이 있고, 주어진 환경에 대해서 가능성이 높은 상황을 예측할 수 있는 능력과도 관련이 깊다. 전통적으로 신호처리 기술자가 수동으로 데이터 를 분석하고 필터를 설계하던 핵심업무 부분을 자동화 할 수 있을 뿐만 아니라 성능 또한 최고 수준을 보인다. 정보통신기술의 발전은 정보의 홍수시대를 이끌었고 이제는 모든 것이 융합되 어 발전되는 소셜미디어와 지식산업 시대가 되었다. 유엔미래보고서 2050 에서는 두뇌와 인공 지능관련 프로젝트에 의해 누구나 증강된 천재가 될 수 있다고 예측한다. 본 고에서는 사람의 두뇌가 동작하는 기본원리를 모방한 신경망 알고리즘, 그 중에서도 컴 퓨터 비전 분야의 최신 딥러닝 기술 동향을 살펴본 후, 실제 뇌과학 분야에서의 인간지능과 인 공지능을 간략하게 비교하여 향후 전망을 고찰해 보고자 한다. * 본 내용은 장혁 선임연구원( 042-860-5784, alexjang@etri.re.kr)에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP 의 공식적인 입장이 아님을 밝힙니다. 14 www.iitp.kr
기획시리즈 II. 컴퓨터 비전 분야의 딥러닝 기술 동향 사람의 두뇌는 어떻게 동작하는가에 대한 의문은 인류가 여전히 풀어야 되는 숙제로 최근 두뇌가 동작하는 방식을 모방한 딥러닝이라는 뛰어난 학습 알고리즘들은 놀라운 성능으로 학 계뿐만 아니라 대중의 큰 관심을 받고 있다. 두뇌의 역할 중 영상 객체의 위치에 영향을 받지 않고 인식을 할 수 있게 하는 신경망 구조원리는 1980 년 Kunihiko Fukushima 에 의해 Neocognitron 란 이름으로 소개되었다[1]. 1989 년에 YannLeCun 과 그의 동료들은 오류역전파 알고리즘에 기반 하여 우편물에 손으로 쓰여진 우편번호를 인식하는 LeNet-5 라는 회선 신경망(Convolution Neural Network)을 소개하였다[2]. LeNet-5 는 340,908 개의 연결을 갖지만 가중치 공유로 60,000 개의 파 라미터만 자유롭게 학습될 수 있도록 설계되었다. 알고리즘이 성공적으로 동작했음에도 불구하 고 10 개의 숫자를 인식하기 위한 학습시간이 3 일 가까이 소요되어 실용적 성능이 떨어졌다. 1991 년 SeppHochreiter 는 지역 최소값에 머무르게 되는 문제(vanishing gradient problem)를 원인 으로 분석했다[3]. 또한, 불연속 시뮬레이션에서 초기 연결값의 선택 방법에 따라 수렴이 안되 고 진동 또는 발산하는 문제, 훈련 데이터에 너무 가깝게 맞추어 학습되는 과적합(overfitting) 문 제 등으로 1990 년부터 2010 년 초까지는 SVM 과 같은 작은 규모의 실용적 학습기법(shallow learning)들이 각광을 받아 왔다. 2010 년을 전후해서 스마트폰을 중심으로 대중적인 영상 데이터가 폭발적으로 증가하였고 기 존의 문자인식 외에도 다양한 일반 영상에 대한 인식기술이 주목 받기 시작했으며, [그림 1]과 같이 필기체문자인식 실험 데이터 MNIST 외에 범주별 사물을 나타내는 일반사진 영상을 아주 <자료> L.J.P. van der Maaten. Accelerating t-sne using Tree-Based Algorithms, Journal of Machine Learning Research 15(Oct):3221-3245, 2014. [그림 1] t-sne 를 이용한 학습영상 수만 장의 2 차원 정보 분포도 정보통신기술진흥센터 15
주간기술동향 2016. 5.18. <자료> IMAGENET, ILSVRC 2015. [그림 2] 딥러닝을 사용한 영상인식 기술의 발전 동향 작게 축소한 CIFAR 실험 데이터가 발표되었다[4]. 딥러닝은 [그림 1]과 같은 원본 데이터를 좀 더 활용하기 쉬운 데이터로 가공해주는 필터를 확률적 경사 하강법(Stocahstic Gradient Descent)과 같은 방법으로 학습한다. 딥러닝 관련 다양한 라이브러리가 존재하는데 ConvNetJS 를 통해 신 경망이 영상 데이터를 처리하는 화면을 웹에서 비교적 쉽게 이해할 수 있다[5],[6]. 2012 년에는 스파스 자동부호기를 이용한 비지도 학습을 통해 구글의 유투브 고양이 인식기술이 화제가 되 었으며[7], 1,000 개 범주의 일반사진 영상 실험 데이터를 갖춘 ILSVRC(Large Scale Visual Recognition Challenge)가 학계에서 진행되었고, 그 동안 최고의 성능 개선은 딥러닝 기술의 진보 와 함께 이루어져 왔다[8]. 컴퓨터 비전을 비롯하여 딥러닝 관련 전문가들은 ILSVRC 의 2015 년 경연결과에 다시 한번 놀라워했다. [그림 2]와 같이 딥러닝이 영상인식에 적용되면서부터 마치 무어의 법칙처럼 매년 성능이 개선된 기술이 발표되고 있다. 2014 년 최고 기술인 구글넷(GoogLeNet)은 22 개의 심층신경망을 사용하였으며, 2015 년 마 이크로소프트 연구소의 심층잔여학습(Deep Residual Learning)은 무려 152 개 층으로 구성된 심층 신경망으로 우승하였다. [그림 3]과 같이 최근 딥러닝이 적용된 영상인식 기술의 흐름은 가능한 깊은 층을 두고, 각 층의 컨볼루션 필터 크기는 작게 설계하여 다양하고 최적화된 특징을 추출 하는 것이다. 구글넷은 인셉션 개념을 도입하여 각 인셉션 층 내부에서도 다양한 스케일의 컨 16 www.iitp.kr
기획시리즈 <자료> IMAGENET, ILSVRC 2015. [그림 3] 구글넷과 심층잔여학습의 구성도 비교 볼루션 필터를 학습하도록 설계한 것이 특징이다. 심층잔여학습은 층이 깊어질 때 입력 특징에 서 어떤 잔여 신호가 가감되어야 좋은 특징이 추출될 수 있는지를 학습한다. 기존의 심층신경 망은 그 구성층이 많아질수록 학습 에러율이 높아지는 경향이 있었지만, Residual 신경망은 152 개까지 층을 늘려도 학습 에러율은 떨어지며 변별력이 좋은 특징을 구해준다. 이러한 신경망구조를 적용하여 학습영상으로 훈련시키면 신경망에 남게 되는 정보는 입력 영상을 가장 잘 범주화시킬 수 있는 데이터가 되며, CNN 특징을 기반으로 다양한 응용 형태의 신경망을 구성할 수 있다. Faster R-CNN 에서는 일반사진 영상에서 객체를 추출하기 위해 다양 한 크기의 관심영역(Region Of Interest)에 해당하는 CNN 최종단의 컨볼루션 출력 특징과 객체 외곽 사각형 정보를 같이 학습시킬 수 있도록 영역제안 신경망(Region Proposal Net)을 추가한 다. [그림 4 (a)]와 같이 입력영상이 주어지면 구글넷이나 심층잔여학습을 통해 컨볼루션 특징이 추출되고 최종 상위단의 컨볼루션 특징들은 RPN 으로 입력되어 객체로 보여지는 사각형 정보와 그 사각형에 해당하는 객체의 범주 및 학습된 모형과 얼마나 비슷한 확률인지를 출력한다. 학 습 데이터에 객체의 영역을 나타내는 이진영상이 주어진다면 [그림 4 (b)]와 같이 객체의 모양 까지 학습되며, 좀 더 확장하자면 사람의 눈처럼 스테레오 영상을 통해 3D 깊이 정보까지도 학 습이 가능하다. 정보통신기술진흥센터 17
주간기술동향 2016. 5.18. (a) 심층잔여학습+Faster R-CNN (b) 심층잔여학습+Multi-task Network Cascades <자료> IMAGENET, ILSVRC 2015. [그림 4] 딥러닝을 사용한 영상객체 검출기술 동향 ILSVRC 2015 부터는 동영상에서 객체를 검출하는 업무가 추가되었으며, 앞에서 설명한 정지 영상에서의 CNN 특징과 전통적인 객체 추적 알고리즘을 조합한 알고리즘이 높은 순위에 있고 강화학습을 함께 접목한 알고리즘도 있다. 지금까지 설명한 부분은 대뇌 후두엽에서 처리되는 시각지능을 모방한 알고리즘이라고 할 수 있다. 좌뇌 측두엽의 언어처리와 시각적 기억정보와의 연계 등을 모방하기 위해서는 RNN (Recurrent Neural Networks)이 주로 사용된다. 음성이나 동영상 등은 시계열 축에서의 데이터 상관성이 매우 높기 때문에 이를 처리하기 위한 신경망을 설계하면, 필요한 메모리나 계산용량 이 CNN 에 비해 매우 높아진다. 1997 년 제안된 LSTM(Long Short-Term Memory) 구조는 학습 시 퀀스 내용 중 어느 부분이 기억되어야 하고 어느 부분이 잊혀져도 되는지를 세부적으로 학습하 도록 설계되었으며, 현재 자연어처리에서 가장 많이 사용되는 딥러닝의 기본구조가 되었다. 18 www.iitp.kr
기획시리즈 <자료> Xu, Kelvin, et al. Show, attend and tell: Neural image caption generation with visual attention, arxiv preprint arxiv:1502.03044, 2015. [그림 5] 시각지능과 언어지능의 결합 2015 년에 [그림 5]와 같이 영상 또는 비디오에 대한 설명을 자동으로 생성해주는 기술과 동작 인식 기술에 CNN 과 LSTM 를 접목한 연구가 발표되었고, 강화학습을 통해 영상의 어떤 부분에 관심을 갖고 학습되었고 해석이 이루어지는가를 표현할 수 있게 되었다. 전두엽에서 주로 이루어지는 사람의 행동 계획 및 실행에 대한 모방은 2015 년 구글딥마인 드의 DQN(Deep Q-Network)이라는 강화학습 알고리즘을 먼저 생각할 수 있다. 수십년 전 아이 들이 즐겨했던 우주침략자들, 벽돌깨기와 같은 간단한 게임 화면을 학습하여 사람보다 조이스 틱 조종을 잘 할 수 있게 하였다. 연속된 4 개 프레임의 게임화면에서 CNN 특징을 추출하고 연 속된 게임화면과 조이스틱 조종에 따른 점수 변동 경험으로부터 최적의 다음 조종을 예측하도 <자료> Mnih, Volodymyr, et al. Human-level control through deep reinforcement learning, Nature 518.7540, 529-533, 2015.. [그림 6] t-sne 를 이용한 DQN 최종 은닉층 데이터의 2 차원 정보 분포도 예 정보통신기술진흥센터 19
주간기술동향 2016. 5.18. 록 DQN 을 학습시키는 것이다. [그림 6]에서 왼쪽 아래와 오른쪽 위의 화면상태가 가치가 높은 검은 빨강색 상태로 학습되어 있는 것을 알 수 있으며, 우주침략자들 게임 특성상 외계인을 거 의 격추시킨 상태와 모두 격추시킨 후 다시 화면에 외계인이 가득 찬 상태를 나타낸다. 빨강에 서 파란색까지 부드럽게 변하는 분포로 학습이 되었으므로, 파란색 상황의 낮은 가치의 화면에 서 어떻게 빨간색 상황의 높은 가치 화면으로 어떤 조이스틱 조종을 통해 게임을 진행하는지 인공지능이 갖는 직감, 행동 정책을 유추할 수 있게 된다. 벽돌깨기 게임을 딥마인드의 강화학 습인 DQN 으로 일반 PC 에서 하루만 학습하면 약 13.5MBytes 의 신경망으로 사람보다 게임 플 레이를 잘할 수 있게 된다. 고득점을 위해 한쪽 측면을 깨어 공을 안쪽으로 넣고 연속깨기를 하는 장면은 강화학습의 위력을 보여 준다. 2016 년 3 월 구글 딥마인드는 알파고라는 바둑 프로그램으로 이세돌 9 단에게 4 승 1 패의 전적으로 승리를 거두었다. 알파고는 바둑기사의 수많은 대국 기보를 통해 학습된 정책망과 자 체 게임으로 강화학습되는 정책망의 조합으로 가치망을 생성하며 바둑을 둔다[14]. 여기서 가치 망은 현 시점에서 판세로, 정책망은 다음 수를 어떻게 두어야 할지 결정하는 알파고가 갖는 직 감에 비유할 수 있다. 알파고의 직감은 기본적으로 바둑기사의 기존 대국 기보에서 나오는 것 이다. 사람과의 차이점은 바로 수읽기라 할 수 있다. 현재의 대국 상황에서 앞으로의 여러 시나 리오에 대해 수읽기를 하는데 사람이 두뇌로 그리는 경우의 수는 어느 정도 한계가 있지만, 알 파고는 쉽고 빠르게 자체 게임을 한다. 바둑은 경우의 수가 무한대에 가깝지만 알파고는 몬테 카를로 트리검색 기법을 통해 대국 중에도 수천 번의 자체 게임을 하고 직감을 강화시킨다. III. 뇌과학과 인공지능 사람의 두뇌는 오랜 진화를 거친 뛰어난 생물학적 컴퓨터라 할 수 있다. 약 20 와트의 에너 지 효율, 10 11 개의 신경세포, 10 14 개의 시냅스, DNA 설계에 의해 기본 구성이 이루어져 성장하 며 살아온 환경에 영향을 받아 시냅스의 연결이 변경되고, 해마에 의해 시퀀스 형태의 장기기 억이 저장된다[15],[16]. 앞에서 설명한 것처럼 컴퓨터 비전, 자연어처리, 장면 묘사, 게임플레이 등에 신경세포의 시냅스를 모방한 딥러닝 알고리즘이 적용되어 각각의 분야에서 최고의 성능 을 보이고 있고, 이는 [그림 7]과 같이 후두엽, 측두엽, 전두엽, 두정엽, 베르니케 영역, 브로카 영역의 기능을 인공지능이 일부분 수행하는 것으로 볼 수 있다. 2014 년 노벨 생리의학상은 두 20 www.iitp.kr
기획시리즈 <자료> https://ko.wikipedia.org/wiki/뇌 & Thorpe et al., 1995. [그림 7] 대뇌 피질 모식도 및 시각 인식과 행동 뇌의 내후각 피질에 위치하는 장소 세포를 발견한 존 오키프와 모세르 부부가 공동으로 수상하 였다. 두뇌 위치시스템의 발견은 특정 세포들이 결합을 통해 수행하는 고도의 인지적 기능에 대한 이해에 패러다임 전환을 가져왔다고 한다. [그림 8]과 같이 사람은 자극에 대해 바로 반응을 일으키는 것이 아니라 대뇌피질, 해마 복 합체, 뇌간 등 두뇌와 연결된 여러 부위와 상호작용하여 행동 정책을 정하고 실행하며 관찰한 다. 아인슈타인이 통일장 이론을 꿈꾸고 최근 힉스 입자까지 실험에 의해 증명되면서 자연계의 물리현상을 정립된 이론의 수식으로 설명하는 것이 가능해졌으며, 사람의 두뇌모형도 1763 년 영국의 목사이자 통계학자였던 토머스 베이즈의 베이즈 정리로 설명이 가능해졌고 알파고를 통해 그 위력을 실감했다. 놀랍게도 신경세포들은 무수한 연결을 통해 자연에서 경험한 지식을 주의 자극 단기감각 저장소 지각 판단과 반응선택 장기기억 작업기억 반응실행 반응 <자료> 박문호, 그림으로 읽는 뇌과학의 모든 것, Humanist, 1st Edition, 636-646, 2015. [그림 8] 자극입력에서 반응출력의 정보처리 과정에 대한 위켄스의 모델 정보통신기술진흥센터 21
주간기술동향 2016. 5.18. 시냅스에 저장하고, 두뇌는 시냅스에 저장된 정보로부터 베이즈 정리에 기반하여 현재 상황을 예측하며 행동 정책을 정해 실행하고 관찰한다. IV. 결론 및 시사점 도구의 인간은 언어를 만들어 지식의 저장소를 대뇌피질 외부에 둘 수 있었고, 인터넷 통신 수단을 통해 지식이 전세계적으로 빠르게 소통 융합될 수 있게 하였다. 이제는 사람과 비슷한 방식으로 자연을 경험하고 예측하며 행동 정책을 정하는 알고리즘이 4 차 산업혁명을 주도하고 있다. 딥러닝 알고리즘은 학습된 데이터의 양에 따라 예측 성능이 좋아지는데, 빅데이터를 어떤 방식으로 학습하고 예측하는데 활용할 것인가에 따라 초지능 구현이 가능하다. 컴퓨터 비전과 관련된 유망 분야로는 자율주행시스템, 의료영상의 보조진단시스템, 영상보안 및 검색 시스템, 로봇의 시각인지시스템, 스마트 기기의 비서 시스템 등이 대표적이라 할 수 있다. 두뇌 칩 임플 란트 및 컴퓨터 두뇌 인터페이스 연구는 새롭게 주목 받고 있다. 삼성과 애플의 특허 소송에서 도 보았듯이 제조 원가에서 특허가 차지하는 비중은 상당히 높은 수준이며 기업의 이익을 결정 하는 중요한 요소이다. 인공지능관련 연구 개발에 전국민적인 뜻을 모으고, 지적재산권 확보에 박차를 가해야 할 시점이다. [ 참고문헌 ] [1] K. FUKUSHIMA, Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position, Biological cybernetics, 36.4, 1980, pp.193-202. [2] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document recognition, Proceedings of the IEEE, 86.11, 1998, pp.2278-2324. [3] S. Hochreiter et al., Gradient flow in recurrent nets: the difficulty of learning long-term dependencies, In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001. [4] A. Krizhevsky, and G. Hinton, Learning multiple layers of features from tiny images, Computer Science Department, University of Toronto, Tech. Rep, 2009. [5] http://cs.stanford.edu/people/karpathy/convnetjs/ [6] http://caffe.berkeleyvision.org/ [7] NG, Andrew, Sparse autoencoder, CS294A Lecture notes, 2011. [8] http://www.pamitc.org/cvpr15/tutorials.php 22 www.iitp.kr
기획시리즈 [9] L.J.P. van der Maaten. Accelerating t-sne using Tree-Based Algorithms, Journal of Machine Learning Research 15(Oct):3221-3245, 2014. [10] IMAGENET, ILSVRC 2015, http://image-net.org/challenges/talks/ilsvrc2015_12_17_15_clsloc.pdf [11] http://image-net.org/challenges/talks/ilsvrc2015_deep_residual_learning_kaiminghe.pdf [12] Xu, Kelvin, et al. Show, attend and tell: Neural image caption generation with visual attention, arxiv preprint arxiv:1502.03044, 2015. [13] Mnih, Volodymyr, et al. Human-level control through deep reinforcement learning, Nature 518.7540, 529-533, 2015. [14] Silver, David, et al. Mastering the game of Go with deep neural networks and tree search, Nature 529.7587, 484-489, 2016. [15] http://www-labs.iro.umontreal.ca/~memisevr/dlss2015/bottou.pdf [16] 박문호, 그림으로 읽는 뇌과학의 모든것, Humanist, 1 st Edition, 636-646, 2015. 정보통신기술진흥센터 23