영상빅데이터분석기술동향 소프트웨어기술동향특집 고종국 (J.G. Ko) 배유석 (Y.S. Bae) 박종열 (J.Y. Park) 박경 (K. Park) 분석소프트웨어연구실선임연구원분석소프트웨어연구실책임연구원분석소프트웨어연구실실장빅데이터 SW 플랫폼연구부부장 Ⅰ. 서론 Ⅱ. 기술현황 Ⅲ. 결론 최근에스마트폰, CCTV, 블랙박스, 고화질카메라등으로부터수집되는영상데이터의양이급격히증가하고있어이에따른비정형영상빅데이터를기반으로인물이나사물등을인식하여의미있는정보를추출하고내용을시각적으로분석하고활용하기위한요구사항이증대되고있다. 영상빅데이터분석기술은이러한대규모영상들에대해학습및분석을수행하여원하는영상을검색하거나이벤트발생등의상황인식을위한제반기술들을말한다. 본고에서는영상인식을위한학습기술및영상빅데이터분석기술의현황및관련이슈들에관하여살펴보고자한다. 2014 한국전자통신연구원 21
Ⅰ. 서론많은전문가들이예견하고있듯이스마트폰, CCTV, 블랙박스, 드론, 인공위성, 디지털카메라등에서수집되는영상데이터의양은기하급수적으로증가하고있으며, 이에따른비정형영상데이터를인식하고내용을분석하여활용할수있는기술요구가점차증대되고있다. 이미지, 비디오, 오디오와같은멀티미디어데이터는인터넷트래픽의 60%, 모바일폰트래픽의 70%, 이용가능한비정형데이터의 70% 이상을차지하고있을정도로급증하고있으며, 웹사용자는분당 72시간분량의비디오를 YouTube 에업로드하고있고, 소셜미디어사용자는평균적으로하루에 3억개의사진을페이스북에포스팅하고있다. 또한, 최근들어하드웨어및소프트웨어기술의급격한발전으로인해대용량의데이터를수집하고빠른시간내에분석및처리할수있는기반환경이구축되고 있으며, 다양한빅데이터관련솔루션들이점차실생활에접목되고있다. 대규모영상데이터와영상분석기술의만남은기존의영상자체에대한인식의범위를뛰어넘어의미있는정보추출과내용분석등을통하여더욱발전된기능을제공함으로써새로운가치를창출하고, 보다나아가미래변화를예측하며능동적으로대처할수있는좋은기회를제공할것으로예상된다. 영상의내용을이해하는기술은미국을중심으로많은연구가진행되고있으며, ( 그림 1) 과같이상황의이해와행동을분석하여다음에발생할상황을예측하는기술로까지이어지고있다. 현재가장널리알려진기술은 DARPA 주도의프로젝트로 VIRAT(Video and Image Retrieval and Analysis Tool) 과제 [1] 가대표적이다. 본고에서는최근이슈화된영상빅데이터들의영상분석기술기술동향및관련이슈들에대해살펴보고자한다. ( 그림 1) DARPA 영상분석프로젝트개요도 22 전자통신동향분석제 29 권제 4 호 2014 년 8 월
Ⅱ. 기술현황 1. 영상인식을위한학습기술 가. Labeled data 기반감독학습기술 감독학습기반의영상인식기술은 labeled data 를가지고특징을추출하여영상을분류하는학습을수행하는방식으로영상을인식 / 분류하는기능을수행한다 (( 그림 2) 참조 ). 대표적인학습알고리즘은 SVM(Support Vector Machine) 으로분류하려는데이터들을구분하는마진을최대로하여분류하는기능을수행한다. 대표적인예로 IBM IMARS(IBM Multimedia Analysis and Retrieval System) 시스템 [2] 은레이블된이미지들에대해 Color 히스토그램, SIFT, HOG 등의다양한특징들을추출한다. 이특징들을 SVM, 신경망, GMM 등의감독학습알고리즘들에이용하여영상을인식 / 분류하는기능을제공한다. 감독학습기술에있어서특징추출및학습알고리즘과함께중요한것이레이블된학습데이터들의수집에있다. 많은레이블된학습데이터들이존재하면학습은효과적으로될수있다. 하지만현실적으로많은레이블데이터들을수집하는데는한계가있다. 나. Unlabeled data 기반비감독학습기술최근에 Deep learning 기술로객체를인식 / 분류하는기술이이슈화가되고있다. Deep learning은여러개 ( 그림 2) Labeled 데이터기반감독학습 ( 그림 3) Unlabeled 데이터기반비감독학습의레이어들로구성된 multi-layer 네트워크이다. 각레이어들은이전레이어들의출력을입력으로받고상위레벨의특징들을생성한다. 이기술은토론토대학의 Hinton 교수 [3] 에의해주목받기시작했는데이기술은기존의신경망과달리 unlabeled 데이터들을입력값으로하고비감독학습방식으로상위레벨의특징들을추출하는학습을수행된다 (( 그림 3) 참조 ). 이렇게여러단계의학습을하나로통합하여전체학습네트워크를구성한다. 대표적인예로구글시스템 [4] 은천만장의 unlabeled 이미지들에대해지역적신경망을구성하여비감독학습을수행하고이러한학습과정을한단계씩쌓아올려전체 multi-layer 네트워크를구성하였다. 이러한 deep learning 기반의영상인식기술은최근에객체인식및음성인식등에좋은성능을보여주고있다. 고종국외 / 영상빅데이터분석기술동향 23
2. 영상검색및내용분석기술 미국 DARPA 에서는 VIRAT 프로젝트 [1] 를수행하고있다 (( 그림 4) 참조 ). 대규모의영상정보데이터베이스를구축하고 content-based searching 기능을통해빠른속도로대용량영상콘텐츠를검색하는기능을수행한다. VIRAT 의목적은수천시간의동영상데이터베이스에서다음과같은형태들이발생하는것을검색하는도구를제공하는것이다. - Single Person: 배회, 투기, 걷기, 달리기등 - Person-to-Person: 미팅, 악수, 물건교환, 군집, 해산등 - Person-to-Vehicle: 운전, 승차, 하차, 태우기등 - Person-to-Facility: 들어가기, 나오기, 서있기등 - Vehicle: 턴, 정차, 차량군집이동, 차량화재등일본히타치연구소 [5] 에서는영상빅데이터기술과관련하여이미지가포함되어있는유사한장면을자동으로검출하고해당장면으로이동하고, 영상으로부터특정객체를검출하며, 추출한영상에대하여주석 (annotation) 을자동으로태깅하는 3가지의기술요소를제시하였다. 유사이미지검색기술 : 쿼리이미지에비슷한이미지를데이터베이스에서찾아오는기술로, 이기술을이용하며대량의영상데이터중에서원하는이미지를추출할수있음. 히타치에서는특징량벡터클러스터링을기반으로고속유사벡터검색기법을사용 ( 그림 4) VIART 개요도 ( 그림 5) 유사이미지검색기반객체검출하여유사이미지검색기능을제공하고있음 (( 그림 5) 참조 ). 객체탐지기술 : 이미지중에서사람의얼굴이나자동차등의객체영역을식별하는기술로, 입력이미지의부분영역과검출대상의사례이미지를유사이미지검색의특징량기준으로일치하는객체영역을검출함. 이기술을사용해서점포내에서인원수를세거나이상행동의탐지, 대량의감시영상에서특정장면을찾을수있음. 이미지주석기술 : 이미지가나타내는내용에해당하는메타데이터를자동으로부여하는기술로주어진이미지쿼리에대하여유사이미지검색을하고검색결과의이미지에나오는텍스트의단어를확률적지표에의해평가하여특별한사전학습없이이미지에의미를부여하는키워드를추정할수있음. Microsoft 에서는대규모웹이미지검색과탐색을위한 WISE(Web Image Search and Exploration) 프로젝트 [6] 를통하여이미지재현을위한대규모기계학습및효율적인이미지인덱싱과질의방법을개발하고있으며, 프로젝트내에서컨텐츠기반이미지검색을위해인덱싱과스케일러블이미지재현및알고리즘을개발하고 Bing 검색엔진에활용하여 10억개이상의이미지에대한인덱싱과검색기능을지원하고있다 (( 그림 6) 24 전자통신동향분석제 29 권제 4 호 2014 년 8 월
( 그림 6) 마이크로소프트 WISE 시스템구성도 참조 ). 또한, 웹스케일얼굴이미지인식과검색기능을제공하는얼굴특징과인덱싱을위한파이프라인을개발하였다. 추가로, 대규모웹이미지를클러스터링하기위해부분복제웹이미지를찾는효율적인해싱알고리즘을개발하였다. IBM은 2000년초반부터현재까지이미지검색및이벤트탐지를위한 IMARS 시스템 [2] 을개발하고있으며매년영상검색및이벤트탐지평가를위한 TRECVID (TREC Video Retrieval Evaluation) 학회에개발제품을평가해오고있다 (( 그림 7) 참조 ). 좁은범위에서는영상에서사람, 자동차등의객체를탐지하는것으로부터넓은범위에서는사람의이상행 ( 그림 7) IBM IMARS 개요도동, 화재, 전쟁등의이벤트 / 액션등을탐지하는형태로진행되고있다. IBM 시스템은레이블된입력데이터들에대해감독학습방식으로데이터들에대한학습알고리즘을수행한다. 학습을위한특징들을다름과같은특징들로여러가지특징들을사용하여학습을수행한다. - 전역적특징 : Color Histogram, Color Moments, Color Correlogram 등 - 지역적특징 : Scale Invariant Feature Transform, Local Binary Patten, Histogram of Oriented ( 그림 8) IBM IMARS 시스템학습알고리즘구성도 고종국외 / 영상빅데이터분석기술동향 25
Gradients 등추출된각각의특징들에대한학습분류기로는 SVM(Support Vector Machine), GMM(Gaussian Mixture Model) 등의여러학습방법을사용하여각각의유닛모델들을생성한다. 이렇게생성된유닛모델들은검증과정을거쳐최적의앙상블분류기로결합된다. ( 그림 8) 은이과정을설명한다. 구글시스템 [4] 은 deep learning 방식으로 unlabeled 데이터를입력으로받고비감독학습방법으로학습을수행하여멀티레이어네트워크를구성한다. 시스템은 3단계로구성되었고각단계는각각 3개의레이어들로구성되어총 9개레이어들로이루어졌다. 전체시스템은총 1B개의파라미터들로네트워크를구성하였다. 구글시스템은이동, 회전, 스케일링등의지역적왜곡을극복하기위해 L2 Pooling과 Local Contrast Normalization 방법을사용하였다. 구글은학습을위해유튜브에서천만개의동영상을수집하고이들에서각각한장씩이미지를랜덤하게추출하여학습에사용하였다 (( 그림 9) 참조 ). 구글시스템은단지 unlabeled된데이터로만학습을수행하였음에도불구하고테스트영상에대해 81.7% 의얼굴인식성능을보였다. 최근토론토대학 [7] 에서는대규모이미지검색을위해 deep learning 방식인 Deep Convolutional Neural Networks 기술을개발하여탁월한객체검색기술성능을보였다. 이시스템은 7개의 hidden 레이어로구성되 ( 그림 10) 토론토대학의 ImageNet 시험결과고 60M개의파라미터들로구성된멀티네트워크를생성하였다. 이시스템은 1,000개의클래스들로구성된 ImageNet 시험데이터에대해 5순위내검색결과가 83% 의성능을보였다. ( 그림 10) 은검색결과를보여주는데입력된쿼리영상에대해 5순위검색결과를보여준다. 막대그래프의크기는검색된확률크기값을표시한다. 3. 영상빅데이터분산 / 병렬처리 IBM에서는대규모영상검색을위한시스템개발에있어서하둡 (Hadoop) 기반의분산 / 병렬처리시스템을적용하여개발하였다 (( 그림 11) 참조 ). 버지니아대학 [8] 에서는영상빅데이터에대한분산컴퓨팅처리를위한 API(Application Program Interface) ( 그림 9) 구글시스템학습알고리즘구성도 26 전자통신동향분석제 29 권제 4 호 2014 년 8 월
( 그림 13) 구글시스템학습병렬처리구성도 ( 그림 11) 하둡기반 IBM 시스템구성도 를제공하는하둡 MapReduce 라이브러리인 HIP I(Hadoop Image Processing Interface for image-based map-reduce Tasks) 프레임워크를개발하고있다 (( 그림 12) 참조 ). HIPI는 MapReduce 프레임워크기반으로영상처리및비전응용프로그램에개방적이고확장가능한라이브러리를제공한다. 사용자가 MapReduce 프레임워크의자세한내용을파악할필요없이영상기반분산 / 병렬처리가가능하도록지원한다. 구글시스템은천만개의 200x200 이미지들에대해 1B의파라미터들을학습하기위해 16개의코어들을가지고있는 1,000개의머신을이용하여병렬처리를수행하였다 (( 그림 13) 참조 ). 4. 영상빅데이터데이터베이스 IBM[9] 은영상검색을위한데이터베이스를구성하였 ( 그림 14) IBM 영상검색데이터베이스는데 2012년에는 500K개의이미지들로구성된총 630 개의클래스들로이루어졌다 (( 그림 14) 참조 ). 각사각형에서맨위는각클래스들을의미하고아래숫자들은순서대로샘플의수, 데이터사이즈, 그리고카테고리개수를의미한다. 스탠포드대학의 ImageNet[10] 은이미지검색을위 ( 그림 12) 버지니아대학의 HIPI 라이브러리구성도 고종국외 / 영상빅데이터분석기술동향 27
III. 결론 ( 그림 15) ImageNet 데이터베이스예제 본고에서는영상빅데이터분석을위한관련학습기술들과관련기술현황및주요이슈들에대해살펴보았다. 최근다양한소스로부터다양한형태의비정형영상데이터들의증가에대한영상분석기술의접목을통해여러다양한발전기능을제공하고있음을알수있었다. 또한, 영상빅데이터처리를위한분산 / 병렬처리등의기술의요구사항이증가하고있음을알수있었다. 추후, 대규모영상데이터들의증가는기하급수적으로늘어날것으로예상된다. 따라서이를지원하기위한좀더일반화된학습모델의개발및대용량처리를위한하드웨어및플랫폼개발이많이이루어져야겠다. ( 그림 16) MIT 데이터베이스한대규모영상데이터베이스로 2012년에는총 16M images들로구성된 22,000개의범주로나누어져있다. ( 그림 15) 는이미지샘플들을보여준다. MIT는대규모장면인식과분류를위한 SUN(Scene Understanding) 데이터베이스 [11] 를구축하고벤치마크자료를공유하고있다. 웹으로부터장면관련이미지를유형별로수집하여데이터베이스로구축하고, 정제된 397개카테고리를사용하여최대 908개카테고리까지확장이가능한특징이있다. 최대확장가능한카테고리는분류가가능하다는것을의미하며인식의정확도를고려하여 908개중에서상위 397개카테고리를사용하고있다 (( 그림 16) 참조 ). 약어정리 API Application Program Interface GMM Gaussian Mixture Model HIPI Hadoop Image Processing Interface for image-based map-reduce Tasks IMARS IBM Multimedia Analysis and Retrieval System SUN Scene Understanding SVM Support Vector Machine TRECVID TREC Video Retrieval Evaluation VIRAT Video and Image Retrieval and Analysis Tool WISE Web Image Search and Exploration 참고문헌 [1] DARPA, BAA-08-20: Video and Image Retrieval 28 전자통신동향분석제 29 권제 4 호 2014 년 8 월
and Analysis Tool (VIRAT), Mar. 3th, 2008. [2] IBM Multimedia Analysis and Retrieval System, http://mp7.watson.ibm.com/imars [3] G. E. Hinton A Fast Learning Algorithm for Deep Belief Nets, Neural Computation, 2006. [4] G. E. Hinton, S. Osindero, and Y.-W. Teh A fast learning algorithm for deep belief nets, Neural Comput., vol. 18, no. 7, July 2006, pp. 1527-1554. [5] IT Pro, http://itpro.nikkeibp.co.jp/article/column/20 121012/429404 [6] Microsoft, Web Image Search and Exploration (WISE), http://research.microsoft.com/en-us/projects/wise [7] A Krizhevsky, ImageNet Classification with Deep Convolutional Neural Networks, NIPS, 2012. [8] HIPI, University of Virginia, HIPI : Hadoop Image Processing Interface, http://hipi.cs.virginia.edu [9] IMB Research-Columbia University, Semantic Indexing Task, 2012. [10] Stanford, ImageNet, http://www.image-net.org [11] MIT, SUN database, http://groups.csail.mit.edu/vision/ SUN/ 고종국외 / 영상빅데이터분석기술동향 29