시각지능기술동향 - 기술개발사례중심 저자 박종열실장 / 한국전자통신연구원분석소프트웨어연구실김두현 CP / 정보통신기술진흥센터기반SW 컴퓨팅 CP실박용목수석 / 정보통신기술진흥센터기반SW 컴퓨팅 CP실조병훈수석 / 정보통신기술진흥센터기반SW 컴퓨팅 CP실 시각지능 은? 시각지능은사람이사물을인지하고시공간적으로상황을파악할수있는능력을의미하며직관적으로사물을인식하는능력과심층적사고에의한인지능력을으로나눠짐 직관적으로사물을인식하는능력은학습 ( 경험 ) 에의해사물의특징과내용을정확히이해하는것이며, 심층적사고는낮선장면이나감춰진사물을인식하기위해주변상황으로유추하는능력임 시각지능을구현하는주요기술은? 객체의학습및인식 : 사람과비슷한수준으로사물을인식하기위해서는 2 만가지이상의사물을구분할수있어야하며, 한종류의객체를인식하기위해서는훈련 ( 학습 ) 과정을거치는기술 직관적사물의인식 : 학습된인식기는사물을즉시적으로인식할수있으며, 동작이나장면을이해하는기술 심층적상황인식 : 사물의일부가가려지거나처음접하는사물은직관적으로인식할수없고, 주변상황이나외부데이터와연계하여추론함. 또한다양한객체들이상황을만들어내는경우이를이해하는기술 시각지능을구성하는주요기술의활용방안 시각지능은사람의눈을대신하는것으로산업체의품질검사, 의료영상에서질병탐지, 지능형 CCTV 에서사건 / 사고감시, 소셜미디어분석뿐아니라자율주행자동차, 지능형로봇까지산업전반에걸쳐활용가능 시각지능시스템은대규모이미지데이터를학습하여다양한종류의사물을인식하고이해하는기술로, 사람을대신하여사물을인식하고학습하여다양한영상데이터가가지고있는의미정보를분석해내는플랫폼 05
1. 배경 영상데이터의기하급수적증대 스마트폰, CCTV, 블랙박스, 드론, 인공위성, 디지털카메라등에서수집되는영상데이터의양은기하급수적으로증가 - 2012년전세계에서하루에생산되는데이터량은 2.5엑사바이트 (1엑사바이트 = 1,000,000 테라바이트 ) 로추정 - 전세계데이터의 90% 이상이 2년이내에만들어졌으며, 그중 80% 가비디오또는이미지같은비정형영상데이터로파악되고있음 (IBM 13년) - 전체인터넷트래픽의 60% 이상이멀티미디어데이터이며, 스마트폰에서생산되는네트워크트래픽의 70% 이상이고, 비정형데이터의 70% 이상이멀티미디어데이터잉 빅데이터기술의대두로대규모비정형데이터에서정보가치를창출하는방법에대한요구가증대되고있음 - 기술이점차발달하면서단순한영상인식기술보다는다양한상황과객체들의관계를이해하는상황및장면이해기술이빠르게발전하고있음 - 통계적학습기술이소개되면서영상인식기술이특정객체의탐지정확도중심의기술에서다양한객체를인식할수있는가능성에대한기대도증가하고있음 관련기술의발전 대규모데이터수집, 저장기술및처리기술의발전 - 데이터저장스토리지기술의비약적인발전으로테라바이트당가격이마그네틱테이프와디스크사이의격차가줄어들면서분석에대한수요가증가 - 인터넷크롤링기술의발전으로대량데이터수집이용이해지고데이터를활용, 공유하는기조가널리퍼지면서수집가능한정보역시증대 - 여러노드를사용하여데이터를저장관리하는스케일아웃분산병렬시스템의발전으로대용량의정보저장및처리가가능 06
ISSUE 1 시각지능기술동향 - 기술개발사례중심 영상인식기술의발전 - TRECVID, ILSVRC 와같이, 시각적데이터로부터인간이인지할수있는정보를얻기위한기술개발경쟁이점차가속화되고있음 영상인식기술은높은경제적가치와사회적가치를가짐 세계시장규모는 2013년 334억달러에서 2018년 740억달러로성장하여연평균 17.21% 의고성장이기대되는분야임 - 세계시장규모는 2015년을기점으로증가속도가급증하여 2018년에는 18.49% 의고성장이지속될것으로예상됨 영상분석 SW 시장은지능형영상분석 (CCTV 포함 ), 머신비전, 내용기반영상광고시장을대상으로함 (MarketsandMarkets 12년, BBC Research 13년, IDC 13년자료취합 ) 국내시장은 2013년 6,835억원에서 2018년 1조 4,817억원으로연평균 16.74% 성장이기대되며장기적인관점에서도높은성장세가유지될것으로전망 - 국내시장규모는모바일디바이스에서이미지 / 동영상사용량이증가하고있으며, 실제 2017년을기점으로증가속도가급증하여 2018년에는 18.12% 의고속성장이예상됨 시각지능의사회적가치는다양한분야에서시각지능을활용하는활용성을넘어과거에는불가능했던새로운분야의영상인식기능으로확장하고있음 - 기술활용측면에서는특정분야가아닌일반적인시각지능을구현하는기술이라새로운가치창출과신비즈니스산업육성이가능할것으로기대됨 - 공공사회측면에서는사회안전망이나재난재해예방을위한보조시스템으로활용가능하여보다빠른대응과적절한조치가가능할것으로기대됨 07
2. 시각지능을위한이미지뱅크기술동향 시각지능은영상인식의수준과다양성이기반이되는분야로많은종류의데이터와이를통한지식 체계를만드는것이중요한기술 시각지능을위한학습데이터세트를구성하는것은객체, 장면, 비디오의다양한환경에서구축이본격화 되고있음 영상데이터베이스를구축하는것은주로미국대학들을중심으로진행되고있음. Stanford, MIT, NYU 등의대학이중심이되고있으며각기서로다른주제에따라데이터를수집하고공개 / 공유하고있음 [ 그림 1] 영상인식을위한데이터뱅크구축사례 인식체계기반의스탠포드 ImageNet [1] 대규모의이미지학습을위한연구용데이터베이스로 Google, Microsoft 등에서영상의학습용데이터로 활용하고있음 Stanford 는태깅되지않은영상데이터소스에서스스로학습하는자기학습 (Self-taught Learning) 방식을연구하면서다양한종류의데이터베이스를확충 ImageNet 은 WordNet 을기반으로데이터베이스를확장하고있으며, 최종적으로 WordNet 의약 80,000 가지 Synset( 동의어단위로묶은단어들 ) 의의미를각 Synset 당 1,000 개이미지로표현하는것이목표 08
ISSUE 1 시각지능기술동향 - 기술개발사례중심 구글브레인 X 프로젝트에서시각인식기반의인공지능기술개발에도 ImageNet 연구팀이참여하고있음 현재총 21,841 개카테고리를구축하고개별평균약 700 여개의이미지를확보. 종류에따라서수십장의 이미지만수집된경우도있음 학습의편의성증대를위해, 일부의이미지는객체의위치를알려주는바운딩박스나저수준특징 (SIFT) 을 저장하고있음 객체 ( 명사 ) 중심의데이터온톨로지체계이며, 객체의동작이나객체간의상호관계에기반을둔의미 부여가불가능하다는단점이있음 [ 그림 2] ImageNet 의분류체계및샘플데이터 ImageNet은 2010년부터자신들의데이터베이스를중심으로다양한객체를인식하는챌린지대회 (ILSVRC: Large Scale Visual Recognition Challenge) 를매년개최하고있으며, 해마다주제와학습데이터를변경하여시행하고있음 - 2014년은 Detection과 Classification&localization 2가지분야로대회가개최되었으며세부대회까지 4개그룹으로대회가진행됨 - Google은객체검출모델의앙상블조합으로괄목할만한성과를발표하였고, Deep Neural Networks 활용과다중모델의적용기술이주요이슈로등장 09
장면중심의 MIT SUN [2] MIT 에서운영하는대규모장면인식및분류를위한학습용데이터베이스이며, SUN(Scence UNderstanding) 의 이름으로벤치마크결과자료와함께공유하고있음 최근장면및상황에인식요구가증대되고있어이를연구할수있는데이터베이스를별도구축한것으로 3 단계계층화를통해관리운영되고있음 장면관련이미지유형은 908 개의장면카테고리와 3,819 개의물체카테고리로구분하고있으며장면 카테고리중상위 397 개카테고리를인식에사용하고있음 장면은크게실내, 실외자연물, 실외인공물의세가지대분류로나뉘어지고, 각각의대분류는두단계의 하위분류로나뉘는계층적구조를가짐 객체의경우 XML 의형태로객체정보가저장되고있음 컴퓨터에의한이미지장면인식은정제된카테고리에대하여평균 38% 의인식률을보임 ( 인간의경우 68% 의장면인식률 ) [ 그림 3] ImageNet 의분류체계및샘플데이터 10
ISSUE 1 시각지능기술동향 - 기술개발사례중심 비디오중심의 Databrary [3] 2013 년 12 월뉴욕대학교 (NYU) 와펜실베니아주립대 (Penn. State U.) 가추진하고있는오픈소스 프로젝트로, 연구와관련된비디오및메타데이터를수집, 공유할수있는디지털도서관개념을제안 발달및행동과학분야에서비디오분석을통한인간의사회적행동이해를목적으로추진하고있으며 미국 NSF, NIH 지원을받아과제수행 NSF: National Science Foundation, NIH: National Institutes of Health 데이터도서관은정보검색및재활용기능을중심으로비디오공유를위한저장관리기능, 스코어링기능, 분석기능, 관리기능개발에중점 데이터확보방안은개방과공유를표방하고있으며, 공유를많이하면더많은관심데이터가생기고 이를다시공유하는선구조를제안하고있음 More interesting data More contributors More users [ 그림 4] Databrary 의데이터획득을위한선순환구조 3. 시각지능을위한영상인식및내용이해기술동향 영상의내용을이해하는기술은미국을중심으로많은연구가진행되고있으며, 상황이해와행동분석을 통해가까운미래를예측하는기술로발전하고있음 영상의내용을이해하는기술은 DARPA 주도의군사목적프로젝트가주도적역할을수행하고있음. DARPA 주도의 VIRAT [4] 과 Mind s Eye [5] 과제가대표적임 VIRAT: Video/Image Retrieval and Analysis Tool 의약자 11
DARPA VIRAT 프로젝트 [4] DARPA : Defense Advanced Research Projects Agency의약자 대규모감시비디오데이터에서관심있는콘텐츠를신속하게검색하고특정행위를자동인지하는분석도구를개발 연구는 DARPA 에서경쟁과제형식으로추진하여 1 단계 3 년간 1 년에 1,982 만달러씩을 3 개컨소시엄에 지원 컨소시엄은 BAE Systems 가주도하는컨소시엄이 720 만달러, Kitware 가주도하는컨소시엄이 670 만달러, 로키드마틴이주도하는컨소시엄이 592 만달러지원받음 총 3 단계로연구개발로구성되어있으며, 1 단계프로토타입개발, 2 단계시스템적용, 3 단계군사시스템 적용의단계를기획 2 단계사업은 1 단계평가에따란 Kitware 주관이컨소시엄이사업을주도하며 6 개메이저국방회사가 포함되고, 13 개대학이참여하는구조로수행 VIRAT 시스템은등록된객체의출현이나학습된행위를자동인지하는기술이핵심으로이미지 / 비디오 모니터링시스템에효과적으로적용할수있게설계 인지되는내용은객체보다는행동인식을중점적으로연구하여현재 23 가지행동을인지할수있는것으로 알려짐 검색기술은 2 시간분량의비디오에서수초에서수분안에응답이오는것을목표로시스템개발이진행중에 있으며, 정확한분석수준이나분석의대상이되는프레임의규모는알려진바없음 [ 그림 5] DARPA VIRAT 프로젝트개념도 12
ISSUE 1 시각지능기술동향 - 기술개발사례중심 DARPA Mind s Eye 프로젝트 [5] 동영상에서객체를인식하고인식객체의행위를인지하여상황을판단할수있는시각지능개발을 목표로함 행동인식을위해마이크로수준의객체구분과분류기술을개발하고최종 48 종동사 ( 행동 ) 인식을 기술목표로잡고있음 실제장면에대한분석을위해 HOMIE(Hybird Ontology for the Mind s Eye) 를구축하고입력비디오에 대해저수준비전과오브젝트추출을통해분석하고있으며행동과행동의연계분석을통해다음에발생할행동을예측 [ 그림 6] Mind s Eye 에서행동을인식하는방식, 출처 : CMU 2012 CMU는 Mind s Eye 프로젝트에참여하면서사람이가지고있는일련의인지과정을모델링한 ACT-R(Adpative Control Thought-Rational) 기술을영상으로부터사람의행동을이해하는기술에확대적용 ACT-R 인지시스템은사람의인지과정을즉시적인지기술과심층적인지기술로나뉘며, 심층적인지과정에는행동의추론과다양한상황을이해하는기술이포함됨 ACT-R 인지시스템에서상황을이해하기위한기술로는미인식이벤트의시계열보간 (Interpolation) 과행동 / 사건의예측알고리즘고도화임 13
[ 그림 7] 사람의인지과정을모델링하는 ACT-R 다양한분야의영상인식프로젝트 U.of Maryland 및 U. of Pennsylvania에서는비디오의내용을이해하여스토리라인을자동생성하는연구결과를발표 - 야구경기비디오를파싱 ( 행동인식 ) 하여행동과행동에대한 AND-OR 그래프를생성하여비디오에서어떤일들이있었는지를분석 [ 그림 8] 야구진행내용을자동정리하는기술 14
ISSUE 1 시각지능기술동향 - 기술개발사례중심 4. 시각지능을위한플랫폼기술동향 IBM, Microsoft, Google 등의글로벌기업들은이미지 / 동영상의심층분석을기반으로하는차세대 지식산업창출을목적으로다양한연구를추진하고있음 시각지능플랫폼기술은기존의영상인식기술과달리특정인혹은특정사물을인식하는대신에영상이 가지고있는포괄적인정보를인식하는것이목적 플랫폼기술은다양한부가기술이하나로묶이는시스템으로 IBM, Microsoft, Google 과같은글로벌 기업을중심으로빠르게성장하고있음 IBM T.J. Watson 의 IMARS [6] IBM T.J Watson 연구소를중심으로 2000 년초반부터 IMARS 개발을추진하고있으며 2012 년부터 빅데이터기술과결합한시스템기술로발전하고있음 IMARS: IBM Multimedia Analysis and Retrieval System 의약자 이미지영상에서하나의상황혹은하나의객체를찾지않지않고전체의특징점분포를분석하여객체 및상황을이해하는기술을제시 실제인식범위는건축물 ( 다리 ), 음식, 화재, 지진, 퍼레이드, 불꽃놀이, 군인, 전쟁등다양화되어있고 점차인식가능한범위가확대되고있음 통계적분석방식을이용하고있기때문에데이터규모가커지면더다양하고세부적인상황을인식 할수있음 분석대상이되는내용은객체추적, 안면인식, 교통량분석, 이벤트합성분야에서기반기술로활용되고 있으며, 기본인식대상은객체, 사람, 장면, 활동의 4 가지범주를대상으로하고있음 15
[ 그림 9] IBM 비디오빅데이터분석시스템 - Video/Imagery Analytics 분석대상이되는내용은객체추적, 안면인식, 교통량분석, 이벤트합성분야에서기반기술로활용되고 있으며, 기본인식대상은객체, 사람, 장면, 활동의 4 가지범주를대상으로하고있음 Microsoft WISE [7] and ADAM 프로젝트 [8] WISE: Web Image Search and Exploration 대규모웹이미지검색의빠른검색을지원하기위한 WISE 프로젝트, 컴퓨터비전에 DNN 기술을접목한인식시스템에는 ADAM 프로젝트를준비 WISE 프로젝트는이미지재현을위한대규모기계학습및효율적인이미지인덱싱과질의방법을 개발하고있으며, 콘텐츠기반의이미지검색기술이중심 ADAM 프로젝트는 120 대시스템을묶어서 Google 의 1,000 대컴퓨터와같은수준의성능을달성하고 2 배의정확도를가지는기술을소개 ADAM 프로젝트는비동기 DNN 기술을활용하여기존방식보다우수한성능을확보하였다고하지만, 학술적인검증이되지않았음 비동기 DNN 기술은여러시스템이하나의메모리를동시에접근하고쓸수있도록하여 DNN 을구현한기술 빠른검색을위한멀티미디어색인, 대규모시스템으로의확장성, 심층기계학습을통한빠르고 정확한인식을중심으로새로운플랫폼개발에집중 16
ISSUE 1 시각지능기술동향 - 기술개발사례중심 Google 브레인 X 프로젝트 구글은컴퓨터가사람처럼사물을구분하고인식, 학습하수있는기술을오랜기간수행해보고있으며, 최근에는브레인 X 프로젝트의일환으로시각지능을연구 2011 년이미지 / 영상에서랜드마크자동인식기술을공개한이후 2012 년 DNN(Deep Neural Networks) 기반의영상인식기술로고양이인식결과를선보임 2011 년, 영상인식기술에서 Deep Neural Networks 기술을도입하고브레인 X 프로젝트를시작 2012 년 DNN 기반의연구발표에서 16,000 코어 (1,000 대의컴퓨터 ) 를연결하여클러스터를구성하고 9 개계층의 10 억개신경망을구축하여스스로사람얼굴과고양이를인식하는기술을개발 [ 그림 10] Google Deep Neural Networks 시스템구현 Google이개발한시스템은유튜브에서무작위로크롤링된이미지데이터를대상으로심층학습을수행하였으며, Stanford ImageNet의 21,841개카테고리 1,400만개이미지를인식한결과 15.8% 의인식률을선보임 [9] - 인식률 15.8% 는기존연구대비약 70% 의성능이향상된기술임 2013년 Google은 ImageNet 2012에서우승한토론토대학의 Geofrrey Hinton 교수를영입하면서본격적인연구개발에돌입 - Hinton 교수는 2012년 CNN(Convolutional Neural Networks) 기술을이용하여ImageNet 챌린지대회 ILSVRC-2012에서우승 17
[ 그림 11] U. of Toronto 의이미지인식결과 - 기존의 Multiple SVM 기술대비 CNN을적용한기술은 Top5 에러율에서 15.3% 를기록하여 2위 26.1% 와확연한차이를보임 [ 그림 12] ILSVRC-2012 에서이미지인식오류비율의비교 5. 시각지능을위한플랫폼기술동향 시각지능에서다양한종류의객체를빠르고광범위하게인식하기위해서는대규모의데이터를빠르게처리하는기술이필요, 이를위해최근대두되고있는빅데이터기술접목이두드러짐 - 대규모데이터분석에활용하는 MapReduce 기반의분산처리기술과 GPGPU 기반의병렬처리기술이핵심으로부상하고있음 미국지질조사국의경우위성영상을분석하는시스템에단순히빅데이터기술을도입하여하루 445장처리하던시스템이하루 4,800장처리가가능해짐 18
ISSUE 1 시각지능기술동향 - 기술개발사례중심 - 위성영상은기후변화, 위험및재난, 원격탐사를위한위성영상으로작업의분할및병렬화가용이한기술분야이며, 적용알고리즘에따라성능이상이함 미국버지니아대학의 HIPI 프로젝트 [10] 미국버지니아대학은대규모의영상에대해빅데이터기술을쉽게적용하고사용하기위한인터페이스 HIPI (Hadoop Image Processing Interfae) 개발이진행중에있음 Google, IBM 등글로벌기업들의지원을받아수행하고있어대규모영상플랫폼을개발하는기업의 연구와무관하지않음 주로이미지처리 SW 와 Hadoop 시스템을결합한기술개발에주력하고있으며아직은소규모라이브러리를 제공하고있는수준임 [ 그림 13] 버지니아대학에서개발하고있는 HIPI 기술 IBM 의 IMARS 분산, 병렬화프로젝트 IBM은 2012년이후자사의 IMARS를확장하여빅데이터기술과접목하고있으며이를이용한플랫폼화전략을구사하고있음 Hadoop의분산파일시스템과 MapReduce 프로그래밍을통해여러가지특징추출및분류기술을동시에수행하고그결과를병렬적으로통합하도록시스템을설계함 학습에서는대규모의이미지들에대한다양한형태의특징추출방법을분산병렬로수행하여특징점학습을통계적방법으로수행하는시스템을구축 19
[ 그림 14] IBM 의하둡시스템을도입한영상인식플랫폼 [11] 영상처리의고속병렬처리 대규모분산처리와더불어고속의병렬처리기술도영상에많이적용되고있으며, GPGPU 를이용한 병렬화알고리즘개발은어느정도가시적인결과를보이고있음 영상처리알고리즘에따라성능차이는있지만기존시스템대비 GPGPU 를사용하는경우 2 배에서 9 배 정도의속도향상을보이는것으로연구되고있음 지금까지의 GPGPU 의성능향상속도를비추어보면 2018 년이면지금보다 6 배정도빨라질것으로 예상되나, 최근 GPU 설계의이슈는고성능에서저전력으로바뀌고있음 GPGPU 자체의성능에비해주변의장치및 I/O 성능이부족하여성능저하의원인이되고있어병렬화 알고리즘의고도화와네트워크및 I/O 병목현상제거가큰이슈로부각되고있음 GPGPU 클러스터를구축하는경우 GPU 사이의데이터교환에많은지연이발생하고있어최근에 GPUDirect 기술이부각되고있음. 실제 CPU를거치지않고 GPU들사이의데이터를교환하여시스템메모리대역폭을줄여줌 20
ISSUE 1 시각지능기술동향 - 기술개발사례중심 [ 그림 15] 네트워크병목현상을제고하기위한 GPUDirect 기술 분산처리시스템의고속화 SPARK 버클리대학에서는분산병렬처리속도를개선하기위해인메모리형태의분산병렬프레임워크인 SPARK 을 개발하여공개 MapReduce 기반의프로그램에서는분산병렬처리에따른데이터입 / 출력이자주발생하여전체적인 성능저하를유발하고있음. SPARK 과제에서는메인메모리상주형프로세싱기술을채택하여기존대비최대 100배빠른성능을보여줌 영상은처리해야하는데이터의규모가크기때문에초기처리데이터를줄이기위한전처리작업이필요하며, 일괄처리방식의분석이전에전처리단계에서인메모리방식의기술을접목하는것이성능향상이도움이될것으로예측 6. 결론 영상을재생하는시대에서영상을읽고이해하는시대로변화 영상을기록하고저장하는시대에서내용을이해해서나를대신하여읽고분석하는시대로발전 컴퓨터에게시각지능을부여하여위험상황이나지속적인모니터링이필요한분야에서사람을대신할수있고, 사람이상황을판단하는데보조적인역할수행가능 21
- 영상인식기술이발전하면서기능적인측면에서사람보다우수한부분도있고사람을따라갈수없는분야도있기때문에상호보완적인역할을수행음 영상인식알고리즘경쟁에서영상이해플랫폼경쟁으로변화 시각지능은글로벌기업을중심으로플랫폼화하는경향이강함. 특히대규모의데이터를분석하여새로운지능엔진개발에박차를가하고있어국내독자적인기술확보가필요한분야임 시각지능은세부알고리즘을고도화하는대학교과시스템기술을개발하는기업 / 연구소의협력을통한연구가바람직하며장기적인관점에서지속적인투자가필요함 참고문헌 [1] Stanford, ImageNet, http://www.image-net.org/ [2] MIT, SUN database, http://groups.csail.mit.edu/vision/sun/ [3] Databrary, [Online] http://databrary.org/ [4] DARPA, BAA-08-20: Video and Image Retrieval and Analysis Tool (VIRAT), March 03, 2008. [5] DARPA Mind s Eye, http://www.darpa.mil/our_work/i2o/programs/minds_eye.aspx [6] IBM Multimedia Analysis and Retrieval System, http://mp7.watson.ibm.com/imars/. [7] Microsoft, Web Image Search and Exploration (WISE), http://research.microsoft.com/en-us/projects/wise/. [8] A Krizhevsky, ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012. [9] Microsoft ADAM, http://www.theregister.co.uk/2013/11/15/google_thinking_machines/ [10] U. of Virginia, HIPI : Hadoop Image Processing Interface, http://hipi.cs.virginia.edu/ [11] IBM Research-Columbia Univ. Semantic Indexing Task, 2012. 22