- PDF Free Download

Save this PDF as:

WORD PNG TXT JPG

Size: px

Start display at page:

Download ""

정원 삼
6 years ago
Views:

1 ISSN Communications of the Korean Institute of Information Scientists and Engineers

3 정보과학회지 제 33 권제 8 호통권제 315 호 3 딥러닝이론과응용 특집을내면서 / 최재식 최원익 5 특집계획 6 특집원고모집 7 월별학술행사개최계획 8 학회동정 특집원고 11 딥하이퍼넷모델 / 장병탁 25 다양한딥러닝알고리즘과활용 / 김지원 표현아 하정우 이찬규 김정희 32 Dropout 알고리즘에대한이해 / 최희열 민윤홍 39 심층순환신경망 / 정경중 최재식 44 이진신경망의학습과활용 / 김민제 49 CAFFE를이용한심화학습기반영상객체인식 / 장길진 박정식 기관탐방 55 소프트웨어중심사회의 Think Tank, 소프트웨어정책연구소 / 김석원 논문초록 61 정보과학회논문지 7 월호 게시판 66 해외학술행사개최안내 70 해외학술행사논문모집안내 학회소식 74 회의개최결과 74 학술행사개최결과 75 임원및위원명단 80 특별회원기관 81 입회안내 82 박사학위논문초록 83 정보과학회지투고규정

4 Communications of KIISE August 2015 Vol. 33 No. 8 Serial No. 315 Contents 3 "Deep Learning, Theory and Applications" About This Issue / Jaesik Choi Wonik Choi Special Issues 6 Call for Proposals 7 Upcoming Academic Conferences 8 KIISE News I Special Feature 11 Deep Hypernetwork Models / Byoung-Tak Zhang 25 Deep learning algorithms and applicaitons / Jiwon Kim Hyuna Pyo Jungwoo Ha Chankyu Lee Jeonghee Kim 32 Understanding Dropout Algorithms / Heeyoul Choi Yunhong Min 39 Deep Recurrent Neural Network / Kyungjoong Jeong Jaesik Choi 44 A Training Scheme for Bitwise Neural Networks and Their Applications / Minje Kim 49 Visual Object Recognition Based On Deep Neural Networks Implemented by CAFFE / Gil-Jin Jang Jeong-Sik Park Visits 55 Software Policy & Research Institute: Think Tank in Software Oriented Society / Seok Won Kim Journal Summary 61 Journal of KIISE, July, 2015 Bulletin Board 66 Call for Participation 70 Call for Papers KIISE News II 74 Report on Committee Meeting 74 Report on Academic Conference 75 Board and Committee Members 80 Special Members 81 Guide for Membership 82 Call for Doctoral Thesis Abstract 83 Guideline for Submission

5 권두언 딥러닝이론과응용 특집을내면서 울산과학기술원 최재식 인하대학교 최원익 최근시장동향조사기관인가트너는 2014년주목할만한기술분야중하나로딥러닝 (Deep Learning) 을꼽으면서 2017년이되면컴퓨터의 10% 는기존의전통적인데이터처리가아닌딥러닝기반의학습에이용되고있을것이라고언급하고있습니다. 딥러닝은여러선형-비선형변환기법의다계층적인조합을통해빅데이터에서특정목표로하는기계학습 (machine learning) 문제에필요한특징을자동으로추출하는알고리즘의집합으로정의될수있습니다. 광의로는사람수준의지능을컴퓨터에게가르치는인공지능의주요한한분야라고이야기할수있습니다. 이러한딥러닝의발전은 임의의함수를선형, 비선형함수의계층적구조로근사시킬수있는가? 란보편적근사성 (universal approximator) 에대한질문을실증적으로밝혀가는과정이라고할수있었습니다. 본격적인다계층인공신경망구조는 1980년 Kunihiko Fukushima에의해소개된이후, 1989년에 Yann LeCung의오류역전파알고리즘에기반한 deep neural networks 등이소개되어그가능성을보였습니다. 그러나, 느린학습속도, 과적응문제, 진동 / 발산문제등으로관심에서멀어졌다가학습알고리즘의발전, 하드웨어의성능향상, 그리고대량의학습빅데이터가수집 / 구축이가능하게된세가지요인으로인해최근다시딥러닝이부활하게된것입니다. 국내외유수의대기업들은딥러닝전담팀을만들거나핵심기술을가진업체를 M&A하거나주요인물들을영입하는등앞으로다가올딥러닝빅뱅을준비하고있습니다. 아울러미국 DARPA 는 2008년부터시냅스 (SyNAPSE) 프로그램을통해 IBM과 HRL, 대학등이컨소시엄으로인지컴퓨팅 (Cognitive Computing) 을연구하고있으며, EU는미래기술 (Future Emerging Technology) 로브레인컴퓨팅을선정, 2011년포유류의두뇌를모사하는대규모인공지능컴퓨팅기술개발을시작한바있습니다. 정부도 세계최고인공지능기술선도 라는비전을달성하기위하여미래창조과학부소프트웨어분야의국가혁신기술개발형 R&D 과제인 엑소브레인 을 2013년부터 10년간진행해오고있습니다. 이러한흐름에따라정보과학회는 8월부터세달연속으로 딥러닝이론과응용, 컴퓨터비전응용을위한심층학습, 및 심층학습을이용한언어처리 라는주제로세번의특집호의발행을기획하였습니다. 그시작으로이번특집호에서는 딥러닝이론과응용 이라는주제로원고를구성하였습니다. 딥러닝은한가지로통일된모델이있는것이아니라, 데이터및작업의특성에따라서다양한계층적구조및알고리즘이필요로합니다. 관련하여이번특집호에서는서울대의 딥하이퍼넷아키텍처, 울산과기원의 심층순환신경망, 일리노이주립대 (University of Illinois at Urban-Champaign) 의 이진신경망 을소개하였습니다. 딥러닝은국내외산업체가대량의학습데이터를기반으로기술의발전을이끌고있다는것이매우중요하다는점에서, 이번특집호에서는국내에서활발하게연구 정보과학회지 3

6 활동을진행하는네이버랩스의 멀티모달딥러닝 및삼성종합기술원 다양한 Dropout 알고리즘 을통하여딥러닝의전문적인경험을소개하였습니다. 또한, 딥러닝에관심있는분들이쉽게딥러닝을시작할수있도록경북대의장길진교수님과영남대의박정식교수님께서가장많이사용되는딥러닝플랫폼중의하나인 CAFFE에대한구체적인설명을소개하였습니다. 마지막으로딥러닝기술은다양한소프트웨어기술이핵심적인역할을합니다. 관련하여기관탐방에서는국내소프트웨어생태계활성화에노력을기울이고있는 소프트웨어정책연구소 의활동을소개하였습니다. 2015년 8월호의출간을위하여바쁘신와중에도좋은원고를기고해주신저자분들께깊이감사드립니다. 또한본특집호완성을위해서많은조언과관심을보여주신학회지편집위원장님과편집위원님들께깊은감사의마음을전합니다. 마지막으로일정관리와편집에많은도움을준정보과학회사무국의최희수씨에게감사의인사를드립니다. 4 정보과학회지권두언

7 특집계획 정보과학회지월별특집계획 정보과학회지월별특집은아래와같으며, 회원여러분의많은참여를기다리고있습니다. 예정된특집분야에대한독자여러분의의견이있으시면해당담당편집위원에게연락주시기바랍니다. 해당월의원고마감은 2 개월전말일까지입니다. 투고를원하시는분은해당담당편집위원과상의하시고, 마감일을준수하여주시기바랍니다. 월특집주제담당편집위원연락처 2015 년 3 월 보건의료정보김일곤 ikkim@knu.ac.kr 4 월바이오덱스트마이닝 이현주송민 hyunjulee@gist.ac.kr min.song@yonsei.ac.kr 5 월핀테크보안 윤명근최대선 mkyoon@kookmin.ac.kr sunchoi@etri.re.kr 6 월범부처 IT 융합협력 R&D 사업국방과제권경용 ka-ja17@hanmail.net 7 월소프트웨어안전유준범 jbyoo@konkuk.ac.kr 8 월심층학습 (Deep Learning) 의이론과응용 최원익최재식 wichoi@inha.ac.kr jaesik@unist.ac.kr 9 월 컴퓨터비전응용을위한심층학습 (Deep Learning for Computer Vision Applications) 김준모한보형 junmo@ee.kaist.ac.kr bhhan@postech.ac.kr 10 월심층학습 (Deep learning) 을이용한언어처리 박혁로나승훈 hyukro@chonnam.ac.kr nash@bufs.ac.kr 11 월 Wearable UX 김형석 jwlee@sejong.ac.kr 12 월 Dependable Computing 허준영 jyheo@hansung.ac.kr 2016 년 1 월 소프트웨어보안과저작권 박용수한상철 yongsu@hanyang.ac.kr xesy@naver.com 2 월고성능컴퓨팅엄현상 hseom@snu.ac.kr 3 월프로그램분석과검증 창병모박성우 chang@sookmyung.ac.kr gla@postech.ac.kr 4 월핀테크황호영 hyhwang@hansung.ac.kr 5 월산업현장에서의소프트웨어테스트기술서주영 jyseo@ajou.ac.kr 음영부분은원고마감 정보과학회지 5

8 특집원고모집 정보과학회지특집원고모집 정보과학회지편집위원회에서는매달특집주제에어울리는원고들을상시모집하고있습니다. 특집주제에관심있는회원님께서제목과초록을담은간단한제안서를제출해주시면, 위원회에서제안서심사후통과된저자에게원고를받아게재하고있습니다. 아래사항을참고하시어회원님들의많은관심과투고를바랍니다. 월호제출기한특집주제제출및문의 ( 담당편집위원 ) 2015 년 10 월 8 월 31 일심층학습 (Deep learning) 을이용한언어처리 전남대박혁로교수 / hyukro@chonnam.ac.kr 부산외국어대나승훈교수 / nash@bufs.ac.kr 11 월 9 월 30 일 Wearable UX 세종대김형석교수 / jwlee@sejong.ac.kr 12 월 10 월 31 일 Dependable Computing 한성대허준영교수 / jyheo@hansung.ac.kr 제안서형식 : 특집원고제목, 저자 ( 소속, 연락처 ), 초록 ( 약 300단어 ) 제출기한 : 해당월의 2개월전말일 기타 : 게재된원고에대해서는소정의원고료를지급합니다. 독자칼럼모집 정보과학회회원여러분의건승을기원합니다. 저희학회지편집위원들은보다유익하고재미있는학회지, 그리고회원들과소통하는학회지를만들고자노력하고있습니다. 그일환으로학회지에독자칼럼을게재하고있으며, 학회와학회지의발전을위한회원님들의의견기다립니다. 보내실곳 : 학회사무국 editor@kiise.or.kr 6 특집원고모집정보과학회지특집원고모집

9 행사계획 월별학술행사개최계획 월행사명및홈페이지개최일자및장소주관및주최문의처 바이오헬스융합워크샵 대회장 8.19 서울대학교박물관인공지능소사이어티이성환교수 프로그래밍언어연구회 (SIGPL) 2015 학술대회 동아대학교 프로그래밍언어연구회 조직위원장최광훈교수 패턴인식및기계학습여름학교 고려대학교 인공지능소사이어티 대회장이성환교수 년 8 월 인간 - 기계지식소통을위한자연어 QA 워크샵 - 엑소브레인인공지능 네이버 인공지능소사이어티 조직위원장최호진교수 hojinc@kaist.ac.kr SWCC2015( 하계컴퓨터통신워크샵 ) 8.24 중앙대학교 정보통신소사이어티 대회장김기천교수 kckim@konkuk.ac.kr 리눅스커널캠프 한국항공대학교 컴퓨터시스템연구회 대회장원유집교수 yjwon@ece.hanyang.ac.kr 2015 년한국정보과학회고신뢰컴퓨팅연구회하계워크샵 (WDCS2015) 제주대학교 고신뢰컴퓨팅연구회 대회장전광일교수 gijeon@kpu.ac.kr 9 월 2015 년인공지능심포지엄 코엑스 인공지능소사이어티 대회장이성환교수 swlee@image.korea.ac.kr The 23rd IFIP World Computer Congress(WCC 2015) 대전컨벤션센터 한국정보과학회 학회사무국 kiise@kiise.or.kr 10 월 제 27 회한글및한국어정보처리학술대회 제 33 회미래정보기술 산업전망 2016 (itip2016) 전주대학교 언어공학연구회 대회장김재훈교수 jhoon@kmou.ac.kr 한국과학기술회관한국정보과학회학회사무국 kiise@kiise.or.kr International Conference on Perception, Action, and Cognitive Computing(PACC) 서울대학교 한국정보과학회 학회사무국 kiise@kiise.or.kr 12 월제 42 회정기총회및동계학술발표회 평창휘닉스파크 한국정보과학회 학회사무국 kiise@kiise.or.kr 2016 년 1 월 International Conference on Big Data and Smart Computing (BigComp 2016) 소프트웨어컨버전스심포지움 (SWCS2016) 홍콩 한국정보과학회 학회사무국 kiise@kiise.or.kr 한국과학기술회관한국정보과학회학회사무국 kiise@kiise.or.kr 정보과학회지 7

학회동정 학회동정 국제정보올림피아드 (IOI) 한국대표단종합 1 위달성 지난 7월 26일부터 8월 2일까지 8일동안카자흐스탄알마티에서개최된 2015년도국제정보올림피아드 ( 이하 IOI) 에한국대표단이참가하여금3, 은1의성적으로중국, 러시아, 미국과함께종합 1위를달성하였다. 특히대표학생중경기과학고 3학년윤지학학생은 600점만점으로개인 1위의쾌거를이루었다.

이번 IOI에는총 84개국 324명의학생들이참가하였으며, 우리대표단은윤지학 ( 경기과학고 3, 금 ), 조승현 ( 서울과학고 3, 금 ), 강한필 ( 경기과학고 3, 금 ), 구재현 ( 경기과학고 2, 은 ) 학생으로선수단이구성되었으며, 김성렬교수 ( 건국대 ), 이인복교수 ( 항공대 ) 가각각단장과부단장을맡았다.

10 학회동정 학회동정 국제정보올림피아드 (IOI) 한국대표단종합 1 위달성 지난 7월 26일부터 8월 2일까지 8일동안카자흐스탄알마티에서개최된 2015년도국제정보올림피아드 ( 이하 IOI) 에한국대표단이참가하여금3, 은1의성적으로중국, 러시아, 미국과함께종합 1위를달성하였다. 특히대표학생중경기과학고 3학년윤지학학생은 600점만점으로개인 1위의쾌거를이루었다. IOI는총 600점만점으로 7월 28일, 30일이틀에걸쳐하루에세문제씩알고리즘과프로그래밍능력을평가하는문제로진행되었다. 이번 IOI에는총 84개국 324명의학생들이참가하였으며, 우리대표단은윤지학 ( 경기과학고 3, 금 ), 조승현 ( 서울과학고 3, 금 ), 강한필 ( 경기과학고 3, 금 ), 구재현 ( 경기과학고 2, 은 ) 학생으로선수단이구성되었으며, 김성렬교수 ( 건국대 ), 이인복교수 ( 항공대 ) 가각각단장과부단장을맡았다. IOI는유네스코주최로중 고등학생들을대상으로하는국제컴퓨터과학 (Computer Science) 경진대회로우리나라는 1992 년 4회대회부터매년참가하고있으며, 올해역대최고의성적을달성한것이다. Call for Papers, BigComp2016( ) Big data and smart computing are emerging research fields that have recently drawn much attention from computer science and information technology as well as from social sciences and other disciplines. The goal of the International Conference on Big Data and Smart Computing (BigComp), initiated by KIISE (Korean Institute of Information Scientists and Engineers), is to provide an international forum for exchanging ideas and information on current studies, challenges, research results, system developments, and practical experiences in these emerging fields. Following the successes of the previous BigComp conferences in Bangkok, Thailand (2014), and Jeju, Korea (2015), the 2016 International Conference on Big Data and Smart Computing (BigComp 2016) will be held in Hong Kong. BigComp 2016 invites authors to submit original research papers and original work-inprogress reports on any aspects of big data and smart computing. Accepted papers will be published in the conference proceedings with an assigned ISBN and submitted to IEEE Xplore, SCOPUS, and EI Compendex. 제24기국제정보올림피아드 (IOI) 여름학교입교식개최지난 8월 4일에삼성전자인재개발원에서제24기국제정보올림피아드 ( 이하 IOI) 여름학교입교식이개최되었다. IOI 여름학교는 IOI에참가할한국대표선수단을선발하는단계중하나로 IOI 출제문제들을해결하는데필요한이론과실습을여름방학동안배우는집중교육훈련이다. 그리고매해 IOI교육생으로최종선발된학생들이처음으로받게되는교육이기도하다. 이번여름학교는 59명의중 고등학교교육생을대상으로 11박 12일의합숙일정으로진행되었으며교육이종료되는 8월 15일에는수료식이예정되어있다. Related Topics The topics of interest for BigComp 2016 include (but are not limited to): - Techniques, models and algorithms for big data - Tools and systems for big data - Machine learning and AI for big data - Data mining, graph mining and data science - Web search and information retrieval - Infrastructure and platform for smart computing - Models and tools for smart computing - Big data analytics and social media 8 정보과학회지학회동정

11 - Cloud and grid computing for big data - Hardware/software infrastructure for big data - Security and privacy for big data - Mobile communications and networks - Smart devices and hardware - Smart location-based services - Big data applications: Bioinformatics, Multimedia, Smartphones, etc. Submission Papers must be formatted in PDF according to the IEEE two-column format for conference proceedings and submitted through EasyChair, The direct link for paper submission is Papers can be either regular or short papers, where regular papers are limited to 8 pages and short ones to 4 pages. Details about the submission process including formatting instructions are at the conference website. Journal Publication Selected papers after suitable revisions and extension will be considered for publication in the following journal: - World Wide Web Journal (SCIE, IF=1.623) (Tentatively) Best Paper Awards Awards will be conferred at the conference to the authors of selected outstanding papers. Important Dates - Full paper Submission due: September 11, 2015 (23:59, HKT) - Acceptance notification: October 30, Camera-ready copies due: November 27, Conference: January 18-20, 2016 강원지부신임지부장, 전남대김수형교수 강원지부에서는 5 대지부장으로한림대학교송창근교수를선정하였으며임기는 2015 년 7 월 1 일부터 2017 년 6 월 30 일까지이다. 제 7 회아이디스 - 전자신문 ICT 논문 & 발명 PPT 공모전 아이디스 -전자신문 ICT 논문 & 발명 PPT 공모전은과학기술및 IT 관련대학 ( 원 ) 생의연구활동을활성화하는한편산업발전을도모하고이공계취업난해소에도움이되고자개최하는행사입니다. 아이디스, 전자신문에서주최를맡고우리학회는미래창조과학부, 대한전자공학회, 한국정보처리학회, 한국통신학회와함께후원을맡고있습니다. 접수기간 : 2015년 8월 17일 ( 월 )~11월 1일 ( 일 ) 결과발표 : 2015년 11월 16일 ( 월 ) 시상식 : 2015년 12월 2일 ( 수 ) 제출방법 : 행사홈페이지로인터넷접수 (contest.etnews.com) 문의처 : 자세한사항은행사홈페이지를참조하시기바랍니다 정보과학회지 9

12 종신회비특별할인안내 안녕하십니까? 항상함께해주시는회원님들께깊은감사를드립니다. 우리학회는 1973 년 3 월창립되어 2015 년 3 월에창립 42 주년을맞이하였습니다. 아직종신회원에가입하지못하신분들을위하여종신회비특별할인행사를아래와같이진행하오니, 행사기간을이용하여종신회원으로가입하시길부탁드리며, 주위분들에도많이권유하여주시기바랍니다. 감사합니다. - 아 래 - [ 종신회비특별할인 ] ~ 구분 할인전종신회비 할인후종신회비 회비금액 750,000원 600,000원 할인사항 - 만44세부터초과연령 3만원할인 - 만 63세이상은 20만원 - 만48세이하 60만원으로동일금액적용 - 만61세이상회비는 20만원 [ 종신회비조견표 ] 2015 년기준 만나이 ( 생년 ) 종신회비특별할인회비 44세 (1971년) 이하 45세 (1970년) 46세 (1969년) 47세 (1968년) 48세 (1967년) 49세 (1966년) 50세 (1965년) 55세 (1960년) 60세 (1955년) 61세 (1954년) 62세 (1953년) 63세 (1952년) 이상 750,000원 720,000원 690,000원 660,000원 630,000원 600,000원 570,000원 420,000원 270,000원 240,000원 210,000원 200,000원 600,000 원 좌동 200,000 원 만 50 세이상이신분은연령별할인을적용하여특별할인회비보다저렴하게입회를하실수있습니다. 또한, 할인된종신회비의납부부담을덜어드리기위해 3 회분할납부 (2016 년 2 월까지완납필요 ) 도시행하오니많은참여부탁드립니다. 연령별할인혹은종신회비의분할납부를원하시는경우사무국으로문의주시기바랍니다. 문의처 : 최희수사원 , hschoi@kiise.or.kr 10 정보과학회지종신회비특별할인안내

13 특집원고 딥하이퍼넷모델 서울대학교장병탁 * 1. 딥러닝개요 1) 기초인공지능연구분야이든머신러닝이최근들어 구글, 애플, 삼성등글로벌기업들이앞다투어확보 하려는핵심산업기술로발전하였다.. 머신러닝연구 의기원은 1959 년까지거슬러올라간다. 당시 IBM 연 구소의 Arthur Samuel 은체커게임에서기계가경험 을통해서스스로성능을향상하는기계학습의개념을사용하였다 [1]. 그러나실제적인머신러닝연구는 1986년에다층신경망학습알고리즘이개발되면서시작되었으며, 당시까지주류였던기호논리기반의인공지능기술의한계를극복하는데기여하였다 년대를통해서인터넷비즈니스에서 Decision Trees, Bayesian Networks, Support Vector Machines 등이정보검색, 데이터마이닝, 전자상거래, 추천서비스에활용되기시작하였다. 2000년대후반기에들어서머신러닝은 Apple Siri, IBM Watson, Google 무인자동차등에활용되면서인공지능산업을고도화하는데크게기여하였다. 특히최근에는딥러닝 (deep learning) 기술이음성인식, 물체인식, 비디오게임등에서인간의능력을능가하는성능을보이면서세간의주목을받고있다 [2,3]. 이는그동안축적된빅데이터를기반으로고성능컴퓨팅능력을이용하여복잡한구조의딥러닝모델을학습하는것이가능해졌기때문이다. 본고에서는딥러닝이연구뿐아니라실제산업현장에서사용되는이유와그특징을살펴보고, 딥러닝의일종인딥하이퍼넷 (Deep Hypernetwork, DHN) 모델 [4] 의구조와학습방법및응용사례를소개한다. Deep Hypernetwork 모델은기존의 Convolutional Neural Network (CNN) 이나 Deep Belief Network (DBN) 모델과는달리스트 * 종신회원 본연구는 2015 년도정부 ( 미래창조과학부 ) 의재원으로정보통신기술진흥센터의지원 (R SW 스타랩, mLife, HRI.MESSI) 과한국연구재단의지원 (NRF Videome) 을받아수행된연구임. 림형태의순차적으로관측되는데이터로부터실시간에온라인점진적학습을통해서고차적관계구조의지식을자동으로습득하는평생학습방법으로개발되었다. 1.1 왜딥러닝인가? 딥러닝은신경망기반의복잡도가큰머신러닝모델이다. 기존의신경망모델이한개의은닉층을사용한비교적단순한모델인것에비해서딥러닝모델은아주많은수의은닉층을사용한다. 인간뇌의시각피질에서도 V1, V2, V4 등점차적으로복잡한정보를추출하는일련의신경층들이발견되며딥러닝은이러한구조를모사한머신러닝모델이다. 예를들어, 하위층에서는비교적단순한정보처리 ( 예, 라인탐지 ) 를수행하고, 상위층으로갈수록점차복잡한정보를 ( 예, 에지검출과물체인지 ) 추출하는구조를사용하는것으로알려져있다. 최근에는백만장의이미지로구성된 ImageNet 데이터베이스에있는 1000 종류의물체를인식하기위해서구글에서개발한딥러닝구조는 22층의신경망층을사용하였다 [5]. 이러한복잡한학습구조는기존의두층짜리 Support Vector Machine이나세층짜리 Multilayer Perceptron 신경망구조와는대조적이다. 학습이론적으로볼때딥러닝과같은복잡한모델을사용하는것은과다학습 (overfitting) 현상으로인해성능이향상되기보다는오히려저하되는것이상식인데, 딥러닝은이러한기존의상식을위배하는기이한현상이다. 모델구조가극단적으로복잡해짐에서불구하고딥러닝이성능이좋은이유는무엇일까? 한가지설명은최근들어스마트폰의보급과 Youtube, Google Image 등을통해서데이터가축적되어가용한학습데이터가무한히많아진것에서찾을수있다. 즉아주많은수의학습데이터를사용할경우모델의복잡도가커져도과다학습이일어나지않을수있다는것을실험적으로발견한것이다. 또한학습데이터가많아지고모델의복잡도가커지면학습에소요되는시간이비례 정보과학회지 11

14 하여증가하는데도불구하고학습이가능한것은컴퓨팅파워의향상을그이유로들수있다. 물론가장큰이유는, 다음절에서살펴보겠지만최근들어딥러닝구조를학습하는데필요한여러가지테크닉들이개발되었기때문이다 [6,7]. 딥러닝이산업현장에서선호되는데는몇가지이유가있다. 일단은어려운문제를잘해결한다는것이다. 예를들어서, 물체인식과음성인식등전통적인패턴인식의문제에서딥러닝기술은신기록을세웠다. 다른이유는현장의문제를과거보다더욱자동화된방법으로쉽게풀수있다는것이다. 데이터와컴퓨팅파워가충분하다면딥러닝이사람이코딩하는것보다더좋은성능을낸다는것이다. 특히딥러닝은인터넷과웹에널려있는무표지데이터 (unlabeled data) 를잘활용할수있는좋은방법이다. 많은딥러닝방법들이무감독학습을사용하여정보를자동으로추출하는기능을포함하기때문에감독학습문제를풀더라도이에무표지데이터를추가로활용함으로써성능을향상시킬수있다. 1.2 딥러닝의혁신점은무엇인가? 딥러닝의핵심아이디어는기존에는복잡한문제를풀기위해서특징추출과패턴분류의두단계로분리하여문제를해결하던방식을하나의단계로통합하여해결하는자동화로볼수있다 ( 그림 1). 기존에는먼저데이터전처리및가공을통해서문제해결에적합한특징들을추출한다음, 이를학습데이터로하여패턴분류기를훈련시키는두개의단계로문제를해결하였다. 딥러닝구조는특징추출을위한전처리단계를전체학습프로세스에포함시킴으로써가공되지않은원래데이터를직접학습하도록하는통합된문제해결방식을취한다. 딥러닝구조는특히영상데이터와같이차원수가아주크고복잡한데이터의경우에전처리과정을통해서손실될수도있는정보를기계가자동으로추출해서활용할수있다. 즉기존의전처리방법이나소위 feature engineering을통해배재되었던해의영역조차도딥러닝은탐색함으로써더욱유용한정보를추출하여활용할수있다. 딥러닝과같이다층구조의복잡한신경망이유용할것이라는것은과거에도알고있었다. 뉴런의수를증가하거나층의수를증가시킴으로써보다복잡한패턴분류경계면을생성해낼수있기때문이다 ( 그림 2). 과거에도다층구조의신경망을활용하려는시도가없었던것은아니다 [8]. 그러나실험적으로층의수를늘임으로써학습시간은늘어나는데반해서성능향상은 그림 1 딥러닝개념얻지못하였었다. 또한이론적으로한개의은닉층만을사용하여도무한히많은수의뉴런을사용하면임의의복잡한함수도근사할수있다는 Universal Function Approximator 정리가 1989년에증명되었다 [9,10]. 또한 1990년대에 Support Vector Machine이등장하여아주빠른학습이가능한 shallow network으로많은문제를해결할수있었다. 그렇다면예전에는성과를내지못하던딥러닝모델이어떻게최근들어성공적으로사용될수있는가? 한가지이유는컴퓨팅파워가좋아져서예전에할수없었던아주고난도의학습실험을수행할수있기때문이다. 또한가용한학습데이터가무한히많아져서아주많은데이터를학습시킴으로써아무리복잡한모델구조도과다학습을하지않게만들수있기때문이다. 여기에, 무엇보다도대규모데이터로대규모모델을학습시키는효율을향상할수있는여러가지학습구조와학습알고리즘적테크닉들이개발되었다. 이러한새로운기술들이차원수의저주문제, 과다학습문제, Vanishing Gradient 문제, Non-convex 최적화문제, 느린학습속도등의이슈를일부해결하였다. 이문제를해결하는데핵심적으로기여한혁신은크게세가지를들수있다. 첫번째는, 많은수의층으로구성된다층신경망을학습할수있는기술을개발한것이다. 다층망을학습시키는오류역전파알고리즘이층을많이쌓으면학습이잘되지않았다. 출력에가까운층에서는오류의값이커서교정이되지만아래층으로오류가역전파되면서에러의값이줄어들어변경효과가희석되는 vanishing gradient 문제가발생한다. 따라서아주많은수의층을쓰는딥네트워크는오류역전파알고리즘으로학습이어렵다. 최근에서야이문제를극복하는방안으로층별선훈련 (layerwise pre-training) 방법이제안되었다 [11]. 이는상위층을학습하기전에먼저하위층의시냅스를학 12 특집원고딥하이퍼넷모델

15 습시켜둔다 ( 그림 3). 이렇게순차적으로하위층부터학습시킴으로써 Vanishing Gradient 문제로인해서하위층의시냅스학습이잘안되는문제점을해결한다. 이방법은 Deep Belief Network (DBN) 에서사용한다. 두번째는영상과같이차원수가아주높은데이터로부터유용한특징과표현을자동으로추출하기위해컨볼루션커널 (convolution kernels) 을도입한것이다 ( 그림 4). 이를통해서위치가달라도같은파라메터값을갖도록함으로써파라메터의수를줄임으로써학습해야하는차원의수를줄인다. 이방법은 Convolutional Neural Network (CNN) 에서사용하는방법이다. 이방법은과도학습을방지하면서유용한특징을추출할수있는장점이있다. 세번째로, 학습방법을변경하는대신에새로운뉴런활성화함수를가진유닛을도입한것이다. ReLU유닛 (rectified linear units), 즉, 정류선형유닛은뉴런이선형적으로활성화되어큰값을가질수있게 Inputs C S 그림 4 컨볼루션네트워크 그림 5 시그모이드함수와 ReLU 의비교 함으로써경사도가상수가되도록함으로써오류역전파를해도경사도가사라지지않도록하는효과가있다 [12]. 그림 5는시그모이드유닛과 ReLU 유닛의특성을비교하고있다. 1 f (x) = 1+ exp( x) vs. f (x) = max(0, x) 시그모이드유닛은 0과 1 사이의값으로압축됨으로써 Vanishing Gradient 문제를유발한다. 이에반해서정류선형유닛은포화가되지않고빠르게수렴하는특성이있다. 그림 2 딥구조학습모델의필요성 그림 3 층별순차적선트레이닝의개념 1.3 어떤딥러닝모델들이존재하는가? 현재가장많이사용되는딥러닝모델은 Convolutional Neural Network (CNN) 과 Deep Belief Network (DBN) 이다 [7,11]. 이두가지모델은다수의뉴런층을사용한다는점에서있어서유사하다. 그러나이두모델은여러가지면에서차이가있다. CNN은기본적으로감독학습문제를풀도록설계되어있으나 DBN은무감독학습문제를목표로하였다 ( 그림 6, 그림 7). 그러나, CNN도전단에서는무감독학습으로특징을추출하고, 또한 DBN도마지막단계에서감독학습을적용 정보과학회지 13

할수는있어두모델모두무감독학습과감독학습이결합된형태로해석할수는있다. 또다른차이점은 CNN은입력데이터를분류하기위한변별적학습에촛점이맞추어져있는반면에 DBN은입력데이터를재생성하는생성적학습에촛점이있다. 전자의장점은패턴분류성능이좋다는것이고단점은모델로부터샘플을생성해낼수없다는것이다.

28x28 1000 neurons 500 neurons 250 neurons 30 250 neurons 500 neurons 1000 neurons 28x28 그림 6 Deep Belief Network (DBN) 의구조 그림 8 GooLeNet 딥러닝구조 2. 딥하이퍼넷구조딥하이퍼넷 (DHN) 은생성적딥러닝모델이다.

16 할수는있어두모델모두무감독학습과감독학습이결합된형태로해석할수는있다. 또다른차이점은 CNN은입력데이터를분류하기위한변별적학습에촛점이맞추어져있는반면에 DBN은입력데이터를재생성하는생성적학습에촛점이있다. 전자의장점은패턴분류성능이좋다는것이고단점은모델로부터샘플을생성해낼수없다는것이다. 후자는반대로패턴분류에적용할경우분류성능은최적은아닐수도있으나모델로부터새로운샘플을생성해낼수있다는장점이있다. 이는일반적으로변별적, 생성적기계학습방법들이갖는장단점과같다. 다만딥러닝은아주많은수의뉴런층을사용하여아주복잡한특징과표현을스스로구축함으로써아주복잡한문제를풀수있다는것이큰장점이다. 최근의 CNN 기반딥모델의경우 22층짜리가등장하였다 ( 그림 8). 28x neurons 500 neurons 250 neurons neurons 500 neurons 1000 neurons 28x28 그림 6 Deep Belief Network (DBN) 의구조 그림 8 GooLeNet 딥러닝구조 2. 딥하이퍼넷구조딥하이퍼넷 (DHN) 은생성적딥러닝모델이다. 먼저한개의은닉층만을가진단순한하이퍼넷구조 ( 아래에설명 ) 를은닉변수모델로생각해보면, 식으로는다음과같다. P(x) = P(x h 1 ) P(h 1 ) h 1 딥하이퍼넷의핵심아이디어는 ( 다른딥러닝생성모델과마찬가지로 ) 복잡한은닉층 h 1 을모두탐색하는대신에단순한은닉층을여러겹계층적으로앃아서점차복잡한표현을구축하는것이다즉 h 1 층위에 h 2 층을하나더쌓음으로써다음과같이식을확장한다. P(x) = P(x h 1 ) P(h 1 ) h 1 = P(x h 1 ) P(h 1 h 2 )P(h 2 ) h 1 h 2 = P(x h 1 ) P(h 1 h 2 )P(h 2 ) h 2 h 1 위식에서마지막등호는 h 1 와 h 2 의공간이공통적인전체은닉벡터공간이라는가정에기반한다. 이와같은방식으로층을쌓아서결국관측된학습데이터의우도를 n개의은닉층을사용하여확장된계층적은닉표현구조즉딥하이퍼넷구조로표시할수있다. P(x) =... P(x h 1 ) P(h 1 h 2 ) P(h n 1 h n )P(h n ) h n h 1 다음절에서유도하는바와같이이식은다음과같이다시쓸수있다. P(x) =... P(h n h n 1 ) P(h 2 h 1 ) P(h 1 x)p(x) h n h 1 위와같이상향추론과하향추론이같다는것을이용하여다양한추론과학습이가능하다 ( 그림 9). 그림 7 Convolutional Neural Network (CNN) 의구조 14 특집원고딥하이퍼넷모델

17 하이퍼넷의에너지함수는 E(h j ) = h(s(h j )) 로표시 할수있으며, 여기서 h(i) 는뉴런의활성화함수이며 ( 아 래에설명 ) 이다. s(h j ) 은뉴런의총입력값이다. P(h s ) = exp( E(h )) s exp( E(h j )) i1 j E(h j ) = h(s(h j )) s(h j ) = w ( j ) h ( j ) ( j i1 + w ) i1 i1i2 h ( j ) h ( j ) ( j ) ( j i w i2 i1...ik h ) ( j ) i1...h ik i1,i2 i1,i2,...,ik 그림 9 딥하이퍼넷의구조와확률전파과정 형식화하면, 딥하이퍼넷은관측된데이터변수들 x = (x 1, x 2,..., x V ) 의결합확률분포를표현하는다충구 조의확률그래프모델이다. 관측변수들의값벡터를 x, 은닉변수들의값 h i 들의벡터를 h 라하자. x = (x 1, x 2,..., x V ) h = (h 1,h 2,...,h H ) 은닉층의벡터값들을층을표시하는인자를사용하여 h 1,h 2,...,h n 로표시하면, 데이터의확률분포는앞에서 살펴본바와같이딥구조형태로다시쓸수있다. P(x) =... P(x h 1 ) P(h 1 h 2 ) P(h n 1 h n )P(h n ) h n h 1 P(h s ) 는 s 번째의하이퍼넷층의은닉뉴런들 h i (s) 의 결합확률분포를나타낸다. 하이퍼넷을통계물리시스 템으로보자면그상태에너지함수 E(h s ) 로부터 ( 아 래에정의됨 ) 확률분포는소프트맥스를사용하여다 음과같이기술할수있다. P(h s ) = exp( E(h )) s exp( E(h j )) j 확률의기본법칙인 P(x y) = P(x,y)/P(y) 을사용 하면, s 번째뉴런층에대한 s-1 번째뉴런층의조건부 확률분포 P(h s h s 1 ) 는다음과같이계산될수있다. P(h s h s 1 ) exp( E(h s,h s 1 )) exp( E(h s 1 )) 위의식에서에너지함수를구성하는 s(h j ) 에있는합의항들은각각 2차부터 k차까지의하이퍼에지를갖는하이퍼넷구조를기술한것이다. 하이퍼에지를모두다포함하는것은항수가폭발적으로증가하기때문에딥하이퍼넷학습알고리즘은중요한항을선별하여간소한모델구조를찾아낸다. 아래에서살펴보겠지만여기에진화알고리즘적인탐색기법에의한최적화방법을사용한다. 딥하이퍼넷은다른딥러닝구조와는달리각각의뉴런층이 fully connected된구조가아닌고차희소그래프구조의하이퍼넷형태를취한다 [13]. 즉, CNN이나 DBN이뉴런층의아래층뉴런들을선형으로결합하는구조를갖는데반해서 s(x) = i w i x i DHN은아래층뉴런들의하이퍼그래프구조로새로운층을형성한다. 하이퍼그래프구조를형성하는하이퍼에지가뉴런들의곱을형성하며, 예를들어서최대세개까지의뉴런을포함하는차수 3의하이퍼에지를갖는하이퍼그래프는다음식으로표현된다. s(x) = w i x i + w ij x i x j + w ijk x i x j x k i i, j 즉, 딥하이퍼넷은하이퍼넷을다층으로적층한딥러닝모델로서각각의하이퍼넷층은아래층의하이퍼넷유닛들을결합하여새로운하이퍼에지를만들고이를새로운유닛으로사용한다. 새로운유닛으로출력을생성하는방법은기존의다른딥러닝방식과마찬가지고다양한활성화함수를사용할수있다. 즉시그모이드출력함수를사용할경우, 입력의총합 s = s(x) 으로부터다음과같이출력값을계산한다. i, j,k 정보과학회지 15

18 1 h(s) = 1+ exp( s) ReLU 를사용할경우는다음식을계산한다. h(s) = max(0, s) 이두함수외에딥하이퍼넷모델은응용에따라서다음과같은이진함수나선형함수및가우시안함수등을사용할수있다. h(s) = 1, if s > 0 0 otherwise h(s) = exp s 2 σ 2 h(s) = s 하이퍼에지를생성하는방식에따라서다양한구조 의하이퍼넷이구성된다. 앞에서도논의한바와같이 하이퍼에지를생성하는방식은도메인지식을사용하는데, DBN 과는달리완전연결된구조를갖지않고간략한구조를갖는다. CNN과는달리정규구조의커널을사용하지않은점도하이퍼넷이다른점이다. 어떤커널을사용하는지그자체를학습하는것을하이퍼넷에서는중요한학습문제로본다. 3. 딥하이퍼넷학습알고리즘 딥하이퍼넷모델 W를학습하는문제는결국모델 W로부터데이터 x가생성될확률즉모델의우도 P(x W ) =... P(x h 1 ) P(h 1 h 2 ) P(h n 1 h n )P(h n ) h n h 1 를최대화하도록딥하이퍼넷의하이퍼에지구조와연결가중치의값들 W를포함하는다음식 s(h j ) = w ( j ) h ( j ) ( j i1 + w ) i1 i1i2 h ( j ) h ( j ) i i2 i1 을조정하는과정으로볼수있다. 이를위해서각층에있는하이퍼에지의종류와갯수및가중치를진화적탐색을통해서변형하면서더욱좋은해가나오면받아들이고그렇지않으면버리는방식을취한다. 이과정은하이퍼그래프의탐색공간에서몬테칼로시뮬 i1,i2 레이션하는통계적인방법과유사하며 Graph Monte Carlo (GMC) 로불린다 [4]. 이를구현하는방법을요약하면다음과같다. 보다구체적인것은다음절에서만화영화비디오학습예를통해서다시설명될것이다. 1) 새로운학습예 x를가져온다. 입력층에관측변수값들을할당한다. 2) 이로부터상위층으로확률값 P(h 1 x) 을계산하 고변수값을순차적으로할당하며 P(h 2 h 1 ) 를계산하면서이를반복하여최상위은닉변수값을 P(h n h n 1 ) 로부터할당한다. 3) 최상위의확률분포 P(h n ) 로부터은닉변수값을할당하고이를거꾸로하위층으로전파하면서확률값 P(h n 1 h n ) 을계산하고은닉변수값들을순차적으로 할당하며최하위층의확률분포 P(x) 를추정하고이로부터변수값즉관측변수값 x' 을할당한다 ( 그림 9). 4) 관측변수벡터와생성한관측변수벡터를비교하여그차이를줄여주는방향으로중간은닉층들에있는하이퍼에지의구성과그가중치 W 를변경한다 [13]. ( ) N ( k ) ln P x ( n) W = N x i1 x i2...x ik x i1 x i2...x ik w n=1 Data P ( x W ) i1,i 2,...,i k 5) 위의 4 의과정을 N 번반복한다. 이알고리즘을구현하는데는다양한변형이있을 수있다. 예를들어, DBN 에서사용하는방법과같이 층별로먼저아래층을학습후상위층으로전파하는 Layer-wise Pre-training 방법을사용할수있다. 이경우학습예가하나대신에여러개를한꺼번에사용하는 Minibatch 방법을사용할수있다. 단, DHN은기본적으로학습예가스트림으로들어오는문제에서점진적학습을하도록고안된점을고려하여아주작은사이즈의미니배치를사용한다. 위의학습절차에서확률값을계산하는방법과은닉변수들을결정하는것을여러번의값을할당하고순차적으로계산하며이과정을여러번반복하는방법을사용한다는데에주목하자. 이는정확한베이지안확률계산이실제로는불가능하기때문에근사하는방법이며, 딥하이퍼넷은하이퍼에지의랜덤생성과선택적결합등을이용한진화탐색에기반한몬테칼로시뮬레이션으로이를구현한다. 이러한그래프몬테칼로방법이실제로얼마나유용한지는다음절 16 특집원고딥하이퍼넷모델

에서의응용예를통해실험적으로보여줄것이다. 위의알고리즘에서스텝 2 와 3 에서수행하는상향, 하향추론에대한이론적인기반을알아보기위해서다음식을변형해보자. P(x) =... P(x h 1 ) P(h 1 h 2 ) P(h n 1 h n )P(h n ) h n h 1 베이스규칙은조건부확률의순서를바꿀수있다는것에착안하여위의식의각항에다음과같이베이스규칙을적용하자.

19 에서의응용예를통해실험적으로보여줄것이다. 위의알고리즘에서스텝 2 와 3 에서수행하는상향, 하향추론에대한이론적인기반을알아보기위해서다음식을변형해보자. P(x) =... P(x h 1 ) P(h 1 h 2 ) P(h n 1 h n )P(h n ) h n h 1 베이스규칙은조건부확률의순서를바꿀수있다는것에착안하여위의식의각항에다음과같이베이스규칙을적용하자. P(x h 1 ) = P(h 1 x)p(x) P(h 1 ) P(h 1 h 2 ) = P(h 2 h 1 )P(h 1 ) P(h 2 ) P(h n 1 h n ) = P(h n h n 1 )P(h n 1 ) P(h n ) 원래의딥하이퍼넷의우도식은다음과같이다시쓸수있다. P(x) =... P(x h 1 ) P(h 1 h 2 ) P(h n 1 h n )P(h n ) h n h 1 P(h =... 1 x)p(x) P(h 2 h 1 )P(h 1 ) P(h h )P(h n n 1 n 1 ) P(h n ) h n h 1 P(h 1 ) P(h 2 ) P(h n ) =... P(h 1 x)p(x) P(h 2 h 1 ) P(h n h n 1 ) h n h 1 =... P(h n h n 1 ) P(h 2 h 1 ) P(h 1 x)p(x) h n h 1 이와같이우도계산이상향추론과하향추론의어떤형태로계산해도동등함을알수있다. 마지막으로, 딥하이퍼넷을감독학습모델로사용하는경우학습방법과추론방법을살펴보자. 감독학습은입력벡터 x로부터출력벡터 y 을예측하는것이므로, 은닉층을사용하여풀어쓰면다음과같이표현된다. 고이로부터은닉변수들의값을순차적으로구한후최상위층의은닉변수층에연결된출력벡터값 y 의확률을계산하면된다. 생성모델의특성을살려서출력으로부터입력을생성해낼수도있다. 즉먼저최상위층에출력벡터 y 를할당한후하위층으로확률을전파하여입력벡터 x의확률을계산할수도있다. 4. 응용사례 : 비디오스토리학습 딥모델중 CNN은영상패턴인식능력에서좋은성능을보인다. 그러나인간수준의인공지능실현을위해서는패턴인식뿐만아니라패턴회상또는패턴생성능력이더욱중요하다. 과거의기억을되살려새로운정보를생성해내는능력은인간지능의기반이다. 생성적학습모델은이러한것을가능하게한다. Hinton은 DBN을이용하여영상생성이가능함을숫자이미지 MNIST 데이터에데모하였다. 그러나숫자영상은정적인패턴이다. 모바일폰데이터와같이개인의일상생활을오랜동안또는평생학습하여이를재현하고예측하는것이가능할까 [14]? 기계가 TV드라마를보고그줄거리를학습하여새로운드라마줄거리를만들어내는상상력기계를만들수있을까 [15]? DHN은이러한인간수준의인공지능기계를만들기위한인지메모리와학습모델로서개발되었다. 앞에서강조한것처럼 DHN은스트림형태로들어오는데이터로부터새로운개념을형성하여지식베이스를자동구축하고이를이용하여스토리생성과같은고급정보를예측하고생성하는딥러닝모델이다. 이절에서는이러한응용의예로서만화영화비디오로부터개념들의지식망을학습하고이를기반으로상상력을발휘하는응용에대한실험결과를소개한다. P(y x) = P(y,h x) h = P(y h) P(h x) h =... P(y h n ) P(h n h n 1 ) P(h 2 h 1 )P(h 1 x) h n h 1 즉학습된딥하이퍼넷의입력단에관측벡터 x 를넣 그림 10 실험에사용한뽀로로만화영화 정보과학회지 17

아래실험에서는 Pororo 만화비디로를학습소재로사용하였다 ( 그림 10). 183개의에피소드를 DHN에의해무감독학습하였다.

온라인학습에의해서끊임없이학습할수있도록하고학습된지식구조를이용하여여러가지응용을데모하는데있다. 응용의예는세가지이다.

또는상상력기계 (imagination machine) 의가능성을데모하는것이다.

이는시각장면을글로기술하는능력에해당한다. 만약로봇이 이러한능력을갖춘다면이동하면서장면을말로중계를할수있을것이다.

비디오를학습하는데있어서, 모든프레임을다학습하는것은현재컴퓨팅파워로가능하지않을뿐만아니라사람도그렇게하지않는다.

그림11은비디오로부터장면-대사의쌍으로구성된비디오스토리학습데이터를만드는과정이다.

이러한처리를통해서 DHN의학습데이터 Original sentence-scene pairs Visual words Textual

rabbit, followed, home, maisy x = (r,w) Oh, the rabbit's followed you

..,w m ) Oh, and don't forget panda. Good night, bird.

forget, panda good, night, bird, see, morning 그림 11 만화영화비디오로부터물체와단어추출 위에서

20 아래실험에서는 Pororo 만화비디로를학습소재로사용하였다 ( 그림 10). 183개의에피소드를 DHN에의해무감독학습하였다. 실험의목적은 DHN 구조가이와같이시공간적인멀티모달데이터를 ( 배치방식이아닌 ) 온라인학습에의해서끊임없이학습할수있도록하고학습된지식구조를이용하여여러가지응용을데모하는데있다. 응용의예는세가지이다. 하나는학습된비전-언어의멀티모달지식구조로부터언어 ( 대사 ) 를입력으로주면비전 ( 장면 ) 을생성하는심상 (mental imagery) 또는상상력기계 (imagination machine) 의가능성을데모하는것이다. 다른하나는반대로비전 ( 장면 ) 을입력으로주면학습된지식구조를이용하여언어 ( 대사 ) 를생성하는것이다. 이는시각장면을글로기술하는능력에해당한다. 만약로봇이 이러한능력을갖춘다면이동하면서장면을말로중계를할수있을것이다. 궁극적인목표는학습된 183 개의에피소드로부터 184번째의에피소드를기계가생성하는스토리텔링기계를개발하는것이다. 비디오를학습하는데있어서, 모든프레임을다학습하는것은현재컴퓨팅파워로가능하지않을뿐만아니라사람도그렇게하지않는다. 사람은주의집중에의해서장면과프레임을선별적으로일부만을학습한다. 본연구에서는대사가나온장면만을학습에사용하는서브샘플링방법을사용하였다. 그림11은비디오로부터장면-대사의쌍으로구성된비디오스토리학습데이터를만드는과정이다. 대사가나온장면을취하여여기에영상처리를통해서물체인식을수행한다. 이러한처리를통해서 DHN의학습데이터 Original sentence-scene pairs Visual words Textual words x는하나의장면-대사쌍에나타난물체들 r 1,r 2,...,r n 과단어들 w 1,w 2,...,w m 의조합으로기술된다. rabbit, followed, home, maisy x = (r,w) Oh, the rabbit's followed you home, Maisy. r = (r 1,r 2,...,r n ) w = (w 1,w 2,...,w m ) Oh, and don't forget panda. Good night, bird. See you in the morning. forget, panda good, night, bird, see, morning 그림 11 만화영화비디오로부터물체와단어추출 위에서 n과 m은비전과언어의각어휘수에해당된다. 그림 12는추출한물체와단어들로부터개념망을온라인학습하는딥하이퍼넷구조를보여준다. 제일아래층은그림조각과대사의단어들로구성된두가지모달리티의관측변수들 x이다. 그다음층은이들을상호결합하여구성한다양한하이퍼에지들에해 c 2 c 2 c 1 Growing and shrinking e1 e2 e3 e4 e5 c 1 h x r r r r r w w w w w Growing (a) Example of deep concept hierarchy learned from Pororo videos start crong 그림 12 비디오학습을위한딥하이퍼넷구조 plane sky playful robot it (b) Hypergrapn represenation of (a) h 18 특집원고딥하이퍼넷모델

21 당하는은닉변수들 h이다. 그위에이어지는층들은하이퍼에지들을다시결합함으로써상위의개념을표현하는은닉층들이다. 이실험에서는문제의특성을고려하여추가의은닉층두개를도입하였으며이를각각 c 1,,c 2 로표시하기로한다. 이는앞절에서의 h = h 1, c 1 = h 2, c 2 = h 3 에해당한다. 마지막의최상위층 c 2 은비디오에등장하는인물들을나타낸다. 뽀로로만화영화의경우마지막층은뽀로로, 통통등의등장인물들이다. 아래의스토리학습실험에서는등장인물을라벨링해서학습에사용하는감독학습방법을사용하였다. 다른모든실험에서는입력층에만관측데이터가할당되고은닉층에있는하이퍼에지들은관측데이터를재생성하도록하는무감독학습원리를따른다. 이는표상학습 (representation learning) 을하고자하는일반적인딥러닝철학과일치하며, 층을순차적으로추가함에따라서표상의점차복잡해지게된다. 마지막층에이름을부여하면이는언어적카테고리화과정으로볼수있다. 학습의결과는그림 13에보여준것과같은개념망구조이다. 이그림은학습된딥하이퍼넷으로부터가중치가높은연결선을가진하이퍼에지들에나타난개념들만을연결한개념신경망구조이다. 이구조는어떤개념 ( 언어 ) 들이어떤물체 ( 영상 ) 과상호연상작용을강하게일으키는지를간접적으로알수있는일종의멀티모달시맨틱네트워크이다. 중요한것은이러한개념망이비디오데이터로부터자동으로구성되었으며비디오를관찰함에따라서점진적으로재구성된다는것이다. 마치어린아이들이만화영화를보면머리속에새로운개념을학습하며인지적인발달능력을키워가는것과같다 [16]. 딥하이퍼넷을이용하여비디오장면이하나씩늘어나면서개념신경망이발달해나가는과정에대한학습알고리즘은논문 [4] 에상세히기술되어있다. 여기서는그절차를요약해서간략히설명한다. 전체학습과정은베이지안추론과정이다. 즉현재까지의개념지식즉사전확률분포에기반하여관측된데이터즉비디오장면을기반으로우도를측정하고이둘을결합하여개념들에대한확률분포즉사후확률분포를갱신해가는과정이다. 등장인물들의변화를통한스토리텔링을학습하는과정을예로들어기술한다. 이경우관측변수는딥하이퍼넷의최하단입력벡터 x = (r,w) 과최상단의출력벡터 y = c 2 이다. 즉 x = (r,w) y = c 2 학습은다음과같이베이스추론과정으로볼수있다. P t (h,c 1 r,w, c 2 ) = P(r,w h,c1,c 2 )P(c 2 c 1,h)P t 1 (h,c 1 ) P(r,w, c 2 ) P(r,w, c 2 ) = P(r,w h,c 1,c 2 )P(c 2 c 1,h)P t 1 (h,c 1 )dh dc 1 h,c 1 여기서 P t 1 (h,c 1 ) 은데이터 r,w, c 2 를관측하기전의 사전확률에해당하고 P t (h,c 1 r, w, c 2 ) 은데이터를관측한후의사후확률에해당한다. 그러나이식에서 분모의 P(r,w, c 2 ) 를계산하는것은실제로불가능하 다. 모든가능한가설공간 dhdc 1 에대해서적분을수행해야하기때문이다. 모든베이지안학습방법이이문제에봉착한다. 딥하이퍼넷의핵심아이디어는이가설공간을 Sparse Population Coding 기법과진화탐색방법을결합한몬테칼로시뮬레이션을통해서효율적으로근사하는것이다 [4]. 이를위해서경험적인분포를사용한다. P t (h,c 1 r,w, c 2 ) D t d=1 { P(r (d ),w (d ) h,c 1,c 2 )P(c 2 c 1 )P(c 1 h)p t 1 (h)} 그림 13 딥하이퍼넷으로학습한개념망구조 여기서 D는학습예의갯수이다. 온라인학습의경우 D = 1 마다식이갱신된다. 첫번째항은모델로부터관측데이터가생성될확률즉우도를나타내며이의로그를취한로그우도는다음과같다 정보과학회지 19

22 N log P(r (d ),w (d ) c 2,c 1 (d ),h) = log P(r n c 2,c 1 (d ),h) + log P(w m c 2,c 1,h) n=1 M m=1 두번째부터네번째항은다음과같다. (d ) P(w m = 1 c 2,c 1,h) = exp s w m - e c α i i=1 (d ) P(r n = 1 c 2,c 1,h) = exp s r n e c s w w = α i e i and s r r = α i e i i=1 e c i=1 h c α i i=1 두번째항은클러스터로부터캐릭터를예측하는확률을나타내고, 세번째항은클러스터간의유사도를측정하며, 네번째항은모델복잡도를반영한다. 네번째항은복잡도가높은모델구조에페널티를줌으로써확률을낮게하는정규화항의역할을한다. 이는딥하이퍼넷과같이구조학습을하는머신러닝방법에서모델복잡도를낮춤으로써성능과효율을최대화하는 Occam s Razor의원리를구현하는아주 중요한방법이다. 위식에서 e i 는하이퍼에지를표시 하고 α i 는그가중치이다. 딥하이퍼넷에서학습은두가지가있다. 하나는다양한하이퍼에지를구성적으로탐색하는구조학습이다. 이를위해서현재의개체 ( 하이퍼에지 ) 집합에서관측된데이터를고려하여새로운개체 ( 하이퍼에지 ) 를생성하는베이지안진화연산기법을사용한다 [17]. 다른하나는하이퍼에지의가중치를결정하는파라메터학습이며다음의식에의해서점진적으로수정된다. D { } α i = g(e i ) f (r (d ),w (d ) ;e i ), α t t 1 i = λα i + (1 λ)α i d=1 f (r (d ),w (d ) ;e i ) = 0, otherwise 1, if r (d ) e r i + w (d ) w ( e i ) e i e T i >κ 위식은모델에들어있는하이퍼에지를통해서생 성한데이터가얼마나관측한데이터를반영하는지를측정하고있다. 즉딥하이퍼넷은생성모델로서관측한데이터를생성하는능력이좋을수록하이퍼에지가중치를높여준다. 4.1 기계상상실험결과딥하이퍼넷에의해학습된개념신경망은뽀로로만화영화 183편에들어있는일반적인개념과지식을저장하고있다. 이를활용하는세가지실험을하였다. 첫번째실험은뽀로로만화영화중에서나온대사를주고그장면을떠오르게하는상상력실험이다. 이는기계가사람과같이연상작용에의해서심상을떠올릴수있는지에대한실험으로서, 딥하이퍼넷신경망이사람의인지적인연상기억능력을보이는지를알아보기위한것이다. 그림 14는그실험결과의예를보여준다. 입력으로 Tongtong, please change this book using magic. Kurikuri, Kurikuri Tongtong! 이라고하면딥하이퍼넷은구축된개념신경망을이용하여그림에보이는것과같은영상들을조합해낸다. 이러한상상력능력이학습이진행됨에따라향상되는지를알아보기위해서각각 52편, 104편, 183편의에피소드를보았을때상상되는심상의그림을비교하였다. 그림에보이듯이떠올리는심상의영상복잡도와정확도가학습이진행됨에따라서향상되는것을알수있다. 이결과는아직완전하지는않지만다양한응용에활용될수있다. 예를들어, 상상된그림을질의어로만화영화전편을검색할경우사람과같은인지적순간검색능력을가지는교차모달리티비디오검색엔진을만들수있을것이다. 두번째실험에서는반대로정지비디오그림을딥하이퍼넷의입력으로주었다. 그리고딥하이퍼넷의확률적생성능력을이용한연상기억에기반하여언어를생성하였다. 즉주어진그림을설명하는글을생성할수있는지를시험하였다. 그림 15는그결과를보여준다. 해당장면에대한뽀로로원본의대사와비교해볼때유사하면서도변형이된문장들이생성되는것을알수있다. 예를들어서, 주어진그림에대한원본대사는 Clock, I have made another potion come and try it 인데딥하이퍼넷이생성한문장은 as i don't have the right magic potion come and try it was nice 와 ah, finished i finally made another potion come and try it we'll all alone 였다. 역시완전한문장은아니지만의미가상당히통하며창의적인문장이생성되는것을알수있다. 이는학습된딥하이퍼넷이주어진그림에들어있는그림조각에기반하여확률적인추론을반복하여단어를생성하기때문이다. 세번째실험은뽀로로장면하나하나를넘어서시간의흐름에따른에피소드스토리를학습할수있는지를알아보고자하였다. DHN은스트림으로관측되는데이 20 특집원고딥하이퍼넷모델

23 터에대해서온라인점진적학습을하기때문에시간적인변화를추적할수있다. 그림 16은에피소드가진행됨에따라여러가지사건이발생되고그에따라주인공들의등장빈도수가달라지면스토리라인이바뀌는것 을딥하이퍼넷이학습하고있다는것을간접적으로알수있다. 이실험의결과에힘입어현재만화영화를보면서아이들과놀아주며영어공부를도와주는로봇 Pororobot을개발하는연구가진행중이다 ( 그림 17). 그림 14 학습된딥하이퍼넷에의한대사의생성 그림 15 학습된딥하이퍼넷의의한장면의생성 정보과학회지 21

그림 16 딥하이퍼넷학습과정에서만화주인공들의등장패턴변화 그림 17 아이들과만화비디오보며영어를가르치는 Pororobot 5. 다른딥러닝모델과의특성비교 No Free Lunch Theorem 에의해서학습모델마다 잘푸는문제가있으면못푸는문제가있기마련이다. 딥러닝모델도마찬가지이다.

감독학습으로사용될경우무감독학습에의해먼저고차특징을추출함으로써라벨이없은데이터를활용하여자동으로표현을학습할수있는특성이있다. 변별 / 생성모델 : 변별모델은입력패턴들의차이를구별하는데집중하며생성모델은입력패턴들의유사성을파악하는데집중한다. CNN은변별모델이며패턴분류 그림 18 딥러닝모델의특성비교문제에적합하다.

24 그림 16 딥하이퍼넷학습과정에서만화주인공들의등장패턴변화 그림 17 아이들과만화비디오보며영어를가르치는 Pororobot 5. 다른딥러닝모델과의특성비교 No Free Lunch Theorem 에의해서학습모델마다 잘푸는문제가있으면못푸는문제가있기마련이다. 딥러닝모델도마찬가지이다. 여기서는딥하이퍼넷모델의특성을 DBN, CNN과비교함으로써딥하이퍼넷이어떤문제에더적합하고어떤문제에덜적합한지를분석한다. 그림 18은다음의 7가지의비교차원에대해요약정리된표이다. 감독 / 무감독학습 : CNN은명확히감독학습만을위한모델이다. 이에반해서 DBN과 DHN은기본적으로무감독학습을염두에둔모델이나마지막층에감독학습층을추가함으로써감독학습으로활용될수있다. 감독학습으로사용될경우무감독학습에의해먼저고차특징을추출함으로써라벨이없은데이터를활용하여자동으로표현을학습할수있는특성이있다. 변별 / 생성모델 : 변별모델은입력패턴들의차이를구별하는데집중하며생성모델은입력패턴들의유사성을파악하는데집중한다. CNN은변별모델이며패턴분류 그림 18 딥러닝모델의특성비교문제에적합하다. 반면에 DBN과 DHN은생성모델로서데이터를압축하거나샘플을생성하는데유용하다. 예측 / 모듈이해 : 값을예측하는정확도가중요한문제가있고데이터의숨은구조를찾아내는것이더중요한응용이있을수있다. 이점에서 CNN은예측에가장적합한모델이며모듈이해는어렵다. 한편 DHN은모듈이해에중점을두는딥구조로서데이터를재생성하는빌딩블록을찾으려는시도를한다. DBN은 CNN과 DHN의중간정도의모델로볼수있으며차원을축소하며압축을반복하면저차원상에서복잡한데이터의구조를찾을가능성이있다. 다만이구조는빌딩블록이라기보다는전역적인특성에해당한다. 추론가능성 : 생성모델은학습된모델을이용하여추론이가능하다. 즉관측변수값을모델에넣고다른미관측변수값들을예측할수있다. 이점에서 DBN 과 DHN은추론이가능한모델이며 CNN은그렇지못하다. DHN은하이퍼에지의순차적연결에의한구조적인추론을통해서보다복잡한표현을재구성하는추론을수행할수있다. 위에서살펴본바와같이 DHN은만화영화비디오로부터영상과문장을생성할수있다. DBN은벡터형태의정형화된표현에대한추론이가능하나 DHN과같은구조를생성하지는못한다. 연결성 : 가장자유로운연결구조를가지는모델은 DHN이다. 이에비해서 DBN은인접층간에항상완전연결구조를가진다. CNN은국부적인수용영역을갖는컨볼루션에의해정해진정규적인연결구조를반복한다. DHN학습알고리즘은자유로운연결구조의공간에서가장희소한구조를탐색한다. 만화영화학습예에서개념망은복잡하면서도희소성을갖는이러한구조에속한다. 깊이 : 컴퓨팅파워의증가로딥구조의층의수가 22 특집원고딥하이퍼넷모델

25 증가하고있다. 영상과같이고차원의데이터에서고차패턴을추출하는데는 CNN과같은선험지식이들어간컨볼루션커널을사용하는다층구조가적합하다. 그러나고차의문법구조를찾는개념망을학습하는문제와같은구조적학습은음성이나영상데이터와는특성이달라너무층수가많을경우해석이불가능할수있다. 따라서적정층의수는문제의특성이나해의특성에따라다를수있다. 현재까지의응용으로볼때일반적으로 DHN, DBN, CNN의순으로더욱많은뉴런층을사용하는경향이있다. 배치 / 온라인학습 : CNN과 DBN은배치학습을기본으로한다. 반면에 DHN 은온라인점진적학습을목적으로설계되었다. 이미많은데이터가수집되어있어순차적인학습을고려할필요가없을때는 CNN, DBN, DHN 방식이모두사용될수있으나데이터가순차적으로관측되는상황에서는 DHN 이더욱적합하다. 6. 결론딥러닝의전반적인아이디어와특성을살펴보고그예로서딥하이퍼넷 (DHN) 모델을소개하였다. DHN의구조적특성과학습알고리즘을살펴보았으며만화비디오로부터멀티모달지식을자동으로습득하고이를이용하여시각, 언어정보를생성하는상상력기계를만드는기반이될수있음을보였다. CNN, DBN 등의기존딥러닝모델과의유사점및차이점을비교함으로써 DHN의장단점을알아보았다. DHN은순차적으로관측되는학습예를바로바로점진적으로온라인학습을수행하며, 이점에서배치학습을기반으로하는 DBN이나 CNN과명확히구별된다. DHN은또한새로운개념을만들어낼수있는건설적학습방법이며개념들의고차관계표현구조를습득하는구조적학습방법이다. 구조학습능력은기존의파라메터학습기반의학습모델들보다한단계상위의표현구조를추출함으로써학습에의해자동으로기호적인고차지식구조를추출할수있는장점이있다. 구체적인응용예로, 뽀로로만화비디오로부터개념적지식구조와스토리구조를재현하는 Graph Monte Carlo 알고리즘을기술하였다. 이방법은 Graph의구조를명시적으로구성하며구조학습의결과로 DHN은규칙이나문법등의그래프구조를학습모델로부터추출한다. CNN이나 DBN도층을쌓아가면서일부표현구조를변형하지만 DHN처럼명시적으로표현구조를변경하지는않으며결과적으로요소들간의관계 구조를명시적으로찾지는못한다. 이러한장점에도불구하고물론 No Free Lunch Theorem에의해서 DHN은학습해야할모델의공간크기와학습복잡도가 CNN과 DBN에비해서크다는단점을가지고있다. 이문제를해결하기위한방법으로 DHN은두가지의학습방법을병행한다. 즉경사도기반의파라메터튜닝방법을사용하는것외에하이퍼그래프구조에기반한 Sparse Population Coding 기법위에서진화탐색에기반한그래프몬테칼로알고리즘을사용한다 [4]. 딥하이퍼넷모델은기존의연결론적모델과기호적모델을결합하려는기계학습기반의인공지능신패러다임으로볼수있다 [13]. 하이퍼그래프구조기반의네트워크를사용함으로써연결론적인학습이용이할뿐만아니라구조학습이가능하여명시적인구조와문법을표현하는지식구조를추출할수있다. 이러한특성은 DHN이 CNN이나 DBN은보다는상위단계의고차적인지식구조를습득하는방법으로유용함을의미한다. 통합적인지능시스템을개발하기위해서는, 가장하위에서센서데이터학습에는 CNN을사용하고그위에서정적인지각정보를학습하는데에 DBN을사용하고그상위에서고차적인개념관계를학습하는데 DHN을사용하는것이, 현존딥러닝모델들의장점을모두살려인간수준의인공지능실현에한발더다가가는방법이될수있을것이다. 참고문헌 [ 1 ] Samuel, A., "Some studies in machine learning using the game of checkers", IBM Journal, Vol. 3, No. 3, pp , [ 2 ] LeCun, Y., Bengio, Y., and Hinton, G., Deep learning", Nature, Vol. 521, No. 7553, pp , [ 3 ] Mnih, V. et al., "Human-level control through deep reinforcement learning", Nature, Vol. 518, No. 7540, pp , [ 4 ] Ha, J.-W., Kim, K.-M, and Zhang, B.-T., "Automated construction of visual-linguistic knowledge via concept learning from cartoon videos", In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence (AAAI 2015), Austin, TX, [ 5 ] Mordvintsev, A., Olah, C., and Tyka, M., "Inceptionism: Going deeper into neural networks", Google Research Blog. Retrieved June 20, [ 6 ] Bengio, Y. "Learning deep architectures for AI", Foundations and Trends in Machine Learning, Vol. 2, 정보과학회지 23

No. 1, pp.1 127, 2009. [ 7 ] LeCun, Y., Bottou, L., Orr, G. B., and Müller, K.-R., "Efficient BackProp", In G. Orr and K. Müller. Neural Networks: Tricks of the Trade. Springer., 1998.

26 No. 1, pp.1 127, [ 7 ] LeCun, Y., Bottou, L., Orr, G. B., and Müller, K.-R., "Efficient BackProp", In G. Orr and K. Müller. Neural Networks: Tricks of the Trade. Springer., [ 8 ] Wolpert, D., "Stacked generalization", Neural Networks, Vol. 5, No. 2, pp , [ 9 ] Cybenko, G., "Approximations by superpositions of sigmoidal functions", Mathematics of Control, Signals, and Systems, Vol. 2, No. 4, pp , [10] Hornik, K., "Approximation capabilities of multilayer feedforward networks", Neural Networks, Vol. 4, No. 2, pp , [11] Hinton, G. and Salakhutdinov, R., "Reducing the dimensionality of data with neural networks", Science, Vol. 313, pp , [12] Nair, V. and Hinton, G., "Rectified linear units improve restricted Boltzmann machines, International Conference on Machine Learning (ICML-2010), [13] Zhang, B.-T., "Hypernetworks: A molecular evolutionary architecture for cognitive learning and memory, IEEE Computational Intelligence Magazine, Vol. 3, No. 3, pp.49-63, [14] Zhang, B.-T., "Information-theoretic objective functions for lifelong learning", AAAI 2013 Spring Symposium on Lifelong Machine Learning, Stanford University, March 25-27, [15] Zhang, B.-T., "Ontogenesis of agency in machines: A multidisciplinary review", AAAI 2014 Fall Symposium on The Nature of Humans and Machines: A Multidisciplinary Discourse, Arlington, VA, [16] Zhang, B.-T., Ha, J.-W., and Kang, M. "Sparse population code models of word learning in concept drift", In Proceedings of the 34th Annual Meeting of the Cognitive Science Society (CogSci 2012), [17] Zhang, B.-T., Ohm, P., and Mühlenbein, H., "Evolutionary induction of sparse neural trees", Evolutionary Computation, Vol. 5, No. 2, pp , 장병탁 1986 서울대컴퓨터공학과학사 1988 서울대컴퓨터공학과석사 1992 독일 Bonn 대학교컴퓨터과학박사 1992~1995 독일국립정보기술연구소 (GMD, 현 Fraunhofer Institutes) 연구원 1997~ 현재서울대컴퓨터공학부교수및인지과학, 뇌과학, 생물정보학협동과정겸임교수 2003~2004 MIT 인공지능연구소 (CSAIL) 및뇌인지과학과 (BCS) 객원교수 2007~2008 삼성종합기술연구원 (SAIT) 객원교수현재서울대인지과학연구소소장 Applied Intelligence, BioSystems, Journal of Cognitive Science 등국제저널편집위원관심분야 : 바이오지능, 인지기계학습, 분자진화컴퓨팅기반뇌인지정보처리모델링 btzhang@bi.snu.ac.kr 24 특집원고딥하이퍼넷모델

27 특집원고 다양한딥러닝알고리즘과활용 ( 주 ) 네이버네이버랩스김지원 표현아 하정우 이찬규 김정희 1. 서론 딥러닝 (Deep Learning) 은완전히새로운이론은아 니다. 딥러닝은신경망기반기계학습의부활이라고 할수있다. 딥러닝을적용한음성인식의오류율이 20% 이상개선되기시작한것을계기로다양한분야 로확산되기시작했으며, 2012 년 ImageNet Challenge 에서최고의분류성능을보인이후이미지분류분야에서도빠르게적용되고있는추세이다. 최근에는자연어처리및멀티모달데이터학습등그분야가확산되고있다. 이러한딥러닝확산의바탕에는빅데이터라고불리는대규모학습데이터와이를처리할수있는하드웨어가그바탕에있다. 본고에서는다양한분야에서문제해결의새로운패러다임을제시하고있는딥러닝알고리즘의종류와활용분야들중몇가지를살펴본다. 2. Convolutional Neural Networks 와이미지분류 CNN(Convolutional Neural Network) 은생물의시신경이동작하는원리에서영감을얻어이미지데이터의처리에적합한구조로만들어진신경망으로, 1990년대후반부터필기숫자인식 [1], 얼굴인식 [2] 등의제한적인 어플리케이션에활용되어왔다. 이후딥러닝기술이본격궤도에오르면서, 2012년 ImageNet Challenge[3] 에서딥 CNN이기존의컴퓨터비전기술을크게앞서는성능을냄으로써, 고해상도의자연이미지에서도일반적인사물을인식할수있는수준에이르게되었다 [4]. 현재구글, 네이버를비롯한유수의국내외 IT 기업에서사진자동분류, 내용기반이미지검색등의서비스에널리활용되고있으며, 동영상분류, 이미지- 텍스트멀티모달학습등으로영역을꾸준히확장해나가고있다. 2.1 CNN 의구조및학습 CNN은그림 1과같이크게 convolution-pooling layer 와 fully connected layer의두부분으로구성되어있다. 전자는입력된이미지로부터계층적구조의 feature를추출하는역할을, 후자는추출된 feature를입력받아타겟클래스로분류하는역할을담당한다. CNN layer는아래와같은두가지특징을통해이미지데이터의특성을반영하는동시에모델의복잡도를크게단순화시킨다. 1) Local connectivity: 가장일반적인형태인 fully connected layer와달리, 해당 convolution 필터의크기인 NxN window 내의인접한뉴런들에만연결이되어있다. 이는인접한픽셀들끼리는상관관계가높지만멀리떨어진픽셀들은그렇지않은이미지의특성 그림 1 CNN 의일반적인구조 [1] 정보과학회지 25

Pooling layer는 NxN 윈도내의입력값들을그최대값또는평균값으로매핑함으로써이미지의크기를점차적으로줄인다. 그결과상위 layer로올라갈수록같은크기의 convolution 필터가상대적으로넓은영역을처리하게되어, 상위 layer에서는하위 layer의저차원 feature를조합한고차원 feature를학습하는효과를가져온다. ( 그림 2) 2.

28 (a) (b) (c) 그림 2 자동차이미지로학습시킨 CNN 의 (a) 하위 layer, (b) 중위 layer, (c) 상위 layer 에서학습한 feature [5] (a) (b) (c) 그림 3 CNN 을이용한네이버의서비스. (a) N 드라이브사진검색 (b) 지식 in 사진질문기반디렉토리추천 (c) 이미지기반라인신규스티커추천 (locality) 을반영한것이다. 2) Shared weights: convolution 필터들은적용되는위치가달라도같은 weight값을공유한다. 이는픽셀값의통계적특성이이미지상의좌표와무관하다는이미지의특성 (stationarity) 을반영한것이다. Pooling layer는 NxN 윈도내의입력값들을그최대값또는평균값으로매핑함으로써이미지의크기를점차적으로줄인다. 그결과상위 layer로올라갈수록같은크기의 convolution 필터가상대적으로넓은영역을처리하게되어, 상위 layer에서는하위 layer의저차원 feature를조합한고차원 feature를학습하는효과를가져온다. ( 그림 2) 2.2 CNN을이용한어플리케이션앞서언급한대로국내외대다수 IT 기업들은이미지에서사물을인식하는데뛰어난성능을보이고있는 CNN을사진자동태깅, 내용기반이미지검색등다양한이미지관련서비스에적극활용하고있다. 네이버의경우, 클라우드저장소인 N드라이브에업로드된사용자의사진들을 CNN으로분석해음식, 패션, 동물, 자연, 텍스트등의테마별로검색하는서비스를제공하고있으며 ( 그림 3(a)), Q&A 서비스인지 식iN에사진질문이올라오면 CNN으로사진내용을분석해그에맞는지식iN 디렉토리를자동추천해주고있다 ( 그림 3(b)). 또한메신저서비스인라인에서는스티커를사용자의구매이력에기반해추천해주는데, 구매이력이없는신규스티커의경우 CNN으로학습된 feature를사용해이미구매한스티커들과시각적으로유사한스타일의스티커를추천한다. ( 그림 3(c)) 3. Recursive Neural Networks 과감성분석 (Sentiment Analysis) RNN(Recursive Neural Networks) 은 parse-tree와같이구조화된입력을처리할수있는아키텍쳐의한종류이다. 다른표현으로 tree-structured neural networks이라고도불리우는데, 신경망의출력이다시신경망의입력으로들어가서처리하기때문이다. 따라서고정된길이의입력이아니라다양한길이의구문이나문장을각워드벡터를합성벡터 (compositional vectors) 로표현하여재귀적으로처리할수있다. ( 그림 4) 는이러한방법을설명한다. N개의단어로이루어진구문이주어졌을때, 바이너리트리로구문을파싱하고, 각리프노드에는워드벡터로표현되는단어 26 특집원고다양한딥러닝알고리즘과활용

를대응한다. 리프노드를이용하여 bottom-up 방식으로상위노드 (parent vectors) 의벡터를구하고, 이렇게구한상위노드벡터값은다시다음네트웍의입력이된다.[7] Recursive Neural Networks은특별한타입의트리구조를가지는 Recurrent Neural Networks의일반화된모델이라고볼수있다.

29 를대응한다. 리프노드를이용하여 bottom-up 방식으로상위노드 (parent vectors) 의벡터를구하고, 이렇게구한상위노드벡터값은다시다음네트웍의입력이된다.[7] Recursive Neural Networks은특별한타입의트리구조를가지는 Recurrent Neural Networks의일반화된모델이라고볼수있다.[8] Recursive Neural Networks 의장점은문장을구조를파악하여입력으로사용하기때문에조금더정확한의미를나타낼수있다. 이러한모델들은언어구문분석 (Parsing), 감성분석 (Sentiment Analysis), paraphrase detection 등에사용되어높은성능을보인다. 감성분석은텍스트에나타난사람들의태도, 의견, 성향과같은주관적인데이터를분석하는자연어처리분야로서특히최근에는시장현황이나주식등에서소비자나대중들의반응을측정하는도구로서많이사용하고있다. 스탠포드대학에서구축한 sentiment treebank DB는 10,605문장의영화리뷰를구문분석, 감성레이블을하였고, 이 DB를이용하여 RNN 방식그림 4 Recursive Neural Networks 방법 [7] 으로감성분석을하였을때, 82.4% 의인식률을보였다. ( 긍정 / 부정의바이너리예측 ) 한국어의경우역시영화리뷰를이용하여감성분석을실험하였다. 다만 sentiment treebank는모든리프노드, 중간노드에도감성레이블이표기되어있어서모든노드에서 softmax error를계산하여 RNN을훈련시켰지만, 한국어의경우에는 DB구축의시간, 비용의문제로인하여문장단위로루트에서만 softmax error를계산하였다. 140만문장을이용하여학습했을때최고 88.7% 의인식률을얻었다. 4. 딥러닝기반의멀티모달학습 (multimodal learning) 4.1 멀티모달학습최근스마트폰의보급과무선네트워킹및사회관계망서비스 (social network service) 의발전으로인해멀티모달데이터가급격한속도로생산되고있다. 멀티모달데이터 (multimodal data) 는두가지이상의모달리티로의미를표현되는데이터로정의되며태그를포함한사진은이미지-텍스트, 동영상은이미지-오디오-텍스트, 가요는오디오-텍스트로표현되는멀티모달데이터의예이다. 멀티모달학습은데이터로부터같은의미를표현하는서로다른모달리티간의연관관계를표현및학습하는기법으로정의될수있으며멀티모달데이터의조회, 검색, 추천을위한핵심기술로사용된다. 가령 작년여름해수욕장의사진 이라고입력을하면스마트폰에저장된수많은사진들중에서질의어와연관된사진을자동으로검색가능 (Text2Image) 하며반대로스마트폰으로사진을촬영하면이를설명하는문장을자동으로태깅 (Image2Text) 하여저장할수도있다. 멀티모달학습은 2000년대 그림 5 한국어영화리뷰를이용한감성분석결과 정보과학회지 27

초반에시작되었으며초기에는주로토픽모델 (topic model) 을 [9] 이용한접근법이다수를차지하였다. 그러나기존의방법들은이미지에단어태그를부여하거나단어질의에대해이미지를조회하는수준에그쳤다. 4.2 딥러닝을이용한멀티모달학습학습을통해데이터로부터인자를자동으로생성가능하다는점에서딥러닝은멀티모달학습에적합한모델이라고할수있다.

이모델은텍스트와이미지데이터각각을학습하는 restricted Boltzmann machine (RBM) 위에모달리티통합 RBM 층이존재하며, 확률적추론을통해이미지가입력으로주어지면텍스트단어로표현되고단어가주어졌을때이미지인자가생성된다 ( 그림 6(a)).

30 초반에시작되었으며초기에는주로토픽모델 (topic model) 을 [9] 이용한접근법이다수를차지하였다. 그러나기존의방법들은이미지에단어태그를부여하거나단어질의에대해이미지를조회하는수준에그쳤다. 4.2 딥러닝을이용한멀티모달학습학습을통해데이터로부터인자를자동으로생성가능하다는점에서딥러닝은멀티모달학습에적합한모델이라고할수있다. 이는서로다른모달리티가표현하는공통의미공간을딥러닝모델을이용해학습함으로써가능해진다. 멀티모달학습을위한딥러닝초기모델로서 multimodal deep Boltzmann machine (mdbm) 이제안되었다 [10]. 이모델은텍스트와이미지데이터각각을학습하는 restricted Boltzmann machine (RBM) 위에모달리티통합 RBM 층이존재하며, 확률적추론을통해이미지가입력으로주어지면텍스트단어로표현되고단어가주어졌을때이미지인자가생성된다 ( 그림 6(a)). 2014년 11월구글에서는 Show and Tell: a neural image caption enerator (NIC) 이라는획기적인딥러닝기반의멀티모달학습관련연구결과를공개하였다 [11]. 이는이미지분류나태깅에국한되던기존의 Image2Text 기술을뛰어넘어주어진이미지의내용을설명하는문장을자동으로생성하는기술을포함한다. 본기술에서는그림 6(b) 와같이이미지인자를위해 Convolutional Neural Network (CNN) 이문장생성을위한언어모델로서 Recurrent Neural Network (RNN) 이사용되었다. 즉이미지가질의로주어지면주어진이미지는학습된 CNN에의해다차원의실수인자벡터로변환되고이벡터값이 RNN의입력으로주어지면이미지를설명하는텍스트정보가학습된 RNN에의해문장형태로생성된다. 특히생성된문장은정확도를측정했을때 BLEU 점수기준사람이직접작성한문장과유사한수준으로문장이생성됨을보였다 ( 그림 7(a)). 최근에는 Image2Text에 attention 개념이포함되어주어진이미지로부터문장을구성하는단어들이순차적으로생성될때생성되는단어와직접관련된이미지부분에 attention 이주어지도록학습하는모델이제안되었다 [4]. 또한이미지를넘어서비디오데이터를분류하고비디오의내용을설명하는문장을생성하는연구도다수발표되었다 [13-15]. 또한국내연구진에의해서만화비디오의내용및각등장인물들의성격및특징을학습하는딥러닝모델인 deep concept hierarchy (DCH) 모델이제안되었으며그림 3과같이이기술을통해만화이미지가주어지면자막을자동으로생성하고문장이주어지면관련된장면을자동으로생성하는연구가소개된바있다 [16]. 궁극적으로는 100개의에피소드를학습한모델이 101번째의에피소드스토리를자동으로생성하도록하는스토리텔링 (a) Multimodal DBMs [10] (b) Neural image caption generator [11] (c) Attention 포함 NIC [12] 그림 6. Deep learning 기반 Image-Text 멀티모달학습모델구조 28 특집원고다양한딥러닝알고리즘과활용

모델도구현될수있다. 이러한괄목할만한기술발전에도불구하고멀티모달학습은아직초기단계에머무르고있다.

사운드에집중되어있는상황이지만더욱다양한종류의센서모달리티데이터로확장될때인간인지모델링및인간수준인공지능구현을위한핵심기술로자리잡게될것이다.

31 모델도구현될수있다. 이러한괄목할만한기술발전에도불구하고멀티모달학습은아직초기단계에머무르고있다. 먼저생성된문장에대하여 BLEU를대신할정성적측면을고려한측정기준을수립하는것이필요하며이미지-텍스트변환에있어서단편적인사실설명문장을넘어 서스토리를포함한상위수준의추상화된문장을생성하는기술로발전되어야한다. 또한현재의멀티모달학습은이미지, 텍스트, 사운드에집중되어있는상황이지만더욱다양한종류의센서모달리티데이터로확장될때인간인지모델링및인간수준인공지능구현을위한핵심기술로자리잡게될것이다. (a) NIC 에의해생성된문장 (b) Attention 에해당하는문장단어와이미지의부분 그림 7. Deep learning 기반 Image2Text 로생성된문장결과 (a) DCH 에의해생성된자막 그림 8. Deep concept hierarchy 를이용한뽀로로비디오학습결과 (b) DCH 에학습된뽀로로관련개념 정보과학회지 29

5. 향후연구및결론딥러닝을이용하여좋은성능을얻기위한관건중하나는대용량학습데이터를얼마나빠른시간안에학습시킬수있느냐에달려있다. 딥러닝을이용하여학습할때에는다양한 hyper-parameter 들을설정해주어야하며, 구조에있어서도다양한변이가존재한다.

32 5. 향후연구및결론딥러닝을이용하여좋은성능을얻기위한관건중하나는대용량학습데이터를얼마나빠른시간안에학습시킬수있느냐에달려있다. 딥러닝을이용하여학습할때에는다양한 hyper-parameter 들을설정해주어야하며, 구조에있어서도다양한변이가존재한다. 각문제에서최적의답을얻기위해서는많은실험을통해이러한 hyper-parameter 들을결정할수밖에없는데, 대용량데이터를학습하기위해많은시간이소요된다면, 효율이떨어질수밖에없고기업체에서경쟁력있는서비스를제공하기어렵다. 따라서얼마나 scalable 한딥러닝학습플랫폼을갖추느냐가딥러닝의경쟁력을좌우할수있다. 네이버에서도이러한문제를해결하기위해지속적인노력을기울이고있다. 참고문헌 [ 1 ] Y. LeCun, L. Bottou, Y. Bengio, P. Haffner, Gradient-based learning applied to document recognition, Proceedings of the IEEE, vol. 86, issue 11, pp , November [ 2 ] S. Lawrence, C. L. Giles, A. C. Tsoi, A. D. Back, Face recognition: a convolutional neural-network approach, IEEE Transactions on Neural Networks, vol. 8, issue 1, pp , January [ 3 ] [ 4 ] A. Krizhevsky, I. Sutskever, G. E. Hinton, ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems 25, pp , [ 5 ] H. Lee, R. Grosse, R. Ranganath, A. Y. Ng, Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations, Proceedings of the 26th Annual International Conference on Machine Learning, pp , [ 6 ] ConvolutionalNeuralNetwork/ [ 7 ] Socher, R.; Perelygin, A.; Wu, J. Y.; Chuang, J.; Manning, C. D.; Ng, A. Y.; and Potts, C. 2013b. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. In Conference on Empirical Methods in Natural Language Processing, pp , 2013 [ 8 ] Irsoy, Ozan and Cardie, Claire Deep Recursive Neural Networks for Compositionality in Language, Advances in Neural Information Processing Systems 27, pp , [ 9 ] D. M. Blei and M. Jordan, Modeling Annotated Data, Proceedings of the 26th annual ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2003), pp , [10] N. Srivastava and R. Salakhutdinov, Multimodal Learning with Deep Boltzmann Machines, Advances in Neural Information Processing Systems 2012 (NIPS 2012), pp , [11] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, Show and Tell: A Neural image caption generator, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2015), pp , [12] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhutdinov, R. Zemel, and Y. Bengio, Show, Attend and Tell: Neural Image Caption Generation with Visual Attention, Proceedings of The 32th International Conference on Machine Learning, [13] N. Srivastava, E. Mansimov, and R. Salakhutdinov, Unsupervised Learning of Video Representation using LSTMs, Proceedings of The 32th International Conference on Machine Learning, [14] L. Yao, A. Torabi, K. Cho, N. Ballas, C. Pal, H. Larochelle, and A. Courville, Video description generation incorporating spatio-temporal features and a soft-attention mechanism, arxiv preprint arxiv: , [15] S. Venugopalan, M. Rohrbach, J. Donahue, R. Mooney, T. Darrel, and K. Saenko, Sequence to Sequence Video to Text, arxiv preprint arxiv: , [16] J.-W. Ha, K.-M. Kim, and B.-T. Zhang, Automated Construction of Visual-Linguistic Knowledge via Concept Learning from Cartoon Videos, Proceedings of the 29th AAAI Conference on Artificial Intelligence (AAAI 2015), pp , 김지원 1999 서울대학교전산학과학사졸업 2002 University of Washington 전산학과석사졸업 2006 University of Washington 전산학과박사수료 ~ 현재 ( 주 ) 네이버네이버랩스, 책임연구원 30 특집원고다양한딥러닝알고리즘과활용

표현아 2001 포항공과대학교컴퓨터공학과학사졸업 2003 한국과학기술원전산학과석사졸업

네이버네이버랩스, 책임연구원 이찬규 2005 연세대학교컴퓨터공학과학사졸업 2006~ 현재

2004~2006 삼성 SDS 2015 서울대학교전기컴퓨터공학부박사졸업 2015~ 현재 (

서울대학교전기공학부석사 1999~2012 LG 전자 2012~ 현재 ( 주 )

33 표현아 2001 포항공과대학교컴퓨터공학과학사졸업 2003 한국과학기술원전산학과석사졸업 2003~2008 LG 전자 2010~2012 LG 전자 2012~ 현재 ( 주 ) 네이버네이버랩스, 책임연구원 이찬규 2005 연세대학교컴퓨터공학과학사졸업 2006~ 현재 ( 주 ) 네이버네이버랩스, 책임연구원 하정우 2004 서울대학교컴퓨터공학부학사졸업 2004~2006 삼성 SDS 2015 서울대학교전기컴퓨터공학부박사졸업 2015~ 현재 ( 주 ) 네이버네이버랩스, 책임연구원 김정희 1996 서울대학교전기공학부학사 1999 서울대학교전기공학부석사 1999~2012 LG 전자 2012~ 현재 ( 주 ) 네이버네이버랩스, 수석연구원 Jeonghee.kim@navercorp.com 정보과학회지 31

34 특집원고 Dropout 알고리즘에대한이해 삼성전자종합기술원최희열 민윤홍 1. 서론딥러닝 (deep learning) 은최근음성인식과영상인식을비롯한다양한패턴인식분야에서혁신적인성능을기록하면서많은연구가진행되고있다 [1, 2]. 뿐만아니라딥러닝은초창기부터산업계의큰관심을끌어구글, 마이크로소프트, 삼성전자등의글로벌정보기술회사에서상용제품에딥러닝기술을성공적으로적용하고있고계속연구개발을진행하고있어대중매체에서도관심을가지고주목하고있다 [3,4,5]. 기본적으로딥러닝은기존신경망 (neural networks) 의계층수를증가시킨심층신경망 (deep neural networks, DNNs) 혹은심층망 (deep networks) 을효과적으로학습하여패턴인식 (pattern recognition) 이나추론 (inference) 에활용하는기술을통칭하는말이다. 심층망의장점은기존의신경망에비해더많은중간계층을사용함으로써데이터에대한표현능력을크게증가시킬수있다는것이다. 이러한심층망의아이디어는 1980년대이전부터제안되고논의되어왔지만, 2006년 Science 저널에발표된 Hinton 교수의논문 [1] 이전에는심층망을위한효과적인학습방법의부재로크게주목받지못했다. Hinton 교수는 [1] 에서사전학습 (pre-training) 이라는개념을제안함으로써심층망의학습가능성을보여주었고, 그이후여러가지다양한학습방법들이제안되어사용되고있다 [2,6]. 심층망의학습능력을강화하는여러알고리즘들중가장주목받고보편적으로사용되는알고리즘은드랍아웃 (dropout) 이다 [7]. 드랍아웃의기본아이디어는학습과정에서심층망의일부노드들을 p( 주로 0.5) 의확률로생략하고학습을수행하는것이다 ( 그림 1). 생략이되는노드들은학습에서현재연결강도 (weight) 에대한출력값을계산할때마다무작위로선택된다. 학습이끝난후새로운데이타에대해서는노드들을확률 p로생략하는대신모든노드들의출력값을 1-p로곱하는방법으로출력값을계산한다. 이러한방법은단순해보이지만, 학습의안정성과정확도를향상시킨다 [8]. 드랍아웃이처음제안된이후, 여러응용분야에서학습성능을개선하여왔고 [14,15], 드랍아웃의이론적해석을담은논문들도뒤따랐다 [8]. 이후, DropConnection [16] 등의다양한형태의유사알고리즘들도제안되었다. 특히, convolutional neural networks (CNNs) 과 recurrent neural networks (RNNs) 에드랍아웃을적용하는연구들도최근에소개되었다. 하지만, 이들도초기드랍아웃과근본적으로같은접근으로해석할수있다. 본논문에서는드랍아웃을다양한신경망형태에적용하는방법들을소개하고, 이들알고리즘들이작동하는방식과이론들을살펴봄으로써드랍아웃에대한전체적인이해를돕는것을목적으로한다. 이를위해 2장에서드랍아웃을다양한신경망구조에적용한방법들을살펴보고, 3장에서는드랍아웃의작동원리를정규화 (regularization) 측면에서이해하고이를다른정규화기법들과비교할것이다. 4장에서논문을마무리하면서드랍아웃의몇몇중요한연구이슈들을언급할것이다. 그림 1 DNN 에서드랍아웃 (dropout) 적용예. 학습중에노드의일부를생략하면서신경망을학습. 2. 드랍아웃알고리즘들 초기의드랍아웃은 deep neural networks (DNNs) 혹 32 특집원고 Dropout 알고리즘에대한이해

35 은 fully connected neural networks를대상으로고안되었다 [7]. 물론개념적으로는어떤형태의심층망에도적용이가능했지만 CNNs에적용한다는논문들도결국 convolutional 계층이아닌제일상위의 fully connected 계층에한정하여드랍아웃을적용했다 [14]. 이후변형된형태의드랍아웃이 convolutional 계층이나 recurrent 계층에도적용되기시작하는데, 이들을하나의개념으로설명하기위해, 초기드랍아웃이상호적응 (coadaption) 문제를해결하기위해제안되었다고이해하는것이중요하다. 상호적응문제는, 신경망의학습중, 어느시점에서같은층의두개이상의노드의입력및출력연결강도가같아지면, 아무리학습이진행되어도그노드들은같은일을수행하게되어불필요한중복이생기는문제를말한다. 즉연결강도들이학습을통해업데이트되더라도이들은계속해서서로같은입출력연결강도들을유지하게되고이는결국하나의노드로작동하는것으로써, 이후어떠한학습을통해서도이들은다른값으로나눠질수없고상호적응하는노드들에는낭비가발생하는것이다. 결국이것은컴퓨팅파워와메모리의낭비로이어진다. 드랍아웃은이러한상호적응문제를해소한다 [7]. 즉, 드랍아웃이임의로노드들을생략할때이러한상호적응중인노드들중일부는생략하고일부는생략하지않게되므로학습중상호적응이발생한노드들이분리될수있어서상호적응문제를회피할수있게된다. 본장에서는 fully connected 계층, convolutional 계층, 및 recurrent 계층에대한드랍아웃의적용방법을설명하고이들의공통점을살펴보겠다. 2.1 초기드랍아웃그림 1에서처럼, [7] 에서처음제안된드랍아웃은학습과정에서노드들을 p의확률로 ( 일반적으로 0.5) 매학습회수마다임의로생략하고남은노드들과연결선들만을이용하여 feed forward propagation ( 추론, inference) 및 backpropagation ( 학습, training) 을수행한다. 즉매학습회수마다절반의노드들만으로구성된새로운신경망에서원래의 forward/backward propagation을수행하며학습한다. 학습이모두끝난후, 새로운데이타에대해서는노드를 p의확률로생략하는대신모든노드들의출력값을 1-p로곱하는데, 이것을평균신경망 (mean network) 이라고한다 [7]. 이러한평균신경망에서 N 개의은닉노드 (hidden node) 와 softmax로확률을예측하는문제를가정하면, 2N 개의네트웍에서 그림 2 TIMIT data 에서음소인식비교. [7] 에서가져옴발생하는확률들의기하평균 (geometric mean) 을계산하는것과같다. 이러한방법은기계학습의배깅 (bagging) 방법과비슷한효과를만드는데, 안정성과정확도를향상시킨다 [8]. 이러한효과를설명하는방법중하나는드랍아웃이정규화 (regularization) 방법으로작동한다는것이다. 드랍아웃은각노드에대해임의의 2진노이즈 (random binary noise) (0 혹은 1) 를곱하는것으로볼수있다. 이렇게학습시노이즈를추가하는것은기존에가우시안노이즈추가 (Gaussian noise insertion) 와비슷한개념으로학습시학습데이타에과적합 (overfitting) 하는것을막아준다. 그림 2는 TIMIT benchmark 데이타에서입력프레임별음소인식 (frame-wise phoneme classification) 수행시드랍아웃의효과를보여준다. 은닉계층 (hidden layer) 에는 50% 를, 입력계층 (input layer) 에는 20% 의드랍아웃을적용했다. 그림에서처럼학습이진행될수록테스트에러가증가하지않고수렴하는현상을보이는데, 이는드랍아웃이과적합문제를완화한다는설명을뒷받침한다. 그림 3에서는 MNIST 데이타에드랍아웃을적용했을경우얻게되는필터 ( 하나의노드에연결된연결강도 ) 를기존필터와비교했다. 기존필터는서로비슷한필터모양이많이있는반면, 드랍아웃을적용한경우는각필터가뚜렷한스트로크 (stroke) 형태의특징을가지는것을볼수있다. 이는드랍아웃을통한상호적응의회피에의해모든필터들이서로다른모양을얻기위해더독특한형태의필터로수렴하게된것으로이해된다. 또한그림에서처럼드랍아웃의정규화역할이필터를더욱성기게 (sparse) 만든것을 정보과학회지 33

NN 에서와의미가다르다. 즉, fully connected NN 에서와는달리 CNN 에서는각노드들이지역적특징들을반영하고, 다른노드들과위상학적으로조직 (topologically organized) 되어있으며하나의필터가입력에대해 convolution을적용하면서노드뱅크 (node bank) 를만든다는것이다.

하지만, 최근 CNN 에서새로운형태의드랍아웃이제안되고성공적으로적용되었다 [9].

노드를중심으로드랍아웃이적용되는기존의방법과달리, 특징맵내의노드전체에대해드랍아웃의적용여부를결정 그림 3 MNIST 데이타에대해일반적인 backpropagation 을이용해학습된필터의모습 ( 왼쪽 ) 과드랍아웃을적용했을때의필터모습 ( 오른쪽 ). [7] 에서가져옴. 확인할수있다.

36 NN 에서와의미가다르다. 즉, fully connected NN 에서와는달리 CNN 에서는각노드들이지역적특징들을반영하고, 다른노드들과위상학적으로조직 (topologically organized) 되어있으며하나의필터가입력에대해 convolution을적용하면서노드뱅크 (node bank) 를만든다는것이다. 이러한지역적특징과위상학적인조직을가진노드들에대해임의노드들을끄는기존의드랍아웃은효과적이지않다. 또한필터공유 (weight sharing) 을통해서과적합문제가어느정도해결되기때문에 convolutional 계층에서드랍아웃은특별한이득이없는것으로여겨져왔다. 하지만, 최근 CNN 에서새로운형태의드랍아웃이제안되고성공적으로적용되었다 [9]. Convolutional 계층에서의드랍아웃으로제안된공간적드랍아웃이기존방식과다른점은각노드혹은뉴런을드랍아웃하던기존방식대신하나의필터에의해만들어지는노드뱅크전체 ( 혹은특징맵 feature map) 을드랍아웃의대상단위로취급한다는점이다 ( 그림 4 참고 ). 그림 4 공간적드랍아웃예. 노드를중심으로드랍아웃이적용되는기존의방법과달리, 특징맵내의노드전체에대해드랍아웃의적용여부를결정 그림 3 MNIST 데이타에대해일반적인 backpropagation 을이용해학습된필터의모습 ( 왼쪽 ) 과드랍아웃을적용했을때의필터모습 ( 오른쪽 ). [7] 에서가져옴. 확인할수있다. 정규화를통해성긴표현 (sparse representation) 을얻게되는것은일반적으로잘알려져있다 [20]. 그리고, 학습된필터가서로다른모양을가진다는것은보다많은형태의데이타를표현할수있는능력을가졌다는측면에서일반화 (generalization) 효과가좋아졌고, 판별능력 (discriminative power) 도확대되었다고볼수있다 [21]. 2.2 공간적드랍아웃 (Spatial Dropout) 처음드랍아웃을소개한 [7] 에서지적하듯이, CNN 에서는노드 ( 혹은뉴런 neuron) 들이 fully connected 그림 5 개체발견 (object detection) 의정확도에서공간적드랍아웃의효과. [9] 에서가져옴 34 특집원고 Dropout 알고리즘에대한이해

37 이렇게함으로써, 기존 convolutional 계층이가지는지역적특징과위상학적인조직을보존하면서도드랍아웃의원래목적이였던상호적응성혹은과적합방지효과를거둘수있다. Convolutional 계층에서하나의필터에의해만들어지는노드뱅크내의여러노드들사이의상호적응문제는존재하지않는것으로여겨야하는데, 이는필터가수행되는입력데이타의위치에따라출력이달라지기때문이다. 따라서필터간의상호적응문제를해결하면초기드랍아웃의목적인상호적응문제를완벽히해결한것으로생각할수있다. 그림 5는실재개체발견 (object detection) 에서공간적드랍아웃의효과를보여주는그래프이다 ( 자세한내용은 [9] 참고 ). 한가지중요한사실은실제로효과를가지기위해서는원래의드랍아웃이노드개수가많을경우효과를보는것처럼특징맵의개수가충분히많아야한다. 2.3 시간적드랍아웃 (rnndrop) Convolutional 계층에서공간적드랍아웃이최근제안된것과달리, recurrent 계층에서의드랍아웃적용에대한시도는조금더일찍부터있었다. 시간적연관성 (temporal dependency) 을고려하지않은초기의드랍아웃을 recurrent 계층에있는노드들에적용할경우효과적이지않은관계로, RNN을위해처음제안된드랍아웃은 recurrent connection들은그대로유지하고 non-recurrent connection들에만드랍아웃을적용하는것이었다 [10,11]. 이러한방식은기존의드랍아웃처럼노드들을생략하는방식이아니라연결선의일부를생략하는방식으로, dropconnection 방식의변종으로보는것이더적절하다 [16]. 이런식의변형된적용도필기체인식 (handwriting recognition) 등에서성능향상이보이기도했었지만 [10,11], 음소인식 (phoneme recognition) 의경우에서는연결강도노이즈추가 (weight noise injection) 등의다른정규화기법에비해효과가좋지않았다 [12]. 최근에 recurrent 계층에적용되는새로운형태의드랍아웃방식이그림 6에서와같이제안되었다 [12]. RNN 을위한드랍아웃, 즉, rnndrop 이위에서설명한기존의 RNN 용드랍아웃방식과다른점은매시간프레임 (time frame) 에드랍아웃마스크 (mask) 를새롭게생성해내는것이아니라, 하나의시퀀스 (sequence) 전체에대해드랍아웃마스크를한번생성해서모든시간프레임에동일한마스크를적용한다는것이다. 그리고드랍아웃을 connection이아니라 노드자체에적용한다점도차이다. 즉, 시퀀스별로새로운드랍아웃으로인해줄어든신경망이학습의대상이된다. 이러한방식은기존의 RNN 용드랍아웃보다더자연스러운방식으로보이는데, 이미지하나에하나의임의의드랍아웃마스크를사용하는것처럼, 시퀀스하나에하나의드랍아웃마스크를사용한다. 또한, 일반적으로 RNN 을학습하기위해 recurrent 계층을그림 7과같이펼쳐서 (unfolding) backpropagation 을적용하는데 (backpropagation through time or BPTT), 이때펼쳐진신경망에서다른드랍아웃방법과달리, rnndrop은적용후에도시간별로동일한신경망연결구조를유지하게된다. 이는기존의방법들이펼쳐진상태에서다른시간대에다른연결구조를갖게되어 RNN 원래의성격을잃어버리는현상과대비된다. 표 1에서보인것처럼, 실재실험을통해서도기존의 RNN 용드랍아웃을포함한다른정규화기법들보다 rnndrop이더나은성능을보이는것으로확인할수있다. ( 실험과알고리즘에대한자세한설명은 [12] 참고 ) 그림 6 Recurrent 계층을위한드랍아웃방법. [12] 에서가져옴. 그림 7. Recurrent 계층의펼침 (unfolding) 표 1 TIMIT core test set에대한음소인식결과음향모델 (Acoustic Model) 음소에러비율 DBLSTM + weight noise injection [13] 18.0% DBLSTM + dropout [11] 18.2% DBLSTM + rnndrop [12] 16.92% 정보과학회지 35

38 2.4. 공통의원리지금까지설명한몇가지드랍아웃알고리즘방식들은각기다른신경망구조에다른형태로드랍아웃을적용했지만, 같은원리를공유한다. 초기드랍아웃방식에서처럼, 신경망에서노드들사이에공간적혹은시간적연관성이없는경우개별노드에대해독립적인확률로드랍아웃을적용할수있었다. 하지만, convolutional 계층에서는공간적, recurrent 계층에는시간적연관성이존재하는관계로, 독립적확률로드랍아웃을적용하는것에문제가있었다. 공간적드랍아웃은공간적으로존재하는연관성을보존하는방향으로드랍아웃을적용하고, rnndrop은시간적으로존재하는연관성을보존하는방향으로드랍아웃을적용한다. 즉, 시공간적으로연관성이존재할경우이를보존하는형태로드랍아웃을적용하는것이핵심이다. 위의원리를다른방식으로표현하면, 하나의입력샘플 ( 예를들어각이미지혹은하나의음성입력문장 (utterance)) 마다하나의필터에대해드랍아웃여부를결정하는것으로설명할수있다. 이는하나의이미지혹은음성입력문장내에적용되는하나의필터는독립적으로생략할수있기때문이다. 3. 알고리즘분석지금까지신경망의구조에따라학습과정에서무작위 (randomly) 로은닉유닛 (hidden unit) 의사용여부를결정하는드랍아웃알고리듬들을보았고, 배깅 (bagging) 의일종으로정규화역할을수행한다는것을언급하였다. 본장에서는드랍아웃을배깅과다른정규화방법으로해석한다. 3.1 정규화방법으로써의드랍아웃과적합문제와그원인을해석하는여러접근방법이가능하겠지만, [17] 에서는과적합현상이학습데이터에포함된정보이상을해석할수있는모델을학습에사용할때발생한다고설명하였다. 즉, 모델의복잡도 (complexity) 가학습데이터의정보를해석하기에지나치게큰경우에과적합현상이발생하는것이다. 이해석에따르면과적합현상을방지하는좋은방법중하나는모델의복잡도가지나치게커지는것을막는것이다. 모델의복잡도는쉽게는모델의하이퍼-파라미터 (hyper-parameter) 를조정하여줄일수있다. 즉, 신경망의은닉층의갯수, 혹은은닉유닛의개수를줄이면모델의복잡도는줄어든다. 또다른방법은신경망 의연결강도행렬 (weight matrix) 의크기 (norm) 을제한하는것이다. 이는원래문제의목적함수에연결강도행렬의크기를의미하는항을벌칙 (penalty) 으로더한다음, 이목적함수를최소화하는형태로표현이가능하다. 대표적인예는 LASSO와같이 L1-norm 이나, Ridge Regression과같이 L2-norm을사용하는것이다. 현재딥러닝학습과정에많이사용하는연결강도줄임 (weight-decay) 은 L2-norm 벌칙항 (penalty term) 을더한목적함수에 gradient descent 방법을적용한것이다. 이러한형태는모델파라미터들의다양체 (manifold) 를특정한벡터공간으로한정함으로써모델이다양체밖에서학습데이타에과적합되는것을방지하는것으로도이해할수있다. 목적함수에정규화벌칙항을추가하여과적합을방지하는방법외에무작위성을이용하는방법도있다. 학습과정에무작위성을추가하여과적합문제를해결하는시도중하나는입력벡터에무작위노이즈 (random noise) 를 " 섞는 " 것이다. 이아이디어는모델의복잡도를제한하여과적합을방지하기보다는데이터의양을데이터에포함된정보를왜곡하지않으면서늘려서모델의복잡도와데이터에내재된정보사이의불균형을해소하는방법으로해석할수있다. 드랍아웃학습과정에서무작위로임의의노드를생략하는것은단층신경망에서는입력데이터에서임의의특징을무작위로생략하는것과같다. 심층망에서도특정층의은닉유닛을무작위로생략하는것은그층의하위계층이정의하는특징을무작위로생략하는것으로해석할수있다. 이와같이무작위로특징을생략하는방법은다음과같이입력또는하위계층의활성화 (activation) 에의해정의되는특징에무작위노이즈를섞는 ( 더구체적으로는곱하는 ) 것으로해석할수있다 [18]. 특징에무작위성을추가하는기존의방법들은대부분입력에가우시안노이즈를더하는형태이다. 반면드랍아웃은입력에베르누이분포를따르는노이즈를곱하는형태로해석이가능하다. 구체적으로 d-차원의입력에 d-차원의 (scaled) 베르누이분포를따르는노이즈에대해이들의컴포넌트별곱형태로노이즈를섞는다. 따라서, 입력의 i번째컴포넌트혹은특징는의확률로 0, 의확률로이된다. 3.2 다른 regularizer 들과의비교학습과정에서무작위노이즈를데이터에 " 섞는 " 방법이벌칙항을목적함수에더해모델의복잡도를제한하는방법과결국같다는것이증명되어있다 36 특집원고 Dropout 알고리즘에대한이해

39 [19]. 이와유사한방법으로드랍아웃에서입력특징에노이즈를섞는것을정규화벌칙항을이용한정규화방법으로해석이가능하다. 이러한아이디어를이용하여, 일반선형모델 (Generalized Linear Model, GLM) 에드랍아웃을적용할경우, 드랍아웃을 L2-정규화로해석할수있다 [18]. GLM의경우, 입력특징에무작위노이즈를섞을경우, 학습에사용되는기대실험손실 (expected empirical loss) 를적절하게표현하면실험손실에특정정규화항을더한형태로표현이가능하다. [19] 의아이디어는이정규화항이이차근사 (second-order Taylor approximation) 를통해학습된 GLM의파라미터의분산 ( 노이즈로인한 ) 으로표현된다는것이다. 즉, GLM의파라미터가노이즈로인한분산이작게끔학습이된다면데이타원래의분산에더집중하는형태로더안정적인 (stable) 파라미터를학습하는것이가능하다는것을의미하며이는곧과적합을줄인다는것을의미한다. 다른한편으로는, 입력특징에무작위노이즈를섞는방법으로드랍아웃을 GLM에적용할경우, 드랍아웃이입력특징을피셔정보행렬 (Fisher Information Matrix) 로표준화 (normalization) 한상태에서 L2-정규화를적용한형태로도표현이가능하다 [18,19]. 따라서, 드랍아웃역시기존에널리사용되는 L2-정규화를이용한정규화방법으로볼수도있다. 하지만, 실험적으로는표 1에서와같이많은경우에연결강도노이즈추가 (weight noise injection) 등을포함한다른정규화방법보다드랍아웃이더나은성능을보인다. 4. Conclusions 딥러닝의여러응용분야에서학습성능을개선해온드랍아웃의개념은간단하지만, 다양한네트웍구조에적합하게적용되지못하고있었다. 최근다양한신경망형태에변형된드랍아웃이적용되기시작했는데, 하나의일관된원리로이해하는접근이부족했다. 본논문에서는드랍아웃의초기알고리즘부터최신알고리즘들을소개하고, 이들알고리즘들이작동하는방식과이론들을살펴봄으로써다양한드랍아웃방법들에대해하나의원리로정리한다. 또한이러한드랍아웃알고리듬들을정규화형태로이해함으로써, 이후새로운신경망구조에대해적절한형태의드랍아웃방식을적용하고고안하는데도움이될것이다. 새로운신경망구조에대한적절한드랍아웃방식의개발이외에도다른많은연구방향이가능할것 으로보인다. 드랍아웃은상대적으로큰심층망모델과많은학습데이터에서그유용성이입증되었지만, 상대적으로작은모델에서는그효과가크지않은것으로보이는데, 모델의크기에따른드랍아웃알고리즘의효과에대한연구가필요하다. 뿐만아니라, 드랍아웃학습은다른정규화방법보다더많은학습시간을필요로하는경향이있는데, 드랍아웃적용시고려해야되는하이퍼-파라미터들, 그리고드랍아웃의속도를향상시킬수있는실용적인기법들의개발도중요한연구방향중하나이다. 참고문헌 [ 1 ] G. Hinton, R. Salakhutdinov, Reducing the dimensionality of data with neural networks, Science, 313(5786), pp , Jul [ 2 ] J. Schmidhuber, Deep Learning in Neural Networks: An Overview, Technical Report IDSIA-03-14, [ 3 ] J. Markoff, How Many Computers to Identify a Cat? 16,000, New York Times. June 25, [ 4 ] J. Markoff, Scientists See Promise in Deep-Learning Programs, New York Times. November 24, [ 5 ] G. Marcus, Is Deep Learning a Revolution in Artificial Intelligence? The New Yorker, November 25, [ 6 ] G. Hinton, S. Osindero, Y. Teh, A fast learning algorithm for deep belief nets, Neural Computation Vol.18, pp , [ 7 ] G. Hinton, N. Srivastava, A. Krizhevsky, I. Suskever, and R. Salakhutdinov, Improving neural networks by preventing co-adaptation of feature detector, [ 8 ] P. Baldi, P. J. Sadowski, Understanding dropout, Advances in Neural Information Processing Systems (NIPS), (2013) [ 9 ] J. Tompson, R. Goroshin, A. Jain, Y. LeCun, C. Bregler, Efficient Object Localization using Convolutional Networks, Computer Vision and Pattern Recognition (CVPR) 2015, pp [10] V. Pham, T. Bluche, C. Kermorvant, and J. Louradour, Dropout improves recurrent neural networks for handwriting recognition, ICFHR (2014) [11] W. Zaremba, I. Sutskever, and O. Vinyals, Recurrent Neural Network Regularization, v5 [12] T. Moon, H. Choi, H. Lee, I. Song, RnnDrop: A Novel Dropout for RNNs in ASR, Automatic Speech 정보과학회지 37

Hinton, ImageNet classification with deep convolutional neural networks, Advances in Neural Information Processing (NIPS), Lake Taho, NV, (2012) [15] G. Dahl, T. N. Sainath, and G.

40 Recognition and Understanding (ASRU) (2015), submitted. [13] A. Graves, N. Jaitly, and A. Mohamed, Hybrid speech recognition with deep bi-directional LSTM, Automatic Speech Recognition and Understanding (ASRU) (2013) [14] A. Krizhevsky, I. Sutskever, G. Hinton, ImageNet classification with deep convolutional neural networks, Advances in Neural Information Processing (NIPS), Lake Taho, NV, (2012) [15] G. Dahl, T. N. Sainath, and G. Hinton, Improving deep neural networks for LVCSR using rectified linear units and dropout, International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2013). [16] L. Wan, M. Zeiler, S. Zhang, Y. LeCun, and R. Fergus, Regularization of neural networks using dropconnect, International Conference on Machine Learning (ICML) (2013) [17] A. Krogh, J. Hertz, A simple weight decay can improve generalization, Advances in Neural Information Processing (NIPS), (1991) [18] S. Wager, S. Wang, and P. Liang, Dropout training as adaptive regularization, Advances in Neural Information Processing (NIPS), (2013) [19] C. Bishop, Training with noise is equivalent to Tikhnov regularization, Neural Computation, 7(1), 1995 [20] B. Olshausen, and D. Field, Emergence of simple-cell receptive field properties by learning a sparse code for natural images, Nature, 381(6583),1996. [21] Y. Bengio, A. Courville, and P. Vincent Representation learning: A review and new perspectives, IEEE Trans. On Pattern Analysis and Machine Intelligence, 35(8), 2013 최희열 2002년포항공과대학교컴퓨터공학과 ( 학사 ) 2005년포항공과대학교컴퓨터공학과 ( 석사 ) 2010년 Texas A&M University, Computer Science and Engineering ( 박사 ) 2010년 ~2011년 Indiana University, Cognitive Science Program (Post-Doc) 2011년 ~ 현재삼성전자종합기술원전문연구원관심분야 : Deep Learning, Manifold Learning, Cognitive Science, Computational Neuroscience. heeyoul@gmail.com 민윤홍 2006년포항공과대학교산업경영공학과 ( 학사 ) 2012년서울대학교산업공학과 ( 박사 ) 2012년 ~ 현재삼성전자종합기술원전문연구원관심분야 : Deep Learning, Convex Optimization. yunhong.min@gmail.com 38 특집원고 Dropout 알고리즘에대한이해

41 특집원고 심층순환신경망 울산과학기술원정경중 최재식 * 1. 서론 1) 인공신경망에기반한딥러닝기술이최근들어많은 각광을받으면서성장하고있다. 2000년대중반부터연구자들의이목을끌기시작하면서컴퓨터비전및음성처리분야에서우수한성능을보이기시작했고, 언어번역등다양한분야에서응용되고있다. 컴퓨터비전분야에서는이미지, 비디오분류 (classification), 이미지분할 (segmentation), 물체인식 (recognition), 특징점인식 (regression), 물체추적 (tracking) 등이미다양한분야에접목되어연구되고있다. 많은연구자들이딥러닝기술을이용하는이유는연구 / 개발자가복잡한네트워크를설계할필요없이, 빅데이터와 GPU 병렬처리기술을활용하여이미지의주요특징점을자동으로추출해, 실험적으로개선된학습성능을보여주기때문이다. 인공신경망의꾸준한발전으로많은네트워크가연구되고소개되어왔다. 대표적인네트워크를소개하면최초인공신경망의단위네트워크인퍼셉트론 (Perceptron) 이 1958년 Rosenblatt[1] 에의해소개되었고, 1986년에 Rumelhart와 Hinton[2] 에의해서다층퍼셉트론 (Multi- Layer Perceptron - MLP) 과역전파알고리즘 (Back- Propagation) 이소개되었다. 역전파알고리즘은출력노드에서계산된오류를하층의노드로역으로전달하며매개변수를학습 ( 수정 ) 하게되는데, 계층이많은다층퍼셉트론의경우에는입력노드까지전달되는정보가너무적어 (vanishing gradient), 학습된네트워크가초기매개변수의값에크게영향을받아지역최소값에머무르는 (local minimum) 문제가있었다. Geoffrey Hinton 및연구자들은이를해결하기위하여제한된볼츠만머 * 종신회원 본논문은 2014 년도정부 ( 미래창조과학부 ) 의재원으로한국연구재단의지원을받아수행된원자력연구개발사업임 (No. NRF- 2014M2A8A ). 본연구는미래창조과학부및정보통신산업진흥원과울산경제진흥원의지원을받아수행된지역 SW 융합제품상용화지원사업의연구결과로수행되었음 (S ). 신 (Restricted Boltzmann Machine - RBM)[3] 을통한효과적인선행학습을제안하여, 이미지의주요특징점에기반한적절한초기매개변수를구할수있게되었다. 더나아가, 선행학습없이특징점을잘학습할수있도록, 특별히고안된네트워크인컨볼루셔널신경망 (Convolutional Neural Networks - CNNs)[4,5] 이제안되었다. 데이터의효율적인인코딩을설계하기위하여만들어진오토인코더 (Autoencoder)[3] 도많이사용되고있으며, 동적인데이터를학습할수있는순환신경망 (Recurrent Neural Networks - RNNs)[6,7], 순환신경망을학습시지역최소값에빠지는문제를해결하기위해서등장한 Long-Short Term Memory (LSTM)[7] 구조등이대표적인인공신경망의구조이다. 최근순환신경망이음성인식, 시각집중, 비디오검색등동적인데이터를다루는분야에서재조명되면서우수한성능을보여주고있다. 비디오데이터를다루는분야에서는전통적으로공간적인특징과, 시간적인특징을직접추출하여다루어왔다 [8]. 공간적인특징은두비디오프레임의차이를이용한 optical flow[9] 특징과크기변화에강인한특징 (Scale Invariant Feature Transform - SIFT)[10] 을많이사용하였고, 공간적 -시간적피라미드매칭법을이용하여공간적, 시간적인특징을알맞은크기의피라미드에서추출하여매칭하는기법 [8] 이소개되어많이사용되었다. 하지만실험자가직접특징점을설정하는방법은특징의크기, 회전등을고려해야하며, 피라미드의크기에따라서매칭성능이달라지는단점이있다. 동적인데이터에서자동으로특징을추출하는순환네트워크는은닉노드에서은닉노드로피드백하는자체루프가있다는것이기존인공신경망과다른점이다. 은닉노드의자체피드백은 시간의은닉값이 시간의데이터와결합하여 시간의은닉값에영향을줄수있다. 이런이유로연속적인데이터를학습하는데많이이용되는신경망이다. 본논문에서는순환신경망에서학습및계산을향상시키기위해서네트워크구조를개선한모델을소개한다. 순환인공신경망은다양한구조를가지고있고다양 정보과학회지 39

42 한출력노드모델을가질수있다. 손글씨를예측하는신경망 [7] 은 시간의출력노드값을이용하여 시간의입력노드값을예측한다. 이신경망의출력구조는가우시안혼합밀도를이용하여출력의방향과크기를예측한다. Srivastava[11] 는과거의프레임들을이용하여다음프레임들을예측하는오토인코더모델을제안하였고, Ranzato[12] 는다음프레임을예측하는모델을제안하였다. 이모델은연속적인데이터를통하여시간적정보를가질수있지만공간적인정보는놓칠수있다. 비디오를분류할때중요한요소중의하나는 어떻게물체를정렬하는가? 에대한논의이다. 비디오영상에서카메라의움직임때문에시간이지날수록물체는임의적인방향으로움직이는것처럼보이게된다. 기존의시간적-공간적피라미드매칭법으로는피라미드의크기를조절하여이문제를해결할수있지만작은피라미드에서는에러가증가하여놓치는경우가발생할수있다. 이러한문제를해결하기위해서우리는심층순환네트워크구조를제안한다. 제안한네트워크는한개의출력노드가아닌다수의출력노드를가질수있게설계되었고, 다양한출력노드를이용하여제시한문제를해결할수있다. 본논문의 2절에서는새롭게제안한모델을설명하기위해기초가되는 LSTM을사용한순환신경망대해논하고 3절에서는제안한모델을설명한다. 4절에서는제안한모델을통하여수행한실험들에대해설명한다. 마지막으로결론및향후연구에대해 5절에서논한다. 2. LSTM 블록을가지는순환신경망 이번장에서는 LSTM 블록을가지는순환신경망구조에대해서설명할것이다. LSTM은기존의은닉노드대신셀과게이트로이루어진유닛을이용하여순환네트워크를학습할때지역최소값에머무르는문제를해결할수있게해준다. LSTM 블록을가지는순환신경망은일반적인순환신경망에서각은닉노드전에 LSTM 블록을추가한구조이다. 2.1 순환신경망연속적인데이터를처리할때순환신경망네트워크를많이사용한다. 순환신경망은그림 1에서볼수있듯이입력노드, 은닉노드, 출력노드로구성되어있고이전시간 의은닉노드가현재시간 의은닉노드에영향을주는구조로되어있다. 그림 1은신경망을시간에따라펼쳐서보여주는그림이다. 실제구조는각은닉노드가자신에게피드백루프를가지는모양이다. 그림 1 순환신경망구조 2.2 Long-Short Term Memory(LSTM) LSTM 구조는 1997년 Hochreiter[13] 에의해처음으로제안되었지만최근음성인식에서좋은성능을보여 [7] 다시관심을받게되었다. 순환신경망을학습할때이전시간 의은닉노드값이현재시간의은닉노드에영향을주기때문에학습이진행됨에따라에러값이 1보다클경우누적에러가기하급수적으로증가하거나, 1보다작을경우누적에러가감소하여빠르게 0으로수렴하는현상이발생한다. 이러한문제를해결하기위하여 LSTM 구조가제안되었고내부에존재하는메모리소자 (cell) 가연속적인데이터의동적인정보를기억하게되고메모리소자의출력부분의 tanh함수와출력노드의 sigmoid함수에의해출력게이트로셀정보가 normalize 되어서나가게된다. 그렇기때문에에러의누적으로인해서발생하는발산, 수렴현상을막을수있다. 그림 2에서볼수있듯이 LSTM 블록은메모리셀소자, 입력터미널, 입력게이트, 출력게이트, 소거게이트 를가지고있다. 연속적인입력데이터를 이라고하고, 연속적인출력데이터를 이라고하고, 연속적인은닉상태값을 이라고두면은닉상태값과출력값은다음식에의해서구해진다. 여기에서 는은닉노드의활성화함수를나타내고, 는입력노드에서은닉노드로의 weight 행렬을나타내고, 는편향값을나타낸다. 그림 2에서입력터미널과세개의게이트는입력시그널 와 시간의은닉노드의값 을입력으로받아들인다. 현재셀상태의값은입력터미널과입력게이트의곱셈값과 시간의셀상태값과소거게이트의값의곱과의합으로이루어진다. 이러한과정을통하여우리는셀메모리소자가 40 특집원고심층순환신경망

연속적인데이터의히스토리를저장하고발산과수렴의문제를해결할수있다는것을알수있다. 각게이트와셀상태의값은다음과같이계산된다. tanh tanh 여기서 는 sigmoid 함수를나타내고 는원소들간의곱을나타낸다. 는현재시간의입력, 소거, 출력게이트를나타낸다. 는입력, 은닉, 셀상태로부터입력, 소거, 출력게이트로의 weight를나타낸다. 네트워크구조를나타낸다.

43 연속적인데이터의히스토리를저장하고발산과수렴의문제를해결할수있다는것을알수있다. 각게이트와셀상태의값은다음과같이계산된다. tanh tanh 여기서 는 sigmoid 함수를나타내고 는원소들간의곱을나타낸다. 는현재시간의입력, 소거, 출력게이트를나타낸다. 는입력, 은닉, 셀상태로부터입력, 소거, 출력게이트로의 weight를나타낸다. 네트워크구조를나타낸다. 아래부분이전방네트워크로서각프레임차를학습한다. 그리고윗부분이후방네트워크로서전방네트워크의 LSTM 셀에서정보를가져와서학습한다. 3.1 전방네트워크 - 두프레임간의차이를학습하는네트워크 Optical flow 알고리즘은연속적인이미지데이터로부터모션의특징을추측하는알고리즘이다. 논문 [9] 에모션의특징을추출하는다양한방법들이있다. 본논문에서는순환네트워크를이용하여프레임사이의모션을학습하는방법을제안한다. 제안한방법은그림 4에나타나있다. 제안한모델은입력으로비디오시퀀스를받고출력노드는 초시간의프레임을가지게된다. 본논문에서는출력프레임의너비와높이를입력보다 4배작게설정하였다. 따라서이미지사이즈는 16배가줄어들게된다. 이는이미지를그대로사용하면서사이즈를줄이는것이본모델에서필요한실제분포를잘반영할것이라고생각했기때문이다. 제안한전방네트워크모델은은닉계층 t와 t+5초시간사이의프레임변화를학습하는역할을한다. 이러한결과로부터우리는공간적정보를얻을수있게된다. 그정보는암시적으로 LSTM 블록의셀메모리에저장된다. 그림 2 LSTM 블록의내부구조 [7] 3. 심층순환신경망이번장에서우리는순환신경망모델과 LSTM을기반으로새로운심층순환신경망모델을제안한다. 제안한모델은프레임차를학습하는순환네트워크와일반순환네트워크를결합한구조이다. 그림 3은전체 그림 4 순환네트워크로구성된예측네트워크 3.2 후방네트워크 - 비디오분류네트워크 그림 3 심층순환네트워크전체구조도 제안한모델은서로다른형태의출력노드를가질수있게설계된네트워크이다. 공간적정보와비디오의클래스넘버를연결하기위해서우리는 LSTM을기반으로하는순환네트워크를이용하여후방네트워크를설계하였다. 이전장에서설명한전방네트워크는프레임간의차이를학습하는반면에후방네트워크는비디오의클래스를분류하게된다. 그렇기때문에출력은각비디오 정보과학회지 41

44 의클래스넘버를가지게된다. 전방네트워크의셀메모리는공간적정보를가지는반면, 시간축으로정렬되지않는정보가학습된다. 그렇기때문에후방네트워크에서전방네트워크의공간적정보를이용하여시간적으로공간적정보를정렬하게된다. 후방네트워크는그림 5에묘사되어있다. 후방네트워크의입력은전방네트워크의셀값 (C 0) 고, 출력은비디오클래스넘버를사용한다. 전방네트워크의셀값은비디오의모션을기억하고, 후방네트워크에서클래스넘버를타깃으로시간적정보를학습하는것이다. 그림 5 후방네트워크의구조 4. 실험결과본논문은 Linux Ubuntu 환경에서 Python과 GPU를사용하여실험을하였다. 학습과테스트에사용된 DB는 27시간, 13,320개의비디오클립으로구성된 UCF101을사용하였다. 또한 3가지종류의학습 / 테스트리스트를분류해서제공하기때문에쉽게학습 / 테스트에이용할수있다. UCF101 데이터셋의총비디오클래스개수는 101개이지만데이터양이많아서학습시간이많이걸리기때문에클래스의개수를 10개로줄여서실험을하였다. 입력과출력 - 제공되는데이터셋의비디오프레임의사이즈는 이다. 하지만종종비디오에서윗부분과아랫부분이검은색으로나타나는부분들이있어서학습에영향을주지않게하기위해서제거하여 의크기로처리하였다. 처리된이미지는계산복잡도와학습될 RNNs 모델의사이즈를줄이기위해서원본이미지대비 1/4로줄여서사용하였다. 최종적으로사용된이미지는 이다. 타깃이미지도같은사이즈를이용하였다. 최종입력벡터는 R, G, B의행렬을벡터화시켜서각각의벡터를붙여서입력벡터로만든다. 전방네트워크의출력은 초뒤의이미지를같은크기로사용하였고, 후방네트워크의출력은바이너리클래스넘버를사용하였다. 전방네트워크 - 비디오는연속적인데이터를가지기때문에, 우리는 LSTM블록을가지는순환네트워크를 이용하였다. 네트워크는입력노드 (x), 은닉노드 (h1), 은닉노드 (h2), 출력노드 (out1) 으로구성되어있다. 입력크기는벡터화된이미지사이즈인 10800이고, 각은닉노드는 512 크기를가지고, 출력도같은사이즈인 의크기를가진다. 전방네트워크는프레임차를학습하는네트워크이다. 학습동영상이 25프레임 / 초의속도를가지기때문에 와 의프레임의변화가미미하여 와 초프레임의차이를학습하게하였다. 후방네크워크 - 후방네트워크는비디오를분류하기위한모델이다. 네트워크구조는입력노드 (x), 은닉노드 (h1), 은닉노드 (h2), 출력 (out2) 으로전방과유사하게구성되어있다. 입력의크기는전방네트워크의셀 (C 0) 의개수와같기때문에 512개이고, 은닉노드 (h1) 과은닉노드 (h2) 는각각 256 크기로설정하였다. 학습 - 순환네트워크는연속적인데이터를학습하는모델이다. 그렇기때문에 forward propagation에서동영상의프레임이끝날때까지입력이미지를받아들이고, 동영상의프레임이끝나면 Backpropagation Throught Time (BPTT) 알고리즘을이용하여에러를계산하였다. UCF101 데이터셋에서제공하는 3가지학습 / 테스트리스트중에서한가지만을학습하고테스트를진행하였다. 학습에사용된비디오의총개수는 985개이고, mini-batch크기는 50으로세팅하였다. 총학습에사용된반복횟수는 200번이다. 실험결과 - 학습할때 1번학습세트의 10개클래스를이용하여학습을하였고, 테스트도 1번테스트세트의 10개클래스를이용하여진행하였다. 베이스모델은기본순환네트워크 ( 그림 1) 이며입력 (x), 은닉노드 (h1), 은닉노드 (h2), 출력노드 (out) 로구성되어있고, 각노드의크기는, 입력은학습에사용한이미지크기랑같은사이즈를사용하였고, 은닉노드 (h1) 과은닉노드 (h2) 는 256 크기로설정하였다. 출력은비디오클래스의개수인 10개이다. 테스트는 10개중에서가장높은정확도를가지는클래스 1개를선택하는방법을사용하였다. 그림 6은테스트결과를보여준다. 파란색선은제안한모델의성능을나타내고주황색선은기본모델의성능을나타낸다. x축은학습의반복횟수를 y축은테스트셋을이용한성능을나타낸다. 학습초기에는기본모델이제안한모델보다단순하기때문에네트워크가빠르게학습되어서성능이제안한모델보다높게나타나지만반복횟수가증가할수록제안한모델의네트워크가잘학습이되어서더성능이좋아지는걸볼수있다. 비디오데이터는이미지데이터보다시간적인요소가포함되어있어서학습하는데시간이더욱많이소요된다. 42 특집원고심층순환신경망

그림 6 제안한모델과기본모델의실험결과 5. 결론본논문은기존에사용된한종류의출력노드를가지는네트워크와는다르게다른형태의출력을여러개가질수있는새로운모델을제안하였다. 단일출력만을이용하면하나의출력을기준으로네트워크를학습해야하는제한사항이존재하기때문에다양한방법으로네트워크를학습할수없다.

Graves, A. Mohamed, G. E. Hinton, Speech recognition with deep recurrent neural networks, International Conference on Acoustics, Speech and Signal Processing, pp. 6645-6649, May 2013. [ 7 ] A.

A Novel Connectionist System for Improved Unconstrained Handwriting Recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009. [ 8 ] J. Choi, Z. Wang, S.

45 그림 6 제안한모델과기본모델의실험결과 5. 결론본논문은기존에사용된한종류의출력노드를가지는네트워크와는다르게다른형태의출력을여러개가질수있는새로운모델을제안하였다. 단일출력만을이용하면하나의출력을기준으로네트워크를학습해야하는제한사항이존재하기때문에다양한방법으로네트워크를학습할수없다. 또한직렬적인방법으로네트워크를붙이는것은앞단의학습이끝나고난이후의작업이기때문에유연하게정보를바꾸어서사용하기어렵다. 따라서본논문에제안한모델은기존의방법과는크게다르고, 다양한출력모델을이용할수있기때문에더욱많은학습방법을만들어낼수있을것으로판단된다. recognition, Proceedings of the IEEE, , [ 6 ] A. Graves, A. Mohamed, G. E. Hinton, Speech recognition with deep recurrent neural networks, International Conference on Acoustics, Speech and Signal Processing, pp , May [ 7 ] A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, [ 8 ] J. Choi, Z. Wang, S. Lee, and W. J. Jeon. A spatio-temporal pyramid matching for video retrieval, Computer Vision and Image Understanding, 117(6): , [ 9 ] J. L. Barron, D. J. Fleet, and S. S. Beauchemin. Performance of optical flow techniques, International Journal of Computer Vision, 12(1):43 77, [10] D. G. Lowe, Distinctive Image Features from Scale-Invariant Keypoints, Int. J. Comput. Vision, pp , November [11] N. Srivastava, E. Mansimov, and R. Salakhutdinov. Unsupervised learning of video representations using lstms, CoRR, abs/ , [12] M. Ranzato, A. Szlam, J. Bruna, M. Mathieu, R. Collobert, and S. Chopra. Video (language) modeling: a baseline for generative models of natural videos, CoRR, abs/ , [13] S. Hochreiter, J. Schmidhuber, Long short-term memory, Neural Computation, 9 (8): , 참고문헌 [ 1 ] F. Rosenblatt, The Perceptron, A Perceiving and Recognizing Automaton, Project Para Report No , Cornell Aeronautical Laboratory (CAL), Jan [ 2 ] D. E. Rumelhart, G. E. Hinton, and R. J. Williams, Learning Internal Representations by Error Propagation, MIT Press, [ 3 ] G. E. Hinton, R. R. Salakhutdinov, Reducing the dimensionality of data with neural networks, Science 313 (5786), , [ 4 ] K. Fukushima, Neocognitron: A Self-Organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics 36, , [ 5 ] Y. LeCun, L. Bottou, Y. Bengio, P. Haffner (1998). Gradient-based learning applied to document 정경중 2005 울산대학교전기전자공학부졸업 ( 학사 ) 2009 포항공과대학교정보통신학과졸업 ( 석사 ) 2009~2010 삼성테크윈연구원 2013~ 현재울산과학기술원전자공학과박사과정관심분야 : 컴퓨터비전, 기계학습, 이미지프로세싱 kjjeong78@unist.ac.kr 최재식 2004 서울대학교컴퓨터공학과졸업 ( 학사 ) 2012 University of Illinois at Urbana Champaign 전산학과박사 ( 졸업 ) 2013 Lawrence Berkeley National Laboratory 박사후연구원 2013~현재울산과학기술원전기전자컴퓨터공학과조교수관심분야 : 인공지능, 기계학습, 컴퓨터비전, 로보틱스 jaesik@unist.ac.kr 정보과학회지 43

46 특집원고 이진신경망의학습과활용 University of Illinois at Urbana-Champaign 김민제 1. 서론계층별로각기학습된비감독형 (unsupervised) 모델이다계층의깊은인공신경망 (DNN: Deep Neural Networks) 의초기화에효율적이라는발견을기점으로 [1, 2], 심층학습 (Deep Learning) 은다양한응용분야에서많은성능향상에기여하였다. 단하나의은닉계층 (hidden layer) 과유한한개수의은닉뉴런 (neuron) 들만으로도주어진함수를모사할수있다는보편근사이론 (Universal Approximation Theorem) 에서의가정과는별개로 [3, 4], 심층학습은대개의경우적어도둘이상의은닉계층과수천개의계층별은닉뉴런을필요로한다. 크게증가한망의규모는급증한학습과정에서의복잡도를야기하며, 많은경우에그래픽스처리장치 (GPU: Graphics Processing Unit) 를이용한행렬연산의가속에오류역전파 (error backpropagation) 방식의학습과정을의존하는실정이다. 그러나, 대부분의심층학습관련이론적연구는다양한응용분야에대응할수있는신경망의구조에대한것이거나이를효율적으로학습할수있는체계에관련된것에집중되어있었고, 그렇게해서학습된신경망이실제로테스트환경에서작동되는경우에서의복잡도감소는구현의최적화영역으로남아있었다. 때문에, 사용자환경의맥락을인지한상태에서의응용 (context-aware computing) [5], 단일단어의빠르고효율적인인식을통한개인용비서시스템의구동 ( 예를들어 Apple사의 "Hey, Siri" 와같은서비스등 ), 또는 Google Glass와같은저전력구현이필수적인환경에서의패턴인식문제등, 자원이제한된환경에서도심층학습으로인한인식정확도의향상은분명히필요한일임에도불구하고, 심층학습모델이내재한복잡도로인해그해당환경에서는활용이미비한측면이있다. 한편, 일반적인실수기반의인공신경망의경우, 이론적으로는실수영역에서표현되는매개변수 (parameter) 라고할지라도, 그들을효율적으로양자화 (quantization) 함으로써하드웨어구현에보다적합한형태로변환하는방식은이미제안되었다 [6]. 다만실수영역에서이미학습한매개변수를추후한차례양자화하는것은양자화에따른신경망의성능저하를야기할우려가있다. 그대신역전파기반의학습과정에서이미양자화잡음을첨가하는방식은양자화의영향을최소화함으로써, 보다고효율의양자화를적용하더라도신경망의성능을최대화할수있는대안으로볼수있다 [7, 8]. 이러한양자화기반의학습방식은비록부동소수점 (floating-point) 방식의양자화대신보다효율적인고정소수점 (fixed-point) 방식의양자화를사용할수있다는이점이있는반면, 여전히고정소수점으로표현된매개변수및뉴런별입출력신호간의연산을수행해야한다는점에서개선의여지를남긴다. 본고에서는이진신경망 (Bitwise Neural Networks) 모델을소개하고, 이를위해해시 (hash) 기반의이진특징추출 (feature exraction) 방식을통합한다. 이진신경망은, 신경망의모든입력및매개변수, 각뉴런별출력신호등이이진변수 (-1 또는 +1) 로표현되는모델로서, 양극화 (bipolar) 된이진변수간의 XNOR 연산이그들의곱셈에대응한다는사실에착안하여연산의복잡도를최소화하였다 ( 표 1 참고 ) 1). 마찬가지로, 인공신경망에서비선형함수모델링의한축을담당하는시그모이드 (sigmoid) 형태의활성화함수 (activation function) 대신보다간단한부호 (sign) 함수를 1) 이러한 XNOR 논리연산과곱셈사이의일치는오직양극화이진표현을통해서만가능하며, 신경망의학습시에편리하게작용한다. 또한, 양극화이진표현은초평면의절편역시이진수로표현할수있게한다. 다만, 실제신경망의하드웨어구현시에는양극화표현대신 0 과 1 로이루어진일반적인이진표현을사용하게될것이며, 이로인한개념적인모델 ( 양극화이진수 ) 과구현 (0 과 1 로이루어진이진수 ) 사이의불일치는활성화함수를부호함수대신부등식으로대체함으로써간단하게해결할수있다. 44 특집원고이진신경망의학습과활용

표 1 XNOR 논리연산표 참 (+1) 참 (+1) 거짓 (-1) 거짓 (-1) 입력출력비교 ( 곱셈결과 ) 참 (+1) 거짓 (-1) 참 (+1) 거짓 (-1) 참 (+1) 거짓 (-1) 거짓 (-1) 참 (+1) +1-1 -1 +1 사용함으로서, 결국하나의은닉뉴런에서의모든계산이

이러한형태의신경망은양극화된이진매개변수에대한목적함수의최적화를요구하며, 기본적으로는조합최적화 (combinatorial optimization) 문제인이문제를풀기위해서기대값역전파 (expectation backpropagation) 방식이제안되기도하였다 [10].

본고에서는이와는별개로기본적인역전파방식을간단하게응용하면서도여전히이진매개변수를학습할수있는방식을목표로, 이진매개변수를연속매개변수로표현하되그범위를압축하는과정및잡음역전파 (noisy backpropagation) 알고리즘에대해소개한다. 2. 이진신경망의활용및학습과정본장에서논의되는이진신경망의활용및학습과정은 [9] 에보다자세히소개되어있다.

47 표 1 XNOR 논리연산표 참 (+1) 참 (+1) 거짓 (-1) 거짓 (-1) 입력출력비교 ( 곱셈결과 ) 참 (+1) 거짓 (-1) 참 (+1) 거짓 (-1) 참 (+1) 거짓 (-1) 거짓 (-1) 참 (+1) 사용함으로서, 결국하나의은닉뉴런에서의모든계산이 XNOR연산및그결과비트들의누적을확인하는과정으로간소화되는효과를낳는다. 따라서, 신경망내의모든매개변수가단하나의비트로표현될수있으므로, 매개변수당고정소수점표현을필요로하는일반적인신경망보다훨씬간소한모델을저장및처리할수있게된다. 이진신경망의구조및학습방식은참고문헌에제안된방식을기본으로한다 [9]. 이러한형태의신경망은양극화된이진매개변수에대한목적함수의최적화를요구하며, 기본적으로는조합최적화 (combinatorial optimization) 문제인이문제를풀기위해서기대값역전파 (expectation backpropagation) 방식이제안되기도하였다 [10]. 그러나, 기대값역전파방식의경우, 매개변수의생성에관여하는확률분포를추정한뒤, 샘플링방식을통해복수의신경망을생성하고그결과를평균했다는측면에서보다본질적인이진신경망의성능에대한논의에는적절하지 않은측면이있다. 본고에서는이와는별개로기본적인역전파방식을간단하게응용하면서도여전히이진매개변수를학습할수있는방식을목표로, 이진매개변수를연속매개변수로표현하되그범위를압축하는과정및잡음역전파 (noisy backpropagation) 알고리즘에대해소개한다. 2. 이진신경망의활용및학습과정본장에서논의되는이진신경망의활용및학습과정은 [9] 에보다자세히소개되어있다. 2.1 이진신경망의분리성능본절에서는먼저이진신경망이다계층구조를통해선형으로분리가능 (linearly separable) 하지않은문제도풀수있음을보이는한편, 실수매개변수를쓸수없음으로인한한계또한보이고자한다. 그림 1 (a) 는두개이상의초평면 (hyperplane) 을필수로하는 XOR 분류문제및이를푸는다층퍼셉트론 (multilayer perceptron) 의예를보여준다. 굵은점선으로표현된두개의초평면은모두이진연산식을통해표현될수있으므로, 이에해당하는다계층이진신경망또한쉽게구축할수있다 ( 그림 1 (b)). 해당 XOR 문제를풀수있는실수기반의신경망은무한 (a) (b) (c) (d) 그림 1 이진신경망의분리성능 [9] 정보과학회지 45

48 개의해로서존재할수있으나 ( 그림에서가는점선 에해당 ), 이진연산식으로표현하는초평면은그중 하나의특정한해에대응한다는것또한쉽게확인할수있다. 반면그림 1 (c) 의경우는, 실수신경망이쉽게단하나의해를구성할수있는반면 ( 예를들어 ) 이진신경망은불필요하게두개의초평면을구성해야만풀수있는문제이다. 이는본고에서가정하는양극화된이진표현이 0을표현할수없기때문에생기는현상이지만, 그대안으로 -1을표현하기위해 0을도입한다고해서해결될수는없다 ( 오히려양극화이진표현을통해서만절편역시이진수로표현할수있게되는장점이있는만큼본고에서는양극화이진표현을고수한다 ). 이를해결할수있는간단한방법은, 실제로 0의값을가지는매개변수를도입하는것이다. 신경망의가중치값이 0이되는경우는해당입력차원을무시함으로써차원축소또는가중치행렬의압축효과를얻울수있는반면, 이러한추가적인양자단계를표현하기위해서매개변수당최대하나의비트를더사용하게됨으로써복잡도가올라가는부작용역시생길수있다. 문제에따라가중치가 0인경우가대부분을차지한다면, 희소 (sparse) 행렬표현을통해오히려복잡도를낮추는구현역시도가능할수있으나, 이는본고에서의논의의범위를벗어나는바이다. 그림 1 (d) 의경우, 이렇게매개변수에 0을허용함으로써요구되는초평면개수를하나로줄인예이다. 일반적으로는이진신경망이실수매개변수를가지는신경망보다더많은초평면을필요로하며, 이는결과적으로이진신경망구성에서은닉뉴런의개수를증가시키게된다. 다만, 하나의이진은닉뉴런이복잡도에기여하는바는실수신경망의그것에비해현저히적으므로, 이진신경망의크기가실수신경망보다더크다고해서반드시더복잡한시스템이라고볼수는없다. 2.2 이진신경망에서의순방향전파과정이진신경망에서는행렬간의곱으로표현되는순방향전파과정을 XNOR 연산및비트개수세기연산을통해간략화할수있다. sign 여기서, 는양극화이진수집합을말하며, 은 비트간 XNOR 연산을의미한다. 인덱스 는각각 계층과각계층별입력및출력뉴런을가리킨다. 굵 은글씨는벡터또는행렬을의미하며, 은 번째 계층의입력뉴런개수를의미한다. 덧셈및뒤따르는 부호함수의실제구현은, 하나의뉴런에대해 ( ), 해 당뉴런으로의입력인 XNOR 논리회로의결과들 ( ) 중참인경우를세어서그수가전체입 력뉴런개수의절반보다큰경우만해당뉴런을활성화 (+1) 시키는편이간단하다. 2.3 이진신경망의학습과정불 (Bool) 연산식을통해서로다른이진표현간의관계를표현할수있고, 이러한관계가하나의은닉계층을가진이진신경망으로표현될수있음은이미증명된바있다 [11]. 간단한예로, 가능한모든입력과출력의쌍을표현하는연산식을단순히열거하는방식이있을수있다. 본고에서는, 신경망의형태는이미정해져있는상황에서, 신경망을구성하는매개변수의값을학습하는알고리즘을통해주어진이진표현간의관계를신경망에내재시키는방식을소개한다. 이는기존의실수기반신경망학습방식인오차역전파알고리즘에서벗어나지않으며, 다만이진매개변수를효과적으로다루기위한최적화기법들이추가적으로작동하는형태가될것이다. 먼저, 가중치압축기술은이진신경망의본격적인학습이전에, 매개변수를초기화하는방법의일환으로, 일반적인실수신경망의학습과크게다르지않다. 다만, 입력뉴런이받아들일수있는신호의범위및가중치매개변수들이가질수있는값의범위를미리압축해두는과정을추가함으로써, 뒤따르는이진신경망에서의학습을보다용이하게한다. 이러한압축은, 학습과정에서쌍곡탄젠트 (hyperbolic tangent) 함수를해당변수에덧씌움으로써매개변수의값이쌍곡탄젠트함수값의범위인 1과 +1 사이에머무를수있도록할수있다. 이에따른전파과정은아래와같다. tanh tanh tanh 이경우, 참여매개변수가이진수가아닌실수임을 표시하기위해바 (bar) 로구분하였다. 따라서, 오차역 전파과정에서의오차는다음과같이계산되며, 46 특집원고이진신경망의학습과활용

l l tanh w i j i n tanh 이를이용한기울기 (gradient) 의계산은다음과같다 : tanh tanh 특기할만한사항은, 매개변수압축과정이오차역 전파과정에서는단순히하나의인수 tanh 가추가되는것으로표현할수있다는점이다. 이진신경망에서는위와같은매개변수압축방식 을통해학습된실수신경망의매개변수를이용하여새로운학습을수행한다.

49 l l tanh w i j i n tanh 이를이용한기울기 (gradient) 의계산은다음과같다 : tanh tanh 특기할만한사항은, 매개변수압축과정이오차역 전파과정에서는단순히하나의인수 tanh 가추가되는것으로표현할수있다는점이다. 이진신경망에서는위와같은매개변수압축방식 을통해학습된실수신경망의매개변수를이용하여새로운학습을수행한다. 역시오차역전파방식에기반한학습방식이지만, 순방향전파를진행하는과정에서실수매개변수대신양극화이진매개변수를사용한다는점에서차이가있으며, 이러한실수와이진수사이의변환에서발생하는잡음을신경망이인지하도록하는과정이라고볼수있다. 새로운오차계산에서는바가없는이진매개변수 가쓰였으며, 그대신기울기 (gradient) 는여전히실수 매개변수에대해계산됨을강조한다. 계산된기울기 는실수매개변수를갱신하는데에사용되며, 갱신된 실수매개변수들은매반복마다다시양자화됨으로써갱신된이진매개변수를도출한다. 이양자화과정은일반적인밀도분포기반의양자화과정과다르지않으나, 미리정해진정도의가중치값을 0으로삼고나머지는 +1 또는 -1로양자화함으로써희소한이진가중치행렬을유지한다는것이특이점이다. 해시의일종으로, 원본관측값들이비슷하다면해시코드간의거리인해밍거리 (Hamming distance) 역시짧다는기본적인가정을공유한다. 승자독식해시의특징점은, 다차원관측값의차원간계수의비교를통해얻을수있는순위정보를근사한다는점으로, 이는관측값에잡음이더해질경우쉽게변질될수있는유클리디언 (Euclidean) 거리에비해보다직관적인거리를제공한다 [12]. 승자독식해시는, 먼저임의로 M개의차원을선정하고, 그계수를비교해서가장큰값이있는차원의순서를자연수로기록한다. 이과정을 K회반복하면, 도합 K개의자연수가기록되며각각의자연수는쉽게이진수로변환할수있다. 승자독식해시에서는주로작은 M값을사용하는것이권장된다. 승자독식알고리즘에대한자세한논의는참고문헌의설명으로갈음하고자한다 [12]. 3. 필기체숫자인식실험결과그림 2는제안하는이진신경망의필기체숫자인식성능과비슷한구조의실수신경망과의비교이다. 필기체숫자데이터는신경망인식성능테스트에가장빈번하게쓰이는 MNIST 데이터를사용하였다 [13]. 전술된이진신경망고유의학습알고리즘또는구성이외의모든신경망학습에관련된사항은퇴출 (dropout) 신경망의설정을그대로따랐다 [14]. 그림 2의성능비교를통해알수있는사실은, 뉴런수가충분한경우, 이진신경망의성능은실수신경망에비해크게떨어지지않는다는점이다. 계층수가 2이고계층별뉴런수가 2048개인경우, 두신경망의성능차이는 0.07% 포인트에불과하였고, 계층수가늘어나도성능차이가 0.2% 포인트미만에머무름을알수있다. 하지만, 동일데이터에대해비슷한구성의퇴출신경망이원본 MNIST 입력이미지에대해 1.35% 정도의 2.4 승자독식해시 (Winner Take All Hash) 를통한이진입력도출 이진신경망은입력신호역시이진수임을정의하지만, 실세계의관측값들이언제나이진표현이라는보장은없으므로, 이진신경망의성능은고품질의이진특징추출알고리즘에의존한다. 본고에서는기본적인확률분포기반의양자화방식대신, 승자독식해시를이용한이진특징추출기법과, 이에기반한이진신경망의성능을탐구한다. 승자독식해시는원본데이터의지역성에민감한 그림 2 필기체숫자인식성능 정보과학회지 47

오인식률을보인다는점에서, 승자독식해시과정에서의정보손실이기대보다과도하다는점또한확인할수있다. 실제로 MNIST 이미지의경우 0에가까운배경과 1에가까운획을표현하는픽셀들로구성되어있으므로, 간단한반올림방식의양자화가좋은성능을낼수있다는것은이미밝혀져있다 [9].

50 오인식률을보인다는점에서, 승자독식해시과정에서의정보손실이기대보다과도하다는점또한확인할수있다. 실제로 MNIST 이미지의경우 0에가까운배경과 1에가까운획을표현하는픽셀들로구성되어있으므로, 간단한반올림방식의양자화가좋은성능을낼수있다는것은이미밝혀져있다 [9]. 하지만, 이러한간단한양자화가모든종류의데이터에대해적용될수는없으므로, 이진신경망에적합한범용이진특징추출기법에대한추가연구가필요하다. 5. 결론본논문에서는모든입력신호의관측값, 중간계산과정에서의출력값, 신경망을구성하는모든매개변수가양극화이진수로정의된이진신경망을제안했다. 이진신경망은, 학습과정에서간단한매개변수압축방식을통한초기화와잡음역전파방식을추가함으로써, 기존의역전파방식의신경망학습방식의연장선상에서이진수로구성된신경망을도출할수있도록했다. 이렇게학습된이진신경망은테스트과정에서실수의곱셈과덧셈대신이진수의 XNOR 연산과비트개수세기연산을사용함으로써그계산복잡도및공간복잡도를획기적으로줄일수있다. 본논문에서는 MNIST 데이터에대해승자독식해시를적용하여이진특징을추출하였고, 추출된이진특징을입력으로삼는실수신경망과이진신경망의성능을관찰하였다. 특히충분한수의뉴런이정의되어있는경우, 이진신경망의성능저하가미미함을확인함으로써, 이진신경망의활용가능성을확인할수있었다. 참고문헌 [ 1 ] G. E. Hinton, S. Osindero, and Y. The, A fast learning algorithm for deep belief nets, Neural Computation, 18 (7): , [ 2 ] Y. Bengio, Learning deep architectures for AI, Foundations and Trends in Machine Learning, 2(1):1 127, [ 3 ] G. Cybenko, Approximations by superpositions of sigmoidal functions, Mathematics of Control, Signals, and Systems, 2(4): , [ 4 ] K. Hornik, Approximation capabilities of multilayer feedforward networks, Neural Networks, 4(2): , [ 5 ] M. Baldauf, S. Dustdar, and F. Rosenberg, A survey on context-aware systems, International Journal of Ad Hoc and Ubiquitous Computing, 2(4): , January [ 6 ] M. Courbariaux, Y. Bengio, and J.-P. David, Low precision arithmetic for deep learning, arxiv preprint arxiv: , [ 7 ] E. Fiesler, A, Choudry, and H. J. Caulfield, Weight discretization paradigm for optical neural networks, In The Hague 90, April, pp International Soci- ety for Optics and Photonics, [ 8 ] K. Hwang, and W. Sung, Fixed-point feedforward deep neural network design using weights +1, 0, and 1, In 2014 IEEE Workshop on Signal Processing Systems (SiPS), Oct [ 9 ] M. Kim and P. Smaragdis, Bitwise Neural Networks, International Conference on Machine Learning Workshop on Resource-Efficient Machine Learning, [10] D. Soudry, J. Hubara, and R. Meir, Expectation backpropagation: Parameter-free training of multilayer neural networks with continuous or discrete weights, In Advances in Neural Information Processing Systems (NIPS), [11] W. S. McCulloch, and W. H. Pitts, A logical calculus of the ideas immanent in nervous activity, The Bulletin of Mathematical Biophysics, 5(4): , [12] T. Dean, M. A. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, and J. Yagnik, Fast, accurate detection of 100,000 object classes on a single machine, in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), [13] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document recognition, Proceedings of the IEEE, 86(11): , November [14] N. Srivastava, G. E. Hinton, A. Krizhevsky, J. Sutskever, and R. Salakhutdinov, Dropout: A simple way to prevent neural networks from overfitting, Journal of Machine Learning Research, 15(1): , January 김민제 2004 아주대학교정보및컴퓨터공학부졸업 ( 학사 ) 2006 포항공과대학교컴퓨터공학과졸업 ( 석사 ) 2006~2011 한국전자통신연구원연구원 2011~ 현재 Univ. of Illinois at Urbana-Champaign, Dept. of Computer Science, 박사과정관심분야 : 머신러닝, 오디오신호처리 minje@illinois.edu 48 특집원고이진신경망의학습과활용

특집원고 CAFFE 를이용한심화학습기반영상객체인식 경북대학교장길진영남대학교박정식 1. 서론 1) 심화신경망 (deep neural networks) 을사용하여기계학습문제를해결하는심화학습 (deep learning) 연구는최근기존의방법으로해결하지못했던다양한문제에성공적으로적용되고있다.

심화학습의장점은전문가의지식이개입되지않은입력자료의특징을자동으로추출하여, 이를기존의패턴인식기법과결합하여좋은성능을얻는것이다. 따라서, 응용분야에상관없이학습자료가주어지면이로부터입력자료의특징을자동으로추출하고, 중요한패턴을인식하는것을응용분야에관계없이같은방법을적용할수있다.

51 특집원고 CAFFE 를이용한심화학습기반영상객체인식 경북대학교장길진영남대학교박정식 1. 서론 1) 심화신경망 (deep neural networks) 을사용하여기계학습문제를해결하는심화학습 (deep learning) 연구는최근기존의방법으로해결하지못했던다양한문제에성공적으로적용되고있다. 심화신경망의기본개념을적용한다층구조퍼셉트론 (MLP; multi- layer perceptron) 은이미이론적인구성이완료되었으며, 오래전부터다양한패턴인식문제에적용되어왔다 [1, 2]. 하지만많은계산량및초기화등의문제로실제산업분야에널리사용되지못하였다. 하지만최근컴퓨터들의발전으로빠른연산이가능해짐에따라여러가지응용분야에적용되게되었다. 심화학습의장점은전문가의지식이개입되지않은입력자료의특징을자동으로추출하여, 이를기존의패턴인식기법과결합하여좋은성능을얻는것이다. 따라서, 응용분야에상관없이학습자료가주어지면이로부터입력자료의특징을자동으로추출하고, 중요한패턴을인식하는것을응용분야에관계없이같은방법을적용할수있다. 심화학습의전문가들이할일은신경망의구조 (neural network topology) 를정의하고효율적으로수행이되도록파라미터값들을정의하는것이다. 이러한과정은그림 1과같다. 초기의신경망층은주로특징을추출하며, 이는그층이반복됨에따라좀더구체적인객체의형태를나타내게되며, 최종층에서는그응용분야에적합한결과를얻을수있다. 그림 2는심화학습과다른방법들을결합하는방법이다. 영상입력의경우 HoG (histogram of oriented gradients) [3], SIFT (scale-invariant feature transform) [4, 5], LBP (local binary patterns) [6] 등과같은다양한기존의특 징추출과, 음성입력에경우 MFCC (mel-frequency cepstral coefficients) [7] 등과같이각입력신호에적절한기존의특징추출방법을이용하여추출하고, 심화신경망을이용하여다시추가적으로특징을추출한후, SVM (support vector machine) 등기존의다양한패턴인식방법들과결합하여좋은성능을낸다. 이방법은기존의패턴인식방법들과의손쉬운결합이가능하게됨에따라기존의특징추출방법들의장점들을취할수있다는것이며, 전체를심화학습으로처리하는것에비해학습자료의양을줄일수있고, 그에따라학습에요구되는연산시간도크게줄일수있다. 최근 GPGPU (General purpose graphical processing unit) 의획기적인발전에따라대규모의벡터연산이빠른시간내에수행이가능해짐에따라여러가지응용분야에적용되게되었으며, 이에따라기존방법들의문제점들을찾아내고, 일반적인분야에적용가능하게 그림 1 심화학습의일반적인과정. 추기층은주로특징을추출하는역할을하며, 중간단계에서객체의검출, 그리고마지막에는객체의인식을주로수행하게된다. 이논문은 2014 년도정부교육과학기술부의재원으로한국연구재단의지원을받아수행된기초연구사업입니다 (No , NRF-2014R1A1A ). 그림 2 심화학습과기존이특징추출및패턴인식방법들과결합하는예 정보과학회지 49

되었다. 심화학습은음성인식, 영상처리, 객체인식, 자연어처리등의다양한문제들을해결하는데많이사용되고있고 [8, 9], Google, Microsoft, Baidu, Flickr 등관련업체에서실제구현되어제품에적용되고있으며, 2013년에는 MIT에서선정한 10대기술로분류되었다 1).

그리고 CAFFE에포함되어있는학습및인식알고리즘을살펴보고, 영상인식에적용하는방법을심도있게살펴보도록한다. 2.

52 되었다. 심화학습은음성인식, 영상처리, 객체인식, 자연어처리등의다양한문제들을해결하는데많이사용되고있고 [8, 9], Google, Microsoft, Baidu, Flickr 등관련업체에서실제구현되어제품에적용되고있으며, 2013년에는 MIT에서선정한 10대기술로분류되었다 1). 본논문에서는영상처리분야에서널리사용되고있는심화학습의대표적인방법인 CNN (convolutional neural networks) 의학습및인식알고리즘을살펴보고 [10], 이를 GPU로구현한 CAFFE (Convolutional Architecture for Fast Feature Embedding) 를살펴본다 [11, 12]. 그리고 CAFFE에포함되어있는학습및인식알고리즘을살펴보고, 영상인식에적용하는방법을심도있게살펴보도록한다. 2. CNN (Convolutional Neural Networks) Yann Lecun에의해처음제안된 CNN (convolutional neural network)[10] 은특히가장어려운영상인식문제의하나인 ILSVRC (Imagenet Large Scale Visual Recognition Challenge) 에서 2012년압도적으로높은성능을보였다 [13]. 그이후최근의 ILSVRC는심화신경망을이용하여방법들이계속상위권을차지하고있다 [14]. CNN에서의 convolution 연산은입력된영상에서찾아내고자하는객체의위치및크기변이에영향을받지않도록하기위한방법이며, 2차원영상입력에대하여는그림 3과같이고정된크기의 2차원윈도우를모든가능한위치에서 convolution 연산이수행될수있도록이동시킨다. 2차원 convolution이란, 주어진위치에서윈도우와화소값들사이의상관도 (correlation) 를역방향으로계산하는것으로정의된다. 따라서, 모든가능한위치는입력영상의크기에서 convolution 윈도의크기에서하나의화소를제외한크기가된다. CNN은 convolution이외의또중요한연산은 pooling 이다. Pooling은주변의화소 (pixel) 들의값을비교하여주로가장큰값을취하는방법으로, 영상에적용할경우그크기를줄일수있다. 예를들어 2 2 개의화소들이하나로줄어들기때문에 25% 의정보만으로표현되며, 이러한압축과정은이론적으로상위단계의추상화의효과가생기게된다. 상기에서기술한바와같이필기체숫자인 MNIST (Mixed National Institute of Standards and Technology) 를 1) MIT technology review 2013, /breakthrough-technologies/2013/ 그림 3 2 차원영상입력에대한 convolution 연산의예. 입력영상은 의 grayscale 이며, 크기는 32x32 로고정되어있다. Convolution window 의크기는 5x5 로고정되어있다. 그림 4 MNIST 문제해결을위한 Lenet-5 CNN 구조 인식하기위하여그림 4와같은 CNN을구성하였다 [10]. 입력은 회색조 (grayscale) 영상이고, 따라서그차원은 1024 이다. 각각의층은 C-layer (convolution) 와 S-layer (subsampling) 로나뉘어있으며, C-layer에서는 convolution 연산을수행한다. 따라서, C1의경우 32x32 입력영상이 5x5의윈도우와 convolution 되면서 28x28 크기의영상으로바뀌게되며, 이러한윈도우의수가 6개이므로총 6개의출력영상을얻게된다. 이는 6@28 28 와같이표현된다. S2에서는 2 2의 subsampling이수행되는데, 4개의출력값중가장큰값만을취하는방식으로하여출력영상의크기를줄이게된다. 다음단계의 C2에서는 16 개의윈도우를사용하여다시 convolution을수행하고, 6개의이전단계의출력값을평균하거나, 또는최대값을취한다 (MaxOut) [15]. 이러한 C-layer와 S-layer를반복적으로쌓아올려최종적으로 120차원의특징을추출하고, 이를완전연결구조의신경회로망이나 SVM (support vector machine) 등패턴분류기의입력으로사 50 특집원고 CAFFE 를이용한심화학습기반영상객체인식

53 용할수있다. 이러한 CNN 구조를사용하여 MNIST 에서 얻은최고성능은다양한조건에서 0.8%-0.95% [10] 이었으며, 이는다른방법들을크게상회하는성능임 을알수있다 2). 학습단계에서는 C-layer 의 convolution kernel 및출 력영상의값을패턴분류오류가최소화가되도록학습하여야한다. 하지만신경회로망의깊이가깊어지고 convolution의수가많아질수록매우연산량이늘어나게되므로학습을위한시간및매우증가되게되므로기존의역전파 (backpropagation) 알고리즘으로는수렴이잘되지않는문제점이있다. 이를해결하기위하여 GPU에기반한소프트웨어들이다양하게공개되어있다. 다음장에서는이러한공개소프트웨어중미국버클리대학 (University of California, Berkeley) 에서배포중인 CAFFE [11, 12] 를이용하여 CNN을학습하고인식에활용하는방법을살펴보고자한다. 3. CAFFE (Convolutional Architecture for Fast Feature Embedding) CAFFE는 BVLC (Berkeley Vision and Learning Center) 에서공개소프트웨어로배포및유지관리를연산하고있는소프트웨어로핵심 GPU는 C++ 언어와 CUDA (Compute Unified Device Architecture) 로작성되어있으며, 개발자들이쉽게사용할수있도록 Python과 Matlab으로외부에공개되어있으며, 핵심코드를고칠필요없이텍스트설정파일만을변경함으로써 CNN의구조를바꾸는것이가능하다. ILSVRC의주요모델들이공개되어있어모델의전체학습없이도쉽게인식및특징추출을수행할수있어, 심화학습의장벽을낮추는역할도하고있다. 3.1 CAFFE 의구성요소표 1은 CAFFE 설치를위해요구되는기본적인소프트웨어들을나열하고있다. 이중 LMDB (Lightning memory-mapped database)[16] 는공개데이터베이스로써정렬된맵구조 (ordered map interface) 를가지고있으며쓰기부담은크지만읽기시간은윈도우, 리눅스등범용운영체제의파일시스템에비해혁신적으로빠르며반복되는읽기연산에서시스템자원을매우적게요구하는특징이있다. 따라서, 신경망학습등같은자료를반복적으로읽어야하는경우매우유리한장점이있다. CAFFE는모든학습자료를하나의 LMDB 파일로재구성하고, 효율적인데이터베이스 표 1 Caffe 설치를위한구성요소및라이브러리구성요소역할 NVIDIA CUDA 5.0부터 7.0까지지원하지만최신버젼이선호됨 cudnn (CUDA Deep Neural Network library) BLAS (Basic Linear Algebra Subprograms) Boost ( OpenCV Python 2.7 LMDB Protocol buffer NVIDIA 에서지원하는가속화코드 벡터 / 행렬계산을병렬로계산하기위한라이브러리 일반적인 C++ 라이브러리 영상입출력및기본연산을위한라이브러리 Python 인터페이스 Lightning memory-mapped database 3) 실험및시스템설정을위한인터페이스 검색방법을이용하여읽어들이기때문에학습에요구되는시스템부하를획기적으로줄일수있다. Protobuf (Google protocol buffer) [17] 는 CAFFE의네트워크구조를정의하고, 모델을저장하는데쓰인다. 텍스트형식으로작성되었을때에는 XML과유사한문법으로작성되며, C++, Java, Python 등의코드로직접변환이되기때문에프로그램작성시간을획기적으로줄일수있는장점이있다. 이두가지요소는 CAFFE를실행하기위한필수요소들로써다른공개소프트웨어와의호환성을높여주는요소들이다. 3.2 Protobuf 를이용한신경망구조 (network topology) 설정방법 2절에서설명되었던 MNIST 인식을위한 CNN은 CAFFE에서 protobuf 파일들을수정함으로써쉽게구성할수있다. 표 2에나와있는바와같이 lenet_solver. prototxt 에는반복학습회수 ( text_iter ), 학습계수 ( base_lr ), momentum constant ( momentum ) 등학습을위한기본적인 hyperparameter들을저장한다. 신경망의구조는첨부된 protobuf 파일인 lenet_train_test.prototxt 에저장된다. 표 3은입력데이터이후의가장첫층인 conv1 ( 그림 4의 C1) 이다. 변수 type 을 Convolution 으로정의함으로써이단계에서는 convolution을수행함을나타낼수있으며, 이때의윈도우의크기는 convolution_ param.kernel_size 의값으로주어진다. 본예제에서는 5 5를나타낸다. 그다음층인 pool1 ( 그림 4의 2) 3) 정보과학회지 51

S1) 은 pooling 연산을통하여출력치를줄이는부분이다. 학습을할필요가없기때문에입력이 conv1이라는선언과 pooling_param.pool = MAX 를설정해줌으로써 4개의출력값중최대값을취한다고쉽게설정이가능하다. 이와같이반복적으로 C-layer와 S-layer를번갈아올림으로써쉽게 CNN 구성이가능하다.

54 S1) 은 pooling 연산을통하여출력치를줄이는부분이다. 학습을할필요가없기때문에입력이 conv1이라는선언과 pooling_param.pool = MAX 를설정해줌으로써 4개의출력값중최대값을취한다고쉽게설정이가능하다. 이와같이반복적으로 C-layer와 S-layer를번갈아올림으로써쉽게 CNN 구성이가능하다. 표 2 Protobuf 를이용한신경망학습기본파라미터설정 MNIST: lenet_solver.prototxt net: "examples/mnist/lenet_train_test.prototxt" test_iter: 100 test_interval: 500 base_lr: 0.01 momentum: 0.9 weight_decay: lr_policy: "inv" gamma: power: 0.75 display: 100 max_iter: snapshot: 5000 snapshot_prefix: "examples/mnist/lenet" solver_mode: GPU 표 3 Protobuf를 convolution layer 설정 MNIST: lenet_train_test.prototxt (1) - c1 layer { name: "conv1" type: "Convolution" bottom: "data" top: "conv1" param { lr_mult: 1 } param { lr_mult: 2 } convolution_param { num_output: 20 kernel_size: 5 stride: 1 weight_filler { type: "xavier" } bias_filler { type: "constant" } } } 표 4 Protobuf 를 pooling layer 설정 MNIST: lenet_train_test.prototxt (2) - s1 layer { name: "pool1" type: "Pooling" bottom: "conv1" top: "pool1" pooling_param { pool: MAX kernel_size: 2 stride: 2 } } 그림 5 MNIST 를위한 CNN 구성 그림 5는이렇게 protobuf를이용하여정의된신경망이다. MNIST는 10개의숫자를분류하기때문에최종층의노드수는 10개이다. 3.3 Imagenet: 기존의학습된모델의사용 CAFFE는기존의연구결과를공유하기위하여다음의미리학습된모델들을공유한다. AlexNet [13]: ILSVRC 2012의학습자료를이용하여학습한모델. 5개의 convolution layer들과 3개의층으로되어있는완전연결 MLP (multi-layer perceptron), 그리고출력층으로이루어져있다. 약 650,000개의신경단위 (neuron) 들로구성되어있으며, 각층들을연결하기위해 6천만개의연결이존재한다. R-CNN (Regions with Convolutional Neural Networks) [18]: 화소단위가아닌영역단위로특징을추출하여연산량을획기적으로줄임. GoogLeNet [19]: 매우많은층을사용하여 52 특집원고 CAFFE 를이용한심화학습기반영상객체인식

55 ILSVRC2014에서가능높은성능을보였음이와같은모델들을사용하여전체모델의학습이필요없이영상의특징을추출할수있으며, 이는기존의다른패턴인식방법들과결합되어사용될수있다. 4. 결론본논문은최근기계학습분야에서널리사용되고있는심화학습분야의연구동향을살펴보고, 널리사용되고있는 CNN (convolutional neural networks) 알고리즘을자세히기술하였다. 특히 CNN의학습및인식을 GPGPU (general-purpose graphical processing unit) 을이용하여구현한공개소프트웨어인 CAFFE 를중점적으로다루었다. CAFFE는 LMDB와 Protobuf 를이용하여효율적으로심화학습을구현하였으며, Github를통해공개함으로써다른연구자들도개발에참여하도록유도하여매우효율적인구현을제시하였다. 본논문에서는 CAFFE의기본적인신경망구조설정및수정방법을제시하여초보자도충분히심화학습을이용하여영상객체인식을수행할수있도록하였다. 현재 CAFFE를이용하여새로운심화신경망을정의하는방법을연구중에있으며, 기존의특징추출및패턴분류기와결합하는다양한방법들이연구중에있다. 참고문헌 [ 1 ] D. E. Rumelhart, G. E. Hinton, and R. J. Williams, "Learning internal representations by error propagation," Parallel distributed processing: explorations in the microstructure of cognition, Vol. 1, pp , [ 2 ] Simon Haykin, Neural Networks: A Comprehensive Foundation (2 ed.). Prentice Hall [ 3 ] N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vol. 1, pp , June [ 4 ] D. G. Lowe, "Object recognition from local scale-invariant features," in Proceedings of the International Conference on Computer Vision, pp , [ 5 ] D. G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision (IJCV), 60(2):91 110, [ 6 ] T. Ojala, M. Pietikäinen, and D. Harwood, "A Comparative Study of Texture Measures with Classification Based on Feature Distributions," Pattern Recognition 29(1):51-59, [ 7 ] Fang Zheng, Guoliang Zhang, and Zhanjiang Song, "Comparison of Different Implementations of MFCC," Journal of Computer Science and Technology, 16(6): , [ 8 ] Li Deng, Jinyu Li, Jui-Ting Huang, Kaisheng Yao, Dong Yu, Frank Seide, Michael L. Seltzer, Geoffrey Zweig, Xiaodong He, Jason Williams, Yifan Gong, and Alex Acero, "Recent advances in deep learning for speech research at Microsoft," in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, pp , May [ 9 ] Li Deng and Dong Yu, "Deep Learning: Methods and Applications," Foundations and Trends in Signal Processing, vol. 7(3-4), pp , [10] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner "Gradient-Based Learning Applied to Document Recognition," Proceedings of the IEEE, 86(11): , November [11] Yangqing Jia, "Caffe: An open source convolutional architecture for fast feature embedding," [12] Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell, "Caffe: Convolutional Architecture for Fast Feature Embedding," arxiv: , [13] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," Advances in Neural Information Processing Systems 25, pp , [14] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li Fei-Fei, "ImageNet Large Scale Visual Recognition Challenge," International Journal of Computer Vision (IJCV), pp. 1-42, April [15] Ian J. Goodfellow, David Warde-Farley, Mehdi Mirza, Aaron Courville, and Yoshua Bengio, "Maxout Networks," Journal of Machine Learning Research W&CP 28 (3): , [16] LMDB Reference Guide, 19 Oct 정보과학회지 53

2014. [17] Code.google.com, "ThirdPartyAddOns - protobuf - Links to third-party add-ons,"google Project Hosting, 7 Nov 2012. [18] R. Girshick, J. Donahue, T. Darrell, and J.

[19] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich, "Going Deeper with Convolutions," in

56 2014. [17] Code.google.com, "ThirdPartyAddOns - protobuf - Links to third-party add-ons,"google Project Hosting, 7 Nov [18] R. Girshick, J. Donahue, T. Darrell, and J. Malik, "Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation," in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), [19] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich, "Going Deeper with Convolutions," in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 장길진 1997 한국과학기술원전산학과졸업 ( 학사 ) 1999 한국과학기술원전산학과졸업 ( 석사 ) 2004 한국과학기술원전산학과졸업 ( 박사 ) 2004~2006 삼성종합기술원전문연구원 2006~2007 Softmax, Inc. Technical Consultant 2006~2009 University of California, San Diego, Postdoctoral Scholar 2009~2014 울산과학기술대학교조교수 2014~ 현재경북대학교조교수관심분야 : 기계학습, 음성신호처리, 컴퓨터비전, 의료영상처리 gjang@knu.ac.kr 박정식 2001 아주대학교정보및컴퓨터공학부졸업 ( 학사 ) 2003 한국과학기술원전산학과졸업 ( 석사 ) 2010 한국과학기술원전산학과졸업 ( 박사 ) 2010~2011 한국과학기술원전산학과박사후연구원 2012~2013 목원대학교지능로봇공학과조교수 2014~ 현재영남대학교정보통신공학과조교수관심분야 : 기계학습, 음성정보처리, 감정인식, 휴먼 - 로봇인터랙션 parkjs@yu.ac.kr 54 특집원고 CAFFE 를이용한심화학습기반영상객체인식

57 기관탐방 소프트웨어중심사회의 Think Tank, 소프트웨어정책연구소 소프트웨어정책연구소김석원 * 강남역에서신분당선을타면채 20분이못돼서판교역에도착한다. 국내정보통신산업의새로운중심인판교테크노밸리에온것이다. 전철역이밸리의남쪽끝에있어서웬만한곳은걸어서가기에부담스러운위치이다. 그래도여기엔한글과컴퓨터, 안랩, 다음카카오, 넥슨등우리나라의미래를엿볼수있는많은강소, 중소기업이모여있다. 소프트웨어정책연구소가있는글로벌R&D센터는판교테크노밸리의북서쪽끝에서울외곽순환도로와면해있다. 판교역에서택시를타면아직도글로벌R&D센터를모르는기사가있어서옆에있는파스퇴르연구소를얘기해야찾아갈수있다. 1) 소프트웨어정책연구소라고소개하면무엇을하는곳인지묻는사람이많다. 과학기술정책연구원이나정보통신산업진흥원과어떻게다른가에서시작하여정부의신규과제를기획하는연구소인지, 소프트웨어과제를관리하는기관인지등등. 소프트웨어정책연구가왜필요한지는실생활에서소프트웨어가얼마나영향력이커졌는지생각해보면알수있다. 우리나라는세계최고수준의인터넷인프라를가지고있다. 빠른인터넷환경은모바일앱, 인터넷서비스, 게임, 애플리케이션등의소프트웨어를통해사용자에게가치를준다. 연구개발투자에있어서도세계최고수준이다. 절대값으로도상위권이지만 GDP대비투자액은몇년간세계 1,2위를다투고있다. 최근의과학기술은어느분야든소프트웨어가안들어가는곳이없다. 힉스입자를찾아낸것도소프트웨어고, 안젤리나졸리의유방암유전자를찾아낸것도소프트웨어다. 미국에서토요타자동차의급발진사고소송에서는같은상황이소프트웨어의오류에의해재현될수있다는것을실증하기도했다. 그럼에도불구하고한국의소프트웨어산업은천덕꾸러기가되어버렸다. 정보시스템개발자는안좋은 * skimaza@spri.kr 처우에좌절하고대학의전산학과에는우수한학생이모이지않는다. 기업에서는우수한인재를구하지못해불만이다. 반면해외에서는소프트웨어엔지니어의몸값이치솟아실리콘밸리소프트웨어개발자연봉은대졸초임이 8만에서 10만불이다. 이것은미국만의현상이아니고중국, 인도, 이스라엘, 유럽에서도소프트웨어전문가의가치가꾸준히올라가고있다. 그런데왜유독한국에서는대우를받지못할까? 연구소의미션전세계적으로소프트웨어의영향은점점커져가는데국내에서만입지가좁아지는현실을보면정책적문제를고려할수밖에없다. 이에따라 2013년 8월에 정보통신진흥및융합활성화등에관한특별법 이제정되어소프트웨어정책연구소설립의법적근거가마련되었고, 일련의준비과정을거쳐 2014년 3월에정식개소식을가졌다. 이어서 7월에는정부에서소프트웨어중심사회를선언하는데일조했다. 이이벤트는함께발표된전략의세부사항보다는대통령참석하에정부관계자가모인자리에서했다는것이더의미가있다. 정책을연구하는것과연구결과를실현하도록정책화하는것은많은차이가있는데정책발의와실현에중요한역할을하는정부부처공무원에게소프트웨어의중요성에대한주의를환기시켰다는것은소프트웨어정책이채택될가능성이높아졌다는의미이기때문이다. 이와같이국가적견지에서소프트웨어의역할과기여도를제시하고모든분야에서각자의목적에맞도록잘활용할수있는정책을발굴하는것이소프트웨어정책연구소의미션이다. 여기에는다른분야의전문가를설득하기위한구체적자료의발굴과조사부터국가경쟁력을강화하기위한새로운사업의제안등의기획업무까지포함된다. 이런사명아래연구소에서추진하고있는전략과 정보과학회지 55

제는네가지이다. - 시급하게대응해야하는생태계활성화정책연구 - 디지털인재양성정책을비롯한중장기정책연구 - 소프트웨어통계조사및체계개선연구 - 소프트웨어안전 공학연구 (2015-) 생태계활성화생태계활성화정책은소프트웨어개발기업이공정하게경쟁하고성장할수있는환경을제공하는법, 제도, 정책에대한연구이다. 물론생태계가단순히제도를개선한다고만들어지는것은아니다.

58 제는네가지이다. - 시급하게대응해야하는생태계활성화정책연구 - 디지털인재양성정책을비롯한중장기정책연구 - 소프트웨어통계조사및체계개선연구 - 소프트웨어안전 공학연구 (2015-) 생태계활성화생태계활성화정책은소프트웨어개발기업이공정하게경쟁하고성장할수있는환경을제공하는법, 제도, 정책에대한연구이다. 물론생태계가단순히제도를개선한다고만들어지는것은아니다. 법제도의개선과함께공공사업의민간시장교란을견제하는활동이시급하다. 그결과민간기업이공정한시장에대한신뢰를높이게되면우수한기업이성장할가능성이높아지고활발한생태계가만들어질것으로기대한다. 구체적설계를통해소프트웨어를가시화하고계량화해구현단계과업의범위와가격을결정하자는것이다. 이렇게하면불확실성이줄어서높은품질의소프트웨어를낮은가격에생산할수있다. 또설계문서가잘작성되기때문에유지 관리가쉬운것도큰이점이다. 이제도가정착되면고부가가치를올리는설계전문회사가나오고, 고급설계인력이양성될것이다. 다가오는클라우드컴퓨팅환경에서의소프트웨어거래는서비스구매형태로진화할것이다. 즉소프트웨어를소유하는것이아니라수도와전기처럼사용하는만큼돈을내는개념이다. 값싸고안정적으로소프트웨어를사용할수있는것이다. 이를촉진하기위한클라우드컴퓨팅발전법이최근국회를통과했다. 소프트웨어를서비스로거래하기위해서는계량화가전제돼야한다. 설계공정의분할발주방식은이의준비이기도하다. 공공소프트웨어분할발주제도 공공소프트웨어사업의고질적문제는사업발주할때의요구사항이사업이진행되면서변경되고추가되는것이다. 개발사입장에서는사업비를더받기어렵기때문에하청업체와개발자를압박하게되고개발자는이런변경에대응하기위해많은시간을소모하게되어시간은더쓰면서품질은떨어지는결과를낳게된다. 수년에걸쳐불만이제기되고개선안이적용되었으나상황은많이나아지지않았다. 연구소에서는이것이구조적인문제라고보며해결의첫단추로설계공정분할발주제도화를추진하고있다. 문제의핵심은발주담당자가열심히하지않았거나개발업체에서불성실하게개발한것이아니다. 미리알기어려운요구사항에대해애매한상태로계약을체결하고, 나중에구체화하는과정에서문제가발견되면일정과예산을조정하는대신개발업체에전가하여무리한일정을감내하도록하는사업추진구조가문제다. 그렇다면해결방안은최대한구체적으로계획을세울수있도록제도화하는것이다. 설계공정분할발주란설계를먼저하고, 설계도면에따라소프트웨어를구축하는제도로선진국에서는오래전에정착된제도다. 우리는요구사항도명확히하지않고설계도면도없이개발을시작하며, 수시로과업을변경하는것이관행이었다. 분할발주제도는별도의설계사업을통해안보이는소프트웨어시스템을보여줄수있도록하자는것이다. 건축에서모델하우스를짓는것과같은논리다. 발주자와개발자가상호이해하고합의할수있는수준까지 그림 1 공공소프트웨어분할발주제도소프트웨어영향평가제도이제도는국가예산으로수행되는공공정보화사업이소프트웨어산업의공정한경쟁에영향을주는지사전에검토하고개선을모색해보는제도이다. 공공기관이민간에서개발한소프트웨어와유사한것을또다시만들어일반국민에게무상으로제공하거나, 용역을통해납품받은소프트웨어를다른공공기관에무상으로배포해서기업의경영을위축시키는일이종종발생하기때문에도입되었다. 평가는중앙부처와광역지자체의차년도정보화사업계획을미래창조과학부와행정자치부에서취합하여검토하는단계에서실시된다. 올해의경우에중앙부처는 2016년에시행할정보화사업계획을국가정보화시행계획이라는이름으로 4월말까지미래부에제출해서 5월말까지검토받는데, 이때정보화사업에대한소프트웨어영향평가가실시됐다. 17개광역지자체는하반기에행정자치부에국가정보화시행계획을제출하고이때소프트웨어영향평가를수행한다. 평가위원은산학연전문가로구성하여시장의최신상황을반영할수있도록하고있다. 56 특집원고 SYNDICATE SW 플랫폼 : 안전성이중요한시스템을위한동기식분산모듈형 SW 플랫폼

그림 2 소프트웨어영향평가제도소프트웨어산업진흥법개선연구소프트웨어산업진흥법은소프트웨어산업의기반조성과공공소프트웨어사업에대해규정하는법으로서소프트웨어의범위가넓어진현실을반영하도록개선이필요하다. 특히공공사업의비중이점점커져서시스템통합산업외에클라우드컴퓨팅, 서비스플랫폼, 게임소프트웨어, 융합소프트웨어등새로나타나는기술과기업형태를포용할수있는내용이없다.

로제공되고있지만여전히소프트웨어분야가가장높은비중을차지한다. 동영상과텍스트로강의를듣고, 과제도온라인에서풀고, 개발과채점까지한곳에서한다면온라인소프트웨어교육은품질과규모, 두목표를동시에잡을수있다. 연구소에서는온라인소프트웨어교육지원정책을연구하여산학연협력하에추진하려고한다. 관심있는회사, 기관, 개인의활동을집약하여공통전략을세우고정부의정책을이끌어내는것이목표이다.

59 그림 2 소프트웨어영향평가제도소프트웨어산업진흥법개선연구소프트웨어산업진흥법은소프트웨어산업의기반조성과공공소프트웨어사업에대해규정하는법으로서소프트웨어의범위가넓어진현실을반영하도록개선이필요하다. 특히공공사업의비중이점점커져서시스템통합산업외에클라우드컴퓨팅, 서비스플랫폼, 게임소프트웨어, 융합소프트웨어등새로나타나는기술과기업형태를포용할수있는내용이없다. 따라서새로운형태가나타날때마다포함여부를놓고혼선이일어나게되고정책추진에있어서법적근거가불명확하여일관성을유지하기어렵다. 연구소에서는소프트웨어산업진흥법을공공소프트웨어사업법과소프트웨어진흥법의두법으로나누어공공사업부분을명확히분리하고, 소프트웨어진흥법에서는확대된개념의소프트웨어를규정하여입법화하는목표로개정안준비를진행중이다. 로제공되고있지만여전히소프트웨어분야가가장높은비중을차지한다. 동영상과텍스트로강의를듣고, 과제도온라인에서풀고, 개발과채점까지한곳에서한다면온라인소프트웨어교육은품질과규모, 두목표를동시에잡을수있다. 연구소에서는온라인소프트웨어교육지원정책을연구하여산학연협력하에추진하려고한다. 관심있는회사, 기관, 개인의활동을집약하여공통전략을세우고정부의정책을이끌어내는것이목표이다. 이사업의가장중요한요소는콘텐츠다. 기업이나개인이만들어놓은콘텐츠를수용할수있도록융통성이있어야하고, 교사, 학생, 일반인등사용자가직접콘텐츠를만들동기를주도록자율적이고개방적인체계가유지되어야한다. 원하는콘텐츠를쉽고빠르게찾을수있도록검색이최적화되어야하고, 오픈소스로개발하여기존의오픈소스자원을활용함과동시에이플랫폼자체의개선과확장도교육목적으로활용할수있도록해야한다. 중장기정책연구 2014년발표된초중고소프트웨어교육정책은다음세대의삶에영향을주고우리나라의미래와도관련되기때문에중요한사안이다. 2018년까지 3년밖에남지않은상황에이교과과정이단순개발자를양성하는값싼노동자양성과정이아니라현시대에맞는교양을갖춘사회인을키우는교육이되도록만들어야한다. 여기에는교사의확보, 교과내용개발, 기반환경구축등많은일이있으며각각해당분야전문가그룹에서준비하고있다. 연구소에서는교육을위한과제중온라인소프트웨어교육을중장기정책의중점추진과제로연구하고있다. 온라인소프트웨어교육소프트웨어는온라인교육에가장적합한분야이다. 무슨일이든듣고보고읽어서배우는게반이라면나머지는직접해봐서익히게되는실험, 실습의역할이다. 그런면에서소프트웨어는강좌뿐아니라실험, 실습도온라인으로할수있기때문에효과적으로익힐수있다. MOOC를통해많은강좌가온라인으 그림 3 온라인소프트웨어교육의필요성대학의소프트웨어교육초중고소프트웨어교육이장기적으로저변을넓히는역할을하더라도소프트웨어인재육성의근간은대학이다. 소프트웨어의활용범위가넓어지면서대학에서의소프트웨어교육도컴퓨터과학을전공하는학생, 다른전공에서소프트웨어를활용하여융합하려는학생, 교양으로배우는학생에대해서로다른수준의교과과정이필요하다. 한편공통적으로는전공과수준에상관없이이론에서그치는교육이아니라직접아이디어를내서만들어보는창의적실습이필수적으로포함되어야한다. 초보적수준의코딩은이제비전공자도할수있을정도로쉬워졌으며강의에그치는것과실제로자기아이디어를구현해본경험을갖는것은천지차이기 정보과학회지 57

때문이다. 이런배경에서대학에서의바람직한소프트웨어교육에대한연구를수행하고있으며얼마전발표된미래창조과학부의소프트웨어중심대학사업에일부반영되었다. 그림 4 소프트웨어중심대학사업의비전소프트웨어통계조사및체계개선연구통계는정책수립의근거이다. 개인의경험에근거한사례는정책적문제의해법에대한힌트를줄수있지만답을주지는못한다.

60 때문이다. 이런배경에서대학에서의바람직한소프트웨어교육에대한연구를수행하고있으며얼마전발표된미래창조과학부의소프트웨어중심대학사업에일부반영되었다. 그림 4 소프트웨어중심대학사업의비전소프트웨어통계조사및체계개선연구통계는정책수립의근거이다. 개인의경험에근거한사례는정책적문제의해법에대한힌트를줄수있지만답을주지는못한다. 문제가발견되고정책으로이어지려면현실을반영하는통계가뒷받침되어야정책제안에설득력이생기고힘을얻어서실현될수있다. 현실을정확히인식하기위한도구로서소프트웨어통계는정책연구소의설립부터중요한임무로지정되어있다. 통계의중요성에비해국가에서시행하는공식승인통계조사에서는소프트웨어의역할이제대로드러나지않고있다. 예를들어네이버나다음같은인터넷기반의서비스기업은소프트웨어기업의범주에들어가지않는다. 만약구글이나페이스북이한국기업이었다면소프트웨어기업으로취급되지않을것이 다. 게임소프트웨어도마찬가지이다. 다른산업과융합되어있는임베디드소프트웨어분야는더말할나위없다. 현행소프트웨어통계의제한점은다음과같다. - 전통적인소프트웨어산업의범위에머물러있어급변하는소프트웨어시장환경을제대로반영하지못함 - 생산규모, 수출규모, 기업수, 인력수와같은피상적수준의통계데이터만있고, 기업의경영성과, 비즈니스모델, 기술혁신활동, 인적자원활용등소프트웨어산업의실상을정확히파악할수있는통계데이터가부족 - 소프트웨어시장과생태계적특성을파악할수있는기초자료가부족하여정부와기업이적기대응할수있는전략수립이어려움소프트웨어의영향이산업, 과학, 사회전반으로확산된현실을제대로반영하여정책의기초자료로사용하려면소프트웨어관련통계의생산, 활용체계의개선이필요하다. 이를위해연구소에서는다음과같은방향으로통계연구를추진하고있다. - 소프트웨어산업실태조사의대상, 조사항목, 모집단검증, 표본확대를통하여조사결과가현실을반영하도록개선 - 소프트웨어산업특수분류에게임, 인터넷서비스, 임베디드소프트웨어를포함하여실질적으로소프트웨어를개발하고있는대상을공식조사에포함. 또한이분류를정부의승인통계로제정하여지속적지원이가능하도록제도화추진 - 연구소의통계홈페이지를통해제공되는통계자료를확대하고정기적수요조사에의해수집된결과를조사에반영소프트웨어안전 공학연구 2015년부터정책연구외에소프트웨어공학연구 그림 5 현행소프트웨어통계대상 58 특집원고 SYNDICATE SW 플랫폼 : 안전성이중요한시스템을위한동기식분산모듈형 SW 플랫폼

61 기능이추가되었다. 정책연구는자료와자문을통한연구로진행하는제도상의제약을벗어나새로운아이디어에대한기술적검증과실험을할수있게된것이다. 소프트웨어기술은하루가다르게변하고있고, 검토에필요한인력이나비용도적은경우가많기때문에정책연구와기술연구가가까이있으면서교류를하는것이현실적정책을세우는데꼭필요하다. 정책연구소가개소하고얼마되지않아이런문제가발견됐고이를개선하기위한노력에의해연구기능을추가할수있었다. 소프트웨어안전공학연구연구소에서는소프트웨어공학연구의중심주제로소프트웨어안전을연구하고있다. 국내에서는소프트웨어품질을높이기위한방안이나보안기술에대해서는많은관심이있었으나이와인접한안전기술은소프트웨어분야가주목을받지못한경향이있다. 원인중하나는안전의대상이되는소프트웨어가주로임베디드소프트웨어여서국산이든외산이든장비와함께공급되는형태가많아소프트웨어가드러나지않았기때문일것같다. 그러나점차안전관련소프트웨어인증을요구하는산업이늘어나고국내에도이를전문으로하는기업이생기면서정책적지원에대한검토가필요해졌다. 더구나현실에서발생하는안전사고에서소프트웨어가원인이라고의심되는사례가늘어나고, 관제소프트웨어를보다스마트하게구축하면피할수있었던사고가발생하는상황에서더이상소프트웨어안전에대한추진을미룰수없게되었다. 연구소에서진행하는소프트웨어안전연구는다음과같다. - 소프트웨어공학및안전공학관련산학연전문가커뮤니티활성화안전분야는여러도메인에걸쳐각각의표준이따로있고내용도도메인별로다르다. 반면소프트웨어의안전성을높인다는면에서는한도메인의경험이다른도메인에도움이될수있어서공통적인소프트웨어기술에대한정보의공유가필요하기도하다. 따라서원자력, 국방, 자동차, 철도등의분야에서소프트웨어안전관련경험을쌓은전문가의모임을활성화하고경과를일반에공개하여지식과관심을모으는활동이필요하다. 일차적으로안전에대해가장많은경험을한그룹의하나인원자력연구소외 10여개산학연조직을중심으로시작하였고점차범위를확대중이다. - 소프트웨어안전마스터플랜수립및추진미래창조과학부에서는국무총리실에서 2015년발표한안전혁신마스터플랜을실행하는조치의일환으로안전산업실태조사와소프트웨어안전마스터플랜수립을진행하고있다. 연구소에서는이중마스터플랜수립을주관하고, 실태조사에는컨설팅역할로참여하고있다. 마스터플랜은아직진행중인일이어서변경의여지가없지않으나기본적으로시장활성화, 인력양성방안, 부처간정책조정기능등의기반환경을위한계획과사고예방및대응에있어서소프트웨어에대한준비및조사를강화하는내용이포함될예정이다. - 소프트웨어안전체계실현마스터플랜이나와도제대로실현하기위해서는세부사항에대한연구와지속적추진노력이필요하다. 연구소에서는이를위한후속활동을안전공학연구의핵심과제로설정하여추진하고있다. 창업자와경력단절자를이어주는아이디어구현사업고령화와조기퇴직의여파로취업률은점점낮아지고능력이있어도일자리가없는사람이늘어간다. 임신, 육아등의사유로일찍퇴사한후나중에다시취업할의사가생겼을때직장을구하기어려운경력단절자도적은수가아니다. 이인력을모아서각자사정이허락하는대로소프트웨어개발업무를할수있는체계를만들면국가적차원에서상당한인재활용효과를기대할수있다. 즉한쪽에서는기술은잘모르고사업아이디어만있는창업자로부터개발신청을받고반대쪽에서는인력풀을유지하며개발업무를배정한다. 중간에는전문적기술을가진프로젝트관리자가있어서개발관리와시스템설계등의총괄업무를한다. 최근에는미국에서긱스터라는스타트업이유사한아이디어를사업화하고있다는뉴스도있었다. 이사업의최종목적은이익을내는것보다아이디어를가진창업희망자에게사업을시작할기회를주면서동시에경력단절자를위한일자리를만들어내는것이다. 더구나이것은투자의측면과함께복지의성격이있기때문에국가의지원에대한정당성을가진다. 특히이들중소프트웨어개발경험이있는전문가는약간의도움만받으면충분히일을재개할수있다. 또개발경험이없더라도새로배워서소프트웨어개발을할의사가있다면숙련된개발자는아니더라도초급개발자수준의성과는기대할수있다 정보과학회지 59

소프트웨어개발은이런사업을위해가장적합한분야이다. 소프트웨어는분산개발이특별한사례가아니고공개소프트웨어그룹이나기업에서원격근무를위한협업도구및구성관리도구를이용하여업무를하는경우가많다. 당해년도에는일차적으로이런사업을추진하기위한분산개발환경테스트베드를구축하여사업의요소기술을검토한다. 이어서시범과제를통해사업성을확인하고정책제안을할계획이다.

62 소프트웨어개발은이런사업을위해가장적합한분야이다. 소프트웨어는분산개발이특별한사례가아니고공개소프트웨어그룹이나기업에서원격근무를위한협업도구및구성관리도구를이용하여업무를하는경우가많다. 당해년도에는일차적으로이런사업을추진하기위한분산개발환경테스트베드를구축하여사업의요소기술을검토한다. 이어서시범과제를통해사업성을확인하고정책제안을할계획이다. 그림 6 잠재개발인력을활용한아이디어구현사업체계 이상의연구주제와더불어연구소에서중요하게여기고있는것은지식공유와허브역할이다. 연구소에서는홈페이지와월간소프트웨어중심사회간행물을통해연구결과와활동에대한내역을공유하고통계도공유한다. 여러문제에대한포럼을정기적으로개최하여서로다른관점의주장을토론하는기회를제공하고, 세미나와컨퍼런스를통해새로운정보와지식을공유하는장을제공하고있다. 정책연구에있어서도외부전문가와의공동연구와자문등을통해폭넓은의견을수용한현실적인결과를내도록장려하고있다. 정책의성과는시간이걸리고꾸준한개선노력이수반되어야한다. 처음정책을채택하여시행한후에도계속여러의견을청취하여지속적개선을계속해야소기의성과를거둘수있다. 이런점은소프트웨어와유사하다. 최초버전출시이후끊임없는버그수정과기능개선을통해좋은제품으로만들어가는것은소프트웨어개발의기본이다. 이제갓 1년을넘긴소프트웨어정책연구소에많은기대와함께실망도있는것을알고있다. 그래도정책의필요성에공감한다면여러조언과건설적비판으로연구소가발전할수있도록도와주고지켜봐주시기를감히바래본다. 60 특집원고 SYNDICATE SW 플랫폼 : 안전성이중요한시스템을위한동기식분산모듈형 SW 플랫폼

모두 보기

때문이다. 물론가장큰이유는, 다음절에서살펴보겠지만최근들어딥러닝구조를학습하는데필요한여러가지테크닉들이개발되었기때문이다 [6,7]. 딥러닝이산업현장에서선호되는데는몇가지이유가있다. 일단은어려운문제를잘해결한다는것이다. 예를들어서, 물체인식과음성인식등전통적인패턴인식의문제에서딥러닝

때문이다. 물론가장큰이유는, 다음절에서살펴보겠지만최근들어딥러닝구조를학습하는데필요한여러가지테크닉들이개발되었기때문이다 [6,7]. 딥러닝이산업현장에서선호되는데는몇가지이유가있다. 일단은어려운문제를잘해결한다는것이다. 예를들어서, 물체인식과음성인식등전통적인패턴인식의문제에서딥러닝 기계학습개론 / 딥러닝강의노트, 서울대학교컴퓨터공학부장병탁, Copyright 2013-2016 3 장 : 딥러닝모델과모델복잡도이론 3.1 딥러닝개념 3.2 딥러닝의혁신점 3.3 딥러닝아키텍쳐 3.4 모델복잡도이론과정규화 3.5 딥러닝모델의비교 3.1 딥러닝개념 30 년전에는인공지능의기초연구분야에속하던머신러닝이최근구글, 애플, 삼성등글로벌기업들이앞다투어확보하려는핵심산업기술로발전하고있다.