<494354BDC5B1E2BCFA2DBCDBBAB4C3B62E687770>

Similar documents
<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Reinforcement Learning & AlphaGo

Ch 1 머신러닝 개요.pptx

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

<30C7A5C1F62E687770>

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

PowerPoint 프레젠테이션

DBPIA-NURIMEDIA

Electronics and Telecommunications Trends 인공지능을이용한 3D 콘텐츠기술동향및향후전망 Recent Trends and Prospects of 3D Content Using Artificial Intelligence Technology

R을 이용한 텍스트 감정분석

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 29(7),

다중 곡면 검출 및 추적을 이용한 증강현실 책

딥러닝 첫걸음

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

2 : (EunJu Lee et al.: Speed-limit Sign Recognition Using Convolutional Neural Network Based on Random Forest). (Advanced Driver Assistant System, ADA

빅데이터_DAY key

02본문

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

02본문

PowerPoint 프레젠테이션

(JBE Vol. 24, No. 4, July 2019) (Special Paper) 24 4, (JBE Vol. 24, No. 4, July 2019) ISSN

( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

4 : CNN (Sangwon Suh et al.: Dual CNN Structured Sound Event Detection Algorithm Based on Real Life Acoustic Dataset) (Regular Paper) 23 6, (J

(JBE Vol. 24, No. 1, January 2019) (Special Paper) 24 1, (JBE Vol. 24, No. 1, January 2019) ISSN 2287-

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

<BFACB1B831382D31355FBAF2B5A5C0CCC5CD20B1E2B9DDC0C720BBE7C0CCB9F6C0A7C7E820C3F8C1A4B9E6B9FD20B9D720BBE7C0CCB9F6BBE7B0ED20BFB9C3F8B8F0C7FC20BFACB1B82D33C2F7BCF6C1A E687770>

PowerPoint Presentation

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

2 차원단위블록정렬을이용한 내용기반이미지매칭 장철진 O 조환규부산대학교컴퓨터공학과 {jin, Content-based image matching based on 2D alignment of unit block tessellation C

PowerPoint 프레젠테이션

<30392DB1E8C7FCBCB12E687770>

1)

07.045~051(D04_신상욱).fm

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

방송공학회논문지 제18권 제2호

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

김기남_ATDC2016_160620_[키노트].key

Introduction to Deep learning

표상학습을이용한딥러닝이미지특성의범용분류성에대한실험적분석 지도교수장병탁 이논문을공학학사학위논문으로제출함 년 12 월 21 일 서울대학교공과대학컴퓨터공학부한동식 2016 년 2 월

<B1E2C8B9BDC3B8AEC1EE2DC0CCC8ABBCAE2D30342E687770>

사회통계포럼

< B1E8B0E6C5C25FC0DAB5BF2E687770>

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

ICT À¶ÇÕÃÖÁ¾

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

때문이다. 물론가장큰이유는, 다음절에서살펴보겠지만최근들어딥러닝구조를학습하는데필요한여러가지테크닉들이개발되었기때문이다 [6,7]. 딥러닝이산업현장에서선호되는데는몇가지이유가있다. 일단은어려운문제를잘해결한다는것이다. 예를들어서, 물체인식과음성인식등전통적인패턴인식의문제에서딥러닝

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DB1E8B1A4BFEB>

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

(JBE Vol. 22, No. 2, March 2017) (Special Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

2 : (Juhyeok Mun et al.: Visual Object Tracking by Using Multiple Random Walkers) (Special Paper) 21 6, (JBE Vol. 21, No. 6, November 2016) ht

위해 사용된 기법에 대해 소개하고자 한다. 시각화와 자료구조를 동시에 활용하는 프로그램이 가지는 한계와 이를 극복하기 위한 시도들을 살펴봄으로서 소셜네트워크의 분석을 위한 접근 방안을 고찰해 보고자 한다. 2장에서는 실험에 사용된 인터넷 커뮤니티인 MLBPark 게시판

DBPIA-NURIMEDIA

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DB1E8C7D0C0CF>

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

<B3EDB4DC28B1E8BCAEC7F6292E687770>

09( ) CPLV16-04.hwp

290 정보과학회컴퓨팅의실제논문지제 24 권제 6 호 ( ) 1. 서론음성인식시스템은모바일디바이스의보편화로음성데이터에대한접근과확보가용이해짐에따라지난몇년간크게발전하였다. 화자식별 (Speaker Identification) 은개인성도의음성학적특징을모델링하고분류

정보기술응용학회 발표

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

Microsoft Word - 김정훈

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN

°í¼®ÁÖ Ãâ·Â

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

분석기법의기본개념부터활용까지사례중심의 A to Z 학습 데이터분석기본 교육기간 : 3 일 (24 시간 )/ 비합숙 교육비 : 회원 62 만원 / 비회원 69 만원 데이터분석핵심이론학습및현업에적용 현장에서발생하는변수를이해하고상황에따른최적화방안도출 품질향상을위한부적합원인도

[NO_11] 의과대학 소식지_OK(P)

Sequences with Low Correlation

PowerPoint 프레젠테이션

02( ) SAV12-19.hwp

< C617720BBF3B4E3BBE7B7CAC1FD20C1A632B1C72E687770>

<C0CCBCF8BFE42DB1B3C1A4BFCFB7E12DB1E8B9CCBCB12DC0DBBCBAC0DAB0CBC1F5BFCFB7E12DB8D3B8AEB8BBB3BBBACEC0DAB0CBC1F52E687770>

<4D F736F F D E332E20C0DAC0B2BDC5B0E6B0E8B9DDC0C020C1F6C7A5B8A620C0CCBFEBC7D120BCBC20B0A1C1F620C1A4BCAD20BAD0B7F9>

무선데이터_요금제의_가격차별화에_관한_연구v4.hwp


제4차 산업혁명과 인공지능 차 례 제4차 산업혁명과 인공지능 2 제46회 다보스포럼이 2016년 1월 21일~24일 4차 산업혁명의 이해 라는 주제로 개최 되었습니다. 4차 산업혁명은 인공지능에 의해 자동화와 연결성이 극대화되는 단계 로서 오늘날 우리 곁에 모습을 드러

목차 AI Boom Chatbot Deep Learning Company.AI s Approach AI Chatbot In Financial service 2

Event_POR_Template

4 : (Hyo-Jin Cho et al.: Audio High-Band Coding based on Autoencoder with Side Information) (Special Paper) 24 3, (JBE Vol. 24, No. 3, May 2019

제1강 인공지능 개념과 역사

(JBE Vol. 24, No. 4, July 2019) (Special Paper) 24 4, (JBE Vol. 24, No. 4, July 2019) ISSN

장: 200 세외수입 관: 220 임시적세외수입 항: 223 기타수입 광역친환경농업단지사업 부가세 환급금 및 통장이자 79,440,130원 79, ,440 < 산림축산과 > 497, , ,244 산지전용지 대집행복구공사((주)하나식품)

(JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

(a) Tilted image (b) Adjusted image Figure 1. Examples of tilted and adjusted images 기울임을측정한다. 이런방법은알고리즘에서미리정의한특징을포함하고있지않은일반적이고복잡한영상이입력으로주어졌을때, 기울임측정이

유해중금속안정동위원소의 분석정밀 / 정확도향상연구 (I) 환경기반연구부환경측정분석센터,,,,,,,, 2012

Curriculum Vitae 2 Sangkeun Jung, Cheongjae Lee. Gary Geunbae Lee. Using utterance and semantic level confidence for interactive spoken dialog clarifi

<4D F736F F D BDC5B1E2BCFA2DC1A4B5E6BFB5>

DBPIA-NURIMEDIA

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jan.; 28(1), IS

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

2007

<464B4949B8AEC6F7C6AE2DC0AFBAF1C4F5C5CDBDBABBEABEF7C8AD28C3D6C1BE5FBCD5BFACB1B8BFF8BCF6C1A4292E687770>

Transcription:

주간기술동향 2018. 10. 17. 감정인식기술동향 * 송병철김대하 * 최동윤 * 이민규 * 인하대학교교수인하대학교대학원생 * I. 서론 최근소피아나페퍼같은소셜로봇이화제가되고있다. 소셜로봇이란과거기계적움직임을통해인간의육체적노동을대신하는기존로봇의개념과달리인간과커뮤니케이션을수행할수있는능력을갖추고자율적으로동작하여사회적행동을하는감성중심의로봇을말한다. 소셜로봇의주요기능중하나가사람과의자연스러운대화를통해사람의감정상태를파악하고로봇자신의감정을전달하는정서적인상호작용이다. 센싱기술과기계학습기술의발달로인해영상및음성, 생체신호를통해인간의감정및내면상태의파악이가능한기술들이개발되고있으며일부는실제적용되고있다. 먼저영상센싱기반감정인식기술을살펴보면, 영상센서정보를이용한얼굴인식및개인 ID 식별등의연구가지속적으로연구되어왔으며각종스마트기기및 SNS 등에서기능들이구현되어사용되고있다. 또한, 최근에는얼굴의특징점을이용하여인간의감정을판단하는기술이개발되고있으며인간의동작인식을통한행동분류기술등이연구되고있다. 이와같은컴퓨터비전기술을이용한사용자식별과인간감정및행동인식에대한기술은소셜로봇이인간의내면을인식하는데있어서필수적인기술이다. 한편, 음성정보기반감정인식과관련해서는인간의목소리의떨림등의패턴분석을통해감정상태를파악하는기술들이개발되고실제현장에서응용되고있다. 예를들어, 미국 AT&T의콜센터에서는음성인식기술을이용하여실시간으로속기록을생성하고고객의감정상태를파악하여대응하는데이용하고있다. 또한, 자폐증과같이표정으로감정이드러나지않는질환에서는소셜로봇과의대화에서얻을수있는환자의음성정보를이용하여내면상태를파악할수있다. * 본내용은송병철교수 ( 032-860-7413, bcsong@inha.ac.kr) 에게문의하시기바랍니다. ** 본내용은필자의주관적인의견이며 IITP 의공식적인입장이아님을밝힙니다. 18 www.iitp.kr

ICT 신기술 < 자료 > Google [ 그림 1] 영상 / 음성 / 생체의복합적신호시스템 마지막으로생체신호정보기반감정인식의경우, EEG, EMG, ECG 등의생체신호가인간의심리상태를파악하는데상관관계가매우큰정보가될수있다. 최근수요가증가하고있는스마트워치등의웨어러블디바이스를이용한생체신호및감정상태모니터링기술이개발되고있다. 마이크로소프트의경우심전도센서가장착된스포츠브라를통해사용자의신체및감정상태를파악하는제품을개발중이다. 딥러닝은신호센싱과함께정확한감정인식을위해필수적인요소이다. 딥러닝이란컴퓨터가데이터베이스를이용하여스스로데이터를분류하는기준을학습하도록하는기계학습을말한다. 일반적인딥러닝은인간의뇌를모델링한신경망구조 (Neural Network) 를기반으로하며여러단계에걸쳐입력데이터의가치판단및분류과정을수행한다. 이론적개념은 70~80년대에완성되었으나학습과정에서필요한방대한데이터와연산량때문에한동안실용화되지못하고있었다. 그러나최근빅데이터를통한충분한데이터베이스와하드웨어처리속도의발달로인해딥러닝기술의적용이한층용이해졌다. 딥러닝기술의발달로인해최근인공지능 (AI) 기술의발전도급격하게이루어지고있는데이에대한사례는우리사회에서쉽게접할수있다. 세계적으로이슈가되었던구글딥마인드가개발한알파고는딥러닝기술을통해바둑에서인공지능성능을확인하였고이는인공지능시대를여는데큰이바지를하였다. 컴퓨터비전기술분야에서는 CNN(Convolutional Neural Network) 을이용하여영상데이터의객체검출및인식기술이확연하게향상되었고, 음성분야에서는 RNN(Recurrent Neural Network) 을이용하여음성인식및음악장르분류등에우수한성능을보이고있다. 앞서언급한센싱기술과딥러닝기술, 그리고데이터베이스기술이융합되어최근인간의감정인식기술이발전하는추세에있다. 인간의표면적인감정은얼굴표정이나행동그리고음성으로 정보통신기술진흥센터 19

주간기술동향 2018. 10. 17. 인식이가능하다. 하지만, 내면적인감정인식은쉽지않은데, 생체신호를이용하면인식이가능할수있다. 따라서단일신호에만의존하지않고, 영상, 음성, 생체신호등멀티모달신호를사용하는것은감정인식의정확도를향상시키는데기여할수있다. 그러므로멀티모달신호를이용한딥러닝알고리즘을효과적으로설계하고학습시킬수있다면소셜로봇같은기계와인간의상호작용이좀더원활해질수있을것이다. II. 감정인식기술개요 1. 동영상기반감정인식기술동향 동영상기반감정인식은단일영상에서얼굴의특징을분석하는것에서부터시작한다. 초기에는고전적인기계학습및컴퓨터비전을사용하여얼굴의특징을분류하는연구가진행되었다 [1]. 예를들면, 얼굴영상에서추출된그래디언트를기반으로얼굴의특징을추출하고 SVM(Singular Vector Machine) 이나랜덤포레스트같은알고리즘으로그특징들을분석함으로써얼굴의표정을파악한다. 그러나이와같은기술은주변배경또는영상의조도에크게영향을받는다는단점이있다. 또한, 얼굴의각도에영향을받기때문에높은성능을달성하기매우힘들다. [ 그림 2] 는영상의그래디언트기반분석과이를응용한 HOG(Histogram of Gradients) 분석의예시를보여준다 [2]. < 자료 > Dadi, H. S., and Pillutla, G. K. M.(2016). Improved face recognition rate using HOG features and SVM classifier. IOSR J Electron. Commun. Eng(IOSR-JECE) [ 그림 2] 그래디언트기반얼굴특징분석및해당영상의 HOG 특징맵 초기연구에사용되었던데이터셋은 [ 그림 3] 의 CK+ 와같이주로실험실및제한된환경에서 확보된것들이었다. 이후에는 [ 그림 3] 의 AFEW 와같이점차일상적인상황을담은동영상들을 담은데이터셋들이주로이용되고있다. 20 www.iitp.kr

ICT 신기술 (a) CK+ (b) AFEW < 자료 > http://www.pitt.edu/~emotion/ck-spread.htm < 자료 > https://cs.anu.edu.au/few/afew.html [ 그림 3] 데이터베이스의예앞서언급한바와같이감정인식연구는갈수록판단하기힘든상황에서의인물감정인식쪽으로연구가확장되고있다. 예를들면, AFEW 데이터셋은점차리얼리티쇼나시트콤과같이좀더즉각적인감정의분석에초점을두고있다. 한편, 딥러닝기술의급속한발전에따라영상내얼굴의이차원적인특징을추출하고분석하기위해 CNN과같은딥네트워크가널리사용되고있다. 또한, 동영상내프레임들의시간적연속성을추출 / 분석하기위한 LSTM(Long Short-Term Memory) 이라는기법도자주사용되고있다. 예를들면, [ 그림 4] 와같이 LSTM 네트워크내부에서프레임별로가중치를달리하여연속적인프레임에서좀더의미있는프레임을찾기위한연구가진행되고있다 [3]. 마지막으로사람의감정을단순히화남, 역겨움, 두려움, 행복함, 중립, 슬픔, 놀라움등 7가지로분류하는데서벗어나좀더세밀한감정분석을위해연속적인 Arousal-Valence(AV) 영역에서의감정인식연구도활발해지고있다. 이는사람의감정을특정한라벨로분류하는것보다흥분정도와 positive/negative 정도를파악하여그수치로사람의감정을연속적으로분류하는것이더효율적 (a) Recurrent Neural Network(RNN) (b) Long Short-Term Memory(LSTM) < 자료 > http://ratsgo.github.io/ [ 그림 4] RNN 및 LSTM 구조 정보통신기술진흥센터 21

주간기술동향 2018. 10. 17. 일수있기때문이다. 한편 AV 영역에서의감정인식분석을위한 AffectNet 데이터셋이만들어져 관련연구가활발히진행되고있다 [4]. 2. 음성기반감정인식기술동향 상기동영상기반감정인식기술동향에서알수있듯이음성은영상과함께감정을인식하기위한또다른중요한실마리이다. 그러나음성만으로감정인식을하는응용사례는실제로많지않다. 이는동영상속에서음성정보는산발적으로존재하기때문이다. 일부음성정보만을이용한감정인식연구를살펴보면다음과같다. 한동안음성기반감정인식연구는작은시간영역단위의실시간감정인식에집중되어있었다 [11]. 실시간감정인식연구는크게두가지로서새로운특징을추출하거나분류방법론을달리하여정확도를개선하는연구들로나뉜다. 특징추출연구로는개인마다발성의특징이다르기때문에이를반영하는특징을찾는것을목표로한다. 예를들면, 구간이아닌순간감정을인식하는기술이있다 [12]. 분류방법론중하나인계층적분류방법론은여러개의분류기들을사용하여음성에서비슷한감정의인자를나누어분류하는방식이다 [13]. 비교적높은정확도를보이지만짧은음성만인지가가능한단점이있다. 한편남성과여성의학습모델을각각생성한다음, 입력음성을남성혹은여성으로선별한다음성별에맞는학습모델과비교하는방식으로인지하는방법도있다 [14]. 최근에는딥러닝을이용한음성기반감정인식기술들이주를이루고있다. 예를들면, 이지원등은일반화오류를보완할수있는다중작업기반합성곱신경망을이용한음성감정인식시스템을제안하였다 [15]. 즉, 감정분류만을수행하던기존신경망을확장시켜성별, 감정활성도, 긍정도정보를활용한다중작업기반신경망학습을통해감정인식의성능을높이고자하였다. 한편, 강소연등은베이지안로지스틱회귀 (Bayesian logistic regression) 를랜덤포레스트 (random forest) 로대체하여종래베이지안기법들보다정량적인감정인식성능을향상시킨바있다 [16]. 3. 생체신호기반감정인식기술동향 한편, 맥박이나 EEG같은생체신호를이용한감정인식연구도오랫동안연구되어왔다. 먼저해외연구사례를살펴보면, Haag 등은여러바이오센서들로부터얻은다중신호를사용하여감정을인식하도록컴퓨터를학습시키는방법을소개했다 [20]. 논문에따르면자체데이터베이스를이용하기는했지만제안하는신경망기반시스템을사용하였을때 90% 내외의높은정확도를보였다. 22 www.iitp.kr

ICT 신기술 참고문헌 [21] 은감정인식을위한뇌파에대한포괄적인설명과함께딥러닝을포함한여러가지특징추출기법들을소개하였다. 우리나라에서도최근생체신호를이용한감정인식및그응용연구들이이루어지고있다. 송병호등은사용자와로봇간감성적인교감을통해 LED 조명을제어하는시스템으로써사용자의생체신호 ( 맥박, 혈압, 혈당 ) 를측정하여분석한후감성을분류하는연구를수행하였다 [17]. 또한, 이현수등은사용자의생체신호를기반으로감정을판별하여이를바탕으로음악을추천하는시스템을제안하였다 [18]. 류기민등은인공신경망을이용하여감정에따른 EEG 신호를 AV 영역에서분류하는기법을선보였다 [19]. 제안기법은 Valence 축의경우종래기법보다약간낮은결과를얻었지만, Arousal 축에대해서는 5% 향상된결과를보였다. III. EmotiW 의소개 EmotiW(Emotion Recognition in the Wild Challenge) 는 ACM의 ICMI(International Conference on Multimodal Interaction) 라는학술대회와함께개최되는감정인식기술경진대회이다. 세부적으로는세가지부문으로나뉘며, 그룹-단위감정인식 (group-level emotion recognition), 참여강도인식 (engagement in the wild), 그리고동영상인식 (audio-video sub-challenge) 등이다. 먼저그룹-단위감정인식부문을살펴보면다음과같다. 주요작업은사진속사람들로부터인지된감정을긍정적, 중립적, 부정적감정중하나로분류하는것이다. 예를들면, SNS 사용자는다양한사교행사중촬영한영상들을인터넷을통해시스템에업로드한다. 영상은회의, 결혼, 파티와같은긍정적상황을담을수있고, 회사내회의와같은중립적인상황을표현할수도있다. 때로는장례식같은부정적인상황의영상일수도있다. 이부문경쟁에서사용하는데이터셋은 Group Affect Database 2.0[1] 으로서상기와같은다양한상황을담고있다. 상기데이터셋은학습, 검증및테스트의세가지서브-세트로구성된다. 두번째로 2018년신설된 Engagement in the wild 경쟁부문에서는동영상에서피사체의참여강도를예측하는것이목표이다. 녹화세션중피실험자는교육용동영상 (MOOC) 을시청한다. 데이터셋은다양한조건과다양한환경에서기록되었다. 마지막으로동영상내인물의일반적인감정인식을평가하는부문으로 Audiovideo Emotion Recognition 이있다. 다양한동영상에나오는인물들의표정및분위기를통해감정을예측해가장높은정확도를보이는팀이우승하는대회이다. 이대회에서사용하는기본데이터셋은앞서언급한 AFEW 데이터셋이며, 인위적인환경에서의데이터셋들보다훨씬난이도가 정보통신기술진흥센터 23

주간기술동향 2018. 10. 17. 높다. AFEW 데이터셋도학습, 평가, 그리고테스트데이터셋들로이루어져있다. 학습및평가 데이터는각동영상내인물이어떤감정을가지는지에대한정보가주어지며성능에대한지표로 활용이가능하다. IV. 멀티모달딥러닝기반감정인식 1. 기술발전추이및고찰 2015년이전까지는영상에서핸드크래프트특징을추출하는방법이많이사용되었으나, 그이후에는딥러닝을이용한다양한방법이나오고, 더나아가영상및음성의멀티모달을통해꾸준히성능이발전되고있다 ([ 그림 5] 참조 ). 딥러닝을이용한감정인식방법에는 CNN-RNN과 Convolutional 3D 기법을적절히융합한사례가있다 [5]. CNN은영상의공간적인특징을잘추출해주며, 이는인간의표정에대한적절한특징을잘추출하도록도와준다. 또한, RNN에서는시간적인특징을고려해줄수있기때문에영상의맥락및분위기를적절히학습할수있도록도와준다. 또한, CNN은한장의영상을입력으로받지만 convolutional 3D 네트워크는동영상을입력으로받을수있으며, 이를통해공간영역에서의콘벌루션 (convolution) 연산을적용할수있을뿐만아니라시간영역에대해서도콘벌루션 < 자료 > Fan, Yin, et al. "Video-based emotion recognition using CNN-RNN and C3D hybrid networks." Proceedings of the 18th ACM International Conference on Multimodal Interaction. ACM, 2016. [ 그림 5] CNN-LSTM 과 Convolutional 3D 기법을이용한감정인식네트워크 24 www.iitp.kr

ICT 신기술 < 자료 > Vielzeuf, Valentin, Stephane Pateux, and Frederic Jurie. "Temporal multimodal fusion for video emotion classification in the wild." Proceedings of the 19th ACM International Conference on Multimodal Interaction. ACM, 2017. [ 그림 6] 딥러닝기반멀티모달융합기법 연산을수행할수있다. 따라서학습성능이향상될수있다. 한편, 딥러닝네트워크개선뿐만아니라다양한신호에대한융합을통해감정인식성능을높이 는접근방법들이있다. [ 그림 6] 은딥러닝네트워크기반으로추출한세가지신호 ( 영상, 음성, 동영 상 ) 를 MLP(Multi-Layer Perceptron) 를통해늦은융합 (Late Fusion) 하는방식을보인다 [6]. 프레임단위로는공간적인특징, 동영상단위로는움직임등시간축특징, 음성에서분위기에 대한요소를각각추출하여특징벡터를구성한다. [ 그림 6] 과같이총세단계에걸친 MLP 를 통해상기세가지신호가적절한가중치를부여받으면서합쳐진다. 2. 멀티모달딥러닝 멀티모달딥러닝은성질이다른복수의입력을처리하는딥러닝알고리즘으로각각의신호모달 리티에서부족한정보를상호보완하여인식성능을향상하고자하는데목적이있다. 감정인식 정보통신기술진흥센터 25

주간기술동향 2018. 10. 17. (a) Early Fusion (b) Late Fusion (c) Deep Fusion < 자료 > c IEEE CVPR 2017. [ 그림 7] 멀티모달딥러닝융합방식예시분야에서도널리사용되고있으며일반적으로앞에서언급된영상정보를이용한감정인식에서영상내부의표정으로드러나지않는감정정보를인물의대화톤이나의성어같은음성신호나 EEG와맥박같은생체신호를분석하여보완할수있다. 멀티모달딥러닝과정에서는서로다른모달리티의정보를융합하는과정이핵심이다. 융합과정은 [ 그림 7] 과같이크게조기융합과늦은융합으로나누어진다. 조기융합의경우서로다른모달리티의입력에대해정규화등의전처리를수행하고두입력을결합하여하나의알고리즘에입력하는방식이다. 전처리의복잡도가있을수는있지만, 하나의딥네트워크로처리하기때문에상대적으로연산량이적은장점이있다. 반면, 데이터레벨에서융합이먼저이루어지기때문에각모달리티가가진고유의특징을추출하는데는한계가존재한다. 늦은융합의경우서로다른모달리티가각각의네트워크를통해처리되어출력직전에결과를융합하여최종결과를구하는방식이다. 이는각모달리티고유의특징을추출하는데효과적이다. 반면, 모달리티별로네트워크를사용하기때문에연산량측면에서는부담이될수있다. [ 그림 7] 하단은하이브리드융합혹은깊은융합을보여주고있으며, 조기융합과늦은융합을합친방식이라고할수있다. 즉, 모달리티별네트워크가존재하면서중간중간특징맵을융합하는방식이다 [7]. 잘활용하면조기융합과늦은융합의장점만을살릴수있다. 그러나설계의난이도가높고, 복잡도또한만만치않다. 26 www.iitp.kr

ICT 신기술 3. 최근동향 멀티모달딥러닝기법은 EmotiW에서도대부분의팀들에의해활용되고있다. EmotiW에서제공하는데이터셋은인물의표정과음성이존재하는비디오와오디오의멀티모달정보를제공한다. 최근 EmotiW에서발표되는기술은영상정보를처리하는네트워크와음성정보를처리하는네트워크를별도로설계하여처리하고감정에대한출력확률정보를융합하는늦은융합과정이주를이루고있다 [6]. 영상정보를처리하는네트워크는영상정보를 CNN과 LSTM이융합된구조를이용하는것이대표적이고, 음성정보의경우스펙트로그램및 MFCC(Mel-Frequency Cepstrum Coefficient) 등주파수도메인의정보로변환하여영상과마찬가지로 CNN 등의딥러닝기법을활용하고있다 [8]. 생체신호에대한멀티모달딥러닝감정인식으로 [ 그림 8] 과같이뇌파정보인 EEG 신호와맥박정보인 PPG 신호를동시에이용한사례가있다 [9]. 이기술의경우 EEG 신호와 PPG 신호를주파수도메인의신호로변환하여행렬의형태로표현한다음두신호를결합하여 3차원텐서의형태로구성하여딥러닝네트워크의입력으로사용하는조기융합방식을이용하고있다. 즉, EEG 신호와 PPG 신호가결합된입력을영상시퀀스로처리하는 Convolutional LSTM[10] 을통해감정인식을수행한다. < 자료 > c IEEE TAFFC 2018. [ 그림 8] EEG 신호의 PPG 신호의융합 정보통신기술진흥센터 27

주간기술동향 2018. 10. 17. 최근감정인식분야에서의멀티모달딥러닝의활용으로는영상정보와음성정보를동시에활용하거나여러종류의생체신호를융합하여사용하는사례가대부분이다. 현시점에서는실험데이터의취득및동기화문제등으로인해영상 / 음성 / 생체신호등의복합적인멀티모달감정인식에대한감정인식기술은많이등장하지않고있으며영상정보와생체신호간의분석정도가발표되고있다. 향후영상 / 생체신호등을이용한멀티모달딥러닝기반의감정인식기법의개발이이루어질것으로전망되며기존의영상 / 음성또는생체신호들간의멀티모달감정인식기술에비해성능이크게향상될것으로예상된다. V. 결론및시사점 감정인식기술은진정한인간-컴퓨터 ( 혹은로봇 ) 간상호작용을위한핵심요소기술이다. 감정인식의재료가되는얼굴표정 ( 영상 ), 목소리 ( 음성 ), EEG나맥박 ( 생체신호 ) 등이정확한감정인식을위해서는함께이용되는것이바람직하다. 그러기위해서는소위멀티모달센싱및딥러닝기술이지속적으로발전되어야한다. 아울러본고에서는자세히언급되지않았지만데이터베이스의구축도매우중요하다. 일반적인물체인식데이터베이스에비해감정인식데이터베이스는턱없이부족하다. 기술발전을위해서는이에대한투자와연구가절실하다. 마지막으로감정인식기술은정상인뿐만아니라자폐같은장애가있는분들에게매우유용하게사용될것으로보인다. 이미몇몇연구기관에서수행된연구결과에따르면감정인식기술은진찰은물론치료목적으로매우중요하게사용될것으로보인다. [ 참고문헌 ] [1] Zhao, W., Chellappa, R., Phillips, P. J., & Rosenfeld, A. Face recognition: A literature survey, ACM computing surveys(csur), 2003, 35(4), 399-458. [2] Dadi, H. S., & Pillutla, G. K. M., Improved face recognition rate using HOG features and SVM classifier, IOSR J Electron Commun Eng(IOSR-JECE), 2016, 11(4), 34-44. [3] TAO, Fei; LIU, Gang. Advanced LSTM: A Study about Better Time Dependency Modeling in Emotion Recognition, arxiv preprint arxiv:1710.10197, 2017. [4] Mollahosseini, A., Hasani, B., & Mahoor, M. H. Affectnet: A database for facial expression, valence, and arousal computing in the wild, arxiv preprint arxiv:1708.03985. 2017. [5] Fan, Yin, et al. Video-based emotion recognition using CNN-RNN and C3D hybrid networks, Proceedings of the 18th ACM International Conference on Multimodal Interaction. ACM, 2016. 28 www.iitp.kr

ICT 신기술 [6] Vielzeuf, Valentin, Stephane Pateux, and Frederic Jurie. Temporal multimodal fusion for video emotion classification in the wild, Proceedings of the 19th ACM International Conference on Multimodal Interaction. ACM, 2017. [7] Baltrušaitis, T., Ahuja, C., & Morency, L. P. Multimodal machine learning: A survey and taxonomy, IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI), 2018, early access [8] Wang, Shuai, et al. Emotion recognition with multimodal features and temporal models, Proceedings of the 19th ACM International Conference on Multimodal Interaction. ACM, 2017. [9] Kim, B. H., & Jo, S. Deep Physiological Affect Network for the Recognition of Human Emotions, IEEE Transactions on Affective Computing(TAFFC), 2018, early access [10] Xingjian, S. H. I., Chen, Z., Wang, H., Yeung, D. Y., Wong, W. K., & Woo, W. C., Convolutional LSTM network: A machine learning approach for precipitation nowcasting, In Advances in neural information processing systems(nips), 2015, pp.802-810. [11] 방재훈, 이승룡, 감성기반서비스를위한통화음성감정인식기법, 정보과학회논문지, 제41 권, 제3호, 2014, pp.208-213. [12] A. B. Kandali, A. Routray, T. K. Basu, Emotion recognition from Assamese speeches using MFCC features and GMM classifier, IEEE Region 10 Conference(TENCON), Nov, 2008, pp.1-5, 19-21. [13] Z. Xiao, Dellandrea, L. Chen, W. Dou, Recognition of emotions in speech by a hierarchical approach, ACII 2009, 2009, pp.401-408. [14] Y. Cho, K. S. Park, A Study on The Improvement of Emotion Recognition by Gender Discrimination, Journal of IEEK, vol.45, 2008, pp.401-408. [15] 이지원외, 다중작업기반의합성곱신경망을이용한음성감정인식, 2017년한국통신학회하계종합학술대회, 2017. 6. [16] 강소연, 최욱, Random forest를이용한음성신호기반감정인식, 2017년한국통신학회동계종합학술발표회, 2017년. [17] 송병호외, 사용자생체신호인식기반감성소셜로봇시스템설계, 제어로봇시스템학회하계학술대회, 2018. [18] 이현수외, 생체신호를이용한사용자감정기반의음악추천시스템제안, 대한전자공학회하계종합학술대회, 2017. [19] 류기민, 차형태, EEG 신호기반인공신경망을통한감정인식에대한연구, 한국통신학회동계종합학술발표회, 2018. [20] Haag, Andreas, et al. Emotion recognition using bio-sensors: First steps towards an automatic system, Tutorial and research workshop on affective dialogue systems. Springer, Berlin, Heidelberg, 2004. [21] Jenke, Robert, Angelika Peer, and Martin Buss. Feature extraction and selection for emotion recognition from EEG, IEEE Transactions on Affective Computing 5.3(2014): 327-339. 정보통신기술진흥센터 29