DBPIA-NURIMEDIA

Similar documents
THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

DBPIA-NURIMEDIA

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

DBPIA-NURIMEDIA

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

06_ÀÌÀçÈÆ¿Ü0926

±èÇö¿í Ãâ·Â

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

DBPIA-NURIMEDIA

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

DBPIA-NURIMEDIA

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

3. 클라우드 컴퓨팅 상호 운용성 기반의 서비스 평가 방법론 개발.hwp

8-VSB (Vestigial Sideband Modulation)., (Carrier Phase Offset, CPO) (Timing Frequency Offset),. VSB, 8-PAM(pulse amplitude modulation,, ) DC 1.25V, [2

08SW

인문사회과학기술융합학회

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

05( ) CPLV12-04.hwp

1. KT 올레스퀘어 미디어파사드 콘텐츠 개발.hwp

09È«¼®¿µ 5~152s

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

DBPIA-NURIMEDIA

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

정보기술응용학회 발표

歯3-한국.PDF

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

2015

DBPIA-NURIMEDIA


THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 29(2), IS

서강대학교 기초과학연구소대학중점연구소 심포지엄기초과학연구소

09권오설_ok.hwp

08김현휘_ok.hwp

자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

<31362DB1E8C7FDBFF82DC0FABFB9BBEA20B5B6B8B3BFB5C8ADC0C720B1B8C0FC20B8B6C4C9C6C32E687770>

untitled

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

ÀÌÀç¿ë Ãâ·Â

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

½Éº´È¿ Ãâ·Â

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

04-다시_고속철도61~80p

<31372DB9DABAB4C8A32E687770>

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 95~118 학술 탄소은행제의가정용전력수요절감효과 분석 1) 2) 3) * ** *** 95

IT현황리포트 내지 완

歯3이화진

<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A52DC1A4BFB5C3B62E687770>

untitled

04 최진규.hwp

15_3oracle

45-51 ¹Ú¼ø¸¸

지난 2009년 11월 애플의 아이폰 출시로 대중화에 접어든 국내 스마트폰의 역사는 4년 만에 ‘1인 1스마트폰 시대’를 눈앞에 두면서 모바일 최강국의 꿈을 실현해 가고 있다

디지털포렌식학회 논문양식

exp

<32382DC3BBB0A2C0E5BED6C0DA2E687770>


유해중금속안정동위원소의 분석정밀 / 정확도향상연구 (I) 환경기반연구부환경측정분석센터,,,,,,,, 2012

DBPIA-NURIMEDIA

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

DBPIA-NURIMEDIA

07_Àü¼ºÅÂ_0922

°í¼®ÁÖ Ãâ·Â

16회말하기

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

2

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -


278 경찰학연구제 12 권제 3 호 ( 통권제 31 호 )

B-05 Hierarchical Bayesian Model을 이용한 GCMs 의 최적 Multi-Model Ensemble 모형 구축

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

14.531~539(08-037).fm


성능 감성 감성요구곡선 평균사용자가만족하는수준 성능요구곡선 성능보다감성가치에대한니즈가증대 시간 - 1 -

Journal of Educational Innovation Research 2018, Vol. 28, No. 2, pp DOI: IPA * Analysis of Perc

Microsoft Word - KSR2014S042

DBPIA-NURIMEDIA

<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

레이아웃 1

DBPIA-NURIMEDIA

Microsoft PowerPoint - 26.pptx

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 29(7),

DIY 챗봇 - LangCon

09구자용(489~500)

< BB0E6C1A65DB0F8B0B32DC1F6BDC4C0E7BBEAC0CEB7C220BCF6B1DEC0FCB8C120BFACB1B85FC0CCC1D6BFAC28C3D6C1BE292E687770>

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N

06_À̼º»ó_0929

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

2011´ëÇпø2µµ 24p_0628

<C7F6B4EBBACFC7D1BFACB1B B1C72033C8A E687770>

04서종철fig.6(121~131)ok

Transcription:

208 정보과학회논문지 : 소프트웨어및응용제 41 권제 3 호 (2014.3) 감성기반서비스를위한통화음성감정인식기법 (Call Speech Emotion Recognition for Emotion based Services) 방재훈 이승룡 (Jae Hun Bang) (Sungyoung Lee) 요약기존의음성기반감정인식기술은콜센터나메디컬센터에서고객이나환자의감정을실시간으로모니터링하고추출된감정에적절한대응을해주는서비스어플리케이션으로사용되고있다. 이러한음성기반감정인식기술은일정주기혹은단위시간동안의음성데이터를분석하여사용자의감정을인식한다. 기존연구방법론은하나의통화이벤트전체에대한감정인식이아닌통화중특정시간동안의감정을인식하는기술로써, 전체통화기간동안감정의변화를인식하지못하여감정기복이있는통화음성데이터에서하나의감정으로도출해내는통화단위감정인식에는부적합하다. 본논문에서는스마트폰에서통화음성을녹음한뒤감정인식구간을통화시작부터종료시점까지하나의 Window 로보고, 이를다수의 Time-Window 로나눈다음, 통화종료시점에가까워지는 Window 에감정생존곡선을기반한가중치를부여하는기법을제안한다. 키워드 : 통화음성데이터, 음성기반감정인식, 틸티드타임윈도우, 스마트폰, 감정생존곡선 Abstract Existing speech based emotion recognition is used in call center or in medical center to monitor client s or patient s emotion in real time, and respond in appropriate service. This method analyzes speech data in constant period to recognize user s emotion. Existing researches do not analyze the whole phone call but only specific part, which makes it unable to know the undulation of emotion for the whole period. This is inappropriate to use in the unit of phone call, which should conclude the emotion using whole speech.in this paper, we propose the following method. After recording a phone call, consider the whole phone call as a window and divide it into several Time-Windows, then assign weighted value gradually until the end of the call. Keywords: call speech data, speech emotion recognition, tilted-time window, smartphone emotion survivor curve 1. 서론 이논문은 2013년도정부 ( 미래창조과학부 ) 의재원으로한국연구재단의지원을받아수행된연구임 (No. 2013-067321) 비회원 : 경희대학교컴퓨터공학과 jhb@oslab.khu.ac.kr 종신회원 : 경희대학교컴퓨터공학과교수 sylee@oslab.khu.ac.kr (Corresponding author임 ) 논문접수 : 2012년 12월 7일심사완료 : 2014년 1월 7일 CopyrightC2014 한국정보과학회 ː개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회논문지 : 소프트웨어및응용제41권제3호 (2014.3) 스마트폰이보급되면서사용자정보를활용한다양한개인화서비스연구가활발히진행중이다. 사용자정보의예로는상황정보및감정정보등이있다. 특히감정정보는사용자의현재감정상태를나타내는정보로감정상태에따라달라지는음악추천과같은문화콘텐츠서비스와콜센터나메디컬센터에서고객감정모니터링등에매우유용하다. 음성기반감정인식이란사용자의음성신호를분석하여사용자의감정을자동으로인식하는기술이다. 최근마이크로폰센서가탑재된스마트폰에서사용자의통화음성데이터수집및처리가용이해짐에따라감정인식기술연구가활발히수행되고있다.

감성기반서비스를위한통화음성감정인식기법 209 스마트폰에서의감정기반개인화서비스를제공하기위해서는통화종료후사용자감정을통화단위로도출해야한다. 그러나기존의음성기반감정인식기술은수초정도의작은크기의타임윈도우마다수집한음성데이터로부터사용자의감정을주기적으로인식한다. 이와같은감정인식기술은하나의통화이벤트전체에대한감정의인식이아닌통화중특정시간동안의감정을인식하는기술로써, 전체통화기간동안의감정을인식하기어렵다. 예를들어, 사용자가통화의대부분을화를내며대화를하고마지막 30초동안차분한상태로통화를종료하면기존의감정인식기술은사용자의감정을 평범 이라고인식한다. 이경우통화의전체적인감정은화남이였고통화종료후의감정도화남일것이다. 따라서통화단위에서의감정인식은통화시작시점부터종료시점까지전체적인감정상태를점진적으로고려해야한다. 본논문에서는여러가지감정이혼재되어있는통화음성으로부터효과적으로감정을인식하는기법을제안한다. 제안하는기법은통화의전체적인감정상태를점진적으로고려하기위해시간의흐름에따라최근의상태를많이반영하는 Tilted-Time Window 모델을사용하여통화음성에서하나의감정을추론한다. 통화시작시점부터종료시점을하나의타임윈도우로설정하며이를일정크기의서브윈도우로분할하여감정인식을수행한다. 각서브윈도우의인식된감정결과값을통화시간의흐름에따라점진적으로가중치를부여하여통화전체에서사용자의전반적인감정을인식한다. 화남, 즐거움, 두려움, 평범, 슬픔의 5가지감정을고려한실험을통하여제안하는감정인식기술이기존의기술보다더높은통화단위의감정인식정확도를보임을입증하였다. 2. 관련연구현재음성기반감정인식연구는작은타임윈도우단위의실시간감정인식에집중되어있다. 대표적인음성 기반감정인식연구의대표적인어플리케이션적용사례는콜센터고객의부정적인감정을감지하여상담원에게알려주는모니터링서비스이다 [1]. 이연구는통화중감정모니터링이주목적이므로실시간으로감정을인지하는것이다. 이러한실시간감정인식연구는크게두가지로새로운특징을추출하거나분류방법론을다르게적용하여정확도를개선하는연구들이있다. 새로운특징추출연구로는개인마다발성의특징이다르기때문에이를반영하는특징을사용한연구로써 Window사이즈를정하지않고순간감정을인식하는기술이다 [2]. 분류방법론을다르게적용하는연구로는계층적분류방법론을적용한기술이있다. 이연구는총 3개의분류기를사용하여음성에서비슷한감정의인자를나누어분류하는방법으로높은정확도를보이지만 3초가량의음성만인지가가능하다 [3]. 다른연구로는남성과여성의훈련모델을각각생성하고입력되는음성을남성, 여성으로먼저분류하여성별에맞는훈련모델과비교, 인지하는방법이다 [4]. 그러나기존의연구는단시간초단위감정인식에대한연구로써짧게는몇초길게는수십분이될수있는통화단위음성데이터에적용하기에는부적합하다. 통화음성데이터에서는감정의기복이나타날수있고대화형식으로되어있어사용자의음성이정기적으로들어오지않기때문에통화중실시간감정인식이아닌통화후의전체통화에대한감정을인식하는통화단위의감정을인식하는데부적합하다. 3. 통화음성기반감정인식본장에서는여러가지감정이혼재되어있는통화음성에서하나의감정을추출해내는통화음성기반감정인식기술을제안한다. 그림 1은제안하는통화음성기반감정인식의개념도이다. 통화녹음단계는스마트폰에서통화시작부터종료까지의음성데이터를마이크로폰센서를이용하여녹음하고녹음된통화음성에서사용자가말하지않는 그림 1 통화음성기반감정인식개념도 Fig. 1 Conceptual Diagram of Call Speech based Emotion Recognition

210 정보과학회논문지 : 소프트웨어및응용제 41 권제 3 호 (2014.3) 묵음을제거한다. 묵음이제거된통화음성은순간의감정들을파악하기위해 5초의작은크기의서브윈도우로분할하고 MFCC(Mel Frequent Coefficient Cepstral) Filter Bank 알고리즘을사용하여특징벡터값을추출한후 5가지감정 ( 화남, 즐거움, 두려움, 평범, 슬픔 ) 으로훈련된 SVM 분류모델에의해감정을인식한다. 인식된감정들은시간의흐름에따라점진적인가중치를부여하는 Tilted-Time Window 모델을사용하여통화단위의최종감정을추정한다. 3.1 감정모델의선정감정인식분야에서적절한감정상태를유추하기위해선체계적인감정모델을선정해야한다. 인간의감정은다양하고복잡하며수많은형용사로표현된다. 이러한감정상태를정량화하고각각의감정상태간의상관관계를밝히려는연구가활발히진행되고있다 [5]. 현재감정인식분야에서많이사용되고있는감정모델은크게두가지로써 [6], 인간의감정을선호-부정활동성-비활동성의 2차원영역으로표현한 Valence-arousal Model이있다. Valence-arousal Model은감정인식연구에서많이사용되는감정모델로서 [7] 다양한감정을 2차원공간으로표현한다. 감정에대한성향을나타내는 Valence축과, 감정의강도를나타내는 Arousal축을통해다양한감정상태를정의하고있다. 두번째방법으로는즐거움, 놀라움, 두려움, 공포, 화남, 슬픔등의대표감정을선정하는방법이다. Valencearousal Model의경우인간의감정상태를연속적으로표현하여다양한감정을선정할수있는장점이있지만 2차원지표와다양한감정형용사간의구분짓기힘든애매모호한감정이존재하는단점이있다. 대표감정을선정하는경우는감정의표현이명확하여감정에따른음성을분류하기쉬우므로대부분의음성기반감정인식분야에서감정표현법으로사용되고있다. 따라서본논문에서는감정표현이명확한대표감성표현법을사용하여감정인식분야에서일반적으로많이사용하는대표감정인화남, 즐거움, 두려움, 평범, 슬픔 5가지의감정모델을사용하였다. 본논문에서각감정에대한음성의정의는아래의표 1과같이정의한다. 표 1 각감정에대한음성정의 Table 1 Definition of each emotional speech Emotion Definition Angry Strongness, High ton, very Rapid Speaking Joyful High ton, Rapid Speaking Nervous Weakness, Low ton, Shaking Speaking Natural Normal ton, Normal Speaking Sad Weakness, Low ton, Slow Speaking 그림 2 묵음제거전 / 후파형 Fig. 2 Waves of before/after Non-Speech Reduction 3.2 묵음제거및통화음성분할통화음성데이터에는대화형식으로이루어지기때문에사용자가말하지않는묵음이발생한다. 음성인식분야는다른타인식분야와다르게말하지않는공백데이터는의미가없는데이터로감정인식에방해가되는요소이다. 따라서이러한묵음을제거하는것은긴단위의음성기반감정인식에있어서꼭필요한기술이다. 본논문에서사용하는음성묵음제거방법으로소리의크기에임계값을두어제거한다. 임계값은일반적으로사람이소곤대는소리인 15데시벨 (db) 로설정한다. 그림 2는통화음성데이터의묵음을제거하기전파형과제거한후의파형이다. 사용자가말을하지않은묵음이효과적으로제거되었음을확인할수있다. 통화시간은가변적이며매우길어질수있고, 이러한긴음성안에서는여러가지감정이혼재되어있다. 따라서통화의전반적인감정을추론하기위해서는통화기간내의순간의감정들을파악하는것이중요하다. 순간감정을인식하기위하여묵음이제거된통화음성을여러개의서브윈도우로분할한다. 일반적으로음성기반감정인식은 3초에서 5초사이의타임윈도우에서높은정확도를갖는다 [2,3]. 본논문에서는순간의감정을파악하기위해 5초크기의서브윈도우를사용한다. 3.3 단위윈도우감정인식단위윈도우감정인식단계에서 3.2절에서분할한 5초단위의윈도우마다감정을인식한다. 단위윈도우감정인식은특징추출과정과인식과정으로구성된다. 특징추출과정은감정인식에적합한특징을추출하기위해데이터를가공하는필터뱅크알고리즘을통해특징을추출하는과정이다. 인식과정은추출된특징들을기반으로기계학습알고리즘을사용하여감정을추론하는과정이다. 특징추출과정에서는필터뱅크알고리즘으로 13차 MFCC 를사용하였다. MFCC는인간의청각특성을고려하는필터뱅크알고리즘으로음성인식분야에서널리사용되 고있으며인식성능이우수하다 [8]. 13차 MFCC는 64ms를프레임단위로윈도우를분할하는해밍윈도우 기법을사용한다. 본논문에서 5 초크기의타임윈도우

감성기반서비스를위한통화음성감정인식기법 211 를사용하므로총 78개의프레임이생성된다. 그리고각프레임마다 13개의 MFCC 값을추출하여총 1014개의특징벡터를구성한다. 분류과정에서는추출된특징벡터로기계학습알고리즘인 SVM을사용하여감정을훈련및인식한다. 3.4 통화단위감정인식통화단위감정인식단계에서는단위윈도우감정인식의결과들을기반으로사용자의통화단위의감정을추정한다. 그림 3에서와같이하나의통화에서는단위윈도우마다서로다른감정이인식된다. 만약통화종료직전의감정만을고려하여통화단위감정을인식하면, 실제사용자의감정이즐거움임에도불구하고평범이라는잘못된감정을추론할것이다. 사람의감정은일반적으로시간의흐름에따라약해진다. 따라서통화중에나타는감정들중에통화종료직전의감정이가장큰영향력이있다고고려하여, 시간에따른점진적인가중치를두는 Tilted-Time Window 기법 [9] 을활용한다. Tilted-Time Window는전체타임윈도우를시간에따른서브윈도우들로분할하고각서브윈도우들에시간에역순으로큰가중치를주어최근데이터와이전데이터의중요도를적절히반영할수있다. 다양한 Tilted-Time Window 기법들가운데장기간의데이터의분석에용이한 Logarithmic Tilted-Time Window[10] 기법을사용한다. 가변적인통화길이에시간에따른적절한가중치를부여하기위하여통화전체시간을하나의타임윈도우로설정한다. 그리고총통화시간을네개의시간구간으로분할한다. 그림 4는전체통화를시간을 Tilted-Time Window로분할한그림이며가장왼쪽은통화의시작을나타내며통화의마지막부분은오른쪽에표현하고있다. 각시간구간의그림 3 통화단위감정인식기법 Fig. 3 Call Speech Emotion Recognition 그림 4 Tilted-Time Window의구성 Fig. 4 Organization of Tilted-Time Window 그림 5 감정생존함수곡선 [11] Fig. 5 Curve of Emotion Survival Function 비율은통화종료시점을기준으로첫서브윈도우 은 12.5%, 는 25%, 는 50%, 은 100% 로구성한다. 동일한서브윈도우내에있는음성데이터는동일한가중치를부여한다. 가중치는심리학연구에기초하여감정의지속시간을고려한다. 그림 5는심리학계의연구로사람의감정이얼마만큼지속되는지를 60명의실험자에게감정을느꼈던시점부터시간의흐름에따라지속적인설문을통하여나온결과인감정생존곡선 [11] 이다. 곡선에대한결과값도출과정은실험자에게해당감정을느낄수있도록에피소드를제공하고 15분마다설문을통하여감정을계속느끼고있는지를확인하고이설문을바탕으로생존함수 [12] 를적용하여도출한다. 감정생존곡선은사람이느꼈던감정이시간이흐를수록느끼지못할확률을나타낸다. 식 (1) 은생존함수를수식화해놓은것으로시간 t에따른생존확률 R을구한다. 함수 F(t) 는시간에따른해당감정을느낀확률의누적함수분포를의미한다. (1) 그러나이실험에서는두려움, 화남, 즐거움 3가지감정에대한실험만하여다른평범과슬픔과같은대표적인감성에대한생존곡선이존재하지않는다. 따라서그림 5에서와같이각감정의생존시간변화는서로매우유사한추이를가지고있어본논문에서는감정들의생존곡선들의기울기평균을 Tilted-Time Window 가중치로사용한다. 식 (2) 는각타임윈도우 에따른각감정에대한생존함수결과값의평균 를구하는수식이다. (2) 식 (3) 은 Tilted-Time Window의가중치산출방법

212 정보과학회논문지 : 소프트웨어및응용제 41 권제 3 호 (2014.3) 그림 6 시간에따른 Tilted-Time Window 가중치그래프 Fig. 6 Time dependent Weighted Graph of Tilted-Time Window 이다. 여기서, 는그림 5와같이해당구간의시간을나타내며각시간구간마다의기울기를가중치로사용한다. (3) 가중치의크기는전체타임윈도우의길이에따라변화한다. 그림 6은 Tilted-Time Window 가중치의예로통화시간 15분에대한가중치를곡선과가중치값을표시한그래프이다. 각타임윈도우구간에서추출된 Tilted-Time Window 가중치는해당타임윈도우에서인식된감정들의빈도를곱하여각감정에대한감정점수를측정하고한통화의최종적인감정은가장높은감정점수를갖는감정으로도출된다. 식 (4) 는감정 에대한감정점수 를계산하는식으로 은타임 Window의총개수를나타내고 는타임윈도우 에서나타난감정 의빈도이다. 4. 실험결과및분석 (4) 본장에서는제안하는통화단위감정인식기법의성능을검증한다. 성능평가는단위윈도우감정인식의정확도와통화단위의감정인식의정확도를각각측정하였다. 다음절에서는실험환경및데이터수집, 성능평가방법, 감정인식평가에대한내용을설명한다. 4.1 실험환경및데이터수집실험에서사용된스마트폰디바이스는 SHW-M250S 모델을사용하였으며음성데이터는 8kHz, 16bit, 모노 (mono) 로설정하였고잡음이나지않는조용한환경녹음하였다. 음성데이터는단위윈도우감정인식을위한음성녹음과통화단위감정인식을위한실제통화데이터로두가지의음성데이터를수집하였다. 단위윈도우감정인식을위한데이터는 20대의남자 4명, 여자 4명의사용자가직접 5초단위로화남, 즐거움, 두려움, 평범, 슬픔에대한 5가지감정을직접연기를통해녹음을하여총 1000개로구축하였다. 또한모든상황을고려하기위해훈련데이터는 64ms 간격으로오버래핑기법을사용하여훈련하였다. 통화단위감정인식을위한통화음성데이터는화남, 즐거움, 두려움, 평범, 슬픔각감정마다 85개식총 425개의통화음성데이터를구축하였다. 구축한통화음성데이터중데이터구축에참여한사용자가통화한후자기자신과익명의두명에게설문을받아 3명의평가자가같은감정이라고선택한각감정마다 33개의음성을선택하여총 165개만을평가에사용하였다. 분류기를위한기계학습알고리즘은 SVM(Support Vector Machine) 을사용하였다. 4.2 성능평가방법실험은단위윈도우감정인식정확도측정과통화단위감정인식에정확도를각각측정을하였다. 단위윈도우감정인식정확도측정은 10 Fold-Cross Validation 기법을사용하여측정하였다. 통화단위감정인식에대한성능비교는기존의연구와비교하기위해통화의마지막부분만을인지한방법 ( 방법 1), 본논문에서제안하는 Tilted-Time Window기법을검증하기위한 Tilted-Time Window를적용하지않고단순히감정의빈도수만반영하여인지한방법 ( 방법 2), 제안하는 Tilted- Time Window 기법을사용한방법 ( 방법 3) 을사용하여진행하였다. 4.3 감정인식정확도단위윈도우감정인식정확도는화남은 92.16%, 즐거움은 88.17%, 두려움은 77.30%, 평범은 90.17%, 슬픔은 99.45%, 평균 89.45% 의보였다. 대체로높은정확도를보였으나가장분류가어려운감정은두려움이었으며즐거움과화남으로잘못인지하는경우가많았다. 표 2는각각의감정에따른인식정확도의 Confusion Matrix 이다. 세로축은감정의실제레이블 (true label) 이고, 가로축은각감정을인지한레이블이다. 예를들어, 화남감정에대해서는 92.17% 를정확하게인지하였고, 화남을즐거움으로잘못인지한것이 5.8% 이고, 두려움으로잘못인지한것이 2.03% 이다. 표 2 단위윈도우감정인식 Confusion Matrix ( 단위 %) Table 2 Confusion Matrix of Time Window Speech Emotion Recognition (unit %) Angry Joyful Nervous Natural Sad Angry 92.17 5.8 2.03 0 0 Joyful 4.61 88.17 6.99 0.23 0 Nervous 5.91 12.43 77.31 4.18 0.17 Natural 0.09 1.07 8.422 90.17 0.25 Sad 0 0.22 0 0.32 99.46

감성기반서비스를위한통화음성감정인식기법 213 표 3 통화단위감정인식정확도 Table 3 Accuracy of Speech Emotion Recognition Angry Joyful Nervous Natural Sad Avg. Exp.1 43.33 48.57 68.29 39.13 61.53 50.9 Exp.2 46.66 51.42 60.975 52.17 61.53 53.9 Exp.3 53.33 62.857 75.60 52.17 76.92 62.4 표 3은통화단위감정인식정확도를나타내는비교표이다. 기존연구방법을사용한방법 1은평균 50.9% 의정확도를보였다. Tilted-Time Window 기법을사용하지않고빈도수만측정한방법 2는평균 53.94% 의정확도를보였고제안하는 Tilted-Time Window 기법을활용한방법 3은평균 62.42% 의정확도를보였다. 세실험을비교하였을때제안하는기법이전체적으로높은정확도를보였으며기존연구대비즐거움은 17.28%, 두려움은 7.31%, 평범은 13.04%, 화남은 10%, 슬픔은 15.39%, 평균적으로는 11.51% 의높은정확도향상을보였다. Tilted-Time Window 기법을사용하지않고빈도수만측정한경우와비교하였을때는즐거움이 11.43%, 두려움이 14.63%, 화남이 6.67%, 슬픔이 15.39% 높은정확도를보였고평범의경우인지율이같았다. 5. 결론 본논문은스마트폰에서통화음성기반감정인식기법을제안하였다. 다양한감정이혼재되어있는통화음성에서제안하는기법이기존의음성기반감정인식기법보다더좋은성능을보이는것을입증하였다. 제안하는방법은통화음성에서 5초단위로감정을인식하고인식된결과를 Tilted-Time Window기법을사용하여최종감정을추론하였다. 또한감정의지속시간을나타내는감정생존곡선을사용하여 Tilted-Time Window의가중치로설정함으로써통화음성기반감정인식의정확도를높였다. References [1] D. Morrison, R. Wang, L. C. De Silva, "Ensemble methods for spoken emotion recognition in callcentres," Speech Communication, vol.49, Issue 2, pp.98-112, 2007 [2] A. B. Kandali, A. Routray, T. K. Basu, "Emotion recognition from Assamese speeches using MFCC features and GMM classifier," TENCON 2008-2008 IEEE Region 10 Conference, pp.1-5, 19-21 Nov, 2008. [3] Z. Xiao, Dellandrea, L. Chen, W. Dou, "Recognition of emotions in speech by a hierarchical approach," ACII 2009. 3rd International Conference, 10-12, Sept, pp.401-408, 2009. [4] Youn-ho Cho, Kyu-Sik Park, "A Study on The Improvement of Emotion Recognition by Gender Discrimination," Journal of IEEK, vol.45, pp.401-408, 2008. [5] Picard, R. W., 1998, Affective Computing, The MIT Press, London, pp.141-192. [ 6 ] Joonyoung Park, Dongsu Park, Jahng-hyon Park, Jihyung Park, "Development of Human Sensibility Recognition Systemusing Hidden Markov Model," HCI 2004, pp.605-610, 2004. [7] J. Posner, J.A. Russell and B.S. Peterson, "The circumplex model of affect: An integrative approach to affective neuroscience, cognitive development, and psychopathology," Development and Psychopathology 2005, vol.17, pp.715-734, 2005. [8] A. Klautau, "The MFCC," [Online]. Available: http://www.cic.unb.br/~lamar/te073/aulas/mfcc.pdf [9] P. Pitarch, A. Laurent, M. Plantevit, P. Poncelet, "Multidimensional Data Stream Summarization Using Extended Tilted-Time Windows," 2009 International Conference on Advanced Information Networking and Applications Workshops, 26-29, May, 2009. [10] P. Pitarch, A. Laurent, M. Plantevit, P. Poncelet, "Multidimensional Data Stream Summarization Using Extended Tilted-Time Windows," 2009 International Conference on Advanced Information Networking and Applications Workshops, 26-29, May, 2009. [11] P. Verduyn, E. Delvaux, H. V. Coillie, F. Tuerlinckx, and I. V. Mechelen, "Predicting the Duration of Emotional Experience: Two Experience Sampling Studies," American Psychological Association, vol.9(1), pp.83-91, Feb. 2009. [12] Wekipedia, "Survival Function," URL: "https://en. wikipedia. org/wiki/survival_function" 방재훈 2007년평택대학교디지털응용정보학과학사. 2013년경희대학교컴퓨터공학과석사. 2013년~현재경희대학교컴퓨터공학과박사과정. 현재경희대학교동서신의학 u-라이프케어연구센터연구원. 관심분야는유비쿼터스컴퓨팅, 감정인식, 모바일기반감정인식 이승룡 1978년고려대학교재료공학과공학사 1987년 Illinois Institute of Technology 전산학과석사. 1991년 Illinois Institute of Technology 전산학과박사. 1992년~ 1993년 Governors State University, Illinois 조교수. 1993년~현재경희대학교전자정보학부컴퓨터공학과교수. 현재경희대학교동서신의학 u-라이프케어연구센터센터장. 관심분야는유비쿼터스컴퓨팅, 상황인지, 인공지능, 실시간시스템, 미들웨어시스템, 보안, 클라우드컴퓨팅