290 정보과학회컴퓨팅의실제논문지제 24 권제 6 호 ( ) 1. 서론음성인식시스템은모바일디바이스의보편화로음성데이터에대한접근과확보가용이해짐에따라지난몇년간크게발전하였다. 화자식별 (Speaker Identification) 은개인성도의음성학적특징을모델링하고분류

Similar documents
THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

09권오설_ok.hwp

논문제출양식

08김현휘_ok.hwp

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

PowerPoint Presentation

04김호걸(39~50)ok

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

Reinforcement Learning & AlphaGo

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

김기남_ATDC2016_160620_[키노트].key

DBPIA-NURIMEDIA

<B8F1C2F72E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 29(7),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

°í¼®ÁÖ Ãâ·Â

Ch 1 머신러닝 개요.pptx

딥러닝 첫걸음

4 : CNN (Sangwon Suh et al.: Dual CNN Structured Sound Event Detection Algorithm Based on Real Life Acoustic Dataset) (Regular Paper) 23 6, (J

4 : (Hyo-Jin Cho et al.: Audio High-Band Coding based on Autoencoder with Side Information) (Special Paper) 24 3, (JBE Vol. 24, No. 3, May 2019

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

14.531~539(08-037).fm

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A52DC1A4BFB5C3B62E687770>

Introduction to Deep learning

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

R을 이용한 텍스트 감정분석

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

8-VSB (Vestigial Sideband Modulation)., (Carrier Phase Offset, CPO) (Timing Frequency Offset),. VSB, 8-PAM(pulse amplitude modulation,, ) DC 1.25V, [2

논문제출양식

DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 29(2), IS

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 25(3),

(JBE Vol. 20, No. 5, September 2015) (Special Paper) 20 5, (JBE Vol. 20, No. 5, September 2015) ISS

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

02( ) SAV12-19.hwp

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

PowerPoint 프레젠테이션

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

DBPIA-NURIMEDIA

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

I

05( ) CPLV12-04.hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Sep.; 30(9),

Observational Determinism for Concurrent Program Security

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jan.; 28(1), IS

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 27(7),

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

(JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Sep.; 26(10),

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

Æ÷Àå½Ã¼³94š

룩업테이블기반비선형렌즈플레어실시간렌더링방법 (Real-Time Nonlinear Lens-Flare Rendering Method Based on Look-Up Table) 조성훈 정유나 이성길 (Sunghun Jo) (Yuna Jeong) (Sungkil Lee) 요

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 25(12),

(JBE Vol. 24, No. 4, July 2019) (Special Paper) 24 4, (JBE Vol. 24, No. 4, July 2019) ISSN

다중 곡면 검출 및 추적을 이용한 증강현실 책

부문별 에너지원 수요의 변동특성 및 공통변동에 미치는 거시적 요인들의 영향력 분석

19_9_767.hwp

Electronics and Telecommunications Trends 인공지능을이용한 3D 콘텐츠기술동향및향후전망 Recent Trends and Prospects of 3D Content Using Artificial Intelligence Technology

디지털포렌식학회 논문양식

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

정보기술응용학회 발표

<C7A5C1F620BEE7BDC4>

???? 1

09( ) CPLV16-04.hwp

제1강 인공지능 개념과 역사

BOK°æÁ¦¸®ºä-2-2È£

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

PowerPoint 프레젠테이션

<30392DB1E8C7FCBCB12E687770>

2 : 3 (Myeongah Cho et al.: Three-Dimensional Rotation Angle Preprocessing and Weighted Blending for Fast Panoramic Image Method) (Special Paper) 23 2

슬라이드 1

(JBE Vol. 23, No. 1, January 2018) (Regular Paper) 23 1, (JBE Vol. 23, No. 1, January 2018) ISSN 2287

03-서연옥.hwp

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

Microsoft PowerPoint - 30.ppt [호환 모드]

Æ÷Àå82š

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

PowerPoint 프레젠테이션

( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

02본문

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 28(2),

ch3.hwp

Transcription:

ISSN 2383-6318(Print) / ISSN 2383-6326(Online) KIISE Transactions on Computing Practices, Vol. 24, No. 6, pp. 289-294, 2018. 6 https://doi.org/10.5626/ktcp.2018.24.6.289 STFT 소리맵을이용한컨볼루션신경망기반화자식별방법 (Speaker Identification Method based on Convolutional Neural Network with STFT Sound-Map) 부석준 조성배 (Seok-Jun Bu) (Sung-Bae Cho) 요약화자식별은개인성도의음성학적특징을모델링하고분류하는기술로음성인식분야의가장어려운분야에속한다. 화자식별기술은보안인증, 접근제어, 개인화, 지능형로봇제어등의분야에서광범위하게응용이가능하지만, 실제환경요소로인한잡음때문에발생하는학습과테스트데이터간의불일치를해결하는것이필요하다. 본논문에서는잡음강건성을위해컨볼루션 - 풀링연산을반복적으로적용하는화자식별시스템을제안하였다. 정적신호가아닌시계열특성을지니는스피치데이터의특징을보다잘모델링하기위해서 STFT 알고리즘을사용하여소리맵을생성하여분류하였다. 제안하는화자식별시스템은다른기계학습알고리즘의인식성능을크게상회하였고, 단계별로잡음을삽입하는실험의결과로잡음강건성을검증하였다. 키워드 : 딥러닝, 컨볼루션신경망, STFT 알고리즘, 화자식별, 잡음강건성 Abstract Speaker identification which models and classifies the phonological characteristics of individuals, is one of the most difficult areas of speech recognition. While speaker identification can be widely applied in fields such as security authentication, access control, personalization and intelligent robot control, a solution needs to be found for the inconsistency between training and test data caused by noise due to real environment factors. In this paper, we propose a speaker identification system based on convolution-pooling operation for noise robustness. To model the characteristics of individuals' speech using the time series characteristics, a sound map was generated using the Short-time Fourier Transform (STFT) algorithm. The proposed speaker identification system outperforms recognition performance of other machine learning algorithms, and the robustness of noise is verified as a result of the noise insertion at incremental steps. Keywords: Deep Learning, Convolutional Neural Network (CNN), Short-time Fourier Transform (STFT) Algorithm, Speaker Identification, Noise Robustness 이논문은 2017년도정부 ( 과학기술정보통신부 ) 의재원으로정보통신기술진흥센터의지원을받아수행된연구임. (2016-0-00562, 상대방의감정을추 논문접수 : 2017년 10월 10일 (Received 10 October 2017) 론, 판단하여그에맞추어대화하고대응할수있는감성지능기술연구개발 ) 논문수정 : 2018년 3월 23일 이논문은 2017 한국컴퓨터종합학술대회에서 STFT 소리맵을이용한컨볼 (Revised 23 March 2018) 루션신경망기반화자식별방법 의제목으로발표된논문을확장한것임 심사완료 : 2018년 4월 18일 (Accepted 18 April 2018) 학생회원 : 연세대학교컴퓨터과학과 sjbuhan@yonsei.ac.kr 정회원 : 연세대학교컴퓨터과학과교수 (Yonsei Univ.) sbcho@yonsei.ac.kr (Corresponding author 임 ) CopyrightC2018 한국정보과학회ː 개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위 를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회컴퓨팅의실제논문지제24권제6호 (2018. 6)

290 정보과학회컴퓨팅의실제논문지제 24 권제 6 호 (2018. 6) 1. 서론음성인식시스템은모바일디바이스의보편화로음성데이터에대한접근과확보가용이해짐에따라지난몇년간크게발전하였다. 화자식별 (Speaker Identification) 은개인성도의음성학적특징을모델링하고분류하는기술로음성인식분야의가장어려운분야에속한다. 화자식별기술은보안인증, 접근제어, 개인화, 지능형로봇제어등의분야에서광범위하게응용가능하다. 화자식별시스템을위해서는단기적주파수변동, 음의높이와같은저수준특징과단음, 단어, 음절이나장기적주파수변동과같은고수준특징등의풍부한음성학적특징을모델링하기때문에기계학습알고리즘이적절하다. 기존의기계학습알고리즘을사용하는화자식별시스템은 Gaussian Mixture Model (GMM) 알고리즘을사용하는것이주도적이었으나, 환경요소에대한잡음으로인해발생하는학습과테스트데이터사이의불일치에민감한한계가있었다. 반면에실제환경에서는많은잡음이포함되기때문에화자식별시스템에는잡음강건성이필수적요소이다 [1]. 본논문에서는컨볼루션-풀링연산과 STFT알고리즘에기반하여잡음이큰실제환경에서도화자간의음성학적인특징을모델링할수있는실용적인화자식별시스템을제안한다. STFT알고리즘에기반하여화자별스피치고유의소리맵을생성하고컨볼루션신경망으로학습하는화자식별시스템이잡음이큰환경에서도다른분류알고리즘의성능을훨씬상회하는것을 10겹교차검증으로검증하였다. 오분류데이터를분석하기위해소리맵을정성적으로비교하였고, 잡음강건성을검증하기위해서단계별로가우시안잡음을포함시켜생성한데이터에대해화자분류정확도를비교하였다. 2. 관련연구화자식별분야에서잡음강건성을위한기계학습접근방법은크게두가지로나눌수있는데, 첫번째로시계열신호로부터잡음을제거하고유효한특성을보다잘추출해내고모델링하려는시도가있다. 이러한 Feature enhancement 접근방법에서는스피치로부터여러가지알고리즘을사용해서유효한특징을추출하고선택하는것이목적이다. 본논문에서는특징추출단계에서 Short-time Fourier 변환알고리즘을사용하여, 스피치를시간-주파수도메인에서국부적인상관관계를내포하는소리맵으로추출하였다. 두번째로인식기가잡음을제외하고음성만을잘모델링하도록내부파라미터를갱신하려는시도가있다. 이러한 Model adaptation 접근방법에서는분류나인식을 표 1 음성인식특징추출, 모델링방법 Table 1 Methods and features of speech recognition Author Method Feature Hinton[2] DBN MFCC Features Graves[3] Bi-LSTM Raw waveform Seltzer[1] Pre-trained DNN Raw waveform Graves[4] Bi-LSTM Spectogram Chan[5] Seq2seq LSTM Raw waveform 위한알고리즘을개선하는것이주목표이다. 본논문에서는잡음강건성과일반화성능이검증된컨볼루션 -풀링연산을사용하여학습과테스트시의불일치가빈번한문제에대처하였다. 표 1에서 2010년이후의 Feature enhancement, model adaptation 시도를정리하였다. 3. 방법 3.1 제안하는화자식별시스템아키텍쳐그림 1에서제안하는컨볼루션-풀링연산을사용하는화자식별시스템의아키텍쳐를도식화하였다. 실제생활잡음환경에서도사용가능하도록컨볼루션-풀링연산을사용하여잡음강건성에목적을두고설계되었다. 데이터를학습하는단계에서는화자다수의스피치샘플이필요하다. 입력된스피치샘플은크게세단계의특징추출과정을거친다. 스피치고유의소리맵을생성하고정규화한뒤슬라이딩윈도우알고리즘을사용하여일정구간으로샘플링하였다. 전처리가완료된윈도우는잡음강건성확보를위해여러층쌓은컨볼루션신경망의내부가중치를갱신하고화자별일반적인패턴을모델링한다. 인식단계에서는컨볼루션신경망의내부가중치를업데이트하지않고출력된활성화함수값으로각윈도우의화자를분류한다. 제안하는화자식별시스템에서윈도우별로분류하는화자가다를수있기때문에, 학습단계와는달리분류된결과를산술평균내어최종적으로화자를분류한다. 그림 1 제안하는화자식별시스템아키텍쳐 Fig. 1 Proposed speaker identification system architecture

STFT 소리맵을이용한컨볼루션신경망기반화자식별방법291 3.2 스피치데이터전처리 : 소리맵, 윈도우스피치데이터는정적신호가아닌시계열특성을지니고있어각스피치에대한단일특징이무의미한경향을보인다 [6]. 따라서시간, 주파수와음량간의상관관계를손실하지않고특징을추출해내기위해서시간구간별로 Fourier transform연산을수행하는 STFT알고리즘을적용하였다. 시간에대한신호함수 와윈도우 에대해 STFT알고리즘은식 (1) 으로정의된다. (1) 실제스피치데이터는불연속함수이므로 STFT 계산시에는 번째불연속신호 와시간측정치, 주파수측정치, 윈도우 의길이 에대해식 (2) 의변환을수행한다. (2) 그림 2에서 STFT알고리즘에의해생성된소리맵샘플을화자별로비교하였다. 소리맵은가로축을시간으로, 세로축을주파수로, 픽셀강도를크기로갖는 3차원벡터로정의한다. 생성된소리맵은시간-주파수가국소적으로높은상관관계를나타내기때문에컨볼루션-풀링연산의 Local connectivity 속성으로모델링하기에적절하다. 생성된소리맵은스피치의길이별로크기가다르고그차원이매우높아슬라이딩윈도우알고리즘을사용하여균일한구간으로샘플링하여윈도우로분할하였다. 그림 2 화자별소리맵비교 Fig. 2 Sound map comparison by speaker 3.3 잡음강건성을위한컨볼루션-풀링연산학습과테스트시의데이터간에불일치가큰음성인식분야에서는잡음강건성이가장중요한요소이다. 제안하는화자식별시스템에는컨볼루션-풀링연산을반복적으로적용하여잡음강건성을확보하였다. 컨볼루션연산의일반화성능은개인의음성학적특징의변산요소모델링에적절하다 [7]. 제안하는화자식별시스템은컨볼루션-풀링모듈, Dropout층과 3겹의완전-연결층으로이루어져있다. 번째컨볼루션층에서출력되는벡터 은 크기의가중치벡터 와이전층출력값 에대해수식 (3) 의컨볼루션연산을수행하여이미지를왜곡하거나강조한다. 컨볼루션연산의학습은특징간의공간적관계를보존하며상관관계를추출하는필터 의가중치를찾는과정이다. 번째풀링층에서출력되는벡터 은 크기의입력벡터중 영역을대상으로풀링거리 에대해식 (4) 의풀링연산을수행하고해당영역의최대값을출력한다. 컨볼루션신경망의풀링연산은왜곡되거나강조된특징들로부터가장분류에유의미한특징을추출하는방식으로계산복잡도를감소시키는차원감소과정을의미한다. (3) max (4) 제안하는화자식별시스템의컨볼루션모듈은총 3개층으로각자 64개의필터수와 필터크기를사용하였다. 4. 실험및결론 4.1 CHiME 스피치데이터셋제안하는화자식별시스템의검증을위해 12명의화자가 5장소별로대본을녹음한 CHiME-4 데이터셋을사용하였다. CHiME 데이터셋은각 6명의남성, 여성화자가녹음부스, 카페, 길거리, 버스, 도로에서녹음한총 57,653개의.wav파일을포함하고있다 [8]. 실제환경잡음이포함되어기존대비현실적인실험이가능하다. 실험을위해서 190,837개의윈도우를생성하였고학습 70%, 검증 10%, 테스트 20% 로분할하였다. 4.2 윈도우크기별성능시스템의하이퍼파라미터중하나인윈도우크기변수는화자의음성학적특징을포함할정도를결정한다는점에서화자인식성능에큰영향을끼친다. 그림 3에서윈도우의크기에따른화자식별성능을정리하였다. 그림 3 윈도우크기별화자식별성능 Fig. 3 Classification accuracy by window size

292 정보과학회컴퓨팅의실제논문지제 24 권제 6 호 (2018. 6) 윈도우크기 9에서최고 95.18% 테스트정확도를기록하였고, 윈도우크기가 9 전후로증감함에따라성능이감소하였다. 따라서최적의윈도우크기를 9로가정하고타실험에서고정하였다. 4.3 특징추출방법별비교 STFT알고리즘으로생성한소리맵에기반하여컨볼루션신경망을학습하였을때음성학적인특징이충분히모델링되는것을정량적으로검증하기위해표 2에서다른특징추출방법과 10겹교차검증하였다. 제안하는시스템의딥러닝기반분류모형인 3층의컨볼루션-풀링연산이후 사이즈의얕은다층신경망으로이루어진컨볼루션신경망을공통적으로사용하여특징추출방법의효과만을비교하였다. STFT알고리즘에기반하여시간-주파수도메인의국부적인상관관계를모델링하는경우에분류정확도가 95.02% 로가장높았고특징추출을거치지않은경우와 비교하여 5% 정도의성능향상을보였다. 이때의피어슨상관계수는 0.7115로성능면에서뚜렷한양의상관관계가있다. 4.4 분류방법별비교그림 4에서제안하는화자식별시스템의분류모형의적절성을검증하기위해타기계학습알고리즘의 10겹교차검증분석결과를박스플롯으로시각화하였다. 제안하는방법이타기계학습알고리즘을크게상회하였고 k-nn알고리즘이약 70% 의분류성능을보였다. 시계열특성을효과적으로모델링하기위한 LSTM 신경망은약 80% 의분류성능을보였다. 스피치로부터시간-주파수간의국부적인공간적특징을주로모델링하는소리맵특징추출의방법이 Local-connectivity 속성을가지는컨볼루션연산에적합하다. 표 2 특징추출방법별 10겹교차검증비교 Table 2 10-fold cross validation comparison by feature extraction method STFT MFCC Raw Waveform 1 0.9542 0.9209 0.9126 2 0.9492 0.9211 0.8945 3 0.9544 0.9243 0.8986 4 0.9389 0.9287 0.8973 5 0.9531 0.9233 0.9128 6 0.9513 0.9264 0.9038 7 0.9436 0.9079 0.8839 8 0.9491 0.9171 0.9055 9 0.9612 0.9286 0.9155 10 0.9472 0.9138 0.8988 Average 0.9502 0.9212 0.9023 Coefficient 0.7115 0.6211 - 그림 4 기타기계학습방법과의 10겹교차검증비교 Fig. 4 10-fold cross validation comparison with other machine learning methods 4.5 오분류케이스분석표 3에서제안하는화자식별시스템의혼동행렬분석결과를시각화하였다. 총 38,168개의윈도우로구성된 Actual 표 3 테스트데이터에대한혼동행렬분석 Table 3 Confusion matrix analysis of test data Predicted F01 F02 F03 F04 F05 F06 M01 M02 M03 M04 M05 M06 F01 4316 97 39 37 9 7 54 38 4 11 18 7 F02 2 2871 13 5 0 0 0 6 3 14 0 0 F03 0 12 2946 6 1 2 7 8 0 1 2 1 F04 82 48 42 8053 2 5 21 7 24 34 6 3 F05 21 9 6 12 2623 11 3 5 4 19 6 5 F06 34 25 6 10 18 2912 5 6 7 20 7 9 M01 2 26 7 17 1 1 2570 16 0 4 2 3 M02 0 7 6 0 0 1 11 2287 0 2 2 1 M03 48 35 16 23 9 2 41 8 8212 71 3 5 M04 56 28 3 29 17 2 18 3 21 8451 1 3 M05 38 7 4 12 16 24 11 32 3 13 8451 11 M06 34 9 3 10 14 26 22 8 22 36 6 2638

STFT 소리맵을이용한컨볼루션신경망기반화자식별방법293 그림 5 F01 화자와기타화자의소리맵비교 Fig. 5 Comparison of STFT sound-map between speakers 테스트데이터에대해 F01 클래스로표기된첫번째여성화자가가장빈번하게오분류되었다. 그림 5에서 F01 화자의소리맵과타화자의소리맵을시각화하여정성적으로비교하였다. F01화자의시간-주파수-세기로이루어진 3차원소리맵은타화자의소리맵에비교하여세기변화가평이하였고타화자의발언구간에서발생하는윈도우와의유사성을발견하였다. 4.6 잡음강건성검증그림 6에서제안하는방법의잡음강건성검증을위해단계적으로잡음을삽입한테스트데이터의분류성능을비교하였다. 잡음 의분포 는평균, 표준편차 에대해식 (5) 와같다. (5) 잡음요인 에대해삽입하는잡음의강도를 로증가시키며 LSTM신경망, k-nn알고리즘과비교하였다. 증가량에따라타알고리즘의성능이대폭감소함에비해제안하는컨볼루션화자식별시스템은잡음강건성을확보하였다. 그림 6 잡음세기별인식성능비교 Fig. 6 Identification performance by noise intensity 4.7 결론본논문에서는잡음강건성을확보하기위해서컨볼루션-풀링연산을사용한화자식별시스템을제안하였다. 스피치데이터의특징추출을위해각스피치별로 STFT 알고리즘을사용하여소리맵을생성하였고슬라이딩윈도우알고리즘을사용하여전처리하였다. 실험을통해윈도우의최적의크기를결정하였고기타기계학습대비최고의인식성능을획득하였다. 컨볼루션-풀링연산을반복적으로적용하여타알고리즘대비강력한잡음강건성을확보하였다. 향후연구로다른딥러닝알고리즘과비교하는것이필요하다. 첫번째로시간-공간적특징을모두가지는소리맵데이터를효과적으로모델링하기위해서기존의컨볼루션신경망과 LSTM 신경망을직, 병렬적으로구축하는것이필요하다. 두번째로컨볼루션신경망을변형하여원본데이터분포와유사한가상의데이터를생성할수있는 GAN 알고리즘과비교하는것이필요하다. 생성적모델의측면에서가상의음성학적특징을생성해내고모델링하는 GAN알고리즘은화자식별시의잡음강건성분야에도입할수있는유력한방법이다. References [1] M. L. Seltzer, D. Yu and Y. Wang, "An Investigation of Deep Neural Networks for Noise Robust Speech Recognition," Acoustics, Speech and Signal Processing, 2013 IEEE International Conference on. IEEE, pp. 7398-7402, 2013. [2] A. R. Mohamed, G. E. Dahl and G. Hinton, "Acoustic Modeling using Deep Belief Networks," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 20, pp. 14-22, 2012. [3] A. Graves, A. R. Mohamed and G. Hinton, "Speech Recognition with Deep Recurrent Neural Networks," Acoustics, Speech and Signal Processing, 2013 IEEE International Conference on IEEE, pp. 6645-6649, 2013. [4] A. Graves and N. Jaitly, "Towards End-To-End Speech Recognition with Recurrent Neural Networks," International Conference on Machine Learning, Vol. 14, pp. 1764-1772, 2014. [5] W. Chan, N. Jaitly, Q. Le and O. Vinyals, "Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition," Acoustics, Speech and Signal Processing, 2016 IEEE International Conference on. IEEE, 2016. [6] D. Bahdanau, J. Chorowski, D. Serdyuk, P. Brakel and Y. Bengio, "End-to-end Attention-based Large Vocabulary Speech Recognition," Acoustics, Speech and Signal Processing, 2016 IEEE International Conference on. IEEE, 2016. [7] O. Abdel-Hamid, A. R. Mohamed, H. Jiang, L. Deng, G. Penn and D. Yu, "Convolutional Neural Networks for Speech Recognition," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 22, pp. 1533-1545, 2014. [8] J. Barker, R. Marxer, E. Vincent and S. Watanabe, "The Third 'CHiME' Speech Separation and Recognition Challenge: Dataset, Task and Baselines,"

294 정보과학회컴퓨팅의실제논문지제 24 권제 6 호 (2018. 6) Automatic Speech Recognition and Understanding, 2015 IEEE Workshop on. IEEE, 2015. 부석준 2016년한양대학교 ERICA 컴퓨터공학과졸업 ( 학사 ). 2016년~현재연세대학교컴퓨터과학과석박통합과정. 관심분야는신경망, 강화학습 조성배 1988년연세대학교전산과학과 ( 학사 ). 1990 년한국과학기술원전산학과 ( 석사 ). 1993 년한국과학기술원전산학과 ( 박사 ). 1993 년~1995년일본 ATR 인간정보통신연구소객원연구원. 1998년호주 Univ. of New South Wales 초청연구원. 1995년~ 현재연세대학교컴퓨터과학과정교수. 관심분야는신경망, 패턴인식, 지능정보처리