Preparation of Papers for Thesis in ICU

Similar documents
지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

04 Çмú_±â¼ú±â»ç

°í¼®ÁÖ Ãâ·Â

09권오설_ok.hwp


High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 25(12),

A sudy on realizaion of speech and speaker recogniion sysem based on feedback of recogniion value

±è¼ºÃ¶ Ãâ·Â-1

exp

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

PowerPoint Presentation

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

8-VSB (Vestigial Sideband Modulation)., (Carrier Phase Offset, CPO) (Timing Frequency Offset),. VSB, 8-PAM(pulse amplitude modulation,, ) DC 1.25V, [2

À±½Â¿í Ãâ·Â

Chapter4.hwp

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

Sequences with Low Correlation

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

I

ch3.hwp

DBPIA-NURIMEDIA

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

, ( ) 1) *.. I. (batch). (production planning). (downstream stage) (stockout).... (endangered). (utilization). *

09È«¼®¿µ 5~152s

???? 1

???? 1

2 : (Juhyeok Mun et al.: Visual Object Tracking by Using Multiple Random Walkers) (Special Paper) 21 6, (JBE Vol. 21, No. 6, November 2016) ht

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

#Ȳ¿ë¼®

김기남_ATDC2016_160620_[키노트].key

¼º¿øÁø Ãâ·Â-1

<C7A5C1F620BEE7BDC4>

(001~006)개념RPM3-2(부속)

04김호걸(39~50)ok

(JBE Vol. 20, No. 6, November 2015) (Regular Paper) 20 6, (JBE Vol. 20, No. 6, November 2015) ISSN

05( ) CPLV12-04.hwp

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

<313920C0CCB1E2BFF82E687770>

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

<C3D6C1BE2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D32C8A3292E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

08김현휘_ok.hwp

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

融合先验信息到三维重建 组会报 告[2]

Buy one get one with discount promotional strategy

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

Slide 1

2 : (Jaeyoung Kim et al.: A Statistical Approach for Improving the Embedding Capacity of Block Matching based Image Steganography) (Regular Paper) 22

레이아웃 1

4 CD Construct Special Model VI 2 nd Order Model VI 2 Note: Hands-on 1, 2 RC 1 RLC mass-spring-damper 2 2 ζ ω n (rad/sec) 2 ( ζ < 1), 1 (ζ = 1), ( ) 1

09구자용(489~500)

부문별 에너지원 수요의 변동특성 및 공통변동에 미치는 거시적 요인들의 영향력 분석


(JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

20, 41..,..,.,.,....,.,, (relevant).,.,..??.,

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

1. 서 론

,. 3D 2D 3D. 3D. 3D.. 3D 90. Ross. Ross [1]. T. Okino MTD(modified time difference) [2], Y. Matsumoto (motion parallax) [3]. [4], [5,6,7,8] D/3

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

3 : ATSC 3.0 (Jeongchang Kim et al.: Study on Synchronization Using Bootstrap Signals for ATSC 3.0 Systems) (Special Paper) 21 6, (JBE Vol. 21

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

1. 3DTV Fig. 1. Tentative terrestrial 3DTV broadcasting system. 3D 3DTV. 3DTV ATSC (Advanced Television Sys- tems Committee), 18Mbps [1]. 2D TV (High

07.045~051(D04_신상욱).fm

08원재호( )

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

hwp

09오충원(613~623)


에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 95~118 학술 탄소은행제의가정용전력수요절감효과 분석 1) 2) 3) * ** *** 95

164

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

( )실험계획법-머리말 ok

<C7D1B1B9B0E6C1A6BFACB1B8C7D0C8B828C0CCC1BEBFF85FC0CCBBF3B5B75FBDC5B1E2B9E9292E687770>

adfasdfasfdasfasfadf

(72) 발명자 정진곤 서울특별시 성북구 종암1동 이용훈 대전광역시 유성구 어은동 한빛아파트 122동 1301 호 - 2 -

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 29(3),

abstract.dvi

슬라이드 제목 없음

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

OR MS와 응용-03장

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Microsoft Word - KSR2016S009


DBPIA-NURIMEDIA

R을 이용한 텍스트 감정분석

방송공학회논문지 제18권 제2호

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Oct.; 27(10),

methods.hwp

Transcription:

석사 학위논문 Master's Thesis Sparse Maximum A Posteriori 적응기법을 이용한 SVM 화자 검증 SVM Based Speaker Verification Using Sparse Maximum A Posteriori Adaptation 노 재 영 ( 盧 在 英 Roh, Jaeyoung) 전기및전자공학과 Department of Electrical Engineering KAIST 2013 년도

Sparse Maximum A Posteriori 적응기법을 이용한 SVM 화자 검증 SVM Based Speaker Verification Using Sparse Maximum A Posteriori Adaptation

SVM Based Speaker Verification Using Sparse Maximum A Posteriori Adaptation Advisor : Professor Hoirin Kim by Using Histogram of Speech Features Jaeyoung Roh Department of Electrical Engineering KAIST A thesis submitted to the faculty of KAIST in partial fulfillment of the requirements for the degree of Master of Science and Engineering in the Department of Electrical Engineering. The study was conducted in accordance with Code of Research Ethics 1 2012. 12. 20. Approved by Associate Professor Hoirin Kim 1 Declaration of Ethical Conduct in Research: I, as a graduate student of KAIST, hereby declare that I have not committed any acts that may damage the credibility of my research. These include, but are not limited to: falsification, thesis written by someone else, distortion of research findings or plagiarism. I affirm that my thesis contains honest conclusions based on my own careful research under the guidance of my thesis advisor.

Sparse Maximum A Posteriori 적응기법을 이용한 SVM 화자 검증 노 재 영 위 논문은 한국과학기술원 석사학위논문으로 학위논문심사위원회에서 심사 통과하였음. 2012 년 12 월 20 일 심사위원장 김 회 린 (인) 심사위원 노 용 만 (인) 심사위원 유 창 동 (인)

MEE 20113194 노 재 영. Roh, Jaeyoung. SVM Based Speaker Verification Using Sparse Maximum A Posteriori Adaptation. Sparse Maximum A Posteriori 적응기법을 이용한 SVM 화자 검증. Department of Electrical Engineering. 2013. 44p. Advisor Prof. Kim, Hoirin. ABSTRACT Maximum A Posteriori (MAP) adaptation is a powerful method for generating Gaussian mixture model (GMM) supervector through adapting the universal background model (UBM) using the acoustic feature vector sequence from input utterance given. Modern text-independent speaker verification systems using support vector machines (SVMs) utilize as input features GMM supervectors with large amount of parameters to be estimated. The length of input utterance to be verified with GMM-SVM speaker verification system may be limited for specific applications such as entrance security systems. In that case, the number of parameters adapted can be very large compared with the amount of verification input data, or adaptation data. Although the Bayesian priors used in the MAP adaptation method gives certain smoothing, small unreliable movements of the model parameters that are not relevant to the input speech can still lead to some adaptation noise. By introducing sparse MAP adaptation to GMM-SVM based text-independent speaker verification system, we can mitigate the adaptation noise effectively. In this thesis, we introduce sparse MAP adaptation method known as works well in automatic speech recognition area. Our sparse MAP adaptation method utilizes the l 0 norm as a constraint to induce sparsity and to reduce the adaptation noise. The performance evaluation shows that sparse MAP based GMM-SVM speaker verification system improves the conventional MAP based GMM-SVM speaker verification system in terms of relative equal error rate reduction up to 42.6%. Keywords: speaker verification, GMM-SVM, sparse MAP, MAP adaptation. i

목 차 Abstract i 목 차 ii 표 목 차 iv 그림목차 v 약어목록 vi 제 1 장 서 론 1 1.1 연구 분야 개관 1 1.2 학위 논문 연구 동기 4 1.3 관련 연구 5 1.4 제안하는 방법 5 1.5 개요 5 제 2 장 GMM-SVM 기반 화자 검증 시스템 6 2.1 음향 특징 추출 7 2.1.1 Mel-Frequency Cepstral Coefficients (MFCCs) 7 2.1.2 음성 검출 알고리즘 (Voice Activity Detection) 10 2.2 Gaussian Mixture Models 11 2.3 Universal Background Model 12 2.4 Maximum A Posteriori Adaptation 13 2.5 GMM Supervectors 15 2.6 Support Vector Machines 16 2.6.1 SVM Training 16 2.6.2 SVM Classifier 17 2.7 GMM-SVM 기반 화자 검증 시스템의 전체 과정 18 2.7.1 훈련 과정 18 2.1.2 검증 과정 19 제 3 장 Sparse Maximum A Posteriori Adaptation 21 3.1 Sparse Constraints 22 3.2 Lagrangian Solution 23 3.3 Sparsity Variations 24 ii

제 4 장 적응 잡음 분석 26 4.1 적응 잡음의 특징 27 4.2 적응 잡음 분석 방법 27 4.3 적응 잡음 분석 28 4.3.1 분석 설정 28 4.3.2 분석 결과 29 제 5 장 성능 평가 33 5.1 데이터베이스 설정 33 5.2 성능 평가 구성 설정 34 5.3 성능 평가 결과 35 5.3.1 Equal Error Rate 35 5.3.2 Minimum Decision Cost Function 36 5.3.3 Detection Error Tradeoff 곡선 37 제 6 장 결 론 40 참 고 문 헌 41 감 사 의 글 43 이 력 서 44 학 회 활 동 44 iii

표 목차 표 3.1 : 에 따른 sparsity. 25 표 4.1 : 128 mixture 에 대한 MAP-SVM 과 sparse MAP-SVM 마진의 분포 비교. 29 표 4.2 : 256 mixture 에 대한 MAP-SVM 과 sparse MAP-SVM 마진의 분포 비교. 30 표 4.3 : 512 mixture 에 대한 MAP-SVM 과 sparse MAP-SVM 마진의 분포 비교. 30 표 4.4 : 1024 mixture 에 대한 MAP-SVM 과 sparse MAP-SVM 마진의 분포 비교. 31 표 5.1 : MAP-SVM 과 sparse MAP-SVM 의 EER 성능. 35 표 5.2 : MAP-SVM 과 sparse MAP-SVM 의 DCF*100 성능. 36 iv

그림 목차 그림 2.1 : GMM-SVM 화자 검증 시스템의 검증 과정. 6 그림 2.2 : MFCC 특징 추출 과정. 8 그림 2.3 : Mel-scale 과 frequency scale 의 관계. 9 그림 2.4 : 비선형 멜 필터 뱅크. 9 그림 2.5 : UBM 훈련의 예. (a) 남성 화자와 여성 화자의 데이터를 한꺼번에 UBM 파라미터 추정에 사용 (b) 남성 화자와 여성 화자의 데이터에 대해 각각 추정한 뒤 병합. 13 그림 2.6 : GMM supervector 개념도. 15 그림 2.7 : GMM-SVM 기반 화자 검증 시스템 훈련 과정. 19 그림 2.8 : GMM-SVM 기반 화자 검증 시스템 검증 과정. 20 그림 4.1 : MAP-SVM 과 sparse MAP-SVM 마진의 분포 비교 (1024 mixtures, τ=0.5). 32 그림 5.1 : 128 mixture 에 대한 MAP-SVM 과 5 일 때 sparse MAP- SVM 의 DET 곡선. 37 그림 5.2 : 256 mixture 에 대한 MAP-SVM 과 0.5 일 때 sparse MAP- SVM 의 DET 곡선. 38 그림 5.3 : 512 mixture 에 대한 MAP-SVM 과 0.5 일 때 sparse MAP- SVM 의 DET 곡선. 38 그림 5.4 : 1024 mixture 에 대한 MAP-SVM 과 0.5 일 때 sparse MAP- SVM 의 DET 곡선. 39 v

약어 목록 ASR : Automatic Speaker Recognition DCT : Discrete Cosine Transform DET : Detection Error Tradeoff DWNAP : Discriminating Weighted Nuisance Attribute Projection EER : Equal Error Rate EM : Expectation Maximization GMM : Gaussian Mixture Model HMM : Hidden Markov Model MAP : Maximum A Posteriori MFCCs : Mel-Frequency Cepstral Coefficients Min DCF : Minimum Decision Cost Function MLLR : Maximum Likelihood Linear Regression NAP : Nuisance Attribute Projection SMO : Sequential Minimal Optimization SVM : Support Vector Machine UBM : Universal Background Model vi

제 1 장 서 론 1.1 연구 분야 개관 Automatic speaker recognition (ASR)은 입력 발화 신호의 정보에 기반하여 자동적으로 화자를 인식하는 과정이다. ASR 은 그 목적에 따라 화자 식별과 화자 검증으로 나눌 수 있다. 화자 식별은 주어진 입력 발화를 이용하여 등록된 화자 가운데 가장 일치하는 화자를 찾아내는 것을 목적으로 한다. 반면, 화자 검증은 주어진 입력 발화가 주장하는 화자의 것인지 아닌지를 검증하는 것을 목적으로 한다. 일반적인 화자 인식 시스템은 등록된 화자 가운데 일치하는 화자를 결정하는 화자 식별과정을 먼저 수행하고, 그 뒤 주장하는 화자에 대한 검증을 수행하여 인식 결과를 출력한다. ASR 시스템은 또한 인증 과정에서 나타나는 약속어의 유무에 따라 두 가지 카테고리로 나눌 수 있다. 첫 번째는 텍스트 의존적 화자 인식 시스템으로, 시스템의 설계 단계에서 결정한 텍스트만을 발성하여 화자 인식을 수행하는 것이다. 텍스트 의존적 화자 인식 시스템은 텍스트 독립적 화자 인식 시스템에 대해 동등한 인식기로 구성하였을 경우, 상대적으로 우수한 성능을 보이나, 입력 발화의 텍스트에 대한 제약으로 인해 활용 분야가 제한될 수 밖에 없다. 두 번째는 앞서 언급했던 텍스트 독립적 화자 인식 시스템으로, 입력 발화에 대한 어휘의 제약이 존재하지 않는 시스템을 말한다. 텍스트 독립적 화자 인식 시스템은 텍스트 의존적 화자 인식 시스템에 비하여 더 일반적인 용도로 사용할 수 있고, 때문에 일반적으로 화자 인식 분야에서 연구하는 대상이 된다. 본 학위 논문은 앞서 언급했던 두 가지 분류 관점에서 텍스트 독립적 화자 검증 시스템을 그 대상으로 한다. 지난 수년간 텍스트 독립적 화자 검증 분야에서는 다양한 통계적 모델 기반의 접근 - 1 -

방식에 대한 연구 결과가 보고되어있다. 생성적 접근 방법에 해당하는 Gaussian mixture model (GMM) universal background model (UBM) [1] 방법은 2000 년대 초반 처음으로 제안되었으며, 이 후 수년간 텍스트 독립적 화자 검증 분야에서 표준적인 방법으로 널리 알려졌다. GMM-UBM 방법에서는 UBM 이라 부르는 화자 독립적 모델을 주어진 입력 발화의 음향 특징을 이용하여 적응시켜 화자 모델을 생성한다. GMM-UBM 방법은 hidden Markov model (HMM) 기반의 다른 방법들에 비해 훈련을 더 빨리 수행할 수 있고, 새로운 화자 모델을 추가하기가 더 쉽다는 장점을 가지고 있다. 한편, 이 GMM 기반 화자 검증 분야에서는 잠재 요소 분석을 통해 화자와 채널의 변동성을 보상하는 것에 대한 흥미로운 연구가 진행되었다 [2]. 이 연구의 핵심 개념은 GMM supervector 라 불리는 거대한 열벡터로, 각각 mixture 의 평균 벡터들이 하나로 쌓여 구성된다. 이 GMM supervector 는 eigenvoice 와 eigenchannel 방법에서 각각 화자와 채널의 변동성을 결정하는 데에 사용된다 [3]. 2000 년대 후반, 텍스트 독립적 화자 검증 분야에서는 support vector machine (SVM)이 새로운 효과적인 방법으로 등장하였다 [4], [5]. 화자 검증과정 자체가 기본적으로 2 클래스 문제이기 때문에 SVM 은 자연스러운 해법을 제공할 수 있다. 또한 SVM 은 입력 특징 벡터 공간에서 SVM 특징 벡터 공간으로 비선형 mapping 을 가능하게 하며, 잠재적으로 무한한 차원 공간에서 선형 분류 기법을 적용하는 것이 가능하다. 이를 가능하게 하는 SVM 의 중요한 특징 가운데 하나가 바로 SVM 특징 벡터의 내적으로 정의되는 커널함수이다. 내적은 해당하는 벡터 공간에서 거리의 기준을 의미하며, SVM 커널함수의 기본적인 목적은 강인한 패턴인식을 위해 적절한 거리의 척도를 가진 벡터 공간으로 mapping 하는 것이다. Campbell 등은 이러한 SVM 을 텍스트 독립적 화자 검증 시스템에 도입할 것을 제안하였다. 이를 가능하게 한 것은 바로 GMM supervector 개념이다. 그들은 SVM 과 GMM supervector 를 - 2 -

결합하여 GMM supervector 를 이용하고 KL divergence 커널함수를 적용한 SVM 분류기 [6] 를 제안하였고, 이 참신한 방법은 텍스트 독립적 화자 검증 분야에서 표준 접근 방식으로 널리 사용되어왔다. GMM supervector 특징은 GMM 과 마찬가지로 생성적 특징을 가지고 있고, 이는 SVM 과 같은 차별적 분류기를 보완할 수 있다는 것이다. 게다가 GMM supervector 는 ASR 문제를 일반적인 패턴인식의 문제로 바꾸어 놓았고, 이는 채널이나 세션의 변동성과 관련된 이슈를 다양한 선형대수적 해법으로 해결할 수 있게 하는 계기가 되었다. 최근에는 요소 분석법 [7], nuisance attribute projection (NAP) [8], discriminating weighted NAP (DWNAP) [9] 등의 채널이나 세션의 변동성을 보상하기 위한 최신 알고리즘들이 제안되었다. 텍스트 독립적 화자 검증 분야에서 해결해야 할 다른 문제로는 적응 기법을 개선하는 것이 있다. GMM supervector 특징 기반의 텍스트 독립적 화자 검증 분류기에서는 특히 입력 발화의 특징을 추출하는 과정이 적응 기법으로 이루어져 있다. 여기서 적응 기법은 더 적은 계산량과 적응 데이터, 즉 주어진 입력 발화에 대한 음향 특징 벡터열, 그리고 자원을 사용하여 더욱 정확한 화자 모델을 추정하는 것을 목표로 한다. 이는 음성 인식 시스템에서 다루는 화자 적응 기법과 부합하는 목표로, 텍스트 독립적 화자 검증 분야에서 다루는 화자 적응 기법들은 음성 인식 시스템 기반 화자 적응 기법에 기초하는 접근 방법들이 많다. Maximum a posteriori (MAP) 적응 방법 또한 음성 인식을 위한 화자 적응 기법 [10] 에 기초한 접근 방법으로, 주어진 화자 독립적 모델을 입력된 발화의 음향 특징 벡터열에 maximum a posteriori 기준을 적용하여 모델 파라미터를 추정한다. MAP 적응 방법은 입력된 음향 특징 벡터열의 길이가 중간 수준 이상일 때 우수한 성능을 나타내며, 텍스트 독립적 화자 검증 분야에서 최근까지 널리 사용되어왔다. Maximum likelihood linear regression (MLLR) 적응 방법 [11] 은 화자 의존적 모델을 기준으로 주어진 특정 화자의 발화에 대한 - 3 -

음향 특징 벡터열을 이용하여 likelihood 를 최대화 하는 변환 행렬을 찾아내는 것을 목표로 하고 있다. MLLR 적응 방법은 MAP 적응 방법에 비하여 상대적으로 주어진 발화의 음향 특징 벡터열의 길이가 짧을 때에 우수한 성능을 나타내는 것으로 알려져 있다. 1.2 학위 논문 연구 동기 텍스트 독립적 화자 검증 분야에서 널리 사용하는 GMM-SVM 시스템에서는 GMM 을 구성하는 mixture 가 일반적으로 500 개 이상으로 이루어져있고, 각각의 평균 벡터는 음향 특징 벡터와 같은 차원에 존재하기 때문에 실제 GMM supervector 의 차수는 일반적으로 10000 차원 이상이 된다. 이와 같은 mixture 의 개수가 많은 상황에서는 입력 발화의 음향 특징 벡터열의 길이가 짧아지면 짧아질수록 MAP 적응 방법으로 정확한 화자 모델을 추정하는 것이 더욱더 어려워진다. Olsen 등 [12] 에 의하면, 이는 적응 잡음 (adaptation noise)에 의한 현상으로 해석할 수 있다. MAP 적응 방법에서는 Bayesian 확률 분포를 사전 확률 분포로 이용한 스무딩으로 추정할 모델 파라미터가 주어진 데이터에 비해 상대적으로 많은 경우에 사전 확률 분포에 가깝게 추정하지만, 이와 같은 작은 변화 또한 여전히 잡음을 생성하는 요인으로 남게 된다. 이를 적응 잡음이라고 하며, 특히 SVM 과 같이 outlier 에 민감한 분류기에서는 이러한 잡음의 영향이 상대적으로 클 수 있다. - 4 -

1.3 관련 연구 Olsen 등 [12] 은 앞 절에서 설명한 적응 잡음으로 인한 화자 적응 기반 음성인식 시스템에서의 성능 열화를 경감시키고, 화자 모델 저장 공간을 줄이기 위해 sparse maximum a posteriori (sparse MAP) 적응 방법을 제안하였다. 이 새로운 적응 방법은 MAP 적응 방법의 최적화 기준에 sparsity 를 유도하는 페널티를 추가하여 두 가지 목표를 모두 달성하였다. 그 결과, 약 89%의 저장공간을 절약할 수 있었으며, 2%의 상대적 word error rate (WER) 성능의 향상을 확인하였다. 1.4 제안하는 방법 본 학위 논문에서는 GMM-SVM 기반 텍스트 독립적 화자 검증 분야에서 적응 방법으로 널리 사용되는 MAP 적응 방법이 야기할 수 있는 적응 잡음으로 인한 성능 열화를 경감시키기 위해 Olsen 등 이 제안한 sparse MAP 적응 방법을 GMM-SVM 기반 화자 검증 시스템에 적용시키기로 하였다. 특히 L0 norm 을 MAP 적응 방법의 최적화 기준에 제약으로 추가하여 적용하였으며, TIMIT 데이터베이스 기반 성능 평가를 통해 기존의 MAP-SVM 시스템 대비 최대 42.6%의 상대적 에러율 감소를 확인하였다. 1.5 개요 이어지는 본 학위 논문의 순서는 다음과 같다. 먼저 제 2 장에서 기존의 MAP-SVM 시스템에 대한 개괄적인 사항과 텍스트 독립적 화자 검증 시스템에 대한 전반적인 내용을 다룰 것이며, 제 3 장에서는 제안하는 sparse MAP-SVM 시스템에 대해 설명을 한 뒤, 제 4 장에서 적응 잡음에 대한 분석을 논하고, 제 5 장에서 컴퓨터 모의 실험을 통해 얻은 성능 평가를 다루고, 마지막으로 제 6 장에서 결론에 대해 토의하고 앞으로의 연구 방향을 제시하는 것으로 본 학위 논문이 구성되어 있다. - 5 -

제 2 장 GMM-SVM 기반 화자 검증 시스템 2006 년 Campbell 등 [6] 이 처음으로 제안한 GMM supervector 를 특징 벡터로 이용하여 SVM 분류기로 텍스트 독립적 화자 검증을 수행하는 시스템은 현재까지 여러 연구에서 우수성을 입증하며 널리 사용되어왔다. GMM-SVM 화자 검증 시스템의 검증 과정은 그림 2.1 과 같다. 검증이 필요한 발화가 시스템에 입력되면, 먼저 음향 특징 벡터를 추출한다. 추출된 음향 특징 벡터열은 MAP 적응 과정에서 UBM 을 기준으로 입력된 발화의 음향 특징을 반영하여 평균 벡터를 적응시킨다. 적응 후 생성된 화자 모델은 적응된 평균 벡터들과 UBM 의 가중치, 그리고 공분산 행렬들로 구성되며, GMM supervector 커널을 통해 SVM 특징 공간으로 사상된다. 이후, 주장되어지는 화자의 SVM 모델, 즉 SVM 특징 공간을 UBM Utterance MFCC Feature Extraction MAP Adaptation Results Claimed Speaker`s SVM Model Classifier μ μ μ μ 1 2 1024 GMM supervector 그림 2.1 GMM-SVM 화자 검증 시스템의 검증 과정. - 6 -

선형적으로 나누는 결정 초평면을 기준으로 입력 발화가 주장하는 화자의 것인지 아닌지를 결정한다. 이번 장에서는 그림 2.1 의 블록도로 나타나는 GMM-SVM 기반 화자 검증 시스템에 대하여 모듈별로 세부 항목을 설명하고 있다. 2.1 음향 특징 추출 본 학위 논문에서는 음향 특징 추출 방법으로 mel-frequency cepstral coefficients (MFCCs) 를 사용하고, 전처리 과정에서 음성 검출 알고리즘으로 음성을 포함하는 프레임을 검출하여 사용하였다. 본 절은 위 두 가지 방법에 대한 개념적인 설명으로 구성되어 있다. 2.1.1 Mel-Frequency Cepstral Coefficients (MFCCs) MFCCs 는 음성신호처리 혹은 음성신호를 활용한 인식분야에서 많이 알려진 특징으로 인간의 인지적 특성을 고려한 특징이라고 볼 수 있다 [13]. MFCCs 는 켑스트럼 영역 (cepstral domain) 에서 추출되는 특징으로 잡음에도 강인한 성질을 가지기 때문에 실제 음성인식 및 화자인식에 널리 사용하는 특징이다. MFCCs 특징 추출과정은 그림 2.2 와 같다. MFCCs 추출 과정은 시간영역의 신호를 켑스트럼 영역으로 변환하여 음성 정보를 추출하고 있다. 켑스트럼 영역에서는 시간영역에서의 컨볼루션 관계인 두 신호를 덧셈으로 표현하는 것이 가능하다는 특징이 있다. 결국 음성신호는 성문 파형 (glottal waveform) 이 성도 필터 (vocal tract filter) 를 통과하여 나온 신호로 이루어져 있고, 이 중 의미 있는 정보인 성도 필터 정보를 켑스트럼 도메인에서 분리하는 것이 가능하게 된다. - 7 -

Speech signal Pre-emphasis Mel-scale Filter Bank Windowing Take Logarithm DCT FFT MFCCs 그림 2.2 MFCCs 특징 추출 과정. 중간 단의 mel-scale filter bank 는 인간의 인지적 특성을 반영하여 비선형적인 대역폭으로 구성된다. mel-scale 과 물리적인 주파수 사이의 관계는 다음과 같다. f Mel ( f ) 2595log10(1 ) 700 (2.1) 물리적인 주파수와 mel-scale 간의 비선형적인 특성을 그래프로 나타내면 그림 2.3 과 같다. - 8 -

Magitude 그림 2.3 Mel-scale 과 frequency scale 의 관계. 식 2-1 을 활용하면 그림 2.4 와 같은 비선형 멜 필터 뱅크를 구성할 수 있다. 1 Magnitude 0 Frequency(Hz) 8000 그림 2.4 비선형 멜 필터 뱅크. - 9 -

Discrete cosine transform (DCT) 과정에서 계수는 전체 24~26 개 중 일반적으로 12 개를 많이 사용한다. 이는 DCT 의 에너지 압축 (energy compaction) 성질에 의해 낮은 차수에 중요한 정보가 대부분 포함되기 때문이다. 이와 같이 멜 필터 뱅크를 구성하여 그림 2.1 의 절차대로 수행하면 MFCCs 특징 벡터를 구할 수 있다. 이후, 화자 검증 성능 향상을 위해 특징 벡터열의 동적 성질을 고려하는 것이 좋다고 알려져 있는데, 델타 MFCCs 를 통해 이와 같은 성질을 반영한다. 델타 MFCCs 는 아래의 식으로 구할 수 있다. C k Ck 2 Ck 2 (2.2) 여기에서 k 는 프레임 번호를 나타내고 Ck 는 MFCC 를 나타낸다. 이와 유사하게 델타 델타 MFCCs 도 아래의 식으로 얻을 수 있다. 본 학위 논문에서는 앞으로 MFCCs 라는 용어를 MFCCs 뿐만 아니라 델타 MFCCs 포함한 특징 벡터로 간주하여 사용할 것이다. 2.1.2 음성 검출 알고리즘 (Voice Activity Detection) 음성 검출 알고리즘은 입력된 음성 신호 중에 음성을 포함하는 프레임을 검출하는 알고리즘을 의미한다. 실제 화자 검증을 수행하는 과정에서 음성이 존재 하지 않는 구간은 필요하지 않고 오히려 성능 열화를 야기할 수 있기 때문에 음성 검출 알고리즘이 화자 검증 성능에 유효한 영향을 미칠 수 있다. 음성 검출 알고리즘에는 다양한 방법이 제안되어 왔는데, 크게 에너지 기반의 음성 검출 (energy based voice activity detection), 통계 모델 기반의 음성 검출 (statistics based voice activity detection) [14] 으로 나눌 수 있다. 본 학위 논문에서는 에너지 기반의 음성 검출 알고리즘을 활용하였으며 그 내용은 다음과 같다. 에너지 기반의 음성 검출 알고리즘은 MFCCs 특징 벡터의 각 프레임에 대한 평균 에너지를 구하여 그 에너지를 바탕으로 음성 및 비음성 구간을 결정한다. 일반적으로 음성 구간이 비음성 구간에 비해 평균 에너지가 크게 나타나기 때문에 문턱값 (threshold) 을 잘 - 10 -

선정하면 음성이 존재하는 프레임을 검출하는데 있어 좋은 결과를 기대할 수 있다 [15]. 2.2 Gaussian Mixture Models 텍스트 독립적 화자 검증 분야에서 화자 모델은 누가 말하고 있는 지에 대한 사전 지식을 배제하면 GMMs 을 따른다고 할 수 있다. 텍스트 의존적 화자 검증 분야와 같은 사전 지식을 포함하는 상황에서는 HMMs 이 화자를 모델링 하는데 적합할 수 있다. 하지만, HMMs 은 일반적인 텍스트 독립적 화자 검증 분야에서 GMMs 에 비해 유리한 점이 없다는 것이 증명되었고, 때문에 계산량이 가벼운 GMMs 이 화자 검증에 더 유용하다고 할 수 있다. d 차원의 음향 특징 벡터 x 에 대해 i 번째 mixture 의 multivariate Gaussian 확률 분포는 다음과 같이 정의 된다. 1 1 T 1 ( x; μ, Σ ) exp ( ) ( ) i i d /2 x μ Σ x μ (2 ) Σ 2 i i i i (2.3) 여기서 μi 는 d x 1 차원의 i 번째 평균 벡터, Σi 는 d x d 차원의 i 번째 공분산 행렬을 의미한다. 이 때, GMM 은 mixture 들의 가중 합으로 다음과 같이 표현할 수 있다. G GMM( x; Ξ) i ( x; μi, Σ i ) (2.4) i1 여기서 Ξ { λ, μ, Σ} 는 GMM 을 구성하는 모든 파라미터의 집합을 의미하며, i 는 i 번째 mixture 의 가중치를 의미하고, 확률의 공리를 만족하기 위해 1 G i i 1이 된다. - 11 -

2.3 Universal Background Model GMM-SVM 기반 텍스트 독립적 화자 검증 시스템에서 GMM supervector 특징을 추출하기 위해서는 UBM 이라 불리는 화자 독립적 GMM 이 필요하다. UBM 은 화자 독립적 음향 특징 벡터의 분포를 표현하기 위해서 충분히 많은 양의 훈련 데이터를 이용하여 추정한 거대한 GMM 을 의미한다. UBM 을 훈련하기 위한 데이터가 주어졌을 때, 크게 두 가지 방법으로 UBM 을 훈련할 수 있다. 가장 단순한 방법은 모든 데이터를 한꺼번에 이용하여 expectation and maximization (EM) 알고리즘으로 훈련하는 것이다. 이럴 경우, 훈련 데이터가 모집단의 분포를 적절하게 따르도록 선택해야 한다. 예를 들어 남성과 여성, 또는 각 지방 방언 등을 고려해 보면, 실제 화자 검증 시스템이 적용되는 영역의 분포에 부합하도록 훈련 데이터를 설정하여야 한다. 다른 방법으로는 남성 집단, 여성 집단과 같이 모집단을 먼저 주가 되는 부분 모집단으로 나누고, 부분 모집단에 대해 각각 EM 알고리즘으로 훈련한 뒤, 나중에 병합하여 최종적인 UBM 을 만드는 방법이 있다. 이 방법은 훈련 데이터의 밸런스가 모집단을 적절하게 반영하지 못하는 경우에도 정확한 UBM 을 추정할 수 있다는 장점이 있다. 또한 [16], [17]에서 다른 방법에 대한 내용을 찾아볼 수 있다. - 12 -

Speech from male speakers Speech from female speakers (a) EM training UBM Speech from male speakers EM training Speech From female speakers EM training Combined Model UBM (b) 그림 2.5 UBM 훈련의 예. (a) 남성 화자와 여성 화자의 데이터를 한꺼번에 UBM 파라미터 추정에 사용 (b) 남성 화자와 여성 화자의 데이터에 대해 각각 추정한 뒤 병합. 2.4 Maximum A Posteriori Adaptation GMM-SVM 기반 텍스트 독립적 화자 검증 시스템에서 사용하는 GMM supervector 특징은 UBM 의 모델 파라미터를 입력된 발화의 음향 특징 벡터열을 이용하여 적응시켜 획득한다. MAP 적응 기법 [10] 은 이 특징 벡터 획득 과정에서 사용된 접근 방법이다. EM 알고리즘과 같은 maximum likelihood 기준의 추정 기법들과는 달리 MAP 적응 기법은 정교한 훈련을 통해 획득한 UBM 을 기준으로, 입력된 발화의 특징 벡터열을 이용하여 추정한 모델 파라미터를 업데이트하여 해당 발화에 대한 화자 의존적 모델을 생성한다. 이와 같은 MAP 적응 기법은 크게 두 가지 단계로 추정 과정이 구성된다. 첫 번째 단계는 GMM 을 추정하는 EM 알고리즘 [18] 의 expectation 과정과 동일하게 입력된 발화의 음향 특징 벡터열의 통계적 정보를 획득하는 것으로 구성되어 있다. 두 번째 단계는 EM - 13 -

알고리즘의 maximization 과정과 조금 차이가 있는데, 여기서는 단순히 likelihood 를 최대화 하는 것이 아니라 데이터에 의존적인 가중치를 기준으로 UBM 의 모델 파라미터와 추정한 통계적 정보의 가중합을 계산하여 발화에 대한 모델 파라미터를 생성한다. 데이터에 의존적인 가중치는 입력된 발화의 음향 특징 벡터열에서 높은 빈도 수로 발견되는 mixture 에 대해 추정한 통계적 정보에 대한 가중치를 높게 하는 방향으로 설계되어 음향 특징 벡터열에서 적게 관찰되는 mixture 에 해대 UBM 의 모델 파라미터를 더 신뢰하게 된다. MAP 적응 기법의 상세한 과정은 다음과 같다. UBM 과 입력된 발화의 음향 특징 벡터열 X { x1,..., x T } 가 주어졌다고 가정하면, 먼저 xt { x1,..., xt} 에 대한 UBM mixture i 의 사후 확률을 다음과 같은 식으로 계산한다. Pi ( x ) t G g 1 ( x ; μ, Σ ) i t i i ( x ; μ, Σ ) g t g g (2.5) 이후, Pi ( x t ) 와 X 를 이용하여 mixture i 의 빈도수와 기대값을 다음과 같은 식으로 구한다. n i T P( i x ) (2.6) t 1 t T 1 E Pi ( x ) x (2.7) i t t ni t 1 이 과정이 EM 알고리즘의 expectation 과정과 동일하다. 마지막으로, 식 2-6 에서 구한 통계적 정보와 UBM 의 평균 벡터를 이용하여 업데이트된 평균 벡터를 다음과 같은 식으로 구한다. μ E (1 ) μ (2.8) MAP old i i i i i 이 때, old μi 는 UBM 의 i 번째 평균 벡터를 의미하고, 통계적 정보와 UBM 의 평균 벡터 - 14 -

사이에 기여도를 결정하는 가중치 i 는 아래 식으로 구할 수 있다. ni i n r i (2.9) 여기서 r 은 relevance factor 로 실험을 통해 결정하며, 일반적으로 8~20 의 값을 사용하고, 텍스트 독립적 화자 검증 시스템의 성능에 미치는 영향이 미미한 것으로 알려져 있다. 본 학위 논문의 모든 실험에서는 r 16 으로 사용하였다. 2.5 GMM Supervectors MAP 적응 기법을 이용하여 입력된 발화의 음향 특징 벡터열로부터 화자 모델을 적응하였다면, 이를 기반으로 GMM supervector 를 생성할 수 있다. GMM supervector 의 개념은 그림 2.6 에 나타내었다. Input Utterance Feature Extraction MAP Adaptation UBM μ μ μ μ 1 2 1024 그림 2.6 GMM supervector 개념도. GMM supervector 는 MAP 적응 기법으로 적응된 평균 벡터를 하나의 열벡터로 연결한 것을 말한다. 이는 입력된 발화의 음향 특징 벡터열을 높은 차원의 벡터 공간으로 사상시키는 것으로 볼 수 있고, 이와 같은 개념은 SVM 열 커널 (sequence kernel) [4] 의 개념과 잘 맞아 떨어진다. 기본적인 열 커널의 개념은 두 발화 utta 와 uttb 를 커널 함수 K( utt, utt ) 를 통해 직접적으로 비교하는 것이다. 이와 같은 커널 함수는 Mercer 조건을 a b - 15 -

만족하기 위해 K utt utt utt utt T ( a, b) ( a ) ( b) 와 같이 표시할 수 있다. 커널 함수를 기준으로 GMM supervector 는 utta 를 ( utt a ) 로 사상시키는 과정의 일부라고 할 수 있다. 본 학위 논문에서는 GMM supervector 커널 함수로 다음과 같은 KL divergence 커널 [6] 을 이용하였다. G a T 1 b a b i μi Σi μi i1 K( utt, utt ) ( ) 1 T 1 2 a 2 b i Σi μi i Σi μi G i1 (2.10) 2.6 Support Vector Machines SVM [19] 은 구별적인 결정 모델을 구현하는 매력적인 수단으로, 상대적으로 적은 훈련 데이터에 대해서도 좋은 검증 성능을 보이며, 훈련 데이터를 이용하여 직접적으로 성능의 한계를 추정할 수 있다. 게다가 등록 화자로부터 상대적으로 제한적인 양의 훈련 데이터 밖에 획득할 수 없는 텍스트 독립적 화자 검증 시스템에서는 그 중요성이 더욱 부각된다. 본 절에서는 SVM 분류기의 훈련 방법과 SVM 분류기의 구분 함수를 개념적인 수준에서 다루기로 한다. 2.6.1 SVM Training SVM 의 훈련 과정은 최대 마진을 가지는 구분 초평면을 찾는 것이다. 완벽하게 분리 가능한 훈련 데이터에 대해서 SVM 은 최적화된 결과를 제공할 수 있다. 최대 마진을 위한 SVM 의 최적화 문제는 다음과 같다. - 16 -

m m 1 Maximize t t K(, ) x x (2.11) i i j i j i j i1 2 i, j1 subject to : 0 for all i 1,..., m and t 0 i m i i (2.12) i1 이 때, m 은 훈련에 참여한 GMM supervector 의 수를 의미한다. 하지만, 선형 분리가 불가능한 즉, outlier 가 존재하는 상황에서는 이와 같은 기준으로는 최적화된 결과를 얻어내기 어렵다. 이러한 문제를 완화시키기 위해서는 부드러운 마진 (soft margin) 을 가지는 최적화 기준으로 SVM 훈련을 하는 것이 좋다고 알려져 있다. 이를 위해 최적화 문제에 대한 outlier 의 기여를 경감시키기 위한 잉여 변수 (slack variable) 를 추가하여 식 2-12 와 2-13 을 정리하면 다음과 같은 최적화 문제로 나타난다. m m 1 Maximize t t K(, ) x x (2.13) i i j i j i j i1 2 i, j1 C subject to : 0 i for all i 1,..., m and t 0 m m i i (2.14) i1 여기서 C 는 최적화 문제에 대해 가지는 마진과 outlier 의 기여도를 조절하는 제어 계수이다. 식 2-14 와 2-15 의 최적화 문제는 일반적인 이차 문제 (quadratic problem) 으로, 해법이 존재하기 때문에 전역 최적값을 찾아낼 수 있으나, 계산량 문제로 인해 sequential minimal optimization (SMO) 알고리즘이 해법으로 널리 사용되고, 본 학위 논문에서도 SMO 알고리즘으로 실험을 진행하였다. 2.6.2 SVM Classifier SVM 은 기본적으로 2 클래스 분류기로, 학습 과정에서 두 클래스의 SVM 특징 벡터들 사이에 최대 마진 (margin) 을 가지는 구분 초평면을 찾는다. 이 규칙으로 인해 SVM 은 - 17 -

Vapnik-Chervonenkis dimension [19] 관점에서 다른 이진 분류기에 비해 우수한 일반화 성질을 나타낸다. GMM supervector x 가 주어졌을 때, SVM 의 구분 함수는 다음과 같이 결정 된다. P f ( x) t K( x, x ) d (2.15) i1 i i i 여기서 xi 는 i 번째 support vector, P 는 support vector 의 개수를 나타낸다. i 는 i 번째 support vector 의 가중치, d 는 초평면의 바이어스를 의미하며, SVM 훈련의 결과로 결정된다. ti {1, 1} 는 해당하는 support vector 의 라벨로, 본 학위 논문에서는 등록 화자와 사칭자에 대해 각각 1 과 -1 을 부여하였다. K(, ) 는 앞서 2.5 절에서 언급한 커널 함수로, KL divergence 커널 함수가 적용되었다. 식 2-11 을 보면, SVM 에서 분류의 기준이 되는 것은 훈련을 통해 찾은 구분 초평면과 입력된 GMM supervector 사이의 거리, 즉 마진이라는 것을 알 수 있다. 2.7 GMM-SVM 기반 화자 검증 시스템의 전체 과정 2.7.1 훈련 과정 전체적인 훈련 과정은 크게 특징 추출과 SVM 훈련으로 나눌 수 있다. 특징 추출에서는 등록된 화자의 훈련용 발화 집합과 사칭자의 훈련용 발화 집합에 대해서 모두 MFCCs 기반 음향 특징 벡터열을 추출한 뒤, UBM 과 함께 MAP 적응 기법으로 화자 의존적 평균 벡터로 적응하고, GMM supervector 를 생성한다. 그 뒤, SVM 훈련을 위해 등록된 화자의 GMM supervector 와 사칭자의 GMM supervector 에 각각 1 과 -1 의 라벨을 붙인 뒤, SVM 훈련을 통해 구분 초평면 파라미터로 이루어진 등록 화자에 대한 모델을 획득한다. 전체적인 과정은 그림 2.7 에 나타내었다. - 18 -

Impostor Training Utterance Registered speaker Training Utterance MFCC Feature Extraction MFCC Feature Extraction MAP Adaptation UBM MAP Adaptation GMM supervector μ μ μ μ 1 2 1024 SVM Training GMM supervector SVM Model for Registered speaker 그림 2.7 GMM-SVM 기반 화자 검증 시스템 훈련 과정. 2.7.2 검증 과정 GMM-SVM 기반 텍스트 독립적 화자 검증 시스템에서는 기본적으로 주장되는 화자 모델을 두고, 주어진 발화와 그 화자 모델의 적합성을 판단한다. 입력 발화가 주어지면, 먼저 MFCCs 기반 음향 특징 벡터열을 추출하고, UBM 과 함께 MAP 적응 기법으로 적응 과정을 수행한다. 적응 결과로 나온 화자 의존적 평균 벡터는 GMM supervector 를 이루고, 이 GMM supervector 가 주장되는 화자의 SVM 모델을 통해 선형 분리되어 결과를 출력한다. 전체적인 과정은 그림 2.8 에 나타내었다. - 19 -

UBM Utterance MFCC Feature Extraction MAP Adaptation Results Claimed Speaker`s SVM Model Classifier μ μ μ μ 1 2 1024 GMM supervector 그림 2.8 GMM-SVM 기반 화자 검증 시스템 검증 과정. - 20 -

제 3 장 Sparse Maximum A Posteriori Adaptation 텍스트 독립적 화자 검증 분야에서 사용하는 MAP 적응 방법은 GMM 모델 파라미터에 대해 conjugate Bayesian 사전 확률 분포를 mixture 가중치와 평균 벡터에 대해 각각 Dirichlet 과 Gaussian 으로 가정한다. UBM 으로부터 시작하여 주어진 발화의 음향 특징 벡터열에 대한 파라미터를 추정해나가는 MAP 적응 방법은 추정해야 하는 파라미터의 수가 입력된 발화의 음향 특징 벡터열의 길이에 비해 상대적으로 매우 클 수 있고, Bayesian 사전 확률 분포의 도입으로 이러한 상황에서 나타날 수 있는 모델 파라미터의 부정확성을 완화시키고 있지만, 모델 파라미터에서 나타날 수 있는 남아있는 작은 변동성은 여전히 잡음을 야기하고 있다. 본 장에서는 이와 같은 MAP 적응 기법이 야기할 수 있는 적응 잡음을 제거하기 위하여 sparse constraint 를 도입한 MAP 적응 기법에 대해 다루고자 한다. 여기에서 도입할 sparse constraint 는 counting norm 이라고도 불리는 l 0 norm 으로, 다음과 같이 표기한다. x (3.1) #{ i: x 0} 0 i 일반적으로, x 0 은 볼록하지 (convex) 않고, 볼록한 최적화 문제의 목적함수에 l0 이 페널티로 추가될 경우 문제는 NP-hard 문제에 속한다고 알려져 있다 [20]. 하지만, sparse MAP 적응 방법에서 다루는 최적화 문제는 다루기 쉽고, 기초적인 분석적 해법이 존재한다. 때문에, 결과로 나타나는 알고리즘은 구현하기 편리하고, 효용성이 높다. 본 학위 논문에서는 Sparse MAP 적응 기법을 전개해 나가는 데에 두 가지 가정을 하였다. 첫 번째는 GMM 의 모든 공분산 행렬이 대각 행렬로 이루어 졌다는 가정이다. 이는 텍스트 독립적 화자 검증 분야에서 일반적으로 사용하는 가정으로, 연구 결과를 통해 - 21 -

일반적으로 대각 행렬로 사용하는 것이 그렇지 않았을 경우에 비하여 성능이 떨어지지 않는 다는 것이 밝혀졌다 [1]. 이와 같은 가정은 다변수 Gaussian 함수를 개개의 단변수 Gaussian 의 조합으로 표현하는 것을 가능하게 한다. 두 번째 가정은 UBM 의 통계적 파라미터 가운데 각 mixture 의 평균 벡터만 적응한다는 것이다. 이는 주어진 입력 발화의 음향 특징 벡터열이 mixture 의 가중치와 공분산 행렬은 바꾸지 않는다는 것을 의미하고, 따라서 sparse constraint 또한 평균 벡터에 대해서만 적용이 되었다. 3.1 Sparse Constraints N 개의 파라미터만을 업데이트할 수 있도록 MAP 최적화 문제에 제약을 가하는 것은 다음과 같은 식으로 나타낼 수 있다. G d MAP old max ( ni r) L( X ij { ij, ij }) (3.2) θ i1 j1 subject to: G d N i1 j1 ij old ij 0 (3.3) 여기서 X { x1,, x T } 는 음향 특징 벡터열, G 는 mixture 의 총 개수, d 는 음향 특징 벡터의 차수, i 와 j 는 각각 mixture 와 음향 특징 벡터 차원의 인덱스이다. 또한 N 은 이전 파라미터와 다르게 바뀌는 파라미터의 수를 의미하고, 1 θ { μ,, μ } 는 적응의 대상이 될 수 있는 모든 파라미터의 집합을 의미하며, L() 은 likelihood 함수를 나타낸다. G 식 3-2 에서 사용하는 MAP μi 은 2.4 절에서 언급했던 적응이 끝난 평균 벡터로, 통계적 정보를 기준으로 다음과 같은 식으로 구할 수 있다. n E r old MAP i ij ij ij (3.4) ni r - 22 -

식 3-2 와 3-3 의 최적화 문제는 목적 함수와 제약 사항이 모두 i 와 j 의 단순 합으로 이루어져 있기 때문에 전역 최적값을 찾아낼 수 있다. 또한 ij old ij 0 는 일 ij old ij 때 0 또는 일 때 1 을 갖는 두 가지의 경우 중 하나에 포함되기 때문에 목적 ij MAP ij 함수를 가장 크게 하는 파라미터부터 순차적으로 N 개를 선택하여 최적 값을 찾아낼 수 있다. 3.2 Lagrangian Solution 식 3-2 와 3-3 의 최적화 문제는 Lagrangian 함수를 이용한 이중 문제 (dual problem) 로 더 효과적인 해법을 도출할 수 있다. 다음과 같은 Lagrangian 함수를 고려해 보자. G d MAP old ( θ ) ( ni r) L( X ij { ij, ij }) i1 j1 G d old ( ij ij N) 0 i1 j1 (3.5) 여기서 는 lagrangian 계수를 의미한다. 식 3-5 는 일반적으로 식 3-2 와 3-3 과 동등함을 보장하지 못한다. 왜냐 하면 duality gap 이 0 이 아닐 수 있기 때문이다. 가 고정되었을 때, 식 3-5 는 i 와 j 에 대해 다음과 같은 독립적인 하위 문제 (sub-problem) 로 완벽하게 분해될 수 있다. max ( n r) L( X {, }) ij MAP old old i ij ij ij ij ij 0 (3.6) 이 때, 고정된 에 대한 최적해는 각각의 하위 문제를 최대화하는 해를 결합하여 얻을 수 있고, 전역 최적해는 에 대해서 양단 검색 (bisection search) 을 통해 찾아낼 수 있다. 식 3-6 을 최대화 하는 과정을 고려해보면, 이 식을 정리하여 다음과 같은 함수를 최소화하는 것이 더 유용하다는 것을 알 수 있다. - 23 -

F( X {, }) 2 L( X {, }) MAP old MAP old old ij ij ij ij ij ij ij ij 0 (3.7) 이 때, 는 식 3-6 을 3-7 로 정리하는 과정에서 에 관련된 변수로, 다음과 같이 표현된다. ni 2 r (3.8) 식 3-7 은 식 3-6 에서와 같이 일 때와 ij old ij 일 때의 두 가지 경우만을 ij MAP ij 가지기 때문에 분석적으로 최적해를 구할 수 있다. 전역 최적해 또한 같은 방법으로 찾아낼 수 있다. 본 학위 논문에서는 식 3-7 의 방법으로 sparse MAP 적응 방법을 구현하였다. 3.3 Sparsity Variations 식 3-7 을 분석해 보면, 의 값에 의해 ij 에 old ij 와 MAP ij 가 반영되는 기여도가 결정된다는 것을 알 수 있다. 이를 확인하기 위해 다음과 같은 sparsity 척도를 도입하여 몇 가지 에 대해 측정하였다. Sparsity # of old (UBM) components # of all components (3.9) 측정에는 TIMIT 데이터베이스에서 1000 개의 발화가 사용되었으며, 1 개의 발화는 1 문장으로 구성되어 비음성구간 포함 평균 약 3 초정도의 길이를 가진다. 음향 특징은 MFCCs 를 사용하였으며, 26 차로 구성하였다. UBM 에 사용된 mixture 의 수 128, 256, 512, 1024 에 대해 조사하였고, 따라서 총 파라미터의 수는 각각 3328, 6656, 13312, 26624 이다. Sparsity 측정 결과를 표 3.1 에 나타내었으며, 측정 단위는 퍼센트이다. - 24 -

표 3.1 에 따른 sparsity. Mixtures 128 256 512 1024 τ=0.01 41.4% 26.3% 15.4% 8.95% 0.1 16.1% 8.26% 3.88% 1.95% 0.5 4.09% 1.67% 0.647% 0.274% 1 1.81% 0.666% 0.242% 0.094% 2 0.734% 0.234% 0.082% 0.029% 5 0.186% 0.050% 0.016% 0.005% 10 0.054% 0.013% 0.004% 0.001% 100 0.000% 0.000% 0.000% 0.000% 표 3.1 을 보면, 동일한 에 대해서 총 파라미터의 수가 증가함에 따라 MAP ij 의 기여도가 증가하는 것을 알 수 있다. 또한 와 sparsity 는 반비례한 관계가 나타나는 것을 확인할 수 있고, 충분히 큰 에 대해서 sparse MAP 적응 방법이 MAP 적응 방법에 수렴하는 것을 확인할 수 있다. - 25 -

제 4 장 적응 잡음 분석 텍스트 독립적 화자 검증 분야에서 널리 사용하는 GMM-SVM 시스템에서는 일반적으로 MAP 적응 방법을 사용하여 GMM supervector 를 생성한다. MAP 적응 방법은 GMM-SVM 기반 화자 검증 시스템에서 요구하는 많은 파라미터에 대해 입력 발화의 음향 특징 벡터열의 길이가 짧아지면 짧아질수록 정확한 화자 모델을 추정하는 것이 더욱더 어려워진다. MAP 적응 방법에서는 Bayesian 확률 분포를 사전 확률 분포로 이용한 스무딩으로 추정할 모델 파라미터가 주어진 데이터에 비해 상대적으로 많은 경우에 사전 확률 분포에 가깝게 추정하지만, 이와 같은 작은 변화 또한 여전히 잡음을 생성하는 요인으로 남게 된다. 이를 적응 잡음이라고 하며, 특히 SVM 과 같이 outlier 에 민감한 분류기에서는 이러한 잡음의 영향이 상대적으로 클 수 있다. 본 장에서는 GMM-SVM 기반 텍스트 독립적 화자 검증 시스템에서 적응 잡음이 야기할 수 있는 영향에 대해 MAP 적응 기법과 sparse MAP 적응 기법을 비교하여 분석하였다. 아울러 편의상 MAP 적응 기법을 이용한 GMM-SVM 기반 텍스트 독립적 화자 검증 시스템은 MAP-SVM 으로, sparse MAP 적응 기법을 이용한 GMM-SVM 기반 텍스트 독립적 화자 검증 시스템은 sparse MAP- SVM 으로 표기한다. - 26 -

4.1 적응 잡음의 특징 MAP-SVM 시스템에서는 평균 벡터만을 조정하고, MAP 적응 기법은 UBM 을 기준으로 입력 발화의 음향 특징 벡터열의 분포를 이용하여 적응을 진행하기 때문에 이 과정에서 발생하는 적응 잡음은 MAP μ 의 분포를 흩뿌리는 (scattering) 영향을 미칠 수 있다. 이와 같은 현상은 적응 잡음의 통계적 특징에 대해 평균을 0 으로, 그리고 분산을 0 이 아닌 값으로 가정할 경우 모델링이 가능하다. 또한, SVM 은 선형 분류기이기 때문에 GMM supervector 에 내재된 적응 잡음의 영향은 SVM 마진의 분포에도 마찬가지로 흩뿌리는 영향으로 나타날 수 있다. 따라서 등록화자와 사칭자에 대한 SVM 마진의 분포를 분석하면 해당하는 화자 검증 시스템에서 적응 잡음이 미치는 영향을 확인할 수 있다. SVM 마진의 분포에 대해서는 Gaussian 분포를 따른다고 가정하였다. 4.2 적응 잡음 분석 방법 적응 잡음이 야기할 수 있는 영향에 대해 MAP 적응 기법과 sparse MAP 적응 기법을 비교하여 분석하기 위한 방법으로 SVM 마진의 분포를 분석하는데 크게 세 가지 척도를 이용하였다. 첫 번째는 등록 화자의 SVM 마진의 분포와 사칭자의 SVM 마진의 분포의 평균 사이의 Euclidian 거리이다. 이 거리가 멀면 멀수록 두 클래스를 구분하는 힘 (discriminative power) 이 크다고 할 수 있다. 두 번째는 등록 화자의 SVM 마진의 분포와 사칭자의 SVM 마진의 분포 각각에 대한 표준편차이다. 표준편차는 작으면 작을수록 두 클래스를 구분하는 힘이 크게 나타난다. 세 번째는 등록 화자의 SVM 마진의 분포와 사칭자의 SVM 마진의 분포 사이의 Bhattacharyya 거리이다. Bhattacharyya 거리는 본질적으로 두 분포 사이의 겹치는 영역 (overlap region) 을 기준으로 삼는 거리 척도이다. 두 분포 사이의 겹치는 영역이 크면 클수록 Bhattacharyya 거리는 가깝게 나타난다. 따라서 등록 화자의 SVM - 27 -

마진의 분포와 사칭자의 SVM 마진의 분포 사이의 Bhattacharyya 거리는 분류기의 구분하는 힘과 직접적으로 관련이 있다고 할 수 있다. 두 Gaussian 분포 사이의 Bhattacharyya 거리를 측정하는 일반적인 식은 다음과 같다. 1 T 1 1 det( Σ) d( 1, 2) ( μ1 μ2) Σ ( μ1 μ2) ln 8 2 det( 1)det( 2) Σ Σ (4.1) 이 때, i 는 μ1 을 평균으로, Σ 1 을 공분산 행렬로 하는 Gaussian 분포를 의미하고, Σ 는 다음 식으로 구한다. Σ 2 1 2 Σ (4.2) Σ 4.3 적응 잡음 분석 4.3.1 분석 설정 MAP-SVM 시스템과 sparse MAP-SVM 시스템의 SVM 마진의 분포에 대해 분석하기 위한 설정은 대부분 5 장의 성능 평가에 사용한 설정과 같다. 데이터베이스는 TIMIT 데이터베이스를 사용하였으며, 등록 화자 100 명, 사칭자 330 명에 대해 각각 10 개의 문장을 사용하였으며, 등록 화자의 10 개의 문장 중 8 개는 SVM 모델 파라미터를 훈련하는데 사용하였으며, 2 개는 SVM 마진의 분포를 추정하는데 사용하였다. 또한 등록 화자의 실험은 5-fold crossvalidation 기법을 사용하여 등록 화자의 SVM 마진의 분포를 추정하는데 총 1000 개의 마진을, 그리고 사칭자의 SVM 마진의 분포를 추정하는데 총 3300 개의 마진을 사용하였다. 음향 특징 추출 과정에서 pre-emphasis 계수를 0.97, frame rate 를 10ms, Hamming - 28 -

window 의 길이를 20ms 로 설정하였으며, 13 차 MFCCs 에 델타 MFCCs 를 포함, 총 26 차 특징 벡터를 추출하였다. 이후 추출한 MFCCs 는 에너지 기반 음성검출 알고리즘으로 음성 구간만을 추려내어 사용하였고, MAP 적응 기법에서 relevance factor 는 16 으로 설정하였다. SVM 커널 함수로는 KL divergence 커널 함수를 사용하였다. 4.3.2 분석 결과 분석 결과는 128, 256, 512, 1024 mixture 에 대해 각각을 다음과 같은 표로 나타내었다. Sparse MAP-SVM 시스템의 경우는, 경향을 살펴보기 위해 몇 가지 에 대해 실험을 진행하였다. 표 4.1 128 mixture 에 대한 MAP-SVM 과 sparse MAP-SVM 마진의 분포 비교. Mixture Std.dev. Euclidian 128 Target Speaker Impostor Bhattacharyya MAP-SVM 0.4021 0.1996 0.0891 0.99 Sparse MAP-SVM τ=0.1 0.0089 0.0030 0.0028 1.18 0.5 0.0642 0.0196 0.0154 1.68 1 0.1166 0.0362 0.0265 1.71 2 0.1812 0.0590 0.0400 1.66 5 0.2773 0.0969 0.0603 1.53-29 -

표 4.2 256 mixture 에 대한 MAP-SVM 과 sparse MAP-SVM 마진의 분포 비교. Mixture Std.dev Euclidian 256 Target Speaker Impostor Bhattacharyya MAP-SVM 0.1660 0.0913 0.0296 1.01 Sparse MAP-SVM τ=0.1 0.0081 0.0026 0.0020 1.55 0.5 0.0432 0.0135 0.0087 1.86 1 0.0685 0.0229 0.0131 1.76 2 0.0968 0.0348 0.0178 1.64 5 0.1302 0.0534 0.0235 1.40 표 4.3 512 mixture 에 대한 MAP-SVM 과 sparse MAP-SVM 마진의 분포 비교. Mixture Std.dev Euclidian 512 Target Speaker Impostor Bhattacharyya MAP-SVM 0.0732 0.0426 0.0124 0.99 Sparse MAP-SVM τ=0.1 0.0058 0.0018 0.0012 1.84 0.5 0.0242 0.0082 0.0044 1.79 1 0.0359 0.0134 0.0062 1.62 2 0.0481 0.0203 0.0081 1.40 5 0.0619 0.0303 0.0105 1.17-30 -

표 4.4 1024 mixture 에 대한 MAP-SVM 과 sparse MAP-SVM 마진의 분포 비교. Mixture Std.dev Euclidian 1024 Target Speaker Impostor Bhattacharyya MAP-SVM 0.0256 0.0162 0.0038 1.00 Sparse MAP-SVM τ=0.1 0.0030 0.0010 0.0006 1.77 0.5 0.0108 0.0041 0.0018 1.59 1 0.0151 0.0065 0.0024 1.41 2 0.0191 0.0093 0.0029 1.24 5 0.0228 0.0128 0.0034 1.09 표 4.1 에서 4.4 까지 결과를 종합해보면, sparse MAP-SVM 시스템에서 등록 화자의 SVM 마진의 분포와 사칭자의 SVM 마진의 분포의 평균 사이의 Euclidian 거리는 가 증가함에 따라 증가하고, MAP-SVM 시스템에서 Euclidian 거리가 항상 최대인 것을 확인할 수 있다. 한편, sparse MAP-SVM 시스템에서 SVM 마진의 분포에 대한 표준편차는 등록 화자와 사칭자에 대해서 모두 가 증가함에 따라 증가하고, 가 최소일 때 최소가 되는 것을 확인할 수 있다. 또한, MAP-SVM 의 표준편차가 가장 크게 나타난 것을 확인할 수 있다. 와 sparsity 가 반비례한 경향을 나타내기 때문에 직관적으로 가 작아지면 작아질수록 적응 잡음을 더욱 효과적으로 제거한다고 볼 수 있고, 이러한 성향은 표준편차에 대한 분석을 토대로 확인할 수 있다. 또한, sparsity 가 본질적으로 모델 파라미터의 변화 정도에 관여하므로 sparsity 효과가 강해지면 강해질수록 실제 두 SVM 마진의 분포의 평균 사이의 Euclidian 거리는 감소한다고 할 수 있다. 두 분포 사이의 겹치는 영역에 대한 거리의 척도인 Bhattacharyya 거리를 분석해보면, 항상 sparse MAP-SVM 시스템이 MAP-SVM 시스템에 비해 더 큰 경향을 보이는 것을 확인할 수 있다. 이러한 분석 결과는 sparse MAP-SVM 시스템이 MAP-SVM 시스템에 비해 - 31 -

SVM Margin 더 큰 구분하는 힘을 가지고 있다고 볼 수 있고, 앞서 분석한 평균 사이의 Euclidian 거리와 표준편차의 특징을 종합하여 적응 잡음을 효과적으로 조절하는 것으로 볼 수 있다. 또한, sparse MAP-SVM 시스템에 대해 mixture 각각에 대한 Bhattacharyya 거리의 경향을 살펴보면, mixture 가 커짐에 따라 Bhattacharyya 거리가 최대가 되는 값이 커지는 것을 볼 수 있는데, 이러한 결과는 다음 장에서 다룰 성능 평가에서도 유사한 경향으로 나타나는 것을 확인할 수 있다. -1.01-1.01-1.00-1.0010-1.0001-1.00-0.99-0.9893-0.99-0.98-0.98-0.9754-0.97-0.97-0.96-0.96-0.95 MAP-SVM Target MAP-SVM Impostor Sparse MAP- SVM Target Sparse MAP- SVM Impostor 그림 4.1 MAP-SVM 과 sparse MAP-SVM 마진의 분포 비교 (1024 mixtures, τ=0.5). - 32 -

제 5 장 성능 평가 5.1 데이터베이스 설정 본 학위 논문의 성능을 평가하기 위해 사용한 데이터베이스는 TIMIT 데이터베이스 [21] 이다. TIMIT 데이터베이스는 16kHz 의 sampling rate 와 16-bit 의 분해능 (resolution) 을 가지며, 630 명의 화자에 대해 각각 10 개의 발화를 발성하여 총 6300 개의 발화로 이루어져있다. 각 발화는 1 문장으로 구성되며, 1 문장의 평균적인 길이는 대략 3 초이다. 이 중, UBM 을 추정하는데 80 명의 남성 화자와 80 명의 여성 화자를 이용하였으며, 각각 8 문장, 총 1280 문장으로 128, 256, 512, 1024 mixture 에 대해 모델 파라미터를 추정하였다. SVM 훈련 과정에서 사칭자 클래스를 구성하는 배경 화자 (background speakers) 는 총 40 명 화자의 400 문장을 사용하였다. 실험에는 50 명의 남성 화자와 50 명의 여성화자로 구성된 총 100 명의 등록화자 각각의 10 문장에 대해서 8 문장을 훈련에, 2 문장을 테스트에 사용하였고, 5-fold crossvalidation 을 구성하여 총 1000 문장으로 등록화자에 대한 검증 실험을 진행하였다. 사칭자에 대해서는 330 명의 화자로 구성된 총 3300 문장으로 검증 실험을 진행 하였다. GMM supervector 는 입력된 1 문장의 발화를 단위로 생성하였으며, 총 검증 횟수는 등록화자에 대해서 1000 회, 사칭자에 대해서 3300 회이다. - 33 -

5.2 성능 평가 구성 설정 음향 특징 추출 과정에서 pre-emphasis 계수를 0.97, frame rate 를 10ms, Hamming window 의 길이를 20ms 로 설정하였으며, 13 차 MFCCs 에 델타 MFCCs 를 포함, 총 26 차 특징 벡터를 추출하였다. 이후 추출한 MFCCs 는 에너지 기반 음성검출 알고리즘으로 음성 구간만을 추려내어 사용하였고, MAP 적응 기법에서 relevance factor 는 16 으로 설정하였다. SVM 커널 함수로는 KL divergence 커널 함수를 사용하였다. 성능 평가 기준은 equal error rate (EER)과 minimum decision cost function (Min DCF), 그리고 detection error tradeoff (DET) 곡선을 사용하였으며, Min DCF 는 다음과 같이 주어진다. DCF C P(target) P(miss target) C P(nontarget) P(FA nontarget) (5.1) miss FA 여기서 target 은 등록 화자를, nontarget 은 사칭자를 의미하며, FA 는 false alarm 을 나타낸다. 식 5-1 의 세부적인 설정은 NIST speaker recognition evaluation plan [22] 에 준하여 Cmiss 10, CFA 1, P(target) 0.01 로 설정하였다. - 34 -

5.3 성능 평가 결과 5.3.1 Equal Error Rate MAP-SVM 시스템과 몇 가지 에 따른 sparse MAP-SVM 시스템의 EER 성능을 128, 256, 512, 1024 mixture 에 대해 아래 표 5.1 에 나타내었다. 표 5.1 MAP-SVM 과 sparse MAP-SVM 의 EER 성능. Mixtures 128 256 512 1024 MAP-SVM 2.50% 2.61% 2.58% 2.70% Sparse MAP-SVM =0.001 27.36% 18.90% 11.39% 8.90% 0.01 21.50% 11.70% 6.90% 5.80% 0.1 6.90% 3.30% 2.18% 1.79% 0.5 2.90% 1.80% 1.48% 1.79% 1 2.60% 1.90% 1.50% 2.00% 2 2.09% 1.90% 1.70% 2.39% 5 2.00% 2.20% 2.09% 2.39% 10 2.20% 2.50% 2.45% 2.50% 100 2.50% 2.60% 2.58% 2.70% EER 성능 평가를 기준으로, MAP-SVM 시스템 대비 sparse MAP-SVM 시스템이 512 mixture 와 0.5 에서 최대 42.6%의 상대적 에러율 감소를 보이는 것으로 나타났다. 최대 성능 역시 마찬가지로 sparse MAP-SVM 시스템 중 512 mixture 와 0.5 나타난 것을 확인할 수 있다. 에서 1.48%로 - 35 -

5.3.2 Minimum Decision Cost Function MAP-SVM 시스템과 몇 가지 에 따른 sparse MAP-SVM 시스템의 Min DCF 성능을 128, 256, 512, 1024 mixture 에 대해 아래 표 5.2 에 나타내었다. Min DCF 성능 평가는 퍼센트와 동등한 수준을 유지하기 위해 Min DCF*100 을 기준으로 하였다. 표 5.2 MAP-SVM 과 sparse MAP-SVM 의 DCF*100 성능. Mixtures 128 256 512 1024 MAP-SVM 2.22 1.65 2.06 1.91 Sparse MAP-SVM τ=0.001 9.58 7.46 5.46 4.58 0.01 8.46 6.00 3.51 3.21 0.1 3.22 2.14 1.30 1.44 0.5 1.79 1.15 1.29 1.14 1 1.43 1.17 1.36 1.48 2 1.55 1.37 1.21 1.58 5 1.54 1.50 1.57 1.60 10 1.65 1.54 1.86 1.92 100 2.21 1.65 2.06 1.91 DCF*100 성능 평가를 기준으로, MAP-SVM 시스템 대비 sparse MAP-SVM 시스템이 512 mixture 와 2 에서 최대 41.3%의 상대적 에러율 감소를 보이는 것으로 나타났다. 최대 성능 역시 마찬가지로 sparse MAP-SVM 시스템 중 1024 mixture 와 0.5 에서 1.14 로 나타난 것을 확인할 수 있다. - 36 -

5.3.3 Detection Error Tradeoff 곡선 MAP-SVM 시스템과 sparse MAP-SVM 시스템의 DET 곡선을 각각의 mixture 에 대해 EER 기준으로 최대 성능이 나타난 경우를 기준으로 비교하여 그림 5.1 부터 그림 5.4 에 나타내었다. 그림 5.1 128 mixture 에 대한 MAP-SVM 과 5 일 때 sparse MAP-SVM 의 DET 곡선. - 37 -

그림 5.2 256 mixture 에 대한 MAP-SVM 과 0.5 일 때 sparse MAP-SVM 의 DET 곡선. 그림 5.3 512 mixture 에 대한 MAP-SVM 과 0.5 일 때 sparse MAP-SVM 의 DET 곡선. - 38 -

그림 5.4 1024 mixture 에 대한 MAP-SVM 과 0.5 일 때 sparse MAP-SVM 의 DET 곡선. DET 곡선의 성능은 MAP-SVM 에 비하여 sparse MAP-SVM 에서 일관되게 향상되는 경향을 보였으며, 특정 지점에 관계 없이 전반적인 오류가 감소되었음을 확인할 수 있었다. - 39 -

제 6 장 결 론 지금까지 본 학위 논문에서는 텍스트 독립적 화자 검증 분야에서 널리 사용되는 GMM-SVM 시스템의 성능 향상을 위해 sparse MAP 적응 방법을 도입하고, 성능 평가를 통해 기존의 MAP 적응 방법 기반의 GMM-SVM 시스템에 비해 에러율이 감소되는 것을 확인하였다. MAP 적응 방법은 적응해야 할 파라미터의 수가 주어진 적응 데이터의 양에 비해 상대적으로 많을 경우, 적응 잡음을 야기할 수 있다. 이와 같은 적응 잡음은 outlier 에 민감한 SVM 시스템의 특성상 성능에 있어서 유효한 열화를 가져올 수 있다. 따라서 기존에 음성인식 시스템의 화자 적응 분야에서 제안되었던 sparse MAP 적응 방법을 도입하여 이와 같은 성능 열화를 완화시키고자 하였고, 실제로 SVM 마진의 분포에 대한 분석을 통해 이와 같은 현상을 확인할 수 있었다. 본 학위 논문에서 제안하는 sparse MAP-SVM 화자 검증 시스템은 성능 평가를 통해 기존의 MAP-SVM 화자 검증 시스템에 비해 EER 기준 최대 약 42%의 상대적 에러율 감소를 보이는 것을 확인하였고, Min DCF 및 DET 곡선과 같은 다른 성능 평가 과정에서도 일관된 성능 향상을 확인할 수 있었다. Sparse MAP-SVM 기반 화자 검증 시스템에서는 성능 평가 결과로 볼 때, 가 검증 성능에 미치는 영향이 유효하다고 볼 수 있다. 따라서 적절한 를 설정하는 것이 시스템 구현에 있어서 중요하고, 이는 4 장에서 살펴본 Bhattacharyya 거리를 기준으로 결정할 수 있을 것이다. 이에 대한 부분은 연구가 보다 깊이 진행되어야 할 것으로, 향후 과제로 남겨 놓는다. 아울러 Olsen 등은 [12] 에서 L1 norm constraint 를 적용한 sparse MAP 적응 방법 또한 제안했는데, 이 방법을 GMM-SVM 기반 텍스트 독립적 화자 인식 시스템에 적용하여 성능을 비교하는 것 또한 향후 과제로서 의미 있는 주제일 것이다. - 40 -

참 고 문 헌 [1] D. A. Reynolds, T. F. Quatieri, and R. Dunn, Speaker verification using adapted Gaussian mixture models, Dig. Signal Process., vol. 10, pp. 19-41, 2000. [2] P. Kenny and P. Dumouchel, Experiments in speaker verification using factor analysis likelihood ratios, in Proc. Odyssey, 2004, pp. 219 226. [3] P. Kenny, G. Boulianne, and P. Dumouchel, Eigenvoice modeling with sparse training data, IEEE Trans. Speech Audio Process,, vol. 13, no. 3, pp. 345 354, May 2005. [4] W. M. Campbell, Generalized linear discriminant sequence kernels for speaker recognition, in Proc. Int. Conf. Acoustics, Speech, Signal Processing, 2002, pp. 161 164. [5] V.Wan and S. Renals, Speaker verification using sequence discriminant support vector machines, IEEE Trans. Speech Audio Processing, vol. 13, no. 2, pp. 203 210, Mar. 2005. [6] W. M. Campbell, D. E. Sturim, and D. A. Reynolds, Support vector machines using GMM supervectors for speaker verification, IEEE Signal Process. Lett., vol. 13, pp. 308-311, May 2006. [7] P. Kenny, G. Boulianne, P. Ouellet, and P. Dumouchel, Joint factor analysis versus eigenchannels in speaker recognition, IEEE Trans., Audio, Speech, and Lang. Process., vol. 15, pp. 1435-1447, May 2007. [8] A. Solomonoff and W. M. Campbell, Channel compensation for SVM speaker recognition, in Proc. Odyssey, Speaker Lang. Recognition Workshop, pp. 57-62, 2004. [9] H. Seo, C. S. Jung, and H. G. Kang, Robust session variability compensation for SVM speaker verification, IEEE Trans., Audio, Speech, and Lang. Process., vol. 19, pp. 1631-1641, August 2011. [10] J. L. Gauvain and C. H. Lee, Maximum a posteriori estimation for multivariate gaussian mixture observations of Markov chains, IEEE Transactions on Speech and Audio Processing, vol. 2, no. 2, pp. 291 298, 1994. [11] M. Gales and P. Woodland, Mean and variance adaptation within the MLLR framework, Computer Speech and Language, vol. 10, no. 4, pp. 249 264, 1996. [12] P. A. Olsen, J. Huang, V. Goel, S. J. Rennie, Sparse maximum a posteriori adaptation, in Proc. IEEE Workshop on Automatic Speech Recognition and Understanding, pp. 53-58, 2011. [13] X. Huang, A. Acero, and H. Hon. (2001). Spoken language processing, Prentice-Hall. 316 pages. - 41 -

[14] J. Sohn, N. S. Kim, and W. Sung, A statistical model-based voice activity detection, IEEE Signal Process. Lett., vol. 16, no. 1, pp. 1-3, Jan. 1999. [15] S. V. Gerven, F. Xie, A Comparative Study of Speech Detection Methods, in Proc. Eurospeech, vol. 3. pp. 1095-1098, 1997. [16] A. E. Rosenberg and S. Parthasarathy, Speaker Background Models for Connected Digit Password Speaker Verification, in Proc. ICASSP, pp. 81-84, 1996. [17] T. Isobe and J. Takahashi, Text-Independent Speaker Verification Using Virtual Speaker Based Cohort Normalization, in Proc. ECSCT, pp. 987-990, 1999. [18] C. M. Bishop. (2006). Pattern Recognition and Machine Learning, Springer, 423 pages. [19] B. Scholkopf and A. J. Smola. (2002). Learning with Kernels, The MIT Press, 187 pages. [20] B. Natarajan, Sparse approximate solutions to linear systems, SIAM journal on computing, vol. 24, p. 227, 1995. [21] J. Garofolo, L. Lamel, W. Fisher, J. Fiscus, D. Pallett, and N. Dahlgren, Darpa TIMIT: acousticphonetic continuous speech corpus CD-ROM, LDC catalog number LDC93s1, 1993. [22] The NIST Year 2005 Speaker Recognition Evaluation Plan. [Online]. Available: http://www.nist.gov/speech/tests/spk/2005/index.htm. - 42 -