2007 년 11 월전자공학회논문지제 44 권 SP 편제 6 호 111 논문 2007-44SP-6-13 복소라플라시안확률밀도함수에기반한음성향상기법 (Noisy Speech Enhancement Based on Complex Laplacian Probability Density Function ) 박윤식 *, 조규행 *, 장준혁 ** * (Yun-Sik Park, Q-Haing Jo, and Joon-Hyuk Chang ) 요 약 본논문에서는복소라플라시안확률밀도함수 (PDF, Probability Density Function) 에기반한새로운음성향상기법을제시한다. 적용된복소라플라시안 PDF 가기존의가우시안 PDF 보다오염된음성분포를정확하게표현한다는것을 Goodness-of-Fit (GOF) 테스트로확인하였고, 음성향상알고리즘의음성부재확률을위해우도비 (LR, Likelihood Ratio) 를적용하였다. 제시된알고리즘의성능은객관적테스트에의해평가하였고기존의가우시안 PDF 보다개선된음성향상결과를나타내었다. Abstract This paper presents a novel approach to speech enhancement based on a complex Laplacian probability density function (pdf). With a use of goodness-of-fit (GOF) test, we show that the complex Laplacian pdf is more suitable to describe the conventional Gaussian pdf. The likelihood ratio (LR) is applied to derive the speech absence probability in the speech enhancement algorithm. The performance of the proposed algorithm is evaluated by the objective test and yields better results compared with the conventional Gaussian pdf-based scheme. Keywords : Complex Laplacian, Speech enhancement, PDF, LR Ⅰ. 서론 음성향상기법은가변전송률의음성부호화나자동음성인식에서주요한요소이다 [1~14]. 최근에는 soft decision이적용된잡음제거이득이초기의 VAD (Voice Activity Detector) 에의해각프레임을음성 / 비음성구분하는 hard decision보다향상된성능을보이면서음성향상기법에 soft decision을적용하여음성향상성능을개선하려는많은시도가이루어지고있다 [2, 11]. 또 * 학생회원, ** 정회원, 인하대학교전자전기공학부 (School of Electronic and Electrical Engineering, Inha University) 본연구는정보통신부및정보통신연구진흥원의 IT 신성장동력핵심기술개발사업의일환으로수행하였음. [2005-S096-02, 신체장애인을위한착용형단말인터페이스기술 ] 접수일자 : 2007 년 4 월 26 일, 수정완료일 : 2007 년 10 월 24 일 한이산퓨리에변환 (DFT, Discrete Fourier Transform) 은오염된음성향상을위해가장널리사용되고있는방법으로써깨끗한음성과잡음스펙트럼이복소가우시안 (Complex Gaussian) 확률밀도함수 (PDF, Probability Density Function) 를따른다고가정하고있다. 하지만최근, 깨끗한음성과잡음의 DFT 계수가가우시안 PDF 보다감마 (Gamma) 혹은라플라시안 (Laplacian) PDF에의해보다정확히표현된다고확인되었으며, 복소라플라시안 PDF는다양한잡음환경에서 VAD를위해오염된음성의 DFT 계수의 PDF 로사용되었다 [3]. 본논문에서는음성향상을위해 DFT 영역에서복소라플라시안 PDF를제시하였다. 다양한잡음이부가된음성신호에 GOF (Goodness-of-Fit) 테스트를실시하여기존의 PDF와라플라시안 PDF를비교하였으며, 이러한테스트를통하여실험적인오염음성신호의분 (727)
112 복소라플라시안확률밀도함수에기반한음성향상기법박윤식외 포가가우시안 PDF보다라플라시안 PDF에더가까운것을확인하였다. 따라서본논문은이러한통계적분석을기반하여, 복소라플라시안 PDF를전역음성부재확률 (GSAP, Global Speech Absence Probability) 을구하기위해적용하였으며, 이러한 GSAP가잡음제거이득의수정과잡음스펙트럼추정에이용되는새로운방법을제안하였다. 제안된알고리즘의성능은 ITU-T P.862 Perceptual Evaluation of Speech Quality (PESQ) 에의해평가했고 [1] 에서사용된방법보다향상된결과를보였다. Ⅱ. 통계적분석 잡음신호 n 이깨끗한음성신호 s에인가되면오염된음성신호 x가만들어지고, 음성과비음성일때의각각의가정에대하여다음과같이표현할수있다. (1) (2) 와, 는각각오염된음성과잡음, 깨끗한음성신호의 DFT 계수를나타내고, 은주파수 bin의수를의미한다. 계수의통계적모델은적절한 DFT 계수분포를명시해줌으로써이용될수있다. 본논문에서는적용될분포를위해서로다른두개의 PDF를고려하였다. 첫번째는음성분석에서 DFT 계수분포를나타내기위해가장많이사용되는기존의복소가우시안 PDF이다 [1, 9~10]. 음성향상을위한적절한통계적모델을적용하기위해서는주어진오염된음성스펙트럼에가까운모델을선택해야한다. 이를위해다양한잡음조건에서가정 과 따라오염된음성스펙트럼의통계적적합도테스트가수행되었다. 적합도테스트로는일련의깨끗한음성분포로부터최소평균제곱오차추정치를구하는 [21] 에서제안된방법과는다르게, 일반적으로 GOF 로알려진 Kolmogorov-Smirnov (KS) 테스트를선택하여각각의통계적가정하에서신뢰할수있는분석을도출하였다. 가오염된음성의 DFT 계수를나타내는벡터라면, KS 테스트는실험적누적분포함수 (CDF, Cumulative Distribution Function) 를주어진분포함수 와비교한다. 실험적 CDF 는다음과같이 [15] 에서정의된다. (3), 은데이터 의차수통계이다. 차수통계를구하기위해 의성분들을분류배열하면 는가장작고 는가장큰성분이된다 [15]. 잡음환경의시뮬레이션을위해각각 4명의서로다른남성, 여성으로부터추출한 64초의깨끗한음성데이터에 NOISEX-92 데이터베이스의 white noise와 vehicle noise를 Signal-to-Noise Ratio (SNR) 10 db로부가하였다. 이러한샘플데이터를기반으로샘플의평균, 분산을계산하여라플라시안과가우시안분포에각각적용하였다. 그림 1은실험적인 CDF와제시된함수를비교한것이며 white noise와 vehicle noise 조건에서라플라시안의 CDF curve가가우시안의 CDF curve보다실험적 CDF에더근접해있는것을보여주고있다. 실험적인 CDF와제시된분포간의거리측정을위해 KS 통계 를사용하였으며 [15], [16] 다음과같이정의되어진다. (4) i 그림 1. H 1 의경우에오염된음성스펙트럼 ( 실수부 ) 에 대한라플라시안과가우시안의 CDF 비교 (a) white noise (SNR=10 db) (b) vehicular noise (SNR=10 db) Fig. 1. Comparison of Laplacian and Gaussian CDF of noisy speech spectra (real part) at H 1 (a) white noise (SNR=10 db) (b) vehicular noise (SNR=10 db). (728)
2007 년 11 월전자공학회논문지제 44 권 SP 편제 6 호 113 표 1. 다양한잡음환경에서오염된음성의 DFT 계수에대한 Kolmogorov-Smirnov 테스트결과비교 (와 은각각가우시안과라플라시안분포를의미 ) Table 1. Results of Kolmogorov-Smirnov test for the DFT coefficients of noisy speech conditioned on various noise environments. G and L denotes the Gaussian and Laplacian distribution, respectively. noise white vehicle babble SNR(dB) 5 10 15 5 10 15 5 10 15 0.043 0.078 0.129 0.211 0.223 0.231 0.129 0.165 0.198 0.031 0.025 0.068 0.164 0.177 0.186 0.071 0.107 0.145 0.044 0.081 0.134 0.214 0.225 0.232 0.142 0.173 0.203 0.028 0.026 0.073 0.164 0.178 0.187 0.080 0.116 0.149 0.045 0.052 0.063 0.238 0.270 0.311 0.149 0.127 0.136 0.024 0.024 0.023 0.189 0.237 0.277 0.088 0.167 0.078 0.051 0.059 0.071 0.243 0.275 0.325 0.153 0.127 0.134 0.019 0.016 0.021 0.243 0.237 0.278 0.093 0.067 0.075 거리는샘플포인트 에서평가된 와 사이의최대차이를의미하며, 여러분포에대한데이터를테스트할때, 가장작은 를만드는 PDF가주어진데이터에가장적합한분포를의미한다. 표 1은테스트에사용된모든잡음환경에서라플라시안분포가가우시안분포보다작은 KS 통계 T를갖는것을보여주고있다. 그러므로오염된음성의 DFT 계수에대한 PDF에는가우시안보다는라플라시안분포가더적합하다는결론을내릴수있다. Ⅲ. 복소라플라시안 PDF 를적용한개선된음성향상 가우시안 PDF를적용하면아래와같이두가지경우로오염된음성스펙트럼성분을표현할수있다. (5) (6), 와 는각각 N k 와 S k 의분산을의미한다 [1]. 과 을각각 DFT 계수 의실수와허수부라고정의하면복소라플라시안 PDF에따라 과 는다음과같은분포를갖는다고가정할수있다. (7) (8) 는 의분산이고, 의실수와허수부가서로독립이라고가정하면 [17] 는아래와같다. (9) (10) 실수와허수부가독립이라는가정을증명하기위해 DFT 계수의실수와허수부에대해 [21] 과유사한과정의산점도 (scatter plots) 를평가하면, 실수와허수부의상관관계는약하고독립이라는가정에의해발생되는에러는무시할수있을정도로작다는결론을내릴수있다. 식 (10) 에서오염된음성의 DFT 계수분포는다음과같이음성 과비음성 경우로표현된다. 입력신호 의경우에 GSAP 는다음과같다. (11) (12) (13) (729)
114 복소라플라시안확률밀도함수에기반한음성향상기법박윤식외 는음성부재에대한사전확률 (a priori probability) 이다. 각주파수의스펙트럼성분은통계적으로독립이라고가정하면아래와같이표현될수있다. (14) (15) 이고, Λ k (X k (t)) 는 k번째주파수성분의우도비로다음과같다 [11]. (16) 이다. Ⅳ. 음성향상 1. 잡음과음성의전력추정 (17) (18) 식 (14) 의 global soft decision의성능향상여부는일반적으로깨끗한음성전력 와배경잡음전력 의정확한추정이중요한요소로작용한다 [23]. 대체적으로 와 가정상상태라는가정하에 와 를추정하기위해이와같은전력스펙트럼에 long-term smoothing을적용한다. 따라서 와 을각각 과 의추정치라 고한다면아래와같다. (19) 과 는 smoothing 파라미터이다. 식 (19) 는 와 가입력신호 X(t) 에의존하지않는일종의관련된파라미터에의한예측된추정치라는것을내포하고있다. 식 (19) 의 와 에적용한통계적가정에기반하여아래와같은식을도출할수있다. (20) 이고 (21) (22) 이다. 식 (21) 은잡음전력스펙트럼의추정치가비음성구간뿐아니라음성구간에서도갱신되는특징을보여주고있다. 이것은일반적으로비음성구간에서만잡음전력을갱신해주는기존의방법과는구별되는점이다. 그러나부정확한잡음전력이음성의왜곡을크게발생시킬수있기때문에 SAP가 threshold 보다클경우에만 을갱신되도록하였으며, 본논문의실험에서는 로설정하였다. 2. GSAP 가결합된잡음제거이득 는번째프레임에서추정된깨끗한음성의스펙트럼을의미한다. 기존의일반적인스펙트럼향상기법은오염된음성신호의각각의스펙트럼성분에특정잡음제거이득을적용함으로서추정된깨끗한음성신호 S( t) 를얻었다. 본논문에서는잡음제거이득을구하는여러방법중에서음성향상후음질을저해하는뮤지컬잡음을제거하는데우수한성능을보이는 Ephraim 과 Malah [9] 에의해제안된 EMSR (730)
2007 년 11 월전자공학회논문지제 44 권 SP 편제 6 호 115 (Ephraim and Malah Suppression Rule) 을선택하였으며아래와같다. (23) 와 는각각 a priori SNR과 a posteriori SNR을나타내며 [1], 식 (23) 의잡음제거이득 은아래식과같다. (24) (25) 이며, 식 (25) 에서 는각각 0차, 1차수정베셀 (modified Bessel) 함수를의미한다. EMSR에서지배적파라미터로사용되는 a priori SNR을추정하는 decision-directed 방법은 musical noise를제거하는데우수한성능을가지고있다 [20]. 와 가각각 γ k (t) 와 의추정치라고하면 decision-directed 방법은다음과같다. (26) 는가중치파라미터로 α=0.99, P[x] 는 이고, 을의미하는연산 자이다. 식 (23) 에서 는입력된오염음성의스펙트럼에 서잡음이제거된스펙트럼추정치이다. 음성 / 비음성의 경우를고려한 soft decision이적용된다면아래와같 이나타낼수있다. (27) 식 (27) 에의해서기존의식 (23) 의잡음제거이득을수 정하면 soft decision이적용된잡음제거이득 는 다음과같다. (28) Ⅴ. 실험 본논문에서는제안된복소라플라시안 PDF 기반의 soft decision이적용된음성향상알고리즘의성능평가를위해다양한잡음조건에서객관적인테스트를수행하였다. 각각 5명의남성과여성화자가발음하도록한 10개의문장이테스트에사용되었으며 NOISEX-92 데이터베이스의 white noise, babble noise, vehicle noise가다양한 SNR로깨끗한음성에부가되었다. 표 2는 ITU-T P.862 PESQ에의한개관적인수치들을보여주고있다. PESQ 결과로부터대부분의잡음환경에서제안된복소라플라시안알고리즘이기존의방법들보다향상된결과를보였다 [1]. 표 2. 제안된음성향상알고리즘 (Proposed) 과기존의SEGSD 기법의 PESQ 수치비교 Table 2. PESQ result for the proposed enhancement algorithm (Proposed) and conventional SEGSD technique. noise white vehicle babble method SNR(dB) 5 10 15 none 1.50 1.80 2.61 SEGSD 1.71 1.85 2.81 Proposed 1.81 1.90 2.87 none 2.37 2.50 2.64 SEGSD 2.60 2.65 2.81 Proposed 2.68 2.71 2.84 none 1.81 2.03 2.21 SEGSD 1.97 2.22 2.36 Proposed 2.09 2.30 2.44 Ⅵ. 결론 본논문에서는복소라플라시안 PDF를이용한 soft decision기반의음성향상알고리즘을제안하였다. 통계적모델에대한다양한연구와실험이복소라플라시안 PDF 가오염된음성스펙트럼분포를표현하기에우수한모델로사용될수있다는것을보여주었다. 제안된알고리즘의성능은 PESQ 평가를통하여기존의방법들 [1] 보다향상된결과를보였다. 참고문헌 [1] N. S. Kim and J.-H. Chang, Spectral enhancement based on global soft decision, (731)
116 복소라플라시안확률밀도함수에기반한음성향상기법박윤식외 IEEE Signal Processing Letters, vol. 7, no. 5, pp. 108-110, May 2000. [2] J.-H. Chang and N. S. Kim, Speech enhancement : new approaches to soft decision, em IEICE Trans. Inf. and Syst., vol. 27, E84-D, pp. 1231-1240, Sep. 2001. [3] J.-H. Chang and N. S. Kim, Voice activity detection based on complex Laplacian model, Electronics Letters, vol. 39, no. 7, pp. 632-634, Apr. 2003. [4] J.-H. Chang, N. S. Kim and S. K. Mitra, Voice activity detection based on multiple statistical models, IEEE Trans. Signal Processing, June 2006. [5] J.-H. Chang and N. S. Kim, A new structural approach in system identification with generalized analysis-by-synthesis for Robust Speech Coding, IEEE Trans. Speech and Audio Processing, vol. 14, no. 3, pp. 747-751, May 2006 [6] J.-H. Chang, Perceptual weighting filter for robust speech modification, Signal Processing, vol. 86, Issue 5, pp. 1089-1093, May 2006. [7] J.-H. Chang, Warped discrete cosine transform -based noisy speech enhancement, IEEE Trans. Circuit and Systems II, vol. 52, issue 9, pp. 535-539, Sept. 2005. [8] J.-H. Chang and N. S. Kim, Distorted speech rejection for automatic speech recogntion in wireless communication, IEICE Trans. Info. and Syst., vol. E87-D, no. 7, pp. 1978-1981, July 2004. [9] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, no. 6, pp. 1109-1121, Dec. 1984. [10] J. Sohn and W. Sung, A voice activity detector employing soft decision based noise spectrum adaptation, in Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, pp. 365-368, 1998. [11] J. Sohn, N. S. Kim and W. Sung, A statistical model-based voice activity detection, IEEE Signal Processing Letters, vol. 6, no. 1, pp. 1-3, Jan. 1999. [12] I. Cohen and B. Berdugo, Speech enhancement for nonstationary noise environments, Signal Processing, vol 81, pp. 2403-2418, Nov. 2001. [13] I. Cohen and B. Berdugo, Noise estimation by minima controlled recursive averaging for robust speech enhancement, IEEE Signal Processing Letters, vol. 9, no. 1, pp. 12-15, Jan. 2002. [14] I. Cohen, Optimal speech enhancement under signal presence uncertainty using log-spectral amplitude estimator, IEEE Signal Processing Letters, vol. 9, no. 4, pp. 113-116, Apr. 2002. [15] A. G. Glen, L. M. Leemis, and D. R. Barr, Order statistics in goodness-of-fit testin, IEEE Trans. Reliability., vol. 50, no. 2, pp. 209-213, June 2001. [16] R. C. Reininger and J. D. Gibson, Distributions of the two dimensional DCT coefficients for images, IEEE Trans. Commnuications., vol. Com-31, no. 6, pp. 835-839, June 1983. [17] D. R. Brillinger, Time Series: Data Analysis and Theory, New York: Holden-Day, 1981. [18] TIA/EIA/IS-127, Enhanced variable rate codec, speech service option 3 for wideband spectrum digital systems, 1996. [19] R. J. McAulary and M. L. Malpass, Speech enhancement using a soft-decision noise suppression filter, IEEE Trans. Acoust., Speech, Signal Processing, vol.28, pp. 137-145, Apr. 1980. [20] O. Cappé, Elimination of musical noise phenomenon with the Ephraim and Malah noise suppressor, IEEE Trans. Speech and Audio Processing, vol. 2, no. 2, pp. 345-349, Apr. 1994. [21] R. Martin, Speech enhancement using MMSE short time spectral estimation with gamma distributed speech priors, Proc. of IEEE Int. Conf. Acoust., Speech, Signal Processing, vol. 1, pp. I253-I256, Orlando, FL., May 2002. [22] S. Gazor and W. Zhang, Speech probability distribution, IEEE Signal Processing Letters, vol. 10, no. 7, pp. 204-207, July 2003. [23] R. Martin, Noise power spctral density estimation based on optimal smoothing and minimum statistics, IEEE Trans. Speech and Audio Processing, vol. 9, no. 5, pp. 504-512, July 2001. [24] A. Varga and H. J. M. Steeneken, Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems, Speech Communication, vol 12, no. 3, pp. 247-251, July 1993. [25] N. Ma, M. Bouchard and R. Goubran, Perceptual Kalman filtering for speech enhancement in colored noise, in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, vol. 1, pp. 717-720, Montreal, May 2004. (732)
2007 년 11 월전자공학회논문지제 44 권 SP 편제 6 호 117 저자소개 적반향제거 > 박윤식 ( 학생회원 ) 2006 년인하대학교전자공학과학사졸업 2006 년 현재인하대학교전자공학과대학원석사과정 < 주관심분야 : 잡음제거, 음향학 조규행 ( 학생회원 ) 2004 년인하대학교전자공학과학사졸업 2004 년 2006 년 LG.Philips LCD 연구원 2006 년 현재인하대학교전자공학과석사과정 < 주관심분야 : 음성검출, 잡음제거 > 장준혁 ( 정회원 ) 1998 년경북대학교전자공학과학사졸업 2000 년서울대학교전기공학부석사졸업 2004 년서울대학교전기컴퓨터공학부박사졸업 2000 년 2005 년 넷더스연구소장 2004 년 2005 년캘리포니아주립대학, 산타바바라 (UCSB) 박사후연구원 2005 년 2005 년한국과학기술연구원 (KIST) 연구원 2005 년 현재인하대학교전자전기공학부조교수 < 주관심분야 : 음성 / 오디오신호처리, 통신신호처리, 휴먼 / 컴퓨터인터페이스등 > (733)