118 Smoothed Global Soft Decision 에근거한음성향상기법조규행외 논문 2007-44SP-6-14 Smoothed Global Soft Decision 에근거한음성향상기법 ( Speech Enhancement based on Smoothed Global Soft Decision ) 조규행 *, 박윤식 *, 장준혁 ** * (Q-Haing Jo, Yun-Sik Park, and Joon-Hyuk Chang ) 요 약 본논문에서는잡음환경에서의음성향상을위해향상된 Global Soft Decision (GSD) 기법을제안한다. 통계적모델을바탕으로한음성향상과관련한연구에서 GSD 는음성의꼬리부분에서취약하다고알려져있으며, 이를개선하기위해 Smoothed Global Likelihood Ratio (SGLR) 를바탕으로한새로운음성향상기법을 GSD 에적용한다. 제안된방법은다양한잡음환경에서 MOS 실험을바탕으로기존의연구와비교하였으며우수한성능을보여주었다. Abstract In this paper, we propose an improved global soft decision for speech enhancement in noise environments. From an examination of statistical model-based speech enhancement, it is shown that the global soft decision has a fundamental drawback at the offset region of speech signals. To overcome the drawback, we apply a new speech enhancement method based on a smoothed Global likelihood ratio to the global soft decision. Performances of the proposed method are evaluated by subjective tests under various environments and yield better results compared with the reported speech enhancement method. Keywords : Speech Enhancement, Global Soft Decision, Smoothed Global Likelihood Ratio Ⅰ. 서론 배경잡음이존재하는경우음성인식과부호화와같은시스템의두드러진성능저하와관련하여최근수년간잡음환경에서의음성향상과관련된관심이증가하였으며 [1~11], 또한많은알고리즘들이연구되었다 [12~20]. 기존의알고리즘들은일반적으로깨끗한음성과잡음의스펙트럼을몇개의결합된파라미터들을이용한비상관적 (uncorrelated) 통계모델을통해특성화하였다. 하지만음성부재구간에서가정한통계모델은음성존재구간에서의통계적모델과상이하므 ** * 학생회원, 정회원, 인하대학교전자전기공학부 (School of Electronic and Electrical Engineering, Inha University) 본연구는정보통신부및정보통신연구진흥원의 IT 신성장동력핵심기술개발사업의일환으로수행하였음. [2005-S096-02, 신체장애인을위한착용형단말인터페이스기술 ] 접수일자 : 2007년4월2일, 수정완료일 : 2007년10월24일 로스펙트럼의추정은음성의부재와존재를고려하여처리하여야한다. 일반적으로, soft decision 이득수정에근거한음성향상기법들이각프레임에대해음성의존재및부재를음성검출기 (VAD, Voice Activity Detector) 를이용해 hard decision을취하는음성향상기법보다우수한성능을보이는것으로알려졌다 [8, 16~17, 21]. 최근각각의스펙트럼성분들을독립적으로다루는대신주어진프레임을전역적으로수행하는 Global Soft Decision (GSD) 을기반으로한새로운음성향상알고리즘이제안되었다 [12]. 본논문에서는 GSD의성능향상을위해스무딩된전역우도비 (SGLR, Smoothed Global Likelihood Ratio) 를기반으로한 GSD를제안한다. 전역음성부재확률 (GSAP, Global Speech Absence Probability) 을계산하기위한강인한방법을고안하며, 스펙트럼이득수정과기존의제안된음성향상기법에서필요로하는단독의 VAD 알고리즘을위한잡음스펙트럼추정의 (734)
2007 년 11 월전자공학회논문지제 44 권 SP 편제 6 호 119 갱신에적용한다. 제안된알고리즘은다양한잡음환경에서 Mean Opinion Score (MOS) 실험을바탕으로기존의음성향상기법과성능을비교한다. Ⅱ. Global soft decision 의이해 시간축상에서원래의음성신호 x(n) 에잡음신호 d(n) 이부과된입력신호 y(n) 을 DFT (Discrete Fourier Transform) 를통해주파수축으로변환하면아래와같이표현된다. (1) 여기서, 과 은각각 Y(n), X(n) 과 의번째스펙트럼성분을나타낸다. H 0, H 1 이각각음성의부재와존재에대한가설이라고하면각주파수채널별로다음과같이기술된다. (2) (3) 음성과잡음신호의스펙트럼이 zero-mean 복소가우시안분포의특성을가진다고가정하면주어진가설 와 을조건으로한확률밀도함수는아래와같이주어진다. (4) (5) 여기서 와 는각각번째주파수채널별음성과잡음의분산이며, 입력신호 의음성부재확률 (SAP, Speech Absence Probability) 은아래와같다. 여기서 (6) 은음성부재에대한사전 확률이다. 각각의주파수채널별성분이통계적으로독립이라는가정으로부터, 식 (6) 은아래와같이표현된다. (7) 여기서 이며, 는전역우도비 (GLR, Global Likelihood Ratio) 를나타내며아래와같이각주파수채널별우도비 (LR, Likelihood Ratio) 의곱으로표현된다. (8) 이때, 식 (4) 와 (5) 에서가정한확률밀도함수로부터각주파수채널별 LR은아래의식으로유도된다. (9) 여기서 와 는각각 a priori signal-tonoise ratio (SNR) 와 a posteriori SNR이며다음과같다 [16]. (10) (11) Ⅲ. Smoothed Likelihood Ratio를적용한향상된 Global Soft Decision 음성의꼬리부분에서흔히발생하는검출오류문제점을보완하기위해 HMM을기반으로한 hang-over (735)
120 Smoothed Global Soft Decision 에근거한음성향상기법조규행외 그림 1. GSAP 의예 (a) 잡음섞인음성 (b) 깨끗한음성 (c) 기존의 GSAP ( 실선 ) 와 SGLR을이용한 GSAP ( 점섬 ) Fig. 1. Examples of the GSAP (a) Noisy speech (b) Clean speech (c) conventional GSAP (solid line) and GSAP using the SGLR (dotted line) 같은알고리즘들이적용되고있다. 최근에는계산적으로간단하면서도효율적인방법으로알려진강인한음성검출기의파라미터인 LR이음성의 offset 영역에서 a priori SNR의지연으로인해급격히변화하게되므로이를보완하기위한스무딩된우도비 (SLR, Smoothed Likelihood Ratio) 가소개되었다 [9]. 비슷한이유로본논문에서는 GSAP의성능을향상시키기위해 SGLR을제안한다. 먼저, 식 (7) 에적용된 GSD 기법의성능은 { } 와 { } 의추정치의신뢰성에크게의존한다. 과 이정상상태 (stationarity) 라는가정아래음성구간에서의잡음전력갱신을고려하여배경잡음과음성각각의 long-term 스무딩된전력스펙트럼을사용하는데이때사용되는잡음과음성의분산에대한추정치는아래와같이표현된다. (12) (13) 여기서 와 가각각 와 의추정 (736) 치이고, 와 는정상상태의가정을고려한스무딩파라미터이다. 식 (12) 와 (13) 에서 과 에대한통계적가정을바탕으로아래의식을얻는다. (14) 여기서 (15) (16) (17)
2007 년 11 월전자공학회논문지제 44 권 SP 편제 6 호 121 (18) (19) 여기서. (20) 식 (12) 와 (13) 으로부터 와 은현재의음성신호 에의존하지않으며관련파라미터들에의한이전프레임으로부터유추된일종의예측된추정치를의미한다. 실제로예측추정치가 GSAP를추정할때 a priori SNR보다더정확하다고알려져있지만 a priori SNR은이전프레임에서유도되기때문에음성의 offset 영역에서낮은 GLR로인해식 (7), (9), (20) 에의해주어진 GSAP는매우큰값을빈번하게나타내게된다. 이런이유로음성의꼬리부분에대한연속성을강조하기위해 SGLR을위한다음과같은식을고려한다. (21) 여기서 는실험적으로최적화된값으로써 long-term 스무딩파라미터이다. 그림 1에서제안된 SGLR이음성의 offset 영역에서 GSAP의급격한변화를지연시킴으로서상대적으로강인한성능을보여주며, onset영역에서는큰변화를보이지않음을알수있다. 을 n번째프레임에서의깨끗한음성의추정치라고할때, 기존의스펙트럼향상기법은오염된음성신호 의각각의주파수성분에특정이득을적용하여 을추정한다. 본논문에서는스펙트럼이득을계산하기위한여러가지방법들중뮤지컬잡음을제거하는데우수한 [16, 성능을보이는 Ephraim과 Malah의방법을채택한다 22]. Ⅳ. 실험 본논문에서제안된 SGLR의음성향상알고리즘을검증하기위해다양한잡음환경에서주관적음질실험을수행하였다. 남성과여성화자가각각 5개씩발음한총 10개의문장이실험에사용되었다. 잡음환경을만들기위해깨끗한음성에 NOISEX-92 데이터베이스중 white, babble, buccaneer의세종류의잡음이다양한 SNR로부과되었다. 평가를위해기존의 [12] 에서적용 된 GSAP 계산모듈의 GLR을 SGLR으로변환하여적용하였으며, MOS 결과는 10명의청자에의해평가되어진점수를평균하여최종적으로구하였다. 표 1은다양한잡음환경에서의 MOS 결과를보여준다. 결과로부터제안된 SGLR이대부분의잡음환경에서기존의 SEGSD 음성향상알고리즘보다우수한것을확인할수있다 [12]. 표 1. 제안된알고리즘과 SEGSD 기법을적용한음성향상알고리즘의 MOS 결과 Table 1. MOS results for the proposed enhancement algorithm (SGLR) and conventional SEGSD tech- nique Noise White Babble Buccaneer SNR (db) MOS results None SEGSD SGLR 5 1.24 2.50 2.71 10 1.56 3.20 3.32 15 2.14 3.61 3.74 5 2.11 2.90 3.09 10 2.25 3.44 3.63 15 2.34 3.61 3.82 5 1.30 2.50 2.65 10 1.80 3.10 3.31 15 2.01 3.59 3.72 Ⅴ. 결론 본논문에서는 SGLR 기법을적용한새로운스펙트럼향상알고리즘을제안하였다. 음성변이구간에서의 GSAP의추정치의성능향상을위해간단하지만매우효율적인 GLR의강인한추정방법을제시하였다. 제안된방법의수행은 MOS 실험을통해기존의음성향상기법보다우수함을알수있었다. 참고문헌 [1] J.-H. Chang and N. S. Kim, Voice activity (737)
122 Smoothed Global Soft Decision 에근거한음성향상기법조규행외 detection based on complex Laplacian model, Electronics Letters, vol. 39, no. 7, pp. 632-634, Apr. 2003. [2] J.-H. Chang, N. S. Kim and S. K. Mitra, Voice activity detection based on multiple statistical models, IEEE Trans. Signal Processing, vol. 54, no. 6, pp. 1965-1976, June 2006. [3] J.-H. Chang and N. S. Kim, A new structural approach in system identification with generalized analysis-by-synthesis for Robust Speech Coding, IEEE Trans. Speech and Audio Processing, vol. 14, no. 3, pp. 747-751, May 2006. [4] J.-H. Chang, Perceptual weighting filter for robust speech modification, Signal Processing, vol. 86, Issue 5, pp. 1089-1093, May 2006. [5] J.-H. Chang, N. S. Kim and S. K. Mitra, A statistical model-based V/UV decision under background noise environments, IEICE Trans. on Info. and Systs., vol. E87-D, no. 12, pp. 2885-2887, Dec. 2004. [6] J.-H. Chang, J. W. Shin and N. S. Kim, Voice activity detection employing generalized Gaussian distribution, Electronics Letters, vol. 40, no. 24, pp.1561-1562, Nov. 2004. [7] J.-H. Chang and N. S. Kim, Distorted speech rejection for automatic speech recognition in wireless communication, IEICE Trans. Info. and Systs., vol. E87-D, no. 7, pp. 1978-1981, July 2005. [8] J. Sohn, N. S. Kim and W. Sung, A statistical model-based voice activity detection, IEEE Signal Processing Letters, vol. 6, no. 1, pp. 1-3, Jan. 1999. [9] Y. D. Cho and A. Kondoz, Analysis and improvement of a statistical model-based voice activity detector, IEEE Signal Processing Letters, vol. 8, no. 10, pp. 276-278, Oct. 2001. [10] E. Nemer, R. Goubran, and S. Mahmoud, Robust voice activity detection using higherorder statistics in the LPC Residual domain, IEEE Trans. Speech and Audio Processing, vol. 9, no. 3, pp. 217-231, Mar. 2001. [11] TIA/EIA/IS-127, Enhanced variable rate codec, speech service option 3 for wideband spectrum digital systems, 1996. [12] N. S. Kim and J.-H. Chang, "Spectral enhancement based on global soft decision, IEEE Signal Processing Letters, vol. 7, no. 5, pp. 108-110, May 2000. [13] J.-H. Chang and N. S. Kim, Speech enhancement : new approaches to soft decision, IEICE Trans. Inf. and Syst., vol. 27, E84-D, pp. 1231-1240, Sep. 2001. [14] J.-H. Chang, Warped discrete cosine transformbased noisy speech enhancement, IEEE Trans. Circuit and Systems II, vol. 52, issue 9, pp. 535-539, Sept. 2005. [15] F. Beritelli, S. Casale, and A. Cavallaro, A robust voice activity detector for wireless communications using soft computing, IEEE Journal on Selectied Areas in Communications, vol. 16, no. 9, pp. 1818-1829, Dec. 1998. [16] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, no. 6, pp. 1109-1121, Dec. 1984. [17] J. Sohn and W. Sung, A voice activity detector employing soft decision based noise spectrum adaptation, Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing, pp. 365-368, 1998. [18] I. Cohen and B. Berdugo, Speech enhancement for non-stationary noise environments, Signal Processing, vol 81, pp. 2403-2418, Nov. 2001. [19] I. Cohen and B. Berdugo, Noise estimation by minima controlled recursive averaging for robust speech enhancement, IEEE Signal Processing Letters, vol. 9, no. 1, pp. 12-15, Jan. 2002. [20] I. Cohen, Optimal speech enhancement under signal presence uncertainty using log-spectral amplitude estimator, IEEE Signal Processing Letters, vol. 9, no. 4, pp. 113-116, Apr. 2002. [21] R. J. McAulary and M. L. Malpass, Speech enhancement using a soft-decision noise suppression filter, IEEE Trans. Acoust., Speech, Signal Processing, vol.28, pp. 137-145, Apr. 1980. [22] O. Cappe, Elimination of musical noise phenomenon with the Ephraim and Malah noise suppressor, IEEE Trans. Speech and Audio Processing, vol. 2, no. 2, pp. 345-349, Apr. 1994. (738)
2007 년 11 월전자공학회논문지제 44 권 SP 편제 6 호 123 저자소개 조규행 ( 학생회원 ) 2004 년인하대학교전자공학과학사졸업 2004 년 2006 년 LG.Philips LCD 연구원 2006 년 현재인하대학교전자공학과석사과정 < 주관심분야 : 음성검출, 잡음제거 > 박윤식 ( 학생회원 ) 2006 년인하대학교전자공학과학사졸업 2006 년 현재인하대학교전자공학과대학원석사과정 < 주관심분야 : 잡음제거, 음향학적반향제거 > 장준혁 ( 정회원 ) 1998 년경북대학교전자공학과학사졸업 2000 년서울대학교전기공학부석사졸업 2004 년서울대학교전기컴퓨터공학부박사졸업 2000 년 2005 년 넷더스연구소장 2004 년 2005 년캘리포니아주립대학, 산타바바라 (UCSB) 박사후연구원 2005 년 2005 년한국과학기술연구원 (KIST) 연구원 2005 년 현재인하대학교전자전기공학부조교수 < 주관심분야 : 음성 / 오디오신호처리, 통신신호처리, 휴먼 / 컴퓨터인터페이스등 > (739)