132 2 차조건사후최대확률기반최소값제어재귀평균기법을이용한음성향상금종모외 논문 2009-46SP-4-17 2 차조건사후최대확률기반 최소값제어재귀평균기법을이용한음성향상 ( Speech Enhancement based on Minima Controlled Recursive Averaging Technique Incorporating Second-order Conditional Maximum a posteriori Criterion ) 금종모 *, 장준혁 ** * (Jong-Mo Kum and Joon-Hyuk Chang ) 요 약 본논문에서는기존의 Minima Controlled Recursive Averaging () 에 2 차조건사후최대확률기법을적용한음성향상기법을제안한다. 기존의 방법은현제프레임의음성신호존재확률로잡음추정을조정하기때문에음성활동의프레임간의상호연관성을배제하였다. 본논문에서제안한알고리즘은직전 2 프레임에서의음성의존재와부재에대한조건을부여해주어현제프레임의음성신호존재확률을수정하는음성향상기법을적용한다. 제안된 2 차조건사후최대확률기법을적용한 방법이기존의 방법보다향상된음성향상결과를나타내었다. Abstract In this paper, we propose a novel approach to improve the performance of minima controlled recursive averaging () which is based on the second-order conditional maximum a posteriori (CMAP). From an investigation of the scheme, it is discovered that the method cannot take full consideration of the inter-frame correlation of voice activity since the power estimate is adjusted by the speech presence probability depending on an observation of the current frame. To avoid this phenomenon, the proposed approach incorporates the second-order CMAP criterion in which the power estimate is obtained using the speech presence probability conditioned on both the current observation and the speech activity decisions in the previous two frames. Experimental results show that the proposed technique based on second-order conditional MAP yields better results compared to the conventional method. Keywords : Speech Enhancement, Minima Controlled Recursive Averaging (), Second-order Conditional Maximum a posteriori (Second-order CMAP) Ⅰ. 서론 이동환경에서의음성통신의중요성이점차증가하 * 학생회원, ** 정회원, 인하대학교전자공학부 (Department of Electronics Engineering, Inha University) 본연구는지식경제부및정보통신연구진흥원의 IT 핵심기술개발사업 [2008-F-045-01] 과본연구는지식경제부와한국산업기술재단의전략기술인력양성사업으로수행된연구결과임접수일자 : 2008년10월22일, 수정완료일 : 2009년6월4일 면서단일마이크로폰에서의음성향상기술에대한연구가주목받고있다. 실제적인음성향상시스템에서잡음을정확하게추정하는것은핵심요소이며, 다양한환경특히비정상잡음신호나간섭신호또는신호대잡음비가낮은신호를처리할수있어야한다 [1~9]. 최근에주목받는잡음추정방법으로최소값제어재귀평균 (Minima Controlled Recursive Averaging, ) 기법은서브밴드에서신호존재확률로조절하는스무딩매개변수를이용하여파워스펙트럼에평균을취하는방 (519)
2009 년 7 월전자공학회논문지제 46 권 SP 편제 4 호 133 법이다 [10~13]. 각서브밴드에서신호의존재는잡음이섞인신호의국부에너지와주어진윈도우에서의최소값사이의비와특정임계값과의비교를통하여비율이작으면음성신호가없는것으로결정하며, 음성신호가있는부분과없는부분사이에발생하는변동을줄이기위해시간축으로도평균을취한다. 하지만이러한 알고리즘에도몇가지의문제점들이있다. 특히효율적인지역최소추적기술을사용하여계산의복잡성은줄였지만갑작스러운잡음존재시딜레이가생기고, 각서브샌드에서신호의존재를잡음이섞인신호의국부에너지와주어진윈도우에서의최소값사이의비로정한값과특정임계값만을가지고비교를하기때문에신뢰성이떨어진다. 일반적으로, 음성의활동은인접한프레임들과강력한상호연관성이있으므로음성이활동하는프레임의바로전프레임이나바로다음프레임은음성이활동할가능성이높다고할수있고, 그반대경우도성립된다. 최근에 [9] 제안된음성활동의상호연관성을고려한새로운음성검출기 (voice activity detection, VAD) 에서는조건사후최대확률 (conditional maximum a posteriori, CMAP) 기법을적용하여우수한성능을보고하였다. 본논문에서는특정임계값만을사용하여각서브밴드에서음성신호의유무를추정하는기존의 방법에이전두프레임의음성신호유무에대한조건을추가한 2차조건사후최대확률 (second-order CAMP) 을적용하여음성존재확률의성능을향상시켜우수한잡음추정방법을도출하여향상된 를제시한다. 제안된음성향상기법은 ITU-T P.862 perceptual evaluation of speech quality (PESQ) [15] 와주관적음질평가를통해평가했고기존의 보다향상된결과를나타내었다. II. (minima controlled recursive averaging) 과 을각각음성신호와, 상관성이없는가산잡음신호라고한다. 여기서 은이산시간을나타낸다면, 관측되는신호 은 으로주어지고부분적으로중복으로나누어윈도우를취한다음단구간퓨리에변환 (short-time Fourier transform, STFT) 을이용하면다음과같이나타낼수있다. (1) 가되는데여기서 은 번째프레임에서의 번째주파수성분이된다. 음성향상기법에서사용되고있는기본가설은음성의부재와존재각각에대해 과 라고하면다음과같은식으로나타낼수있다. (2) 여기서 과 은각각원래음성신호와잡음신호의퓨리에변환계수를나타낸다. 여기서, 이 k번째서브밴드에서잡음신호의분산이라고하면, 추정하기위해음성신호부재구간에서관측된신호에시간의반복스무딩을적용하면다음과같이나타낼수있다. (3) 여기서 (0< <1) 는스무딩매개변수이다., 은각각가설에근거하여잡음전력갱신을목적으로한음성신호의부재와존재를나타낸다. 음성신호를추정하는데사용되는식 (2) 에서의가설과잡음신호의스펙트럼갱신을조절하는데사용되는식 (3) 은구별해야한다. 즉, 음성신호가존재 ( ) 할때음성신호의부재 ( ) 라고결정하는것이잡음신호를추정할때보다음성신호를추정할때더위험하다고고려된다. 그러므로서로다른결정법칙이사용되고, 일반적으로 보다는 에더높은신뢰를두고있으며, 인것이다 [10]. 가음성존재의조건확률을나타낸다고하면, 식 (3) 은다음과같다. (4) 여기서 는음성존재확률로조정하는시변스무딩매개변수로서다음과같다. (5) 에대한추정은다음과같은식을사용 (520)
134 2 차조건사후최대확률기반최소값제어재귀평균기법을이용한음성향상금종모외 한다 [6]. (6) 다. 이러한상호연관성은 HMM을이용한행오버를사용함으로서통계모델을기반으로한 VAD의에러를효과적으로줄일수있다 [14]. 음성활동에서프레임들간의강력한상호연관성에기반하여다음과같이표현할수있다. 여기서 (0< <1) 는스무딩매개변수이고, 는음성신호존재의임계값이다. 또한 은잡음이섞인신호의국부에너지, 와주어진윈도우에서의최소값, 의비를나타낸다. 여기서 은아래의 Bayes의최고비용결정방법을기반으로하고있다. (7) 여기서 는음성부제의 a priori 확률이고, 는 일때 인결정비용이다. 식 (7) 은간단한함수이기때문에결정식 (7) 은식 (6) 처럼표현할수있다. (8) 여기서 이다. 을얻기위 해다음식과같이재귀평균을이용하였다. (9) 여기서 은스무딩파라미터이다. 추가적으로, 현재프레임의최소값 를얻기위해서이전프레임의최소값과국부에너지를비교하였다 [10]. III. 제안된 2차조건 MAP (maximum a posteriori) 를기반으로한향상된 지금까지우리는 방법에서잡음이섞인신호에서재귀평균을이용한국부에너지와이전프레임의최소값의비로조절되는중요한파라미터 에대해알아보았다. 하지만 는음성활동에서인접한프레임들의상호연관성을고려하지않았 > (10) 첫번째로고려할사항은현재프레임의관찰결과와이전 (l-1) 프레임과그이전 (l-2) 프레임에서의아래와같은음성존재결정결과이다. i=0,1 j=0,1. (11) Bayes의룰을사용하여식 (7) 과같은형태로위의식을다음과같이바꾸어줄수있다. i=0,1 j=0,1 (12) 여기서 이다. 비록현재프레임의음성활동이이전프레임들에의존할지라도, 현재프레임의음성활동은현재프레임에서관찰된잡음섞인음성신호의 DFT계수의분포에지배적인영향을받는다. 그러므로식 (12) 은다음과같이간단히표현할수있다. 여기서 i=0,1 j=0,1 (13) 은이전프레임에음성이존재하지않고그이전프레임 (521)
2009 년 7 월전자공학회논문지제 46 권 SP 편제 4 호 135 i=0,1 j=0,1 (14) 그림 1. F16 잡음 (SNR = 10 db) 에서의확률비교 (a) 깨끗한음성파형 (b) 실시간프레임에서의음성존재확률 : 기존의 의확률 ( 점선 ), 제안된알고리즘의확률 ( 굵은선 ). Fig 1. Comparison of probability under the F16 (SNR = 10 db) (a) Clean speech waveform (b) Speech presence probability in short-time frames: probability of conventional (dashed line), probability of proposed algorithm(bold line). 에도음성이존재하지않을때이며, 은이전프레임에음성이존재하지않고그이전프레임에음성이존재할때이다. 또한 은이전프레임에는음성이존재하고그이전프레임에는음성이존재하지않을때이며, 은이전프레임과그이전프레임에모두음성이존재할때이다. 이러한임계값개수의증가는 VAD의성능의향상이될수있도록추가적인자유도를제공한다. 위의식처럼이전프레임과그이전프레임의음성신호의유무에따라임계값에변화를주어이를가지고음성존재확률을유동적으로추정하여더정확한잡음추정을할수가있다. 위의식들을간단히하면다음과같이나타낼수있다. 그림 1은 2차 CMAP를기반임계값테스트를통한음성존재확률을보여주고있다. 기존의 방법보다음성이시작하는부분은더빨리음성임을알아내고음성이끝나는부분에서는급격히떨어지지않아음성임에도불구하고음성이아니라고판단해서음성정보를잃어버리는것을줄여주는것을볼수있다. 실제로제안된기법은 minimum mean square error (MMSE) 를기반으로한음성향상알고리즘에주로이용된다 [1, 8]. (15) 여기서 은추정된깨끗한음성신호이고, 은잡은제거이득이다. 또한 과 은각각 a posteriori SNR, a priori SNR로정의된다. (16) (17) 여기서 MMSE 잡은제거이득은다음과같이주어진다 [1]. (18) 여기서 와 은각각영차와일차 Bessel 함수이다. 또한 은 (4), (16), (17) 을기반으로다음과같이정의된다. (19) 여기서 과 은 (16), (17) 을사용한고유추정치이다. IV. 실험결과 제안된음성향상알고리즘의음질평가를위해널리적 (522)
136 2 차조건사후최대확률기반최소값제어재귀평균기법을이용한음성향상금종모외 표 1. 다양한노이즈환경에서기존 와향상된 의 Relative Estimation Error 비교. Table 1. Relative Estimation Error from the and enhanced. Noise type White Babble F16 Method SNR (db) 5 10 15 0.379 0.369 0.892 0.714 0.457 0.348 0.401 0.386 0.932 0.717 0.688 0.357 0.607 0.425 1.593 0.756 1.444 0.392 용되고있는 relative estimation error, ITU-T P.862 PESQ, 주관적음질평가를수행하여음성향상비교를하였다. 첫번째로잡은추정성능을평가할수있는정규화된 relative estimation error 는다음과같이정의된다 [10]. (20) 여기서 은잡음신호에의해직접적으로얻어지는실제잡음추정치이고 [10], 은 N번째프레임에서의제안된방법을사용한향상된 를통한잡음추정치이다. 표 1은다양한잡음환경에서의잡음추정을위한 relative estimation error의결과를보여주고있다. 이결과제안된방법이이전의 방법보다보다나은성능을보여주고있다 [10]. 표 2의 ITU-T P.862 perceptual evaluation of speech quality (PESQ) [15] 테스트를위해샘플은남성, 여성화자각각이 100개의문장을발음하도록한음성을한프레임의크기가 10 ms에서 8 khz로샘플링한데이터에세가지형태의잡음이부가되었다. 잡음은 NOISEX-92 데이터베이스의 white, babble, F16 를사용하였으며 SNR으로 5, 10, 15 db로달리하여테스트하였다. PESQ값은이들샘플에대한평균수치로나타냈고, 기존 에의한 PESQ를위해가중치파라미터 =0.95, =0.2, =0.45로설정해주 었고, 임계값,,, 은다양한잡음환경에 표 2. 다양한노이즈환경에서기존 와향상된 의 PESQ 수치비교. Table 2. PESQ score of the and enhanced. Noise type White Babble F16 Noise type White Babble F16 Method Method SNR (db) 5 10 15 1.936 2.296 2.641 2.066 2.399 2.723 2.315 2.645 2.927 2.316 2.649 2.956 2.029 2.442 2.757 2.182 2.541 2.841 표 3. 다양한노이즈환경에서기존 와향상된 의주관적음질평가비교 Table 3. The subjective evaluation of speech quality of the and enhanced. SNR (db) 5 10 15 1.97 2.16 2.96 3.05 2.09 2.30 2.69 2.81 3.40 3.42 2.74 2.87 2.94 3.13 3.66 3.70 3.28 3.41 서최적화된실험치로구하여 =5, =4, =1.5, =1.1로설정하였다. 표 2는제안한알고리즘과기존의 를비교하기위해 PESQ 테스트를실시한결과 white 와 F16 의 5dB 와 10 db 에서두드러진성능향상을보였다. 이는제안한알고리즘이그림 1에서와같이낮은 SNR에서도음성존재확률을더욱잘추정함에따라개선된음성향상을보이고있음을알수있다. babble 노이즈의경우잡음의특성상제안한알고리즘의음성존재확률이기존과비슷하지만약간의향상된결과를보여줌을알수있다. 표 3의주관적음질평가는남성, 여성화자각각이 10개의문장을발음하도록한음성에 white, babble, F16 가 SNR이 5, 10, 15 db로부과된잡음신호를 10명의청취자를대상으로평가하였다. 각각의청취자들은각문장을듣고 5 (Excellent), 4 (Good), 3 (Fair), 2 (Poor), 1 (Bad) 의점수를주었다. 표 2는세 (523)
2009 년 7 월전자공학회논문지제 46 권 SP 편제 4 호 137 가지잡음환경과각 SNR에대하여 10명의평가자들의평균을낸 mean opinion score 이고, 결과적으로모두향상된것을보여주고있다. 제안된 2차조건 MAP를기반으로한 알고리즘이다양한잡음환경에서이전의 방법보다우수함을알수있다. V. 결론 본논문에서는기존의 알고리즘에 2차조건 MAP를사용하여음성존재확률을더욱정확하게추정하는새로운알고리즘을제안하였다. 잡음의추정은현재프레임의관찰결과와이전두프레임의음성신호유무의결정결과로서조정할수있는음성존재확률을파라미터를사용하여재귀평균을통해구하였다. 제안된방법은기존의 방법과비교를해본결과음성향상시스템을위한잡음추정이보다향상되는것을보였다. 참고문헌 [1] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. ASSP-32, no. 6, pp. 1109-1121, Dec. 1984. [2] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. ASSP-32, no. 2, pp. 443-445, Apr. 1985. [3] S. F. Boll, Suppression of acoustic in speech using spectral subtraction, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. ASSP-27, no. 2, pp. 113-120, Apr. 1979. [4] R. Martin, Spectral subtraction based on minimum statistics, in Proc. EUSIPCO, Edinburgh, U.K., pp. 1182-1185, Sept. 1994. [5] G. Doblinger, Computationally efcient speech enhancement by spectral minima tracking in subbands, in Proc. EUROSPEECH, Madrid, Spain, pp. 1513-1516, Sept. 1995. [6] J. Meyer, K. U. Simmer and K. D. Kammeyer, Comparison of one-and two-channel -estimation techniques, in Proc. IWAENC, London, U.K., pp. 137-145, Sept. 1997. [7] I. Cohen and B. Berdugo, Speech enhancement for non-stationary environments, Signal Processing, vol. 81, pp. 2403-2418, Nov. 2001. [8] N. S. Kim and J.-H. Chang, Spectral enhancement based on global soft decision, IEEE Signal Processing Letters, vol. 7, no. 5, pp. 108-110, May 2000. [9] J. W. Shin, H. J. Kwon, S. H. Jin and N. S. Kim, Voice activity detection based on conditional MAP criterion, IEEE Signal Processing Letters, vol. 15, pp. 257-260, Feb. 2008. [10] I. Cohen and B. Berdugo, Noise estimation by minima controlled recursive averaging for robust speech enhancement, IEEE Signal Processing Letters, vol. 9, no. 1, pp. 12-15, Jan. 2002. [11] I. Cohen, Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging, IEEE Transactions on Speech and Audio Processing, vol. 11, no. 5, pp. 466-475, Sept. 2003. [12] V. Stouten, H. V. hamme, P. Wambacq, Application of minimum statistics and minima controlled recursive averaging methods to estimate a cepstral model for robust ASR, in Proc. ICASSP, Toulouse, France, pp. 765-768, May. 2006. [13] N. Fan, J. Rosca, R. Balan, Speech estimation using enhanced minima controlled recursive averaging, in Proc. ICASSP, Honolulu, Hawaii, U.S.A., pp. 581-584, Apr. 2007. [14] J. Sohn, N. S. Kim andw. Sung, A statistical model-based voice activity detection, IEEE Signal Processing Letters, vol. 6, no 1, pp. 1-3, Jan. 1999. [15] ITU-T P.862, Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs, 2001. (524)
138 2 차조건사후최대확률기반최소값제어재귀평균기법을이용한음성향상금종모외 저자소개 금종모 ( 학생회원 ) 2008 년인하대학교전자전기공학부학사. 2008 년 ~ 현재인하대학교전자공학과석사과정. < 주관심분야 : 디지털신호처리 > 장준혁 ( 정회원 ) 1998 년경북대하교전자공학과학사. 2000 년서울대학교전기공학부석사. 2004 년서울대학교전기컴퓨터공학부박사. 2000 년 2005 년 ( 주 ) 넷더스연구소장 2004 년 2005 년캘리포니아주립대학, 산타바바라 (UCSB) 박사후연구원 2005 년한국과학기술연구원 (KIST) 연구원 2005 년 현재인하대학교전자공학부조교수 < 주관심분야 : 음성신호처리, 오디오신호처리, 통신신호처리, 휴먼 / 컴퓨터인터페이스 > (525)