논문 09-34-06-04 한국통신학회논문지 '09-06 Vol. 34 No. 6 음성향상을위한 2 차조건사후최대확률기법기반 Soft Decision 준회원금종모 *, 종신회원장준혁 ** Improved -Soft Decision Incorporating Second-Order Conditional MAP for Speech Enhancement Jong-Mo Kum* Associate Member, Joon-Hyuk Chang** Lifelong Member 요 약 본논문에서는기존의 global soft decision 방법에서음성부재확률의고정파라미터에 2차조건사후최대확률기법을적용한음성향상기법을제안한다. 기존의 global soft decision 방법은음성부재확률을구하기위해가정한가설에따라파라미터값을고정하여다양한음성환경변화에민감한점을고려하여본논문에서제안한알고리즘은기존의고정파라미터값에직전 2 프레임에서의음성존재와부재에대한조건을부여해주어음성과음성사이의상호연관성을고려해주고, 보다유동적으로현재프레임의음성부재확률을추정하는음성향상기법이다. 제안된방법의성능평가를위해 ITU-T P.862 perceptual evaluation of speech quality (PESQ) 를이용하여평가하였고, 그결과제안된 2차조건사후최대확률기법을적용한 global soft decision 방법은기존의 soft decision 방법보다향상된결과를나타내었다. Key Words : Speech Enhancement, Soft Decision, Second-order Conditional Maximum a posteriori (Second-order CMAP) ABSTRACT In this paper, we propose a novel method to improve the performance of the global soft decision which is based on the second-order conditional maximum a posteriori (CMAP). Conventional global soft decision scheme has an disadvantage in that the speech absence probability adjusted by a fixed-parameter was sensitive to the various environments. In proposed approach using the second-order CMAP, speech absence probability value is more flexible which exploit not only the current observation but also the speech activity decisions in the previous two frames. Experimental results show that the proposed improved global soft decision method based on second-order conditional MAP yields better results compared to the conventional global soft decision technique with the performance criteria of the ITU-T P. 862 perceptual evaluation of speech quality (PESQ). Ⅰ. 서론 최근이동통신단말기나차량네비게이션등실제 적인음성신호처리시스템이필요한환경이늘어나면서음성향상기술에대한연구가주목받고있다. 실제음성향상과정에서잡음을정확하게추정하는 본연구는지식경제부및정보통신연구진흥원의대학 IT 연구센터지원사업의연구결과로수행되었음 (IITA-2008-C1090-0804-0007) 또한본연구는지식경제부와한국산업기술재단의전략기술인력양성사업으로수행된연구결과임 * 인하대학교전자공학과 DSP 연구실 (jmkum@dsp.inha.ac.kr), ** 인하대학교전자공학과조교수 (changjh@inha.ac.kr) 논문번호 :KICS2009-03-086, 접수일자 :2009 년 3 월 3 일, 최종논문접수일자 :2009 년 5 월 22 일 588
논문 / 음성향상을위한 2 차조건사후최대확률기법기반 Soft Decision 것이가장중요한요소이며, 특히비상관잡음신호를 처리할수있어야한다. 실제로많은다양한방법들 이음성스펙트럼향상을위한노력의일환으로시도되었다. 이러한방법들중에는스펙트럼차감법 [1],[2], Wiener filtering [3], soft decision 추정 [4], 최소평균자승오차 (MMSE, Minimum Mean Square Error) [5] 등이주로사용되고있다. 이러한방법들은구현상의이점과다양한배경잡음에적용가능한장점을지니고으며, 특히 soft decision에근거한추정방법이뛰어난성능을가진다는것이알려져있다. 최근에제안된 soft decision 방법에서는기존의채널별음성부재확률 (LSAP, local speech absence probability) 과현재프레임에서의모든데이터에의해결정되어지는전역음성부재확률 (GSAP, global speech absence probability) 이결합되어새로이통계적으로견실한음성부재확률을도출하였다 [6]. 하지만음성부재확률을구하기위해기존의통계적가정을바탕으로넣어준고정파라미터값을취한것은다양한음성환경변화에서한계를나타낸다. 본논문에서는음성과음성사이의강력한상호연관성이있는점을고려하여연구되어진 [7] 을기본으로 2차조건 MAP (maximum a posteriori) 를사용하여음성부재확률을구하기위해사용된고정파라미터값대신직전 2 프레임에서의음성의존재, 부재의조건을부여해주는유동적인파라미터값을사용하여 [8] 주어진환경에따라변화함은물론음성과음성사이의상호연관성을고려한향상된 soft decision 기법을제시한다. 제안된음성향상기법은 ITU-T P.862 perceptual evaluation of speech quality (PESQ) [9] 를통해평가하였고기존의 soft decision방법보다향상된결과를나타내었다. Ⅱ. Soft Decision 개요 먼저오염된음성신호 는원래의음성신호 에잡음신호 가더해져서만들어졌다고가정한다. 여기서 는이산시간을나타낸다. 음성향상기법에서사용되고있는기본가설, 이각각음성의부재와존재를나타낸다고하면다음과같이표현된다. (1) 여기서, 그리고 은각각오염된음성신호, 원래음성신호그리고잡음신호의퓨리에변환계수를나타내고 번째프레임에서의 번째주파수성분이된다. 음성신호와잡음의스펙트럼이복소가우시안분포를따른다는가정으로부터가설, 에근거한확률밀도함수는다음과같이주어진다. (2) 위에서, 는각각음성과잡음의분산을나타낸다. 음성의존재와부재에관한가설을바탕으로우선주파수채널별음성부재확률은다음과같이구해질수있다. (3) 또한한프레임에서의음성부재확률은현재프레임의관찰결과를기반으로다음과같이구할수있다.. (4) 각주파수성분들의통계적인독립성을가정하면한프레임에서의음성부재확률을다음과같이표현할수있다. (5) 여기서, 은음성부재와존재에대한 a priori 확률값이되고 는 k번째주 589
한국통신학회논문지 '09-06 Vol. 34 No. 6 파수채널에서의우도비 (likelihood ratio) 로서다 음과같이나타낼수있다. (6) 여기서, 이되고, 는각각 a priori SNR과 a posteriori SNR을나타낸다 [6]. Ⅲ. 2차조건 MAP (maximum a posteriori) 를이용한향상된 Soft Decision 지금까지우리는 soft decision 방법에서의음성부재확률을구하는방법에대해알아보았다. 하지만기존의 soft decision방법에서는고정된파라미터값 q(= ) 를사용하였기때문에수시로변하는잡음환경에서정확한음성부재확률을추정하지못하였다. 하지만직전 2프레임의음성존재와부재에관한조건을부여해주면서음성과음성사이의상호연관성까지고려해주는 2차조건 MAP를이용한향상된 soft decision을제안한다. 음성활동에서인접한프레임들의상호연관성을고려하여히든마르코프모델 (Hidden Markov Model, HMM) 을이용한행오버를사용함으로서통계모델을기반으로한 VAD의에러를효과적으로줄일수있다 [7]. 즉, 음성활동에서프레임들간의강력한상호연관성에기반하여이전 2 프레임의조건이추가된음성부재확률을식 (7) 과같이표현할수있다. 여기서,, 이다. 제안된방법에서는 soft decision의 q 값대신 로대체되어진다. 이것은다음의식처럼음성과음성사이의상호연관성을고려해신뢰성을높여준다. > (8) 이를바탕으로위의제안된식은다음과같이표현할수있다., i=0, 1, j=0, 1 (9) 의값은직전 2프레임의영향을받아다음과같이 4가지의값을가지게된다. (10) 는이전프레임에음성이존재하지않고그이전프레임에도음성이존재하지않을때이며, 은이전프레임에음성이존재하지않고그이전 프레임에음성이존재할때이다. 또한 은이전프레임에는음성이존재하고그이전프레임에는음성이존재하지않을때이며, 은이전프레임과그이전프레임에모두음성이존재할때이다. 이렇게함으로써이전 2 프레임의정보가음성신호일확률이높을때에는음성부재확률값을더작게만들어주고이전 2 프레임의정보가잡음신호일 590 i=0, 1, j=0, 1 (7)
논문 / 음성향상을위한 2 차조건사후최대확률기법기반 Soft Decision 표 1. PESQ 수치비교. Noise type White Car F16 Method SNR (db) 5 10 15 2.080 2.082 3.310 3.320 2.148 2.196 2.423 2.424 3.596 3.604 2.540 2.554 2.475 2.478 3.848 3.854 2.847 2.858 그림 1. F16 잡음 (SNR = 10 db) 에서의확률비교 (a) 깨끗한음성파형 (b) 실시간프레임에서의음성존재확률 : 기존의 soft decision 의확률 ( 점선 ), 제안된알고리즘의확률 ( 굵은선 ) 확률이높을때에는음성부재확률값을 1에가깝게만들어준다. 이전의고정된파라미터 q값을사용하던 soft decision보다제안된 2차조건 MAP를이용한방법이음성부재확률을구할때보다나은성능을보임을그림 1에서확인할수있다. Ⅳ. 실험결과 본논문에서제안한알고리즘은직전 2 프레임에서의음성존재와부재에대한조건을부여해주어음성과음성사이의상호연관성을고려해주고, 보다유동적으로현재프레임의음성부재확률을추정하는음성향상기법이다. 제안된음성향상알고리즘의음질평가를위해널리적용되고있는 ITU-T P.862 PESQ방법으로음성향상의성능비교를하였다 [9], [10], [11]. 표 1의 ITU-T P.862 perceptual evaluation of speech quality (PESQ) [9] 테스트를위해남성, 여성화자각각이 100개의문장을발음하도록한샘플음성한프레임의크기가 10 ms에서 8 khz로샘플링한데이터에세가지형태의잡음이부가되었다. 잡음은 NOISEX-92 데이터베이스의 white, car, F16 에서 5, 10, 15 db의 SNR을가지고테스트파일을구성하였다. 또한기존 soft decision에의한 PESQ를위해고정파라미터 q값은 1로설정해주었고, 제안된방법에서의 4개의경우의파라미터값은긴음성파일의확률적통계자료를바탕으로 =0.0246, =0.0738, =53.41, =479 로설정하여실험을하였다. 표 1에서보는것과같이기존의 global soft decision 알고리즘과제안된알고리즘을비교하기위해 PESQ 테스트를실시한결과모든실험조건에서제안된방법의결과가좋은것을볼수있고특히낮은 SNR에서보다나은성능을보임을알수있다. 이는그림 1에서와같이고정된파라미터 q값을사용하던 soft decision보다제안된 2 차조건 MAP를이용한방법이다양한잡음환경에서음성부재확률을구할때보다정확하게추정할수있으므로음성향상시스템에서의성능이좋음을확인할수있다. Ⅴ. 결론본논문에서는기존의 soft decision 알고리즘에서음성부재확률의고정파라미터대신직전 2프레임이전의음성존재와부재의정보를부과하여음성과음성간의상호연관성을고려하는 2차조건 MAP를적용하여보다유동적으로음성부재확률을구하였다. 이러한파라미터의조정으로인하여다양한음성환경에서의정확한잡음추정을가능하게하며, 음성향상시스템에서제안된알고리즘이기존의방법보다다양한환경변화에더욱강인한성능을보였다. 참고문헌 [1] S. F. Boll, Suppression of acoustic in speech using spectral subtraction, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. ASSP-27, no. 2, pp. 113-120, Apr. 1979. [2] J. S. Lim, A. V. Oppenheim, Enhancement and bandwidth compression of noisy speech, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 67, pp. 1583-1604, Dec. 1979. 591
한국통신학회논문지 '09-06 Vol. 34 No. 6 [3] R. J. McAulary and M. L. Malpass, Speech enhancement using a soft-decision suppression filter, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 28, pp. 137-145, Apr. 1980. [4] P. Scalart and J. Wieira Filho, Speech Enhancement based on a priori signal to estimation, in Proc. ICASSP, Atlanta, U.S.A., pp. 629-632, May 1996. [5] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. ASSP-32, no. 6, pp. 1109-1121, Dec. 1984. [6] N. S. Kim and J.-H. Chang, Spectral enhancement based on global soft decision, IEEE Signal Processing Letters, vol. 7, no. 5, pp. 108-110, May 2000. [7] J. W. Shin, H. J. Kwon, S. H. Jin and N. S. Kim, Voice activity detection based on conditional MAP criterion, IEEE Signal Processing Letters, vol. 15, pp. 257-260, Feb. 2008. [8] J.-M. Kum, J.-H. Chang, Speech Enhancement Based on Minima Controlled Recursive Averaging Incorporating Second-Order Conditional MAP Criterion, IEEE Signal Processing Letters, vol. 16, pp. 624-627, July, 2009. [9] ITU-T P.862, Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs, 2001. [10] J.-H. Chang, Q.-H. Jo, D. K. Kim and N. S. Kim, soft decision employing support vector machine for speech enhancement, IEEE Signal Processing Letters, vol. 16, pp. 57-60, Jan. 2009. [11] I. Cohen, Speech enhancement using a noncausal a priori SNR estimator, IEEE Signal Processing Letters, vol. 11, no. 9, pp 725-728, Sep. 2004. 금종모 (Jong-Mo Kum) 준회원 2008년 2월인하대학교전자공학과학사 2008년 3월 ~ 현재인하대학교전자공학부석사과정 < 관심분야 > 음성신호처리장준혁 (Joon-Hyuk Chang) 종신회원 2004년 2월서울대학교전기컴퓨터공학부박사 2000년 3월 ~2005년 4월 넷더스연구소장 2004년 5월 ~2005년 4월캘리포니아주립대학, 산타바바라 (UCSB) 박사후연구원 2005년 5월 ~2005년 8월한국과학기술연구원 (KIST) 연구원 2005년 9월 ~ 현재인하대학교전자전기공학부조교수 < 관심분야 > 음성신호처리, 오디오신호처리, 통신신호처리, 휴먼 / 컴퓨터인터페이스 592