논문 09-34-10-04 한국통신학회논문지 '09-10 Vol. 34 No. 10 Tracking Echo-Presence Uncertainty 기반의잔여반향억제 정회원박윤식 *, 종신회원장준혁 ** Residual Echo Suppression Based on Tracking Echo-Presence Uncertainty Yun-Sik Park* Regular Member, Joon-Hyuk Chang** Lifelong Member 요 약 본논문에서는주파수영역에서음향학적반향억제 (AES, acoustic echo suppression) 성능을개선시키기위해 tracking echo-presence uncertainty (TEPU) 기법에근거한새로운잔여반향억제 (RES, residual echo suppression) 알고리즘을제안한다. 제안된방법은 RES를위해마이크로폰입력신호대원단의반향신호가제거된결과신호의전력비 (ratio) 를문턱 (threshold) 값에의한 decision rule에적용하여추정된 echo-presence uncertainty를 RES 필터로이용한다. 제안된알고리즘은각각의주파수채널에서 echo-presence uncertainty를도출하여용이하게잔여반향신호를제거하는장점을가진다. 실제로잔여반향신호를제거하기위한기존의방법과객관적인실험을통해비교평가한결과우수한성능을보였다. Key Words : Acoustic Echo Suppression, Residual Echo Suppression ABSTRACT In this paper, we propose a novel approach to residual echo suppression (RES) algorithm based on tracking echo-presence uncertainty (TEPU) to improve the performance of acoustic echo suppression (AES) in the frequency domain. In the proposed method, the ratio of the microphone input and the echo-suppressed output signal power is employed as the threshold value for the decision rule to estimate the echo-presence uncertainty applied to the RES filter. The proposed RES scheme estimates the echo presence uncertainty in each frequency bin and effectively reduces residual echo signal in a simple fashion. The performance of the proposed algorithm is evaluated by the objective test and yields better results compared with the conventional schemes. Ⅰ. 서론일반적으로핸드프리 (hand-free) 통신이나 PC 메신저 (messenger) 시스템에서는통화음질을저해하는음향학적반향 (acoustic echo) 이발생할수있다 [1]-[3]. 이러한음향학적반향은음향학적반향 억제 (AES, acoustic echo suppression) 알고리즘을사용함으로써제거될수있는데실제반향경로와반향경로추정필터 (filter) 에의해추정된반향경로의차이및실제적인통신환경에서발생할수있는다양한요소로인해반향신호제거후에도여전히잔여반향 (residual echo) 신호가존재하게된 이논문은 2009 년정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된연구임 (2009-0072319) 또한본연구는지식경제부와한국산업기술재단의전략기술인력양성사업으로수행된연구결과임. * 인하대학교전자공학과 DSP 연구실 (yspark@dsp.inha.ac.kr) ** 인하대학교전자공학과 (changjh@inha.ac.kr) 논문번호 :KICS2009-06-263, 접수일자 : 2009 년 6 월 27 일, 최종논문접수일자 :2009 년 10 월 8 일 955
한국통신학회논문지 '09-10 Vol. 34 No. 10 다 [4]. 따라서잔여반향신호를제거하기위해 Wiener 필터나 [3] MMSE (minimum mean square error) 기반의잔여반향억제필터를추가적으로이용하는잔여반향억제 (RES, residual echo suppression) 알고리즘이널리사용되어왔으며 [5] 최근에는음성의통계적모델에기반한 soft decision 방법을 AES의이득에적용하여잔여반향신호를제거하는이득수정 (gain modification) 기법이제시되었다 [6]. 본논문에서는 AES의성능개선을위해 tracking echo-presence uncertainty (TEPU) 기법을도입하여간단하면서도효과적으로잔여반향신호를제거하는새로운 RES 알고리즘을제안한다. 제안된방법은 RES를위해마이크로폰입력신호대원단 (far-end) 의반향신호가제거된결과신호의전력비 (ratio) 를문턱 (threshold) 값에의한 decision rule에적용하여추정된 echo-presence uncertainty를 RES 필터로이용한다 [7]. 제안된방법의객관적인성능비교를위해 ERLE (echo return loss enhancement) 와 SA (speech attenuation) 테스트를실시하였으며제안된기법은기존의방법보다우수한성능을보였다. Ⅱ. Soft Decision 기반의 Gain Modification 주파수영역에서의 RES 알고리즘이적용된 AES 시스템블록도는그림 1과같다. 음향학적반향억제기에서반향신호, 배경잡음, 근단 (near-end) 화자신호, 원단신호와마이크입력신호를각각, 라한다며음성의통계모델에기반한 soft decision 추정을위해근단화자신호가존재하지않을때와존재할경우각각의가정, 는다음과같이표현할수있다. near-end speech absent (1) near-end speech present 여기서 는주파수영역에서 의 번째프레임의 번째주파수성분으로나타내며통계적모델을위해근단화자신호와배경잡음은상관관계가없고반향신호 는근단화자신호인 와통계적으로독립이라가정한다. 원단신호와근단화자신호가 complex Gaussian 분포를따른다는가정에서 와 의확률밀도함수는다음과같다 [8]. (2) (3) 여기서, 는각각근단화자신호와추정된반향신호의전력을나타내며 Bayes' rule에의하여각주파수채널별 near-end speech absence probability를구하면아래와같이표현된다 [8]. (4) 여기서 이고 soft decision의성능향상을위해근단화자신호의부재에대한가변선행확률 (a priori probability) 을 에적용한다 [5],[6]. 위의 (2) 식과 (3) 식을 (4) 식에대입하면 likelihood ratio 는다음과같다 [9]. (5) 여기서, 파라미터로, 는각각 a poste- 그림 1. 음향학적반향억제기의블록도. 956
논문 / Tracking Echo-Presence Uncertainty 기반의잔여반향억제 riori SER (signal to echo ratio) 과 a priori SER로아래와같이정의된다 [6]. (6) (7) 또한 (7) 식에서 을추정하기위해다음과같이 Decision-Directed 추정방법을적용한다 [10]. (8) (8) 식에서 는가중치파라미터, 는 이고, 을의미하는연산자이며반향신호의전력스펙트럼추정치 이다. 는기대값연산자이며다양한반사경로를거쳐마이크로폰으로전달되는원단신호의주파수성분 로부터반사경로를고려한임펄스응답에대한추정된반향신호 는 least squares 추정방법에기반하여다음과같이나타낼수있다 [11]. (9) 여기서 는 complex conjugate를의미한다. 최종적으로, soft decision 기반의 gain modification이적용된 AES의이득은 near-end speech presence probability 을결합하여다음과같이나타낼수있다 [6]. (10) 여기서 는입력신호로부터반향신호가제거된결과신호의주파수성분이며 는 MMSE 추정기반의반향억제이득을의미한다 [10]. Ⅲ. 제안된 Tracking Echo Presence Uncertainty 기반의잔여반향억제 2장에서는주파수영역에서효과적인 AES를위하여 RES에서향상된성능을보이는 soft decision 기반의 gain modification 방법에대하여살펴보았다. 일반적으로이러한 gain modification 기법이나추가적으로 Wiener 필터나 MMSE 추정기반의제 거이득을사용하는 RES 알고리즘에서는 [5] 주요파라미터로서 a posteriori SER과 a priori SER이사용된다. 따라서파라미터의추정에의한계산량이증가하고특히, a priori SER 의추정을위해간단하면서 musical 잡음제거에우수한성능을보인다고알려진 (8) 식의 Decision-Directed이주로사용되는데이는음성이급격히변화하는전이구간에서프레임지연에의한음성왜곡을일으키는단점이있다 [12]. 따라서본논문에서는 AES의성능개선을위해 tracking echo-presence uncertainty (TEPU) 기법을도입하여간단하면서도효과적으로잔여반향신호를제거하는새로운 RES 알고리즘을제안한다. 제안된방법은 RES를위해마이크로폰입력신호 와원단의반향신호가제거된결과신호 의전력비를문턱값에의한 decision rule에적용하여 [7] 추정된 echo-presence uncertainty 를 RES 필터에적용한다. TEPU를위하여반향신호가존재하지않을때와존재할경우각각의가정, 는다음과같이표현할수있다. far-end echo absent far-end echo present (11) (11) 식에서의반향신호 에대한존재유무는다음과같은문턱값 에의한 decision rule에의해간단하게결정될수있다 [7]. (12) 여기서, 는마이크로폰입력신호와반향신호가제거된결과신호의전력비로서다음과같다. (13) (14) (15) 여기서, 는 smoothing 파라미터이다. 최종적으로 echo-presence uncertainty를적용한 RES 필터 는다음과같이나타낼수있다. (16) 여기서 은 smoothing 파라미터이고 는 957
한국통신학회논문지 '09-10 Vol. 34 No. 10 (12) 식의결정에의해 이면, 이면 을갖는 index 함수이다. 구체적으로본논문에서제안된기법은기존에잡음제거 (noise suppression) 와 AES를위한 gain modification에서잡음에대한음성신호 [7] 그리고반향신호에대한근단화자신호의 a priori probability를추정하기위해각각적용되어왔으나 [6] 잡음, 원단의반향신호, 동시통화및근단화자신호구간이존재하는 AES 통계모델에서는 RES를위한필터로이용하기에부적합하였다. 하지만제안된방법은 (13) 식의입력신호대결과신호의전력비 가반향신호가제거된구간에서만상대적으로문턱값 보다큰값을가지게되고 (12) 식의 decision rule과 (16) 식의 index 함수 에의하여결국원단반향신호만이존재하는구간에서 0에가까운값을가지고그외구간에서는 1에가까운값을가지게되는 RES 필터 를도출하게된다. 따라서제안된 RES 알고리즘은입력신호와결과신호의간단한비를통하여 (11) 식의통계모델에적용하기용이하며또한간단하게적용된알고리즘에의한 를통하여잔여반향신호를효과적으로제거할수있는이점을가진다. 최종결과신호의주파수성분 는 RES 필터가적용된형태로다음과같이나타낼수있다. 여기서 RES (17) 필터를거치기전의결과신호 는 (10) 식과같이 MMSE 추정기반의 AES 이득에의해도출된다. (18) 여반향의제거정도를측정하는 ERLE (echo return loss enhancement) 와동시통화구간에서의음성의보존도를평가하는 SA (speech attenuation) 테스트를실시하였다. 음향학적반향신호의감쇠정도와음성보존도를측정하기위한 와 SA는다음과같이나타낼수있다 [4]. (19) (20) 식 (20) 에서 은동시통화구간의샘플수이고 는출력신호의 에서의근단화자신호성분을의미한다. 테스트샘플을위해 7명의화자로부터얻은 8kHz로샘플링된 20개의문장을수집하고각문장을원단화자와근단화자신호로분류하여합성하였다. 원단화자신호로분류된음성은섞기전에반사경로를고려한실제환경을모델링하기위해임펄스응답필터를통과시키고입력마이크로폰으로들어가는반향신호는근단화자신호보다 3.5 db 작게하였다 [4],[13],[14]. 모델링환경의장소는 크기로설정하였고잡음환경을위해서 white, babble과 vehicular 잡음을다양한 SNR (signal-tonoise ratio) 로부가하였다. 그리고제안된알고리즘에적용된파라미터와문턱값은성능평가에사용된테스트샘플에기반하여,,,, 로설정하였다. 그림 2는주파수영역에서반향억제에우수한성능을보인다는 Wiener 필터및이보다향상된 soft decision 기반의 gain 그리고기존및제안된반향억제알고리즘에서는동시통화 (double-talk) 구간에서의반향경로추정이득의갱신에의한오차를줄이기위해교차상관 (cross-correlation) 계수에기반한동시통화검출기 (DTD, double-talk detector) 를주파수영역에서적용하였다 [1]. Ⅳ. 실험결과 본논문에서는제안된알고리즘의성능평가를위해다양한잡음환경에서객관적인실험을수행하였다. 성능평가는근단화자신호가없을때원단신호구간에서반향억제후여전히남아있는잔 그림 2. AES 알고리즘의성능비교 : (a) ERLE 비교. (b) 음성보존도 (SA) 비교. 958
논문 / Tracking Echo-Presence Uncertainty 기반의잔여반향억제 modification을적용한 AES 알고리즘과제안된방법에대한다양한잡음환경에서의 ERLE와 SA의평균수치를비교한것이다. 기존의반향억제이득에대한연구결과와기법을 [6] 기반으로그림 2의 (a) 에서제안된 RES 알고리즘은다양한 SNR 환경에서기존의기법보다향상된 ERLE 수치및전체적으로 Wiener 필터기반의기법보다평균 7 db, gain modification 방법보다는대략 3 db의향상된 ERLE를보이고있으며그림 (b) 로부터제안된알고리즘이 Wiener 필터기반의기법보다는전체평균 0.2 db의향상된음성보존도및 gain modification 방법과는거의일치하는음성보존도를유지하는것을볼수있다. 그림 3은배경잡음으로서 babble 잡음이 SNR=20 db로부가되고원단신호가섞여있는입력신호에대하여제시된알고리즘의한시간에따른 ERLE 변화를보여주고있다. 그림 3으로부터제안된기법이기존의방법보다반향신호를제거함에있어서향상된 ERLE 변화를나타내고있음을알수있다. 또한그림 4는제시된알고리즘에의해서도출된최종음성파형들을보여주고있다. 그림 4로부터제안된 RES 방법에의한음성파형에서는기존의방법에의해원단반향신호구간에서의인지가가능한정도의잔여반향신호가효과적으로제거됨으로서테스트샘플의음질에서도향상을가져오는것을확인할수있다. 최종적으로실제반향경로가변화하는환경을고려하여다양한방크기에의해반향경로를달리하는 [13] 1분 30초의그림 2와동일한잡음환경에서의테스트샘플에대하여제안된알고리즘을적용하였다. 그림 5는다양한반향경로를적용한테스트샘플에대한 ERLE 및 SA 결과를보여주고있다. 그림 5로부터제안된알고 그림 4. 음성파형비교 (babble noise, SNR=20 db): (a) 마이크로폰입력신호 (b) Far-end 반향신호 (c) 위너필터기반 AES 에의한결과음성 (d) soft decision 기반 AES 에의한결과음성 (e) 제안된 RES 에의한결과음성. 그림 5. 반향경로가변화하는환경에서의 AES 알고리즘의성능비교 : (a) ERLE 비교. (b) 음성보존도 (SA) 비교. 리즘이기존의알고리즘에대하여 ERLE에서는향상된결과를보이지만 SA에서는성능저하를보이는것을알수있다. 이러한현상은제안된알고리즘의성능이 (12) 식의문턱값에크게좌우되므로보다향상된성능을위해서는효과적인문턱값을적용해야하는개선점이요구된다. Ⅴ. 결론 그림 3. 기존의 AES 와제안된알고리즘의 ERLE 비교 (babble noise, SNR=20 db) 본논문에서는 AES 알고리즘에서잔여반향신호를효과적으로제거하기위해새로운 RES 기법을제안하였다. 제안된방법은마이크로폰입력신호대원단반향신호가제거된결과신호의전력비를문턱값에의한 decision rule에적용하여 echo- presence uncertainty를추정하는 TEPU 기법을 RES 필터에적용하였다. 객관적테스트결과로부터제안된방법 959
한국통신학회논문지 '09-10 Vol. 34 No. 10 이간단하면서도효과적으로기존의방법과같이음성보존도는비슷하게유지하면서잔여반향억제에서는개선된결과를나타내었다. 참고문헌 [1] S. J. Park, C. G. Cho, C. Lee, and D. H. Youn, Integrated echo and noise canceler for hands-free applications, IEEE Trans. on Circuits and Systems II, vol. 49, issue 3, pp. 186-195, Mar. 2002. [2] S. J. Park, C. Lee, and D.H. Youn, A residual echo cancellation scheme for hands-free telephony, IEEE Signal Process. Letters, vol. 9, no. 12, pp. 397-399, Dec. 2002. [3] V. Turbin, A. Gilloire, and P. Scalart, Comparison of three post-filtering algorithms for residual acoustic echo reduction, in Proc. ICASSP, pp. 307-310, 1997. [4] S. Y. Lee and N. S. Kim, A statistical model based residual echo suppression, IEEE Signal Processing Letters, vol. 14, no. 10, pp. 758-761, Oct. 2007. [5] J.-H. Chang, H. G. Kim, and S. Kim, Residual echo reduction based on MMSE estimator in acoustic echo canceller, IEICE Electronic Express, vol. 4, no. 24, pp. 762-767, Dec. 2007. [6] Y.-S. Park and J.-H. Chang, Frequency domain acoustic echo suppression based on soft decision, IEEE Signal Processing Letters, vol. 16, pp. 53-56, Jan. 2009. [7] D. Malah, R. Cox, and A. Accardi, Tracking speech-presence uncertainty to improve speech enhancement in non-stationary noise environments,'' in Proc. IEEE ICASSP 1999, pp. 789-792. [8] R. J. McAualy and M. L. Malpass, Speech enhancement using a soft-decision noise suppression filter, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-28, pp. 137-145, Apr. 1980. [9] N. S. Kim and J.-H. Chang, Spectral enhancement based on global soft decision, IEEE Signal Processing Letters, vol. 7, no. 5, pp. 108-110, May 2000. [10] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator,'' IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-32, no. 6, pp. 1109-1121, Dec. 1984. [11] C. Faller and C. Tournery, Estimating the delay and coloration effect of the acoustic echo path for low complexity echo suppression, in Proc. Intl. Works. on Acoust. Echo and Noise Control (IWAENC), 2005. [12] O. Cappé, Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor, IEEE Trans. Speech Audio Process., vol. 2 no.2, pp. 345-349, Apr.1994. [13] S. McGovern, A model for room acoustics, 2003 [Online]. Available: http://2pi.us/rir.html [14] 박윤식, 장준혁, 음향학적반향억제를위한 Soft Decision 기반의동시통화검출,'' 한국음향학회지, 제28권, 제3호, pp. 285-289, 2009. 6월. 박윤식 (Yun-Sik Park) 정회원 2006년 2월인하대학교전자공학과학사 2008년 2월인하대학교전자공학부석사 2008년 3월~현재인하대학교전자공학부박사과정 < 관심분야 > 음성신호처리장준혁 (Joon-Hyuk Chang) 종신회원 1998년 2월경북대학교전자공학과학사 2000년 2월서울대학교전기공학부석사 2004년 2월서울대학교전기컴퓨터공학부박사 2000년 3월~2005년 4월 넷더스연구소장 2004년 5월~2005년 4월캘리포니아주립대학, 산타바바라 (UCSB) 박사후연구원 2005년 5월~2005년 8월한국과학기술연구원 (KIST) 연구원 2005년 9월~현재인하대학교전자공학부조교수 < 관심분야 > 음성신호처리, 오디오신호처리, 통신신호처리, 휴먼 / 컴퓨터인터페이스 960