222 스펙트럼변이를이용한 Soft Decision 기반의음성향상기법최재훈외 논문 2010-47SP-5-26 스펙트럼변이를이용한 Soft Decision 기반의음성향상기법 ( Robust Speech Enhancement Based on Soft Decision Employing Spectral Deviation ) 최재훈 *, 장준혁 **, 김남수 *** * * (Jae-Hun Choi, Joon-Hyuk Chang, and Nam-Soo Kim ) 요 약 본논문에서는비정상적인배경잡음환경에서음성향상을위한신호의스펙트럼변이 (Spectral Deviation) 을적용한 Soft Decision 기반의잡음전력수정기법을제안한다. 기존의 Soft Decision 기반의잡음전력추정에있어서잡음신호의정상성 (Stationarity) 을가정한스무딩파라미터를사용하여잡음전력을추정하고갱신하였지만, 잡음신호의주파수적인특성이상대적으로빠르게변하는비정상적인환경에서는강인하지못한단점을가지게된다. 본논문에서는신호의스펙트럼변이를추정하여정상적인잡음환경과비정상적인잡음환경에따라적응적으로잡음전력을추정하고갱신하여잡음신호에의해오염된음성신호를향상시킨다. 제안된알고리즘은다양한배경잡음환경에서객관적인음질측정방법인 ITU-T P.862 perceptual evaluation of speech quality (PESQ) 에의해서평가되었으며, 기존의 Soft Decision 기반의음성향상기법과비교하여보다향상된성능을보여주었다 Abstract In this paper, we propose a new approach to estimation incorporating spectral deviation with soft decision scheme to enhance the intelligibility of the degraded speech signal in non-stationary noisy environments. Since the conventional estimation technique based on soft decision scheme estimates and updates the power spectrum using a fixed smoothing parameter which was assumed in stationary noisy environments, it is difficult to obtain the robust estimates of power spectrum in non-stationary noisy environments that spectral characteristics of signal such as restaurant constantly change. In this paper, once we first classify the stationary and non-stationary environments based on the analysis of spectral deviation of signal, we adaptively estimate and update the power spectrum according to the classified types. The performances of the proposed algorithm are evaluated by ITU-T P. 862 perceptual evaluation of speech quality (PESQ) under various ambient environments and show better performances compared with the conventional method. Keywords : Spectral deviation, Non-stationary signal, Soft decision, Speech enhancement * 학생회원, ** 정회원, 인하대학교전자공학부 (Dep. of Electronics Engineering, Inha University) *** 정회원, 서울대학교전자컴퓨터공학부 (School of Electrical Engineering and Computer Science, Seoul National University) 이논문은 2009년도정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된기초연구사업임 (313-2008-2-D00783). 또한본연구는지식경제부및한국산업기술평가관리원의 IT핵심기술개발사업의일환으로수행하였으며 [2009-S-036-01, Development of New Virtual Machine Specification and Technology] 그리고이논문은 2009년정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된연구 (2009-0085162). 접수일자 : 2010년3월11일, 수정완료일 : 2010년8월2일 (711)
2010 년 9 월전자공학회논문지제 47 권 SP 편제 5 호 223 Ⅰ. 서론언제어디서나상대방과의사소통이가능하게하는이동통신기술의발달과함께이동통신단말이폭넓게보급되어현재는 1인 1휴대폰시대로발전하게되었다. 이동하는환경에서상대방과이동통신단말로의사소통하게되는경우, 주위잡음에노출되는빈도가커짐에따라잡음을제거하는음성향상기술에대한연구가큰주목을받고있다. 음성향상기술은크게잡음신호를추정하는부분과음성신호의스펙트럼이득을추정하는부분으로나눌수있으며, 잡음신호를정확하게추정하는것은시스템의성능에직접적인영향을미치게되므로중요한부분이라할수있다. 음성향상시스템에서잡음신호의정확한추정에따라음성품질에큰영향을미치게되는데, 잡음신호를작게추정하게되는경우잔류잡음으로인해부자연스러운음성을듣게되고, 반대로잡음신호를크게추정하는경우음성신호의손실이발생하여음성의명료도가떨어지게된다. 기존의잡음신호의추정방법에는음성검출기 (Voice Activity Detector: VAD) 를이용하여음성이존재하지않는구간에서잡음신호를평균화하여구하는방법이있다. VAD를이용한잡음추정방법은신호대잡음비 (Signal-to-Noise Ratio: SNR) 가낮은환경이나비정상적인잡음환경에서정확한잡음추정이어려운단점들이존재한다 [1~3]. 최근잡음신호의추정에서가장주목받고있는방법들은최소통계잡음추정 (Minimum statistics), Soft decision에기반한잡음전력추정법및최소값제어재귀평균 (Minima Controlled Recursive Averaging: MCRA) 으로써, 잡음신호의추정에우수한성능을보인다고알려져있다 [4~7]. 최소통계잡음추정기법은오염된음성구간의휴지구간에서음성신호의전력레벨이잡음신호의전력레벨까지감소한다는사실에착안되었다. 충분히큰윈도우를사용하여최적화된전력스펙트럼스무딩을거친최소잡음전력을추정한후에바이어스 (bias) 보상을통하여잡음신호의전력을추정하게된다 [4, 9]. Soft decision 기반의잡음전력추정방법은음성부재확률 (Speech Absence Probability: SAP) 에기반하여프레임사이의스무딩을통해이전프레임의추정신호를갱신함으로써현재프레임의잡음전력을추정하는방법이다 [5]. 또한최소통계잡음추정기법과 Soft Decision 기반의잡음전력추정방법의장점을주 파수채널별 SAP를가중치로사용하여음성구간보다효율적인잡음추정방법으로알려진최소통계잡음추정기법으로추정된잡음전력에더큰가중치를두고, 반면에비음성구간에서보다견실한잡음추정이가능한 Soft Decision 기법으로추정된잡음전력에더큰가중치를적용한방법또한우수한성능을보임이알려졌다 [6]. 마지막으로최소값제어재귀평균기법은각서브밴드에서신호의존재확률로조절하는스무딩매개변수를이용하여스펙트럼에평균을취하는방법으로써, 각서브밴드에서신호의존재는잡음이섞인신호의국부에너지와윈도우에서의최소값사이의비로결정되고, 이비율과특정임계값과비교하여음성신호의존재유무를결정하는방법이다. 또한음성신호가존재하는부분과음성신호가존재하지않는부분사이에서발생되는변동을줄이기위해시간축으로도평균을취한다 [7]. 위에서언급된대표적인잡음신호의추정방법들은잡음신호의추정에있어서비교적견실하다는장점을가지고있지만, 보완해야할부분이존재하며성능향상을위한연구또한활발히진행되고있다 [9~10]. 특히잡음구간에서우수한성능을보인다고알려진 Soft decision 기반의잡음전력추정방법의경우스무딩파라미터에의한갱신으로잡음전력을추정하게되는데, 실제사용되는스무딩파라미터의경우, 잡음의정상 (Stationarity) 가정을고려한 을사용한다 [11]. 그러나잡음신호의주파수적특성이상대적으로빠르게변하는비정상적잡음환경에서성능저하가불가피하며, 비정상적잡음환경을고려하여현재프레임의잡음전력에보다큰가중치를적용하여빠른잡음전력의갱신을통하여성능을향상시킬수있는여지가존재한다. 본논문에서는비정상적잡음환경에서잡음신호의스펙트럼변이 (Spectral Deviation) 를이용한 Soft decision 기반의잡음전력추정수정기법을제안한다. 구체적으로, 먼저다양한잡음신호마다고유한스펙트럼변이를분석하고, 분석된잡음신호별스펙트럼변이값에따라잡음전력추정에적용되는스무딩파라미터를정상적잡음환경에서는이전프레임의잡음전력에더큰가중치가적용되도록하고, 비정상적잡음환경에서는현재프레임의추정된잡음전력에보다큰가중치를적용함으로써잡음신호의종류에따라잡음전력추정에사용되는스무딩파라미터가적응적으로변하는 (712)
224 스펙트럼변이를이용한 Soft Decision 기반의음성향상기법최재훈외 알고리즘을제안한다. 제안된알고리즘의성능은다양한잡음환경에서객관적인음질평가방법인 ITU-T P.862 Perceptual Evaluation of Speech Quality (PESQ) 를이용하여평가되었으며, 기존의제안된 Soft Decision 방법보다향상된결과를나타내었다 [12]. 본논문의구성은다음과같다. 먼저 Ⅱ장에서는기존의 Soft decision 기반잡음전력추정기법에대하여서술하고, Ⅲ장에서는제안된잡음신호의스펙트럼변이를이용한 Soft Decision 기반의잡음전력수정기법에대해서기술하였다. ⅣV장에서는실험결과비교및분석을기술하였으며, 마지막 V장에서는결론을맺는다. Ⅱ. 본론 1. Soft Decision 기반잡음전력추정주파수축기반의음성향상에있어서잡음전력의추정은성능에직접적인영향을미치며, 음성향상및음성부호화기등의성능향상에중요한요소로작용한다. 가장널리사용되는방법은음성검출기 (Voice Activity Detector: VAX) 를사용하여음성이없는구간에서만잡음전력을갱신한다. 그러나실제잡음전력은음성부재구간뿐만아니라음성이존재하는구간에서도변화하게되며, 음성구간에서도잡음전력이갱신되어야한다 [11]. 본장에서는대표적인잡음전력추정방법으로 Soft decision에기반한잡음전력추정법에대하여설명한다. 시간축에서음성신호 에잡음신호 이인가되어오염된음성신호 을만들게된다면, 각각의성분을 DFT(discrete Fourier transform) 을통해서주파수축으로다음과같이나타낼수있다. (1) 여기서, 그리고 는각각 번째프레임에대한 번째주파수성분을의미한다. 또한, 잡음신호 는음성신호인 와통계적으로독립이라고가정한다. 음성의통계모델에기반한 Soft Decision 추정을위해음성부재와존재에대한가설을각각 와 이라한다면, 주파수채널에따라다음과같이가정할수있다 [11]. (2) 음성신호 와잡음신호 가통계적으로독립이라는가정과음성신호와잡음신호의스펙트럼이 zero-mean 복소가우시안분포를보인다고가정하면, 제시된가설 와 에따라다음과같은확률밀도함수로표현할수있다 [11]. (3) 식 (3) 에서 와 는각각 번째프레임에대한 번째주파수성분에서의음성과잡음의분산을의미한다. 음성의존재와부재에관한위의가설로부터주파수채널별음성부재확률 (Speech Absence Probability: SAP) 을구하면, Bayes' rule에의하여아래와같이나타낼수있다. (4) 여기서 는음성부재에대한 a priori 확률이고, 는 번째주파수대역의우도비 (likelihood ratio) 로써다음과표현된다. (5) 식 (5) 에서 와 는각각 a posteriori SNR 과 a priori SNR로아래와같이정의된다. (6) (7) (713)
2010 년 9 월전자공학회논문지제 47 권 SP 편제 5 호 225 Soft decision 기반의잡음전력추정은스무딩파라미터에의한갱신으로잡음전력을추정하게되며, Longterm 스무딩된전력스펙트럼추정치 는다음과같이정의된다 [11]. (8) 여기서 는정상 (stationary) 가정을고려한스무딩파라미터로 의범위를갖으며, 일반적으로 로설정된다. 음성의존재와부재를고려하여현재프레임에서의잡음전력의추정치 에주파수채널별 SAP를적용하여나타내면다음과같이표현된다. 여기서 (9) (10) 2. 스펙트럼변이 (Spectral Deviation) 를이용한 Soft Decision 잡음전력추정수정기법기존의 Soft decision 방법은음성부재확률에의하여잡음구간에서 Long-term 스무딩을적용함으로써보다정확한잡음전력을추정한다고알려져있다 [11]. 특히 Long-term 스무딩을적용한식에서보듯이, 스무딩파라미터 의값이 1에가까운가중치값 ( 실제, ) 을통하여잡음전력을추정하게된다. 가중치스무딩파라미터 는잡음신호의정상성을가정한값으로써, 정상적잡음환경에서는견실한추정이가능하지만, 잡음신호의주파수적특성이정상상태의잡음신호와비교해서상대적으로빠르게변하는비정상적잡음환경에서는성능저하가불가피하다. 구체적으로정상상태잡음신호의경우주파수적특성이상대적으로천천히변하기때문에이전프레임에보다큰가중치스무딩파라미터를적용함으로써잡음신호의전력을추정하게되고, 상대적으로천천히잡음신호의전력을갱신하는것이필요하다. 반대로, 주파수적특성이 그림 1. 잡음신호별스펙트럼변이의분포도 Fig. 1. Normalized distributions of spectral deviation of the various signal. 상대적으로빠르게변하는비정상적인잡음환경에서는잡음신호의추정뿐만아니라, 잡음신호전력의갱신이보다빠르게이루어지도록하는것이필요하다. 따라서본논문에서는정상적인잡음환경과비정상적인잡음환경에따라가중치스무딩파라미터를각각의잡음환경에서최적화되어적응적으로적용함으로써잡음신호의전력을추정하고갱신하는 Soft decision 기반의잡음전력추정수정알고리즘을제안한다. 정상적인잡음신호와비정상적인잡음신호를분류하기위해본논문에서는잡음신호의주파수적인특성중의하나인스펙트럼변이 (Spectral Deviation) 를도입한다 [13]. 먼저 번째프레임에서의 번째주파수성분에대한분산은다음과같이나타낼수있다. (11) 여기서 와 는각각현재 번째프레임의 번째주파수성분의전력과이전 번째프레임의 번째의주파수성분의전력을의미하며, 는현재프레임의전력과이전프레임의전력의차로써다음식에의해나타낼수있다. (12) 따라서 번째프레임의 번째주파수성분에대한스펙트럼변이는다음과같이나타낼수있다. (13) (714)
226 스펙트럼변이를이용한 Soft Decision 기반의음성향상기법최재훈외 표 1. 잡음신호별스펙트럼변이값에따른잡음추정및갱신에적용되는스무딩파라미터값 Table 1. The smoothing parameter applied to the estimation and update of the power spectrum according to spectral deviation under various signal. Noise Type white car babble 값 스무딩파라미터값 0.017 0.7 0.99 0.7 1.2 0.98 1.2 10.0 0.97 여기서 는 번째프레임전체의잡음신호에대한전력의기대값을의미한다. 그림 1에는식에의해서구해진 white, car, babble 잡음신호에대한스펙트럼변이의분포도를나타내었다. 그림 1에서보듯이 white 잡음신호의경우 0.017에서 1.699 사이에스펙트럼변이값이주로분포하며, car 잡음의경우 0.0443에서 4.350, babble 잡음의경우는 0.130에서 12.715 사이로스펙트럼변이값이가장넓게분포됨을확인할수있다. 따라서본논문에서는표 1에서와같이세가지잡음신호별스펙트럼변이값에따라잡음신호별가중치스무딩파라미터의값을제안한다. 기존의제안된 Long-term 스무딩된전력스펙트럼추정치 에새롭게제안된잡음신호별가중치 스무딩파라미터 와결합하면다음과같이정의할수있다. (14) 식 (14) 에서새롭게정의된잡음전력 의적용으로써본논문에서는 musical 잡음의제거에탁월한성능을가진것으로알려져있는 Ephraim-Malah suppression (EMSR) 을이득함수로선택한다. 일반적으로오염된음성신호에잡음제거이득을곱함으로써잡음이제거된음성신호를추정하게되는데, 다음과같이나타낼수있다 [1]. (15) MMSE (Minimum Mean Square Error) 에기반한잡음제거이득 는다음과같이주어진다. 여기서 는다음식에의해주어진다. (16) (17) 식 (17) 에서보듯이잡음제거이득의주요파라미터인 a priori SNR은깨끗한음성신호의전력으로부터구해지기때문에, 다음과식과같이깨끗한음성신호의전력을추정하게된다. (18) 식 (18) 에서 는 의범위를갖는스무딩파라미터이고, 음성부재를고려한 는주파수채널별음성부재확률을적용하면다음과같이표현된다. (19) 잡음제거이득의주요파라미터는 a priori SNR 과 a posteriori SNR 이며, 새롭게구해진잡음전 표 2. 다양한배경잡음환경에서제안된알고리즘대비기존의 Soft Decision 기반의잡음전력추정기법의 PESQ 비교 Table 2. The PESQ results for the proposed algorithm with respect to the conventional method based on Soft Decision under various background environments. Noise type babble car white SNR (db) Method Conventional Proposed algorithm algorithm 5 db 2.344 2.387 10 db 2.668 2.700 15 db 2.958 2.973 5 db 3.315 3.320 10 db 3.600 3.603 15 db 3.837 3.832 5 db 2.088 2.093 10 db 2.432 2.435 15 db 2.756 2.758 (715)
2010 년 9 월전자공학회논문지제 47 권 SP 편제 5 호 227 력 을적용하면각각다음과같이나타낼수있다. Ⅳ. 결론 (20) (21) Ⅲ. 실험분석및비교 본논문에서는제안된스펙트럼변이를이용한 Soft decision 기반의잡음전력수정기법의성능을평가하기위해서, 다양한배경잡음환경에서 ITU-T P.862 의객관적인음질측정방법인 perceptual evaluation of speech quality (PESQ) 로실험을진행하였다 [12]. 먼저, NTT 한국어음성데이터베이스에서 20세에서 35세사이의남녀각각 4명씩의음성샘플을추출하였으며, 음성샘플의총길이는 8초이고, 8 khz로샘플링하였다. 원단의다양한배경잡음을위해서, NOISEX-92 데이터베이스로부터추출된 white, babble, 그리고 vehicle 잡음이 SNR 5, 10, 15 db로섞이도록하였다. 실험에서사용된음성데이터에는먼저제안된기법에의한잡음전력의추정치가 MMSE 기반의잡음제거알고리즘에적용되어, 잡음이제거된음성데이터와잡음이섞이지않은깨끗한음성데이터와의 PESQ를수행하였다. 또한기존의정상적인잡음환경을가정한 Soft decision 기반의기법과의비교를위해, Soft decision 기반의기법을 MMSE 기반의잡음제거알고리즘에적용하였으며, 잡음전력의추정및갱신을위한스무딩파라미터의경우정상상태를가정한 를사용하여실험을진행하였다. 표 2에는다양한잡음환경과 SNR에대해서제안된스펙트럼변이를이용한 Soft decision 기반의잡음전력추정수정기법과기존의제안된기법과의 PESQ 결과를보여준다. 표 2의결과에의하면 babble 잡음, car 잡음, white 잡음에서평균적으로향상된수치를확인할수있었다. 실험결과를통하여제안된스펙트럼변이를이용한 Soft decision 기반의잡음전력추정수정기법은기존의정상상태를가정한 Soft decision 기법과비교하여특히가장대표적인비정상적인잡음신호인 babble 에서보다향상된결과를보여줌을확인할수있었다. 본논문에서는비정상적인잡음환경에서, 잡음신호의고유한주파수적인특성중의하나인스펙트럼변이를이용한 Soft decision 기반의잡음전력추정수정기법을제시하였다. 먼저잡음신호별스펙트럼변이를구한후에, 잡음신호에따른스펙트럼변이에따라각각의잡음신호에최적화되어적응적으로 Long-term 스무딩파라미터가적용되도록기존의 Soft decision 잡음전력추정기법에결합하였다. 객관적인음질측정방법인 PESQ를통하여기존의정상적인잡음환경을가정한잡음전력추정기법과비교하여제안된알고리즘은 babble 잡음에대해서는 0.030, car 잡음에대해서는 0.001, white 잡음에대해서는 0.003 향상된결과를보여주었다. 감사의글 이논문은 2009년도정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된기초연구사업임 (313-2008-2-D00783). 또한본연구는지식경제부및한국산업기술평가관리원의 IT핵심기술개발사업의일환으로수행하였으며 [2009-S-036-01, Development of New Virtual Machine Specification and Technology] 그리고이논문은 2009년정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된연구 (2009-0085162). 참고문헌 [1] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Trans. Acous., Speech, Signal Process., vol. ASSP-32, no. 6, pp. 1109-1121, Dec. 1984. [2] S. F. Boll, Suppression of acoustic in speech using spectral subtraction, IEEE Trans. Acoust., Speech, Signal Process., ASSP-27 (2) 113-120, Apr. 1979. [3] R. J. McAualy and M. L. Malpass, Speech enhancement using a soft-decision suppression filter, IEEE Trans. Acoust., Speech, Signal Processing., ASSP-28, 137-145, Apr. 1980. (716)
228 스펙트럼변이를이용한 Soft Decision 기반의음성향상기법최재훈외 [4] R. Martin, Spectral subtraction based on minimum statistics, in Proc. 7th EUSIPCO'94, Edinburgh, U.K., pp. 1182-1185, Sept. 1994. [5] J. Sohn, W. Sung, A voice activity detector employing soft decision based spectrum adaptation, in Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing., pp. 365-368, 1998. [6] Y. -S. Park, J. -H. Chang, A probabilistic combination method of minimum statistics and soft decision for robust power estimation in speech enhancement, IEEE Signal Processing Letters, vol. 15, pp. 95-98, Jan. 2008. [7] I. Cohen, B. Berdugo, Noise estimation by minima controlled recursive averaging for robust speech enhancement, IEEE Signal Processing Letters, vol. 9, no. 1, pp. 12-15, Jan. 2002. [9] R. Martin, Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics, IEEE Trans. On Speech and Audio Processing., 9 (5) pp. 504-512, July 2001. [10] I. Cohen, Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging, IEEE Trans. Speech Audio Process., vol. 11, no. 5, pp. 466 475, Sep. 2003. [11] N. S. Kim and J. H. Chang, `Spectral enhancement based on global soft decision, IEEE Signal Processing Letters, vol. 7, no. 5, pp. 108-110, May 2000. [12] Perceptual Evaluation of Speech Quality (PESQ), an Objective Method for End-to-End Speech Quality Assessment of Narrow-Band Telephone Networks and Speech Codecs 2001, ITU-T P.862. [13] TIA/EIA/IS-127, Enhanced variable rate codec, speech service option 3 for wideband spread spectrum digital systems, 1996. 저자소개 최재훈 ( 학생회원 ) 2007 년인하대학교전자전기공학부학사. 2008 년삼성전자정보통신총괄연구원. 2009 년인하대학교전자공학과석사. 2010 년인하대학교전자공학과박사과정. < 주관심분야 : 디지털음성신호처리 > 장준혁 ( 정회원 ) 1998 년경북대하교전자공학과학사. 2000 년서울대학교전기공학부석사. 2004 년서울대학교전기컴퓨터공학부박사. 2000 년 2005 년 ( 주 ) 넷더스연구소장 2004 년 2005 년캘리포니아주립대학, 산타바바라 (UCSB) 박사후연구원 2005 년한국과학기술연구원 (KIST) 연구원 2005 년 현재인하대학교전자공학부조교수 < 주관심분야 : 음성신호처리, 오디오신호처리, 통신신호처리, 휴먼 / 컴퓨터인터페이스 > 김남수 ( 정회원 ) 1988 년서울대학교전자공학과학사 1990 년한국과학기술원전기및전자공학과석사 1994 년한국과학기술원전기및전자공학과박사 1994 년 1998 년삼성종합기술원전문연구원 1998 년 현재서울대학교전기공학부교수 (717)