기록물보존복원제 5 호, PP.37~46 2012 국가기록원음성기록물의복원과분석 강홍구 * 국가기록원의음성기록물은우리나라의근현대사를담은중요한기록물이다. 하지만아날로그로녹음된방식은시간이지남에따라손실을피할수없어디지털로변환하여관리및서비스할필요성이있다. 그에따라왜곡이발생한부분에대해본래의정보를복원하는작업은매우중요하며, 본논문은음성기록물의훼손종류에따라 5가지의카테고리로분류하고음량, 정상잡음, 돌발잡음에맞는복원알고리즘을적용하였다. 특히기존에는음성이훼손된부분을순차적으로청취하여개별적으로문제를해결해야했기때문에방대한자료를복원하기는불가능했지만자동복원알고리즘을도입하여보다효율적인방식으로복원할수있게되었다. Ⅰ. 서론 지난 100여년간음성및오디오데이터를효과적으로저장하기위한기술은매우급격히발전되어왔다. 특히, 디지털방식으로저장된데이터는아날로그방식과는달리시간에따른열화없이반영구적으로보존할수있으므로그만큼보관및관리하는데드는노력이현저하게줄어들며, 언제든처음녹음했을때의음질을유지할수있다. 하지만아날로그방식은시간이지남에따라녹음된 LP판이나자기테이프의변형에따른데이터의손실을피할수없으며, 반복적으로재생할경우에도저장매체의변형이따를수밖에없는한계점을지니고있다. 이러한문제를해결하기위해현재아날로그데이터를디지털로변환하기위한필요성이대두되고있으며, 변환과정에서왜곡이발생한부분에대해신호처리기법을이용하여본래의정보를복원하려는작업역시매우중요하다. 예를들면 LP판의경우판위에위치해있는핀이비정형적으로동작함에따라임펄스형태의잡음을생성하며, 자기테이프또한먼지나이물질, 그리고테이프의물리적변형에의해다양한형태의 잡음이생성된다. izotoperx는오디오신호를복원하는프로그램으로, 사용자로하여금직접잡음의위치와종류를식별하게하고, 이후복원기술을적용하는반자동형태를취하고있다 1). 이때문에방대한음성자료를순차적으로청취하여훼손된부분을판별한후, 개별적으로문제를해결하는것은시간및비용측면에서매우비효율적이며, 그효과또한기대하기어렵다. 따라서자동으로왜곡을보정하고복원하기위한연구에대한중요성은매우크다. 자동복원시스템의효율을높이기위해서는왜곡의특성에따라신호를분류하기위한기술이선행되어야하며, 신호처리기법을응용하여각각의왜곡에적합한복원방식을개발하여야한다. 국가기록원음성자료는우리나라의근현대부터현재까지의중요하고의미있는음성자료들을모아놓은것으로이것을분석하고복원하는것은매우큰의의가있다. 기존의연구들은특정한잡음에대한실험을하였으나, 본연구는축적된매우방대한양의데이터베이스에대한훼손정도분석과복원을한다. * 연세대학교전기전자공학과교수 hgkang@yonsei.ac.kr CONSERVATION OF THE ARCHIVES 37
II. 국가기록원음성자료 실험에사용한데이터베이스는국가기록원에서현재소장하고있는데이터로, 15,735개의음성파일이며전체가약 16,000시간의재생시간을가지고있는방대한데이터베이스이다. 대부분이음성만을포함하고있는것이특징이다. 그림1은데이터베이스의연도별파일의개수를나타낸다. 1940년대에녹음된파일부터최근 2008년까지녹음된파일이며주로 1990년대녹음된데이터가주를이루고있다. 녹음매체별파일의개수는표1과같다. 그림1. 연도별파일의개수표1. 녹음매체별파일의개수녹음테이프카세트녹음테이프릴음반 CD 12,413 2,025 730 1900년대에주로사용되었던녹음테이프의숫자가가장많은빈도수를차지하고있다. 그림2. 음성자료의분류방법과카테고리배경잡음의통계적특성에변화가별로없는신호로서잡음의파워스펙트럼을추정하여스펙트럼신호대잡음비 (SNR) 를예측하는방식으로잡음이섞여있는정도를측정할수있다. 돌발잡음은단구간에너지의 2차미분계수와고대역에너지의양을측정하여검출하고이것을선형예측기법을사용하여품질을개선한다. 마지막으로왜곡과음성소실카테고리는음성의정보가크게변형되거나소실된경우이다. 소실된음성의경우주파수밴드별에너지를기준으로측정하여판단할수있으며, 복원이매우어렵기때문에구분만하도록한다. 2. 음량측정및조절 음량을측정할때에는전체구간이아닌음성구간만을기준으로음량을측정해야한다. 이것을유효음압수준 (Active Speech Level) 이라고한다 11). 우선, 음성신호의 envelope, 를구하기위해다음과같은식을이용한다. III. 음성의분류및복원알고리즘 1. 음성자료의분류 그림2와같이음성자료를구분하기위해서 4가지의파라미터를사용하며왼쪽부터차례대로잡음을검출한뒤에복원하는순서를거치게된다. 우선음압을측정하여음량의크기가너무작거나큰경우는음량카테고리에포함시킨다. 음량은 -26dBov로조정하였다. 잡음카테고리는정상 (stationary) 잡음과돌발 (abrupt) 잡음으로구분할수있다. 정상잡음은 (1) 여기서, 는음성을 exponential 평균한값이다. 는시간상수의값으로로정의된다. 여기서는시간상수로 0.03초값을쓰고는샘플간의시간차로샘플링주파수의역수값이다. 음성신호의 envelope을임계값과비교해서크면음성이임계값보다활성화되었다고하고그때마다숫자를누적한다. 각각의샘플마다값이지속적으로누적되면묵음 ( 혹은정 38 CONSERVATION OF THE ARCHIVES
상잡음 ) 이있는부분에서의값은매우커지고상대적으로큰값을가지는음성부분의값은묵음구간에비해누적량이적다. 이후유효수준의파워와임계값의파워가 margin (=15.9dB, tolerance 0.5) 안에들어오게되면그값을유효음압수준으로정의한다 11). 그리고이후음량조절시이득값을곱해서 -26dBov로일정하게음량을조절한다. 3. 신호대잡음비측정과정상잡음제거 음성신호는정상잡음이더해진형태로나타나기때문에음성의크기가조절된이후에는정상잡음의크기또한함께변화하는문제가있다. 이논문에서는정상잡음의제거를위해 MMSE 예측기를사용한 OM-LSA(Optimally Modified Log- Spectral Amplitude) 방식을도입하였다 2). 잡음추정기는음질향상시스템의전체성능을결정하는핵심부분으로잡음이음성에비해상대적으로느리게변화한다는가정에근거하여, 일반적으로음성이존재하지않는구간에서측정된신호의평균파워를잡음의파워스펙트럼으로추정한다. 여기서계산된잡음의파워스펙트럼정보는신호대잡음비추정기에사용되고여기서계산된선행신호대잡음비, 사후신호대잡음비등의정보는이득추정기에서사용된다. 이때, 신호대잡음비추정기에서추정된선행신호대잡음비 (a priori SNR) 값을가지고정상잡음이얼마나포함되어있는지를측정하였다. 충격잡음과유사한특성을가지므로 Whitening에대한성능향상도기대할수없다 8) 9). 이를해결하기위해모음의주기성을이용한알고리즘도제안되었으나충격잡음이반복해서나타나는경우에서취약하다 10). 본논문은주파수축에서는고대역에너지를이용하고시간축에서는 2차미분계수의단구간에너지를이용한돌발잡음검출방법을사용하였다 12). 4.1. 2 차미분계수를이용한돌발잡음검출 2차미분계수는신호가급격하게변하는부분에서큰값을가지게되기때문에시간축에서신호가급변하는부분을찾아낼수있다는장점을가진다 5). 입력신호를으로정의하면입력의 2차미분계수은다음과같다. (2) 그에대한단구간에너지은다음과같다. (3) 배경신호를추정하고그보다급격하게값이튀는부분을찾기위해서 recursive median filter(rmf) 를이용한다. 배경신호의 2차미분계수의단구간에너지은다음과같다. 4. 돌발잡음위치검출 (4) 돌발잡음의경우일반적인잡음과달리그크기가매우크고, 빠르게변화하며잡음이존재하는시간이매우짧은특성을갖는다. 이와같은특성으로인해돌발잡음의크기를추정하는것은매우어려운일이며, 특히음성이존재하는구간에서돌발잡음이발생하는경우엔그크기를추정하기매우어렵다. 따라서일반적인돌발잡음제거기법은비선형필터를사용하는방향으로개발되었다 4) 5) 6) 7). 하지만충격잡음이존재하는구간을찾지못하면음성이왜곡되는문제가있다. 신호의단구간에너지나변화량을관찰하여돌발잡음이존재하는구간을결정할수있는데이때일정기준값보다큰구간을선택하게된다. 이런배경신호를추정하기위해서는추가적인기법이필요하다. 특히피치의특성이시간축에서는 식에서은필터의좌, 우길이를나타낸다. 이값을상수와비교하여충격잡음을검출한다. (5) 은충격잡음검출결과를나타낸다. 여기서는 5로설정하였다. 하지만 2차미분계수가지니는문제점은음성의유성음구간에서피치의영향때문에 false alarm이일어난다는것이다. CONSERVATION OF THE ARCHIVES 39
4.2. 고대역에너지를이용한돌발잡음검출 음성의모음은주파수의저대역에에너지가집중되어있는데반해돌발잡음은전체적으로평탄한주파수응답을갖는다 4). 이성질을이용하여고대역에있는에너지를이용하여돌발잡음의발생위치를추정할수있다 12). 일반적으로돌발잡음은고대역에자리잡고있기때문에본논문에서는 15k에서 17k대역의에너지를파라미터로사용하였다. 물론대부분의음성자료가 48k나혹은 44.1k로샘플링되어있어서 20k 이상대역의정보도얻을수있지만카세트테이프냐혹은릴테이프냐에따라서최대주파수가다르기때문에 17k 이상의대역은사용하지않았다. 고대역에너지은다음과같이정의된다. (6) 5. 음성신호에대한모델링이포함된돌발잡음제거시스템 일반적으로음성신호, 특히모음은 formant 와 pitch 정보로 나누어모델링한다. 선형예측필터 (LPC) 의잔여신호에장 구간예측기법을적용하면 pitch 정보를모델링할수있다 9). 장구간예측기법에의하면현재의잔여신호는한 pitch lag 이전의잔여신호에일정한 pitch gain 을곱한것으로모 델링할수있다. 식에서 (9) 은선형예측필터에의한잔여신호를나타내며 은장구간예측필터를위한프레임인덱스, 은프레임길 이를나타낸다. 또한과은 pitch 의주기와 pitch gain 으로써아래와같이구할수있다 13) 14). 은의 Fourier 변환계수를의미하며와은각각주파수와프레임인덱스이다. 이후로는 2차미분계수를사용했을때와마찬가지로 RMF와배경신호에대한비를고려한다. (7) (10) 배경신호로부터정규화과정을거쳐기준값과비교한다. (8) pitch 의주기는현재프레임과의상호상관도가가장높은지연값를찾는것으로구하게된다. pitch 의주기를찾는프레임단위은일반적으로약 5ms이다. 위의식에서피치의주기를자연수가아닌소수값을가지도록하기위해서주어진신호를 3배로 interpolation 한신호에상관도를구하여더정확하게 pitch 모델링을하였다 13). 은주파수축에서의돌발잡음검출결과를나타낸다. 최종돌발잡음구간은고대역에너지를이용하여잡음이검출된구간안에서 2차미분계수또한돌발잡음이어야최종결과를돌발잡음으로결정한다. 이후일반적인음성합성과정에서는먼저장구간예측필터를이용하여 pitch 를재합성하고선형예측필터를이용하여 formant 정보를다시합성하는순서로진행되며장구간예측필터를이용한 pitch 의합성은재귀적인합성기법을이용한다. 40 CONSERVATION OF THE ARCHIVES
(11) 는 pitch 를모델링하고난후의추정오차이다. 하지만재귀적합성방법은돌발잡음이 median 필터에의해제거되면서발생한음성의왜곡이뒤에 pitch 에영향을미치게된다. 그림 5 는장구간예측기법을적용한돌발잡음제거시스템의 구조를나타낸것이다. 그림 5. 장구간예측기법을적용한돌발잡음제거 그림3. 재귀적음성합성의영향재귀적합성기법은음성부호화에서는유용하지만음성신호복원에는적합하지않다. 따라서본시스템에서는신호의잔여신호를다음과같이구한다. (12) 위의돌발잡음제거시스템은앞선음량조절과정상잡음이제거된이후에적용이된다. 특히정상잡음을제거하고나면 2차미분계수나고대역에너지의배경잡음이제거되면서돌발잡음을제거한결과는더욱뛰어나다 15). 6. 소실검출 국가기록원의음성자료에서소실분류에속하는신호는저대역에신호가몰려있고음성의특성이나타나는주파수대역에는정보가전혀나타나지않는다. 은장구간예측필터를이용해모델링한 pitch 정보로서돌발잡음을제거하기전의잔여신호에서 pitch 모델링오차를뺀값이다. 이와같이원신호에서 pitch 신호를모두저장하였다가돌발잡음이제거된신호에이를더하면왜곡이이후샘플에영향을미치지않는다 15). 그림 6. 소실신호의스펙트로그램 그림 4. 저장된 pitch 신호를사용하여복원한음성 소실파일은 1kHz 아래대역에에너지가몰려있는특징을가지고있으며, 이로말미암아음성이웅웅거리는소리만나게된다. 소실신호는음성부분의소리가작지않고정상잡음또한많이포함되어있지않기때문에지금까지설명한방법으로는구분해낼수없는문제점을지니고있다. 그렇기때문에전체에너지와 1kHz 아래의저대역밴드의에너지의비로소실음성을검출해내는방법을제안한다. CONSERVATION OF THE ARCHIVES 41
그림 7. 저정상신호 ( 좌 ) 와소실 ( 우 ) / 전체에대한저대역밴드에너지비 ( 아래 ) / 음성의위치 ( 굵은선 ) 그림7의상단그래프에서볼수있듯이정상신호와소실신호의시간축그래프만으로는두가지를구별할수없다. 하단그래프는해당프레임의에너지비를나타낸것으로정상신호와소실신호의경향이차이가나는것을확인할수있다. 굵은선으로표시된부분이음성이있는부분으로, 이부분에서에너지비의평균을보면정상은 26% 이고소실은 45% 로소실이매우높은것을확인할수있다. 소실음성자료들의평균값은 44% 로, 기준값 40% 가넘는파일은소실로분류하였다. IV. 국가기록원음성자료의분석및복원결과 1. 음량의분포 그림 8. 음량의분포조정전 ( 좌 ) -26dBov 로조정한후 ( 우 ) 그림8은음량의분포를나타내는히스토그램이다. 복원전음량은 -26dBov를중심으로가장그수가많았지만, 음량이작은경우가 59% 를차지하여녹음이나 A/D 변환과정에서의에너지레벨이작게변환되었음을알수있다. 음량조절후 에는 -26dBov로음량이조절된것을볼수있다. -26dBov 외에다른값을가지는파일들은복원전에음량이너무크거나너무작았던탓에음성이있는위치가정확하지않게검출되었기때문이다. 42 CONSERVATION OF THE ARCHIVES
그림 9. 음량연도별분포복원전 ( 좌 ) 조절후 ( 우 ) 그림 9 에서위에있는그래프는각각의연도별로음량의평 균과그의표준편차를표시한것이다. 연도별로음량이분포 된형태를보면 1970 년대전후로녹음된자료들의음량의 소리가작은것을알수있다. 조절후에는 -26dBov 를중 심으로음량이조절되고표준편차도많이줄어들었다. 그림 10. 매체별음량분포 ( 카세트 / 릴 /CD) 매체별로음량의분포를살펴보면릴로녹음된음성자료들 이소리가작으며전체적으로도음량이작게변환되어있다. 조절후에는눈에띄게음량이잘조절되었다. 2. 신호대잡음비의분포 그림 11. SNR 의분포 CONSERVATION OF THE ARCHIVES 43
복원전신호대잡음비의분포를보면 10dB 를중심으로왼 쪽에치우쳐있어복원필요성이많음을보여준다. 복원후에 는전체적으로 10dB 이상의효과를얻을수있었다. 그림 12. 연도별 SNR 그림 12 는신호대잡음비의평균과표준편차를나타낸그 래프이다. 연도별신호대잡음비를보면비교적최근에녹음 된파일들의상태가좋고오래된음성자료일수록녹음상태 가좋지않다는것을알수있다. 복원후에는전체적인 SNR 이 10dB 의선을상회하게나왔음을알수있다. 그림 13. 매체별 SNR( 카세트 / 릴 /CD) 매체별신호대잡음비를보면카세트와릴은 10dB 평균값을가지는반면에 CD는약간낮은값을가지고있음을알수있다. CD로녹음된파일들의경우카세트와릴에비해수가적고음악이깔려있거나혹은음악만있는파일이있어서현재의음성의음량이나신호대잡음비를구하는알고리즘에적합지않은파일들이일부포함되어있어서작게나온경향을띠었다. 복원후에는특히릴에서의성능이매우좋아졌다. 3. 돌발잡음의검출및제거 그림14의왼쪽그래프는복원전의신호로음량이 -33dBov 이고 SNR은 3dB이다. 처음부분과중간에돌발잡음이섞여 있다. 오른쪽의그래프는음량이조절되고정상잡음이제거된뒤에돌발잡음을제거한결과이다. 돌발잡음이깨끗하게제거되었을뿐아니라소리도매끄럽게들리는것을확인할수있다. 돌발잡음은전체파일에대해서검색을해야정확한자료를얻을수있지만알고리즘을모든대상에대해서적용하면시간이많이걸리기때문에처음에서 30초떨어진지점에서 10분동안의구간에서돌발잡음을검출하였다. 전체파일중에서 1,580개의파일에서돌발잡음이검출되었으며 0.2초보다도짧은돌발잡음들이 41% 를차지하고있었다. 특정구간에서만찾은것이기때문에이자료는참고수치로생각하는것이바람직하다. 44 CONSERVATION OF THE ARCHIVES
4. 소실파일의검출 5. 국가기록원음성자료의구분결과 소실파일은시작지점에서 30 초떨어진지점에서 30 초동 안의구간에서의에너지비율을측정하여검출하였다. 전체 파일에서 899 개가소실파일로검출되었다. 전체 15,735 개의파일에대한결과이다. 표 2. 음성자료의구분결과 - 해당파일의숫자와퍼센트 음량 정상잡음 돌발잡음 소실 대 소 양호 소음 정상 포함 정상 소실 6,455 9,280 5,671 10,064 14,155 1,580 14,836 899 41% 59% 36% 64% 90% 10% 94% 6% 그림 14. 전체적인검출및복원결과 Ⅴ. 결론 국가기록원음성기록물은우리나라의근현대사를보존하는기록물로매우중요한성격을띤다. 본논문은훼손된음성기록물의신호특성을기준으로크게네가지의카테고리를만들고, 각각의카테고리에맞는검출방법을이용하여구 분하였다. 또한음량, 정상잡음, 돌발잡음을복원하였으며이는앞으로음성기록물을관리하고서비스하는데도움이될것이다. 더나아가음성이외부적으로더해진정상잡음이나돌발잡음으로침해된것이아니라소리자체가변형되어왜곡된경우를복원하는노력또한필요하다. CONSERVATION OF THE ARCHIVES 45
참고문헌 1. izotoperx, audio repair toolkit http://www.izotope.com/products/audio/rx/ 2. Y. Ephraim and D. Malah. 1985. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Trans. on Acoust., Speech and Signal Process., vol. 33, pp. 443-445. 3. I. Cohen and B. Berdugo. 2001. Speech enhancement for nonstationary noise environments, Signal Process., vol. 81, pp. 2401-4218. 4. S. V. Vaseghi. 2000. dvanced digital signal processing and noise reduction, 2nd ed., John Wiley & Sons. 5. T. Kasparis and J. Lane. 1993. Suppression of impulsive disturbances from audio signals, Electronics letters, vol. 29, no. 22, pp. 1926-1927. 6. A. J. Efron and H. Jeen. 1994. Detection in impulsive noise based on robust whitening, IEEE Trans. on Signal Process., vol. 42, no. 6, pp. 1572-1576. 7. S. R. Kim and A. Efron. 1995. Adaptive robust impulse noise filtering, IEEE Trans. on Signal Process., vol. 43, no. 8, pp. 1855-1866, 8. I. Kauppinen, 2002, Methods for detecting impulsive noise in speech and audio signals, in Proc. IEEE Int Conf. on Digital Signal Process. 2002, vol. 2, pp. 967-970. 9. T. F. Quatieri. 2001. Discrete-time speech signal processing, Prentice Hall. 10. J. Beh, K. Kim and H. Ko. 2007. Noise estimation for robust speech enhancement in transient noise environment, in Proc. KSCSP 2007, vol. 24, no. 1, pp. 35-36. 11. ITU-T. 2011. ITU-T recommendation P. 56, ITU-T. 12. 최민석, 신호선, 황영수, 강홍구. 2011. 음성신호에서의시간-주파수축충격잡음검출시스템, 한국음향학회지제30권제2 호 pp. 73~79. 13. ITU-T. 1996. ITU-T recommendation G. 729, ITU-T. 14. A. M. Kondoz. 1994. Digital speech - coding for low bit rate communication systems, John wiley & sons. 15. M. Choi and H. Kang. 2011. Transient noise reduction in speech signal with a modified long-term predictor, EURASIP Journal on Advances in Signal Processing. 46 CONSERVATION OF THE ARCHIVES