102 음성 / 음악분류향상을위한 2 차조건사후최대확률기법기반 SVM 임정수외 논문 2011-48SP-5-13 음성 / 음악분류향상을위한 2 차조건사후최대확률기법기반 SVM (Improving SVM with Second-Order Conditional MAP for Speech/Music Classification ) 임정수 *, 장준혁 ** * (Chungsoo Lim and Joon-Hyuk Chang ) 요 약 Support vector machine (SVM) 은패턴인식분야에많이사용되어지고있고그한예로서 3GPP2 selectable mode vocoder (SMV) 와같은규격화된코덱에쓰여코덱의음성 / 음악분류성능을향상시킬수있다. 본논문에서는 SVM 을개선시켜음성 / 음악의분류성능을더욱향상시키는새로운방법을제안한다. 음성 / 음악신호의각프레임들은서로강한상관관계를가지고있는데, 이를바탕으로 2 차조건사후최대확률기법을 SVM 에적용하여음성 / 음악분류성능을향상시킨다. 또한 SVM 을학습시킬때적용되는기존의기법들과는달리제안되는기법은 SVM 이패턴분류를행할때사용된다. 그렇기때문에기존의기법들과독립적으로개발되고사용될수있고, 따라서패턴분류의성능을한층더향상시킬수있다. 실험을통해제안된기법의독립성과성능향상을기존의기법들과비교하여증명하였다. Abstract Support vector machines are well known for their outstanding performance in pattern recognition fields. One example of their applications is music/speech classification for a standardized codec such as 3GPP2 selectable mode vocoder. In this paper, we propose a novel scheme that improves the speech/music classification of support vector machines based on the second-order conditional maximum a priori. While conventional support vector machine optimization techniques apply during training phase, the proposed technique can be adopted in classification phase. In this regard, the proposed approach can be developed and employed in parallel with conventional optimizations, resulting in synergistic boost in classification performance. According to experimental results, the proposed algorithm shows its compatibility and potential for improving the performance of support vector machines. Keywords : Second-order Conditional Maximum a posteriori (Second-order CMAP), Support Vector Machine (SVM), Selectable Mode Vocoder (SMV), Speech/Music Classification Algorithm * 정회원, 목포대학교 (Mokpo National University) ** 정회원, 한양대학교융합전자공학부 (Dep. of Electronic Engineering, Hanyang University) 본연구는지식경제부및한국산업기술평가관리원의 IT핵심기술개발사업의일환으로수행하였음. [KI001824, 장애인및고령자를위한 Digital Guardian 기술개발 ] 또한이논문은 2009년정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된연구임 (2009-0085162) 접수일자 : 2011년2월25일, 수정완료일 : 2011년6월14일 Ⅰ. 서론최근 IT기술의발전으로이동통신단말기나차량네비게이션등의무선통신기기를이용한멀티미디어서비스가늘어나고이를이용하는고객의수도빠르게늘고있다. 다양한멀티미디어서비스는일반적으로많은데이터전송을요구하는데이를제한된주파수대역폭으로감당하기에는어려움이있다. 이를극복하기위한방편으로제한된주파수대역의효율적인활용이활발 (714)
2011 년 9 월전자공학회논문지제 48 권 SP 편제 5 호 103 히연구되어지고있고가변적인전송률을가지는다양한음성코덱이개발되었다 [1~2]. 실제로음성신호의유형에따라다른비트수를할당하는것은음성의음질에영향을미치기때문에정확한신호분류기술의핵심기술로서다루어지고있다. 이런음성코덱중의하나인 ETSI의 3GPP2 selectable mode vocoder (SMV) 는전송률을 4단계로나누어부호화하는방식을채택하고있다 [1]. SMV의음성 / 음악분류를개선하기위하여 support vector machine (SVM) 을이용한방법들이최근에제안되었다 [3~5]. SVM은패턴인식에우수함을인정받아많이이용되고있는 machine learning 기법의하나로써데이터마이닝분야는물론, 얼굴인식, 생체인식, 문자인식, 그리고음성인식등다양한분야에응용되고있다 [6~7]. SVM은 SMV의음성 / 음악의분류성능을많이향상시킬수있는데, SVM을이용한방법중가장최근에발표된연구에서는음성 / 음악프레임간의상호연관성을바탕으로, 과거프레임의 SVM 판정결과를고려하여현재프레임의클래스를추정하고이에따라커널파라미터를조정하여음성 / 음악분류의정확도를높이는방법을소개하였다 [5]. 이방법은성능의향상뿐만아니라다른기법과병행하여사용할수있다는장점이있다. 그러나이방법에서는과거프레임의 SVM 분류결과를음성과음악, 두클래스의예측에만사용하고, 이에따라고정된값이커널파라미터에더해지는다소유연성이부족한단점이있다. 또한커널파라미터의조정으로 SVM의판정을조절하는것은사용된데이터에의존된결과를보일수있고, radial basis function (RBF) 을커널함수로사용한경우에제한되어있다는단점도있다. 이기법의장점은유지하며단점을극복하기위하여본논문에서는 2차조건 MAP (maximum a posteriori) 을 SVM에적용하는기법을제안한다. 보통 SVM의판별식에서는하나의고정된문턱값을사용하게되는데제안하는방법에서는과거프레임의 SVM 분류결과를기초로하여 4가지의문턱값중하나를선택하게된다. 두개의클래스로예측하여파라미터를조정하던것에비하여좀더세밀하게과거의정보를사용할수있게되었고또한문턱값을조정함으로써 SVM 분류를보다확실하게그리고커널함수의종류에관계없이조정할수있게되었다. 본논문은다음과같이구성된다. Ⅱ장에서는 SMV 와 SVM에대해서간략히설명하고 Ⅲ장에서는 2차 MAP을적용한 SVM을소개한다. Ⅳ장에서는실험설정과실험결과를보이고, Ⅴ장에서본논문을끝맺는다. Ⅱ. SMV 와 SVM 의개요 SMV는 ETSI의 3GPP2 표준코덱으로서 extended code excited linear prediction (ex-celp) 기반의압축방식을사용하는데, 사람의청각특성에최적화된모델을사용하여음성을저전송률로압축하는데효율적이다 [8~9]. 또한, 한정된주파수대역을효율적으로활용하기위해프레임단위로 4가지의가변전송률을제공하며이동국과기지국사이의통신망채널에따라동적으로변환되는 4가지모드를지원한다. 이러한다양한평균전송률을제공하기때문에시스템의효율성과음질간의균형을선택적으로조절할수있다. SMV에서의음악분류과정은먼저음성검출기 (voice activity detection, VAD) 에서입력신호가음성과묵음또는주변잡음으로나뉜후음성으로판별된경우에만거치게되며음성 / 음악분류에사용되는파라미터들은다음과같다. 1. 이동평균에너지 = 0.75 +0.25 (1) E 는프레임에너지이다. 2. 잡음 / 묵음의이동평균반사계수 k N (i) k N(i) = 0.75 k N(i)+0.25 k 1(i) i = 1,...,10 (2) 3. 부분적잔류에너지의이동평균 = 0.9 +0.1 (3) 는 에따라서값이새로워진다. 4. 정규화된피치상관도의이동평균 (4) 는이전프레임의피치상관도이다. (715)
104 음성 / 음악분류향상을위한 2 차조건사후최대확률기법기반 SVM 임정수외 5. 주기적계수 (5) 는 에따라값을바꿔주는정해진가중치이다. 6. 음악연속계수의이동평균 (6) SMV의 VAD에서는식 (1)~(5) 로부터나온결과를정해진문턱값과비교하여음성의유무를판단하며음악의분류는 또는 이면음악으로판단한다. SVM은이진패턴분류에뛰어난성능을보이는데알려지지않은확률분포를갖는데이터에대하여잘못분류할확률을최소화하는구조적인위험최소화 (structural risk minimization) 를바탕으로하고있다. 선형적으로분류가가능한경우, 두개의다른클래스를가르면서가장근접한벡터들과의거리가최대화가되는초평면을구한다 [10]. 이런초평면은가중벡터 (weight vector) 와바이어스로나타내어지는데이것들은 2차계획법 (quadratic programming) 을풀어서구해지게되고구해진벡터와바이어스를가지고 SVM의판별식을나타내면다음과같다. (7) X는입력벡터이고 X * i는학습에의하여구해진 support vector, 는학습에의해구해진라그랑제승수 (Lagrange multiplier), 그리고 b * 는바이어스이다. 이식은입력벡터들이선형으로분류가가능한경우의식이고선형으로분류가불가능한경우커널함수를사용하는데이경우의 SVM의판별함수는다음과같다. (8) 는커널함수로 RBF (radial basis function) 이나 polynomial등이널리쓰이고있다. 판별식의결과는정해진문턱값과비교되어클래스를분류하게되는데주로이문턱값으로는 0이쓰인다. 즉판 별식의값이 0보다크면음성으로분류를하고, 작으면음악으로분류를한다. Ⅲ. 2차조건 MAP (maximum a posteriori) 를이용한향상된 SVM 이번장에서는음성 / 음악프레임간의상호관계를바탕으로 2차조건 MAP을이용하여 SVM의분류성능을향상시키는기법을소개한다. SVM을이용한음성 / 음악의분류기법중이렇게 2차조건 MAP을사용한것은없었으며, 2차조건 MAP을이용해음성향상을제안한논문은근래에발표되었다 [11]. 이논문과본논문의차이점은음성향상의경우음성의존재 / 비존재를구별하는것이고본논문에서는음성 / 음악을구별한다는것이다. SVM 판별식의값은확률값이아니므로확률로매핑하기위하여다음과같은시그모이드 (sigmoid) 모델을사용한다 [12]. (9) n은프레임의번호이고 H 0 와 H 1 은각기음악과음성을나타내는기본가설이고 H(n) 은프레임 n에대한바른가설이다. 은 n번째프레임의판별식값이고 A와 B는 maximum likelihood estimation을통해학습되어지는파라미터이다. 위의식은현재프레임이음성일확률이고음악일확률은 로표현될수있다. 이렇게매핑된확률값을가지고음성과음악을분류하는조건식은다음과같이표현된다. (10) 일반적으로음성 / 음악신호는음성구간, 음악구간, 그리고무음구간으로구성되어지는데, 각구간은어느정도의길이를가지며반복된다. 그러므로각구간은대체로많은수의프레임으로구성된다. 그러므로주어진구간안에서는강력한상관성으로부터다음프레임이현재프레임과같은종류일확률이아주높다고할수있다. 예를들어과거의몇입력프레임이음악프레임이라면현재프레임도음악프레임일확률이아주높다는것이다. 이런강한상관성으로부터다음과같은 (716)
2011 년 9 월전자공학회논문지제 48 권 SP 편제 5 호 105 식을얻을수있다. (11) 이러한상호연관성을바탕으로현재의판별식값뿐아니라과거의두프레임의판별결과를고려한새로운판별방법을다음식과같이나타낼수있다. i=0, 1 j=0, 1. (12) 식 (12) 를 Bayes' rule을이용하여바꾸면다음식이된다. i=0, 1 j=0, 1 (13) 여기서 는다음과같다. (14) 현재프레임의 SVM의판별값은현재프레임의클래스에의해서가장많이좌우되므로식 (13) 은다음과같이간략화될수있다 [13]. i=0, 1 j=0, 1. (15) 다시 Bayes' rule 을사용하여변형시키면,, i=0, 1 j=0, 1 (16) 이된다. 는 이 다. 각문턱값들은과거프레임들의클래스에따라선택적으로사용된다. 예를들어바로전프레임이음성 ( ) 프레임이고그전프레임도음성 ( ) 인경우는문턱값 을사용하고, 바로전프레임이음악 ( ) 프레임이고그전프레임은음성 ( ) 이라면문턱값 을사용한다. 이렇게과거프레임들의클래스분류를바탕으로네개의문턱값을사용함으로써기존의방법들보다더정밀하게현재프레임을예측할수있게되었다. 이 4개의문턱값모두를하나의식에서포함하는판별조건은다음과같다. (17) 여기서 는 4개의문턱값으로다음과같이나타내질수있다. (18) 이식은각각의문턱값에그에해당하는확률을곱해준형태로, 예를들어 의경우이전의두프레임이음악일때선택되는것이므로이전두프레임이각각음악일확률을두확률의곱으로표현하여적용한것이다. 지금까지의식들은과거의두프레임의 SVM 분류결과를바탕으로하고있다. 그러나 SVM의분류는완전하지가않고또한잘못된분류를가지고문턱값을조정함으로써 SVM의또다른잘못된분류를유도할수도있다. 이를막기위하여과거의두프레임만보는것이아니라두개의프레임집합을고려한다. 하나의프레임집합에는여러개의프레임이속해있고각집합은같은수의프레임을포함한다. 과거두프레임의클래스를고려하였듯이두집합의클래스를고려하야하는데각집합의클래스는그집합안에속한프레임들의 판별값에따라결정된다. 즉, 한집합내프레임들의판별식값의평균이음악클래스에속한다면그집합의클래스는음악이된다. 예를들어과거의두프레임의판별결과를가지고적합한 를고를때, 현재의프레임이 n번째프레임이라고한다면, 과 를고려하게된다. 그러나과거의두프레임이아니라프레 (717)
106 음성 / 음악분류향상을위한 2 차조건사후최대확률기법기반 SVM 임정수외 임의집합을고려한다면 과 대신에각집합의평균값 (, ) 을가지고적당한문턱값을결정하게된다. (19) (20) N은한집합에속하는프레임의개수로본논문에서는 20을사용하였다. Ⅳ. 실험 1. 실험설정본실험을위해서음성데이터베이스로 8kHz로샘플링된약 6 sec 정도의깨끗한음성으로 326명의남자와 138명의여자화자에의해서화자마다 10개의파일이발음된 TIMIT 데이터베이스가사용되었다 [14]. 음악데이터베이스는 CD로부터다섯가지장르의음악을모바일폰을통해서녹음하였고, 8kHz로다운샘플링하여사용하였으며, 각기약 5분정도의길이를가진다. 학습으로는음성파일 4200개와음악파일 50개 ( 블루스 10개, 클래식 10개, 힙합 10개, 재즈 10개, 메탈 10개 ) 가사용되었다. 객관적인평가를위해 10-fold 교차검증을수행하였으며각테스트파일은 5개의음성부분 (6~12초), 하나의음악장르로구성된 5개의음악부분 (28~32초), 10개무음부분 (3~15초) 으로되어있다. 트레이닝파일의음악부분은모든장르의음악이혼합되었다. 성능평가를위해테스트파일의 20ms마다실제결과를음성, 음악, 무음으로분류하여저장하고 SVM의분류결과와비교하였다. 실험에사용된특징벡터로는 Ⅱ장에서소개된 6가지의파라미터를벡터로구성해사용하였고, 제안된알고리즘의문턱값은 =0.808, =0.708, =0.630, =0.193로설정하였다. 제안된알고리즘과비교대상인적응커널파라미터 (adaptive kernel parameter) 기법 [5] 의파라미터조정량은음성으로추정되는프레임에게는 -0.06을그리고음악으로추정되는프레임에게는 +0.06 으로정하였다. 2. 실험결과 제안된알고리즘을검증하기위해서제안된알고리즘과기존의알고리즘 [3, 5] 의음성 / 음악분류성능을비교하였고표 1에그결과를나타내었다. P d 는각음성과음악이정확하게분류될확률이고 P e 는 (1-P d ) 로서음성과음악을합친 error probability이다. SVM은아무개선을시키지않은순수한 support vector machine 이고 AKP는과거프레임의분류를바탕으로현재프레임의클래스를추정하고그추정에근거하여커널파라미터를조정해주는기법이다. CMAP 은본논문에서제안한기법을나타낸다. AKP와 CMAP은모두 SVM을개선함으로써분류성능을향상시키는기법으로과거분류결과를바탕으로현재분류에영향을준다는것은동일하다. 그러나근본적으로두가지의차이점이있는데, 첫째는현재분류에영향을주는방법이다. AKP에서는커널함수파라미터를조정하였지만본논문에서는판별문턱값을조정한다. 둘째는기법의유연성이다. AKP는커널파라미터에더해주는값이고정된두개이지만제안된기법에서는네가지다른값을문턱값으로사용하여. 보다개선된유 표 1. 제안된기법과기존기법들과의음성 / 음악분류성능비교 Table 1. Comparison with a conventional support vector machine and a support vector machine enhanced by adaptive kernel parameter in terms of speech/music detection probability Pd and total error probability P e. Class Algorithm Speech P d Music P d Overall P e SVM [3] 0.85 0.87 0.13 Blues AKP [5] 0.94 0.89 0.10 CMAP 0.93 0.92 0.08 SVM 0.74 0.66 0.33 Classic AKP 0.81 0.69 0.29 CMAP 0.81 0.79 0.21 SVM 0.781 0.894 0.12 Hiphop AKP 0.85 0.94 0.08 CMAP 0.85 0.98 0.04 SVM 0.75 0.91 0.12 Jazz AKP 0.85 0.94 0.08 CMAP 0.84 0.96 0.07 SVM 0.76 0.85 0.17 Metal AKP 0.85 0.87 0.14 CMAP 0.83 0.94 0.08 SVM 0.79 0.84 0.17 Avg AKP 0.87 0.87 0.14 CMAP 0.86 0.92 0.10 (718)
2011 년 9 월전자공학회논문지제 48 권 SP 편제 5 호 107 연성을가진다. 표에서알수있듯이제안된기법은기존의 SVM과비교하였을때많은성능향상을보인다. 또한제안된기법과동일하게과거프레임의분류결과를바탕으로한기법 (AKP) 과비교하여도보다나은전체적인성능을보인다. 성능뿐아니라 AKP의경우알고리즘의수정없이는 RBF를커널함수로사용하지않은 SVM에는사용할수없는반면, 제안된기법은아무런제약없이모든 SVM에적용할수있다는장점이있다. 표에는나오지않았지만변별적가중치학습을이용해 SVM의음성 / 음악분류성능을향상시킨기법 [4] 과비교해본결과, 성능면에서제안된기법이더우수하였고또한이기법과제안된기법은같이병용될수있음을알게되었다. Ⅴ. 결론본논문에서는 SVM의음악 / 음성분류성능을향상시키기위해패턴판별시에인접프레임간의강한상호연관성을바탕으로 2차조건 MAP을이용하는방법을제안하였고 ETSI의 3GPP2 표준코덱인 SMV의실시간음성 / 음악분류에적용하여보았다. 이기법은 SVM의성능을향상시킬뿐아니라다른기법들과도병용할수있다는장점도가지고있다. 실험을통하여기존의기법들과비교한결과, 기존의기법보다나은 SMV의음성 / 음악분류성능을보였다. 앞으로의연구과제로는라디오방송을녹음하고실험데이터로사용하여제안된기법의실제적응용가능성을가늠해볼계획이다. 감사의글본연구는지식경제부및한국산업기술평가관리원의 IT핵심기술개발사업의일환으로수행하였음. [KI001824, 장애인및고령자를위한 Digital Guardian 기술개발 ] 또한이논문은 2009년정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된연구임 (2009-0085162) 참고문헌 [1] 3GPP2 Spec., Source-controlled variable-rate multimedia wideband speech codec (VMR-WB), service option 62 and 63 for spread spectrum systems, 3GPP2-C.S0052-A, vol. 1.0, April. 2005. [2] Y. Gao, E. Shlomot, A. Benyassine, J. Hyssen, Huan-yu Su, and C. Murgia, The SMV algorithm selected by TIA and 3GPP2 for CDMA appications, in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2, pp. 709-712, May 2001. [3] S. -K. Kim and J. -H. Chang, Speech/music classification enhancement for 3GPP2 SMV codec based on support vector machine, IEICE Trans. Fundamentals of Electronics, Communications and Computer Sciences, Vol. E92-A, no. 2, pp. 630-632, February 2009. [4] S. -K. Kim and J. -H. Chang, Discriminative weight training for support vector machine-based speech/music classification in 3GPP2 SMV codec, IEICE Trans. Fundamentals of Electronics, Communications and Computer Sciences, vol. E93-A, no. 1, pp. 316-319, January 2010. [5] 임정수, 송지현, 장준혁, SVM의미세조정을통 한음성 / 음악분류성능향상, 전자공학회논문 지 SP편 48권 2호, 141-148쪽, 2011년 3월 [6] X. Wang, J. Chen, P Wang, Z. Huang, Infrared human face auto locating based on SVM and a smart thermal biometrics system, in Proc. Sixth International Conference on Intelligent Systems Design and Applications (ISDA'06), vol. 2, pp. 1066-1072, October 2006. [7] A. Ganapathiraju, J. E. Hamaker, J. Picone, Applications of support vector machines to speech recognition, IEEE Trans. Signal Processing, vol. 52, pp. 2348-2355, August 2004. [8] S. C. Greer, and A. Dejaco, Standardization of the selectable mode vocoder, in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, vol. 2, pp. 953-956, May 2001. [9] C. V. Goudar, P. Rabha, M. Deshpande, and A. Rao, SMVLite: reduced complexity selectable mode vocoder, in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing, vol. 1, pp. 701-704, May 2006. [10] V. N. Vapnik, An overview of statistical learning theory, IEEE Trans. Neural Networks, vol. 10, no. 5, pp. 988-999, 1999. [11] J. -M. Kum and J. -H. Chang, Speech enhancement based on minima controlled (719)
108 음성 / 음악분류향상을위한 2 차조건사후최대확률기법기반 SVM 임정수외 recursive averaging incorporating second-order conditional MAP criterion, IEEE Signal Processing Letters, Vol. 16, no. 7, pp. 624-627, July 2009. [12] John C. Platt, Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods, in Advances in Large Margin Classifiers, MIT Press, pp. 61-74, 1999. [13] J. W. Shin, H. J. Kwon, S. H. Jin, and N. S. Kim, Voice activity detection based on conditional map criterion, IEEE Signal Processing Letters, vol. 15, no. 2, pp. 257-260, February. 2008. [14] W. M. Fisher, G. R. Doddington and K. M. Goudie-Marshall, The DARPA speech recognition research database: Specifications and status, in Proc. DARPA Workshop Speech Recognition, pp. 93-99, February 1986. 저자소개 임정수 ( 정회원 ) 1996 년인하학교전기공학과학사 2004 년 University of Maryland ECE 석사. 2009 년 North Carolina State University ECE 박사 2010 년인하대학교박사후연구원 2011 년목포대학교연구교수 < 주관심분야 : 컴퓨터구조, 임베디드시스템, 신호처리, 인공지능 > 장준혁 ( 정회원 ) 1998 년경북대하교전자공학과학사. 2000 년서울대학교전기공학부석사. 2004 년서울대학교전기컴퓨터공학부박사. 2000 년 2005 년 ( 주 ) 넷더스연구소장 2004 년 2005 년캘리포니아주립대학, 산타바바라 (UCSB) 박사후연구원 2005 년한국과학기술연구원 (KIST) 연구원 2005 년 2011 년인하대학교전자공학부조교수 2011 년 현재한양대학교융합전자공학부부교수 < 주관심분야 : 음성신호처리, 오디오신호처리, 통신신호처리, 휴먼 / 컴퓨터인터페이스 > (720)