(19) 대한민국특허청 (KR) (12) 등록특허공보 (B1) (51) Int. Cl. G10L 11/02 (2006.01) G10L 15/14 (2006.01) G10L 11/06 (2006.01) (45) 공고일자 (11) 등록번호 (24) 등록일자 2007 년 05 월 16 일 10-0718846 2007 년 05 월 10 일 (21) 출원번호 10-2006-0118920 (65) 공개번호 10-2006-0134882 (22) 출원일자 2006년11월29일 (43) 공개일자 2006년12월28일 심사청구일자 2006년11월29일 (73) 특허권자인하대학교산학협력단 * (72) 발명자장준혁 * (74) 대리인김건우 (56) 선행기술조사문헌 10-2004-56977 10-1999-40215 10-2006-57919 10-2005-5054 10-2004-94642 심사관 : 경연정 전체청구항수 : 총 1 항 (54) 음성검출을위한통계모델을적응적으로결정하는방법 (57) 요약 본발명은음성검출을위한통계모델을적응적으로결정하는방법에관한것으로서, 보다구체적으로는 (1) 과거 m 개의이전프레임에서의잡음이섞인음성에대한 DFT 계수들을포함하는벡터에대하여, KS 테스트통계량을구하는단계와, (2) 상기구해진 KS 테스트통계량을이용하여 KS 테스트통계량에대한평가치를구하는단계와, (3) 각각의통계모델에대해구해진상기평가치들을비교하여, 평가치가최소가되는통계모델을최적통계모델로선택하는단계와, (4) 상기단계 (1) 내지 (3) 를일정구간의프레임마다반복하여해당일정구간의프레임에대한최적통계모델을적응적으로선택하는단계를포함하는방법에관한것이다. 본발명은, 음성검출을위한통계모델을잡음의유형및 SNR 조건에따라서적응적으로결정함으로써, 기존의가우시안통계모델을사용하는경우에비해음성검출성능을향상시킬수있다. 대표도 도 4-1 -
특허청구의범위 청구항 1. 입력된음성신호에대하여고속푸리에변환 (FFT) 을수행하여주파수영역의음성신호로변환시키는단계와, 상기주파수영역으로변환된음성신호로부터잡음신호의파워를추정하는단계와, 상기추정된잡음신호의파워에기초하여음성의존재와비존재에대하여, 순수음성과잡음의 DFT 계수가특정통계모델을따른다고가정함으로써주파수영역에대한우도비 (Likelihood Ratio) 를결정하는단계와, 상기결정된우도비로부터음성검출에대한결정규칙 (Decision Rule) 을계산하는단계로구성되는음성검출방법 (VAD; Voice Activity Detection) 에있어서, 상기특정통계모델을적응적으로결정하는방법으로서, (1) X(t) 가프레임 t 에서의잡음이섞인음성에대한 DFT 계수라고하면, 과거 m 개의이전프레임에서의잡음이섞인음 성에대한 DFT 계수들을포함하는스트통계량 T t (X m ) 을구하는단계 ; 에대하여, 다음수학식을이용하여 KS 테 여기서, F x (X i ) 는아래수학식과같이정의되는경험적인 (empirical) 누적분포함수이며, F(X i ) 는특정통계모델에대한 누적분포함수이다. 여기서, 은데이터 X의순서통계 (order statistics) 로서, X의원소들을분류하고정렬하여 X의가장작은원소인 X (1) 에서부터 X의가장큰원소인 X (N) 까지순서대로배열한것이다. (2) 상기구해진 KS 테스트통계량 T t (X m ) 을이용하여다음수학식에의해 KS 테스트통계량 T t (X m ) 에대한평가치를구 하는단계 ; 여기서, 는평탄화파라미터이다. (3) 각각의통계모델에대해구해진상기평가치들을비교하여, 평가치가최소가되는통계모델을최적통계모델로선택하는단계 ; 및 (4) 상기단계 (1) 내지 (3) 를일정구간의프레임마다반복하여해당일정구간의프레임에대한최적통계모델을적응적으로선택하는단계 를포함하는방법. 명세서 발명의상세한설명 발명의목적 - 2 -
발명이속하는기술및그분야의종래기술 본발명은음성검출을위한통계모델을결정하는방법에관한것으로서, 특히음성검출을위한통계모델을일정프레임구간마다적응적으로결정하는방법에관한것이다. 음성검출 (VAD; Voice Activity Detection) 은, 활성음성 (active speech) 을비음성으로부터구분하는고전적인문제를지칭하는것으로, 음성코딩, 음성인식, 잡음이섞인음성의향상, 핸즈프리회의, 및에코제거와같은다양한음성통신시스템에대한애플리케이션을가지고있다. 특히, VAD 는, 통신대역폭의용량및커버리지를향상시키는가장정밀한방식중하나인가변음성코딩의주요한부분이되어왔다. 이러한이유로, 다양한유형의 VAD 알고리즘이제안되어왔다. VAD 에대한초기알고리즘들은대부분선형예측코딩 (LPC; linear prediction coding) 파라미터들, 에너지레벨들, 포먼트형상, 영교차비율 (ZCR; zero crossing rate), 켑스트럴특성 (cepstral features), 음성신호의적응모델링, 및주기성평가에기초하고있다. 보다최근에는, 패턴인식및 LPC 잔여의고차큐뮬런트 (higher order cumulants) 에기초한 VAD 접근법이새로운전략으로서제안되어왔다. 예를들면, 특히에너지차이, ZCR, 및스펙트럼차이를 ITU-T G.729 Annex B 에적용시켜왔다. 유사한접근법을, 3 세대파트너십프로젝트 2(3GPP2; 3rd Generation Partnership Project2), ITU-T G.723.1 및유럽전화통신표준협회 (European Telecommunications Standards Institutes) 적응형다 - 비율 (AMR; Adaptive Multi-Rate) VAD 옵션 2 에서선택가능한모드보코더에적용하는시도도있었다. 최근에, 일련의가설이적용된우도비테스트 (LRT; Likelihood Ratio Test) 로부터구해지는결정규칙과함께, 통계모델을이용함으로써 VAD 의성능을개선하려는노력이이루어져왔다. VAD 알고리즘에기초한통계모델은 Ephraim 과 Malah 의연구로부터비롯되었다. 일부연구자들은가우시안통계모델을 VAD 에적용하는알고리즘을시도하였는데, 여기서파라미터들의평가가 DD(decision-directed) 접근법에의해수행되었다. 이알고리즘은, 비록관련파라미터들의최적화가요구되기는하였으나, 기존의알고리즘들에비해높은검출정확도를나타내었다. 통계모델에기초한방법은소프트결정스킴 (soft decision scheme) 과결합됨으로써더욱개선되었다. 잘알려진바와같이, DFT 도메인에서주로동작하는기존의 VAD 알고리즘의대부분은순수음성 (clean speech) 과잡음의스펙트럼이가우시안분포에의해특성지어진다고가정한다. 그러나최근의연구결과에따르면, 순수음성과잡음의 DFT 계수들은가우시안분포가아닌감마및라플라시안분포와같은다른확률밀도함수 (probability density function; 이하 'PDF' 라함 ) 에의해보다효과적으로설명된다고보고되고있다. 따라서음성검출성능을향상시키기위하여, 순수음성과잡음의 DFT 계수를모델링할새로운분포모델이요구되고있다. 발명이이루고자하는기술적과제 본발명은상기와같은문제인식에서비롯된것으로서, 순수음성과잡음의 DFT 계수를기존의가우시안통계모델대신에잡음의유형및 SNR 조건에따라서적합한통계모델을적응적으로결정하는방법을제공하는것을그목적으로한다. 발명의구성 상기한목적을달성하기위한본발명의특징에따른, 음성검출을위한통계모델을적응적으로결정하는방법은, 입력된음성신호에대하여고속푸리에변환 (FFT) 을수행하여주파수영역의음성신호로변환시키는단계와, 상기주파수영역으로변환된음성신호로부터잡음신호의파워를추정하는단계와, 상기추정된잡음신호의파워에기초하여음성의존재와비존재에대하여, 순수음성과잡음의 DFT 계수가특정통계모델을따른다고가정함으로써주파수영역에대한우도비 (Likelihood Ratio) 를결정하는단계와, 상기결정된우도비로부터음성검출에대한결정규칙 (Decision Rule) 을계산하는단계로구성되는음성검출방법 (VAD; Voice Activity Detection) 에있어서, 상기특정통계모델을적응적으로결정하는방법으로서, (1) X(t) 가프레임 t 에서의잡음이섞인음성에대한 DFT 계수라고하면, 과거 m 개의이전프레임에서의잡음이섞인음 성에대한 DFT 계수들을포함하는테스트통계량 T t (X m ) 을구하는단계 ; 에대하여, 다음수학식 1 을이용하여 KS - 3 -
수학식 1 여기서, F x (X i ) 는다음수학식 2 와같이정의되는경험적인 (empirical) 누적분포함수이며, F(X i ) 는특정통계모델에대한 누적분포함수이다. 수학식 2 여기서, 은데이터 X의순서통계 (order statistics) 로서, X의원소들을분류하고정렬하여 X의가장작은원소인 X (1) 에서부터 X의가장큰원소인 X (N) 까지순서대로배열한것이다. (2) 상기구해진 KS 테스트통계량 T t (X m ) 을이용하여다음수학식 3 에의해 KS 테스트통계량 T t (X m ) 에대한평가치를 구하는단계 ; 수학식 3 여기서, 는평탄화파라미터이다. (3) 각각의통계모델에대해구해진상기평가치들을비교하여, 평가치가최소가되는통계모델을최적통계모델로선택하는단계 ; 및 (4) 상기단계 (1) 내지 (3) 를일정구간의프레임마다반복하여해당일정구간의프레임에대한최적통계모델을적응적으로선택하는단계 를포함하는것을그특징으로한다. 이하에서는본발명의실시예를도면을참조하여상세히설명한다. 본발명의실시예는다양한잡음조건에서잡음에오염된음성신호의 DFT 계수를 VAD 에적용하기위해주어진조건에적합한통계모델을적응적으로결정하는방법을제안한다. 본발명의실시예에서는먼저다양한잡음에오염된음성조건하에서적합도 (Goodness Of Fit; 이하 'GOF' 라함 ) 테스트를적용함으로써가우시안모델, 복소수라플라시안모델및복소수감마모델을서로비교한후, 우도비테스트 (Likelihood Ration Test; 이하 'LRT' 라함 ) 에기반한결정규칙 (Decision Rule) 을고려한다. 1. 통계적모델 먼저, 잡음신호 N(t) 와음성신호 S(t) 의합이 X(t) 라고가정하고, 이때가설 H 0 과 H 1 이각각음성신호가없는경우와음 성신호가있는경우를나타낸다고하면, 가설 H 0 과 H 1 에서, X(t) 는각각다음의수학식 4 및 5 를만족한다. 수학식 4-4 -
수학식 5 여기서, 는잡음이섞인음성의 DFT 계수, 는순수음성의 DFT 계수이다. 는잡음의 DFT 계수, 상기한통계적모델은적절한 DFT 계수분포를선택함으로써완료된다. 본발명의실시예에서는 DFT 계수의적절한분포로서기존에흔히사용되고있는가우시안확률밀도함수를채택하는대신다중확률밀도함수중하나를잡음의유형및 SNR 조건에따라서적응적으로선택한다. (1) 가우시안통계모델 가우시안 PDF 에서, 양가설 (H0, H1) 에의해결정되는잡음스펙트럼성분 (noisy spectral component) 의분포는다음의수학식 6 및 7 과같이주어진다. 수학식 6 수학식 7 여기서, 와는각각잡음 N k 및순수음성 S k 의분산 (variance) 을나타낸다. (2) 복소수라플라시안통계모델 다음으로, 복소수라플라시안 PDF 에서, DFT 계수 X k 의실수부 (real part) 와허수부 (imaginary part) 를각각 X k(r) 와 X k (I) 로가정하면, X k(r) 와 X k(i) 는다음의수학식 8 및 9와같이분포된다. 수학식 8 수학식 9 여기서, 는 X k 의분산을나타낸다. 만약 X k 의실수부및허수부가서로독립적이라고더가정하면, X k 의분포는다음 수학식 10 과같이될수있다. - 5 -
수학식 10 상기수학식 10 으로부터, 양가설 (H0, H1) 에의해결정되는 DFT 계수의분포는다음수학식 11 및 12 와같이주어질수있다. 수학식 11 수학식 12 (3) 복소수감마통계모델 마지막으로복소수감마 PDF 에대해살펴본다. 각각의 DFT 계수의실수부와허수부 X k(r) 와 X k(i) 는각각다음의수학식 13 및 14 에따라분포된다. 수학식 13 수학식 14 만약실수부와허수부가라플라시안경우에서처럼서로독립적이라고더가정하면, DFT 계수 X k 의분포는다음수학식 15 와같이주어진다. 수학식 15 수학식 15 를 2 개의가설 H 0 과 H 1 에적용하면, DFT 계수의분포는다음수학식 16 및 17 과같이얻어진다. 수학식 16-6 -
수학식 17 성공적인 VAD 동작을위해서, 본발명의실시예에서는 H 0 과 H 1 에의해결정되는잡음스펙트럼요소를위한통계적적합 성테스트 (statistical fitting test) 를수행한다. 확률밀도함수 (PDF) 의선택을위해, 본발명의실시예에서는적합도테스트 (GOF test; Goodness-of-Fit test) 로서잘알려진 Kolomogorov-Sriminov 테스트 ( 이하, 'KS 테스트 ' 라함 ) 를적용한다. KS 테스트를적용함으로써, 각통계적인가정에대한신뢰성있는관측을보장할수있다. KS 테스트는경험적인 (empirical) 누적분포함수 (cumulative distribution function; 이하 'CDF' 라함 ) F x 를소정의분포함수 F 와비교한다. 가잡음이섞인음성의 DFT 계수를나타내는벡터라고가정할때, 앞서언급한수학식 2 로서나타낼수있는함수를경험적 CDF 로서사용하였다 ( 참조를위하여수학식 2 를다시기재함 ). < 수학식 2> 여기서, 은데이터 X의순서통계 (order statistics) 이다. 순서통계를계산하기위해, X의원소들을분류하고정렬하여, X의가장작은원소인 X (1) 에서부터 X의가장큰원소인 X (N) 까지순서대로배열한다. 잡음환경을모의실험하기위해, 서로다른 4 명의남성과여성화자로부터, 64 초구간의음성자료 (speech material) 를수집하였으며, NOISEX-92 데이터베이스로부터추출한백색잡음 (white noise), 차량잡음 (vehicular noise), 및배블잡음 (babble noise) 을신호대잡음비 (SNR) 가 10dB 인순수음성신호에첨가하였다. 수집한상기데이터를사용하여, 표본평균과분산을계산하였으며, 주어진가우시안분포, 라플라시안분포및감마분포에적용하였다. 경험적인 CDF 와주어진분포사이의거리측정을규정하기위해, 본발명의실시예에서는 KS 테스트통계량 (statistic) 을사용한다. KS 테스트통계량 (T) 은앞서언급한수학식 1 과같이정의된다 ( 참조를위하여수학식 1 을다시기재함 ). < 수학식 1> 여기서, 표본포인트 Xi 에서구한 F x (X i ) 와 F(X i ) 사이의최대차이가거리에해당한다. 몇가지분포에대하여데이터를테 스트하는경우, 최소의 KS 통계량을나타내는분포가주어진데이터에가장적합한것으로고려될수있다. 도 1 내지도 3 은각각다양한잡음조건하에서평가된 KS 통계량의결과를도시한다. 결과를요약하면, 다음과같은사항들을발견할수있다. (1) 도 1 은백색잡음조건하에서, SNR = 5, 10, 15, 20 db 에서평가된각각의모델에대한 KS 통계량을나타내는도면으로서, 도 1(a) 및 (b) 는각각가설 H 0 인경우의 DFT 계수의실수부와허수부를, 도 1(c) 및 (d) 는각각가설 H 1 인경우의 DFT 계수의실수부와허수부를나타내는도면이다. 도 1 에따르면, 라플라시안모델이모든 SNR 레벨에서 H 0 에가장적 합하며, 가우시안모델이다음으로적합하다. 백색잡음이가우시안분포되어지는지여부가의문일수있다. 이에대해, 프레임길이가 10ms 로제한되기때문에, 백색잡음에대한 DFT 계수가나머지모델들보다라플라시안에의해보다잘근사화되어진다는것을확인할수있다. 큰프레임길이 (>200ms) 에대해서는, DFT 계수의 PDF 는가우시안으로접근할수있으나, 이러한프레임길이는 (VAD 를포함하는 ) 실시간신호처리애플리케이션에적합하지않다. - 7 -
가설 H 1 에대해서도, 라플라시안모델이 SNR = 20 db 를제외하고는가장적합했다. 특히, 감마 PDF 로부터계산된 KS 통 계치는 SNR 이증가할수록작아지는반면에, 다른모델들은보다큰값들을생성했다. 마지막으로, 감마모델의 KS 통계치는 SNR = 20 db 에서가장최소였다. 이러한이유로, H 1 하에서백색잡음이섞인음성이순수음성스펙트럼에접근할수 록감마모델이점점적합해진다는결론을얻을수있다. 2) 도 2 는차량잡음조건하에서, SNR = 5, 10, 15, 20 db 에서평가된각각의모델에대한 KS 통계량을나타내는도면으로서, 도 2(a) 및 (b) 는각각가설 H 0 인경우의 DFT 계수의실수부와허수부를, 도 2(c) 및 (d) 는각각가설 H 1 인경우의 DFT 계수의실수부와허수부를나타내는도면이다. 도 2 로부터, H 0 이참일경우 SNR = 20 db 를제외하고는모든경우에 서감마모델의 KS 통계량이라플라시안및가우시안모델들의 KS 통계량보다더작다는것을확인할수있다. 차량잡음에대한거의모든경우에서, 가우시안분포가정은잡음이섞인음성의 DFT 스펙트럼을특징짓는데좋지못한선택인것으로관찰되었다. 3) 도 3 은배블잡음조건하에서, SNR = 5, 10, 15, 20 db 에서평가된각각의모델에대한 KS 통계량을나타내는도면으로서, 도 3(a) 및 (b) 는각각가설 H 0 인경우의 DFT 계수의실수부와허수부를, 도 3(c) 및 (d) 는각각가설 H 1 인경우의 DFT 계수의실수부와허수부를나타내는도면이다. 도 3 에서는, 가설 H 1 하에서얻어진결과가가설 H 0 하에서생성된결 과와상당히다른경향을나타내고있다. H 0 에대해서는, 라플라시안모델의 KS 통계량이거의모든 SNR 값들에서최소 였으며, 감마모델의 KS 통계량이항상최대였다. 반면에, H 1 이참일경우에는감마모델이잡음이섞인음성의 DFT 계수 의분포에가장적합한것으로관찰되었다. 또한, 가우시안모델의성능은거의모든조건에서가장나쁜것으로관찰되었다. KS 테스트결과를요약하면, 잡음이섞인음성의 DFT 스펙트럼에대하여잡음의유형및 SNR 조건에따라서로다른통계모델을적용하는것이유리할수있다는것을알수있다. 2. LRT 에기초한결정규칙 본발명의실시예는가정된통계적모델에기초하여, k 번째주파수빈 (bin) 에대한우도비 (likelihood ratio; 이하 'LR' 이라함 ) 를다음수학식 18 과같이정의하였다. 수학식 18 VAD 에대한결정규칙은개별주파수빈에대하여계산된 LR 들의기하평균으로서다음수학식 19 와같이구해질수있다. 수학식 19 여기서, M 은주파수빈의전체수를나타내며, η 은검출임계치를나타낸다. H 0 과 H 1 모두에대하여가우시안 PDF 가음성분포모델링에대하여사용되는경우에, LR 은다음수학식 20 에의해주어 진다. - 8 -
수학식 20 여기서, 이고, 이며, 이들은각각선행 SNR(a priori SNR) 및후행 SNR(a posteriori SNR) 로지칭된다. 한편, 라플라시안 PDF 의경우에는, LR 이다음수학식 21 과같이구해진다. 수학식 21 실질적으로, 수학식 21 을직접적용하는대신에, 하다고알려져있다. 이접근법은순간형태 (instantaneous form) 로서지칭된다. 를순간진폭스펙트럼 X k 로대체하는것이보다유리 LRT 의성능을보다향상시키기위하여, LR 을평탄화된형태 (smoothed form) 로지칭될수있는다음수학식 22 와같은형태로수정하는대안적인방법을제안한다. 수학식 22 여기서, 이며, 은평탄화파라미터 (smoothing parameter) 이다. 평탄화된형태에서는, 진폭스펙트럼에대하여보다평탄한평가치가순간값대신에적용된다. 다수의실험을통하여, 평 탄화된형태가순간형태보다우수하며, 특히 LRT의성능은평탄화파라미터 의선택에크게의존하는데, 의값으 로는 0.9를선택하는것이바람직한결과를준다는것을관찰하였다. 마지막으로, 감마 PDF 에대한 LR 의공식은다음의수학식 23 과같이주어진다. 수학식 23 라플라시안모델의경우와유사하게, 상기수학식 23 을대응하는평탄화된형태인다음의수학식 24 와같이변환할수있다. - 9 -
수학식 24 여기서, 이며, 은감마모델에대한평탄화파라미터로서, 다수의실험을통하여그값을 0.9 로선택하는것이바람직한결과를주는것으로관찰되었다. 3. 온라인 KS 테스트를사용하는다중통계모델에기초한 VAD 앞서살펴본 KS 테스트통계량결과에따르면, 잡음의유형, SNR 조건, 및서로다른가설조건에따라서적합한통계모델이변하는것을확인할수있었다. 그러나가우시안통계모델에기초한기존의 VAD 알고리즘에서는 VAD 의처리전에미리통계모델이선택되었기때문에, 보다적극적으로 VAD 의성능향상을도모할수없었다. 이러한문제점을극복하기위하여, 본발명에서는잡음의유형, SNR 조건, 및가설조건에따라서적합한통계모델을 VAD 처리시적응적으로결정하는방법을제안한다. 제안하는방법은, 비정적방식으로시간이흘러감에따라더해진잡음의통계적특성또는 SNR 이변하는입력신호를다룰때특히유리하다. 이를위해서, 추가적인계산상의부하를허용가능한레벨아래로유지하면서주어진조건에가장적합한모델을추적하기위한강인한방법이필요하다. 본발명의일실시예에서는, 매 p 프레임마다최근입력데이터 ( 과거 m개의이전프레임을포함 ) 을이용하여, 앞서언급한수학식 3과같이주어지는온라인 KS 평가치 T를평가함으로써주어진조건에가장적합한모델을적응적으로선택한다 ( 참조를위하여수학식 3을다시기재함 ). < 수학식 3> 여기서, 는평탄화파라미터이다. 도 4 는잡음이섞인음성샘플과관련하여주어진통계모델들에대하여온라인 KS 통계량 을도시한다. 보다구체적 으로는, 도 4(a) 는도 4(b) 와같이주어지는음성샘플에대하여각각의통계모델에기초한온라인 KS 통계량을도시하고있다. 도 4로부터, 제안된온라인 KS 테스트통계량이실제의통계특성을효과적으로따라갈수있다는것을확인할수있다. 특히, 도 4에서도시된배블잡음의경우에, 음성세그먼트동안온라인 KS 통계량에의해라플라시안모델이감마모델및가우시안모델보다우수한성능을보이는것을확인할수있다. 4. 실험결과 우선, 다양한잡음조건하에서검출성능을조사함으로써, LRT 를적용하기위한각각의파라미터모델에대한임계치의집합을선택하였다. LRT 의임계치를선택된값으로고정시킨후, 본발명에서제안된 VAD 알고리즘의성능을평가하였으며, 그결과를 ITU-T G.729B 알고리즘의성능및가우시안모델, 라플라시안모델, 감마모델각각에기초한알고리즘의성능과비교하였다. 성능의비교대상으로서는, 거짓경고확률 ( 순수음성이아닌데순수음성으로잘못검출하는확률 ) 및순수음성을놓칠확률 ( 순수음성인데순수음성으로검출하지못하는확률 ) 의합인음성검출오차확률 (P E ) 을평가하였다. 도 5 내지도 7 은각각백색, 자동차및배블잡음하에서의검출결과를도시한다. 도 5 내지도 7 로부터, 다음과같은사항들을관찰할수있다. 1) 가우시안, 라플라시안, 감마중어느하나의통계모델에기초한 VAD 알고리즘의경우에, 거의모든평가된조건하에서 G.729B 보다더나은성능을보였다. - 10 -
2) 다양한조건에서의결과에따르면, 나머지통계모델에기초한 VAD 알고리즘에비하여라플라시안에기초한 VAD 알고리즘이우수한성능을나타내었다. 3) 본발명에따른 MSM 에기초한 VAD 알고리즘은모든테스트조건에서라플라시안에기초한 VAD 알고리즘보다우수하거나대등한성능을나타내었다. 결론적으로, MSM 이 VAD 에대하여잡음이섞인음성의 DFT 계수들에대한통계분포를특징짓기위한보다바람직한방식이라는점을결과로부터명백하게확인할수있다. 이상설명한본발명은본발명이속한기술분야에서통상의지식을가진자에의하여다양한변형이나응용이가능하며, 본발명에따른기술적사상의범위는아래의특허청구범위에의하여정해져야할것이다. 발명의효과 본발명은, 기존의가우시안통계모델대신에잡음의유형, SNR 조건, 가설조건에따라서다중통계모델중어느하나를 VAD 처리중적응적으로선택하는음성검출방법을제안함으로써, 음성검출의성능을향상시킬수있다. 도면의간단한설명 도 1 은백색잡음조건하에서, SNR = 5, 10, 15, 20 db 에서평가된각각의모델에대한 KS 통계량을나타내는도면으로서, 도 1(a) 및 (b) 는각각가설 H 0 인경우의 DFT 계수의실수부와허수부를, 도 1(c) 및 (d) 는각각가설 H 1 인경우의 DFT 계수의실수부와허수부를나타내는도면. 도 2 는차량잡음조건하에서, SNR = 5, 10, 15, 20 db 에서평가된각각의모델에대한 KS 통계량을나타내는도면으로서, 도 2(a) 및 (b) 는각각가설 H 0 인경우의 DFT 계수의실수부와허수부를, 도 2(c) 및 (d) 는각각가설 H 1 인경우의 DFT 계수의실수부와허수부를나타내는도면. 도 3 은배블잡음조건하에서, SNR = 5, 10, 15, 20 db 에서평가된각각의모델에대한 KS 통계량을나타내는도면으로서, 도 3(a) 및 (b) 는각각가설 H 0 인경우의 DFT 계수의실수부와허수부를, 도 3(c) 및 (d) 는각각가설 H 1 인경우의 DFT 계수의실수부와허수부를나타내는도면. 도 4 는잡음이섞인음성샘플과관련하여주어진통계모델들에대하여온라인 KS 통계량을도시하는도면. 도 5 는백색잡음조건하에서, SNR = 5, 10, 15, 20 db 에서평가된각각의모델에대한음성검출오차확률을나타내는도면. 도 6 은차량잡음조건하에서, SNR = 5, 10, 15, 20 db 에서평가된각각의모델에대한음성검출오차확률을나타내는도면. 도 7 은배블잡음조건하에서, SNR = 5, 10, 15, 20 db 에서평가된각각의모델에대한음성검출오차확률을나타내는도면. < 도면중주요부분에대한부호의설명 > Gaussian : 가우시안통계모델 Laplacian : 복소수라플라시안통계모델 Gamma : 복소수감마통계모델 MSM : 다중통계모델 - 11 -
도면 도면 1 도면 2-12 -
도면 3 도면 4-13 -
도면 5 도면 6-14 -
도면 7-15 -