(19) 대한민국특허청 (KR) (12) 등록특허공보 (B1) (51) 국제특허분류 (Int. Cl.) G10L 15/14 (2006.01) G10L 15/10 (2006.01) G10L 15/18 (2006.01) (52) CPC 특허분류 G10L 15/14 (2013.01) G10L 15/10 (2013.01) (21) 출원번호 10-2016-0094707 (22) 출원일자 2016 년 07 월 26 일 심사청구일자 (56) 선행기술조사문헌 KR1020110069514 A* 2016 년 07 월 26 일 * 는심사관에의하여인용된문헌 (45) 공고일자 2017년12월21일 (11) 등록번호 10-1811537 (24) 등록일자 2017년12월15일 (73) 특허권자 한양대학교산학협력단 서울특별시성동구왕십리로 222( 행당동, 한양대학교내 ) (72) 발명자 박태준 서울특별시관악구원신 2 길 12-8 ( 신림동 ) 장준혁 서울특별시강남구언주로 30 길 26, G 동 2708 호 ( 도곡동, 타워팰리스 ) (74) 대리인 양성보 전체청구항수 : 총 13 항심사관 : 정성윤 (54) 발명의명칭뎀프스터 - 셰이퍼추론이론을이용한통계모델기반의음성검출기및그성능개선방법 (57) 요약 뎀프스터 - 셰이퍼추론이론을이용한통계모델기반의음성검출기및그의성능개선방법이제시된다. 통계모델기반의음성검출기의성능개선방법은복소가우시안분포를기반으로하는복수의통계적모델기반의음성검출기들에서각각의우도비를구하는단계 ; 상기각각의우도비를이용하여각음성존재확률을도출하는단계 ; 상기각음성존재확률을각각엔트로피가고려된기초확률할당 (Basic Probability Assignment, BPA) 으로변형하는단계 ; 및변형된복수의상기기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용하는단계를포함할수있다. 대표도 - 1 -
(52) CPC 특허분류 G10L 15/18 (2013.01) G10L 15/183 (2013.01) 이발명을지원한국가연구개발사업 과제고유번호 201600000000582 부처명 연구관리전문기관 미래창조과학부 정보통신기술진흥센터 연구사업명정보통신산업진흥원부설정보통신기술진흥센터 / 정보통신방송기술개발사업 / SW컴퓨팅산업원천기술개발사업 연구과제명 기여율 1/1 음성음향분석기반상황판단솔루션기술개발 주관기관 한국과학기술연구원 연구기간 2016.03.01 ~ 2017.02.28-2 -
명세서청구범위청구항 1 복소가우시안분포를기반으로하는복수의통계적모델기반의음성검출기들에서각각의우도비를구하는단계 ; 상기각각의우도비를이용하여각음성존재확률을도출하는단계 ; 상기각음성존재확률을각각엔트로피가고려된기초확률할당 (Basic Probability Assignment, BPA) 으로변형하는단계 ; 및변형된복수의상기기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용하는단계를포함하고, 상기각음성존재확률을각각엔트로피가고려된기초확률할당 (BPA) 으로변형하는단계는, 도출된상기각음성존재확률을통해서음성존재및음성부재를판단할수없는모호한상태에대해확률을할당하여상기기초확률할당 (BPA) 으로변형하는것을특징으로하는통계모델기반의음성검출기의성능개선방법. 청구항 2 제1항에있어서, 상기복수의통계적모델기반의음성검출기들은, Sohn's 음성검출기, 스무딩된우도비기반음성검출기, 및 MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기중적어도 2개이상인것을특징으로하는통계모델기반의음성검출기의성능개선방법. 청구항 3 삭제청구항 4 제1항에있어서, 상기각음성존재확률을각각엔트로피가고려된기초확률할당 (BPA) 으로변형하는단계는, 도출된상기각음성존재확률을음성존재확률및상기모호한상태에대해확률을할당하여상기기초확률할당 (BPA) 으로변형하는것을특징으로하는뎀프스터-셰이퍼추론이론을이용한통계모델기반의음성검출기의성능개선방법. 청구항 5 제1항에있어서, 상기각음성존재확률을각각엔트로피가고려된기초확률할당 (BPA) 으로변형하는단계는, 도출된상기각음성존재확률을음성존재확률, 상기음성존재확률의여집합 (complementary set) 인음성부재확률, 및상기모호한상태에대해확률을할당하여상기기초확률할당 (BPA) 으로변형하는것을특징으로하는통계모델기반의음성검출기의성능개선방법. - 3 -
청구항 6 제1항에있어서, 상기변형된복수의상기기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용하는단계는, 상기변형된복수의상기기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 을이용하여직교합 (orthogonal sum) 을통해상기모호한상태에대해확률을제거하고상기최종적음성존재확률을도출하여음성검출에이용하는것을특징으로하는통계모델기반의음성검출기의성능개선방법. 청구항 7 제1항에있어서, 상기변형된복수의상기기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용하는단계는, 상기변형된복수의상기기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 을이용하여음성존재확률, 상기음성존재확률의여집합 (complementary set) 인음성부재확률, 및상기모호한상태를고려하며직교합 (orthogonal sum) 을통해상기모호한상태에대해확률을제거하고상기최종적음성존재확률을도출하여음성검출에이용하는것을특징으로하는통계모델기반의음성검출기의성능개선방법. 청구항 8 복소가우시안분포를기반으로하는복수의통계적모델기반의음성검출기들에서각각의우도비를구하는우도비산정부 ; 상기각각의우도비를이용하여각음성존재확률을도출하는음성존재확률산정부 ; 상기각음성존재확률을각각엔트로피가고려된기초확률할당 (Basic Probability Assignment, BPA) 으로변형하는 BPA 변형부 ; 및변형된복수의상기기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용하는 DST 결합부를포함하고, 상기 BPA 변형부는, 도출된상기각음성존재확률을통해서음성존재및음성부재를판단할수없는모호한상태에대해확률을할당하여상기기초확률할당 (BPA) 으로변형하는것을특징으로하는통계모델기반의음성검출기. 청구항 9 제8항에있어서, 상기복수의통계적모델기반의음성검출기들은, Sohn's 음성검출기, 스무딩된우도비기반음성검출기, 및 MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기중적어도 2개이상인것을특징으로하는통계모델기반의음성검출기. 청구항 10 삭제 - 4 -
청구항 11 제8항에있어서, 상기 BPA 변형부는, 도출된상기각음성존재확률을음성존재확률및상기모호한상태에대해확률을할당하여상기기초확률할당 (BPA) 으로변형하는것을특징으로하는뎀프스터-셰이퍼추론이론을이용한통계모델기반의음성검출기. 청구항 12 제8항에있어서, 상기 BPA 변형부는, 도출된상기각음성존재확률을음성존재확률, 상기음성존재확률의여집합 (complementary set) 인음성부재확률, 및상기모호한상태에대해확률을할당하여상기기초확률할당 (BPA) 으로변형하는것을특징으로하는통계모델기반의음성검출기. 청구항 13 제8항에있어서, 상기 DST 결합부는, 상기변형된복수의상기기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 을이용하여직교합 (orthogonal sum) 을통해상기모호한상태에대해확률을제거하고상기최종적음성존재확률을도출하여음성검출에이용하는것을특징으로하는통계모델기반의음성검출기. 청구항 14 제8항에있어서, 상기 DST 결합부는, 상기변형된복수의상기기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 을이용하여음성존재확률, 상기음성존재확률의여집합 (complementary set) 인음성부재확률, 및상기모호한상태를고려하며직교합 (orthogonal sum) 을통해상기모호한상태에대해확률을제거하고상기최종적음성존재확률을도출하여음성검출에이용하는것을특징으로하는통계모델기반의음성검출기. 청구항 15 제13항또는제14항에있어서, 상기뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 은, 복수의증거 (evidence) 들로부터구한확률을바탕으로새로운확률을생성하며, 직교합 (orthogonal sum) 을통하여상기모호한상태의확률을제거하는것을특징으로하는통계모델기반의음성검출기. 발명의설명 [0001] 기술분야 아래의실시예들은뎀프스터 - 셰이퍼추론이론을이용한통계모델기반의음성검출기및그의성능개선방법에관 한것이다. - 5 -
[0002] [0003] [0004] [0005] [0006] 배경기술음성검출기는마이크로폰으로입력된음성신호로부터음성이존재하는구간과음성이존재하지않는구간을분류하는역할을한다. 이는음성인식, 음성향상, 음성부호화기와같은음성신호처리기술의필수적인요소이다. 예를들어음성향상기술은비음성구간에서잡음신호의전력을추정하여잡음이섞인음성구간에서잡음전력을빼줌으로써깨끗한음성신호의전력을추정한다. 우수한음성향상성능을도출하기위해서는잡음신호의전력을정확히추정하는것이중요한데, 이를위해서비음성구간을정확히검출할수있어야한다. 또한, 음성부호화기의경우에는제한된대역을통해서음성신호를효율적으로전송하기위하여음성이존재하는구간은높은비트전송률로부호화하여전송하고, 비음성구간은낮은비트전송률로부호화하여전송하는데, 이또한음성 / 비음성구간을정확히구분할수있어야한다. 음성인식의경우에는음성구간에서만음향모델을통해서음소를인식함으로써높은정확도를도출할수있다. 앞서언급한기술들에대하여고성능을도출하기위해서음성구간검출기가도입될수있다. 종래의음성검출기법중 Ephraim과 Malah의연구에서시작된 MMSE(minimum mean square error) 기반의음성향상기법에서사용된음성의존재와부재에대한통계적모델을우도비테스트에적용한음성검출기의성능이매우우수한것으로알려져있다. 이방법은음성에대한통계모델을가우시안분포로가정하였으며 DD(decision-directed) 기법을적용하여음성의존재와부재에대한우도비를기하평균한판별식으로부터음성존재여부를판단한다. 그러나상기의알고리즘은음성의꼬리부분에서취약한성능저하의약점을갖고있는데이러한약점을보완하기위하여스무딩된우도비를사용하여음성검출기의성능을개선시켰다. 상기의두가지알고리즘에비해더나은성능개선을위해단순히현재프레임에서의우도비만아니라인접한프레임의우도비까지고려하여 MO-LRT(multiple observation likelihood ratio test) 를 J. Ramirez가제안하였다. 그러나동일한테스트파일에대하여종래기술들은각기다른우도비를나타내고특히음성의시작과끝에서매우취약한성능을나타낸다. 한국공개특허 10-2011-0069514호는이러한신뢰성이높은우도비를사용한음성검출장치및방법에관한것으로, 잡음환경에서음성인식기와화자인식기의인식성능을보장하기위해사용되는음성검출장치및방법에관한기술을기재하고있다. 발명의내용 [0007] [0008] 해결하려는과제실시예들은뎀프스터-셰이퍼추론이론을이용한통계모델기반의음성검출기및그의성능개선방법에관하여기술하며, 보다구체적으로뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 을이용하여모호한상태에대해확률을제거하고최종적음성존재확률을도출하는기술을제공한다. 실시예들은복수의통계적모델기반의음성검출기에서각각의우도비를구하고이것을바탕으로각각음성존재확률을도출하여각기초확률할당 (Basic Probability Assignment, BPA) 로변형한후, DST 결합 (combinatio n) 을이용하여최종적음성존재확률을도출함으로써, 음성구간에서의음성인식을통한성능이개선된뎀프스터- 셰이퍼추론이론을이용한통계모델기반의음성검출기및그의성능개선방법을제공하는데있다. [0009] [0010] [0011] 과제의해결수단일실시예에따른통계모델기반의음성검출기의성능개선방법은복소가우시안분포를기반으로하는복수의통계적모델기반의음성검출기들에서각각의우도비를구하는단계 ; 상기각각의우도비를이용하여각음성존재확률을도출하는단계 ; 상기각음성존재확률을각각엔트로피가고려된기초확률할당 (Basic Probability Assignment, BPA) 으로변형하는단계 ; 및변형된복수의상기기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용하는단계를포함한다. 상기복수의통계적모델기반의음성검출기들은, Sohn's 음성검출기, 스무딩된우도비기반음성검출기, 및 MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기중적어도 2개이상일수있다. 상기각음성존재확률을각각엔트로피가고려된기초확률할당 (BPA) 으로변형하는단계는, 도출된상기각음성존재확률을통해서음성존재및음성부재를판단할수없는모호한상태에대해확률을할당하여상기기초 - 6 -
확률할당 (BPA) 으로변형할수있다. [0012] [0013] [0014] [0015] [0016] [0017] [0018] [0019] [0020] [0021] [0022] [0023] 상기각음성존재확률을각각엔트로피가고려된기초확률할당 (BPA) 으로변형하는단계는, 도출된상기각음성존재확률을음성존재확률및상기모호한상태에대해확률을할당하여상기기초확률할당 (BPA) 으로변형할수있다. 상기각음성존재확률을각각엔트로피가고려된기초확률할당 (BPA) 으로변형하는단계는, 도출된상기각음성존재확률을음성존재확률, 상기음성존재확률의여집합 (complementary set) 인음성부재확률, 및상기모호한상태에대해확률을할당하여상기기초확률할당 (BPA) 으로변형할수있다. 상기변형된복수의상기기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용하는단계는, 상기변형된복수의상기기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 을이용하여직교합 (orthogonal sum) 을통해상기모호한상태에대해확률을제거하고상기최종적음성존재확률을도출하여음성검출에이용할수있다. 상기변형된복수의상기기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용하는단계는, 상기변형된복수의상기기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 을이용하여음성존재확률, 상기음성존재확률의여집합 (complementary set) 인음성부재확률, 및상기모호한상태를고려하며직교합 (orthogonal sum) 을통해상기모호한상태에대해확률을제거하고상기최종적음성존재확률을도출하여음성검출에이용할수있다. 다른실시예에따른통계모델기반의음성검출기는복소가우시안분포를기반으로하는복수의통계적모델기반의음성검출기들에서각각의우도비를구하는우도비산정부 ; 상기각각의우도비를이용하여각음성존재확률을도출하는음성존재확률산정부 ; 상기각음성존재확률을각각엔트로피가고려된기초확률할당 (Basic Probability Assignment, BPA) 으로변형하는 BPA 변형부 ; 및변형된복수의상기기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용하는 DST 결합부를포함한다. 상기복수의통계적모델기반의음성검출기들은, Sohn's 음성검출기, 스무딩된우도비기반음성검출기, 및 MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기중적어도 2개이상일수있다. 상기 BPA 변형부는, 도출된상기각음성존재확률을통해서음성존재및음성부재를판단할수없는모호한상태에대해확률을할당하여상기기초확률할당 (BPA) 으로변형할수있다. 상기 BPA 변형부는, 도출된상기각음성존재확률을음성존재확률및상기모호한상태에대해확률을할당하여상기기초확률할당 (BPA) 으로변형할수있다. 상기 BPA 변형부는, 도출된상기각음성존재확률을음성존재확률, 상기음성존재확률의여집합 (complementary set) 인음성부재확률, 및상기모호한상태에대해확률을할당하여상기기초확률할당 (BPA) 으로변형할수있다. 상기 DST 결합부는, 상기변형된복수의상기기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster- Shafer Theory, DST) 을이용하여직교합 (orthogonal sum) 을통해상기모호한상태에대해확률을제거하고상기최종적음성존재확률을도출하여음성검출에이용할수있다. 상기 DST 결합부는, 상기변형된복수의상기기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster- Shafer Theory, DST) 을이용하여음성존재확률, 상기음성존재확률의여집합 (complementary set) 인음성부재확률, 및상기모호한상태를고려하며직교합 (orthogonal sum) 을통해상기모호한상태에대해확률을제거하고상기최종적음성존재확률을도출하여음성검출에이용할수있다. 상기뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 은, 복수의증거 (evidence) 들로부터구한확률을바탕으로새로운확률을생성하며, 직교합 (orthogonal sum) 을통하여상기모호한상태의확률을제거할수있다. [0024] 발명의효과실시예들에따르면복수의통계적모델기반의음성검출기에서각각의우도비를구하고이것을바탕으로각각음성존재확률을도출하여각기초확률할당 (Basic Probability Assignment, BPA) 로변형한후, DST 결합 (combination) 을이용하여최종적음성존재확률을도출함으로써, 음성구간에서의음성인식을통한성능이개선된뎀프스터-셰이퍼추론이론을이용한통계모델기반의음성검출기및그의성능개선방법을제공할수있다. - 7 -
[0025] 실시예들에따르면음성향상기법의음성검출모듈에적용되어잡음전력추정의성능을높임으로써음성향상성능을높일수있으며, 음성부호화기의음성검출모듈에적용되어비트전송률을보다효율적으로결정하여제한된통신대역폭을효율적으로사용할수있다. 또한, 음성인식에서주로사용되는끝점검출기의첫단계인음성검출기로써적용되어음성구간에서의음성인식을통한성능개선을기대할수있다. [0026] 도면의간단한설명 도 1 은일실시예에따른통계모델기반의음성검출기를개략적으로나타내는도면이다. 도 2는일실시예에따른통계모델기반의음성검출기의성능개선방법을나타내는흐름도이다. 도 3은일실시예에따른통계모델기반의음성검출기의 BPA 결합방법의예를설명하기위한도면이다. 도 4는일실시예에따른 Babble 잡음환경, SNR 0 db에서음성검출결과를나타낸다. 도 5는일실시예에따른 F16 잡음환경, SNR 0 db에서음성검출결과를나타낸다. 도 6은일실시예에따른 HF-channel 잡음환경, SNR 0 db에서음성검출결과를나타낸다. 도 7은일실시예에따른 Office 잡음환경, SNR 0 db에서음성검출결과를나타낸다. 도 8은일실시예에따른 Street 잡음환경, SNR 0 db에서음성검출결과를나타낸다. 도 9는일실시예에따른 White 잡음환경, SNR 0 db에서음성검출결과를나타낸다. [0027] 발명을실시하기위한구체적인내용이하, 첨부된도면을참조하여실시예들을설명한다. 그러나, 기술되는실시예들은여러가지다른형태로변형될수있으며, 본발명의범위가이하설명되는실시예들에의하여한정되는것은아니다. 또한, 여러실시예들은당해기술분야에서평균적인지식을가진자에게본발명을더욱완전하게설명하기위해서제공되는것이다. 도면에서요소들의형상및크기등은보다명확한설명을위해과장될수있다. [0028] 음성검출은마이크로폰으로입력된음성신호로부터실제음성이존재하는구간과음성이존재하는구간과존재하지않는구간을분류하는기술이며, 통계모델기반의음성검출기가적은연산량으로도우수한음성검출성능을보여많이사용되고있다. 통계모델기반의음성검출기는각주파수채널로부터구해진음성존재 / 부재에대한우도비의기하평균값과주어진문턱값이비교하여더클경우음성으로, 작을경우비음성으로분류한다. [0029] [0030] [0031] [0032] 아래의실시예에서는통계적모델을기반으로한 3가지음성검출기 (Sohn's 음성검출기, 스무딩된우도비기반음성검출기, MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기 ) 로부터도출한각각의음성존재확률을뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 방법으로결합하여새로운음성존재확률을도출한후, 이새로운확률을이용한새로운음성검출기를제공할수있다. 즉, 통계적모델을기반으로한 3가지음성검출기 (Sohn's 음성검출기, 스무딩된우도비기반음성검출기, MO- LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기 ) 로부터구한확률을바탕으로좀더견고한음성검출기를제안하기위해 DST 기법을적용할수있다. DST는상한과하한을갖고있는확률이론중하나인데, 수십년간많은학자들에의해서확장되어왔고많이적용되어왔다. 특히전통적인베이지안 (Bayesian) 결정이론에비해많은이점을제공하는것을특징으로갖고있다. 비록실생활의적용및실용적인활용도는떨어지기도하지만많은분야에적용되어온것또한사실이다. 특히, 얼굴인식, 통계적분류, 목표식별, 이미지합성, 이미지분석등에적용되어기존방법대비개선된성능을가져왔다. 이러한 DST는특정증거 (evidence) 들로부터얻은정보혹은확률을바탕으로그것들을조합하여모호한상태에대한불확실성을수치화할수있는강력한강점을갖고있다. 다른증거 (evidence) 들로부터얻은정보를조합하는과정에서가정한가설을더욱강력하게지지할수도있고그렇지않을수도있다. 이러한정보들의조합을통해같은결론에도달할수도있고상반된정보에대해서는그것을수치화하여제거할수있는이점또한 - 8 -
갖고있다. [0033] 이러한잠재적인 DST 의힘을이용, 활용하여새로운알고리즘을제시할수있다. DST 기법은복수의증거 (evidence) 들로부터구한확률을바탕으로새로운확률을생성하는데이기법의핵심은직교합 (orthogonal sum) 을통하여모호한상태 (state) 의확률을제거하는것이다. [0034] [0035] [0036] [0037] [0038] [0039] [0040] [0041] [0042] [0043] [0044] [0045] 도 1은일실시예에따른통계모델기반의음성검출기를개략적으로나타내는도면이다. 도 1을참조하면, 전통적인통계적모델기반의음성검출기에서각각의우도비를구하고이것을바탕으로각각음성존재확률을도출한후, 이확률들을각각기초확률할당 (Basic Probability Assignment, BPA) 로변형한후, DST 결합 (combination) 을이용하여최종적음성존재확률을도출하여음성검출에사용할수있다. 일실시예에따른통계모델기반의음성검출기 (100) 는우도비산정부 (120), 음성존재확률산정부 (130), BPA 변형부 (140), 및 DST 결합부 (150) 를포함하여이루어질수있다. 실시예에따라통계모델기반의음성검출기는특징벡터추출부 (110) 를더포함하여이루어질수있다. 이러한특징벡터추출부 (110) 는입력부로부터주변잡음환경에의해오염된음성신호를입력받아, 입력된음성신호의분산값에기초하여, 통계모델파라미터사전신호대잡음비 (a priori SNR), 사후신호대잡음비 (a posteriori SNR), 및우도비 (LR, likelihood ratio) 를이용한특징벡터를추출할수있다. 우도비산정부 (120) 는복소가우시안분포를기반으로하는복수의통계적모델기반의음성검출기들에서각각의우도비를구할수있다. 한편, 복수의통계적모델기반의음성검출기들은 Sohn's 음성검출기, 스무딩된우도비기반음성검출기, 및 MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기중적어도 2개이상일수있다. 더구체적으로, 우도비산정부 (120) 는 Sohn's 음성검출기로부터우도비를산출할수있고 (121), 스무딩된우도비기반음성검출기로부터우도비를산출할수있으며 (122), MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기로부터우도비를산출할수있다 (123). 음성존재확률산정부 (130) 는각각의우도비를이용하여각음성존재확률을도출할수있다. 더구체적으로, 음성존재확률산정부 (130) 는 Sohn's 음성검출기로부터산출된우도비를이용하여음성존재확률을도출할수있고 (131), 스무딩된우도비기반음성검출기로부터산출된우도비를이용하여음성존재확률을도출할수있으며 (132), MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기로부터산출된우도비를이용하여음성존재확률을도출할수있다 (133). BPA 변형부 (140) 는각음성존재확률을각각엔트로피가고려된기초확률할당 (Basic Probability Assignment, BPA) 으로변형할수있다. 이러한 BPA 변형부 (140) 는도출된각음성존재확률을통해서음성존재및음성부재를판단할수없는모호한상태에대해확률을할당하여기초확률할당 (BPA) 으로변형할수있다. 더구체적으로, BPA 변형부 (140) 는 Sohn's 음성검출기로부터도출된음성존재확률을엔트로피가고려된기초확률할당 (Basic Probability Assignment, BPA) 으로변형할수있다 (141). 이때 BPA 변형부 (140) 는도출된각음성존재확률을음성존재확률및모호한상태에대해확률을할당하여기초확률할당 (BPA) 으로변형할수있다. [0046] [0047] [0048] 그리고 BPA 변형부 (140) 는스무딩된우도비기반음성검출기로부터도출된음성존재확률을엔트로피가고려된기초확률할당 (Basic Probability Assignment, BPA) 으로변형할수있다 (142). 또한, BPA 변형부 (140) 는 MO- LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기로부터도출된음성존재확률을엔트로피가고려된기초확률할당 (Basic Probability Assignment, BPA) 으로변형할수있다 (143). 여기에서 BPA 변형부 (140) 는도출된각음성존재확률을음성존재확률, 음성존재확률의여집합 (complementary set) 인음성부재확률, 및모호한상태에대해확률을할당하여기초확률할당 (BPA) 으로변형할수있다. DST 결합부 (150) 는변형된복수의기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용할수있다. 이러한 DST 결합부 (150) 는변형된복수의기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster-Shafer - 9 -
Theory, DST) 을이용하여직교합 (orthogonal sum) 을통해모호한상태에대해확률을제거하고최종적음성존 재확률을도출하여음성검출에이용할수있다. [0049] [0050] [0051] 여기에서, 뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 은복수의증거 (evidence) 들로부터구한확률을바탕으로새로운확률을생성하며, 직교합 (orthogonal sum) 을통하여모호한상태의확률을제거할수있다. 특히, DST 결합부 (150) 는변형된복수의기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 을이용하여음성존재확률, 음성존재확률의여집합 (complementary set) 인음성부재확률, 및모호한상태를고려하며직교합 (orthogonal sum) 을통해모호한상태에대해확률을제거하고최종적음성존재확률을도출하여음성검출에이용할수있다. 아래에서일실시예에따른통계모델기반의음성검출기에대해더구체적으로설명하기로한다. [0052] [0053] [0054] [0055] 도 2는일실시예에따른통계모델기반의음성검출기의성능개선방법을나타내는흐름도이다. 도 2를참조하면, 일실시예에따른통계모델기반의음성검출기의성능개선방법은복소가우시안분포를기반으로하는복수의통계적모델기반의음성검출기들에서각각의우도비를구하는단계 (210), 각각의우도비를이용하여각음성존재확률을도출하는단계 (220), 각음성존재확률을각각엔트로피가고려된기초확률할당 (Basic Probability Assignment, BPA) 으로변형하는단계 (230), 및변형된복수의기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용하는단계 (240) 를포함하여이루어질수있다. 실시예들에따르면복수의통계적모델기반의음성검출기에서각각의우도비를구하고이것을바탕으로각각음성존재확률을도출하여각기초확률할당 (Basic Probability Assignment, BPA) 로변형한후, DST 결합 (combination) 을이용하여최종적음성존재확률을도출함으로써, 음성구간에서의음성인식을통한성능이개선된뎀프스터-셰이퍼추론이론을이용한통계모델기반의음성검출기및그의성능개선방법을제공할수있다. [0056] 아래에서는일실시예에따른통계모델기반의음성검출기의성능개선방법의각단계에대해상세히설명하기로 한다. [0057] [0058] [0059] [0060] [0061] [0062] [0063] [0064] [0065] 일실시예에따른통계모델기반의음성검출기의성능개선방법은도 1에서설명한일실시예에따른통계모델기반의음성검출기를이용하여더구체적으로설명할수있다. 일실시예에따른통계모델기반의음성검출기 (100) 는우도비산정부 (120), 음성존재확률산정부 (130), BPA 변형부 (140), 및 DST 결합부 (150) 를포함하여이루어질수있다. 실시예에따라통계모델기반의음성검출기는특징벡터추출부 (110) 를더포함하여이루어질수있다. 단계 (210) 에서, 우도비산정부 (120) 는복소가우시안분포를기반으로하는복수의통계적모델기반의음성검출기들에서각각의우도비를구할수있다. 한편, 복수의통계적모델기반의음성검출기들은 Sohn's 음성검출기, 스무딩된우도비기반음성검출기, 및 MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기중적어도 2개이상일수있다. 단계 (220) 에서, 음성존재확률산정부 (130) 는각각의우도비를이용하여각음성존재확률을도출할수있다. 단계 (230) 에서, BPA 변형부 (140) 는각음성존재확률을각각엔트로피가고려된기초확률할당 (Basic Probability Assignment, BPA) 으로변형할수있다. 이러한 BPA 변형부 (140) 는도출된각음성존재확률을통해서음성존재및음성부재를판단할수없는모호한상태에대해확률을할당하여기초확률할당 (BPA) 으로변형할수있다. BPA 변형부 (140) 는도출된각음성존재확률을음성존재확률및모호한상태에대해확률을할당하여기초확률할당 (BPA) 으로변형할수있다. 또한, BPA 변형부 (140) 는도출된각음성존재확률을음성존재확률, 음성존재확률의여집합 (complementary set) - 10 -
인음성부재확률, 및모호한상태에대해확률을할당하여기초확률할당 (BPA) 으로변형할수있다. [0066] [0067] [0068] [0069] [0070] 단계 (240) 에서, DST 결합부 (150) 는변형된복수의기초확률할당 (BPA) 들을결합 (combination) 하여최종적음성존재확률을도출하여음성검출에이용할수있다. 이러한 DST 결합부 (150) 는변형된복수의기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 을이용하여직교합 (orthogonal sum) 을통해모호한상태에대해확률을제거하고최종적음성존재확률을도출하여음성검출에이용할수있다. 여기에서, 뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 은복수의증거 (evidence) 들로부터구한확률을바탕으로새로운확률을생성하며, 직교합 (orthogonal sum) 을통하여모호한상태의확률을제거할수있다. 특히, DST 결합부 (150) 는변형된복수의기초확률할당 (BPA) 들을뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 을이용하여음성존재확률, 음성존재확률의여집합 (complementary set) 인음성부재확률, 및모호한상태를고려하며직교합 (orthogonal sum) 을통해모호한상태에대해확률을제거하고최종적음성존재확률을도출하여음성검출에이용할수있다. 아래에서일실시예에따른통계모델기반의음성검출기및통계모델기반의음성검출기의성능개선방법의성능개선방법에대해더구체적으로설명한다. [0071] [0072] [0073] [0074] [0075] [0076] [0077] [0078] [0079] [0080] [0081] [0082] [0083] 일실시예에따른통계모델기반의음성검출기의특징벡터추출부 (110) 는입력된음성신호에단구간푸리에변환 (short-time Fourier transform, STFT) 을적용하여주파수축상의성분으로변환할수있다. 이경우, 시간도메인 ( 시간축 t) 에서잡음이섞인음성신호 y(t) 는잡음신호 d(t) 가깨끗한음성신호 x(t) 에더해져형성된다고가정할수있다. [ 수학식 1] y(t) = x(t) + d(t) 이렇게잡음이섞인음성신호 y(t) 는단구간푸리에변환 (STFT) 을통하여주파수도메인 ( 시간-주파수축 ) 에서의신호를다음과같이나타낼수있다. [ 수학식 2] Y(k, n) = X(k, n) + D(k, n) 여기서, Y(k, n), X(k, n), D(k, n) 은각각잡음이섞인음성신호, 깨끗한음성신호, 잡음신호의단구간푸리에변환 (STFT) 계수를나타내며, k는주파수채널의인덱스를나타내고, n은프레임인덱스를나타낼수있다. 음성검출장치의특징벡터추출부 (110) 는변환된주파수축상의성분에대하여주파수대역에서의음성및잡음신호의분산을산출할수있다. 이를위해, 음성이존재하는경우 ( 음성존재 ) 와음성이존재하지않는경우 ( 음성부재 ) 에대한두가지의가설을다음과같이나타낼수있다. [ 수학식 3] H 0 ( 음성부재 ): Y(k, n) = D(k, n) [ 수학식 4] H 1 ( 음성존재 ): Y(k, n) = X(k, n) + D(k, n) 이때두가지의가설 H 0 과 H 1 이복수가우시안확률분포 (the complex Gaussian probability distribution) 를따 른다고가정하면, 두가지의가설 H 0 과 H 1 에대한조건부확률밀도함수 (probability density functions, PDF s) 를다음과같이나타낼수있다. [0084] [ 수학식 5] - 11 -
[0085] [0086] [ 수학식 6] [0087] [0088] [0089] [0090] [0091] 여기서, 는깨끗한음성신호의주파수밴드의분산을나타내고, 는잡음신호의주파수밴드의분산을나타낼수있다. 음성검출장치의특징벡터추출부 (110) 는산출된주파수대역에서의음성및잡음신호의분산을이용하여사후신호대잡음비 (a posteriori SNR) 및사전신호대잡음비 (a priori SNR) 를산출할수있고, 음성존재에대한우도비 (likelihood ratio, LR) 를나타낼수있다. 즉, 음성존재에대한 k번째우도비 (likelihood ratio, LR) 는다음과같이나타낼수있다. [ 수학식 7] [0092] [0093] 여기서, 과은각각사전신호대잡 음비 (a priori SNR) 와사후신호대잡음비 (a posteriori SNR) 를나타낼수있다. 여기에서 smoothing) 형태로구해진다. 를반드시알아야하는데음성부재구간에서롱텀스무딩 (long-term [0094] 특징벡터추출부 (110) 는사후신호대잡음비 (a posteriori SNR) 는음성이존재하지않는구간 ( 음성부재구 간 ) 에서잡음신호의분산값을이용하여업데이트하고, 사전신호대잡음비 (a priori SNR) 는음성이존재하는구간 ( 음성존재구간 ) 에서판정의거 (decisiondirected) 방법을통해서업데이트할수있으며, 다음과같이구할수있다. [0095] [ 수학식 8] [0096] [0097] 여기서, 은이전프레임 ( 즉, n-1 프레임 ) 에서의깨끗한음성신호주파수성분크기의추정치를 나타내며, 최소평균제곱오차추정량 (MMSE estimator, minimum mean square error estimator) 를통하여구할 수있다. 또한, 는스무딩 (smoothing) 파라미터로, 약 0.95 내지약 0.99 의범위의값으로설정할수있다. [0098] 음성존재확률산정부 (130) 는우도비를이용하여각음성존재확률을도출할수있다. [0099] [0100] 는일때, 로나타내고, 그렇지않을때는을나타낼수있다. 음성존재확률산정부 (130) 에서의최종적인음성존재에대한결정은아래와같은우도비를주파수채널별로기 하평균한판별식으로부터이루어지며, 다음과같이나타낼수있다. - 12 -
[0101] [ 수학식 9] [0102] [0103] 여기서, L 은주파수채널의전체개수를의미하고, 이특정임계값보다크면음성이존재한다고판 별하고, 그렇지않은경우에는음성이존재하지않는다고판별할수있다. 이를 Sohn's 음성검출기라고한다. [0104] [0105] [0106] [0107] 다음으로스무딩된우도비기반음성검출기에대해서살펴보도록한다. 우도비산정부 (120) 는스무딩된우도비기반음성검출기에서우도비를산정할수있다. 음성의끝부분에서부정확한 Sohn's 음성검출기를개선하기위한방법으로우도비를스무딩 (smoothing) 한것을아래와같이나타낼수있다. [ 수학식 10] [0108] [0109] [0110] 여기서, 는스무딩매개변수이다. 음성존재확률산정부 (130) 는우도비를이용하여음성존재확률을도출할수있다. Sohn's 음성검출기와마찬가 지로을주파수채널별로기하평균한판별식이특정임계값보다크면음성이존재한다고판별하고, 그렇지않은경우에는음성이존재하지않는다고판별할수있다. [0111] [0112] [0113] 다음으로, 단순히현재프레임에서만의우도비가아닌인접한프레임의우도비의평균을사용하여음성검출을하는 MO-LRT 기반음성검출기에대하여살펴보도록한다. 우도비산정부 (120) 는 MO-LRT 기반음성검출기에서우도비를산정할수있다. 두가지가설을가정한테스트에서, 오류확률을가장적게갖는최적의결정방식은베이즈분류기 (Bayes classifier) 이다. 우도비테스트에서좀더많은관찰을결합시키면성능을개선시킬수있다. 두가지계층 H 0 과 H 1 을분류하는문제에서 m 가지측정, 이가능할때 MO-LRT 는다음과같이정의될수있다. [0114] [ 수학식 11] [0115] [0116] [0117] 이테스트는각각의측정가독립적일때계산적인효율성을갖고있는 m번째계수우도비테스트의평가와매우밀접한연관이있다. 이와같은경우에는다음과같이나타낼수있다. [ 수학식 12] [0118] [0119] 위와동등한 log 우도비는위식에 log 연산을취하면아래와같이나타낼수있다. - 13 -
[0120] [ 수학식 13] [0121] [0122] [0123] 그리고 l m 의계산은반복적인방법으로다음과같이명확하게할수있다. [ 수학식 14] [0124] [0125] MO-LRT 기반의음성검출기는다음과같이설명될수있다. 관찰된벡터들이다음과같다면 는아래와같이나타낼수있다. [0126] [ 수학식 15] [0127] [0128] [0129] 여기서 l 은음성의존재가판단될프레임인덱스를의미한다. 이를아래와같이정의할수있다. [ 수학식 16] [0130] [0131] [0132] 우도비는다음과같이반복적으로계산될수있다. [ 수학식 17] [0133] [0134] 음성존재확률산정부 (130) 는우도비를이용하여음성존재확률을도출할수있다. 음성존재유무를판단하는 방법은 이실험적으로조정되어구해지는특정임계값보다클경우음성이존재한다고판단하고, 그 렇지않은경우에는음성이존재하지않는다고판단할수있다. [0135] [0136] Sohn's 음성검출기에서의동일한 PDFs를취하고, k번째주파수채널의 log 우도비를구하고음성존재를검출하기위한프레임인덱스 n인프레임에서모든주파수채널에대해서 log 우도비들의평균을취하면다음과같이나타낼수있다. [ 수학식 18] [0137] [0138] [0139] 이를이용하여음성검출을할수있다. 우도비를이용하여조건부음성부재확률 (= 1 - 음성존재확률 ) 을구할수있는방법중가장대표적인것을베이 - 14 -
즈법칙 (Bayes rule) 을통하여다음과같이나타낼수있다. [0140] [ 수학식 19] [0141] [0142] [0143] 여기서, 의비율, 는음성부재에대한사전확률 (a priori probability) 이고, L은주파수채널의전체개수를의미할수있다. 이식을일반화하면다음과같이나타낼수있다. [ 수학식 20] [0144] [0145] [0146] [0147] [0148] [0149] 여기서, LR(n) 은 n번째프레임의우도비 (Likelihood Ratio, LR) 를의미할수있다. 상기식을이용하여통계적모델을기반으로한 3가지음성검출기들 (Sohn's 음성검출기, 스무딩된우도비기반음성검출기, MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기 ) 중적어도 2개이상으로부터구해진각각의우도비를이용하여음성존재확률을구할수있다. 조금씩다른구조를갖고있는상기의 3가지음성검출기들의각장점은최대화하고단점은최소화시키면서조합하여더욱더좋은성능을나타낼수있는음성검출기를제공하기위하여추론기술을도입할수있다. 대표적인추론기술로뎀프스터-셰이퍼추론이론 (Dempster-Shafer Theory, DST) 이있다. DST 기법은다른증거들로부터얻은정보를결합하는방법중하나로, 이것은베이지안 (Bayesian) 확률의일반화라고도볼수있는데큰차이점은불확실성과무지의특성을반영한것이다. DST 기법을더구체적으로살펴보면다음과같다. [0150] [0151] 를상호배타적 (mutually exclusive) 으로하고전체가설 (exhaustive hypotheses) 특성을갖고있는싱글톤 (singleton) 들의유한한집합 (set) 이라고할수있다. 여기서는프레임의식별 (discernment) 로언급될수있으며, 가능한사건 (event) 의모든경우의집합 (set) 을나타낼수있다. 그리고, 를의모든부분집합의집합 (set) 이라고할수있다. [0152] [0153] 기초확률할당 (Basic Probability Assignment, BPA) 은 현될수있다. [ 수학식 21] 를 [0,1] 로할당하는 m 의함수이며, 다음과같이표 [0154] [0155] 는정확히에할당된빌리프 (belief) 의양으로해석될수있다. [0156] 를의여집합 (complementary set) 이라고하면, DST 에서는확률이론과는다르게 을의미한다. 이다. 이는어떠한가설에도기여하지않는빌리프 (belief) 의양이있다는것 - 15 -
[0157] [0158] [0159] DST는베이즈법칙 (Bayes rule) 과다르게특정사건 (event) 과그사건 (event) 의여집합 (complementary set) 의 BPA의합은 1보다작다. 한편, 베이즈법칙 (Bayes rule) 에서는 BPA의합이 1이고, 이는모름 (ignorance) 의상태에일정량의 BPA를할당하기때문이다. 복수의 BPA를결합하는방법으로, 직교합 (orthogonal sum) 이있다. 즉, 직교합 (orthogonal sum) 은여러개의증거 (evidence) 들로부터도출된질량함수 (mass function) 를결합하는방법이다. [ 수학식 22] [0160] [0161] [0162] [0163] 여기에서, 또한 BPA 이다. 음성검출기에서직교합 (orthogonal sum) 의예를다음표와같이나타낼수있다. [ 표 1] [0164] [0165] [0166] [0167] [0168] [0169] 아래에서기초확률할당 (Basic Probability Assignment, BPA) 의변형 3가지에대해서구체적으로설명하기로한다. DST가고전적인확률의상당히흥미로운대안이긴하지만, 가장큰약점은기초확률함수 (basic probability function) 의선택에따라지나치게민감하다는것이다. 이를극복하기위한방법으로 BPA의변형방법 ( 확률을 BPA로변형하는방법 ) 3가지를제공할수있다. BPA 변형부 (140) 는특정방법으로얻어진고전적인확률에서모호한 ( 모름 (ignorance)) 상태에대한빌리프 (belief) 할당을위해엔트로피 (entropy) H를도입할수있다. [ 수학식 23] [0170] [0171] [ 수학식 24] [0172] - 16 -
[0173] [ 수학식 25] [0174] [0175] [0176] 여기에서, H 는엔트로피 (entropy) 를나타내고, H max 는엔트로피 (entropy) 의최대값을나타낼수있다. [ 수학식 26] [0177] [0178] [ 수학식 27] [0179] [0180] 여기서는 i 번째상태를나타내고, p i 는 i 번째확률을나타내며, 는실험에의해얻어지는경험적인수치 를나타낼수있다. 이렇게할당된 BPA 를 BPA1 으로지칭할수있다. [0181] [0182] [0183] [0184] [0185] [0186] 예컨대, 증거 (evidence) 1로부터구한음성존재확률 0.5, 음성부재확률 0.5일때 BPA1로변형하면, 음성존재확률 0.0, 모름 (ignorance)( 또는모호한상태 ) 1.0이될수있다. 다른예로, 증거 (evidence) 1로부터구한음성존재확률 0.9, 음성부재확률 0.1 일때 BPA1로변형하면, 음성존재확률 0.8999, 모름 (ignorance) 0.1001이될수있다. 또다른방법으로는여집합 (complementary set) 까지고려하는것인데다음과같이나타낼수있다. 즉, BPA1에서는한가지결론 ( 예를들어, 음성존재확률 ) 만있었으나, BPA2에서는 1가지확률에대한여집합 (complementary set)( 예를들어, 음성존재의반대인음성부재확률 ) 까지고려할수있다. 다시말하면, BPA1에서는음성검출기의적용시고려되는상황이음성존재확률과모름 (ignorance) 이고, BPA2에서는음성검출기의적용시고려되는상황이음성존재확률, 음성부재확률, 및모름 (ignorance) 이있다. [ 수학식 28] [0187] [0188] [ 수학식 29] [0189] [0190] [ 수학식 30] [0191] [0192] [0193] [0194] 고전적인확률이론과는다르게무지의상태에대해일정량의빌리프 (belief) 가할당되기에특정사건 (event) 과그것의여집합 (complementary set) 의 BPA의합은 1이아니다. 상기의 BPA를 BPA2로지칭할수있다. 예컨대, 증거 (evidence) 1로부터구한음성존재확률 0.5, 음성부재확률 0.5일때 BPA2로변형하면, 음성존재확률 0.0, 음성부재확률 0.0, 모름 (ignorance) 1.0이될수있다. 다른예로, 증거 (evidence) 1로부터구한음성존재확률 0.9, 음성부재확률 0.1일때 BPA2로변형하면, 음성존재확률 0.8999, 음성부재확률 0.1000, 모름 (ignorance) 0.0001이될수있다. - 17 -
[0195] [0196] 마지막으로 BPA1 들을직교합 (orthogonal sum) 을통하여결합시키는것을 BPA3 로지칭하고다음과같이나타낼 수있다. [ 수학식 31] [0197] [0198] [ 수학식 32] [0199] [0200] [ 수학식 33] [0201] [0202] [ 수학식 34] [0203] [0204] 즉, BPA3 는여러증거 (evidence) 들로부터도출된 BPA1 들의직교합 (orthogonal sum) 이다. [0205] [0206] [0207] 아래에서는변형된기초확률할당 (Basic Probability Assignment, BPA) 을결합하는방법 2가지에대해구체적으로설명하기로한다. 도 3은일실시예에따른통계모델기반의음성검출기의 BPA 결합방법의예를설명하기위한도면이다. BPA1들을결합하는방법으로, DST 결합부 (150) 는간단히직교합 (orthogonal sum) 을취하는데, 증거 (evidence) a 로부터얻은 BPA 를, 증거 (evidence) b 로부터얻은 BPA 를라고하면결합방법은다음과같이나타낼 수있다. [0208] [ 수학식 35] [0209] [0210] [0211] 즉, BPA1 들을결합하는방법은다음과같이나타낼수있다. [ 수학식 36] [0212] [0213] [0214] [0215] 도 3a를참조하면, BPA1들을결합하는방법의예를확인할수있다. BPA2와 BPA3의경우에는여집합 (complementary set) 까지고려해야하기에직교합 (orthogonal sum) 을취하면다음과같이나타낼수있다. [ 수학식 37] [0216] [0217] [ 수학식 38] [0218] - 18 -
[0219] [ 수학식 39] [0220] [0221] [ 수학식 40] [0222] [0223] [0224] [0225] 즉, 각증거 (evidence) 로부터상반된확률을제거할수있다. 도 3b 를참조하면, BPA2 또는 BPA3 들을결합하는방법의예를확인할수있다. 위의결합방법 2 가지모두는결합법칙이성립하기에 2 개이상의 BPA 를결합하는데사용될수있다. [0226] [0227] [0228] 위에서살펴본복소가우시안분포를기반으로하는통계적모델기반의 3가지음성검출기들 (Sohn's 음성검출기, 스무딩된우도비기반음성검출기, MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기 ) 로부터구한각각의우도비를 [ 수학식 20] 에대입하여새로운음성존재확률 3가지를도출한후, 위에서살펴본 BPA 변형방법 3가지에각각적용하여새로운 BPA를구하고이것을각각의결합방법에맞추어새로운음성존재확률을도출하여새로운음성검출기로서활용할수있다. BPA1의경우를다음과같이나타낼수있다. Sohn's 음성검출기에사용된우도비, 스무딩된우도비, MO-LRT에사용된우도비로부터구한음성존재확률을각 각 라하고, 이확률을기반으로 [ 수학식 23] 내지 [ 수학식 25] 에따라변형된 BPA1 를각각라고하면, 이 BPA1 들의결합은 [ 수 학식 35] 및 [ 수학식 36] 에따라결합법칙이적용되므로, 우선 2 개의 BPA1 들을결합하여새로운 BPA1 인 으로만들고, 이새로운 BPA1 을나머지 1 개의 BPA1 과결합한 으로다음과같이나타낼수있다. 을얻을수있다. 이를수식 [0229] [ 수학식 41] [0230] [0231] 여기서, 이고, 는직교합 (orthogonal sum) 을의미한다. [0232] [0233] [0234] 결합된를새로운음성존재확률로활용하여새로운음성검출기로사용할수있다. 그리고 BPA2, BPA3 의경우를다음과같이나타낼수있다. 앞에서설명한 BPA1 의경우와유사하게, BPA2 는 3 가지 LR 로부터구한음성존재확률을기반으로 [ 수학식 28] 내 지 [ 수학식 30] 에따라 BPA2로변형한것을라고하면, 이 BPA2들의결합은 [ 수학식 37] 내지 [ 수학식 40] 에따라결합법칙이적용되므로우선 2개의 BPA2들을결합하여새로운 BPA2인으로만들고, 이새로운 BPA2를나머지 1개의 BPA2와결합한을얻을수있다. 이를수식으로다음과같이나타낼수있다. [0235] [ 수학식 42] [0236] [0237] 여기서, 이고결합된를새로운음성존재확률로활용하여 - 19 -
새로운음성검출기로사용할수있다. [0238] BPA3 의경우는통계적모델기반의각알고리즘에서 LR 을기하학적평균을취하지않고각주파수채널에서도 출된우도비를 [ 수학식 23] 내지 [ 수학식 27] 에따라각각 BPA1 으로다시만들수있다. 그리고, 이것을 [ 수학 식 31] 내지 [ 수학식 34] 에따라 BPA3로결합한것을라고하면, 이 BPA3들의결합은 [ 수학식 37] 내지 [ 수학식 40] 에따라결합법칙이적용되므로우선 2개의 BPA3들을결합하여새로운 BPA3인으로만들수있다. 이새로운 BPA3를나머지 1개의 BPA3와결합한을얻을수있다. 이를수식으로다음과같이나타낼수있다. [0239] [ 수학식 43] [0240] [0241] 여기서, 이고결합된를새로운음성존재확률로활 용하여새로운음성검출기로사용할수있다. [0242] 본실시예에서는제안된방법의성능을평가하기위해서잡음으로부터오염되지않은총길이는 456초이고음성, 비음성구간이 hand-labeled 되어있는깨끗한음성을사용했다. 다양한배경잡음환경아래에서, 구체적으로 babble, f16, HF-channel, office, street, white 잡음이고, 다양한신호대잡음비 (SNR) (-5, 0, 5, 10, 15 db) 이고려되었다. 잡음으로부터오염된음성파일은 8 khz로샘플링되었고, 프레임사이즈는 10 ms이다. 사용한윈도우 (window) 는 trapezoidal window이고, 128 point STFT를사용하였다. [ 수학식 8] 에서는 0.98, [ 수학식 9] 에서 L 값은 16을사용하였고, [ 수학식 10] 에서는 0.75, [ 수학식 18] 에서는실험에서고려되는잡음의환경에서평균적으로가장높은음성검출성능을나타내는변수를실험을통해구하였는데특정주파수채널을기준으로이전 3 프레임, 현재프레임, 이후 3 프레임, 총 7 프레임을고려하여평균을취하였다. [ 수학식 19] 에서 q 값은 0.0625를사용하고, [ 수학식 25] 에서는 0.0001을사용하였다. [0243] [0244] 실시예에따른통계모델기반의음성검출기와기존의 3가지음성검출기 (Sohn's 음성검출기, 스무딩된우도비기반음성검출기, MO-LRT(Multiple Observation Likelihood Ratio Test) 기반음성검출기 ) 를이용한음성검출방법이, 음성존재구간 ( 음성구간 ) 일때음성부재구간 ( 비음성구간 ) 이라고판단한구간과, 음성부재구간 ( 비음성구간 ) 일때음성존재구간 ( 음성구간 ) 이라고판단한구간에대해수치로표현한오류확률 (error probability) 관점에서성능이비교되었다. 표 2는일실시예에따른통계모델기반의음성검출기와기존음성검출기들과의오류확률 (error probability) 관점에서의성능비교를나타낸다. - 20 -
[0245] [ 표 2] [0246] [0247] [0248] 표 2 를참조하면, babble 잡음환경에서는모든 SNR 에서 BPA3 가가장우수한성능을보이고, f16 잡음환경에서 는 SNR -5, 0, 5 db 에서는 BPA3 가가장우수한성능을보인다. 그리고 SNR 10 db 에서는 BPA2 가가장우수한 성능을보이고, HF-channel 잡음환경에서는 SNR -5, 0 db 에서는 BPA3 가, SNR 5, 10, 15 db 에서는 BPA2 가가장 - 21 -
우수한성능을보인다. 또한 office 잡음환경에서는모든 SNR 에서 BPA3 가가장우수한성능을보였고, street 잡음환경에서도모든 SNR 에서 BPA3 가가장우수한성능을보였고, white 잡음환경에서는 SNR -5, 0, 5 db 에서 는 BPA3 가가장우수한성능을보이고, SNR 10 db 에서는 BPA1 이가장우수한성능을보였다. [0249] [0250] [0251] 거의대부분의실험환경에서제안하는방법이기존의방법보다우수한성능을보이는것을확인할수있다. 이와같은결과를얻은것은 DST 기법을통하여각알고리즘들로부터얻은정보를바탕으로같은정보는더욱강력하게지지하고반대되는정보는수치화하여제거하고더욱더정답에근접한정보를제공하였기때문이다. 특히, BPA3의경우가대부분의잡음환경에서가장우수한성능을보인다. BPA1, BPA2 방법의경우고려되는 3 가지알고리즘 ( 음성검출기 ) 에서매프레임당하나의음성존재확률이나오고, 그것을 DST의직교합 (orthogonal sum) 으로조합한다. 이에비해 BPA3 방법은각알고리즘에서총 16개의주파수별로음성존재확률을도출하고이것을 DST 직교합 (orthogonal sum) 으로결합하는과정에서 BPA1, BPA2에비해더욱많은증거 (evidence) 들로부터정보를취득하여좀더견고한성능을도출하는것이기때문이다. 동일한현상을두고같은정보를제공할수록더욱더강력한지지를얻고, 상반된정보를제공할경우모호한상태 (state) 로할당하여그것에대한정보를수치화하여제외시키는 DST의핵심요소및역할에대한결과이다. [0252] [0253] 도 4 는일실시예에따른 Babble 잡음환경, SNR 0 db 에서음성검출결과를나타낸다. 도 4 를참조하면, 일실시예에따른 Babble 잡음환경, SNR 0 db 에서 (a) 잡음섞인음성파형 ; (b) 음성검출 정답 ; (c) Sohn's 음성검출 ; (d) 스무딩우도비 ; (e) MO-LRT; (f) 본발명의음성검출결과의예를나타낸다. [0254] [0255] 도 5 는일실시예에따른 F16 잡음환경, SNR 0 db 에서음성검출결과를나타낸다. 도 5 를참조하면, 일실시예에따른 F16 잡음환경, SNR 0 db 에서 (a) 잡음섞인음성파형 ; (b) 음성검출 정답 ; (c) Sohn's 음성검출 ; (d) 스무딩우도비 ; (e) MO-LRT; (f) 본발명의음성검출결과의예를나타낸다. [0256] [0257] [0258] [0259] [0260] [0261] [0262] [0263] [0264] [0265] 도 6은일실시예에따른 HF-channel 잡음환경, SNR 0 db에서음성검출결과를나타낸다. 도 6을참조하면, 일실시예에따른 F16 잡음환경, SNR 0 db에서 (a) 잡음섞인음성파형 ; (b) 음성검출정답 ; (c) Sohn's 음성검출 ; (d) 스무딩우도비 ; (e) MO-LRT; (f) 본발명의음성검출결과의예를나타낸다. 도 7은일실시예에따른 Office 잡음환경, SNR 0 db에서음성검출결과를나타낸다. 도 7을참조하면, 일실시예에따른 Office 잡음환경, SNR 0 db에서음성검출결과 (a) 잡음섞인음성파형 ; (b) 음성검출정답 ; (c) Sohn's 음성검출 ; (d) 스무딩우도비 ; (e) MO-LRT; (f) 본발명의음성검출결과의예를나타낸다. 도 8은일실시예에따른 Street 잡음환경, SNR 0 db에서음성검출결과를나타낸다. 도 8을참조하면, 일실시예에따른 Street 잡음환경, SNR 0 db에서 (a) 잡음섞인음성파형 ; (b) 음성검출정답 ; (c) Sohn's 음성검출 ; (d) 스무딩우도비 ; (e) MO-LRT; (f) 본발명의음성검출결과의예를나타낸다. 도 9는일실시예에따른 White 잡음환경, SNR 0 db에서음성검출결과를나타낸다. 도 9를참조하면, 일실시예에따른 White 잡음환경, SNR 0 db에서 (a) 잡음섞인음성파형 ; (b) 음성검출정답 ; (c) Sohn's 음성검출 ; (d) 스무딩우도비 ; (e) MO-LRT; (f) 본발명의음성검출결과의예를나타낸다. 같은테스트파일에대해다른확률을나타내는 3가지알고리즘 ( 음성검출기 ) 으로부터구한정보들을 DST 결합 (combination) 을통하여보다정확한음성존재확률을추정할수있다. 이를통해서음성검출에대한성능을개선할수있으며, 또한기존의기술들보다개선된성능을이용하여모바일장치등에서의음성향상, 음성인식, 음성부호화등음성의존재 / 부재에대하여우수한성능을도출할수있는음성신호처리분야에적용될수있다. 실시예들에따른음성검출기는음성향상기법의음성검출모듈에적용되어잡음전력추정의성능을높임으로써음성향상성능을높일수있으며, 음성부호화기의음성검출모듈에적용되어비트전송률을보다효율적으로결정하여제한된통신대역폭을효율적으로사용할수있다. 또한, 음성인식에서주로사용되는끝점검출기의첫단계인음성검출기로써적용되어음성구간에서의음성인식을통한성능개선을기대할수있다. - 22 -
[0266] 모바일장치등에서의음성향상, 음성인식, 음성부호화등음성의존재 / 부재에대하여별도의알고리즘을적용 할경우보다우수한성능을도출할수있는음성신호처리분야에적용되어보다우수한성능을도출할수 있다. [0267] [0268] [0269] [0270] [0271] 이상에서설명된장치는하드웨어구성요소, 소프트웨어구성요소, 및 / 또는하드웨어구성요소및소프트웨어구성요소의조합으로구현될수있다. 예를들어, 실시예들에서설명된장치및구성요소는, 예를들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털신호프로세서 (digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는명령 (instruction) 을실행하고응답할수있는다른어떠한장치와같이, 하나이상의범용컴퓨터또는특수목적컴퓨터를이용하여구현될수있다. 처리장치는운영체제 (OS) 및상기운영체제상에서수행되는하나이상의소프트웨어애플리케이션을수행할수있다. 또한, 처리장치는소프트웨어의실행에응답하여, 데이터를접근, 저장, 조작, 처리및생성할수도있다. 이해의편의를위하여, 처리장치는하나가사용되는것으로설명된경우도있지만, 해당기술분야에서통상의지식을가진자는, 처리장치가복수개의처리요소 (processing element) 및 / 또는복수유형의처리요소를포함할수있음을알수있다. 예를들어, 처리장치는복수개의프로세서또는하나의프로세서및하나의컨트롤러를포함할수있다. 또한, 병렬프로세서 (parallel processor) 와같은, 다른처리구성 (processing configuration) 도가능하다. 소프트웨어는컴퓨터프로그램 (computer program), 코드 (code), 명령 (instruction), 또는이들중하나이상의조합을포함할수있으며, 원하는대로동작하도록처리장치를구성하거나독립적으로또는결합적으로 (collectively) 처리장치를명령할수있다. 소프트웨어및 / 또는데이터는, 처리장치에의하여해석되거나처리장치에명령또는데이터를제공하기위하여, 어떤유형의기계, 구성요소 (component), 물리적장치, 가상장치 (virtual equipment), 컴퓨터저장매체또는장치에영구적으로, 또는일시적으로구체화 (embody) 될수있다. 소프트웨어는네트워크로연결된컴퓨터시스템상에분산되어서, 분산된방법으로저장되거나실행될수도있다. 소프트웨어및데이터는하나이상의컴퓨터판독가능기록매체에저장될수있다. 실시예에따른방법은다양한컴퓨터수단을통하여수행될수있는프로그램명령형태로구현되어컴퓨터판독가능매체에기록될수있다. 상기컴퓨터판독가능매체는프로그램명령, 데이터파일, 데이터구조등을단독으로또는조합하여포함할수있다. 상기매체에기록되는프로그램명령은실시예를위하여특별히설계되고구성된것들이거나컴퓨터소프트웨어당업자에게공지되어사용가능한것일수도있다. 컴퓨터판독가능기록매체의예에는하드디스크, 플로피디스크및자기테이프와같은자기매체 (magnetic media), CD-ROM, DVD와같은광기록매체 (optical media), 플롭티컬디스크 (floptical disk) 와같은자기-광매체 (magneto-optical media), 및롬 (ROM), 램 (RAM), 플래시메모리등과같은프로그램명령을저장하고수행하도록특별히구성된하드웨어장치가포함된다. 프로그램명령의예에는컴파일러에의해만들어지는것과같은기계어코드뿐만아니라인터프리터등을사용해서컴퓨터에의해서실행될수있는고급언어코드를포함한다. 상기된하드웨어장치는실시예의동작을수행하기위해하나이상의소프트웨어모듈로서작동하도록구성될수있으며, 그역도마찬가지이다. 이상과같이실시예들이비록한정된실시예와도면에의해설명되었으나, 해당기술분야에서통상의지식을가진자라면상기의기재로부터다양한수정및변형이가능하다. 예를들어, 설명된기술들이설명된방법과다른순서로수행되거나, 및 / 또는설명된시스템, 구조, 장치, 회로등의구성요소들이설명된방법과다른형태로결합또는조합되거나, 다른구성요소또는균등물에의하여대치되거나치환되더라도적절한결과가달성될수있다. 그러므로, 다른구현들, 다른실시예들및특허청구범위와균등한것들도후술하는특허청구범위의범위에속한다. [0272] - 23 -
도면 도면 1-24 -
도면 2 도면 3a - 25 -
도면 3b 도면 4-26 -
도면 5 도면 6-27 -
도면 7 도면 8-28 -
도면 9-29 -