DBPIA-NURIMEDIA - PDF Free Download

55 말소리와음성과학제권제호 (2009). 55~62 핵심어인식기에서단어의음소레벨로그우도비율의패턴을이용한발화검증방법 Utterance Verfcaton usng Phone-Level Log-Lkelhood Rato Patterns n Word Sottng Systems 김정현 ) 권석봉 2) 김회린 3) Km, Chong-Hyon Kon, Suk-Bong Km, Ho-Rn ABSTRACT Ths aer rooses an mroved method to verfy a keyord segment that results from a ord sottng system. Frst a baselne ord sottng system s mlemented. In order to mrove erformance of the ord sottng systems, e use a to-ass structure hch conssts of a ord sottng system and an utterance verfcaton system. Usng the basc lkelhood rato test (LRT) based utterance verfcaton system to verfy the keyords, there have been certan roblems hch lead to erformance degradaton. So, e roose a method hch uses one-level log-lkelhood ratos (PLLR) atterns n comutng confdence measures for each keyord. The roosed method generates eghts accordng to the PLLR atterns and assgns dfferent eghts to each one n the rocess of generatng confdence measures for the keyords. Ths roosed method has shon to be more arorate to ord sottng systems and e can acheve mrovement n fnal ord sottng accuracy. Keyords: Utterance verfcaton, ord sottng, PLLR attern. 서론 현재여러응용분야에서음성인식의중요성은증가하고있는추세이다. 최근에홈오토메이션, 자동차네비게이션시스템등에대한관심의증가로이와같은시스템에서믿을만한성능을보이며동작하는음성인식시스템이필요하게되었다. 특히인간의음성은연속적이라는특성을지니기때문에연속입력음성에대한인식은더욱중요하다고할수있다. 이와같이연속입력음성에서사용자에의해정의된특정단어혹은어구등을검색하는시스템을핵심어인식시스템이라고한다. 일반적인단어인식시스템이입력음성전체에대한인식결과를출력하는데반해핵심어인식 ) 한국과학기술원 olarbear@cu.ac.kr, 교신저자 2) 한국과학기술원 sbkon@cu.ac.kr 3) 한국과학기술원 hrkm@ee.kast.ac.kr ( 이논문은연구지원재단의지원금으로수행된연구입니다.( 지원번호 : KOR-234-56798)) 접수일자 : 2009 년 월 3 일수정일자 : 2009 년 3 월 0 일게재결정 : 2009 년 3 월 5 일 시스템은입력음성에서사용자에게의미있는특정부분에대한인식결과를출력하는것을목적으로한다. 이와같은핵심어인식시스템에대해과거로부터많은연구가이루어져왔으며특히 dynamc tme arng (DTW) 에기반을둔 temlate matchng 방식 [], 현재널리사용되고있는 hdden Markov model (HMM) 을기반으로한방식 [2] 등이주로사용되어왔다. 본논문에서는 HMM 을기반으로한핵심어인식시스템을구현하였다. HMM 을기반으로한핵심어인식시스템은 maxmum lkelhood (ML) 훈련을통해다양한화자및단어에따른특성을흡수한 HMM 을이용하여 temlate 기반방식에비해핵심어음성뿐만아니라비핵심어음성에대한모델링을더욱적절히할수있다는특성을지닌다 [2]. 이와같이 HMM 을이용하여핵심어및비핵심어에대한모델링을하더라고핵심어인식시스템만으로는좋은성능을얻기힘들며이와같은특성에의해핵심어인식시스템후단에발화검증시스템을추가시켜사용하는방식을사용하고있다 [3]. 발화검증은음성인식결과의신뢰도를신뢰도척도라는값을통해결정하는기술이다. 음성인식기의입력음성이항상인식대상어휘에해당하는음성이라고볼수없고또한발화검증시스템을제외한음성인식시스템의인식결과가항상올바르다

56 말소리와음성과학제 권제 호 (2009) 고볼수없기때문에발화검증은음성인식에서중요한부분을차지하고있다. 발화검증에서는신뢰도척도를구하고이를미리정한임계치와비교하여인식결과의수락 / 거절을결정한다. 신뢰도척도로는 LRT 기반의신뢰도척도가가장많이사용되어왔고이후이와같은신뢰도척도를기반으로 mnmum classfcaton error (MCE), mnmum verfcaton error (MVE) 등의 dscrmnatve tranng 을통하여반가설을모델링하여성능개선을하는방법들 [4] 이제안되었다. 현재에는기존의하나의신뢰도척도만을사용하는방식에서벗어나 N-best lst 내의후보인식결과, bayesan 등을사용하여다양한신뢰도척도를구한후, 이를통합하여사용하고있다. 음소단위의인식을하는경우기존의 LRT 기반의기본적인방식은다음과같은방식으로각단어에대한신뢰도척도를구한다. 먼저입력음성을음소단위로인식한다. 인식된각음소에대해가설검정을수행하여음소단위의신뢰도척도를구한다. 이와같이구한음소단위의신뢰도척도의평균을구하여통합해단어에대한신뢰도척도를구한다 [6]. 기본적인 LRT 방식을핵심어인식시스템에사용하여발화검증을수행한경우성능저하로이어지는몇가지문제점이발생하였다. 이러한문제점을해결하기위해본논문에서는단어의 PLLR 패턴을이용한발화검증방식을제안한다. 본논문의구성은다음과같다. 2장에서는논문에사용된기본적인 HMM 기반핵심어인식시스템및 LRT 기반의발화검증방식에대해설명한다. 또한기존의방식중하나인 Word Vocernt 방식을소개한다. 3장에서는기존의 LRT 기반발화검증방식을핵심어인식시스템에사용한경우문제점에대해설명하고제안된방식인단어의 PLLR 패턴을이용한발화검증방식을설명한다. 4장에서는기존방식및제안된방식을사용하여발화검증및핵심어인식을수행한실험결과를보이고, 5 장에서결론을맺는다. 2 HMM 기반핵심어인식및 LRT 기반의발화검증시스템 2. HMM 을기반으로한핵심어인식시스템본논문에서는 HMM 을기반으로한핵심어인식시스템을구현하였다. 이와같은핵심어인식시스템은핵심어에대한모델그리고비핵심어에대한모델즉 garbage 모델의두가지모델로구성된다. 본논문에서는 sub-ord 단위를기반으로각모델을모델링하였다. Sub-ord 단위로모델링하는경우시스템은핵심어혹은시스템변경이용이하다는특성을지닌다. 핵심어에대한모델의기본단위로는문맥종속형 (contextdeendent) 모델중 trone 을사용하였고각 trone 들을결합하여핵심어를모델링한다. garbage 모델의기본단위로는문맥독립형 (context-ndeendent) 모델중 monoone 을사용하 였고단일 monoone 을사용하여각 garbage 모델을모델링하여핵심어모델에비해서는덜정교하지만신뢰성있게모델링한다. < 그림> 은구현한핵심어인식시스템을나타낸다. 그림. 핵심어인식시스템의구조 Fgure. Structure of the ord sottng system 이와같은시스템에서각핵심어및 garbage 모델은동일한확률을갖고연결되며전체적인네트웍은루프를형성하여핵심어및 garbage 모델의 sequence 로입력음성을모델링한다. 입력음성이핵심어를포함하는경우, 핵심어모델이그에해당하는 garbage 모델 sequence 에비해큰우도를누적하게되고비터비디코딩시핵심어를포함하는경로를디코딩할가능성이높게되어이에따라핵심어를검출할수있게된다. 핵심어인식시스템에서는음성내에존재하는핵심어를인식하지못한경우와핵심어에해당하지않은음성의부분을핵심어로인식한경우의두가지오류가존재한다. 본논문에서는핵심어모델이 garbage 모델에비해단어간천이가덜빈번하다는점을이용해두오류의비율을 ord nserton enalty 값을사용해조정한다. ord nserton enalty는비터비탐색시토큰이하나의단어에서다른단어로이동할때부가하는값을의미한다. 핵심어및비핵심어에부분에대한모델링을적절히한다고하여도이와같은핵심어인식시스템만으로는좋은성능을얻기힘들며후단에발화검증시스템을추가하여성능향상을위한방안으로사용한다 [3]. < 그림2> 에핵심어인식에이은발화검증시스템을나타낸다. 그림 2. 핵심어인식및발화검증시스템 Fgure 2. Word sottng system usng an utterance verfcaton system

핵심어인식기에서단어의음소레벨로그우도비율의패턴을이용한발화검증방법 57 2.2 LRT 를기반으로한발화검증 발화검증은가설검정의과정이다. 음성특징벡터 X 에대해 음성인식시스템이이를 라는 HMM 모델로표현되는단어 로인식한다고하자. 다음과같이상호보완하는두가지가설 을제안한다. : 영가설 (null hyothess), X 가올바르게인식되었고모 델 에포함됨 : 대안가설 (alternatve hyothess), X 가틀리게인식되었 고모델 에포함되지않음 Pearson Lemma 에의하면영가설 (null hyothess) 과대안가설 (alternatve hyothess) 하에서의우도를정확히알수있을경 우 LRT 가가설검정에가장적합한해결방안을제시한다. () 그림 3. 각단어에대한신뢰도척도를구하는과정 Fgure 3. Procedure for generatng confdence measures for each ord < 그림3> 은 LRT 기반의기본적인방식으로, 각 PLLR 값을구해이값들의평균을취해 ord-level log-lkelhood rato (WLLR) 을구하는방식을나타낸다. PLLR 은 LRT 를음소단위로적용하여다음과같이구한다. log P( X PLLR () = λ ) log P( X τ () λ ) (2) 여기서 X 는인식된음소의입력특징벡터, 는인식된음 위의비율값을임계치와비교하여수락 / 거절을결정한다. 올바르게디코딩된경우를나타내는영가설 (null hyothess) 하에서의우도와틀리게디코딩된경우를나타내는대안가설 (alternatve hyothess) 하에서의우도가주어졌을때 LRT는가정된결과를수락또는거절하는테스트를나타낸다. LRT의가장어려운점은대안가설을어떻게모델링하느냐에있다. 본논문에서는각 trone 단위로인식된음소의경계내에서그와는다른음소에해당하는 monoone들에대한우도값을구한다. 이와같이구한값중가장큰우도값을갖는 monoone을대안가설에대한모델, 즉반모델로선택한다. Cohort 모델을사용해반모델을구성하는경우, 인식된음소에대해그음소에해당하는 cohort 모델로항상동일한음소들이반모델로선정되는반면, 이경우같은음소에대해서도음의특성에따라다른음소가반모델로선정될수있다는특성을지닌다. 이러한방식은인식과정에서의경쟁적정보에기인한다. 인식된결과가올바르다면인식된모델은경쟁하는모델들과월등한차이를보일것이며따라서영가설하에서의우도가대안가설하에서의우도에비해큰값을갖게될것이다. 이에따라 LRT 비율값이크게될것이다. 반면인식된결과가틀리다면인식된모델과경쟁하는모델이큰차이를보이지않을것이며따라서 LRT 비율값이작게될것이다. 이와같이본논문에서사용된방식은 trone 단위의인식된결과가경쟁자들과얼마나큰차이를보이느냐에따른비율값을구하여이값에따른수락혹은거절하는이론에기초하고있다. < 그림3> 에각단어에대한신뢰도척도를구하는과정이나타나있다. 소 의지속시간, 와 는각각인식된모델에대한음향모델그리고반모델을나타낸다. WLLR 로나타내어지는각단어에대한신뢰도는다음과같이구한다. C ar ( ) = n ( ) n ( ) j= sgmod( PLLR( 여기서 는단어 를구성하는음소수를나타내고 sgmod 함수는다음과같다. sgmod( x) = + ex( ax b) 와 는실험적으로구한다. 본논문에서는식 (3) 의 값을 가장기본적인 LRT 기반의신뢰도척도로사용하였다. 본논문에서는핵심어인식시스템의결과에대한발화검증을수행하는시스템을구현하였다. 일반적인단어인식시스템과핵심어인식시스템에대한발화검증의가장큰차이점은일반적인단어인식시스템이입력음성전체에대한검증을하는반면핵심어인식시스템은핵심어로인식된음성의특정부분에대해서만검증을한다는점이다. 특히인식된핵심어는단어인식기의인식결과에비해단어경계가부정확하다는특성을지니며이에따라두시스템에대한발화검증은조금다른특성을갖게된다. 2.3 발화검증을위한 Word Vocernt 방식본절에서는기존의방식중단어내의각음소의 PLLR 분 j )) (3) (4)

58 말소리와음성과학제 권제 호 (2009) 포를사용하는 Word Vocernt 방식 [5] 을소개한다. Word Vocernt 는다음과같은관찰로부터제안되었다. 실험결과올바른단어와오인식된단어의구성음소의차이가크지않은경우낮은 PLLR 값을갖는몇개의음소에도불구하고다른음소의 PLLR 값들의영향으로 WLLR 이임계치보다크게되어단어를수락하게되는경우가발생하였다. 또한 PLLR 값들을분석해본결과같은음소에대해서도단어가다른경우다른 PLLR 분포를가지고있음을볼수있었다. Word Vocernt 는각단어의음소별 PLLR 분포를사용하여각단어에보다적합한신뢰도를구하는방식이다. Word Vocernt 에서는음소단위의신뢰도척도를다음과같이구한다. C VP 0, ( ) = ψ( PLLR ( )), PLLR( ) µ PLLR( ) < µ σ σ (5) 와 는각각단어 에서음소 의 PLLR 값의평 균과표준편차를의미한다. 는다음과같이구한다. e ψ ( PLLR( )) = log β ( PLLR( ) ( µ ( α ) ασ )) β (6) C VP ( ) = n ( ) n ( ) j= C VP ( ) Word Vocernt 는다른단어에서각음소의 PLLR 값들의 분포를이용하여올바른단어와오인식된단어사이의구성음소의차이가크지않은경우단어를더효과적으로거절한다. 3. 음소레벨로그우도패턴을이용한발화검증 3. 기존 LRT 방식의문제점 < 그림5> 에나타난예는올바르게인식되었으나정확한발성과는약간의차이를갖고발성된카드번호라는단어에대한예이다. 정확하게발성되지않은 n 음소에의해 n 에서의 PLLR 값이낮게나온특성을보였다. 또한부정확한단어경계에의하여첫번째음소와마지막음소가낮게나오게되었다. 올바르게인식된핵심어임에도불구하고이러한낮은 PLLR 값들의영향으로결과적인 WLLR 값을임계치와비교하였을때발화검증시스템은단어를거절하게되는현상이발생하게되었다. 각단어의다양한발화에대해이와같은 PLLR 값들을관찰해본결과각음소마다이처럼 PLLR 값이떨어질확률이다르다는것을볼수있었다. 본논문에서는이와같이 PLLR 값이떨어질가능성이높은음소에대한방안으로각단어의음소마다다른가중치를부여하는방식을제안한다. 제안한방식에따 j (7) 와 는실험적으로구한값을사용하였다. < 그림4> 는 함수를보여준다. 어떤단어에서한음소라도 PLLR 값이 보다떨어질경우그단어는거절될가능성이높게된다. 그림 5. 단어의음소에따른 PLLR 값 Fg 5. PLLR values of a correctly recognzed keyord 그림 4. 음소단위의 vocernt 신뢰도척도를구하기위한로그스케일의비선형적함수 Fgure 4. Log-scale non-lnear functon to obtan one-level vocernt confdence score 최종적으로단어단위의신뢰도척도를다음과같이각음소 단위의신뢰도척도의산술평균으로구한다. 라가중치를생성하며이와같은가중치는단어에대한신뢰도척도를구하는과정에서각단어의음소에대해다른가중치를부여한다. 3.2 제안된신뢰도척도를구하는방법각음소에대한가중치를생성하기위해서는일단각핵심어별다양한발화에대해 PLLR 의패턴을분석한다. 특정발화의어떤음소에서 PLLR 값이그발화의 PLLR 값의평균보다떨어지게될경우, 그음소에대해 PLLR dstance 라는값을부여

핵심어인식기에서단어의음소레벨로그우도비율의패턴을이용한발화검증방법 59 한다. < 그림6> 에서 PLLR dstance 의예를보인다. 이경우에는 3번째음소의 PLLR 값이그발화음성에서 PLLR 값의평균에비해떨어진경우이며이발화단어의 3번째음소에대해 PLLR dstance 가부여되었다. PLLR dstance 는단어에대한특정발화에서 PLLR 값이다른음소에비해얼마나떨어지는지를나타낸다. 이와같은 PLLR dstance 를각핵심어별로구해각핵심어의음소별가중치를생성하는기본적인요소로사용한다. 로 PLLR 값이떨어질가능성을나타내는값이다. 값이큰음소에대해서적은가중치를부여하는것을목적으로하기때문에다음과같은감소함수를이용하여핵심어의각음소에대한가중치를결정한다. c ~ ( ) = ex( γ ( d ( ) τ )) (0), 는계수들간의편차를조정한다. 임의적으로구한계수를다음식에의해 0에서 사이의확률적인계수값으로변환한다. c ( ) = n ( ) c~ ( j= c~ ( ) ) () 는각핵심어에대한음소수이다. 최종적으로다음과 그림 6. PLLR dstance 값의예 Fgure 6. An examle of a PLLR dstance 제안된방식에서는다음과같이각음소에곱해지는가중치를구한다. 같이 PLLR 패턴을이용한단어별신뢰도를구한다. CM = n ( ) n ( ) j= c( ) sgmod ( PLLR( )) (2) d( µ PLLR( ex α = ) ub lb 0, ), PLLR( otherse ) < µ 여기서 는발화에대한 ndex 를나타내고, j 는음소에대한 ndex, 는인식대상으로포함된핵심어, 는핵심어 에 대한 번째발화의 j 번째음소를나타낸다. 및 각각핵심어 의 번째발화에서 PLLR 값의평균, 상한, 하한 값을나타낸다. 정규화된 PLLR dstance 를비선형적으로구한 는핵 심어에대한발화에서특정음소에서의 PLLR 값이다른음소들에 비해얼마나낮은가를나타내는값이다. 는핵심어에따라다른 값을사용하였다. 핵심어의각음소에대한 는다음과 같이구한다. d( N ) = d( ) N = 는평가셋에해당하는데이터에서핵심어 에대한발화수 이다. 값의평균값인 는핵심어의각음소별 (8) 는 (9) (8) 에서보면비선형적인 PLLR dstance 값을구하여가중치를구하는과정에서사용한것을볼수있다. 비선형적인 PLLR dstance 를사용한이유는실험을수행해본결과선형적인 PLLR dstance 를사용하여가중치에대해영향을준경우에비해비선형적인 PLLR dstance 를사용해 PLLR dstance 가낮을값을나타냈을때의영향을가중치의형성에더확실히반영하였을때더효과적이었기때문이다. 실제실험에서는음소에서의 PLLR 값이발화의평균에비해낮은값을나타낼때 대신 +을사용하여그음소의가중치에 대한영향을더확실히주었다. 큰 PLLR dstance 값들을나타내는음소들에대해더작은가중치를부여하도록하기때문에감소함수를사용하고 (0) 에나타난감소함수를사용하였다., 및 는개발셋에대한실험을통하여구하였다. 감소함수의, 값을사용해계수들간의편차를조정하게하였지만실제실험에서는, 에의한영향은크지않았다. 4. 실험및결과 4. 실험조건본논문에서는한국어전화망환경음성인식용대화체문장데이터베이스를사용하였다. 데이터베이스에대한구체적인설명을 < 표> 에서나타낸다.

60 말소리와음성과학제 권제 호 (2009) 표. 음성데이터베이스에대한설명 Table. Descrton of seech database 구분 설명 부가설명 한국어전화망환경 데이터베이스명칭음성인식용대화체 문장 DB 발화형태 연속어 발화방식 대화체 전화상담원과상담렌트카예약, 호텔예약, 녹음방식 자간의:대화음성영화예매등의시나 을녹음 리오에대해녹음 화자수 0~20명의상담원화자 녹음상태 -다양한잡음환경가정, 사무실, 거리등 -5dB이상의 SNR 의환경 음성데이터수 5,500개의음성데이음성데이터당 3분정터도의길이 각음성데이터는렌트카예약, 관광문의, 호텔예약등의시나 리오영역에서상담원과고객간의대화로구성되어있다. 잡음환경하에서녹음되었으며총 5,500개의음성데이터로이루어 진다. 실제실험에서는음성데이터를훈련, 개발평가셋으로 3 등분하여사용하였다. 훈련셋은핵심어및비핵심어모델을훈련할목적으로사용된 다. 전체데이터중 4,500개의음성데이터를사용하였고 4,500개의음성데이터에서핵심어에해당하는부분을수작업으로분할한음성을사용하여핵심어모델을훈련하였다. garbage 모델은훈련셋전체의 4,500개의음성을사용하여훈련하였다. 개발셋은각핵심어의 PLLR 패턴을분석할목적으로사용된다. 전체데이터중 500개의음성데이터를사용하였고 500개의음성데이터에대해핵심어인식을하여인식된총 89개의핵심어로각핵심어별 PLLR 패턴정보를분석하였다. 평가셋은핵심어인식시스템과제안된발화검증시스템의성능평가를위해사용된다. 전체데이터셋에서훈련및개발셋과는별개의 500개의음성데이터를사용하였다. 평가셋에는실험에사용된 5개의핵심어를기준으로하였을때총 9개의핵심어가존재한다. 평가셋에해당하는각음성데이터에는 2~3개의핵심어가존재한다. 각핵심어및 garbage 모델은훈련셋을기반으로훈련되었으며, 상세한내용은 < 표2> 와같다. 설명 표 2. 핵심어및 garbage모델에대한설명 Table 2. Descrton of model tranng 모델핵심어비핵심어 전체 4,500개의 4,7개의핵심어단훈련에사용된음성훈련셋에해당하는위로분할된음성음성 3 ted-states, 3 states 5개의가우 HMM 7개의가우시안분시안분포를갖는 포를갖는 HMM HMM 모델링단위 trone monoone 2MFCC + Energy 훈련에사용된특징의 3차기본벡터벡터 + delta 3차 + delta-delta 3차 2MFCC+Energy 의 3 차기본벡터 +delta 3 차 +delta-delta 3 차 4.2 발화검증에대한실험결과 각방식의성능평가를위해다음과같은실험을수행하였다. 제안된방식에대한실험, Word Vocernt 방식을사용한실험 그리고제안된방식과 Word Vocernt 를결합하여사용한경우에대한실험을수행하였다. 성능평가는올바르게인식된핵심어가거절되는비율을나타내는 false rejecton rate 오인식된 핵심어가수락된비율을나타내는 false accetance rate 이같은경우를나타내는 equal error rate(eer) 및오류 (error) 가감소한비율을나타내는 error reducton rate(err) 을사용하였다. < 표3> 에각방식에의한실험결과를나타낸다. 방식기본적인방핵심어식 제안된방식 ERR (%) 운전면허증 4.0.5 7.9 영화시작 9.5 8.9 6.3 요금제 24. 24.3 0 신용카드 6.9 2.2 27.8 카드번호 7. 6.6 7.0 overall.8 단어 표 3. EER (%) 로평가된제안된방식의성능 Table 3. Performance of roosed method n EER (%) 기본적인방식은각핵심어에대해기본적인 LRT 방식을사 용해각단어에대한신뢰도척도를구하는방식을의미한다. 제안된방식은 PLLR 패턴정보를이용하여각단어에대한신뢰도척도를구하는방식을의미한다. 실험결과핵심어 요금제 를제외한모든핵심어에서제안된방식에의한성능향상이있는것을볼수있었다. 핵심어 ' 요금제 ' 는적은수의음소를갖고있었으며이핵심어는뚜렷한 PLLR 패턴을보이지않았다. 전체적인 ERR을분석해본결과제안된방식을사용하였을때기본적인방식에비해약.8% 의성능향상을나타내는것을볼수있었다. < 표4> 는 Word Vocernt 방식, 제안된방식과 Word Vocernt 를결합한방식에대하여실험을수행하였을때의성능을나타낸다. 표 4. EER (%) 로평가된 Word Vocernt 와제안된방식과 Word Vocernt 를결합한방식의성능 Table 4. Performance of ord vocernt method and combned method n EER (%) 방식 기본적인방식 Word Vocernt 제안된방식 제안된방식 +Word Vocernt 운전면허증 4.0 9.0.5 7.0 영화시작 9.5 9.9 8.9 7.9 요금제 24. 9.7 24.3 20.9 신용카드 6.9 3.3 2.2 2.0 카드번호 7. 6.4 6.6 6.8 ERR (%) 6.2.8 22.6

핵심어인식기에서단어의음소레벨로그우도비율의패턴을이용한발화검증방법 6 Word Vocernt는각핵심어에대한신뢰도척도를구하기위해 Word Vocernt 발화검증방식을사용한경우를나타낸다. 제안된방식 + Word Vocernt는제안된방식과 Word Vocernt 방식을결합한발화검증방식을사용하여각핵심어에대한신뢰도척도를구한경우를나타낸다. 이경우제안된방식에의한계수들은각 Word Vocernt 기반의신뢰도척도에가중치를부여한다. 실험결과를분석해보면 Word Vocernt를사용한경우성능의향상이있는것을볼수있었다. Word Vocernt를사용한경우핵심어 ' 요금제 ' 에대해서도성능향상을가져올수있었다. 이러한결과는각핵심어의 PLLR 분포를이용하여각핵심어에대한신뢰도척도를구한경우단어의특성에보다적합한신뢰도를구할수있다는것에기인한다. 전체적인 ERR을분석해보면 Word Vocernt 방식을사용한경우기본적인방식에비해 6.2% 의성능향상을나타내어기본적인방식에비해더좋은성능을나타내는것을볼수있었다. 제안된방식과 Word Vocernt 방식을결합한경우추가적인성능향상을보였고결과적으로 22.6% 의성능향상을보이고있다. 4.3 핵심어인식에대한실험결과 < 표5> 는기본적인방식, 제안된방식그리고 Word Vocernt 방식을사용하여인식된핵심어에대한발화검증을수행한핵심어인식시스템의성능을나타낸다. 핵심어인식시스템에대한성능평가는올바르게인식된핵심어의개수를평가셋에해당하는음성내에존재하는핵심어의개수로나눈핵심어검출율, false accet 된핵심어의개수를인식대상핵심어의개수와평가셋에해당하는음성의총시간을곱한값으로나눈 FA/ keyord/hour를사용하였다. 표 5. 각발화검증방식을사용한핵심어인식시스템의성능 Table 5. Word sottng erformance usng varous utterance verfcaton methods Word nserton enalty 핵심어검출율 (%) 오인식률 (FA/keyord/hour) 기본적인방식 제안된방식 제안된방식 +Word Vocernt -0 72.33 0.23 0.20 0.9-20 74.75 0.42 0.40 0.33-50 85.84.62.28.2-70 87.7 3.94 2.36 2.06-90 87.26 6.85 4.6 3.98 기본적인방식은기본적인방식의발화검증을사용하여핵심어인식을수행한결과를나타낸다. 제안된방식은제안된방식의발화검증을사용하여핵심어인식을수행한결과를나타내고제안된방식 + Word Vocernt 는제안된방식과 Word Vocernt 방식을결합하여발화검증을수행한결과를나타낸다. 각핵심어모델과 garbage 모델에는동일한 ord nserton enalty를부여하였다. Word nserton enalty 값을줄일경우더많은핵심어를검출할수있는반면오인식된핵심어가증가한다는단점을갖는다. Word nseton enalty 값이 -70일때성능이포화된것을볼수있다. 핵심어인식결과는각 ord nserton enalty에서각방식당총인식된핵심어에서 5% 의 false rejecton rate을갖도록발화검증을수행하여얻게된결과이다. 따라서성능비교를위해서는 FA/keyord/hour 값을비교한다. 각 ord nserton enalty 값에서동일한핵심어검출율하에서제안된방식은기본적인방식에비해낮은 FA/keyord/hour 값을나타내어성능향상을보인다. 또한제안된방식과 Word Vocernt 방식을결합하여사용한경우기존의방식과제안된방식에비해추가적인성능향상을가져올수있었다. 5. 결론 본논문에서는핵심어인식시스템과핵심어인식시스템의후단에사용되는발화검증시스템을구현하였다. 기본적인 LRT 기반의발화검증을사용하여핵심어인식시스템으로부터인식된핵심어에대한발화검증을수행하였을때몇가지문제점이있었다. 이러한문제점들로인하여올바르게인식된핵심어임에도불구하고몇개의음소가낮은 PLLR 값을보여단어에대한신뢰도척도, 즉 WLLR 이낮게나와핵심어를거절하게되는경우가발생하였다. 이와같은문제점을해결하기위해본논문에서는단어에대한신뢰도척도를구할때각음소별로다른가중치를부여하는방식을제안하였다. 또한단어의각음소별 PLLR 의분포를사용하는 Word Vocernt 를검토해보았다. 실험결과, 제안된방식에의해성능향상을보일수있었다. 또한 Word Vocernt 방식을사용한경우추가적인성능향상을가져올수있었다. 제안된방식은모든인식대상핵심어에대한패턴분석을해야한다는단점을지닌다. 이러한단점을극복하기위해단어에대한패턴을얻기위해보다간단한방식이필요함을볼수있었다. 보다간단한방식에대한연구를위해앞으로는각음소들을특성에따라군집화하여핵심어의변동이있을경우군집화된정보를사용하여핵심어에대한패턴정보를더용이하게구할수있는방식등에대한연구를수행할것이다. 참고문헌 [] A.L. Hggns and R.E. Wohlford, (985). Keyord recognton usng temlate concatenaton, IEEE Internatonal Conf on Acoustcs, Seech, and Sgnal rocessng (ICASSP 85), Vol. 0,. 233-236. [2] R. C. Rose and D.B. Paul, (990). A hdden markov model based keyord recognton system, IEEE Internatonal Conf on

62 말소리와음성과학제 권제 호 (2009) Acoustcs, Seech, and Sgnal Processng (ICASSP 90), Vol.,. 23-32, 990. [3] P. Heracleus and T. Shmzu, (2005). A novel aroach for modelng non-keyord ntervals n a keyord sotter exlotng acoustc smlartes of languages, Seech Communcaton, Vol. 45,. 373-386, 2005. [4] R. A. Sukkar and C. -H. Lee, (996). Vocabulary ndeendent dscrmnatve utterance verfcaton for nonkeyord rejecton n subord based seech recognton, IEEE Transactons, Seech and Audo Processng, Vol. 4,. 420-429, 996. [5] S. -B. Kon and H. -R. Km, (2008). Utterance verfcaton usng ord vocernt models based on robablstc dstrbutons of one-level log-lkelhood rato and one duraton, IEICE transactons on nformaton and systems, Vol. E9-D, No.,. 2746-2750, 2008. [6] K. -S. Moon, Y. -J. Km, H. -R. Km and J. -H. Chung, (2000). Out-of-vocabulary ord rejecton algorthm n korean varable vocabulary ord recognton, IEEE nternatonal symosum on crcuts and systems, Vol.5,. 53-56, 2000. 김정현 (Km, Chong-Hyon) 주소 : 305-732 대전광역시유성구문지동 03-6 한국과학기술원 ICC Tel: 042-350-622 Emal: olarbear@cu.ac.kr 관심분야 : 핵심어인식, 발화검증현재 : 한국과학기술원정보통신공학과박사과정 권석봉 (Kon, Suk-Bong) 주소 : 305-732 대전광역시유성구문지동 03-6 한국과학기술원 ICC Tel: 042-350-622 Emal: sbkon@cu.ac.kr 관심분야 : 음성인식탐색알고리즘, 발화검증현재 : 한국과학기술원정보통신공학과박사과정 김회린 (Km, Ho-Rn) 주소 : 305-732 대전광역시유성구문지동 03-6 한국과학기술원 ICC Tel: 042-350-639 Emal: hrkm@ee.kast.ac.kr 관심분야 : 음성인식, 핵심어인식, 화자인식, 오디오신호처리현재 : 한국과학기술원정보통신공학과부교수