- 131 - 숫자음의스펙트럼차이값과상관계수를이용한화자인증파라미터연구 1) A Study on Speaker Identification Parameter Using Difference and Correlation Coeffieicent of Digit_sound Spectrum 이후동 * 강선미 * 장문수 ** 양병곤 *** Hoodong Lee Sunmee Kang Moonsoo Chang Byunggon Yang ABSTRACT Speaker identification system basically functions by comparing spectral energy of an individual production model with that of an input signal. This study aimed to develop a new speaker identification system from two parameters from the spectral energy of numeric sounds: difference sum and correlation coefficient. A narrow-band spectrogram yielded more stable spectral energy across time than a wide-band one. In this paper, we collected empirical data from four male speakers and tested the speaker identification system. The subjects produced 18 combinations of three-digit numeric sounds ten times each. Five productions of each three-digit number were statistically averaged to make a model for each speaker. Then, the remaining five productions were tested on the system. Results showed that when the threshold for the absolute difference sum was set to 1200, all the speakers could not pass the system while everybody could pass if set to 2800. The minimum correlation coefficient to allow all to pass was 0.82 while the coefficient of 0.95 rejected all. Thus, both threshold levels can be adjusted to the need of speaker identification system, which is desirable for further study. Keyword: Speaker Identification, Narrow-Band Spectrogram, spectral energy, difference sum, correlation coefficient 1. 서론 컴퓨터를이용하여사람을식별하는방법에는아이디와패스워드를이용하여인증하는고전적인방법을비롯하여, 사람의생체정보, 즉지문이나홍채패턴과같은고정된신체적특징이나음성및제스처와같은행위적신체특징을이용하는식별방법이있다. 특히사람의생체정보를이용하여인증하는방법중사람의음성을이용하여인증하는방법은별도의고가장비를필요로하지않으며인증시사람이거부반응을 * 서경대학교컴퓨터학과 ** 서경대학교소프트웨어학과 *** 동의대학교영어영문학과
- 132 - 일으키지않는다는장점이있다. 일반적으로화자인증은사전에구축된개별화자모델과인증을위해입력된음성과의유사도를측정하여일치여부를확인하게된다. 여기에사용되는파라미터들로는 MFCC(Mel Frequency Cepstral Coefficient) 와음성의음향학적특징인포만트, 피치, 강세등의정보를사용한다 [3][4]. 그러나포만트, 피치등의정보들이개별화자의특징을잘반영하는반면, 음성으로부터추출되는정보가부정확하다는문제점을가지고있다. 이러한문제점을개선하기위하여본논문에서는광대역스펙트럼에비하여협대역스펙트럼이비교적안정적인값을추출할수있다는것에착안하여, 협대역스펙트럼의정보가화자인증파라미터로유효한지에대해서검증하고자한다. 2장에서는본논문의연구배경과선행연구에대해서설명하며, 3장에서는본논문에서제안하는화자인증방안에대해서기술한다. 4장에서는제안하는화자인증방안을실험을통하여검증하고, 5장에서결론및향후연구계획에대해서기술한다. 2. 연구배경및선행연구 2.1 연구배경기존의화자인증파라미터연구로음성의음향학적특징은포만트, 피치등의정보를사용하였다. 그러나이러한음향학적인특징의추출에있어서조음기관은매우유연하고연속된움직임을보이지만음향학적측정값은발성기관의자연스럽고느린변화라는기본가정에어긋나는급작스런오류값들이많이나타난다. 오류가많은음향학적특징값을근거로생성된화자별모델을통해서화자인증을한다는것은화자인증시스템의성능에좋지않은영향을끼치게된다. 그에반해푸리에변환을통해구해지는스펙트럼의정보는정확한측정이가능하다. 스펙트럼은분석구간의길이에따라광대역스펙트럼과협대역스펙트럼으로구분된다. 그림 1은여성화자가발음한모음 아 에대한광대역스펙트럼과협대역스펙트럼의일부를보여주고있다.
숫자음의스펙트럼차이값과상관계수를이용한화자인증파라미터연구 - 133 - 그림 1. 광대역스펙트럼과협대역스펙트럼광대역스펙트럼의경우많은구간에서이웃하는구간의스펙트럼과많은차이를보이고있다. 반면에협대역스펙트럼의경우다소안정적이다. 고주파영역으로갈수록약간의차이를보이고있으나광대역에서발견되는급작스런변화는보이지않는다 [3]. 따라서본논문에서는동일음성내에서도많은차이를보이는광대역스펙트럼이아닌, 변화가적고안정적인협대역스펙트럼을사용하여음성모델을생성한다. 2.2 선행연구피치나포만트를사용하여화자간의구별을하기에는그값들의추출의정확성에문제가있을뿐만아니라단순히그값들로화자별모델을생성하기에는단순하다는문제점이있다. 그래서피치나포만트보다정확하게구할수있으며더많은정보를담고있는스펙트럼의정보를이용하여화자별모델을생성하고화자인증에사용한다. 협대역스펙트럼정보의화자별변별력실험을위해숫자음스펙트럼모델을생성한다. 숫자음모델과의비교는두스페트럼강도의차이의절대값의합 ( 이후절대차이합으로표현 ) 과스펙트럼의전체적인모양의유사성을비교하는상관계수를사용하여비교한다.[1] 절대차이합은식 1을이용하여계산한다. 여기서 Ha와 Hb는비교되는음성에서의스펙트럼의강도를나타낸다. DifferenceSum = N Ha[n]-Hb[n] n =1 (1) 상관계수는식 2와같이두변수의값이연속적측정값으로주어지는경우에적용되는피어슨상관계수 [7] 를사용한다. ( H a 1,H b 1 ),...(H a n,h b n ) (2) x = 1 n n i =1 x i, y = 1 n n i =1 y i r p = ( x i - x)(y i - y) ( x i - x) 2 ( y i - y) 2 스펙트럼의절대차이합만을사용하여비교할경우강하게말할때와약하게말할
- 134 - 때차이가있으므로스펙트럼의전체적인모양을비교하는상관계수를구하여높은상관계수를보이는경우비슷한스펙트럼을보이는것으로간주하여동일화자로처리한다. 3. 제안하는화자인증방법 3.1 협대역스펙트럼을이용한숫자음모델생성기존의연구 [1] 에서는하나의숫자음을대상으로실험을하였고, 화자인증용으로사용될수있는가능성을확인하였다. 그러나하나의음만으로는절대적인비교데이터량이부족할뿐만아니라, 여러모음에서나타날수있는다양한음성적특징을비교할수없는문제가있다. 따라서본논문에서는서로다른모음을포함하는 3 개의음으로이루어진숫자음을사용하여숫자음모델을생성한다. 실험에사용된숫자음은표 1과같다. 표 1. 실험에사용한단어들 첫째음절둘째음절셋째음절녹음단어 일 (1) 삼 (3) 육 (6) 이 (2) 사 (4) 칠 (7) 팔 (8) 영 (0) 일삼육, 일삼영 일사육, 일사영 일팔육, 일팔영 이삼육, 이삼영 이사육, 이사영 이팔육, 이팔영 칠삼육, 칠삼영 칠사육, 칠사영 칠팔육, 칠팔영 실험데이터는이, 아, 유, 여가섞여있는숫자음으로한다. 모음 우 로된 5, 9는저주파지역에데이터가밀집되어있어서실험데이터에서제외한다. 5, 9를제외한숫자를이용하여총 18 가지의세음절로구성된숫자음조합단어를사용한다. 3.2 배음스펙트럼 세개의음절로구성된데이터에서각각의음절구간을검출하기위하여다음과같은방법을사용한다.
숫자음의스펙트럼차이값과상관계수를이용한화자인증파라미터연구 - 135-1) 음성의강도곡선 (Intensity Contour) 을계산한다. 2) 음성의강도곡선에서전체평균을구하여평균 + ( 표준편차 / 2) 값을근거로하여세개의지역을구한다. 3) 구해진세개지점에서피치가 0이아닌구간에서부터최고정점구간을계산하여배음스펙트럼의추출의시작값으로사용하며그결과는그림 2와같다. 그림 2. 음절구간의검출 위와같은방법으로얻어진세개의음절구간시작시간을기점으로하여 7 개의단구간스펙트럼을구한다. 스펙트럼을구하기위해 20 ms의 Hamming window를사용하며, 그림 2에서와같이 5 ms씩이동함으로서숫자음내에서자음과잡음구간의영향을받지않는모음구간에대한특징만을살핀다. 모음마다내재적길이가다르기는하지만 35 ms의구간이면충분히모음구간만을고려할수있다. 개별화자의음성의특징을잘살펴보기위해고주파대역강조 (preemphasis) 를적용한다. 구해진스펙트럼으로부터남성화자의피치에가까운임의의간격인 150 Hz를기준으로하여 1,000 Hz 단위로 4 개씩의배음스펙트럼, 총 20 개의배음스펙트럼의강도값을추출한다. 추출 그림 3. 협대역스펙트럼의측정 그림 4. 배음스펙트럼의 3.3 숫자음모델의생성
- 136 - 숫자음모델은앞절에서설명한배음스펙트럼의강도값을이용하며, 화자별로 18개의숫자음에대해각각모델을생성한다. 숫자음의기본모델은식 3과같이계산한다. 숫자음모델 = 1 N i N (H i) =1 H i : 배음스펙트럼의강도값 N : 녹음단어수 * 음절구간 * 단구간수 * 배음스펙트럼수 (3) 하나의녹음단어에는세개의음절구간이추출되고, 한음절구간에서는앞절에서언급한것처럼 7 개의단구간이사용된다. 그리고각단구간에서 20 개의배음스펙트럼강도값이추출되므로, 여기서추출되는모든강도값의평균으로숫자음모델을만든다. 그리고녹음오류를감안하여식 3으로도출한평균값과차이가큰녹음문장을제거하고나머지녹음단어만으로평균값을다시계산하여최종숫자음모델을생성한다. 그림 5는녹음단어가 5 개일때최종숫자음모델을생성하는과정을나타내고있다. 그림 5. 최종숫자음모델생성 4. 실험및검증
숫자음의스펙트럼차이값과상관계수를이용한화자인증파라미터연구 - 137-4.1 음성데이타수집실험에사용된데이터는서울에거주하는 20대중반남성화자 4 명을대상으로수집하였다. 실험에참가한화자는표 2와같다. 녹음은조용한연구실에서 Pentium 4 데스크탑컴퓨터에서 SHURE사의 SM58S 마이크를통해입력하였으며, 표 2에나와있는녹음단어별로 10 회씩반복하여녹음한다. 정확한실험데이터수집을위해직접제작한음성분석소프트웨어 [6] 를사용한다. 본음성분석소프트웨어에서는세개의음절로이루어진숫자음녹음시검출된음절구간을피험자에게제시함으로써피험자는잘못검출된부분에대해서는재녹음을통해수집할수있도록한다. 녹음된자료는 11,025 Hz 샘플링률과 16 bit로양자화한다. 총 10 회수집한데이터중에서 5 회는숫자음모델을만드는데사용하며, 나머지데이터는인증실험에사용한다. 표 2. 실험에참가한화자정보 화자 거주지 나이 키 (cm) s1 서울 28 178 s2 경기 26 174 s3 경기 24 174 s4 경기 27 180 4.2 숫자음모델간의비교여기에서는숫자음모델간의절대차이합과상관계수가어느정도의값으로나오는지를확인하며, 숫자음중에서화자별특징을잘보이는숫자음을추출하여다음인증실험에이용하도록한다. 화자간숫자음모델의값을비교하는실험을통해숫자음중에서화자별로큰절대차이값을갖는, 그리고낮은상관계수값을갖는, 즉화자인증시좋은결과를보일수있는숫자음을찾는다. 18개의숫자음모델간의비교를통해구해진절대차이합의평균과표준편차를그림 6에나타내었으며, 그림 7은상관계수의평균과표준편차를나타낸다. 절대차이합의평균이크고, 상관계수의평균이낮은숫자음모델일수록화자간의특징을잘보여주는숫자이다. 여기서선택된숫자음을화자인증시사용한다면더좋은성능을보일것이다.
- 138 - 절대차이합 2500 2000 1500 1000 500 0 136 130 146 140 186 180 236 230 246 240 286 280 736 730 746 740 786 780 숫자음그림 6. 절대차이합의평균과표준편차 평균표준편차 상관계수 1 0.8 0.6 0.4 0.2 0 136 130 146 140 186 180 236 230 246 240 286 280 736 730 746 740 786 780 3연속숫자음그림 7. 상관계수의평균과표준편차 평균표준편차 최적숫자음모델을추출하기위하여식 4를사용한다. 식 4는평균값과표준편차의가중치를 2:1로적용한경우를나타낸다. 여기서 S a 는절대차이합의평균, S d 는표준편차를나타내며, C a 는상관계수의평균, 그리고 C d 는표준편차를나타낸다. (4) R=(S a - d s 2 (S d + S d )) - (C a - d c 2 (C d- C d )) d s = S a, d S c = C a d C d 18 개의숫자음을위의식 4를이용하여계산한후, 가장큰값을갖는 4 개의숫자음을선택한다. 본실험에서사용된데이터범위에서는 246, 240, 286, 280 의숫자음모델이선택되었다. 4.3 화자간의비교
숫자음의스펙트럼차이값과상관계수를이용한화자인증파라미터연구 - 139 - 앞절에서숫자음모델간의비교를통해화자인증시좋은성능을가질것으로판단되는숫자음 4 개를선정하였다. 선정된 4 개의숫자음모델에대해서동일화자의데이터와다른화자의데이터를비교함으로써, 제안한파라미터가화자간변별력을가지는지살펴본다. 실험을위해화자별로숫자음모델과모델생성시사용한 5 개의녹음단어를제외한 5 개녹음문장데이터를이용하여절대차이값과상관계수값을구한다. 실험을통해스펙트럼정보가화자별로구분지을수있는특징으로사용될수있는지를확인한다. 그림 8과그림 9에서동일화자의개별숫자음데이터와다른화자의개별숫자음데이터와의비교결과를보인다. 그림 7에서보듯이 s3 화자를제외한나머지화자에서다른화자의개별숫자음데이터와의절대차이합이 2000 이상의차이를보이며, 동일화자의숫자음데이터와는 1500 정도의값을보인다. 그림 8에서도 s3를제외한나머지화자의상관계수값이동일화자내에서는 0.92 이상의값을보이며, 다른화자와는 0.87 이하의값을갖는다. 따라서, 동일화자의데이터와다른화자의데이터가명백하게구분됨을알수있다. s3 화자의경우 s3 개별데이터와다른화자개별데이터의비교값에서다른화자에비해서작게나왔다. 이것은다른 s3 화자의음성이다른화자와비슷한발성을보이거나, 음성데이터수집시안정된발성을못한것으로인해나온결과로판단된다. s3화자에대해계속적으로음성데이터를수집하고, 실험을실시하여그원인을밝혀낼필요가있다. 여기서는화자별개별데이터를이용하여다른화자와의차이와, 화자내에서의차이를살펴보았다. 지금까지살펴본것처럼스펙트럼정보가화자별로변별력을갖는다는것을확인할수있다. 3000 2500 절대차이합 2000 1500 1000 500 동일화자다른화자 0 s1 s2 s3 s4 화자 그림 8. 숫자음모델과개별숫자음비교 : 절대차이합
- 140 - 상관계수 0.96 0.94 0.92 0.9 0.88 0.86 0.84 0.82 0.8 s1 s2 s3 s4 화자 동일화자다른화자 그림 9. 숫자음모델과개별숫자음비교 : 상관계수 4.4 화자인증실험여기서는절대차이합과상관계수의임계값을변경하면서화자인증실험을실시한다. 그림 10은절대차이합의임계값에대해서인증률과거절률을보이며, 그림 11은상관계수의임계값에대한결과이다. 인증률 & 거절률 (%) 100 80 60 40 20 0 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 절대차이합의임계값 인증거절 그림 10. 절대차이합임계값의변화에따른인증률과거절률의관계 100 인증률 & 거절률 (%) 80 60 40 20 0 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 인증거절 상관계수의임계값 그림 11. 상관계수임계값의변화에따른인증률과거절률의관계
숫자음의스펙트럼차이값과상관계수를이용한화자인증파라미터연구 - 141 - 절대차이합의경우임계값을크게조절하면, 인증률은상승하는반면거절률은낮아지게되며, 상관계수의경우는임계값을크게할수록거절률은상승하는반면거절률은낮아지게된다. 임계값은대개인증률과거절률이같은값을갖는지점을사용한다. 절대차이합만을고려한경우 2100값을갖으며, 상관계수의경우 0.9의값을갖는다. 그림 12. 절대차이합과상관계수의임계값의변화에따른인증률과거절률의관계 그림 12는화자인증시절대차이합과상관계수에대한인증률과거절률을보이고있다. 이경우절대차이합이임계값이하이면서상관계수가임계값보다높은경우인증을하며, 그둘중에하나라도만족되지않을경우거절하게된다. 예를들어, 그림 11에서처럼상관계수의임계값이 0.87인경우거절률이 20% 이하인반면에, 절대차이합과상관계수의임계값을적용하였을시에는거절률이 50% 이상으로높아진다. 따라서절대차이합이나상관계수단독으로적용했을때보다화자인증시다른화자에대한거절기능이좋아진다. 절대차이합과상관계수의임계값을결정하는것이화자인증시스템의성능을결정하는중요한문제이다. 화자인증시스템이사용되는분야의특징에따라서알맞은절대차이합과상관계수의임계값을설정한다면화자인증시목적에부합하는성능을얻을수있다. 5. 결론및향후계획 본논문에서는화자음성의협대역스펙트럼이시간축에대해비교적변화가적고안정적인값을나타낸다는점에착안하여화자음성의스펙트럼정보를이용한화자인증방안을제안하였다. 스펙트럼강도값에대한절대차이합과스펙트럼분포에대한
- 142 - 상관계수를이용하여화자별음성모델을생성하고, 생성된모델과녹음된테스트음성을비교하여화자별변별력을살펴보았다. 실험모델의최족화를위하여 18 개숫자음모델에대해서실험을통하여최적의숫자음모델을추출하여화자인증용파라미터로사용하였다. 그결과, 본논문에서사용한실험용음성데이터에대해서화자간변별력이충분히존재함을인증실험을통하여확인하였다. 제안하는화자확인파라미터를보다일반화시키기위해서는다양한화자에대한변별력실험을수행할필요가있으며, 이를통하여화자간의특징적차이를찾는연구를계속할필요가있다. 또한, 본논문의실험에서도나타난것처럼화자에따라서는화자내에서의발성의변이가큰경우가나타나므로, 이것을수용할수있는음성모델을생성하는연구가필요하다. 참고문헌 [1] 양병곤. 2002. 좁은대역스펙트럼의차이값과상관계수에의한화자확인연구. 음성과학, 9 권 3 호. [2] 양병곤. 2002. 남성의숫자음발성에나타난화자변이. 음성과학, 8 권 3 호, 93-104. [3] 강선미외. 2001. 화자인식을위한화자고유의음성특징추출과적응모델에관한연구 2 차년도. 과학재단특정기초과제연구보고서. [4] 강선미외. 2002. 화자인식을위한화자고유의음성특징추출과적응모델에관한연구 3 차년도. 과학재단특정기초과제연구보고서. [5] 구희산, 고도흥, 양병곤, 김기호, 안상철. 1988. 음성학과음운론, 서울 : 한신. [6] 이후동, 강선미, 장문수. 2004. 사용자편의성을고려한음성분석소프트웨어의구현. 통신학회하계학술대회논문집. [7] 류근관. 2003. 통계학, 법문사. 접수일자 : 2004. 07. 30 게재결정 : 2004. 08. 31 이후동서울특별시성북구정릉 4 동 ( 우 : 136-704) 서경대학교컴퓨터과학과 Tel: +82-2-940-7291, Fax: +82-2-919-5075 E-mail: hdlee77@empal.com 강선미서울특별시성북구정릉 4 동 ( 우 : 136-704) 서경대학교컴퓨터과학과
숫자음의스펙트럼차이값과상관계수를이용한화자인증파라미터연구 - 143 - Tel: +82-2-940-7291, Fax: +82-2-919-5075 E-mail: smkang@skuniv.ac.kr 장문수서울특별시성북구정릉 4 동 ( 우 : 136-704) 서경대학교소프트웨어학과 Tel: +82-2-940-7509, Fax: +82-2-919-5075 E-mail: cosmos@skuniv.ac.kr 양병곤부산광역시부산진구가야동산 24 ( 우 : 614-714) 동의대학교영어영문학과 Tel: +82-51-890-1227 E-mail: bgyang@dongeui.ac.kr