2012 년도한국철도학회추계학술대회논문집 KSR2012A179 한국의기차역명음성인식을위한효율적 PLU 선택 Efficient PLU Selection for Speech Recognition of Korean Train Station 김범승 *, 김순협 ** Beom-Seung Kim *, Soon-Hyob Kim * * Abstract This paper analyzes the characteristics of the names of train stations in the aspects of phonetics and phonemics to study speech recognition in phoneme base of triphone unit of 640 Korean train stations to define 7-Station Rules. Station #1: Unit of Initial-Final Consonant and Unit of Mono-Vowel Station #2: Coda Neutralization, Station #3: Nasal Assimilation, Station #4: Nasalization, Station #5: Tensification, Station #6: Liaison(include Aspiration), Station #7: Voluntary Variation. In order to select the efficient recognition unit incorporating the aforementioned purpose, a pronunciation dictionary was provided by the author. We could know the proposed 46 PLU is more efficient than the baseline and existing PLU by the experiment on the recognition rate of PLU(Phoneme-Likely Unit) sets. Keywords : Speech Recognition of Train Station, PLU, ASR 초록본논문에서는한국의 640 개기차역명의트라이폰단위음소기반음성인식을위하여기차역명의음성학적 음운론적특성을분석하고이를고려하여 Station-Rule #1: 초성 종성의자음과단모음의인식단위구분, Station-Rule #2: 음절끝소리규칙, Station-Rule #3: 비음동화, Station-Rule #4: 비음화, Station-Rule #5: 경음화, Station-Rule #6: 연음법칙 ( 격음화포함 ), Station-Rule #7: 수의적변동의 7-Station Rules 를정의하였다. 그리고이를반영한효율적인인식단위선정을위하여발음사전을만들고 PLU(Phoneme- Likely Unit) set 별인식률실험을통하여 Baseline 및기존의 PLU 보다제안하는 46 PLU 가효율성이있음을확인하였다. 주요어 : 기차역명음성인식, 유사음소단위, 자동음성인식 1. 서론 기차를이용하기위한전화망을통한예약서비스 (IVR), 자동티켓발매기 (ATIM), 역정보안내서비스 (KIOSK) 등고객편의를위한자동화서비스에음성인식을적용하기위하여가장먼저고려해야할대상이 기차역에대한역명인식 을위한음성인식 DB 를구축하는것이다. 이를위하여현재코레일에서운영하는광역지하철역을포함한 640 개기차역명은가장기본적인어휘이다. 음성인식을위한모델링의기본단위로단어, 음절, 음소, PLU 등을사용할수있다. 2006 년 Lee 는 한국어대어휘음성인식을위한형태 음운론적발음변화모델링 [1] 에서한국어를대상으로한범용적으로사용할수있는음소단위인 50 PLU 를제안하였다. 하지만기차역명의경우일상회화체와는다른통계적특징및지명학적특징을가지고있으므로일상회화체에서사용하는음소단위가아닌한국의기차역명의음성학적 음운 교신저자 : 코레일정보기술단 (bluedav@korail.com) * 코레일정보기술단 ** 광운대학교컴퓨터공학과
론적특성을고려한적절한 PLU 의선정및제한적인범위에서의음소간의연쇄특성을반영한발음사전의구성이필요하다. 본논문에서는 640 개기차역명의트라이폰단위음소기반의음성인식을위하여기차역명의음성학적 음운론적특성을분석하고이를고려하여 Station-Rule #1: 초성 종성의자음과단모음의인식단위구분, Station-Rule #2: 음절끝소리규칙, Station-Rule #3: 비음동화, Station-Rule #4: 비음화, Station-Rule #5: 경음화, Station-Rule #6: 연음법칙 ( 격음화포함 ), Station-Rule #7: 수의적변동의 7- Station Rules 를정의하였다. 그리고이를반영한효율적인인식단위선정을위하여발음사전을만들고 PLU set 별인식률실험을통하여효율적유사음소단위인 46 PLU 를선정하였다. 2. 한국의기차역명의특징 2.1 기차역명의특징및인식단위 2001 년 Byun 의 한국어의발음음소별빈도로본한국어 PB Word 타당성연구 [2] 에서제시한한국어의회화체에대한음소별빈도수와본논문에서의한국의기차역명에대한 7- Station Rules 가고려된음소의빈도수를비교한결과는아래의 Fig. 1 과같다. 초성자음의경우에그빈도수를살펴보면 / ㄹ / 이낮게나타났다. 이는한국어의일상회화체의경우외래어에서유래한 라면, 라디오, 로켓, 로봇 등이첫음절에많이존재하는것과는달리첫음절이 / ㄹ / 로시작되는경우가아닌두번째음절에서시작되는 노량진 [ 노량진 ], 밀양 [ 미량 ], 도라산 [ 도라산 ] 등과같이지명에서유래한고유명사의특징이있음을알수있다. 또한 석불 [ 석뿔 ], 소요산 [ 소요산 ], 음성 [ 음성 ] 등에쓰인치조마찰음인 / ㅅ /, 마차리 [ 마차리 ], 천안 [ 처난 ], 여천 [ 여천 ] 등에쓰인경구개파찰음인 / ㅊ / 이차지하는비율이높았다. 모음의경우에는 / ㅏ / 가일상회화체와마찬가지로높게나타나고있고 / ㅓ /, / ㅗ / 가상대적으로높은빈도를보이고있다. 반면에 / ㅜ /, / ㅡ /, / ㅣ / 는상대적으로낮은빈도를보이고있다. 이는 고마워요, - 습니다, - 입니다 등에쓰인서술어가일상회화체에서많이나타나고기차역명에서적게나타나는것으로이해할수있다. 종성자음의경우에는전체적으로 / 가야 /, / 고사리 /,/ 아우라지 / 등과같이종성이없는 CV, V 형이일상회화체보다낮게나타나고있고 / ㄷ / 은쓰이지않고있으며 / ㄱ /, / ㄴ /, / ㅇ / 이상대적으로높은빈도를보이고있다. 이와같이한국의기차역명은일상회화체에서사용하는빈도의패턴과전반적인모습은유사하나지명에서유래한고유명사의특징을가지고있어초성, 중성, 종성에서나타나는음소의빈도패턴은일상회화체에서나타나는빈도패턴과는다른차이가있음을알수있다. 따라서한국어에서차지하는지명의특성을가진기차역명의경우한국어를대상으로한범용적으로제시되고있는유사음소단위가아닌한국의기차역명의음향학적 음운론적특성을고려한제한적인범위에서의음소간의연쇄특성이고려되어야할필요가있다. 또한몇개 (a) Frequencies of Initial Consonants (b) Frequencies of Vowels (c) Frequencies of Final Consonants Fig 1 Frequencies of Phoneme for Train Station Names in Korean 의음소가모여서이루어지는음절의구조는다양하지만, 기차역명의경우음절구성을위한음소배열유형을살펴보면 CVC 가 53.90%, CV 가 30.09%, VC 가 12.56%, V 가 3.45% 를나타내고있다. 한언어에서가장자연스러운음소연쇄는일반적으로대부분의언어에서가장자
연스러운음소연쇄는하나의자음에하나의모음으로구성된것이가장자연스럽다. 따라서개별언어인한국어도 CV 가가장자연스러운형태이다. 하지만영어와달리한국어는 / 야탑 /,/ 오류동 /,/ 오리 /,/ 오이도 /,/ 이수 /,/ 이촌 / 등과같이모음하나만을가지고음절을이룰수있기때문에두번째로자연스러운음절은 V 이며폐음절을만드는 (C)VC 가그다음이다. 따라서선호도가가장낮은 CVC 에서에오는미파음은음향학적자질보다는어휘부에저장된어휘와음운규칙에의거해인지하게되는것이다 [3]. 하지만위에서살펴보았듯이한국의기차역명의경우의선호도는 CVC CV VC V 이다. 이것은역명이지명인고유명사인이유도있긴하지만첫음절의종성에위치하는자음과그다음음절에오는초성이자음인경우가많음을의미하며음향학적인자질보다는음운론적자질의영향을받을수있음을알수있다. 따라서기차역명의발음시발생하는자음의초성, 종성구분및음운론적자질을고려하여음소기반의인식단위를선정할필요가있다. 2.2 기차역명의음향음성학적특징 (a) Formant Frequency of following Vowel a/ ㅏ / (b) Durational Time of following Vowel a/ ㅏ / Fig 2 Formant Frequency and Durational Time of following Vowel a/ ㅏ / by Consonants in Korean Train Station Names (a) Formant Frequency of following Vowel i/ ㅣ / (b) Durational Time of following Vowel i/ ㅣ / Fig 3 Formant Frequency and Durational Time of following Vowel i/ ㅣ / by Consonants in Korean Train Station Names (a) Formant Frequency of following Vowel u/ ㅜ / (b) Durational Time of following Vowel u/ ㅜ / / Fig 4 Formant Frequency and Durational Time of following Vowel u/ ㅜ / by Consonants in Korean Train Station Names
기차역명의자음을중심으로가감되는선 후행모음의포먼트주파수와모음의지속시간을살펴볼때 Fig. 2 (a) 에서볼수있듯이중설저모음에해당하는기준모음아 / ㅏ / 를기준으로더해지는선 후행자음의후행모음 / ㅏ / 의포먼트주파수변화를살펴보면 F1 의경우기준모음보다낮게분포되고있음을관찰할수있다. 이는기준모음이자음과함께발성될때혀의높이가낮아지고있음을알수있고입의벌림정도가기준모음을발성할때보다는덜하다는것으로이해할수있다. 그리고 F2 의경우도전반적으로기준모음보다낮게분포가되고있는것으로보아기준모음이자음과함께발성될때혀의위치가뒤로더들어가고있음을알수있다. 또한 F3, F4 는기준모음과함께발성되는선행자음의종류에따라그분포가다름을관찰할수있다. 그리고 Fig. 3 (a) 에서볼수있듯이전설고모음에해당하는기준모음이 / ㅣ / 를기준으로더해지는선 후행자음의후행모음 / ㅣ / 의포먼트주파수변화를살펴보면 F1 의경우기준모음보다약간높게분포하나변화가거의없고 F2 의경우에도비슷하거나약간높게분포하고있다. 이는기준모음이자음과함께발성될때혀의높이와입의벌림정도에는변화가거의없고혀의위치가약간앞으로더나오고있음을알수있다. 반면에 F3, F4 는기준모음보다낮게분포하고있는모습을관찰할수있다. 또한 Fig. 4 (a) 에서볼수있듯이후설고모음에해당하는기준모음우 / ㅜ / 를기준으로더해지는선 후행자음의후행모음 / ㅜ / 의포먼트주파수변화를살펴보면 F1 의경우기준모음과비교하여변화가거의없고 F2 가높게분포하고있다. 이는기준모음이자음과함께발성될때혀의높이와입의벌림정도에는변화가없고혀의위치가앞으로더나오고있음을알수있다. 반면에 F3, F4 는기준모음보다낮게분포하고있는모습을관찰할수있다. Fig. 2-4 (b) 에서볼수있듯이후행모음의지속시간을살펴볼때전반적으로짧아지고있음을알수있다. 다시말해서고모음의경우에는입의벌림정도를어느정도고정시켜놓고자음의조합에따라혀의위치를변경해가며발성하는형태이고, 저모음의경우에는입의벌림정도를줄여가며혀의위치를변경해가며발성하는형태이며전반적인지속시간또한짧아지는것으로이해할수있다. 모음은홀로나는홀소리이지만자음은홀로쓰일수없고모음과같이쓰이는닿소리이며모음은조음기관의장애가없이발성되는울림소리이나자음이더해짐으로써장애를받으며같이쓰이는장애물인자음의종류에따라그포먼트주파수를달리하고있음을다시한번확인할수있다. 모음은자음의모습을비추는거울이다. 자음의종류에따라그비춰지는형상이다르게나타난다. 따라서이러한자음앞뒤의선 후행모음의포먼트주파수의분포를살펴볼때선 후행모음의포먼트주파수변화에따라자음의종류를판단할수있는음향학적자질이있음을알수있다. 본논문에서는이러한분석을통하여음소기반의음성인식시스템구축시모델링의단위가되는변별적자질이큰적정한수준의효율적 PLU 를선정하기위하여초성에쓰인자음과종성에쓰인자음의구분, 음운론적자질, 선 후행모음의지속시간등을고려하였다. 3.1 음성 음운론적특성을고려한 PLU 선정 3. 효율적 PLU 선정 한언어에서가장자연스러운음소연쇄는 자음 + 모음 + 자음 + 모음... 과같이자음과모음이번갈아가면서나타나는것이다. 자음과모음은서로최대한구분되는소리이므로두소리가교대로나타나는것이대립을극대화하는이상적인모습이다. 대립의극대화는의사소통의측면에서본다면청자가발화의의미를구분해서듣게해준다는의미를지닌다. 또한음성인식의측면에서보면음향적특징의구분이명확해짐으로인식률의향상을가져온다. 그런데자음과자음이직접만나거나모음과모음이직접만나면서충돌을일으킨다. 즉, 음소와음소가만나면충돌이일어난다. 서로다른특성을지닌음소들이만남으로충돌이일어나는것은당연하다. 이때음운현상은음소들의충돌을무마하는역할을한다. 음운현상이일어남으로써음소연쇄는조화로운상태를유지할수있는것이다 [4]. 본논문에서는효율적인 PLU 를선정하기위하여앞서살펴본 2 장의한국의기차역명의음향학 음성학적특징분석을기반으로 640 개의기차역명에서발생할수있는초성 종성자음의인식단위구분및음운현상을고려한규칙들을정의하였다 [10]. 본논문에서는한국의기차역명을위한유사음소단위선정을위하여정의한 7 개의규칙들을 7(Seven) Station-Rules 라고
부르기로한다. Station-Rule #1: 초성 종성의자음과단모음의인식단위구분, Station- Rule #2: 음절끝소리규칙, Station-Rule #3: 비음동화, Station-Rule #4: 비음화, Station- Rule #5: 경음화, Station-Rule #6: 연음법칙 ( 격음화포함 ), Station-Rule #7: 수의적변동의 7-Station Rules 를정의하였으며그예시는아래 Table 1 과같다. Table 1 7 Station-rules 음소표기발음사전예시비고 ㄱㄴㅏ / ㅜ ㅂ g/gq n/nq aa/uu bq 간석 g a nq s v gq 노량진 n o r ja nx z i nq 아우라지 aa uu r a z i 동묘앞 [ 동묘압 ] d o nx m jo a bq 외대앞 [ 외대압 ] we d e a bq 한대앞 [ 한대압 ] h a nq d e a bq Station-Rule #1 Station-Rule #2 ㅇ nx 옥마 [ 옹마 ] o nx m a Station-Rule #3 ㄴ ㄲㅃㅉ ㄱㄴㄹㅋ ㅈ n gg bb zz g n r k z 서정리 [ 서정니 ] s v z v nx ni 소정리 [ 소정니 ] s o z v nx ni 추풍령 [ 추풍녕 ] c u p u nx n jv nx 각계 [ 가께 ] g a gg e 극락강 [ 긍낙깡 ] g y nx n a gq gg a nx 석불 [ 석뿔 ] s v gq bb u l 직지사 [ 직찌사 ] z i gq zz I s a 백양사 [ 배걍사 ] b e g ja nx s a 천안 [ 처난 ] c v n a nq 밀양 [ 미량 ] m i r ja nx 묵호항 [ 무코항 ] m u k o h a nx 동점 [ 동점 ] d o nx z v mq( 역명 ) 동점 [ 동쩜 ] d o nx zz v mq( 점수 ) Station-Rule #4 Station-Rule #5 Station-Rule #6 Station-Rule #7 3.2 유사음소단위의모델링트라이폰단위의음성인식 DB를구축하기위하여학습에필요한 20대에서 30대사이의남성 30명과여성 30명이 640개역명을녹음한어휘를사용하였다. 음성파일로부터특징추출을하기위하여 39 MFCC를사용하였으며 CHMM을이용한음향모델을구축하였다. 인식단위를음소로할경우단어나음절에비하여그수가적고학습에필요한충분한자료를모으기가용이한반면에음소앞뒤에위치하는음소에영향을많이받으므로이를고려하여세분화된문맥종속음소모델 (sub-word unit modeling) 을구성하여야한다. 이전연구들 [5-7] 에서문맥독립음소는문맥종속음소에비하여많은변이를포함하고있으므로모델링이어려워지고인식률도낮게나타났다. 따라서문맥독립음소모델을사용할경우인식단위에대한정확한모델링뿐만아니라분별학습, 후처리등의충분한뒷받침없이는높은인식률을기대하기어렵다. 반면문맥종속음소모델은문맥독립음소모델에비해음향의가지수는많지만음소에의한변이음을고려한모델로서강건한음향모델을생성하는방법으로많이사용되고있다 [5-7]. 유사음소단위는최소인식단위로많이사용되며기본적인음소에변이음을포함하고있는음소이다. 음향학적및음성학적유사성이큰경우에는음소와유사음소단위는동일하게취급될수있지만그렇지않은경우에는큰차이가있다. 효율적인 PLU 선정을위한인식률실험을위해유사음소단위집합을 Table 2-4와같이 3가지의경우로구분하여음향모델을작성하였다.
Table 2 32 PLU set of Case1 32 PLU set(baseline) 구분 초성 ( 자음 ) 종성 ( 자음 ) 중성 ( 모음 ) 묵음 g/ ㄱ / a/ ㅏ / sil n/ ㄴ / ja/ ㅑ / - PLU d/ ㄷ / - v/ ㅓ / - r/ ㄹ / jv/ ㅕ / - m/ ㅁ / o/ ㅗ / - b/ ㅂ / jo/ ㅛ / - s/ ㅅ / - u/ ㅜ / - - nx/ ㅇ / ju/ ㅠ / - z/ ㅈ / - y/ ㅡ / - c/ ㅊ / - i/ ㅣ / - k/ ㅋ / - e/ ㅔ, ㅐ / - t/ ㅌ / - je/ ㅖ / - p/ ㅍ / - wa/ ㅘ / - h/ ㅎ / - we/ ㅚ / - - - wi/ ㅟ / - - - wv/ ㅝ / - - yi/ ㅢ / - 소계 13 1 17 1 총계 32 Table 3 46 PLU set of Case2 46 PLU set(proposed) 구분 초성 ( 자음 ) 종성 ( 자음 ) 중성 ( 모음 ) 묵음 / ㄱ / gq/ ㄱ / aa/ 아 /,a/ ㅏ / sil n/ ㄴ / nq/ ㄴ / ja/ ㅑ / - PLU d/ ㄷ / - v/ ㅓ / - r/ ㄹ / l/ ㄹ / jv/ ㅕ / - m/ ㅁ / mq/ ㅁ / oo/ 오 /,o/ ㅗ / - b/ ㅂ / bq/ ㅂ / jo/ ㅛ / - s/ ㅅ / - uu/ 우 /,u/ ㅜ / - - nx/ ㅇ / ju/ ㅠ / - z/ ㅈ / - y/ ㅡ / - c/ ㅊ / - ii/ 이 /,i/ ㅣ / - k/ ㅋ / - e/ ㅔ, ㅐ / - t/ ㅌ / - je/ ㅖ / - p/ ㅍ / - wa/ ㅘ / - h/ ㅎ / - we/ ㅚ / - gg/ ㄲ / - wi/ ㅟ / - dd/ ㄸ / - wv/ ㅝ / - bb/ ㅃ / - yi/ ㅢ / - ss/ ㅆ / - - - zz/ ㅉ / - - - 소계 18 6 21 1 총계 46
Table 4 50 PLU set of Case3 50 PLU set(lee)[1] 구분 초성 ( 자음 ) 종성 ( 자음 ) 중성 ( 모음 ) 묵음 K/ ㄱ /,G/ ㄱ /[ 유성음화 ] KQ/ ㄱ / AA/ ㅏ / sil N/ ㄴ / JA/ ㅑ / Q PLU T/ ㄷ /,D/ ㄷ /[ 유성음화 ] TQ/ ㄷ / AX/ ㅓ / - R/ ㄹ / L/ ㄹ / JX/ ㅕ / - M/ ㅁ / OW/ ㅗ / - P/ ㅂ /,B/ ㅂ /[ 유성음화 ] PQ/ ㅂ / JO/ ㅛ / - S/ ㅅ / - UW/ ㅜ / - - NG/ ㅇ / JU/ ㅠ / - Z/ ㅈ /,ZH/ ㅈ /[ 유성음화 ] - WW/ ㅡ / - CH/ ㅊ / - IY/ ㅣ / - KH/ ㅋ / - EY/ ㅔ /,EH/ ㅐ / - TH/ ㅌ / - JE/ ㅖ /,JH/ ㅒ / - PH/ ㅍ / - WA/ ㅘ / - H/ ㅎ /,HI/ ㅎ /[ 유성음화 ] - WE/ ㅞ, ㅚ /,WH/ ㅙ / - KK/ ㄲ / - UI/ ㅟ / - TT/ ㄸ / - WX/ ㅝ / - PP/ ㅃ / - WI/ ㅢ / - SS/ ㅆ / - - - ZZ/ ㅉ / - - - 소계 23 5 20 2 총계 50 4.1 실험도구및환경 4. 실험및고찰 항목 Table 5 Experimental Environment 내용 1) 실험에사용한 PC Window Vista 환경의 Notebook LG Xnote E200 2) 녹음용 Microphone Sony ECM-221 Condenser Microphone & Xnote E200 내장마이크 3) 음성파형분석툴 Praat[8] 4) 음향모델링 HTK[9] 5) 음성인식기한국의기차역명을위한음성인식시스템 [10] 6) 인식대상어휘 640 개기차역명 7) 전처리조건 Sampling Rate 8KHz, 양자화레벨 16 bit, 39MFCC 8) State 개수 5 (with 2 dummy State) 9) Mixture 개수 8 Plosive = {b,d,g,p,t,k,bb,dd,gg,bq,gq} Fricative = {s,ss,h} Africative = {z,c,zz} 10) Basic Question Sets Liquid = {r,l} Nasal = {m,n,nx,mq,nq} Vowel = {a,ja,v,jv,o,jo,u,ju,y,i,e,je,wa,we,wi,wv,yi,aa,ii,uu,oo}
4.2 효율적 PLU 선정을위한인식률실험 효율적인유사음소단위를선정하기위하여 PLU set을 Table 6과같이 3가지 Case 별로구성하였고모노폰, 트라이폰단위의학습용발음열과발음사전을구성하여인식률실험을진행하되모노폰, 트라이폰기준으로실험을진행하였고인식률평가를위해학습에참여하지않은 20명의화자가녹음한음성파일을사용하였다. Table 6 PLU set with 3 Case 구분내용비고 Case1(C1) Case2(C2) Case3(C3) 본논문에서한국의기차역명음성인식을위하여 Baseline 으로사용한변이음을포함하지않는음소정의에가까운 32 PLU set 으로초성 종성의자음의구분및음운현상이고려되지않고모음 ae/ ㅐ /, wae/ ㅙ / 가구분되지않음 (7 Station-Rules 미적용 ) 본논문에서제안하는한국의기차역명음성인식을위하여정의한 46 PLU set 으로초성 종성자음의구분과음운현상을모두고려함 (7 Station-Rules 모두적용 ) [1] 에서제안한한국어대어휘음성인식을위한 50 PLU set 으로자음의구분의세분화, 경음화등의음운현상고려와 EY/ ㅔ /, EH/ ㅐ /, WE/ ㅞ, ㅚ /, WH/ ㅙ / 가구분됨 (7 Station-Rules 부분적용 ) Table 2 Table 3 Table 4 그수행결과는 Fig. 5, Table 7과같다. 3가지 Case의경우모노폰구성 C2와 C1, C3와 C1의경우에는각각 6.37%, 2.77% 의차이를보였고 7 Station-Rules가모두적용된 C2와적용되지않은 C1, C3의경우에는각각 6.37%, 3.60% 의차이를보였다. 트라이폰구성의경우에도 C2와 C1, C3와 C1의경우에는각각 1.96%, 0.41% 의차이를보였고 7 Station- Rules가모두적용된 C2와적용되지않은 C1, C3의경우에는각각 1.96%, 1.55% 의차이를보였다. 이는초성 종성자음의인식단위구분과음운현상을고려한 7 Station-Rules가모두고려된 Case 2가트라이폰단위에서그인식률이가장높음을알수있다.
Fig 5 Recognition Rate(%) of Case1~Case3 Table 7 Recognition Rate(%) of Case1~Case3 Recog.Units Case C1(32_PLU) C2(46_PLU) C3(50_PLU) Triphone 95.82 97.78 96.23 Monophone 57.95 64.32 60.72 5. 결론및향후계획 기존연구에서 Lee는한국어대어휘를대상으로한범용적으로사용할수있는음소단위인 50 PLU를제안하였다. 하지만기차역명의경우일상회화체와는다른통계적특징및지명학적특징을가지고있으므로일상회화체에서사용하는음소단위가아닌한국의기차역명의음성학적 음운론적특성을고려한적절한 PLU의선정및제한적인범위에서의음소간의연쇄특성을반영한발음사전의구성이필요하다. 본논문에서는 640개기차역명의트라이폰단위음소기반의음성인식을위하여기차역명의음성학적 음운론적특성을분석하고이를고려하여 Station-Rule #1: 초성 종성의자음과단모음의인식단위구분, Station-Rule #2: 음절끝소리규칙, Station-Rule #3: 비음동화, Station-Rule #4: 비음화, Station-Rule #5: 경음화, Station-Rule #6: 연음법칙 ( 격음화포함 ), Station-Rule #7: 수의적변동의 7-Station Rules를정의하였다. 그리고이를반영한효율적인인식단위선정을위하여발음사전을만들고 PLU set별구성실험통하여효율적유사음소단위인 46 PLU를선정하였다. 본논문에서는실제철도에서실용화가가능한수준에서의연구를진행하였으며이러한분석방법을활용한방식은한국의기차역명의음성인식을위한좋은토대가
될것으로기대되며, 일련의연구가음성인식의저변확대에기여했으면하는바람이다. 향후좀더확장된기차역명 ( 각지역의지하철역명이포함된 ) 및지명에대하여도이러한분석을통하여좀더효율적인인식방법에대해연구할계획이다. 참고문헌 [1] K.N. Lee (2006) Morpho-Phonological Modeling of Pronunciation Variation for Korean Large Vocabulary Continuous Speech Recognition, PhD Thesis, Sogang University. [2] S.W. Byun (2001) Frequency of Korean Phonemes and Reliability of Korean Phonetically Balanced Word Lists, Korean J Otolaryngol, vol. 44, pp. 485-489. [3] S.H. Jeong (2007) The Study on Phonetical Information for Speech, The Association Of The Research On Korean Language And Literature, 49, pp. 135-160. [4] J.H. Lee (2009) Korean Phonology Lecture, SAMGYENGMUNHWASA. [5] G.H. Shen, H.J. Seo, S.j. Hahm, J.G. Kim, et al. (2004) A Study on Phone-Like Units for Korean Continuous Speech Recognition in Noisy Environments, 2004 Autumn Conf. Acoustical Society of Korea, 23(2). [6] J.H. Jeon, S.H. Cha, M.H. Chung (1997) KOREAN PRONUNCIATION GENERATION BASED ON MORPHONOLOGICAL ANALYSIS, Autumn Conf. The Korean Institute of Information Scientists and Engineers, 24(2), pp. 247-250. [7] M. Suzuki, S. Makino, A. Ito, H. Aso, H. Shimodaira (1995) A New Hmnet Construction Algorithm Requiring No Contextual Factors, IEICE transaction on Information and systems, E78-D(6), pp.662-668. [8] Praat, http://www.praat.org. [9] S. Young, G. Evermmana, M. Gales, T. Hain, et al. (2006) The HTK Book for HTK Version 3.4. [10] B.S. Kim (2012) A Study on Efficient PLU and State Clustering for Speech Recognition of Korean Train Station, PhD Thesis, Kwangwoon University.