pissn 2005-8063 eissn 2586-5854 2018. 03. 31. Vol.10 No.1 pp. 39-48 말소리와음성과학 https://doi.org/10.13064/ksss.2018.10.1.039 한국어 시스템을위한엔드투엔드합성방식연구 An end-to-end synthesis method for Korean text-to-speech systems 최연주 정영문 김영관 서영주 김회린 ** Choi, Yeunju Jung, Youngmoon Kim, Younggwan Suh, Youngjoo Kim, Hoirin Abstract A typical statistical parametric speech synthesis (text-to-speech, TTS) system consists of separate modules, such as a text analysis module, an acoustic modeling module, and a speech synthesis module. This causes two problems: 1) expert knowledge of each module is required, and 2) errors generated in each module accumulate passing through each module. An end-to-end TTS system could avoid such problems by synthesizing voice signals directly from an input string. In this study, we implemented an end-to-end Korean TTS system using Google's Tacotron, which is an end-to-end TTS system based on a sequence-to-sequence model with attention mechanism. We used 4392 utterances spoken by a Korean female speaker, an amount that corresponds to 37% of the dataset Google used for training Tacotron. Our system obtained mean opinion score (MOS) 2.98 and degradation mean opinion score (DMOS) 3.25. We will discuss the factors which affected training of the system. Experiments demonstrate that the post-processing network needs to be designed considering output language and input characters and that according to the amount of training data, the maximum value of n for n-grams modeled by the encoder should be small enough. Keywords: attention mechanism, end-to-end, Korean text-to-speech system, sequence-to-sequence, Tacotron 1. 서론 Text-to-speech(TTS) 시스템이란텍스트가입력되어서그에대응하는음성으로변환되어출력되는시스템으로, 음성합성시스템이라고도불린다. 여기서중요한점은출력되는합성음이실제사람이말하는것처럼충분히자연스러워야한다는점이다. 사람은어떤생각을언어로변환한뒤조음기관에서발성하 는음성신호로서생각을내뱉는다. 이를표방하는 TTS 시스템은반드시텍스트분석부와음성합성부를가지게된다. 초기의음성합성시스템은 1세대로서포만트합성기, 2세대로서선형예측부호화 (LPC, linear predictive coding) 기반의음성합성기등의규칙기반의방식이주로사용되었다. 2세대는 1세대에비해명료도는좋아졌으나, 자연성에여전히한계가있었다 (Rabiner & Schafer, 2011). 규칙기반의방식으로더이상발전 * 이논문은산업통상자원부의산업기술혁신사업으로부터지원을받아수행된연구입니다 ( 지원번호 : 10080667, 음원다양화를통하여로봇의감정 및개성을표현할수있는대화음성합성원천기술개발 ). ** 한국과학기술원, hoirkim@kaist.ac.kr, 교신저자 Received 5 February 2018; Revised 9 March 2018; Accepted 21 March 2018 c Copyright 2018 Korean Society of Speech Sciences. This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unre-stricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. Choi, Yeunju et al. / Phonetics and Speech Sciences Vol.10 No.1 (2018) 39-48 39
의여지가보이지않자, 컴퓨터의연산속도및메모리의증가에따라 3세대부터는데이터기반의방식이많이연구되었다. 그중먼저널리연구되고현재상용화되어있는방식은음편선정 (unit selection) 방식이다 (Hunt & Black, 1996). 이방식은짧은단위의음편들을저장한후텍스트에해당하는음편들을선택해연결하여합성음을출력한다. 실제사람의음성을녹음한음편을사용하기때문에음질이좋다는장점이있지만, 많은양의데이터를사용함에도불구하고, 연결한두음편사이의경계가부자연스럽다는문제, 주어진문장에대해항상똑같은발화만이가능하다는문제등이존재한다. 이러한한계점들을극복하고자통계적파라미터방식음성합성 (statistical parametric speech synthesis) 시스템이제안되었다. 대표적인예로은닉마르코프모델 (HMM, hidden Markov model) 기반 TTS 시스템 (HTS, HMM-based speech synthesis) 이있다. 음편선정방식과는대조적으로적은양의데이터만으로도 TTS가가능하며, 파라미터를조절해서감정이들어간음성을합성하거나, 화자의목소리를변환하는등의다양한음성합성이가능하다 (Tokuda et al., 2013). 최근 10여년사이에심층신경망 (DNN, deep neural network) 을활용해성능을크게향상시킨연구결과가기계번역, 음성인식등의다양한분야에서나타나면서음성합성에서도 DNN 기반의연구결과들이발표되고있다. Merlin은영국에든버러대학의 CSTR(The Centre for Speech Technology Research) 에서개발한오픈툴킷으로, 파라미터를이용한통계적음성합성을위한 DNN을구성하는것이그목적이다 (Wu et al., 2016). 이시스템은음향모델링에해당하는부분만을구현했기때문에이전단계의텍스트분석부와이후단계의음성합성부를조합하여사용해야한다. 구글딥마인드 (DeepMind) 의 Oord et al.(2016) 은주로사용되어왔던신호처리기반의음성합성부를 DNN 기반의 WaveNet 이라는모델로새롭게구성하였다. 이모델은음성의샘플단위로연산을수행하며, dilated causal convolution 이라는새로운방 법을제시했다. 이로써텍스트분석부를통해출력한언어특징을 WaveNet 에입력으로넣어주면, 별도의음향모델링없이도음성신호를합성할수있다. WaveNet 이합성한음성의음질은독보적이지만, 훈련및합성속도가느리다는단점이있다. 바이두 (Baidu) 는 Deep Voice 이후 Deep Voice 2, Deep Voice 3 까지계속해서 Deep Voice 시리즈를발표하고있다 (Arik et al., 2017a, 2017b; Ping et al., 2017). Deep Voice는기존의통계적음성합성시스템의모든부분을 DNN 기반방식으로구현한 TTS 시스템이고, Deep Voice 2는 Deep Voice의각부분들을발전시키면서화자의정보를나타내는벡터를활용하여구현한다중화자 TTS 시스템이다. Deep Voice 3는 Deep Voice 2에서다중화자음성합성의원리만그대로이용하면서, 전체구조를 CNN (convolutional neural network) 으로구성한 attention 메커니즘기반의 TTS 시스템으로, 저자는 attention 메커니즘에서의오류를줄이기위한방법과음성합성부를 Griffin-Lim 방식, WORLD, WaveNet 방식으로구성했을때의음질의차이등다양한방면에서의연구를진행했다 (Bahdanau et al., 2014; Griffin & Lim, 1984; Morise et al., 2016). 이러한음성합성시스템방식들은모두하나의시스템안에서여러개의모듈을사용한다는공통점이있다. 이는각모듈에대한전문적인지식을요구하기때문에진입장벽이높다는문제점과각모듈에서의 loss가누적될수밖에없다는문제점을야기한다. 반면엔드투엔드 (end-to-end) 시스템은입력부터출력까지하나의모듈로이루어진시스템이다. 따라서기존의방식과는달리각모듈에대한전문적인지식이필요하지않아진입장벽이낮고, 각모듈에서의 loss가누적되는문제가해결된다. 이에따라 2017년 3월, 구글이 Tacotron 을발표했다 (Wang et al., 2017). Tacotron 은입력문자열에서스펙트로그램을출력하는 attention 메커니즘기반의순환신경망 (RNN, recurrent neural network) 인코더- 디코더와음성합성부로이루어져있다 (Cho et al., 2014; Sutskever et al., 2014). Tacotron 에서사용된 RNN 인코더-디코더모델은주로 sequence-to-sequence 모델이라고불리며, 그림 1. Tacotron 의전체구조 Figure 1. Structure of Tacotron 40 Choi, Yeunju et al. / Phonetics and Speech Sciences Vol.10 No.1 (2018) 39-48
기계번역분야에서처음제안된이후에다양한분야에서뛰어난성능을보이고있다. Tacotron 은사전훈련을필요로하지않기때문에현존하는 TTS 시스템중에 end-to-end 시스템으로서의특징을가장잘나타낸다. 이어서 12월에는 Shen et al.(2017) 이 Tacotron 2를발표했으며, Tacotron 의문제점이었던 attention 메커니즘과음성합성알고리즘을개선하여현존하는최고음질의합성음을출력하였다. 본연구는엔드투엔드합성방식을한국어 TTS에적용하는방법과, 그적용결과를분석하여제시한다. 전반적으로 Wang et al.(2017) 이제안한방법론을기반으로하나, 보다적은데이터를사용하여자연스러운한국어합성음을생성하기위한시스템을구현하는것을목표로한다. 2. 엔드투엔드한국어 TTS 시스템 2.1. 입출력 End-to-end 한국어 TTS 시스템의입출력은다음과같다. 입력은문자임베딩열이며, 훈련및합성과정에서사용한문자는초성 19개, 중성 21개, 종성 27개와문장부호 13개로총 80개이다. 입력문장에대한텍스트정규화는다음과같다. (1) 영어단어를포함하여 '119 구급차 ( 일일구구급차 )' 나 '1+1( 원플러스원 )' 과같이일반적인경우와다르게발성하는단어, 그외 '10-15분 ' 과같이발성할수있는방법이여러가지있는단어등은미리사전에정의해놓고, 입력문장중사전에있는단어는사전에표기된대로바꾼다. (2) 아라비안숫자를한글로바꾼다. (3) jamo 라는파이썬패키지를사용해한글초, 중, 종성열로변환한다. 디코더의출력은효율적인학습을위해 80 밴드의멜스케일스펙트로그램으로사용한다. 디코더의표적으로바로선형스케일스펙트로그램과같은고차원의표적을설정할경우, 연산량이많아지고, 필요이상의정보가많아서정밀한디코딩이어렵기때문이다. 이후에음성신호를합성하기위해 1025차선형스케일스펙트로그램으로변환한뒤최종적으로음성신호를출력한다. 2.2. 구조기본적으로 < 그림 1> 에해당하는 Wang et al.(2017) 이제안한 Tacotron 의구조를따른다. Tacotron 은 attention 메커니즘기반의 RNN 인코더- 디코더구조를중심으로디코더의출력인 80 밴드의멜스케일스펙트로그램을 1025차선형스케일스펙트로그램으로변환하는후처리네트워크와그로부터합성음을출력하는음성합성알고리즘까지포함하고있다. 이때후처리네트워크는 Wang et al.(2017) 과달리 highway 네트워크를사용한다 (Srivastava et al., 2015). 2.2.1. CBHG 모듈 < 그림 2> 에해당하는 CBHG 모듈은 Lee et al.(2016) 이제안한기계번역을위한인코더로부터착안된구조로, 1차 convolution bank, highway 네트워크, bidirectional gated recurrent unit(gru) 로 그림 2. CBHG 구조 Figure 2. Structure of CBHG CBHG, 1-D convolution bank + highway network + bidirectional gated recurrent unit 이루어져있고, 이를줄여서 CBHG 라고부른다 (Srivastava et al., 2015; Cho et al., 2014; Chung et al., 2014). 1 차 convolution bank 에 서는 unigram 부터 K-gram 까지를모델링하기위해 1 부터 K 까지 의길이를가지는필터로입력을 convolution 하고, 그결과들을 쌓는다. 그리고 local invariance 를키우기위해 max pooling 을한 다. 여기서 local invariance 를키운다는것은, 문맥이달라져도변 하지않는부분들을강조한다는것으로볼수있다. 이때시간 축상의해상도 (resolution) 를유지하기위해 stride=1 로한다. 이 후 high-level feature 들을뽑기위해 projection 이라고부르는몇 층의 1 차 convolution 을거친뒤 highway 네트워크까지거치도록 한다. 이때모든 1 차 convolution 은 batch normalization 을함께사 용하여 internal covariate shift 문제를해결한다 (Ioffe & Szegedy, 2015). Projection 후에 residual connection 을적용하여 1 차 convolution 들의결과에처음입력을더한값이 highway 네트워크의입력으 로들어가게된다 (He et al., 2016). Residual connection 은보통상 당히깊은구조에서훈련의수렴을돕는다고알려져있는데, 여 기에서는깊지않은구조임에도불구하고수렴과일반화에도 움이되는것을확인했다. Highway 네트워크는입력이 x, 출력 이 y 라고할때, 아래와같이한층의신경망을거친결과, H(x, W H ) 와원래입력두값을 weighted sum 하는구조이다. (1) 이때 Tacotron 은 C(x, WC) 대신 1-T(x, WT) 를사용하고, W H 와 W T 는모두훈련을통해구한다. 이역시모델의일반화에도움 이된다. Highway 네트워크의결과가최종적으로 bidirectional GRU 의입력이된다. Bidirectional GRU 의 forward annotation vector 와 backward annotation vector 를연결한벡터가최종적으로 입력의 annotation vector 가된다. Choi, Yeunju et al. / Phonetics and Speech Sciences Vol.10 No.1 (2018) 39-48 41
2.2.2. 인코더인코더는입력문자임베딩열을받아 annotation vector를출력하는부분으로서, Tacotron 은보다 robust한인코더를구현하기위해 RNN이아닌 CBHG를사용하고, 그전에는입력문자임베딩열이 pre-net 을거치도록한다. 이때입력문자임베딩열은각문자를 one-hot 벡터로변환한뒤, 연속벡터로변환한결과를나열한것이다. Pre-net 은 dropout 기법을적용한 2층의 fully connected layer로서과적합 (overfitting) 을방지하고훈련이수렴하는것을돕는다 (Srivastava et al., 2014). 2.2.3. 디코더디코더는특정 time step 프레임의스펙트로그램을입력으로받고, 다음 time step 프레임의스펙트로그램을출력한다. 본연구에서는 Bahdanau et al.(2014) 과는달리, Vinyals et al.(2015) 이제안한논문에서와같이 attention RNN을따로두는방식의디코더를사용하며, 인코더에서와마찬가지로입력스펙트로그램은우선 pre-net을거치고, 그결과가 attention RNN의입력이된다. Attention RNN의 hidden state는 annotation vector와함께 alignment 모델의입력으로들어가고, alignment 모델의출력인 context vector와 attention RNN의 hidden state가 decoder RNN의입력으로들어가게된다. 즉, 인코더의 hidden state를, attention RNN의 hidden state를 라고할때 alignment 모델은다음과같이계산한다. tanh (2) 이에따라, 가되고, 는 attention RNN의 hidden state와 concatenate 되어디코더 RNN의조건부입력으로쓰인다. 첫디코더 time step에서는 <GO> 프레임이라는모든값이 0인스펙트로그램이입력으로쓰인다. Attention RNN으로는 256-unit GRU 1층을, decoder RNN으로는 residual connection 을포함한 256-unit GRU 2층을사용한다. Residual connection 은모델이더빨리수렴하기위해필요하다. 이때중요한설정은디코더 time step 당하나가아닌여러프레임의스펙트로그램을예상함으로써훈련시간, 합성시간, 모델사이즈를줄이는것이다. 이는연속한프레임의스펙트로그램끼리서로겹치는정보가많기때문에가능하다. 이렇게디코더 time step 당예측하는프레임의개수를 reduction factor(r) 라고부른다. 본연구에서는 r이 4-10일때작동함을확인했다. 2.2.4. 후처리및음성합성 디코더의출력이멜스케일이므로이를선형스케일로변환하 기위해후처리네트워크를사용한다. 후처리네트워크는디코 더의출력을모든 time step 에대해고려할수있다는장점을가 진다. 본연구에서는 Wang et al.(2017) 과달리후처리네트워크 로의스케일변환이라는간단한목적과훈련데이터양의제약 에따라, CBHG 모듈에서 convolution bank 와 bidirectional GRU 를 제외한 2 층의 256-unit highway 네트워크를사용한다. 선형스케일스펙트로그램을음성신호로합성하는데에는 Griffin-Lim 알고리즘을사용한다. 이알고리즘은다음과같이 반복적인과정을통해주어진 modified STFT magnitude (MSTFTM) 와가장비슷한 STFT magnitude(stftm) 을가진음성신호를복 원하는알고리즘이다. 1. 이전단계에서출력된음성신호의 STFT 를계산한뒤진폭 을입력으로주어진 MSTFTM 으로대체한다. 2. 새로운 STFT 의진폭과입력 MSTFT 의진폭의 squared error 가최소가되도록원래신호를복원한다. 3. 1 과 2 를반복한다. 일반적인보코더는소스 - 필터모델을기반으로구성되어특 유의윙윙거리는소리혹은쉰소리가합성음에포함되고, 위상 을쓰지않는대신 F0 와 duration 정보가필요하다. 반면, 이알고 리즘은특정모델을가정하지않기때문에윙윙거리는소리가 합성음에포함되지않고, F0 와 duration 정보없이단순한반복 과정을통해위상을복원하여음성신호를출력하기때문에계 산량에있어서는일반적인보코더보다훨씬유리하지만, 음성 의명료도가떨어진다. 2.3. 훈련 Loss 로서디코더의멜스케일스펙트로그램의 L1 loss 와후처리 네트워크의선형스케일스펙트로그램의 L1 loss 의가중치합을 사용한다. 이때두 L1 loss 의가중치는같고, 선형스케일스펙트 로그램의 L1 loss 는 3,000 Hz 이하의값들에대해아래와같이가 중치를둬서사용한다. 이는두 L1 loss 의가중치가다를때, L1 loss 대신 L2 loss 를사용했을때, 혹은선형스케일스펙트로그 램의 L1 loss 에서 5,000 Hz 이하의값들에가중치를둘때보다 alignment 가더잘됨을실험적으로확인했다. _ _ (3) _ _ (4) =0.9, =0.99, = 인 Adam optimizer 를사용해최적화 를한다. 초기학습률 (learning rate) 은 0.002 로아래와같은 learning rate decay 를적용한다. 42 Choi, Yeunju et al. / Phonetics and Speech Sciences Vol.10 No.1 (2018) 39-48
(5) min (6) 3. 실험 3.1. 실험환경 본연구에서는단일여성화자한국어데이터베이스를사용해 end-to-end 한국어 TTS 시스템을구현한다. 데이터베이스는잡 음이거의없는사무실환경에서전문성우가발화한 4,392 개의 문장을 16 khz sampling rate 으로녹음한 16bit 음원들로이루어 져있다. Arik et al.(2017b) 이각음원에서의목소리시작타이밍 이다르면 Tacotron 이잘훈련되지않는다고밝힘에따라앞뒤 묵음을제거하여총 9.45 시간분량이며, 이는 Wang et al.(2017) 이 Tacotron 을훈련시킬때사용한데이터베이스양의 37% 에해 당하는적은양이다. 이중훈련데이터로는총 9.04 시간분량의 4,000 문장을사용하고, 검증데이터로 0.41 시간분량의 372 문장 을, 실험데이터로는나머지 20 문장을사용한다. Griffin-Lim 알 고리즘의반복횟수는 100 번으로설정하고, 이를통과해서나온 합성음은 0.8 초이상의침묵이나타나면그이후가모두제거되 어최종합성음으로출력된다. Baseline 으로는기존의통계적파라미터방식음성합성시스템 과의비교를위해가장대표적인예인 HTS 방식음성합성시스 템을사용한다. 데이터베이스는 end-to-end 시스템과동일한것 을사용하나, 앞뒤묵음과단어사이묵음도모델링하기때문에 앞뒤묵음을제거하지않고사용한다. 또한텍스트정규화를하 지않고, 미리입력텍스트에서문장부호는제거하고아라비아 숫자는한글로변환하여훈련한다. 보코더로는 STRAIGHT (Speech Transformation and Representation using Adaptive Interpolation and weighted spectrum) 를사용한다 (Kawahara, 1997). 이에따라 음성특징벡터로 44 차 mel-generalized cepstral coefficients(mgc) 와 1 차, 2 차미분값, 더불어 26 차 BAP(band aperiodicity) 와 F0 를 파라미터로사용한다. Tacotron 을기반으로구현한 end-to-end 한 국어 TTS 시스템의자세한하이퍼파라미터들은 < 표 1> 에나타 나있다. 실험을통해최적의값을찾았으며, Arik et al.(2017b) 이 밝혔듯이모델이하이퍼파라미터와데이터에예민하기때문에 제시한튜닝이완벽하지않을수있다. 흥미로운점은같은모델 을 LJ Speech 데이터셋을이용하여훈련할때는프레임길이와 오버랩길이가각각 50 ms, 12.5 ms 일때와 100 ms, 25 ms 일때모 두 alignment 모델이수렴했는데, 한국어데이터에대해서는 100 ms, 25 ms 일때만 alignment 모델이수렴하였다. 요인으로는언 어, 화자, 데이터의 sampling rate 차이등이가능하지만, 비교자 료가부족하여결론을내리기는어렵다. 또한 reduction factor 는 4 일때와 5 일때를비교했을때, 5 일때가일반적으로는청취성 능이더좋았으나, 문장에따른기복이더심하여평가할때는 4 를택하였다. 3.2. 주관적음질평가 표 2. 5- 스케일주관적음질평가결과 Table 2. 5-scale subjective evaluation results Model MOS DMOS HTS 3.96±0.52 3.86±0.53 Tacotron 2.98±1.02 3.25±0.92 HTS, HMM-based speech synthesis; DMOS, degradation mean opinion score; MOS, mean opinion score 20 에서 30 대까지의정상청력을가진남녀 11 명을대상으로 20 문장에대한합성음의 mean opinion score(mos) 평가와 degradation 표 1. End-to-end TTS 시스템하이퍼파리미터설정 Table 1. Detailed hyper-parameters of the end-to-end text-to-speech system Spectral 분석 Pre-emphasis: 0.97, 프레임길이 : 100 ms, 오버랩길이 : 25 ms, 윈도우종류 : Hann 사용한문자개수 80개 문자임베딩 128차 Conv1D bank: K=5, conv-k-64-relu Max pooling: stride=1, width=2 인코더 CBHG Conv1D projections: conv-3-128-relu conv-3-128-linear Highway network: 2 layers of FC-128-ReLU Bidirectional GRU: 128 cells 인코더 pre-net FC-128-ReLU Dropout(0.5) FC-128-ReLU Dropout(0.5) 디코더 pre-net FC-128-ReLU Dropout(0.5) FC-128-ReLU Dropout(0.5) 디코더 RNN 2-layer residual GRU(256 cells) Attention RNN 1-layer GRU(256 cells) Reduction factor (r) 4 후처리 highway network 2-layers of FC-256-ReLU 전처리에서제거한침묵기준 6 db 이하 합성음에서제거한침묵기준 -40 db 이하 CBHG, 1-D convolution bank + highway network + bidirectional gated recurrent unit; Conv1D, 1-D convolution; FC, fully-connected; conv-k-c-relu, 1-D convolution with width k and c output channels with ReLU activation; ( 길이 k의필터와 c개의출력채널을가지고, ReLU(rectified linear unit) 를비선형함수 로서사용하는 1차 convolution); GRU, gated recurrent unit; RNN, recurrent neural network; TTS, text-to-speech Choi, Yeunju et al. / Phonetics and Speech Sciences Vol.10 No.1 (2018) 39-48 43
mean opinion score(dmos) 평가를시행했다. MOS 평가는합성음의음질을 1-5점으로절대평가하는평가이며, DMOS 평가는합성음의음질을원본음원과비교하여 1-5점으로상대평가하는평가이다. 주관적음질평가결과는 < 표 2> 에나와있다. MOS와 DMOS 모두 HTS 방식합성음이 Tacotron 기반합성음보다높으나, 다음사항들을고려해야한다. HTS 방식 TTS 시스템은이미오래연구되어와서이제완성형에이르러있으며, 애초에적은양의훈련데이터로도훈련이잘되는것이목적인시스템이다. 반면 end-to-end TTS 시스템은이제연구되기시작했으며, 많은양의훈련데이터를필요로하는데보유한데이터양의한계로적은양의데이터를사용했다. 또한 DMOS와 MOS를비교해보면 HTS 방식합성음은 MOS 에비해 DMOS가 0.1점낮은반면, Tacotron 기반합성음은 MOS 에비해 DMOS가 0.27점이높았다. 이를통해억양은 Tacotron 기반합성음이 HTS 방식합성음보다원래화자의억양과더비슷하다는것을알수있다. 즉, 자연성은 Tacotron 기반합성음이 HTS 방식합성음보다높다. 적은양의훈련데이터를사용하더라도운율을학습하기위한 F0의경우의수는충분하므로, 딥러닝기반모델인경우에높은자연성을나타내는것으로분석할수있다. 음절의경계가 HTS 방식합성음은부자연스러울때가있고, Tacotron 기반합성음은명확하지않을때가있는데, 이또한 Tacotron 기반합성음의명료도를낮추고, HTS 방식합성음의자연성을낮추는요인으로추측된다. 소스- 필터모델기반의보코더로인한특유의윙윙거리는소리와쉰소리는 Tacotron 기반합성음에서는나타나지않는다. 3.3. 분석 TTS 시스템의경우, 아직까지도 MOS 평가를대신할만한객관적음질평가가존재하지않으며, 따라서다양한실험조건에따른비교결과를객관적으로나타내는데어려움이있다. 그러나다행히도 attention 메커니즘기반의모델에서는 alignment 그래프를통해그모델의성능을시각적으로확인할수있다. Alignment 모델이디코더가제대로된입력을기반으로디코딩을하도록인도하는역할뿐아니라, 화자의특성을담아낸 duration 모델의역할까지하기때문이다. 만약 alignment 가끊기거나반복되면그대로합성음이출력되기때문에심각한문제를초래하게된다. Alignment 그래프의가로축은입력문자열의몇번째문자인지를나타내고, 세로축은디코더의 time step을나타낸다. Alignment 가묵음이아닌구간에서잘이어지면서선명하고값이클수록모델의성능이좋다고할수있다. 3.3.1. 훈련데이터의구성이 alignment 에미치는영향 Alignment 에영향을미치는첫번째요인은발음자체였다. 자음인데도모음과같이울림소리인 ㅁ 받침과 ㄹ 은합성음에서명확하게발음이되지않았고, 문장안에서비슷한발음이연달아나오는경우, 앞선발음이반복되거나중간이끊기기도했다. 또한훈련데이터의길이나문장의형식등의구성이균형잡혀있지않기때문에, 훈련데이터내의비중이적은문장의경우 alignment 의일반화가잘이루어지지않는문제점이존재했다. 아주짧거나아주긴문장의비율이적기때문에, 짧거나긴문장을합성할때는 alignment 중일부가반복되거나끊기는현상이나타났다. 또한문장부호를포함시킨채로훈련을시키는상황에서훈련데이터의대부분의문장이마침표로끝나기때 그림 3. 문장부호가포함된문장의 alignment 예. 첫째, 도망치는거다. Figure 3. An example of a sate containing punctuation. 첫째, 도망치는거다. 그림 4. 문장부호가포함되지않은문장의 alignment 예. 첫째도망치는거다. Figure 4. An example of a sate without punctuation. 첫째도망치는거다. 44 Choi, Yeunju et al. / Phonetics and Speech Sciences Vol.10 No.1 (2018) 39-48
문에마침표로끝나지않는문장은끝부분의 alignment 의값이 보다작거나반복되는현상이나타났다. 비슷한현상으로, - 다. 로끝나지않는문장은평균적으로 - 다. 로끝나는문장에비해 alignment 값이작게나타나는경향이있었다. < 그림 3> 과 < 그림 4> 는각각문장부호가포함된문장 첫째, 도망치는거다. 와문장부호가포함되지않은문장 첫째도망 치는거다 를합성했을때의 alignment 를나타낸다. < 그림 3> 에 서가로축 22 번째가., 23 번째가 EOS 이다. 문장중간의쉼표에 서마침표에서와같이묵음이나타나기때문에마침표에집중 하는 Decoder timestep 이두번나타나는것을확인할수있다. < 그림 4> 에서는가로축 20 번째가 ㅏ, 21 번째가 EOS 이다. ㅏ 에집중해야하는 Decoder timestep 에서 ㅏ 에집중하지못하고 EOS 에집중함으로인해끝부분이선명하지않게합성되었다. 이후의결과들도모두 alignment 및청취성능을기준으로분석 하였다. 3.3.2. 훈련데이터의양에따른인코더설정 실험결과를통해, 훈련데이터의양이적을수록인코더 CBHG 의 K, 즉모델링하는 n-gram 의최대 n 이작아야한다는것을발 견했다. 훈련데이터양이많을때보다적을때학습이가능한 대 n 의범위도좁아졌다. 이러한현상은언어에상관없이나타 났고, 훈련데이터의양이적을수록문맥의양이기하급수적으 로줄어들기때문이라고추측할수있다. 표 3 과 4 는입력문자, 출력언어쌍이각각알파벳, 영어일때와한글, 한국어일때 DB 양에따른최적의인코더 CBHG 의 K 를보여준다. 표 3. DB 양에따른최적의인코더 CBHG 의 K ( 문자로알파벳을사용한영어음성합성 ) Table 3. The best value of K from encoder CBHG (English TTS using alphabets) DB 양 ( 시간 ) 11.62 21.04 인코더 CBHG K 5 16 CBHG, 1-D convolution bank + highway network + bidirectional gated recurrent unit; TTS, text-to-speech 표 4. DB 양에따른최적의인코더 CBHG 의 K ( 문자로한글을사용한한국어음성합성 ) Table 4. The best value of K from encoder CBHG (Korean TTS using Hangeuls) DB 양 ( 시간 ) 6.31 9.04 인코더 CBHG K 3 5 CBHG, 1-D convolution bank + highway network + bidirectional gated recurrent unit; TTS, text-to-speech 3.3.3. 합성음의언어와사용하는문자에따른후처리네트워크 설정 또한한글을문자로사용한한국어 TTS 시스템의경우, 후처리 네트워크로서 highway 네트워크를사용해야 CBHG 를사용했을 때와달리 alignment 가선명한직선형태로수렴하며큰값을가 졌고, 실질적인합성음출력이가능했다. 같은훈련데이터를사 용한알파벳을문자로사용한한국어 TTS 시스템의경우에는 CBHG와 highway 네트워크를후처리네트워크로이용했을때합성음끼리의청취성능에는큰차이가없었다. 그러나 alignment 는 highway 네트워크를사용할때가조금더수렴이잘되었다. 알파벳을문자로사용한영어 TTS 시스템의경우, CBHG와 highway 네트워크모두사용가능했으나, CBHG를사용하는것이더좋은청취성능을보였다. 청취성능외에도검증데이터의 loss 및멜스케일 loss와선형스케일 loss의차이를통해성능차이를확인할수있었다. 이를분석해보면우선, 같은훈련데이터로동일태스크를수행할때사용하는문자가알파벳일때보다한글일때후처리네트워크로인한차이가큰것으로보아, 사용하는문자의영향을받는다는것을알수있다. 영어 TTS 시스템의경우와는훈련데이터의양, 화자, 합성하는언어가모두다르기때문에하나의결론을유추하기는어렵다. 따라서동일한영어훈련데이터를양만기존데이터의절반으로줄여서실험을수행했고, 이를통해 CBHG보다 highway 네트워크가후처리네트워크로서적합하다는결과를얻었다. 결론적으로합성하는언어와사용하는문자그리고훈련데이터양에따라문맥의양이결정되고, 문맥의양이많을때와는달리그양이적을수록후처리네트워크가복잡하면 alignment 모델을훈련시키기어렵다는것으로분석할수있다. 3.3.4. 구조에따른성능분석 CBHG에서의 residual connection 과 max pooling 이모델의수렴및일반화를돕는다는것을실험적으로확인하였다. 마찬가지로실험을통해확인한결과, CBHG의 highway 네트워크의층수는 4개혹은 1개보다 2개가모델의수렴및일반화를도왔다. 이외에도 CBHG의 1차 convolution bank의채널수는 128개보다 64개가, 인코더및디코더의 pre-net 의첫번째층의노드개수는 256 개보다 128개가, 문자임베딩의차원은 256차보다 128차가, 디코더의 RNN 종류는 Hochreiter & Schmidhuber(1997) 의 LSTM이나 Collins et al.(2017) 의 UGRNN(Update Gate Recurrent Neural Network) 보다는 GRU가도움이되었다. 3.3.5. 디코더의표적에따른성능분석각각 40, 80, 160 밴드의멜스펙트로그램을디코더의표적으로설정하여비교한결과, 밴드개수가 40인스펙트로그램보다 80 혹은 160인스펙트로그램일때 alignment 가더잘되고합성음의청취성능도좋았다. 밴드개수가 80일때와 160일때는큰차이가없어 80 밴드의멜스케일스펙트로그램을디코더의표적으로설정했다. 또한 Wang et al.(2017) 이 Tacotron 에서의후처리네트워크의효능을보일때제안한대로멜스케일과선형스케일스펙트로그램의 loss를모두훈련에사용한모델과디코더의표적으로바로선형스케일스펙트로그램을설정하면서후처리네트워크를제외한모델을비교했는데, 전자의성능이높은이유가멜스케일 loss도훈련에사용해서인지, 단순히모델이더깊어져 Choi, Yeunju et al. / Phonetics and Speech Sciences Vol.10 No.1 (2018) 39-48 45
서인지는명확하지않다. 따라서후처리네트워크는동일하게사용하되, 멜스케일 loss를제외하고선형스케일 loss만훈련에사용한모델과멜스케일과선형스케일 loss를모두훈련에사용한모델을비교해봤다. 그결과, 제안한대로멜스케일 loss도훈련에사용하는것이더성능이좋았다. 나아가멜스케일스펙트로그램이그자체로훈련에도움이되는것인지, 차원이작아서훈련이잘되는것인지를확인하기위해후처리네트워크를제외하고, 멜스케일스펙트로그램과선형스케일스펙트로그램을 concatenate 한것을디코더의표적으로설정하여실험을해봤다. 제안된모델과비교했을때 alignment 의수렴이대체로비슷하고짧은문장의경우는대체로끝이반복되는현상이없어더잘학습되었다. 디코더의표적이선형스케일스펙트로그램보다도차원이크고전체모델의깊이가얕아진것을감안하면멜스케일스펙트로그램이성능개선에확실히기여한다고할수있다. 반면, 목소리가실제보다조금더높고음성의명료도가낮았다. 이는스펙트로그램에서중간주파수범위가잘학습되지않아발생한것으로예상된다. 스펙트로그램을구할때사용한프레임길이와오버랩길이는각각 100 ms, 25 ms로, reduction factor는 4 혹은 5로최적의하이퍼파라미터를찾아설정했다. 이러한실험들을토대로효율적으로음성의정보를나타내는표적을찾는것이중요함을확인했다. 4. 결론본연구는 Tacotron 에기반한 end-to-end 한국어 TTS 시스템을구현하고분석하였다. End-to-end 합성방식은기존의방식과달리텍스트분석부, 음향모델링부, 음성합성부에대해전문적인지식없이도구현이가능하기때문에, 사람의경험을토대로왜곡할수있다는문제가없고진입장벽이낮으며, 각부분에서의 loss가쌓이지않아효율적인훈련이가능하다. 더불어텍스트분석부를사용하지않기때문에, 다양한언어음성합성에적용이용이하며, 평소에거의쓰지않는낯선문자의조합도모델링이가능하다. 본연구에서는구글이사용한훈련데이터의 37% 분량의적은양의훈련데이터를사용해서 MOS 2.98, DMOS 3.25의자연성이높은한국어합성음을출력했다. 이러한과정에서기여한점은적은양의훈련데이터를사용할때는인코더 CBHG에서모델링하는 n-gram의최대 n도작아야한다는사실을발견했다는점과후처리네트워크로 highway 네트워크를사용하여사용한훈련데이터에대해한국어 TTS 시스템을가능하게했다는점이다. 마지막으로, 모델이수렴및일반화를할수있도록적절한디코더의표적을설정하는것이중요함을확인했다. 한편, end-to-end 시스템은훈련데이터의양과구성에영향을많이받기에훈련데이터에비해너무짧거나긴문장을합성할때를비롯한몇가지경우에는 alignment 에있어어려움을겪었다. 따라서 alignment 모델의개선이가장근본적인향후연구방향이고, 다음과같은계획들이있다. 우선더많은양의훈련데 이터를수집하여사용해야하며, Collins et al.(2017) 이밝힌바에따르면 RNN 구조자체의성능은어느정도수렴하므로짧은훈련데이터후에긴훈련데이터를학습시키는등의훈련방식을다양하게적용해보는것이효과적일것이다 (Bengio et al., 2009). 또한 Deep Voice 3에서와같이디코더 time step이커질때디코더가집중하는인코더 time step이작아지지않도록 alignment 를훈련시키는 monotonic attention 메커니즘을현재의 attention 메커니즘대신사용해볼수있다 (Raffel et al., 2017). 한편, 다중화자의임베딩값을활용하면하나의모델로여러화자의음성을합성할수있으며, 여러화자의데이터를통해각화자의 alignment 정보를배우는데에도도움이된다. 나아가한화자의 alignment 정보를다른화자의 alignment 대신적용하면원하는대로억양등화자의발화특성을바꾸는것도가능하다. 화자임베딩처럼감정임베딩값을활용하면하나의시스템으로다양한감정을표현하도록음성을합성할수도있다. 이외에도음성합성에사용한 Griffin-Lim 알고리즘으로인해합성음의명료도가낮았고, Ping et al.(2017) 과 Shen et al.(2017) 의결과에서알수있듯이이를 WaveNet 으로대체하면음질을개선할것으로예상되지만, 훈련시간이급격하게늘어날것이므로한정된자원으로할수있는다른방법을찾는것이필요하다. 또한텍스트정규화과정중아라비아숫자를한글로바꾸는알고리즘의정확도가 97.2% 였고, 이를개선하면역시 alignment 모델의수렴에도움이될것으로예상된다. 참고문헌 Arik, S., Chrzanowski, M., Coates, A., Diamos, G., Gibiansky, A., Kang, Y., Li, X., Miller, J., Ng, A., Raiman, J., Sengupta, S., & Shoeybi, M. (2017a). Deep Voice: Real-time neural text-to-speech. Proceedings of the 34 th International Conference on Machine Learning (pp. 195-204). Sydney, AU. 6-11 August, 2017. Arik, S., Diamos, G., Gibiansky, A., Miller, J., Peng, K., Ping, W., Raiman, J., & Zhou, Y. (2017b). Deep Voice 2: Multi-speaker neural text-to-speech. Advances in Neural Information Processing Systems 30 (pp. 2966-2974). Long Beach, CA. 4-9 December, 2017. Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. Retrieved from http://arxiv.org/abs/1409.0473 [Computing Research Repository] on January 9, 2018. Bengio, Y., Louradour, J., Collobert, R., & Weston, J. (2009). Curriculum learning. Proceedings of the 26 th Annual International Conference on Machine Learning (pp. 41-48). 14-18 June, 2009. Cho, K., Van Mrriёnboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. Retrieved from http://arxiv.org/abs/1406.1078 [Computing 46 Choi, Yeunju et al. / Phonetics and Speech Sciences Vol.10 No.1 (2018) 39-48
Research Repository] on January 9, 2018. Chung, J., Gulçehre, C., Cho, K., & Bengio, Y. (2014). Empirical evaluation of gated recurrent neural networks on sequence modeling. Retrieved from http://arxiv.org/abs/1412.3555 [Computing Research Repository] on January 9, 2018. Collins, J., Sohl-Dickstein, J., & Sussillo, D. (2017). Capacity and trainability in recurrent neural networks. Proceedings of the 5th International Conference on Learning Representations. Retrieved from https://openreview.net/forum?id=bydarw9ex on January 9, 2018. Griffin, D., & Lim, J. (1984). Signal estimation from modified short-time fourier transform. IEEE Transactions on Acoustics, Speech, and Signal Processing, 32(2), 236-243. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 770-778). 26 June-1 July, 2016. Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780. Hunt, A. J., & Black, A. W. (1996). Unit selection in a concatenative speech synthesis system using a large speech database. Proceedings of the 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing (pp. 373-376). 7-10 May, 1996. Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. Proceedings of the 32 nd International Conference on Machine Learning (pp. 448-456). 2 Mar, 2015. Kawahara, H. (1997). Speech representation and transformation using adaptive interpolation of weighted spectrum: Vocoder revisited. Proceedings of the 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing (pp. 1303-1306). 21-24 April, 1997. Lee, J., Cho, K., & Hoffman, T. (2016). Fully character-level neural machine translation without explicit segmentation. Retrieved from http://arxiv.org/abs/1610.03017 [Computing Research Repository] on January 9, 2018. Morise, M., Yokomori, F., & Ozawa, K. (2016). WORLD: A vocoder-based high-quality speech synthesis system for real-time applications. IEICE Transactions on Information and Systems, 99(7), 1877-1884. Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., & Kavukcuoglu, K. (2016). WaveNet: A generative model for raw audio. Retrieved from http://arxiv.org/abs/1609.03499 [Computing Research Repository] on January 9, 2018. Ping, W., Peng, K., Gibiansky, A., Arik, S., Kannan, A., Narang, S., Raiman, J., & Miller, J. (2017). Deep voice 3: Scaling text-to-speech with convolutional sequence learning. Retrieved from http://arxiv.org/abs/1710.07654 [Computing Research Repository] on January 9, 2018. Rabiner, L., & Schafer, R. (2011). Theory and applications of digital speech processing. New Jersey: Pearson. Raffel, C., Luong, M.-T., Liu, P., Weiss, R., & Eck, D. (2017). Online and linear-time attention by enforcing monotonic alignments. Proceedings of the 34 th International Conference on Machine Learning (pp. 2837-2846). 6-11 August, 2017. Shen, J., Pang, R., Weiss, R., Schuster, M., Jaitly, N., Yang, Z., Chen, Z., Zhang, Y., Wang, Y., Skerry-Ryan, R., Saurous, R., Agiomyrgiannakis, Y., & Wu, Y. (2017). Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions. Retrieved from http://arxiv.org/abs/1712.05884 [Computing Research Repository] on March 1, 2018. Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: A simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 15(1), 1929-1958. Srivastava, R., Greef, K., & Schmidhuber, J. (2015). Highway networks. Retrieved from http://arxiv.org/abs/1505.00387 [Computing Research Repository] on January 9, 2018. Sutskever, I., Vinyals, O., & Le, Q. (2014). Sequence to sequence learning with neural networks. Advances in Neural Information Processing Systems 27 (pp. 3104-3112). 8-13 December, 2014. Tokuda, K., Nankaku, Y., Toda, T., Zen, H., Yamagishi, J., & Oura, K. (2013). Speech synthesis based on hidden markov models. Proceedings of IEEE, 101(5), 1234-1252. Vinyals, O., Kaiser, Ł., Koo, T., Petrov, S., Sutskever, I., & Hinton, G. (2015). Grammar as a foreign language. Advances in Neural Information Processing Systems 28 (pp. 2773-2781). 7-12 December, 2015. Wang, Y., Skerry-Ryan, R., Stanton, D., Wu, Y., Weiss, R., Jaitly, N., Yang, Z., Xiao, Y., Chen, Z., Bengio, S., Le, Q., Agiomyrgiannakis, Y., Clark, R., & Saurous, R. (2017). Tacotron: Towards end-to-end speech synthesis. Retrieved from http://arxiv.org/abs/1703.10135 [Computing Research Repository] on January 9, 2018. Wu, Z., Watts, O., & King, S. (2016). Merlin: An open source neural network speech synthesis system. Proceedings of the 9 th ISCA Speech Synthesis Workshop (pp. 218-223). Sunnyvale, CA. 13-15 September, 2016. Choi, Yeunju et al. / Phonetics and Speech Sciences Vol.10 No.1 (2018) 39-48 47
최연주 (Choi, Yeunju) 한국과학기술원전기및전자공학부대전광역시유성구대학로 291 Tel: 042-350-7617 Email: wkadldppdy@kaist.ac.kr 관심분야 : 음성합성현재전기및전자공학부박사과정재학중 정영문 (Jung, Youngmoon) 한국과학기술원전기및전자공학부대전광역시유성구대학로 291 Tel: 042-350-7617 Email: dudans@kaist.ac.kr 관심분야 : 음성검출현재전기및전자공학부박사과정재학중 김영관 (Kim, Younggwan) 한국과학기술원전기및전자공학부대전광역시유성구대학로 291 Tel: 042-350-7617 Email: cleanthink@kaist.ac.kr 관심분야 : 음성인식, 화자적응현재전기및전자공학부박사과정재학중 서영주 (Suh, Youngjoo) 한국과학기술원전기및전자공학부대전광역시유성구대학로 291 Tel: 042-350-7517 Fax: 042-350-7619 Email: yjsuh@kaist.ac.kr 관심분야 : 음성합성, 음성신호처리 2006~ 현재전기및전자공학부연구교수 김회린 (Kim, Hoirin) 교신저자한국과학기술원전기및전자공학부대전광역시유성구대학로 291 Tel: 042-350-7417 Fax: 042-350-7619 Email: hoirkim@kaist.ac.kr 관심분야 : 음성인식, 화자인식, 패턴인식 2001~ 현재전기및전자공학부교수 48 Choi, Yeunju et al. / Phonetics and Speech Sciences Vol.10 No.1 (2018) 39-48