1

Similar documents
Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

09권오설_ok.hwp

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

PowerPoint 프레젠테이션

실험 5

2002년 2학기 자료구조

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

DIY 챗봇 - LangCon

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

À±½Â¿í Ãâ·Â

DBPIA-NURIMEDIA

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

제 3강 역함수의 미분과 로피탈의 정리

슬라이드 1

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

OCW_C언어 기초

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

자연언어처리

Microsoft PowerPoint - 26.pptx

Sequences with Low Correlation

adfasdfasfdasfasfadf

exp

김기남_ATDC2016_160620_[키노트].key

제5장 형태소분석

인문사회과학기술융합학회

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

C 언어 강의노트

Microsoft Word - PLC제어응용-2차시.doc

국어 순화의 역사와 전망


프로그래밍개론및실습 2015 년 2 학기프로그래밍개론및실습과목으로본내용은강의교재인생능출판사, 두근두근 C 언어수업, 천인국지음을발췌수정하였음

¼º¿øÁø Ãâ·Â-1

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

Microsoft PowerPoint Relations.pptx

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

(JBE Vol. 20, No. 6, November 2015) (Regular Paper) 20 6, (JBE Vol. 20, No. 6, November 2015) ISSN

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

Analyses the Contents of Points per a Game and the Difference among Weight Categories after the Revision of Greco-Roman Style Wrestling Rules Han-bong

Microsoft PowerPoint - chap06-1Array.ppt

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

Curriculum Vitae 2 Sangkeun Jung, Cheongjae Lee. Gary Geunbae Lee. Using utterance and semantic level confidence for interactive spoken dialog clarifi

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

PowerPoint Presentation

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx


3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

Observational Determinism for Concurrent Program Security

step 1-1

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

에듀데이터_자료집_완성본.hwp

14.531~539(08-037).fm

°í¼®ÁÖ Ãâ·Â

학습목차 2.1 다차원배열이란 차원배열의주소와값의참조

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)


RVC Robot Vaccum Cleaner

PowerPoint 프레젠테이션

09오충원(613~623)

DBPIA-NURIMEDIA

컴파일러

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다


THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

슬라이드 1

untitled

12È«±â¼±¿Ü339~370

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

DBPIA-NURIMEDIA

Microsoft PowerPoint - 11주차_Android_GoogleMap.ppt [호환 모드]

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

4


= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

<31325FB1E8B0E6BCBA2E687770>

PowerPoint Presentation

<C3D6C1BE2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D32C8A3292E687770>

Microsoft Word - SAS_Data Manipulate.docx

Visual Basic 반복문

<BFACBDC0B9AEC1A6C7AEC0CC5F F E687770>

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

<5B D B3E220C1A634B1C720C1A632C8A320B3EDB9AEC1F628C3D6C1BE292E687770>

DBPIA-NURIMEDIA

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

Microsoft Word - FunctionCall

04 Çмú_±â¼ú±â»ç

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

Transcription:

155 말소리와음성과학제 6 권제 3 호 (2014.09.30) ISSN 2005-8063, pp. 155~164 www.speechsciences.or.kr http://dx.doi.org/10.13064/ksss.2014.6.3.155 비교사분할및병합으로구한의사형태소음성인식단위의성능 Performance of Pseudomorpheme-Based Speech Recognition Units Obtained by Unsupervised Segmentation and Merging 방정욱 1) 권오욱 2) Bang, Jeong-UkKwon, Oh-Wook ABSTRACT This paper proposes a new method to determine the recognition units for large vocabulary continuous speech recognition (LVCSR) in Korean by applying unsupervised segmentation and merging. In the proposed method, a text sentence is segmented into morphemes and position information is added to morphemes. Then submorpheme units are obtained by splitting the morpheme units through the maximization of posterior probability terms. The posterior probability terms are computed from the morpheme frequency distribution, the morpheme length distribution, and the morpheme frequency-of-frequency distribution. Finally, the recognition units are obtained by sequentially merging the submorpheme pair with the highest frequency. Computer experiments are conducted using a Korean LVCSR with a 100k word vocabulary and a trigram language model obtained by a 300 million eojeol (word phrase) corpus. The proposed method is shown to reduce the out-of-vocabulary rate to 1.8% and reduce the syllable error rate relatively by 14.0%. Keywords: Pseudomorpheme, Korean LVCSR 1. 서론 한국어대어휘연속음성인식 (large vocabulary continuous speech recognition; LVCSR) 을위한인식단위로는음소, 음절, 형태소, 어절이가능하다 [1][2][3]. 음소단위인식기의경우 어휘개수는음소개수와같으므로인식과정은단순하나, 인 식단위의평균지속시간이짧고, 음소간의언어모델이적용되 므로인식률이저하된다. 어절단위인식기의경우말뭉치의 양이제한되므로강인한언어모델은구하기가어렵지만, 인식 단위의평균지속시간이길어지므로탐색기에서넓은범위의 문맥을고려할수있다. 그러나모든종류의어절을인식어 휘에넣어야하므로탐색공간이증가하고, 어휘외 1) 충북대학교, isaac@cbnu.ac.kr 2) 충북대학교, owkwon@cbnu.ac.kr, 교신저자이논문은 2012 년도충북대학교학술연구지원사업의연구비지원에의하여연구되었음. 접수일자 : 2014 년 7 월 29 일수정일자 : 2014 년 8 월 26 일게재결정 : 2014 년 9 월 10 일 (out-of-vocabulary; OOV) 단어가증가하므로대어휘연속음성인식기의인식단위로는적합하지않다. 형태소단위는음절단위보다평균지속시간이길면서어절단위처럼문맥을고려할수있다. 그러나,, 이 등과같은단음소와대부분의의존명사또는접미사가단음절로존재할수있으며, 이러한형태소는매우짧은시간동안에발성되기때문에이를인식하기에는많은어려움이있다. 한국어텍스트로부터인식단위를구하는방법은형태소분할과비교사 (unsupervised) 분할방법이있다. 형태소분할방법 [1][2][3] 은형태소분석기를이용하여한국어문장을형태소단위로분할하고, 빈도가높은형태소를병합하여인식단위로사용한다. 하지만, 고유명사또는신조어와같은새로운단어가생길때마다형태소사전목록에추가해야하는불편함이있다. 이와는대조적으로비교사분할방법은미리정의된규칙을따르지않고단어의빈도나길이정보를이용하여새로운단위를만든다 [4]. 이경우언어학적정보를필요로하지않아여러언어에서공통적으로사용될수있지만, 경우에따라적절한파라미터설정이필요하며, 많은양의말뭉치를필요로

156 말소리와음성과학제 6 권제 3 호 (2014) 한다. 본논문에서는형태소분할방법을이용한인식단위에서고유명사또는형태소분석어휘부족에서기인하는 OOV 단어를감소시키기위하여, 1단계에서는비교사분할방법을적용하여기존의형태소인식단위를더작은부형태소 (submorpheme) 단위로분할하고, 2단계에서한어절범위내에속하는단위중에서발생빈도가높은쌍을병합하여의사형태소인식단위를생성하는방법을제안한다. 제안한방법은복잡도 (perplexity; PP) 를크게증가시키지않으면서도인식단위의평균지속시간을증가시킴으로써오류율을감소하는효과를갖는다. 본논문의구성은다음과같다. 2장에서는 LVCSR 의인식단위를구하기위한기존의형태소분할방법과비교사분할및병합방법을소개하고, 3장에서는본연구에서제안한형태소분할, 비교사분할, 병합과정을결합한방법을설명하고, 4장에서는인식단위실험결과를보여주고, 5장에서는음성인식실험결과를보여주고, 6장에서결론을맺는다. 2. 기존방법 2.1 형태소분할방법형태소는음성언어에서의미를가지는가장작은요소이다 [5]. 형태소단위는 < 그림 1> 과같이형태소분석기를이용하여생성된다. 먼저전처리를통해문장부호나특수기호가제거된어절단위말뭉치를미리정의된형태소사전과형태소확률모델을사용하여문법형태소를분리하고, 체언및용언분석, 단일형태소분석을한다. 마지막으로불규칙사전을참고하여최종적인형태소단위를생성한다 [5]. 발음열의변화가생길수있기때문에, 음성인식에사용되기가어렵다. 따라서일반형태소분석기를수정한의사형태소 (pseudomorpheme) [1] 분석기를이용하여얻어지는발음이유지되는의사형태소단위가주로사용된다. 하지만, 의사형태소를그대로음성인식에사용하는경우단음소와단음절로이루어진의사형태소에의하여인식률저하가발생하는데, 이를개선하고자자주발생하는의사형태소쌍을병합하여인식단위로사용한다. 이렇게병합된의사형태소단위는평균지속시간이증가되어인식률향상에기여한다 [3]. 이후로는의사형태소를편의상 형태소 로부르기로하며, 혼동이발생할수있는부분에서는구분하여사용하도록한다. 2.2. 비교사분할및병합방법비교사분할단위의경우언어학적정보가사용되지않고단어의빈도나길이분포를이용하여새로운단위를생성한다. 비교사분할방법중하나인 Morfessor [6] 는어절단위의입력에서언어학적정보를사용하지않고형태소단위와유사한결과생성을목적으로하는알고리듬이며, word piece model [7] 은음절단위의빈도정보를이용하여병합하여확장하는알고리듬이다. 2.2.1. Morfessor Morfessor 는문맥독립 (context-independent) 인 Morfessor Baseline 과문맥종속 (context-dependent) 인 Categories-ML, Categories-MAP 로분류된다 [8]. 본논문에서는 3가지버전중에서한국어와비슷한형태론적특징을가진핀란드어에서가장높은인식성능을가지는 Morfessor Baseline[8] 을선정하고이를설명한다. Morfessor 는단어의사후확률 (posterior probability) 을최대화하는단위경계를재귀적으로찾아분할하는알고리듬이다. 분할에사용되는통계적인정보로는단어빈도 (word frequency), 문자빈도, 단어길이분포, 단어빈도의빈도 3) (frequency of frequency; ) 이다. 사후확률은수식 (1), (2), (3) 과같이정의된다 [9]. (1) 그림 1. 한국어형태소분석기의구조 Figure 1. Architecture of a Korean morphological analyzer 한국어형태소분석에서가장해결하기어려운부분이복 합어와미등록어 ( 형태소사전에등록되지않은형태소 ) 처리 이다. 이외의어절은규칙에따라처리할수있지만, 미등록 어와복합어의경우명확하게인식할수있는방법이없다. 때문에이러한복합어나미등록어를얼마나잘처리하느냐가 형태소분석기의성능에중요한평가요소가된다 [5]. 일반적인형태소분석기의결과는형태소분할과정에서 (2) argmax argmax (3) 3) 단어 가 번나타났을때, 단어빈도는 로나타내며, 말뭉치에서 번나타난단어의개수를 라고할때, 단어 에대한빈도의빈도는 가된다. 지프 의법칙 (Zipf's law) 에의하면어떤단어의빈도 (frequency) 는근사적으로그단어의빈도순위 (rank) 에반비례하며 [20], 단어빈도 와빈도의빈도 에대하여 이성립함을의미한다 [21].

비교사분할및병합으로구한의사형태소음성인식단위의성능 157 여기서 은 개의부형태소타입 (type) 4) 으로이루어진 Morfessor 모델로서, 어휘의최적분할위치가표시된단어목록이다 [10]. 는말뭉치 (corpus) 로 개의어절토큰 (token) 5) 으로구성되고 -번째어절은 개의부형태소 ( ) 토큰으로분할된다. 는해당부형태소의빈도와말뭉치를구성하는전체부형태소의빈도비이며, 는해당 -번째부형태소의빈도의빈도를나타내고, 는부형태소 를구성하는문자들의빈도열을나타낸다 [10][11]. 분할에사용되는전체비용함수는수식 (3) 의사후확률에음의로그함수를취하여계산하며, 비용이최소화되는곳을최적의분할위치로표시하여모델에저장한다. Morfessor 는이를참조하여, 문장단위의테스트말뭉치 ( ) 에서띄어쓰기를제거한후수식 (4) 와같이비터비 (Viterbi) 알고리듬을이용하여최대확률을갖는경계 ( ) 를찾아서분할한다 [11]. argmax (4) 3.1. 형태소분할형태소분할단계에서는어절단위말뭉치를형태소단위로분할한다. 분할결과에는,,, 과같은단일자소로이루어진형태소가출력되며, 이러한단일자소는다른형태소에비해길이가짧아인식률에영향을줄것이라예상된다. 하지만, 예비실험에서앞서예시한 4개의단일자소들은다른자소들에비하여발화의길이가길어서단일자소를출력하지않는의사형태소단위말뭉치보다더나은인식결과를나타내었다. 이러한이유로형태소분할단계에서는단일자소의출력을허용하여분할하였다. < 그림 3(a)> 는형태소분석기에입력되는어절단위말뭉치의예시이며, < 그림 3(b)> 는단일자소의출력을허용한형태소단위말뭉치의예시이다. 2.2.2 Word piece model 어절단위에서시작하여세부적으로분할하는 Morfessor 와 달리, Word piece model (WPM) 은음절단위에서시작하여최 대빈도인토큰쌍을병합하여확장한다 [7]. WPM 을이용한 단위생성방법에서는먼저어절단위말뭉치를음절단위로 분할하고, 학습데이터로부터비교군 (reference group) 이될초 기언어모델을생성한후에, 미리정한토큰개수또는우도 (likelihood) 에도달할때까지빈도가가장높은토큰쌍을찾 아순차적으로병합하는과정을반복한다. 3. 제안방법 제안된인식단위결정방법은 < 그림 2> 와같이형태소분 할, 형태소내분할, 분할단위간병합의 3 단계로구성된다. 그림 2. 제안알고리듬블록도 Figure 2. Block diagram of the proposed algorithm 그림 3. (a) 어절단위문장 (b) 형태소단위문장 Figure 3. (a) Eojeol-unit sentences (b) morpheme-unit sentences 3.2 형태소내분할 3.2.1 형태소위치정보추가 형태소중에서 은, 는, 이, 가 와같은조사나 다, 고 와같은어미는어절의마지막에위치하며다른형태소에 비해빈도가높다. 따라서빈도를고려하는 Morfessor 와같은 비교사분할방법에서명사인 가족 또는 - 다고하는 의준 말인 다는 과같은형태소가빈도가높은 가, 다 에영향 을받아, 가 + 족 또는 다 + 는 으로분할되는결과를야기할 수있다. 본논문에서는이러한문제를고려하기위해 < 그림 4> 과같이입력어절앞뒤에밑줄문자 ( _ ) 를붙여명사 _ 가 족 의어절앞에나타나는 _ 가 와어절뒤에나타나는조사 가 _ 를구분하였다. 4) 타입 (type) 은토큰 (token) 을유형별로분류한것으로서, 토큰의다양성을나타낸다. 예를들어 a b c a b" 라는문장은 5 개의토큰과 3 개의타입으로이루어져있다. 5) 토큰의개수는중복발생한회수를모두합산하여계산된다. 그림 4. 형태소위치정보가고려된말뭉치 Figure 4. Corpus considering the morpheme position

158 말소리와음성과학제 6 권제 3 호 (2014) 3.2.2 부형태소분할 부형태소 (submorpheme) 분할에사용되는 Morfessor 는 < 그 림 5> 와같이어휘의빈도와어휘목록을이용하여비용함수 가최소가되는분할경계를찾아, 이후다른말뭉치에서도 적용할수있도록이를모델로생성한다. 단계 1 에서는입력된 빈도와단어목록을빈도순으로정렬하고초기비용을계산한 다. 이때, < 그림 5> 에서 1) 은말뭉치비용함수로수식 (1) 의 결과값을가지며, 2) 는어휘비용함수로수식 (2) 의, 3) 은 부형태소의빈도분포비용함수로수식 (2) 의, 4) 와 5) 는부형태소를구성하는문자들의빈 도분포비용함수 ( 수식 (6) 의 ) 와문자열의길이분포 비용함수 ( 수식 (6) 의 ) 로수식 (2) 의 을 구성한다. 이후, 목록에있는단어를선택한뒤, 분할가능한 모든위치에서두개의부형태소로분리하고, 분리된두부형 태소를목록에추가하여다시비용함수를계산한다. 단계 2 에 서는계산된새로운비용함수가기존의비용함수보다작거나 미리설정한값에도달할때까지재귀적으로반복수행한다. 마지막으로, 어휘의빈도와어휘로구성된목록을출력하는데, 이때분할경계에는 + 기호를삽입한다. 그림 5. Morfessor 모델생성블록도 Figure 5. Block diagram of Morfessor model creation 비용함수를통하여분할은가능하지만, 병합의기능은존재하 지않기때문이다. 본논문에서는이후부형태소간병합단 계에서자주나오는부형태소를고려하여병합할것이기때문 에문장단위가아닌어절단위에서모델을참조하여분할하 도록한다. 그림 6. Morfessor 의어절단위분할결과 Figure 6. Morfessor eojeol-unit segmentation results 형태소단위로모델을생성하였을경우앞서설명한바와 같이, 니다, 다 와같은자소가결합된형태소가 존재한다. 이러한상태에서한글로구성된말뭉치를로마자로 변환하지않고그대로입력으로넣을경우 입니다 가원하는 결과인 이 + 니다 가아닌 입 + 니 + 다 로출력이된다. 이는 입력어절 입니다 를자소단위인 이 + 니다, 입 + 니다, 입 + 다, 입니 + 다, 입니 +, 입니다 중에서사후 확률을최대로갖는것으로분할하는것이아니라, 음절단위 인 입 + 니다, 입니 + 다, 입니다 로분할하여사후확률이최 대인것으로분할하기때문이다. 이러한문제를해결하기위하 여이전단계에서생성한형태소단위를로마자로바꾼다. 이 때, 두개의로마자로표기 ("eo", "ae") 되는문자의경우단일 문자의로마자 ( U", "E") 로치환한다. 결과적으로, 입니다 의 경우 "ibnida" 로변환하여, 모델의 bnida" 와비교및분할이 가능하도록하며, 분할후한글로복원한다. Morfessor Baseline 모델생성을위한입력단위로영어의경우띄어쓰기단위인단어로이루어진다. 하지만, 한국어의경우에영어와마찬가지로띄어쓰기단위인어절로어휘목록을구성할경우 < 그림 6> 과같이거의모든어절이분할되지않는결과가나타난다. 이것은영어의경우말뭉치내에단어 ("go" 의 3인칭단수 goes ) 의원형 ("go") 이존재하지만, 한국어의경우대부분의어절이여러형태소의조합으로이루어져있기때문이다. < 그림 6> 의어절 만나 + 도 는예외적인경우로서형태소 만나 가말뭉치에독립적으로발생할수있어분할된것으로보인다. 이러한문제를고려하여 Morfessor 모델생성을위한입력어휘목록은한국어의경우형태소로이루어지도록설정하였다. Morfessor 는모델을참조하여띄어쓰기가제거된문장단위의말뭉치에서분할한다. 분할대상이띄어쓰기가제거된문장단위인이유는 우리, 나라 와같이자주연결되어나오는단어를 우리나라 로합치기위함이다. Morfessor 의경우 그림 7. (a) 형태소위치를고려하지않은 Morfessor 의형태소단위분할결과 (b) 형태소위치를고려한 Morfessor 의형태소단위분할결과 Figure 7. (a) Morfessor submorpheme unit without considering morpheme position segmentation (b) Morfessor submorpheme unit considering morpheme position segmentation

비교사분할및병합으로구한의사형태소음성인식단위의성능 159 < 그림 7(a)> 는형태소단위를 Morfessor 입력단위로사용한결과이며, < 그림 7(b)> 는형태소위치를고려한단위를 Morfessor 입력단위로사용한결과이다. 빈도가높은조사인 가 에의해 가족 이분할될것이라예상하였지만, 형태소의위치정보를추가하지않은경우에도명사 가족 은분할되지않는다. 이는명사 가족 이말뭉치내에서비교적많이존재하기때문으로보인다. 같은이유로 -다고하는 의준말인 다는 의경우비교적낮은빈도로존재하기때문에형태소위치를고려하지않은경우 다 + 는 으로분할되지만, 형태소위치를고려한경우분할되지않는다. 형태소단위에서비교사분할방법인 Morfessor 을사용하여더세부적으로분할할때, 기존의형태소단위보다출력단위의길이가짧아지며 OOV 단어가감소된다. 수식 (2) 는말뭉치의어휘 (lexicon) 비용함수로써빈도분포비용함수 와길이분포비용함수 으로구성되어있다. 빈도비용함수의경우부형태소의사용빈도에대한확률분포인빈도의빈도분포 를나타내며, 이는균일분포와지프의법칙 (Zipf's law) [9] 중에서원하는분포를설정하여비용함수를구한다. 지프의법칙을사용할경우, 빈도 1인부형태소타입개수와전체부형태소타입개수의비율인 hapax legomenon ()[9] 를이용한다. 수식 (5) 와 (6) 은지프의법칙을나타낸다 [9]. (5) 하기위해기존의길이분포비용함수에수식 (10) 과같이가중치 () 를적용하여기여도를높여, 기존의 Morfessor 분할결과보다더욱더세분화된분할결과를유도한다. log log log (10) 3.3. 부형태소간병합기존의형태소는앞의분할단계에서더작은단위로분할된다. 그결과, OOV 단어는줄어들지만평균발화길이또한줄어들어인식결과에영향을미치게된다. 이번단계에서는이러한문제점을보완하기위하여발생빈도가높은부형태소쌍을병합한다. 병합방법으로는형태소위치정보가고려되며, 부형태소를한글로변환하기전, 로마자로이루어진말뭉치를어절내에서두개씩연결하여목록을생성한다 ( 그림8(a)). 이후, 생성된목록에서빈도가높은부형태소쌍 1,000개, 2,000개, 3,000개를후보로하여말뭉치에적용한다 ( 그림8(b)). 실제실험에서는한글을로마자로변경후,,, 와같은이중모음과겹자음을 'G', 'C', 'W' 와같은독립된단일문자의로마자로치환하여자소간의병합이이루어지도록한다. log log (6) 길이분포비용함수의경우, 부형태소를구성하는각각의 문자 (character) 에대한빈도분포 와문자의길이에대 한확률분포 로구성되어있다. (7) 이때, -번째부형태소 의문자열길이 (length; ) 에대한확률분포 는지수확률분포와감마확률분포중에서 그림 8. (a) 어절내에서두개씩연결한쌍의목록 (b) 빈도순으로정렬한연결쌍의목록 Figure 8. (a) List of concatenated pairs within an eojeol (b) List of concatenated pairs sorted in the non-decreasing order 선택하여비용함수를구할수있다 [9]. 다. 감마함수와감마확률분포는수식 (8), (9) 와같이나타난 (8) (9) 적절한파라미터 와 를이용하여평균값 () 을설정할수있다. 본논문에서는이전단계에서의 OOV 단어감소를극대화 그림 9. 1,000 개의부형태소를병합한결과 Figure 9. Results after merging 1,000 submorphemes 실험결과를보면, 가장빈도가높은병합대상은 하 + 이 며, 다음으로 이 +, 이 + 다 로나타났다. 빈도가높은부형

160 말소리와음성과학제 6 권제 3 호 (2014) 태소쌍 1,000개를예제말뭉치에적용한결과 < 그림 9> 와같은결과가나타난다. 이전단계의실험결과인 < 그림 7> 의 (b) 와달리 들 + 은, 가지 + 고 등이병합된것을확인할수있다. 한편, WPM에의한분할방법에서는 < 그림 10> 과같이음절단위에서빈도를고려하여토큰쌍이연결 (concatenation) 된다 [7]. 이방법은어근과어미의연결로이루어진한국어에적용할경우자소를고려할수없다는문제점이발생한다. 이에반하여, 본논문에서제안한방법에서와같이개선된비용함수를사용하여생성된부형태소단위에서병합할경우에는자소를고려하여병합할수있게되어더나은인식결과를나타낼것으로보인다. 지의형태소빈도의빈도 () 분포이다. 여기서사용된 hapax legomenon 는빈도 1인형태소타입개수 111만개와전체형태소타입개수 270만개의비 (rate) 인 의값을사용하였다. 그림 10. WPM 기반병합예제 Figure 10. Example of WPM-based unit merging 4.1. 말뭉치 4. 인식단위실험결과 언어모델생성에사용된 3 억어절의한글말뭉치는초등학 교교과서 51 만어절, 고등학교교과서 7 만어절, 문학 300 만 어절, 비문학 350 만어절, 국어정보베이스말뭉치 1,000 만어 절, 방송뉴스 1,500 만어절, 날씨, 시사, 경제등여러가지분 야로구성된 1990 년도에서 1999 년사이에발간된신문기사 2.6 억어절을사용하였다. 실험에불필요한문장기호, 특수 문자는제거하였으며, 영어의경우한국어발음으로변경후 사용하였다. 그림 11. 지프의법칙및실제형태소빈도의빈도확률분포 Figure 11. Zipf's law and real probability distribution of frequency-of-frequency of morpheme 길이비용함수로수식 (8), (9) 의감마확률분포를사용하였 다. 형태소단위로분할후로마자로변경한상태에서의전체 길이빈도는 6 억개로, 각각의길이빈도를통해형태소자소 길이의평균값이 4.1 임을구할수있었다. < 그림 12> 는 와 를각각 4.4, 0.9 로설정할때의형태소길이감마분포이다. 감마확률분포실험을통해확인한결과수식 (2) 에구성된 비용함수들이수식 (1) 의비용함수에비해기여도가낮았다. 4.2. 빈도및길이비용함수 Morfessor 모델생성을위한입력단위는어절단위에서형태소단위로변경하여실험하였다. 형태소분석을위하여한국어음성인식플랫폼 Echos [12] 에포함된형태소분석기를사용하였으며, 이는약 10만형태소사전을가진다. 한국어의경우 Morfessor 모델을참조하여말뭉치를분할할때, 문장단위의말뭉치에서모델을통해분할한결과보다는어절단위로변경된말뭉치에서분할한결과에서더빠른분할이이루어졌으며, 어절범위를넘어선병합이일어나지않아더나은인식결과를얻을수있었다. 빈도비용함수로수식 (5), (6) 에나타난지프의법칙을사용하였다. 말뭉치에서 hapax legomenon 을구하여지프의법칙공식에적용한결과, 실제말뭉치의빈도확률과비슷한분포를가지는것을확인하였으며, < 그림 11> 은빈도 1에서 10까 그림 12. Gamma 분포와실제말뭉치의형태소길이분포 Figure 12. Gamma distribution and real distribution of morpheme length < 표 1> 은형태소단위말뭉치그리고길이분포비용함수의 가중치를변경시켜가면서분할한말뭉치의부형태소타입개 수이다. 어절단위말뭉치의경우전체 1,115 만개의어절타입 을가지고있으며, 형태소단위말뭉치의경우 270 만개의형 태소타입개수를가지고있었다. 이때, 생성된형태소타입 목록에서빈도 2 이상의형태소타입개수는 159 만개로, 나머

비교사분할및병합으로구한의사형태소음성인식단위의성능 161 지 111 만개의경우띄어쓰기오류, 외래어, 오탈자, 형태소분 석기의성능에따라처리되지않은고유명사등으로구성된 것으로보인다. 또한, 가중치가증가할수록부형태소타입개 수가줄어드는것으로보아더작은단위로분할되고있는것 을확인하였다. 표 1. 가중치변화에따른말뭉치부형태소개수 Table 1. Number of submorpheme entries with a varying weight 10 30 50 70 100 부형태소개수 420k 274k 223k 196k 172k 4.3. 부형태소병합개수 부형태소쌍의후보개수에따르는말뭉치평균길이분포 를확인해보면 < 표 2> 와같다. 병합을하지않을경우말뭉 치내평균음절길이는 2.48 로, 병합대상이많아질수록말뭉 치내평균음절길이는증가하며, 병합대상이많아질수록 증가속도는점차감소한다. 표 2. 병합부형태소개수별평균음절길이분포 Table 2. Average syllable length for different numbers of merged submorpheme 병합개수 0 1,000 2,000 3,000 평균음절길이 2.48 2.94 3.03 3.09 5.1. 음성데이터베이스 5. 음성인식실험결과 한국어연속음성인식데이터베이스로는 ETRI 에서개발한 음운균형문장 (phonetically balanced sentence; PBS) 데이터베이 스를사용하였다. 이데이터베이스는음성인식및합성등우 리말음성정보처리시스템의개발을위한다양한음소환경이 포함된대어휘낭독체음성으로구성되어있으며, 조용한사 무실환경에서녹음되었으며, 16 khz, 16 bit PCM 으로샘플링 되었다. 실험을위해텍스트독립및화자독립이되도록, 80 명의화자가 8,361 개의문장을총 18 시간동안발화한학습데 이터와 20 명의화자가 6,414 개의어절로이루어진 500 개의문 장을 1.5 시간동안발화한테스트데이터로나누어실험하였 다. 5.2. 실험환경 음성인식기에사용된특징벡터로는 1 차미분과 2 차미분이 포함된 39 차 mel-frequency cepstral coefficients (MFCC) 를사용 하였다. 음향모델로는 3 개의상태 (state) 로구성된 HMM 을사 용하였으며, 기본음소개수는 40 개이다. 음향모델을학습하 기위하여 Kaldi Script 중에서 WSJ/s1 [15] 을사용하였다. 모 노폰학습단계에서는가우시안혼합모델의초기가우시안 개수 300 개에서시작하여 1,000 개가될때까지가우시안분포 를분할하였으며, 트라이폰학습단계에서는모노폰모델로부 터시작하여전체가우시안개수가 10,000 개가되도록분할하 였고, 트라이폰문맥을고려하기위하여 2,000 개의잎사귀노 드 (leaf node) 로구성된최적화된결정트리 (decision tree) 를사 용하였다. 언어모델을구하기위하여 SRILM Toolkit [13] 을사용하였 으며, 10 만인식단위를갖는트라이그램을구하였다. 트라이 그램언어모델을적절한크기이하로유지하기위하여바이그 램과트라이그램에 cutoff 3 을적용하였다. 인식과정에서발생하는메모리부족문제를해결하기위 하여, 디코더로는 Kaldi BigLmDecoder [14] 를사용하였으며, 빔크기 (beam size) 는 13 으로설정했다. 또한, 음절단위오류율을구하기위하여, 의사형태소단위 로출력된인식결과를자소가존재하지않는한글문장으로 변경후, 다시음절단위로분리하여참조 (reference) 음절열과 의정렬을통하여얻은삽입 / 탈락 / 대치오류를합산하였다. 5.3. 실험결과 제안된인식단위의성능평가를위해복잡도 (perplexity; PP), 어휘외단어율 (OOV rate), 음절오류율 (syllable error rate; SER) 을비교하였다. 이때, 복잡도 (PP) 는테스트말뭉치에대 해구하였으며, 다음값으로계산된다 [13]. log (11) log 는언어모델 () 이주어질때테스트말뭉치 () 의 로그확률 (log-probability) 인 log 을나타내며, 은 테스트말뭉치의문장개수, 는인식단위 ( 어절 / 의사형태 소 / 부형태소 ) 의개수를나타낸다. 5.3.1. 어절단위인식 ( 실험 I) 어절단위인식실험의경우 10 만어절단위인식결과는 < 표 3> 에정리된바와같이 1,925 의복잡도와, 25.5% 의높은 어휘외단어율을나타내었다. 이를줄이기위해말뭉치내모 든어절을인식어휘에포함하도록변경하여, 1,200 만어절단 위인식결과어휘외단어율은 3.8% 로줄어들었지만, 복잡도 는 13,825 로크게증가하였다. 이와같은결과로인하여음절 오류율이높게나타날것이예측가능하며, 1,200 만어절단위 를사용하는경우메모리부족으로음성인식기를실행할수 없었기때문에더이상실험하지않았다.

162 말소리와음성과학제 6 권제 3 호 (2014) 5.3.2. Morfessor 분할단위인식 ( 실험 II) Morfessor 모델생성을위한입력단위는영어나핀린드어의경우단어의빈도와단어의목록으로입력된다. 같은방법으로어절단위를 Morfessor 에입력할경우, 10만어절단위인식결과에비해어휘외단어율은 18.3% 로줄어들지만, 복잡도는 3,039로높아졌다 (< 표 3> 실험 II 결과 ). 또한, 소량의말뭉치와비교하여확인해본결과, 말뭉치의크기가늘어날수록어휘외단어율감소효과는줄어들었으며, 수식 (1) 의말뭉치비용함수 의증가량에비하여수식 (2) 의모델비용함수 의증가량이비교적적게나타났다. 실험 I에서와같은이유로음성인식실험은하지않았다. 5.3.3. 형태소단위인식 ( 실험 III) 형태소단위인식기는본논문의인식단위성능평가를위한베이스라인이된다. 언어학적정보를사용하는형태소단위인식실험결과, 139의낮은복잡도를나타냈으며, 어휘외단어율또한 2.1% 으로기존의어절단위에비하여감소하였고, 22.1% 의음절오류율을가진다 (< 표 3> 실험 III 결과 ). 발생한어휘외단어는 디에이치엘, 팜프렛, 파운드 와같은외래어나, 도섭, 윤처사, 마영감 과같은형태소사전에존재하지않는고유명사였다. 5.3.4. 부형태소단위인식 ( 실험 IV, 실험 V) Morfessor 모델생성을위한입력단위로형태소단위를입력할경우, 분할된말뭉치에서,,, 과같은단일자소들이많이나타났으며, 빈도가높은조사들에의한무분별한분할로인식단위의평균지속시간이매우짧아졌다. 결과적으로어휘외단어율이 1.2% 감소하였으며, 음절오류율은 21.4% 로감소하였다 (< 표 3> 실험 IV 결과 ). 형태소위치정보를추가한단계에서는 21.0% 의음절오류율이나타났다 (< 표 3> 실험 V 결과 ). 이는위치정보를적용하지않았을때발생하던단일자소들이형태소위치정보를추가함으로써줄어들었으며, 빈도가높은조사에대한무분별한분할이억제되었기때문으로, 인식단위의평균지속시간은늘어나고어휘외단어율도형태소단위에비해줄어음절오류율이감소하였다. Morfessor 의비용함수에가중치를적용한결과형태소의위치정보를고려하며, 인식단위를더세분화되게분할할수있었다. 그결과, 복잡도가낮아지고, 어휘외단어율이줄어들며, 음절단위오류율이감소하였다. 계속해서가중치를증가시킨경우에는, 복잡도가줄어들었지만, 길이비용함수외에다른비용함수들이무시되어부형태소의길이에의존한분할이이루어졌으며, 음절오류율이증가하였다. < 표 4> 에서와같이길이분포비용함수에 을적용한결과, 음절오류율이상대적으로 8.6% (=(22.120.2)22.1 100) 감소되었다. 표 3. 단계별실험의음성인식결과 Table 3. Speech recognition results in the step-by-step experiments PP OOV rate (%) SER (%) 실험 I 1,925 25.5 - 실험 II 3,039 18.3 - 실험 III 139 2.1 22.1 실험 IV 158 0.9 21.4 실험 V 162 1.2 21.0 표 4. 가중치변화에따른인식결과 Table 4. Recognition results with a varying weight 10 30 50 70 100 PP 162 164 160 155 154 OOV rate (%) 0.9 0.6 0.3 0.1 0.0 SER (%) 20.7 20.4 20.2 20.3 20.4 5.3.5. 병합된의사형태소단위인식 부형태소분할실험에서가장낮은음절오류율을가지는 분할단계에서어절범위내에서두개씩조합하였을때높은 빈도순으로병합실험하였다. 복잡도를구하기위해기존의 수식 (11) 를그대로사용하였을때, 병합개수에따라로그확 률 (log-probability) 은줄어들었지만, 분모에위치한토큰개수 또한줄어들어전체복잡도가증가되는것을확인할수있었 다. 이러한문제를해결하기위해, 이번실험에서는수식 (11) 의분모에있는토큰개수 ( ) 를병합전토큰개수 ( ; 본논문에서는 12,361) 와동일하게고정시켜비교하였다. log (12) 부형태소의병합에따른인식결과에서는단위의발화길이 가길어짐에따라음절오류율이낮아졌으며병합되는개수가 늘어날수록점차음절오류율이높아지는것으로나타난다. 이는기존의 10 만어휘인식에병합된부형태소들이추가되 어인식어휘수가늘어났기때문인것으로보인다. 병합개수로 1,000 개를적용한결과 19.0% 의음절오류율 을나타냈으며, 이는 14.0% 의상대적음절오류율감소를의 미한다. 또한, 새로계산한복잡도 ( ) 는음절오류율과유 사한변화를보인다는것을확인할수있어서, 음성인식성능 을예측할수있는효과적인지수라고판단된다.

비교사분할및병합으로구한의사형태소음성인식단위의성능 163 표 5. 병합수에따른인식결과 Table 5. Recognition results with the varying number of merged morphemes 병합개수 0 1,000 2,000 3,000 PP 160 316 354 386 log -28240-28033 -28051-28118 160 151 152 154 #Unit 12,361 10,746 10,541 10,405 SER (%) 20.2 19.0 19.1 19.2 5.3.6. 무역상담데이터베이스인식실험 제안된알고리듬의성능을기존연구결과와비교하기위 하여추가적으로무역상담관련한국어연속음성데이터베이 스 [16] 를사용하여제안한인식단위의성능을조사하였다. 실 험환경으로는조용한사무실환경에서녹음되었으며, 샘플링 은 16 khz, 16 bit PCM 형식으로이루어졌다. 이데이터베이 스는시간, 날짜, 지역명등과무역에관련된단어들을포함하 는낭독체음성이다. 인식성능평가를위해 30 명의화자가 개의 18,879 개의어절로이루어진 2,965 개의문장을약 2.3 시 간동안발화한테스트데이터를사용하였다. 제안된인식단위의성능평가를위해테스트데이터만을 기존의음운균형문장데이터베이스에서무역상담관련데이 터베이스로변경하여음성인식성능을비교하였다. 형태소단 위에서제안된인식단위로변경한결과 1.1% 의어휘외단어 율이감소하였으며, 9.7% 의상대적오류율이감소되었다. 표 6. 무역상담음성인식결과 Table 6. Trade-related speech recognition results 형태소단위 제안된단위 PP 140 256 OOV rate (%) 1.3 0.2 SER (%) 24.8 22.4 이전연구결과 [17] 에서는본논문과동일한무역상담데이 터중에서 8 명의화자로구성된 799 개의문장을인식실험한 경우에트라이폰단위에서 10.5% 의단어오류율을나타내었 다. 이결과는학습말뭉치에테스트데이터와동일한말뭉치 를포함하는닫힌어휘 (closed vocabulary) [18] 의경우이기때 문에높은성능을낼수있었으며, 본논문의결과는학습말 뭉치와테스트데이터가독립인열린어휘 (open vocabulary) [18] 이기때문에낮은성능을나타내었다. 5.3.7. 구글음성인식기와의성능비교 구글에서는음성인식성능평가를위해 Speech API [19] 를 제공한다. 위 API 를이용하여두테스트데이터의성능을비 교한결과음운균형문장에서 17.1%, 무역상담관련문장에서 14.9% 의음절오류율이나타나며, 본논문에서제안된알고리 듬의음절오류율은음운균형문장에서 19.0%, 무역상담관련 문장에서 22.4% 로구글음성인식기보다오류율이높게나타 났다. 표 7. 구글음성인식기와제안된알고리듬의음절오류율비교 Table 7. Comparison of SER (%) using the Google speech recognizer and the proposed algorithm 데이터베이스제안된알고리듬구글음성인식기 PBS 19.0 17.1 무역상담 22.4 14.9 이러한차이는언어모델및음향모델의차이와, 출력결과 를정상적인문장으로다듬어주는후처리에의한차이로보 인다. 특히언어모델은훈련에사용한말뭉치의크기, 문장스 타일, 토픽, 장르에매우민감한데, 본논문에서사용한한국 어말뭉치는신문기사내용이대다수를차지하는것에반해, 구글음성인식기의경우대용량언어모델을사용하는것으로 보인다. 5.3.8. 다중발음을고려한언어모델 음성인식성능을더욱향상시키기위하여다중발음을고려 한언어모델 [1][3] 을적용하였다. 다중발음을고려한발음사전 과언어모델을생성하기위하여부형태소단위에서구한자소 열 (graphemes; 그림 13(a)) 과어절단위에서구한음소열 (phonemes; 그림 13(b)) 을동적시간정합 (dynamic time warping; DTW) 알고리듬을이용하여정렬한다음, 의사형태 소단위에 DTW 로정렬된발음열을덧붙인 ( 그림 13(c)) 말뭉 치를사용하였다. 다 [tt-a], 의 [i] 와같은 2 만개의다중발음 을발음사전과언어모델에추가한결과, 구글과동일한 17.1% 의음절오류율을달성하였다. 그림 13. 부형태소기반의다중발음생성예제 Figure 13. Example of building submorpheme-based multiple pronunciations

164 말소리와음성과학제 6 권제 3 호 (2014) 6. 결론본논문에서는대어휘연속음성인식단위를정하기위하여, 의사형태소분할결과에형태소위치정보와길이분포가중치를적용하여비교사방식으로분할한다음부형태소간병합을적용하는새로운방법을제안하였다. 음운균형문장데이터베이스를이용하여음성인식실험을수행한결과, 제안한방법은 1.8% 의 OOV 감소와, 19.0% 의음절오류율을보였으며, 14.0% 의상대적음절오류율이감소되었다. 다중발음을고려한언어모델을추가적으로적용함으로써 17.1% 의음절오류율을나타내는연속음성인식기를얻을수있었다. 본논문은기존의형태소분석기로해결하기어려운고유명사나신조어, 외래어, 복합어와같은미등록어를비교사방법으로분할함으로써어휘외단어율을줄이고, 빈도가높은단어를병합함으로써인식성능을향상시키는효과를가진다. 참고문헌 [1] Kwon, O.-W., Hwang, K. & Park, J. (1999). Korean large vocabulary continuous speech recognition using pseudomorpheme units. Proc. EUROSPEECH, 483-486. [2] Yu, H.-J., Kim, H., Choi, J.-S. & Hong, J.-M. (1998). Automatic recognition of Korean broadcast news speech. Proc. ICSLP. [3] Kwon, O.-W. & Park, J. (2003). Korean large vocabulary continuous speech recognition with morpheme-based recognition units. Speech Communication, Vol. 39, No. 3-4, 287-300. [4] Creutz, M. & Lagus, K. (2002). Unsupervised discovery of Morphemes. Proc. ACL-02 Workshop on Morphological and Phonological Learning, 21-30. [5] 김영택, 옥철영, 이호석, 윤덕호, 강승식, 심광섭, 윤성희, 서병락, 이재원, 김유섭, 이종우, 오장민, 김선, 권혁철, 서영훈, 이근배, 문유진, 이하규, 장병탁, 양재형, 양승현, 김성동, 박성배, 장정호, 황규백, 신형주. (2001). 자연언어처리. 서울 : 생능출판사. [6] Creutz, M. (2006). Induction of the Morphology of Natural Language: Unsupervised Morpheme Segmentation with Application to Automatic Speech Recognition, Ph.D. Dissertation, Helsinki University of Technology, Finland. [7] Schuster, M. & Nakajima, K. (2012). Japanese and Korean voice search. Proc. ICASSP, 5149-5152. [8] Creutz, M. & Lagus, K. (2006). Morfessor in the Morpho Challenge. Proc. PASCAL Challenge Workshop on Unsupervised Segmentation of Words into Morphemes. [9] Creutz, M. (2003). Unsupervised segmentation of words using prior distributions of morph length and frequency. Proc. ACL-03, 280-287. [10] Siivola, V., Hirsimaki, T., Creutz, M. & Kurimo, M. (2003). Unlimited vocabulary speech recognition based on morphs discovered in an unsupervised manner. Proc. EUROSPEECH, 2293-2296. [11] Hirsimaki, T., Creutz, M., Siivola, V., Kurimo, M., Virpioja, S. & Janne. (2006). Unlimited vocabulary speech recognition with morph language models applied to Finnish. Computer Speech & Language, Vol. 20, No. 4, 515-541. [12] Kwon, O.-W., Kim, H., Kwon, S., Yun, S., Jang, G., Kim, Y.-R., Kim, B.-W., Yoo, C., & Lee, Y.-J. (2007). Development of a Korean large vocabulary continuous speech recognition platform (ECHOS). Proc. O-COCOSDA, 108-111. [13] Stolcke, A. (2002). SRILM - An extensible language modeling toolkit. Proc. INTERSPEECH, 901-904. [14] Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., & Vesely, K. (2011). The Kaldi speech recognition toolkit. Proc. ASRU, 1-4. [15] Downloading Kaldi. http://kaldi.sourceforge.net/install.html. [16] 박종렬, 권오욱, 김도영, 최인정, 정호영, 은종관. (1995). 한 국어음성인식을위한음성데이터수집. 음향학회지, 14 권 4 호, 74-81. [17] 최인정, 권오욱, 박종렬, 박용규, 김도영, 정호영, 은종관. (1995). 대용량한국어연속음성인식시스템개발. 음향학회 지, 14 권 5 호, 44-50. [18] Jurafsky, D. and Martin, J. H. (2008). Speech and Language Processing, 2e. 95. [19] Openmoko wiki. (2012). Google Voice Recognition. http://wiki.openmoko.org/wiki/google_voice_recognition. [20] Zipf's law, http://en.wikipedia.org/wiki/zipf%27s_law. [21] Jurafsky, D. and Martin, J. H. (2008). Speech and Language Processing, 2e. 4.5.2 Good-Turing Discounting. 방정욱 (Bang, Jeong-Uk) 충북대학교제어로봇공학전공충북청주시서원구내수동로 52( 개신동 ) Email: isaac@cbnu.ac.kr 관심분야 : 음성인식, 음성및오디오처리현재제어로봇공학과석사과정재학중 권오욱 (Kwon, Oh-Wook) 교신저자충북대학교전자공학부충북청주시서원구내수동로 52( 개신동 ) Tel: 043-261-3374 Email: owkwon@cbnu.ac.kr 관심분야 : 음성인식, 감정인식, 음성신호처리 2003~ 현재충북대학교전자공학부교수