DBPIA-NURIMEDIA

Similar documents
[ 영어영문학 ] 제 55 권 4 호 (2010) ( ) ( ) ( ) 1) Kyuchul Yoon, Ji-Yeon Oh & Sang-Cheol Ahn. Teaching English prosody through English poems with clon

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

歯1.PDF

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

DBPIA-NURIMEDIA

Microsoft Word - KSR2012A038.doc

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

09È«¼®¿µ 5~152s

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

Microsoft Word - KSR2012A021.doc

<C1DF3320BCF6BEF7B0E8C8B9BCAD2E687770>

???? 1

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

歯14.양돈규.hwp

김기남_ATDC2016_160620_[키노트].key

<B1B9BEEEB1B3C0B0BFACB1B83334C1FD2034B1B C5BEC0E7C3D6C3D6C3D6C1BE2D31BFF932C0CFBCBCB9F8C2B0BCF6C1A42E687770>

À±½Â¿í Ãâ·Â



Software Requirrment Analysis를 위한 정보 검색 기술의 응용

14.531~539(08-037).fm

°í¼®ÁÖ Ãâ·Â


에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

서론 34 2

본문01

< C6AFC1FD28B1C7C7F5C1DF292E687770>

03-서연옥.hwp

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

2 佛敎學報 第 48 輯 서도 이 목적을 준수하였다. 즉 석문의범 에는 승가의 일상의례 보다는 각종의 재 의식에 역점을 두었다. 재의식은 승가와 재가가 함께 호흡하는 공동의 場이므로 포 교와 대중화에 무엇보다 중요한 역할을 수행할 수 있다는 믿음을 지니고 있었다. 둘째

DBPIA-NURIMEDIA

차 례... 박영목 **.,... * **.,., ,,,.,,


Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

Microsoft Word - KSR2016S168

012임수진

1. 연구 개요 q 2013년 연구목표 제2-1과제명 건축물의 건강친화형 관리 및 구법 기술 연구목표 건강건축 수명예측 Lifecycle Health Assessment (LHA) 모델 개발 건축물의 비용 기반 분석기술(Cost-based Lifecycle Health

DBPIA-NURIMEDIA

Analyses the Contents of Points per a Game and the Difference among Weight Categories after the Revision of Greco-Roman Style Wrestling Rules Han-bong

영어교육연구제 22 권 4 호 2010 년겨울 대학생들의영어모음발음과지각 ( ) Yang, Byunggon. (2010). College students production and perception of English vowels. English Language Te

DBPIA-NURIMEDIA

Compass Online School Pack 1

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

< D B4D9C3CAC1A120BCD2C7C1C6AEC4DCC5C3C6AEB7BBC1EEC0C720B3EBBEC8C0C720BDC3B7C2BAB8C1A4BFA120B4EBC7D120C0AFBFEBBCBA20C6F2B0A E687770>

DBPIA-NURIMEDIA

12이문규

DBPIA-NURIMEDIA

에너지경제연구 제13권 제1호

Microsoft PowerPoint - 27.pptx

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

인문사회과학기술융합학회

3. 클라우드 컴퓨팅 상호 운용성 기반의 서비스 평가 방법론 개발.hwp

전기설비의 검사˚점검 및 시험등

γ

Buy one get one with discount promotional strategy

04-다시_고속철도61~80p

레이아웃 1

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

DBPIA-NURIMEDIA


에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 35~55 학술 전력시장가격에대한역사적요인분해 * 35

< FC3D6C1BEBCF6C1A45FB1E2B5B6B1B3B1B3C0B0B3EDC3D E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

11이정민

<31325FB1E8B0E6BCBA2E687770>

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp


untitled

ISO17025.PDF

???? 1

<C3D6C1BE2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D32C8A3292E687770>

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

DBPIA-NURIMEDIA

: 4 2. : (KSVD) 4 3. :

<B1B3B9DFBFF83330B1C7C1A631C8A35FC6EDC1FDBABB5FC7D5BABB362E687770>

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F E687770>

Curriculum Vitae 2 Sangkeun Jung, Cheongjae Lee. Gary Geunbae Lee. Using utterance and semantic level confidence for interactive spoken dialog clarifi

02양은용

step 1-1

Æ÷Àå½Ã¼³94š


08김현휘_ok.hwp

歯5-2-13(전미희외).PDF

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: * The

2005-4¿ùÈ£

에너지경제연구 제13권 제1호

<5B D B3E220C1A634B1C720C1A632C8A320B3EDB9AEC1F628C3D6C1BE292E687770>

Page 2 of 5 아니다 means to not be, and is therefore the opposite of 이다. While English simply turns words like to be or to exist negative by adding not,

4번.hwp


<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

08원재호( )

<32382DC3BBB0A2C0E5BED6C0DA2E687770>

Transcription:

69 말소리와음성과학제 2 권제 2 호 (2010) pp. 69~75 정제알고리즘을이용한한국인화자의영어발화자동진단시스템 Automatic Pronunciation Diagnosis System of Korean Students English Using Purification Algorithm 양일호 김민석 유하진 한혜승 이주경 ABSTRACT We propose an automatic pronunciation diagnosis system to evaluate the pronunciation of a foreign language without the uttered text. We recorded English utterances spoken by native and Korean speakers, and utterances spoken by Koreans are evaluated by native speakers based on three criteria: fluency, accuracy of phones and intonation. The system evaluates the utterances of test Korean speakers based on the differences of log-likelihood given two models: one is trained by English speech uttered by native speakers, and the other is trained by English speech uttered by Korean speakers. We also applied purification algorithm to increase class differentiability. The purification can detect and eliminate the non-speech frames such as short pauses, occlusive silences that do not help to discriminate between utterances. As the results, our proposed system has higher correlation with the human scores than the baseline system. Keywords: English education, automatic pronunciation diagnosis, purification, GMM 1. 서론 영어교육의필요성이증대됨에따라컴퓨터를이용한다양 한영어학습시스템들이개발되고있다. 컴퓨터를이용한영어 학습시스템들은멀티미디어를활용하여영어학습자와컴퓨터 간상호작용이가능한특성을지닌다. 몇몇영어학습시스템들 의경우, 학습자의발화를녹음하여들려주는기능을지원함으 로써책과오디오에의존하는기존의영어학습법에서실현하 기어려웠던영어말하기교육을제공한다. 특히자동으로영어 발화수준을진단해주는시스템은, 원어민교사없이도개인학 습자에게적절한피드백을제공함으로써영어말하기교육을 1) 서울시립대학교 heisco@hanmail.net 2) 서울시립대학교 ms@uos.ac.kr 3) 서울시립대학교 hjyu@uos.ac.kr, 교신저자 4) 서울시립대학교 jkyoonhan@gmail.com 5) 서울시립대학교 jookeng@uos.ac.kr 이논문은 2007 년정부 ( 교육인적자원부 ) 의재원으로한국연구재단의지원을받아수행된연구임 (KRF-2007-321-A0015) 접수일자 : 2010 년 5 월 1 일수정일자 : 2010 년 6 월 10 일게재결정 : 2010 년 6 월 22 일 보다널리보급하는데이바지할수있다. 제 2언어학습자의발화를자동진단하는연구는세계각지에서다양한형태로수행되고있다. (Neumeyer, 1996) 는미국인의불어발화를자동진단하는시스템에대해연구하였다. (Franco, 1997) 는다양한발화진단점수를혼합하여성능을높이는방법을제시하였다. (Neumeyer, 1998) 는제 2언어학습자를위한진단시스템을구축하고스페인어 불어 영어발화에대하여각각성능을평가하였다. (Cucchiarini, 2000) 는원어민 / 비원어민의네덜란드어발화를 4종류의척도를기준으로진단하였다. (Moustroufas, 2007) 는그리스인의영어발화를자동진단하였으며, 발성문장입력없이발화를진단하는방법을제안하였고, 제 2 언어학습자의모국어모델을구성하여시스템성능을개선하였다. 국내에서도한국인화자의영어발화를자동진단하는방법에대한연구가수행되었다. (Kim, 2002) 은한국아동대상영어발음교정시스템을개발하였다. (Kim, 2003) 은미국인과한국인의영어발화를수집하여모델을학습한뒤인식네트워크를구성하여교정할발음을검출하는시스템을구축하고성능을평가하였다. (Park, 2003) 은영어발화의유창성을자동진단하는음성인식엔진을개발하였다. 상기연구들에서는대부분진단시스템이발성내용

70 말소리와음성과학제 2 권제 2 호 (2010) (transcription) 을알고있다고가정하였다 (Cucchiarini, 2000; Franco, 1997; Kim, 2002; Kim, 2003; Neumeyer, 1998; Neumeyer, 1996; Park, 2003). 이러한방법을이용할경우사용자가사전에지정된몇몇발화만진단받을수있는제약을받거나, 자신이발성한내용이무엇인지입력해야하는불편함이발생할수있다. (Moustroufas, 2007) 는이러한문제를극복하기위하여시스템이사용자의발성내용을모르는상태에서제 2 언어학습자의발화를진단할수있는시스템을구축하였다. 본연구에서는 (Moustroufas, 2007) 가제안한방법에기반하여한국인화자의영어발화를유창성 발음의정확성 억양의정확성면에서각각진단하고통합점수를도출하는시스템을구축하였다. 하지만기존의방법에서는원어민의발화모델과제 2언어학습자의모국어발화모델을구성하였는데반해, 본연구에서는원어민의발화모델과제 2언어학습자의제 2 언어발화모델을구성하여실험하였다. 또한기존의연구에서화자단위 (speaker level) 발화진단성능에비해상대적으로저조하였던문장단위 (sentence level) 발화진단성능을개선하기위하여정제 (purification) 알고리즘 (Anguera, 2006) 을적용하였다. 발화수준이높은비원어민의제 2언어발화는원어민의발화와유사할것이므로, 이를이용하여생성한두모델은완전한독립성을보장하기가어렵다. 이러한점은성능에악영향을미칠수있으므로, 정제알고리즘을통하여모델학습데이터에서원어민발화와비원어민발화간의유사한특징프레임을제거함으로써성능을개선하고자하였다. 본논문의구성은다음과같다. 다음장에서는본연구를수행하기위해수집한데이터베이스를소개한다. 3장에서는기존의방법과제안한방법을설명한다. 4장에서시스템성능을평가하고결과를분석한뒤, 마지막장에서결론을맺는다. 2. 데이터베이스구축 2.1 녹음본연구를위해원어민과비원어민 ( 한국인 ) 의영어발화를수집하였다. 자연스러운발화를유도하기위하여 2인이 1조가되어서로마주보고대화하는형식으로녹음하였다. 5~10개의문장으로구성된 135개의대화문을 4 set으로구분하여각조의화자들이 1 set씩발성하도록하였다. 원어민 24명 (12조) 과비원어민 20명 (10조) 의발화를수집하였다. 녹음은조용한사무실환경에서이루어졌다. set 별구성화자수는 < 표 1> 과같다. 2.2 원어민청취평가 (human scoring) 3명의원어민평가자가비원어민 ( 한국인 ) 에게서수집한각발화를문장별로청취하고진단하였다. 이때, 각발화를유창성 발음의정확성 억양의정확성을기준으로각각 1~5점으로진단하도록하였다. 이렇게청취진단한점수목록에대하여 표 1. set 별구성화자수. Table 1. The number of speakers for each set. set 원어민비원어민 ( 한국인 ) 남성여성계남성여성계 총계 1 3 3 6 4 2 6 12 2 4 2 6 6 0 6 12 3 2 4 6 0 2 2 8 4 4 2 6 2 4 6 12 계 13 11 24 12 8 20 44 평가자간상관관계 (correlation) 의계수와개방상관관계 (open correlation) 의계수를계산하였다. 평가자간상관계수를구하는 식은다음과같다. å( Ai - A)( Bi - B) i ( Ai - A) å ( Bi - B) 2 2 i 여기서 A i, B i 는각각평가자 A, B가평가한각발성의점수이 며, A, B 는각각평가자 A, B 가평가한전체점수의평균이다. 수집한데이터베이스를이용하여구축한시스템의최대성 능을추정하기위하여개방상관관계를계산하였다. 본연구의 목적은원어민교사를대신하여학습자의영어발화를자동진 단하는시스템을만드는것이다. 따라서이상적인자동진단시 스템은사람 ( 원어민평가자 ) 과유사한결과를도출할것이다. 개방상관관계는한평가자가평가한점수목록을자동진단 시스템의결과라가정하고, 다른평가자들의평균점수목록간 의상관계수를계산하여구한다. 상관계수계산결과는 < 표 2> 와같다. 여기서모든개방상관계수의평균이 0.84 였으므로, 이 를본연구에서구축한시스템의목표성능으로계획하였다. 표 2. 평가자간상관계수및개방상관관계 Table 2. Correlations and open correlations between raters. 평가척도 평가자 1 2 3 1 1.00 0.81 0.76 유창성 2 1.00 0.83 3 1.00 개방상관계수 0.82 0.88 0.84 1 1.00 0.77 0.80 발음의 2 1.00 0.82 정확성 3 1.00 개방상관계수 0.82 0.84 0.87 1 1.00 0.79 0.74 억양의 2 1.00 0.77 정확성 3 1.00 개방상관계수 0.81 0.84 0.80 원어민청취평가결과의점수분포는 < 표 3> 과같다. 수집 한비원어민의발화는 3 점 ( 보통수준 ) 및 2 점 ( 낮은수준 ) 의비 율이많았고 1 점 ( 매우낮은수준 ) 및 5 점 ( 매우높은수준 ) 의비 율이적었다. (1)

정제알고리즘을이용한한국인화자의영어발화자동진단시스템 71 표 3. 모든평가자 / 모든척도의점수분포 (%) Table 3. Distribution of scores across all raters and all types for all scores (%) 점수 1 2 3 4 5 유창성 1.18 28.48 57.93 12.14 0.27 발음 8.64 34.40 47.06 9.73 0.17 억양 2.11 36.54 51.98 9.17 0.21 전체비율 3.98 33.14 52.32 10.35 0.22 각평가자가각평가척도에대하여진단한결과의평균및 표준편차는 < 표 4> 와같다. 표 4. 평가자별점수의평균과표준편차 Table 4. Means and standard deviations of scores from each rater 평가자 1 2 3 평균 유창성 평균 2.92 2.77 2.77 2.82 표준편차 0.66 0.65 0.65 0.65 발음 평균 2.75 2.41 2.58 2.58 표준편차 0.76 0.78 0.78 0.78 억양 평균 2.78 2.60 2.69 2.69 표준편차 0.66 0.66 0.68 0.67 3. 자동발성진단시스템 3.1 가우시안혼합모델을이용한발화진단방법 본절에서는음성인식및화자인식에서음소또는화자를모 델링하는데주로이용하는가우시안혼합모델 (Gaussian mixture model) 을통해자동으로발화점수를진단하는방법 (Moustroufas, 2007) 에대해서기술한다. 우선원어민의발화를이용하여원어민발화모델 TARGET 을 생성한다. 비원어민학습자가 T 시간동안발성한영어발화를 {,,..., } x1 x2 x T 라할때, 다음과같이로그유사도 (log-likelihood) pause, occlusive silences 등 ) 을걸러내기위하여정제알고리즘 을사용하였다. 본연구에서는프레임단위정제알고리즘을통하여앞에서 소개한특징뿐만아니라원어민발화와비원어민발화간의유 사한특징역시함께제거함으로써 TARGET 과 SOURCE 를보다효과 적으로모델링할수있을것으로기대하였다. 이는다음과같 은과정을통해수행한다. 1. TARGET 을생성할발화의모든특징벡터를기준으로앞뒤 m 개의인접한특징벡터를포함하는길이 Q (Q = 2m + 1) 크기의모든프레임에대하여로그유사도 X( f SOURCE ) ) 를계산한다. 2. 정제후유지할프레임의비율 (P%) 만큼을제외하고, 유사 도가높은순으로나머지프레임을제거한다 ( 정제과정 ). 이때, 앞뒤 Q 개의특징벡터를모두제거하는것이아니 고기준이되는중앙의특징벡터하나만제거한다 (< 그림 1> 참조 ). 3. 정제된발화를이용하여 TARGET 을다시생성한다. 4. SOURCE 를생성할발화에대해서도로그유사도 X( f TARGET ) ) 를계산하여정제과정을거쳐 SOURCE 를다시생성한다 ( 이 때, TARGET 은 1~3 단계에서정제하기이전의모델임 ). 를계산한다. T ( f ) ( f ) log f X = ålog f x (2) TARGET k TARGET k = 1 이와마찬가지로비원어민의모국어발화를이용하여모국 어발화모델 SOURCE 을생성하고로그유사도 X( f SOURCE ) ) 를 계산한다. 최종적인자동진단점수 (machine score) 는다음과같 이구할수있다. ( f ) L( X f ) L X T TARGET SOURCE - (3) T 단, 본연구에서는 SOURCE 를생성할때비원어민화자의영어 발화 (set 2, 4) 를이용하여모델을학습하였다. 3.2 정제알고리즘 (purification algorithm) (Anguera, 2006) 는화자군집화 (speaker clustering) 를수행할때, 각군집내에서해당화자의발성이아닌특징프레임 (short 4.1 실험설계 그림 1. 정제과정 Figure 1. The purification process 4. 시스템성능평가 수집한데이터베이스에서원어민의영어발화를 TARGET 의학 습데이터로이용하였다. 비원어민의영어발화중일부 (set 2, 4) 는 SOURCE 의학습데이터로이용하였고, 나머지 (set 1, 3) 는테 스트데이터로이용하였다. 충분히길게발성한발화에대해서 도시스템성능을평가하기위해, 테스트데이터에서 6 초이상 의발화만선별하여추가실험을수행하였다. 이때테스트데 이터의구성은 < 표 5> 와같다. 3.1 절에서소개한진단방법에따라자동진단점수 LDIFF(machine score) 를계산하고, 원어민청취점수 (human

72 말소리와음성과학제 2 권제 2 호 (2010) 표 5. 테스트데이터구성 Table 5. Test data set 전체발화 긴발화 (6초이상 ) 발화수 1616개 255개 평균발화길이 4.17초 7.5초 score) 와의상관계수를측정하였다. 또한각평가자별 / 척도별 점수를정규화한뒤평균한통합점수와의상관계수를측정하 였다. 어떤점수 s 의평균이 s 이고표준편차가 s 일때정규화 된점수 z 는다음과같이구하였다. s - s = s s 4.2 특징추출 본연구에서는구축한진단시스템의성능을최대화할수있 도록실험적으로최적의특징추출방법을선별하였다. < 표 6> 의결과는혼합수 8, 16, 32, 64, 128, 256 개로학습한모델을 각각이용하여발화단위 (sentence level) 진단실험을수행한뒤 가장높은상관계수를취한것이다. 단, 특징추출시 window size 는 25ms 로고정하고 10ms 씩 shift 하였다. 표에서 12_MFCC 는 12 차 MFCCs(mel-frequency cepstral coefficients), 12_LPC 는 12 차 LPCs(linear prediction coefficients), E 는에너지, ZE 는 발화단위로정규화한에너지, P 는피치, ZP 는발화단위로 정규화한피치, D 는 delta, A 는 delta-delta 를의미한다. (13d), (39d), (42d), (78d) 는전체특징이각각 13 차원, 39 차원, 42 차원, 78 차원임을뜻한다. 표 6. 특징별원어민청취점수와자동진단점수의상관관계 Table 6. Correlations between human and machine scores with various feature vectors. 특징별상관계수 유창성발음 억양 통합점수 12_MFCC+E (13d) 0.235 0.190 0.246 0.316 12_MFCC+ZE (13d) 0.305 0.237 0.299 0.393 12_MFCC+ZE+D+A (39d) 0.350 0.212 0.298 0.399 12_MFCC+ZE+ZP +D+A (42d) 0.370 0.219 0.304 0.407 12_LPC+ZE+ZP +D+A (42d) 0.162 0.145 0.185 0.223 6_MFCC+6_LPC+ZE+ZP +D+A (42d) 0.263 0.189 0.225 0.305 12_MFCC+12_LPC+ZE+ZP +D+A (78d) 0.241 0.204 0.260 0.331 12_MFCC+E (13d) 와 12_MFCC+ZE (13d) 를비교한결과 에너지를정규화하는것이성능향상에도움이되는것을확인 하였다. delta 및 delta-delta 를추가 ( 12_MFCC+ZE+D+A (39d) ) 하자발음의정확성에대한진단성능은소폭감소했지만유창 성에대한진단성능은향상되었다. 여기에피치를더하여실험 한결과 ( 12_MFCC+ZE+ZP+D+A (42d) ) 상관계수가더높아졌 (4) 표 7. 혼합수에따른상관관계 (12_MFCC+ZE+ZP+D+A (42d)) Table 7. Correlations according to number of mixtures. 혼합수 유창성 발음 억양 통합점수 8 0.310 0.194 0.257 0.355 16 0.343 0.189 0.256 0.353 32 0.362 0.187 0.272 0.383 64 0.370 0.219 0.304 0.407 128 0.333 0.204 0.295 0.392 256 0.312 0.206 0.284 0.377 다. 반면에 LPC 를이용한경우는 MFCC 만사용한경우에비하 여별다른성능향상을확인할수없었다. 12 차 MFCCs 에정규화한에너지와피치를더하고, delta 및 delta-delta 를추가한 42 차원특징을사용하였을때발음의정확 성을제외하고는상관계수가가장높았으므로이후의실험에서 는모두이특징을사용하였다. 이때, 혼합수에따른상관계 수는 < 표 7> 과같다. 4.3 모델학습데이터선정의적절성평가 (Moustroufas, 2007) 는 TARGET 모델 (TARGET ) 을학습하기위하 여원어민발화음성코퍼스를사용하고, SOURCE 모델 (SOURCE ) 을학습하기위하여제 2 언어학습자의모국어발화음성코퍼 스를사용하였다. 그러나본연구에서는 SOURCE 모델을학습 할때제 2 언어학습자의제 2 언어발화음성을사용하였다. 이 렇게모델학습데이터의선정에차이점을둔것이적절했는지 판단하기위하여추가실험을진행하였다. < 표 8> 에서 baseline 은 4.2 절에서가장좋은성능을보인결과이고, 비교실험 은 (Moustroufas, 2007) 와유사하게모델학습데이터를선정하여 baseline 과동일한방법으로실험한것이다. 비교실험 에서는 TARGET 모델학습에 TIMIT(The DARPA TIMIT Acoustic- Phonetic Continuous Speech Corpus) 코퍼스의 TRAIN 데이터전 체 (4620 개발화 ) 를사용하였고, SOURCE 모델학습에서울말 낭독체발화말뭉치 ( 국립국어연구원개발 ) 의 20 대남녀화자의 발화를화자별로 20 개씩임의선택 (800 개발화 ) 하여사용하였다. 표 8. 모델생성방법에따른비교실험 Table 8. Correlations between human and machine scores according to methods of building models. 학습데이터별상관계수 유창성 발음 억양 통합점수 baseline 0.370 0.219 0.304 0.407 비교실험 0.245 0.156 0.236 0.300 비교실험 의경우에는학습데이터의수가다르고녹음채 널이일치하지않으므로두방법의효용성을객관적으로단순 비교할수는없다. 하지만실험결과본연구에서사용한방법 이더높은진단성능을보였으며절대적인상관계수가기존 연구와유사한수준이었으므로, 본연구의접근방법또한유효 하다고판단하였다.

정제알고리즘을이용한한국인화자의영어발화자동진단시스템 73 4.4 정제알고리즘을적용한진단시스템성능평가정제알고리즘을적용하여시스템의성능을개선하기위해서는파라미터를최적화해야할필요가있다. 정제알고리즘의파라미터는기준특징벡터로부터앞뒤 m개의특징벡터로구성되는프레임의크기 Q(Q = 2m + 1) 와정제후유지할프레임의비율 P이다. 파라미터별로문장단위진단실험을수행한결과는 < 표 9> 와같다. < 그림 2> 는통합점수만비교한그래프이다. 통합점수의상관계수만계산한경우, 정제후유지비율을 75%~85% 로하였을때시스템성능이향상되었다. 반면에 90% 를유지 ( p:0.9 ) 하거나 70% 이하만유지 ( p:0.7, p:0.65, p:0.6 ) 한경우는점차성능이하락하였다. 프레임길이는 5개의특징벡터를포함 ( p:0.8 ) 하도록구성하였을때가장좋았다. 정제알고리즘의파라미터를최적화할경우유창성에대해서는상관계수가상대적으로 5.3%( p:0.8 ), 통합점수에대해서는 3.8%(p:0.85 ) 소폭향상되었다. 하지만발음의정확성및억양의정확성에대해서는성능향상효과가미미하였다 ( 최적의경우각각 1.6%, 0.9% 향상 ). 0.373 0.423 표 9. 여러진단점수에대한파라미터별상관관계 Table 9. Correlations between scores on different parameters. 유창성 발음 억양 통합점수 baseline 0.370 0.219 0.304 0.407 p:0.6 0.264 0.112 0.142 0.244 p:0.65 0.293 0.137 0.216 0.305 p:0.7 0.319 0.222 0.307 0.397 p:0.75 0.366 0.214 0.302 0.410 p:0.8 m:1 0.378 0.221 0.302 0.413 p:0.8 0.390 0.209 0.300 0.422 p:0.8 m:3 0.381 0.218 0.303 0.420 p:0.8 m:5 0.365 0.216 0.302 0.411 p:0.85 0.385 0.208 0.305 0.423 p:0.9 0.338 0.197 0.270 0.373 각 7.3%, 2.5%, 6.3%, 6.9% 씩증가하였다. 이를통하여짧은발 화보다긴발화에대해정제알고리즘의성능향상효과가커 지는것을확인할수있었다. 표 10. 긴발화 (6 초이상 ) 의상관관계. Table 10. Correlations on long utterances (equal or more than 6 secs). 유창성 발음 억양 통합점수 baseline 0.428 0.275 0.341 0.477 p:0.8 0.460 0.282 0.363 0.510 m:5 m:3 0.411 0.420 5. 결론및토의 m:1 eline 0.244 0.305 0.410 0.397 0.413 0.407 0.422 0.200 0.250 0.300 0.350 0.400 0.450 상관계수 그림 2. 파라미터별상관관계 ( 통합점수 ). Figure 2. Correlations between total scores on different parameters. 동일한방법으로긴발화에대한진단성능이향상되는지확 인하기위하여 6 초이상발성한테스트데이터에대해서추가 실험을수행하였다 (< 표 10>). 6 초이상의긴발화에대하여진단성능을비교한결과, 정 제알고리즘을사용한경우 (p:0.8 ) 유창성, 발음의정확성, 억양의정확성, 통합점수에대하여상관계수가상대적으로각 본논문에서는영어학습자의영어발화수준을자동진단하는시스템을구축하고개선방안을연구하였다. 이를위해먼저원어민 24명및비원어민 ( 한국인 ) 20명화자의영어발화를수집한뒤, 3명의원어민평가자로하여금문장별로유창성, 발음의정확성, 억양의정확성을청취평가하도록하였다. 발성내용을모르는상태에서사용자의발화를자동진단하는시스템을구축하기위해수집한데이터베이스를이용하여 TARGET 모델과 SOURCE 모델을각각가우시안혼합모델로학습하였다. 구축한진단시스템은유창성, 발음의정확성, 억양의정확성에대한진단점수와통합점수를함께도출하도록하였다. 시스템의성능을최대화할수있도록다양한특징추출방법을이용하여비교실험을수행한결과, 12차 MFCCs 에정규화한에너지와피치를더하고, delta 및 delta-delta 를추가한 42 차원특징을사용하였을때가장높은성능을보였다. 그러나 delta 및 delta-delta 를추가할경우발음의정확성에대해서는상관계수가하락하는결과가나타났으므로향후연구에서는진단척도별로최적의성능을보이는시스템을각기구분하여실험할필요성이있을것으로판단된다. 본연구에서는기존의방법과달리 SOURCE 모델을제 2언어학습자의모국어발화로구성하지않고, 제 2언어학습자의제 2언어발화로구성하였는데, 비교실험을통하여이방법의

74 말소리와음성과학제 2 권제 2 호 (2010) 유효성을확인하였다. 그러나학습데이터수가다르고채널이일치하지않으므로객관적으로어느방법이더우수한지를입증하기위해서는추가적인검증실험이필요하다. 성능을개선하기위하여정제알고리즘을적용한결과, 각척도별진단성능이소폭향상되었다. 긴발화를진단할경우성능향상폭이더욱커지는것을확인하였다. 6초이상의발화로테스트하였을때, 목표 ( 상관계수 0.84) 대비성능 61%( 통합점수기준 ) 를달성하였다. 향후연구주제는목표대비성능을더욱높이기위하여앞서언급한문제점들을보완하는것과 3 종류의진단척도에대하여각각최적의성능을보이는방법을따로구성하여통합점수를도출하는시스템을구축하는것이다. 감사의글연구를진행하는동안학술대회등을통하여많은조언을주신한국음성학회회원여러분들께감사드립니다. 참고문헌 Kim, M., Kim, H., and Kim, B. (2003). "Performance evaluation of english work pronunciation correction system", The KSPS Spring Conference 2003, pp. 71-74. ( 김무중, 김효숙, 김병기 (2003). 한국인을위한영어발음교정시스템에대한성능평가, 2003 대한음성학회봄학술대회 pp. 71-74.) Kim, H. (2002). "An introduntion to 'dr.speaking' - English pronunciation tutoring system for Korean -", The KSPS 25th Anniversary Conference, pp. 47-50. ( 김효숙 (2002). 한국인을위한영어발음교정시스템 'Dr. Speaking' 소개, 대한음성학회창립 25주년기념학술대회, pp. 47-50.) Park, J.G., Lee, J.-J., Kim, Y.-C., Hur, Y., Rhee, S.-C., and Lee, J.-H. (2003). "Development of english speech recognizer for pronunciation evaluation", The KSPS Autumn Conference 2003, pp. 37-40. ( 박전규, 이준조, 김영창, 허용수, 이석재, 이종현 (2003). 발성평가를위한영어음성인식기의개발, 2003 대한음성학회가을학술대회 pp. 37-40.) Anguera, X., Woofers, C., and Hernando, J. (2006). "Purity algorithms for speaker diarization of meetings data", ICASSP, pp. 1025-1028. Cucchiarini, C., Strik, H., and Boves, L. (2000). "Different aspects of expert pronunciation quality ratings and their relation to scores produced by speech recognition algorithms", Speech Communication, Vol. 30, No. 2-3, pp. 109-119. Franco, H., Neumeyer, L., Kim, Y., and Ronen, O. (1997). "Automatic pronunciation scoring for language instruction", ICASSP, pp. 1471-1474. Moustroufas, N. and Digalakis, V. (2007). "Automatic pronunciation evaluation of foreign speakers using unknown text", Computer Speech & Language, Vol. 21, No. 1, pp. 219-230. Neumeyer, L., Franco, H., Abrash, V., Julia, L., Ronen, O., Bratt, H., Bing, J., Digalakis, V., and Rypa, M. (1998). "Webgrader (tm): A multilingual pronunciation practice tool", Workshop on STiLL, pp. 61-64. Neumeyer, L., Franco, H., Weintraub, M., and Price, P. (1996). "Automatic text-independent pronunciation scoring of foreign language student speech", ICSLP, pp. 1457-1460. 양일호 (Yang, IL-Ho) 서울시립대학교컴퓨터과학부서울시동대문구전농동 90 번지 Tel: 02-2210-5322 Fax: 02-2210-5275 Email: heisco@hanmail.net 관심분야 : 음성인식, 화자인식현재컴퓨터과학부대학원박사과정재학중 김민석 (Kim, Min-Seok) 서울시립대학교컴퓨터과학부서울시동대문구전농동 90 번지 Tel: 02-2210-5322 Fax: 02-2210-5275 Email: ms@uos.ac.kr 관심분야 : 음성인식, 화자인식현재컴퓨터과학부대학원박사과정재학중 유하진 (Yu, Ha-Jin) 교신저자서울시립대학교컴퓨터과학부서울시동대문구전농동 90 번지 Tel: 02-2210-5322 Fax: 02-2210-5275 Email: hjyu@uos.ac.kr 관심분야 : 음성인식, 화자인식 2002~ 현재컴퓨터과학부부교수 한혜승 (Han, Hyeseung) 서울시립대학교영어영문학부서울시동대문구전농동 90 번지 Tel: 010-6411-4508 Fax: 02-2243-4855 Email: jkyoonhan@gmail.com 관심분야 : 음성학, 음운론 이주경 (Lee, Joo-Kyeong) 서울시립대학교영어영문학부서울시동대문구전농동 90 번지 Tel: 02-2210-5635 Fax: 02-2243-4855

정제알고리즘을이용한한국인화자의영어발화자동진단시스템 75 Email: jookyeong@uos.ac.kr 관심분야 : 음성학, 음운론 2002~ 현재영어영문학부교수