ISSN 2005-8063 2017. 12. 31. Vol.9 No.4 pp. 43-50 말소리와음성과학 http://dx.doi.org/10.13064/ksss.2017.9.4.043 대학생들이또렷한음성과대화체로발화한영어문단의구글음성인식 Google speech recognition of an English paragraph produced by college students in clear or casual speech styles 양병곤 * Yang, Byunggon Abstract These days voice models of speech recognition software are sophisticated enough to process the natural speech of people without any previous training. However, not much research has reported on the use of speech recognition tools in the field of pronunciation education. This paper examined Google speech recognition of a short English paragraph produced by Korean college students in clear and casual speech styles in order to diagnose and resolve students pronunciation problems. Thirty three Korean college students participated in the recording of the English paragraph. The Google soundwriter was employed to collect data on the word recognition rates of the paragraph. Results showed that the total word recognition rate was 73% with a standard deviation of 11.5%. The word recognition rate of clear speech was around 77.3% while that of casual speech amounted to 68.7%. The reasons for the low recognition rate of casual speech were attributed to both individual pronunciation errors and the software itself as shown in its fricative recognition. Various distributions of unrecognized words were observed depending on each participant and proficiency groups. From the results, the author concludes that the speech recognition software is useful to diagnose each individual or group s pronunciation problems. Further studies on progressive improvements of learners erroneous pronunciations would be desirable. Keywords: speech, recognition, English pronunciation, diagnosis, fricative, clear, casual, Google, soundwriter 1. 서론오늘날음성인식기술은다양한국적을가진모국어화자의발음을빠르고정확하게인식할정도로발전했다. 예전에는바이보이스와같이일정시간에걸쳐화자개인의목소리를입력하여발화특징을추출한다음그화자에서만작동하는음성인식이사용되었고, 단어인식률도기존의학습된표현이나어휘에대해서는높지만, 새로운입력에대해서는오류가나는경우가많았다. 최근의구글음성인식기를비롯한새로운소프트웨어 의성능은많은연구자들이말로서문서를작성하고편집할수있을정도로개선되었다. 영어를외국어로학습하는한국인에게는이러한음성인식기술을이용하여개인의영어표현이얼마나잘인식되고, 또인식이잘되지않는단어의발음상의문제점을찾는데널리활용할수있을것으로기대된다. 하지만이러한최근의음성인식기술의발전에도불구하고인문학분야에서는컴퓨터활용이어려워서인지아직까지국내의논문에서실험을통해직접조사하거나, 도구를활용하는방법을구체적으로제시한연구가드물다. 국외의논문들은주로모국 * 부산대학교, bgyang@pusan.ac.kr Received 1 November 2017; Revised 18 December 2017; Accepted 18 December 2017 Yang, Byunggon / Phonetics and Speech Sciences Vol.9 No.4 (2017) 43-50 43
어의제한된숫자나단어에대한인식률에대한평가가일부있긴하지만본연구에서제안한외국어로서영어발음인식률을조사하고발음의문제점을진단하는데활용한연구는부족하다. 영어학습도우미로봇을만드는데에활용할수있는음성인식기의기초자료를마련하기위해윤정희 (2014) 는초등학생 16명을대상으로 219개의영어단어를읽게하여녹음한음성을안드로이드모바일기기에설치된 Google Voice Actions 를이용해음성인식률을분석했다. 그의연구결과에따르면다섯번의발음에대해 20점단위로매긴평균인식감도는 73.18점으로다소높게나타났고, 모국어발음으로대체하거나겹자음과이중모음, 파열음, 한국어에없는모음등의음운배열과관련된정보들이인식률에영향을준다고보고했다. 덧붙여, 특정한음소의배열이얼마의확률로결합되는지를나타내는음소배열확률 (Phonotactic probability, Vitevitch & Luce, 2004) 과, 비슷한크기의음소배열을가진실제단어가얼마나많은지를나타내는어휘근접밀도 (Lexical neighborhood density, Luce & Pisoni, 1998) 로오인식의문제점들을설명하려고했다. 음소배열론은 Crystal(1992) 에따르면어떤한언어에나타나는음소들의배열유형을나타낸다. 예를들어, 영어에서는초성자음군이주로 spr, str, skr 등으로규칙적으로나타나며 smr과같은경우는나오지않는다. 이런음절이실제나타나는단어에서의분포도다르기때문에많이나타날수록어휘근접밀도도높아지게되고인식기의성능도떨어질수있다. 그래서윤정희 (2013) 는학습하기어려운음운요소가들어가있는단어들이오히려인식률이높게나타난현상에대해, 길이가짧은단어는어휘근접밀도가높고단어수가많은데비해길이가긴단어들은잘못인식이될만한단어가적어서일부음소를부정확하게발음하더라도더정확히인식한것으로추정했다. 일상생활에서화자는환경에따라발화방식을달리하는데 Lindblom(1990) 은아주시끄러운환경에서는좀더크고또렷하게천천히발화하고 (Hyper-dimension), 조용한환경에서는약간낮은목소리로빠르게발화하는 (Hypo-dimension) 방식으로청자를의식해서자신의목소리를조절한다고했다. 실제이런구분은이분법으로나눠지기보다는양극단사이에여러가지연속된단계의한부분에해당한다. 이런 Hypo-dimension 내에서도추가로변화를보이는데, Fowler & Housum(1987) 은자연발화에서이미한번발화한단어는두번째이후에는더짧게발음한다는점을보고했으며, Wright(2003) 도일상생활에서빈도가많이나타나는단어일수록모음공간이더좁아지며조음동작을적게한다고했다. 음향적으로는양병곤 (2012, 2014) 이미국인남성 9명이또렷한발음과대화체발음을조사해본결과피치값과스펙트럼에서차이를보임을보고했다. 그는또렷한발음은대화체에비해피치가높으며, 스펙트럼에서도고주파영역으로갈수록높아짐을보였다. 음성인식기는음향적자료를근거로이뤄지기때문에발화방식에따라인식률이달라질것으로예상된다. 이연구의목적은영어전공대학생들이서로다른발화양식 으로영어문단을읽었을때음성인식기가어떤표현이나단어를잘인식하고, 잘인식되지않는표현이나단어의음성언어학적특징은무엇인지등을살펴봄으로써이들의영어발음을진단하고교정하는데근본적인도움을주는것이다. 연구문제를구체적으로서술하면다음과같다. 1. 대학생들이발화한영어문단에대한단어인식률은어떠한가? 2. 대학생들이또렷한음성과대화체로발화한영어문단의어구별단어인식률은각각어떠한가? 3. 또렷한음성의단어인식률평균값으로구분한상 하위집단별단어인식유형은어떠한가? 이러한연구결과는대학생들의영어발음학습에필요한기초자료를제공하고, 새로운연구와분석방법은다양한수준의학습자와한국어를비롯한외국인의발음학습성취도에대한평가를통해개인별맞춤형학습방향을제시하거나, 궁극적으로는구글음성인식기와같은장치의개선에도움이될것으로기대된다. 2. 연구방법 2.1. 참여자연구의참여자는영어음성학과목을수강한대학생중 33명이다. 이들은영어교육을전공하는 2-3학년생으로원어민의회화수업을비롯한영어전공과목을이수하였고, 본인이평가한영어의사소통능력에서발음부분을중급이상으로표시한학생들이다. 이들은한학기동안영어자음과모음발음에대해기본적인교육을받았으며, 교수자는학기말에주어진영어문단에대한말하기평가를한다고공지했고, 이들이원어민의발음을들으며연습을하도록했다. 이렇게영어전공대상자를선택한이유는구글음성인식기가어느정도구별되는영어발음을하는경우에인식이바르게되기도하고, 실제교육현장에서적극적으로참여한대학생들을대상으로함으로써이들에게공통으로나타나는영어발음학습의문제점을찾아차후의교육과정에반영할수있기때문이다. 앞으로보다낮은등급의학습자들을대상으로단어인식률은낮더라도실험해보거나, 일정기간에걸쳐다양한방식의발음교육을실시한학습자들을대상으로발음학습의성취도를추정하는데활용하는연구도필요하다. 2.2. 녹음자료수집실험에사용한영어문단은 The speech accent archive(2017) 의원문을이용했다. 이사이트에는영어원어민과비원어민화자들이구어의전달문형태의문단을자연스럽게읽은녹음표본을제공하고있다. 이문단자체는영어에서나타나는자모음을모두넣으려고구성하는과정에서담화적인맥락의전개로서는부자연스러우나영어학습자의단어인식률을점검하는 44 Yang, Byunggon / Phonetics and Speech Sciences Vol.9 No.4 (2017) 43-50
데는도움이될것으로보아사용하게되었다. 녹음에서는구 두점이들어간원문을읽게했지만, 이논문에서는 69 개의연 속된단어로된텍스트를아래와같이 11 개의문장이나어구로 나누어설명하기로한다. 이가운데일부는완전한문장도있 지만이논문에서는어구로표현한다. 1 please call stella 2 ask her to bring these things 3 with her from the store 4 six spoons of fresh snow peas 5 five thick slabs of blue cheese 6 and maybe a snack for her brother bob 7 we also need a small plastic snake 8 and a big toy frog for the kids 9 she can scoop these things into three red bags 10 and we will go meet her Wednesday 11 at the train station 문단을어구로나눈이유는구글음성인식기에서구두점없이 대소문자를가리지않고단어인식을했고, 인식자료분석과정 에서사용한 R(v.3.4.1, 2017) 의문자열처리함수 (str_count) 에서 the 가두번나오는행이나, these 에들어있는 the 가함께단어로 처리하는것을피하기위해서분리했다. 하지만, 6 행의 her brother 는빈칸다음에오는 her 와다음단어의두번째음절에 쓰인빈칸없는 her 를다르게분석해주어서같은행에두었다. 덧붙여, 아래한글에서행을바꿀때자동으로첫글자가대문 자로바뀌는 Wednesday 를그대로두고나머지는소문자를사 용했다. 녹음하는과정은대학생들이조용한연구실에서 PC 컴퓨터 에연결된젠하이져헤드셋마이크를입에서 10 cm 정도로띄 운채발음하게하고이를 GoldWave(v5.70) 버전을이용해서 PCM signed 16 bit mono 로컴퓨터에녹음했다. 이들은영어문 단을모두두번씩발음했는데처음에는또렷한음성으로약간 느린속도로모든단어를명확하게발음했고, 이어서대화체로 평소의대화속도에맞춰약간빠르게발음했다. 서로다른양 식으로녹음하는음성사이에는약간쉬게했고, 잘못발음한 경우에는그문장부분만다시되풀이발음하게하고인식결과 텍스트에서는되풀이된앞부분을삭제했다. 2.3. 음성인식과정 음성인식과정은먼저구글문서작성 (docs.google.com) 에로그 인하여 Add-ons 에 EFV-Solution 이딥러닝뉴럴네트워크알고 리즘을이용하여개발한 Speech Recognition Soundwriter 를설 치한다. 이어서음성인식을켜고, 컴퓨터본체에서재생되는 대학생들의녹음된음성이윈도우즈의스테레오믹스기능을 통해인식기에입력되고실시간으로인식된단어가연이어텍 스트파일로저장됐다. 사전에녹음한음성의음량은헤드셋을 사용해서양호한편이나일부대학생의원래녹음한목소리가 다소약한경우가있어서프랏의폴더읽기와 scale to peak 함수 를이용해서각음성의최대값을기준으로한꺼번에증폭한다 음재생했다. 인식기의성능을사전에확인하기위해 The speech accent archive(2017) 에제공되어있는피츠버그태생의 42세미국인남성 (speakerid=61) 과브룩클린태생의 45세여성 (speakerid=121) 의음성을컴퓨터에서바로재생함과동시에스테레오믹스기능으로 GoldWave 에녹음한뒤, Praat(Boersma & Weenink, 2017) 에서최대값으로증폭하여인식시켜보았다. 그결과두사람의음성에대해 spoons 를 moons 로잘못인식한것을제외하고는영어문단의나머지모든단어를바르게인식했다. 2.4. 인식문단분석인식된영어문단은참여자별로연속된텍스트파일형태로저장하여 3.2절에서제시한것처럼 3~9개의단어로된 11개의문장이나어구로나누었다. 아래한글의찾아바꾸기를이용하여첫머리에오는단어를찾아한꺼번에줄바꾸기를통해행별로분할했다. 이어서잘못된단어로인식되거나누락된단어때문에분리가안된어구는연구자가원문문단과대조하면서수작업으로하나씩분할한다음, 참여자별로인식된단어목록으로된 11개의행을복사하여엑셀의열마다붙여서하나의통합문서로저장했다. 각행에대한분석은이통합문서를 R로불러와참여자와 11 개의어구별로되풀이하며인식된단어수와목록, 인식되지않는단어수와목록을매트릭스자료에모아하드디스크의결과파일에덧붙여쓰는스크립트를만들어실행했다. R에서의처리과정을간략하게서술해보면, 먼저문자열처리라이브러리인 stringr 패키지를설치하고 11개행의원래의단어목록을 r1, r2 r11 등의변수리스트로불러들여메모리에저장했다. 앞에서도언급했듯이문자열처리함수 (str_count) 에서빈칸이있는경우와없는경우가다르게처리되기때문에행의시작과끝에있는단어는각각뒤쪽과앞쪽에빈칸을넣어저장했다. 이어서, 결과를저장할빈매트릭스를 13개행과 7개의열로구성한다음, 첫줄에화자의번호와속도에따른구분기호를넣고, 두번째행부터는원래의단어목록에들어있는단어순서대로하나씩해당단어가화자별로인식된행의단어목록에들어있는지를 str_count 함수를이용해확인하고, 있으면인식된단어수를증가시키고동시에인식된단어를문자열에덧붙여변수로저장하고, 없으면잘못인식된단어수를증가시키고동시에문자열을덧붙여변수로처리한뒤, 결과로구한변수값을매트릭스의열에차례로입력했다. 이매트릭스의뒤쪽열에는화자마다인식된문자열을입력하여나중에잘못인식된단어를확인하기편하도록했다. 각각의매트릭스는최종적으로하드디스크의결과파일에자동으로덧붙여쓰며저장했다. 마지막으로이렇게처리한결과파일을엑셀에서다시불러와공백을기준으로텍스트나누기를시행하여엑셀의평균과표준편차등을구하는함수나정렬기능을이용하여전체적인단어인식률을계산하거나화자, 어구, 발화양식별로잘못인식된단어를분석하는데활용했다. 인식단어의빈도분포는정렬하여텍스트파일로저장한다음 R의 table 함수를이용하여 Yang, Byunggon / Phonetics and Speech Sciences Vol.9 No.4 (2017) 43-50 45
구했다. 구글음성인식기에서 5 와 6 등은숫자로표기되는경우 가많아분석의편의상모두찾아서 five 와 six 로바꾸어처리했 고 things 나 peas 는복수형이제대로인식된경우만옳게인식 된단어수로포함했음을밝힌다. 여기서는편의상단어인식률 을중심으로음성인식결과를다루지만, 복수형은쉽게주변단 어를통해추정할수있기때문에앞으로원어민에게문단텍 스트를들려주어서필요한정보를제대로전달했는지를평가 해보는연구가필요하다. 3. 분석결과와논의 3.1. 음성인식결과 대학생들이또렷한음성과대화체로발화한총단어수는 4,554 개이고, 이중에 3,325 개를바르게인식하여평균 73%( 표준편 차 =11.5%) 의전체단어인식률을기록했다. 발화방식별음성 인식결과를보면먼저또렷하게발화한총단어수 2,277 개중 1,761 개를바르게인식하여 77.3%( 표준편차 =9.6%) 의단어인 식률을기록했다. 대화체로발화한경우에는바르게인식한단 어가 1,564 개이고전체에서차지하는비율은 68.7%( 표준편차 =11.5%) 를차지해서또렷한발화에비해인식률이 8.6% 하락 했다. < 표 1> 은이러한결과를요약하여보여준다. Styles Number of correct words Number of incorrect words Sum Word recognition rates (%) Clear 1,761 516 2,277 77.3 Casual 1,564 713 2,277 68.7 Total 3,325 1,229 4,554 73.0 표 1. 대학생들이발음한영어문단의음성인식 Table 1. Word recognition of the English paragraph produced by Korean college students 구체적으로조사해본결과또렷한음성에서가장높은단어 인식률을보인대학생은 95.7% 를기록했고, 가장낮은단어인 식률을보인대학생은 52.2% 를보였다. 대화체에서는 92.8% 에 서 44.9% 까지범위에걸쳐다양하게분포되어있다. 이렇게대 화체의단어인식률과범위가상대적으로낮은이유는, 대화체 로발음할때조금빠른속도로연음이나음운변동을일으켜 발음했기때문으로여겨진다. 음성인식이되지않은구체적인 단어들과빈도수분포에대해서는다음절에서자세히살펴보 기로한다. 한편일부대학생들은발음평가를의식해서대화체 라고해도또렷한음성보다약간더빠른대화체로발음했기 때문에이차이가적었다고여겨진다. 이번에는어구별로또렷한음성과대화체에대한단어인식 률을 < 표 2> 를통해살펴본다. Row Clear Word Casual Word recognition recognition No. Correct Wrong rates Correct Wrong rates 1 95 4 96.0 78 21 78.8 2 182 16 91.9 149 49 75.3 3 146 19 88.5 136 29 82.4 4 84 114 42.4 59 139 29.8 5 92 106 46.5 78 120 39.4 6 238 26 90.2 237 27 89.8 7 223 8 96.5 211 20 91.3 8 224 40 84.8 197 67 74.6 9 154 143 51.9 124 173 41.8 10 195 36 84.4 166 65 71.9 11 128 4 97.0 129 3 97.7 표 2. 대학생들이발화한영어문단의어구와발화양식별단어인식 Table 2. Word recognition of the English paragraph produced by Korean college students according to the phrase number and speech styles < 표 2> 에서보면또렷한음성에서가장높은단어인식률을 보인어구는 11 번으로단어수도 4 개이고전치사구라는하나의 의미단위로되어있어서그런지 97% 의단어인식률을보였다. 이어서 7 번과 1, 2, 6 번어구가 90% 이상의단어인식률을보였 다. 그런데 4 번과 5 번어구는각각 42.4% 와 46.5% 로 50% 가채 안되는아주낮은단어인식률을보인다. 이렇게낮은인식률 을보인이유는다른어구에비해마찰음 [s] 가많이들어간것 이한가지원인으로보이는데, 다음단락에서구체적으로분 석해보기로한다. 9 번어구도 51.9% 를기록해서이들세어구 는우연의확률에못미치거나가깝다. 대화체에서도 11 번과 7 번어구는각각 97.7% 와 91.3% 를기록했고, 6 번어구는또렷한 음성에비해서한단어만차이가나고세번째로잘인식된어 구다. 대화체에서아주낮은단어인식률을보인어구는또렷한 음성에대한인식률의순서와같이 4 번과 5 번어구로각각 29.8% 와 39.4% 를기록했고, 9 번어구는 41.8% 로또렷한음성 의발음에비해단어인식률이 10% 나떨어졌다. 약간느린속도 로발음한또렷한음성에비해평소의대화속도로다소빠르 게발음한대화체음성으로갈수록단어인식률이떨어지는경 향을보이고있는데, 1 번과 2 번어구에서각각 17.2% 와 16.7% 로가장많이떨어졌고, 3 번, 5 번, 6 번, 7 번어구에서안정적으 로가다가 8 번, 9 번, 10 번어구부터 10% 이상을기록했고마지 막어구에서는 0.8% 상승했다. 마지막어구를뺀나머지어구의 평균을내면 9.8% 의하락률을보였다. 이러한경향은연구자가 녹음된음성을여러번들으며음성인식의문제점이무엇인지 파악하는과정에서일부대학생들이대화체의발음요구에서 둘러속도를내어발음하다가중간부분에서는약간늦추었다 가다시빠르게발음하면서오류가늘어났거나, 어구에들어있 는단어들의조음특성상발화양식에관계없이에러를보인것 등을원인으로추정하는데앞으로더세밀한조사가필요하다. 이번에는구체적으로어떤단어들이이런발화양식에따른 단어인식률의차이를보였는지를 < 표 3, 4> 를통해살펴보기 로한다. 지면상오인식단어수가 7 개이상이란임의기준을적 46 Yang, Byunggon / Phonetics and Speech Sciences Vol.9 No.4 (2017) 43-50
용해서표로나타내었다. Words Freq Words Freq Words Freq Words Freq slabs 33 she 20 bob 15 we 10 thick 33 snow 20 of 15 for 8 spoons 31 six 19 kids 14 the 8 bags 28 fresh 18 blue 11 things 8 red 26 these 18 frog 11 will 7 scoop 26 can 17 cheese 10 peas 20 her 16 five 10 표 3. 대학생들이또렷한음성으로발화한영어문단의오인식단어와빈도 Table 3. Frequency distribution of unrecognized words of the English paragraph produced by Korean college students in clear speech Words Freq Words Freq Words Freq Words Freq these 37 red 26 six 14 stella 8 her 35 of 24 a 13 Wednesday 8 slabs 33 she 24 bob 12 call 7 spoons 33 can 20 will 12 for 7 thick 33 things 19 five 11 go 7 bags 28 frog 18 meet 11 into 7 fresh 27 kids 16 three 11 peas 27 we 16 toy 11 scoop 27 blue 15 with 11 snow 27 cheese 15 ask 8 표 4. 대학생들이대화체로발화한영어문단의오인식단어와빈도 Table 4. Frequency distribution of unrecognized words of the English paragraph produced by Korean college students in casual speech 인식된단어들을기능어와내용어로나누어살펴보면기능 어가오인식률을높인주된요인으로여겨진다. 영어학에서는 단어를내용어와기능어로구분하는데, 명사, 형용사, 동사등 은의사전달의핵심이담긴내용어이고관사, 전치사, 대명사 등은문법적인기능을담당하고있어서기능어로분류한다 (Fromkin & Rodman, 2013). 특히, 또렷한음성에서대화체로갈 수록 her, of, she, can, we, a, will, with, for, into 등의기능어가눈 에띄게높은오인식빈도수를보인다. 구체적으로 < 표 3> 에서 her 의오인식빈도수는 16 번인데비해 < 표 4> 에서는 35 번으로 두배이상이나증가했고, of 도또렷한음성에서는 15 번이었는 데대화체에서 24 번으로증가했음을알수있다. 한편많은단 어에서마찰음이오인식의원인으로보인다. 앞서원어민 2 명 의발화에서도유일하게 spoons 가 moons 로잘못인식되었는 데, 대학생이발음한음성의인식률을 < 표 3, 4> 에서보면, slabs, spoons, scoop, snow 등이높은오인식을보였고, 앞에서 분석한어구별오인식률에서도 4, 5, 7, 9 번어구는주로 [s] 로 시작하는단어가눈에띄게많은것을알수있다. 이와마찬가 지로복수형접미사로쓰이는마찰음때문에단어인식률이낮 은단어들로는 spoons, bags, peas, kids, things 등의순서로오인 식률이낮아진다. peas 는 piece 로많이인식되었다. 이런경향 을뒷받침하듯이또렷한음성에서초성과종성양쪽에이마찰음이들어간 slabs는두가지발음양식에서모두인식이되지않았다. 이러한낮은단어인식률은개인별발음오류에도문제가있지만, 원어민의발음 (spoons) 에서도오류가난점을생각해볼때, 음향적으로공명도 (sonority scale) 가다른자음에비해상대적으로낮고, 이마찰음의스펙트럼에서는 4000~8000 Hz 사이에절단주파수 (cutoff frequency) 가나타나 (Kent & Read, 2002; Pickett, 1987), 이부분이적절히입력이되지않거나활용되지않아인식에오류를가져왔을것으로여겨진다. 또다른마찰음이포함된 these, thick, things, three의오인식도 fresh, frog, five와함께높게나타났는데대화체에서유성마찰음이들어간 these의오인식빈도가가장높은 37번을보였다. 실제이단어는 1번과 9번어구에두번쓰였기때문에반이상이오인식되었다고볼수있다. her도 4번쓰였기때문에빈도가높게나타났다. 이렇게빈도가높은단어의인식오류는서론에서살펴본어휘근접밀도에따른원인도포함되어있을것이다 (Vitevitch & Luce, 2004; Luce & Pisoni, 1998). 이외에도초성에유성음이없는한국어의특성상 bags, bob, blue가오인식되는비율이높았고, red, frog, three발음에서는대학생들의영어조음이불안정한 [r] 발음이원인의일부로보인다. 또렷한음성에서 bags는 5명의발음에서만바르게인식되었고, 21명의발음에서는 back으로잘못인식되었고, 대화체에서 8명의발음이바르게인식되고 back으로잘못인식된경우가 13명이나되었다. 종성의유성자음도발음에문제가있음을알수있다. kids는또렷한음성에서 19명의음성이바르게인식되었고, 또렷한음성과대화체음성모두에서 10명의발음이 key(s) 로인식되었는데이완모음 [ɪ] 를너무강하게발음한것이원인으로보인다. 어절로된 fresh snow는대화체에서 6명의발음이바르게인식되었고, 19명의발음은 fresno로인식되었다. these things는대화체에서 15명의발음이바로인식되었고, 13명의발음이 things로인식되었는데앞단어를 this로인식한경우가 9번이나왔고, 나머지는 his나, a, the로인식된예도있었다. 구글인식기의기능에이런수의일치부분을처리해주거나문맥에따라인식단어를결정하는상위수준의후처리가필요할것으로여겨진다. 여기에서는조사할수없었지만, 서론에서보았던어휘근접밀도 (Luce & Pisoni, 1998) 도영향을주었을것으로보여진다. 결국이런단어들을중심으로개인별발음의문제점을진단하고이를바르게교정시켜서인식률을높이거나음성인식기의근본적인문제점을찾아성능을개선하는방향의실험이필요하다. 요약하면, 영어문단의단어인식률은대학생들마다독특한개인별발화특성과발화양식에따라달라지고, [s] 와같은특정한음성이들어간어구에서보았듯이구글음성인식기자체의음성처리방식에서오는요인들이결합되어단어인식률이낮아졌음을알수있다. 3.2. 상 하위집단별음성인식결과이번에는또렷한발음에대한단어인식률의전체평균인 77.3% Yang, Byunggon / Phonetics and Speech Sciences Vol.9 No.4 (2017) 43-50 47
를기준으로상위집단 17명과하위집단 16명으로나누어집단별단어인식경향을조사해보았다. 이렇게집단별로나누면전체결과에서볼수없는특징을파악할수있고집단별또는수준별영어발음교육의방안이나개인별맞춤형지도방안을찾는데활용할수있을것이다. 덧붙여, 이러한집단별구분은대학생들의발음을원어민에게들려주어전체적인발음평가점수를기준으로나눌수도있고, 단어인식률과평가점수가상관관계를보인다면발음평가를대체할수있을것으로기대되는데앞으로더연구가필요하다. 우선상 하위집단별단어인식률의평균과표준편차를살펴보면 < 표 5> 와같다. 로상위집단에서는두명의단어인식률이 2%~6% 상승하였고, 하위집단에서는세명의단어인식률이 2%~9% 로상승한결과를보였다. < 그림 1> 의맨아래에위치한한화자는또렷한음성에서는 81.2% 의단어인식률을보였으나대화체에서는 10 번과 11번어구가완전히인식되지않아 44.9% 로낮아졌다. 이러한참여자별특성을살펴보기위해 < 그림 2> 에개인별로또렷한음성과대화체의발화양식에따라인식률의변화를나타내어보았다. High level group Low level group Styles mean(%) s.d.(%) mean(%) s.d.(%) clear 84.5 4.7 69.7 7.3 casual 74.4 12.0 62.6 8.1 표 5. 상 하위집단별단어인식률평균과표준편차 Table 5. Means and standard deviations of word recognition rates by high and low level groups 개인별특징을자세히살펴보기위해서상 하위집단별단어 인식률분포를그래프로나타내면 < 그림 1> 과같다. 그림 2. 또렷한음성과대화체의상위집단 (High Level) 과하위집단 (Low Level) 의개인별단어인식률분포 Figure 2. Distribution of word recognition rates of high and low level groups in clear and casual speech 각화자별로발화양식별대응상관계수는 0.66(p<.05) 으로약한상관을보이고있다. 이런관계는단어인식률에서영어전공대학생을대상으로했고, 특정단어의분포나기능어등을화자마다다르게발음한결과가영향을미친것으로생각된다. 특히상위집단에서또렷한음성의단어인식률과대화체의단어인식률은최대 36.2% 의차이를보였고, 이어서 21.7%, 17.4%, 14.5%, 13%, 11.6% 로이어지고, 나머지는모두 10% 이하로떨어지는경향을보였다. 하위집단에서는최대 23.2%, 18.8%, 15.9%, 13% 등의순서로단어인식률의차이를보였고, 나머지는모두 10% 이하를보였다. 대다수화자들이대화체에서단어인식률이대체로하락하는경향을보였는데, 이와반대 < 그림 2> 에서보면또렷한음성보다는대화체에서개인별차이가크게나타나고있는데, 이는앞의 < 표 3, 4> 에대한논의에서도보았듯이개인별로기능어에대한발음이나마찰음에대한오인식에덧붙여, 보다빠른속도로발음하는과정에서생략이나연음을자연스럽지발음하지못해서, 구글인식기가기능어와내용어가합쳐진새로운영어단어로인식했기때문으로여겨진다. < 그림 1> 에서대화체에서인식률이가장많이떨어진대학생은상위집단의 s11번임을알수있고, 또한하위집단에서는 s10 대학생도대화체에서매우낮아진단어인식률을보이고있음을알수있다. 이러한화자개인별특성을그림으로나타낸다면, 개인별발음의문제점을진단하고맞춤형으로개선하는방법을찾는데활용할수있을것으로기대된다. 덧붙여, 일정기간에걸쳐영어발음을지도하고학습자의발음습득여부를알아보기위해음성인식기로단어인식률을구해학습효과를비교분석할때는발화양식과수준별특성을고려해서측정해야할것으로여겨진다. 지금까지발화실험에참여한대학생들의단어인식률의평균을기준으로상 하위집단으로나누어살펴본결과전체적으로는수준별로약한상관관계를보이지만, 일부개인의발화양식별차이가있으므로이런요인을연구방법에반영할필요가있음을알수있다. 48 Yang, Byunggon / Phonetics and Speech Sciences Vol.9 No.4 (2017) 43-50
4. 요약및결론이논문에서는음성인식기술을발음진단과개선에활용할목적으로 33명의대학생들이또렷한음성과대화체의두가지양식으로발음한영어문단을구글음성인식기를이용해인식시키고, 원문텍스트와인식된어구의단어를비교했다. R의분석스크립트와 table 함수를이용해서단어별로바르게인식된빈도수와오인식된단어들을조사했다. 이어서또렷한발음의단어인식률평균값을기준으로상 하위집단으로나누었을때집단별단어인식률의분포와개인별음성인식경향을단어를구성하는음성의유형별로분석하여대학생들의영어발음의문제점을찾아보았다. 연구결과를요약하면다음과같다. 첫째, 대학생들이발화한영어문단의전체단어인식률은 73% 이고표준편차가 11.5% 로나타났다. 영어교육을전공하고있는대학생들이영어발음에대해기본적인교육을받고적극적으로실험에참여하게되어다소높은단어인식률을보였다. 둘째, 발화양식에따라분리하여보면또렷한음성에서 77.3% 를기록했고, 대화체에서 68.7% 를보였는데, 다소빠른속도로발화한대화체의단어인식률이전체적으로낮았다. 구체적으로단어인식률은개인별발화의특성과내용어보다는기능어의인식이낮았고, 마찰음이들어간단어들에서대체로낮은인식을보였는데, 그원인으로개인별발화오류와원어민의음성인식에서도드러난점을고려해볼때음성인식기자체의문제점도있었다. 셋째, 실험에참여한대학생들의또렷한음성에서구한단어인식률의평균을기준으로상 하위집단으로나누어살펴본결과전체집단에서볼수없었던개인별특성이드러났다. 음성인식기를이용해서발음의문제점을진단하고이를집단별수준별맞춤형교육을제공하는데활용하려면발화양식에따른변수도고려할필요가있다. 이러한결과를보면대학생들의영어발음의문제점을진단하는데음성인식기가매우유용하다고결론을내릴수있다. 앞으로영어학습자들이단기간이나장기간에걸쳐발음학습을했을때단어인식률이얼마나변하는지, 또외국인들의한국어학습에서도이런분석방식을적용하여연구해볼계획이다. 참고문헌 Boersma, P., & Weenink, D. (2017). Praat: Doing phonetics by computer. Retrieved from http://www.fon.hum.uva.nl/praat/ on October 2, 2017. Crystal, D. (1992). An encyclopedic dictionary of language and languages. Middlesex, U.K.: Blackwell. Fowler, C., & Housum, J. (1987). Talkers signalling of new and old words in speech and listeners perception and use of the distinction. Journal of Memory and Language, 26, 489-504. Fromkin, V., & Rodman, R. (2013). An introduction to language. Belmont, CA: Wadsworth. Jusczyk, P., Luce, P., & Charles-Luce, J. (1994). Infants sensitivity to phonotactic patterns in the native language. Journal of Memory & Language, 33, 630-645. Kent, R., & Read, C. (2002). Acoustic analysis of speech. San Diego, CA: Singular Publishing Group. Lindblom, B. (1990). Explaining phonetic variation: A sketch of the H-H theory. In W. Hardcastle, & A. Marchal (Eds.), Speech production and speech modelling (pp. 403-439). London: Kluwer Academic Press. Luce, P., & Pisoni, D. (1998). Recognizing spoken words: The neighborhood activation model. Ear & Hearing, 19, 1-36. Pickett, J. (1987). The sounds of speech communication: A primer of acoustic phonetics and speech perception. Austin, Texas: pro-ed. R. Core Team. (2017). R: A language and environment for statistical computing. Retrieved from https://www.r-project.org/ [R Foundation for Statistical Computing, Vienna, Austria] on October 1, 2017. Vitevitch, M., & Luce, P. (2004). A web-based interface to calculate phonotactic probability for words and nonwords in English. Behavior Research Methods, Instruments, & Computers, 36(3), 481-487. Wright, R. (2003). Factors of lexical competition in vowel articulation. In J. Local, R. Ogden, & R. Temple (Eds.), Papers in laboratory phonology VI (pp. 75-87). Cambridge: Cambridge University Press. Yang, B. (2012). Pitch and formant trajectories of English vowels by American males with different speaking styles. Phonetics and Speech Sciences, 4(1), 21-28. ( 양병곤 (2012). 발화방식에따른미국인남성영어모음의피치와포먼트궤적. 말소리와음성과학, 4(1), 21-28.) Yang, B. (2014). Spectral characteristics and formant bandwidths of English vowels by American males with different speaking styles. Phonetics and Speech Sciences, 6(4), 91-99. ( 양병곤 (2014). 발화방식에따른미국인남성영어모음의스펙트럼특성과포먼트대역. 말소리와음성과학, 6(4), 91-99.) Yun, J. (2014). Analysis of Google Voice Actions' recognition of English word pronunciations by Korean young learners of English for the purpose of developing an English teaching assistant robot. M.A. Thesis, Kyungpook National University. ( 윤정희 (2014). Google 음성인식프로그램에의한한국어린이영어학습자의영어단어발음인식실태분석 : 영어학습도우미로봇개발을목적으로. 경북대학교석사학위논문.) Yang, Byunggon / Phonetics and Speech Sciences Vol.9 No.4 (2017) 43-50 49
양병곤 (Yang, Byunggon) 부산대학교영어교육과부산시금정구장전동 30 Tel: 051-510-2619 Email: bgyang@pusan.ac.kr Homepage: http://fonetiks.info/bgyang 50 Yang, Byunggon / Phonetics and Speech Sciences Vol.9 No.4 (2017) 43-50