언어치료연구 제24권제4호 Journal of Speech-Language & Hearing Disorders http://www.ksha1990.or.kr/ 2015, Vol.24, No.4, 103 ~ 112 http://dx.doi.org/10.15724/jslhd.2015.24.4.010 음성인식을이용한어음인지역치검사어플리케이션개발을위한기초연구 Development of a Speech Recognition Threshold Application Using Voice Recognition Technology: Pilot Study 배인호 1) 김근효 2) 박희준 3) 김진동 4) 권순복 5) In Ho Bae Geun Hyo Kim Hee June Park Jin Dong Kim Soon Bok Kwon < Abstract > Purpose: Voice recognition technology (VRT) is expanding to areas beyond the IT field such as automotive, medical, and financial fields. The purpose of this study is to develop a method for a speech recognition threshold (SRT) test based on Google s VRT and the Android platform. SRT results obtained via the new method were compared with conventional SRT results. Methods: Fifteen normal hearing subjects participated in this study. The mean age was 27.5 years and the mean hearing threshold was 9.8dBHL. We used two sets of word and voice samples from speech spondee word lists. We developed a new application for the purpose of this study and Google provided an open API. We constructed the test environment using a self-developed application connected with audiometry. Both the conventional SRT test and the SRT test based on Google s voice recognition and Android platform were performed in the same condition. Results: We conducted a non-inferiority trial to identify the equivalence between the conventional SRT test and the VRT based test and identified the voice recognition rate of the SRT application. The SRT based SRT test showed non-inferiority at voice recognition (CI: -1.021~.221, Δ=1) rate and threshold (CI: -.062~.328, Δ=2) compared to the conventional test. Also, the recognition rate of the SRT application using Google's VRT was 98.81%. Conclusions: Voice recognition technology could be applied in SRT tests. The VRT-based SRT test was not significantly different from the conventional SRT, thus it was a clinically effective tool. Keywords: Voice recognition, SRT, Android application Ⅰ. 서론 음성인식 (voice recognition) 은컴퓨터가음향학적신호를텍스트로맵핑시키는과정으로인식된결과는명령이나제어, 데이터입력, 문서준비등의응용분야에서최종결과 1) Dept. of ORL-HNS, Pusan National University Yangsan Hospital 2) Dept. of ORL-HNS, Pusan National University Hospital 3) Dept. of Speech Rehabilitation, Choonhae College of Health Sciences 4) Dept. of Speech and Hearing Therapy, Catholic University of Pusan 5) Dept. of Linguistics Information, Pusan National University Received October 28, 2015 Revision received December 21, 2015 Accepted December 29, 2015 로사용되고있다 (Korea Creative Content Agency, 2011). 이러한음성인식기술은 IT분야를넘어자동차, 의료, 금융등의분야까지적용이확대되고있고언어치료에서도마비말장애환자의 AAC와청각장애와음성장애환자의명료도와관련하여다양한연구들이진행되고있다 (Fager et al., 2010; Mustafa et al., 2014; Wisenburn & Higginbotham, 2008). 음성인식은인식방법에따라첫째, 화자를특정지음에따라고정어휘나음성등록과같이특정화자의음성데이터만을기준으로하여음성패턴을분석하는화자종속음성인식과둘째, 불특정화자즉, 성별, 연령, 나이등에한정되지않고모든음성데이터를기반으로음성패턴을분석하여인식대상어휘를텍스트로입력하는화자독립인식이있고셋째, 인식단어에따라고립단어나무제한적인어휘를인식하는연속단어인식으로나눌수있다. 과거에는숫자인식이나명령및제어등특정영역에서고립단어인식이주로사용되었으나컴퓨터연산속도의발달과대용량데이 103
104 언어치료연구 ( 제 24 권제 4 호 ) 터베이스를기반으로화자독립가변어인식과대어휘연속단어인식쪽으로음성인식기술이발전되고있다 ( 그림 1). 그러나음성인식은기본적으로높은인식률을필요로하기에각영역의필요목적에따라다양한음성인식방법이활용되고있다. 최근들어구글의음성인식기술은통제된조건에서단어수준의인식률이 100% 로나타나는등음성인식기술이지속적으로발달되어오고있다 (Neil, 2014). 그림 1. 음성인식의최근경향 Figure 1. Recent trend of voice cognition 이러한음성인식기술은스마트폰과접목되면서전문적인영역에서일상생활영역까지그범위가급속도로확장되고있는추세이다. 스마트폰이대중화된지는최근몇년에불과하지만움직이면서컴퓨터를사용하고자하는노력의일환으로애플의뉴튼이나컴팩의 ipaq와같은휴대용장비들이개발되어왔다. 그러나이러한장비들은연산속도와용량, 네트워크환경, 소프트웨어등의제한으로대중적으로활용되기에어려움이있었다. 그러나아이폰을시작으로스마트폰은최근쿼드코어급이상의 CPU를사용함으로컴퓨터에버금가는연산속도로작업을수행할수있게되고무선네트워크환경의발전과더불어스마트폰을이용한다양한프로그램들의개발되면서활용폭이급속도로증가하고있는추세이다 (Lee & Kim, 2014). 특히여러모바일운영체제에적합화된여러종류의 Application program interface(api) 들이제공됨에따라프로그램의개발을용이하게해주고있다. 음성인식의경우도구글에서음성인식 API를제공하고있어따로음성인식엔진을프로그램밍하지않아도손쉽게음성인식을이용한프로그램의개발이용이하게이루어질수있다. 안드로이드역시오픈소스로써어플리케이션개발을위한플랫폼을무료로제공하고있다. 안드로이드는 Open handset alliance(oha) 컨소시엄에의해개발된모바일운영 체제로써구글이실질적으로주도하고있는오픈소스운영체제이다. 리눅스를기반으로하여자바언어를사용하고있어공신력있는커널에전문지식이없어도개발이가능한장점이있다. 또한검증된라이브러리를포함하고있어외부라이브러리를이용하지않고도대부분의기능을구현할수있고플랫폼에시스템프로그램과개발자의프로그램이동일한 API를사용하므로개발자의의도에따라구성요소들의수정및대체하기에비교적자유롭다는장점이있다. 가장큰장점은커널을비롯해운영체제의코어소스까지모든것이오픈소스이기에자유롭게이용가능하다는것이다. 이러한정보통신기술과의료분야의만남은 U-헬스케어 (Ubiquitous healthcare) 라는개념을만들어내었다. 모바일을이용해데이터의측정, 전송, 분석이가능하고최종적으로는의사에게까지정보가제공되도록구성되어질수있어스마트폰의발달과더불어급속도로발전하고있다. 그결과융합연구로다양한분야에서괄목할만한성과를보이고있고언어치료분야에서도치료및평가프로그램을중심으로많은앱들이개발되고있다 (Devlin & Unthank, 2006; Fernandes, 2011; Joshi, 2011; Kuster, 2012; Madeira et al., 2011; Yim et al., 2015). 어음인지역치 (Speech recognition threshold, SRT) 검사는각각의음절에강세가있는이음절낱말을 50% 이상정확하게인지할수있는최소어음역치 (dbhl) 를구하는검사로어음에대한청취능력및이해정도를알수있다. SRT 검사는일상생활에서친숙하게사용되는이음절낱말중양양격낱말을이용하여검사를실시하게되고이때사용되는어휘목록은각나라마다표준화된검사낱말목록을이용하여검사를실시하게된다. 현재우리나라에서는 Cho 등 (2008) 과 Hahm(1962) 이제시한한국어이음절낱말 (Korean spondee word) 이임상적으로많이활용되고있다. 검사는녹음된낱말샘플을대상자에게들려주고따라말하게하고검사자가대상자의발성을듣고정오답을평가한다. SRT는순음이아닌복합음인어음을이용하므로순음청력검사 (pure tone audiometry, PTA) 로알기어려운의사소통상황에서어음청취또는인지능력을정확하게평가할수있다. 또한 PTA와비교하여검사의정확도및신뢰도를알아보는데이용되고단어인지도검사의기초자료로도제공된다 (Choi, 2013). 이연구에서는위에서기술한구글의음성인식기술과안드로이드플랫폼을어음인지역치검사에활용한 SRT 어플리케이션을개발하여구글음성인식 API를이용한안드로이드어플리케이션의음성인식률을살펴보고검사자의청취에기반한기존의 SRT 검사와음성인식에기반한 SRT 검사와의동등성을검증하고자한다.
음성인식을이용한어음인지역치검사어플리케이션개발을위한기초연구 105 1. 연구대상 Ⅱ. 연구방법 이연구는 20~35 세사이의성인으로남자 9명, 여자 6명총 15명을대상으로하였고대상자들의평균연령은 27.5세 (SD=4.72), 순음청력검사상평균청력은 9.98dBHL(SD=4.8374) 이었다. 외이도내시경상이상소견이없고이과적수술력이없는자중순음청력검사의 6분법 (500Hz + 2 1000Hz+2 2000Hz + 4000Hz/6) 상 25dB 이하로모든주파수가청역치가정상범위 (0~25 dbhl) 에있는자, 발성및조음에문제가없는자로하였다. 대상자의정보는표 1과같다. 표 1. 대상자들의개인별특성 Table 1. Individual characteristic of subjects a Sex Age PTA Speech perception test a 1 Female 22 6.7 20 2 Female 24 10 20 3 Female 34 7.5 20 4 Female 20 9.2 20 5 Female 33 8.3 20 6 Female 34 9.8 20 7 Male 26 13.3 20 8 Male 31 2.5 20 9 Male 23 14.1 20 10 Male 27 12.5 20 11 Male 29 5.8 20 12 Male 31 18.3 20 13 Male 21 9.2 20 14 Male 28 19.2 20 15 Male 30 3.3 20 MTP (monosyllable-trochee-polysyllable) task of EARS-K (evaluation of auditory responses to speech-korea) 2. 검사방법 1) 검사프로그램구글의경우음성인식 API를안드로이드에적용가능하도록개방하고있어연구자의목적에맞게어플리케이션으로개발하기용이하다. 음성인식엔진은가우시안혼합모델 (Gaussian mixture model: GMM) 에대한군집화방식을이용한구글의음성인식기술을활용하였고안드로이드플랫폼을기반으로어플리케이션을개발하였다. 앱개발에앞서자바언어를사용하기위한 JDK(http://www.oracle.com), 전용개발툴인이클립스 (http://www.eclipse.org), 이클립스에서안드로이드모바일플랫폼을직접적으로지원하게하기위한개발킷인 Android development tool(adt) 플러그인, 안드로이드플랫폼을제공하는 SDK 등을사용하여개발환경을구축하였다. 개발에사용되는모든도구는무료로제공된다. 이연구에서는안드로이드의 Native API를사용하여안드로이드에서제공하는 User interface(ui) 를이용하였다. 이클립스를통해어플리케이션의동작, 레이아웃, 리소스폴더, 메뉴등을프로그래밍하여어플리케이션을구현하였다. 그림 1에서보는바와같이첫째, 화면이동, 특정버튼의동작, 레이아웃등음성을받아들일수있는준비를한다. 둘째, 시작시리소스폴더에저장된음성샘플을랜덤으로출력되게한다. 셋째, 마이크를통해 50dB 이상의음성신호를탐지하여음성을입력받는다. 넷째, 앞단계의입력이끝난후 50dB 이하로 200ms 동안유지되면음성데이터를서버로전송시킨다. 다섯째, 음성인식에대한결과를 2개의쌍으로제시하도록한다. 여섯째, 결과가출력되고 100ms 후나버튼 (next) 을클릭시다음단계의음성샘플과단어목록이제시되도록한다. 일곱째, 처리된결과를제시하도록한다. 그림 2. Voice recognition based SRT application Figure 2. 음성인식 SRT 어플리케이션모든음성데이터의판단은서버에서이루어지며명확한판단을위해언어설정을한국어로제한하였다. 서버에서 GMM에의해판단된결과는여러후보군에대해확률로정확도가제시된다. 이결과를바탕으로서버에서제시한가장높은확률의후보군이제시된단어와동일하다면 O, 그렇지않다면 X로어플리케이션에서출력되게하였다. 2) 검사환경스마트폰을청력검사기기에연결하여어플리케이션을통해랜덤으로준비된음성샘플세트를제시되도록하여청력검사기기를통해강도를조절하도록하였다. SRT 검사는대상자의음성을인식하기위해단일지향성마이크 (SM48,
106 언어치료연구 ( 제 24 권제 4 호 ) shure) 를이용하여방음부스안에서실시되었다. 단일지향성마이크의경우전방부의감도가좋고측후면의소음의영향을감소시킬수있어보다나은음성입력에용이하다. 검사환경의구성은그림 3과같다. 그림 3. 검사구성도 Figure 3. Test construction 음성샘플의출력과음성인식을위한대상자의음성입력이동시에이루어져야하기때문에 4극 Y젠더 (NM-MCG01, NETmate, Korea) 를사용하였고마이크와청력검사기기를스마트폰에연결하였다. 청력검사기기의경우, 기본적으로청취를위한출력시스템이기때문에음성녹음및인식등을위한입력시스템으로활용하기에제한점이있다. 이를극복하기위하여 SM48 지향성마이크와외장형사운드카드 (Maya U5, Audio track) 를연결하여사운드카드를통해필터링된대상자의음성이스마트폰으로입력되도록구성하였다. 스마트폰을통해음성을입력하는방법은내장마이크와외장마이크를이용하는방법이있다. 내장된 2개의마이크의시간차이를이용해소음을줄이는패시브노이즈캔슬레이션과소음으로소음을제거하는엑티브노이즈캔슬레이션의기술을이용한다. 외장마이크의경우정확한녹음을위해서는단일지향성마이크가주로이용된다. 또한입력된신호들은피크스무딩을이용해보다나은음질로저장되도록구성되어있고자동이득제어 (Auto gain control, AGC) 를통해안정된파형을유지하도록되어있다. Kim 등 (2015) 의연구를보면내장마이크의이용한직접입력시, 하드웨어노이즈와내장마이크성능에따라입력음질에영향을미칠수있다고보고하고있어보다나은입력음성의획득을위해외장사운드카드와외장마이크를이용하였다. 2) 검사절차검사에앞서대상자들의청력을확인하기위해 PTA를실시하였다. PTA는 GSI61(Grason Stadler, USA) 청력검사기기를사용하였고어음청취를위해온이어 (on-ear) 타입의 헤드폰 (TDH-50D, Telephonics, USA) 을사용하였다. SRT 검사는 PTA와동일한기기를이용하여 250~8000Hz 에대해실시하였고대상자의음성을인식하기위해 Shure48 마이크를이용하여방음부스안에서실시되었다. 검사샘플은 Cho 등 (2008) 이제시한이음절어의어휘와음성샘플을이용하여무작위순서로구성된검사세트 2개를만들어검사에사용하였다 ( 부록 1). 역치는 PTA 평균 +10dB를시작역치값으로하여정반응시 4dB 하강, 오반응시 2dB 상승시켜검사하는수정상승법 (modified ascending method) 을이용하여구하였다. 검사시인식률은음성의속도와크기에영향을받기때문에인식률향상을위해대상자에게충분한강도와정확한조음을요구하였다 (Park et al., 1995). 일반적으로임상에서사용하는방법인검사자의청취를기반으로한 SRT 검사를실시함과동시에검사를위해설계된음성인식어플리케이션을이용하여음성인식기반 SRT 검사를실시하였다. 음성인식 SRT 검사의경우, 대상자가헤드셋을통해음성샘플을듣고발화시어플리케이션에서음성을인식하여정답과오답을자동으로판별하게하였다. 어플리케이션이음성을인식하고정오답을인식하면다음음성샘플을자동으로제시하거나필요에따라검사자가버튼 (next) 을클릭하여다음음성샘플을제시할수있도록하였고 4개단어씩나누어정오답율을계산하게하였다. 50% 이하의정답률을보일때자동으로검사가종료되도록설정하였고검사역치는어플리케이션에검사자가직접입력하도록구성하였다. 3. 자료분석이연구에서는각검사를통해수집된자료를바탕으로검사자의청취에기반한전통적 SRT 검사결과와음성인식을이용한 SRT 검사결과를비교하였다. 음성인식 SRT 검사의비열등성을알아보기위해대응표본 t-검정 (paired t test) 을이용하여비열등성검정 (non-inferiority test) 을실시하였고음성인식 SRT 검사에활용한어휘의음성인식결과정확도를살펴보기위해오류율에대해기술통계로분석하였다. 통계처리는 SPSS 21.0을이용하여분석하였다. Ⅲ. 연구결과 1. 검사단어에대한음성인식률 SRT 음성인식어플리케이션의음성인식률을살펴본결
음성인식을이용한어음인지역치검사어플리케이션개발을위한기초연구 107 과, 전통적 SRT 검사에서 189개 (M=16.87, SD=3.871) 단어에서정반응을보였고음성인식 SRT 검사에서 183개 (M=16.73, SD=3.731) 의단어에서정반응을보여 98.81% 의인식률을나타내었다 ( 그림 4). 정상승법의역치변화기준인 2dB를비열등성한계 (non-inferior margin) 로하여비열등성을살펴본결과표 5에서보는바와같이전통적 SRT 검사와비교하여음성인식 SRT 검사의결과는동등한것으로나타났다 (CI: -1.021~.221, Δ=2). 표 4. 음성인식을이용한 SRT 검사의비열등성검정 Table 4. Non-inferiority trial between two SRT test 그림 4. 음성인식 SRT 검사의단어인식률 Figure 4. Word recognition ratio of voice recognition based SRT test 두검사간의차이를살펴보기위해대응 t-검정을실시한결과표 3에서처럼두검사간에통계적으로유의미한차이가없는것으로나타났다. 표 3. SRT 검사방식에따른정반응수의비교 Table 3. Correct response according to test method Paired Differences t Sig M SD Lower Upper Correct.133.352 -.062.328 1.468.164 response 2. SRT 역치의동등성검정 음성인식 SRT 검사의동등성을살펴본결과, 전통적 SRT 검사에서는 12.60dB(SD=4.323) 의역치를나타내었고음성인식 SRT 검사에서는 12.20dB(SD=4.491) 의역치를나타내었다 ( 그림 5). 그림 5. 전통적 / 음성인식 SRT 검사의역치 Figure 5. Threshold of traditional/voice recognition based SRT test 두검사간의차이를보기위해대응 t-검정을실시하였고통계적으로유의미한차이가없는것으로나타났다. 수 SRT threshold Paired Differences t Sig M SD Lower Upper 1.12 -.400-1.021.221-1.382.189 1 Ⅳ. 논의및결론 이연구를통해살펴본결론은다음과같다. 첫째, 음성인식 SRT 검사와 PTA 검사의차이를비교해볼때, 신뢰할만한검사인것으로나타났다. 음성인식 SRT 검사의평균역치는 12.20dB 로 PTA 평균역치 9.98dB 와 6dB 안의차이를보였다. Katz(2002) 는 ±6dB 이내의검사오차를보일경우매우신뢰도가높은검사, ±13dB 이상일경우신뢰도가떨어지는검사라고보고하고있어 2.22dB 의차이를보인음성인식 SRT 검사는신뢰도높은검사로간주할수있다. 둘째, 음성인식 SRT 검사의역치결과값은기존검사방법과비교하여통계적으로비열등한검사결과를나타내었다. 청취기반대신에음성인식기술을이용하여서버의빅테이터에기반하여분석된결과는웹기반과휴대용기기를이용한다양한청력검사에대한연구들에서처럼신뢰도와타당도면에서충분히효과적이었음을나타내고있다 (Hofmann et al., 2015; Molander et al., 2013; Shin et al., 2009; Song et al., 2011). 셋째, 음성인식 SRT 어플리케이션은전통적 SRT 검사에기준하여이음절단어에서 98.81% 의높은음성인식률을나타내었다. 오반응을보인단어를살펴보면대상자의오반응을정반응으로인식하는오류를보였다. 이는구글의음성인식기술은 GMM에대한군집화방식으로음성을처리하기때문에보다높은출현빈도와확률을가진음성을찾아가게된다 (Ban et al., 2014). 검사의특성상하나의인식오류로검사역치가달라질수있음을고려하면보다나은검사정확도를위해주어진검사어휘에대한 100% 의음성인식률이요구된다. 이를볼때 SRT 검사와같이고정된어휘만을이용하는검사는 Park 등 (2014) 의연구에서처럼초성
108 언어치료연구 ( 제 24 권제 4 호 ) 분해를이용해패턴해석을용이하게하거나오반응의경우의수를고려하여한정된어휘에특화시킨음성인식툴을개발하여적용할경우보다정확한음성인식결과를얻을수있을것으로보인다. 기술의발달과더불어 U-헬스케어관점의의료기기들이개발되고있는시점에서청력검사비롯해언어치료와관련한평가및치료분야에서도이에대한연구가요구되고있다 (Jesty et al., 2015; Jo et al., 2001; Touati & Tabish, 2013). 청력검사에있어서지금까지는 PC 기반의연구들을중심으로검사및평가프로그램들이주로논의되어왔으나사용성을고려한모바일기반프로그램들의연구가이어져야할것이다. 그러나모바일과관련하여서현재서지기반평가의모바일로의전환, 치료교구로써의프로그램등에대한연구들이다수이며음성분석및인식등을이용한검사와관련한연구들은부족한실정이다 (Fager et al., 2010; Mustafa et al., 2014; Wisenburn & Higginbotham, 2008). 이연구에서도소음상황에대한통제, 강도조절문제, 장비에따른인식률등이제한점으로작용하였으며완전한모바일기반프로그램으로가기위해다양한연구들이필요하다 (Adam et al., 2015; Kim, 2012). 따라서이연구는 U-헬스케어관점의기초연구이자청각과관련해음성인식을이용한시도적연구로써기존검사방법외에새로운관점을제시한데의미가있다. 더나은연구를위해자동화된프로그램으로의개발을위해강도조절이가능한소프트웨어또는어플리케이션의개발이필요할것으로보인다. 참고문헌 Adam, P. V., Kristin M. R., Angela T. M., & Sheena R. (2015). Comparability of modern recording devices for speech analysis: Smartphone, landline, laptop, and hard disc recorder. Folia Phoniatrica Logopaedica, 66, 244-250. Ban, S. M., Kang, B. O., & Kim, H. S. (2014). Automatic clustering of speech data using modified map adaptation technique. Phonetics and Speech Sciences, 6(1), 77-83. [ 반성민, 강병옥, 김형순 (2014). 수정된 MAP 적응기법을이용한음성데이터자동군집화. 말소리와음성과학, 6(1), 77-83.] Cho, S. J., Lim, D. H., Lee, K. Y., Han, H. K., & Lee, J. H. (2008). Development of Korean standard bisyllabic word list for adults used in speech recognition threshold test. Audiology, 4(1), 28-36. Choi, S. K. (2013). The correlation between speech discrimination and speech intelligibility based on slope degree of sensory/neural hearing impaired students. Journal of Speech-Language and Hearing Disorders, 22(2), 197-214. [ 최성규 (2013). 감음신경성청각장애학생의청력도기울기차이에따른어음변별력과어음명료도의상관관계. 언어치료연구, 22(2), 197-214.] Devlin, S., & Unthank, G. (2006). Helping aphasic people process online information. Proceedings of the 8th International ACM SIGACCESS Conference on Computers and Accessibility, NewYork. Fager, S. K., Beukelman, D. R., Jakobs, T., & Hosom, J. (2010). Evaluation of a speech recognition prototype for speakers with moderate and severe dysarthria: A preliminary report. Augmentative and Alternative Communication, 26(4), 267-277. Fernandes, B. (2011). itherapy: The revolution of mobile devices within the field of speech therapy. SIG 16 Perspectives on School-Based Issues, 12(2), 35-40. Hahm, T. Y. (1962). Articulation function on the Korean speech in patients with hearing impairment. Catholic Med College Journal, 5(6), 31-8. [ 함태영 (1962). 한국어음청력검사표와명료도검사성과에관한연구. 카톨릭의대논문집, 5(6), 31-38.] Hofmann, M., Luts, H., Denys, S., van Wieringen, A., & Wouters, J. (2015). Optimization of the digit triplet screening test. Journal of International Advanced Otology, 11, 65-65. Jesty, B., Chapman, F., Terry, M., Khan, M. A., Johnson, R., & Authoring, M. I. (2015). Electronics and computer science: Mobile intervention authoring. University of Southampton. Retrieved from http://themakshter.me/ iles/gdp19_final_report.pdf. Jo, C. W., Kim, K. I., Kim, D. H., Kwon, S. B., Kim, K. R., Kim, Y. J., Jun, K. R., & Wang, S. G. (2001). Classification of pathological voice from ARS using neural network. Journal of Speech Science, 8(2), 61-71. [ 조철우, 김광인, 김대현, 권순복, 김기련, 김용주, 전계록, 왕수건 (2001). 신경회로망을이용한 ARS 장애
음성인식을이용한어음인지역치검사어플리케이션개발을위한기초연구 109 음성의식별에관한연구. 음성과학, 8(2), 61-71.] Joshi, P. (2011). Finding good apps for children with autism. New York Times Gadgetwise Blog. Retrieved from http://gadgetwise.blogs.nytimes.com/2011/11/29/finding -good-apps-for-children-with-autism. Katz, J. (2002). Handbook of clinical audiology. Baltimore: Lippincott & Williams. Kim, G. H., Kim, S. D., Kim, H. S., Kang, D. H., Shin, B. J., Kwon, S. B., Lee, Y. W., Park, H. J., & Wang, S. G. (2015). Comparison of voice quality according to voice input on smartphone. 21st Combined Congress of Ctorhinolaryngology Head and Neck Surgery, Gunsan Exhibition & Convention Center, Gunsan. [ 김근효, 김성동, 김형순, 강덕훈, 신범주, 권순복, 이연우, 박희준, 왕수건 (2015). 스마트폰음성입력에따른음질비교분석. 제 21차이비인후과학회종합학술대회, 새만금컨벤션센터, 군산.] Kim, J. D. (2012). PC based pure tone audiometer system with automated speech audiometry (Doctoral dissertation). Pusan National University, Busan. [ 김진동 (2012). 자가어음청력검사를지원하는 PC 기반순음청력검사시스템. 부산대학교대학원박사학위논문.] Korea Creative Content Agency. (2011). CT depths report: Trend and prospect of speech recognition technology. Retreived from http://www.kocca.kr/knowledge/publication/ct/ icsfiles /afieldfile/2011/12/07/87nemyicvwmc.pdf. [ 한국컨텐츠진흥원 (2011). 문화기술심층리포트 : 음성인식기술의동향과전망. http://www.kocca.kr/knowle dge/publication/ct/ icsfiles/afieldfile/2011/12/07/87ne myicvwmc.pdf.] Kuster, J. M. (2012). Internet: In search of the perfect speech-language app. The ASHA Leader, 2012, April 3. Lee, H., M., & Kim, S. I. (2014). Comparative study on the usability of mobile intelligent personal assistance service based on voice recognition technology: Focused on Samsung S Voice and Apple Siri. Journal of Digital Design, 4(1), 231-240. [ 이혜민, 김승인 (2014). 음성인식기반의모바일지능형개인비서서비스사용성비교. 디지털디자인학연구, 14(1), 231-240.] Madeira, R. N., Correia, N., Guerra, M., Postolache, O., Dias, A. C., & Postolache, G. (2011). Designing personalized therapeutic serious games for a pervasive assistive environment. Proceedings of IEEE 1st international conference on serious games and applications for health (SeGAH'2011), Braga. Molander, P., Nordqvist, P., Oberg, M., Lunner, T., Lyxell, B., & Andersson, G. (2013). Internet-based hearing screening using speech-in-noise: Validation and comparisons of self-reported hearing problems, quality of life and phonological representation. BMJ Open, 3(9), 1-9. Mustafa, M. B., Salim, S. S., Mohamed, N., Al-Qatab, B., & Siong, C. E. (2014). Severity-based adaptation with limited data for ASR to aid dysarthric speakers. PloS One, 9(1), 1-11. Neil, H. (2014). Tests find Apple's Siri improving, but Google now voice search slightly better. Retrieved from http://googl/3wnt55. Park, S. G., Goo, M. W., & Kim, J. G. (1995). Study on performance of speech recognition system with respect to the power and speed of speech. Proceesing 1995 Summer Conference of The Institute of Electronics Engineers of Korea, 18(1), 1079-1082. [ 박상규, 구명완 (1995). 음성의속도및크기에따른음성인식시스템에의성능비교. 대한전자공학회 1995 년도하계종합학술대회논문집, 18(1), 1079-1082.] Park, Y. H.. Sung, S. J., Kim, S. H., Lee, S. H., & Lee, H. S. (2014). Recognize command for robot control based on Android speech recognition system. Proceeding 2014 Conference of Korea Computer Congress, 1698-1700. [ 박영훈, 성종세, 김성훈, 이승형, 이현수 (2014). 안드로이드음성인식시스템기반의로봇제어를위한명령어인식. 한국정보과학회 2014 한국컴퓨터종합학술대회논문집, 1698-1700.] Shin, S. W., Kim, K., S., Yoon, T. H., Lee, S., T., & Lee, J., W. Implementation of multi-threading ambulatory speech audiometric system. Proceesing 2009 Summer Conference of The Korean Institute of Electrical Engineers, 1998-1999. [ 신승원, 김경섭, 윤태호, 이선주, 이성택, 이정환 (2009). 멀티스레딩기법을이용한휴대용어음청력검사시스템구현. 2009 대한전기학회제 40회하계학술대회, 1998-1999.]
110 언어치료연구 ( 제 24 권제 4 호 ) Song, B. D., Kang, D. H., Shin, B. J., Kim, J. D., & Wang, S. G. (2011). Development of client/server puretone audiometer supporting video chat. Journal of The Korea Academia-Industrial Cooperation Society, 12(3), 1401-1407. [ 송복득, 강덕훈, 신범주, 김진동, 왕수건 (2011). 영상대화지원클라이언트 / 서버순음청력검사시스템개발. 한국산학기술학회논문지, 12(3), 1401-1407.] Touati, F., & Tabish, R. (2013). U-healthcare system: State-of-the-art review and challenges. Journal of Medical Systems, 37(3), 1-20. Wisenburn, B., & Higginbotham, D. J. (2008). An AAC application using speaking partner speech recognition to automatically produce contextually relevant utterances: Objective results. Augmentative and Alternative Communication, 24(2), 100-109. Yim, D. S., Cheon, S. H., Lee, J. L., & Jeong, P. K. (2015). Meta analysis of spontaneous speech between children with language developmental disorders and typical developing children: A preliminary study for developing an application screening tool. Journal of Speech-Language and Hearing Disorders, 24(1), 57-75. [ 임동선, 천성혜, 이여진, 정필연 (2015). 메타분석을통한언어발달장애아동과일반아동의자발화분석연구. 언어치료연구, 24(1), 57-75.]
음성인식을이용한어음인지역치검사어플리케이션개발을위한기초연구 111 부록 1. 단어목록 Appendix 1. Word list Word Set1 겨울고향세상하늘싸움친절나라장군방송의견병원큰집불편교통농촌활동계획소원정말필요청년마을유명국군행복통일생각편지대답물건민족까닭운동손님글씨기차귀신외국담배지금둘째건설입대동생사람신문종류오빠약속안녕 Set2 글씨하늘오빠외국통일불편방송계획사람친절병원민족대답신문겨울지금소원활동종류청년필요마을세상고향생각의견물건약속교통장군이때손님농촌나라행복큰집국군동생정말안녕기차담배싸움편지유명귀신둘째운동까닭건설
112 언어치료연구 ( 제 24 권제 4 호 ) 국문초록 음성인식을이용한 어음인지역치검사어플리케이션개발을위한기초연구 배인호 1) 김근효 2) 박희준 3) 김진동 4) 권순복 5) 목적 : 음성인식은 IT 영역을넘어자동화, 의료, 금융등과같은영역으로확장되고있고언어치료분야에서도마비말장애, 음성장애, 청각장애등에서음성인식이활용되고있다. 이연구에서는구글의음성인식기술과안드로이드플랫폼을어음인지역치검사에활용한음성인식 SRT 어플리케이션을개발하여검사자의청취에기반한기존의 SRT 검사와의동등성을살펴보고구글음성인식기술을이용하였을때 SRT 검사단어의음성인식률을살펴보고자한다. 방법 : 대상자는정상청력 ( 평균청력 9.8dB) 을가진성인 15명 ( 평균연령 : 27.5세 ) 으로하였다. 구글의음성인식 API와안드로이드의네이티브 API를사용하여안드로이드에서제공하는사용자화면을이용하여음성인식 SRT 어플리케이션을구현하였고청력검사기기와연결및녹음환경을구축하였고기존의 SRT 검사를실시하면서동시에음성인식 SRT 검사를수행하였다. 결과 : 두검사간의동등성을확인하기위해비열등성검정을실시하였고어음역치에서비열등한것으로나타났다 (CI: -1.021~.221, Δ=6). 또한두검사의정반응수는통계적으로유의미한차이를보이지않았고음성인식률역시 98.81% 로나타나높은인식률을나타내었다. 결론 : 음성인식을이용한검사는 SRT 검사에서기존검사방법과비교하여동등한결과를나타내었으며구글음성인식기술과안드로이드플랫폼을이용한어플리케이션은 SRT검사의이음절단어목록에서높은음성인식률을보여효과적이었음을알수있었다. 또한, 이연구는 U-헬스케어관점의기초연구이자청각과관련해음성인식을이용한시도적연구로써기존검사방법외에새로운관점을제시한데의미가있다. < 검색어 > 음성인식, 어음역치검사, 안드로이드어플리케이션 1) 배인호 ( 제 1 저자 ) : 양산부산대학교병원이비인후과언어재활사 2) 김근효 ( 공동저자 ) : 부산대학교병원이비인후과언어재활사 3) 박희준 ( 공동저자 ) : 춘해보건대학교언어재활과교수 4) 김진동 ( 공동저자 ) : 부산가톨릭대학교언어청각치료학과교수 5) 권순복 ( 교신저자 ) : 부산대학교언어정보학과교수 (ssbkwon@hanmail.net) 게재신청일 : 2015. 10. 28 수정제출일 : 2015. 12. 21 게재확정일 : 2015. 12. 29