청지각적음성평가훈련이음성평가신뢰도에미치는효과 이영아 a,b 김형태 b 김재옥 a, a 강남대학교교육대학원언어치료교육전공, b 예송이비인후과병원 교신저자김재옥강남대학교교육대학원언어치료교육전공교수경기도용인시기흥구구갈동 111번지 e-mail: jaeock@gmail.com tel.: 031-280-3221 배경및목적 : 본연구의목적은청지각적음성평가에대한지각훈련이평가자간또는평가자내신뢰도를높이는데유용한지알아보는데에있다. 방법 : 본연구는음성장애분야의임상경력이 3 년이상인음성언어장애전문가 2 명과언어병리학을전공하고있는대학원생 30 명이참가하였다. 음성언어장애전문가가모음과문단읽기로구성된 60 개의샘플들을 GRBAS 척도의중증도에따라분류한뒤, 40 개는평가용, 20 개는훈련용으로사용하였다. 훈련전대학원생들에게 GRBAS 척도에대하여각척도별음질특성에대해설명하고, 평가용음성샘플을 GRBAS 척도로평가하게한후, 훈련용음성샘플을이용하여 2 주간총 2 회의음성평가훈련을실시하였다. 훈련기간동안음성샘플을들려준후 GRBAS 척도평가에대한피드백을주었다. 훈련후처음들려주었던평가용음성샘플로 GRBAS 척도를재평가하게하여훈련전과후를비교하였다. 대상자의 15% 에해당하는 4 명의대학원생을무작위로선정하여각훈련전과훈련후평가용음성을재평가하게하였으며, 그결과의상관관계를통해평가자내신뢰도를분석하였다. 또한훈련전과후의평가자들간 GRBAS 척도평가의상관관계를통해평가자간신뢰도를분석하였다. 결과 : 모음과문단에서 GRBAS 척도를이용한청지각적평가훈련은훈련전보다훈련후평가자내와평가자간신뢰도가모두유의미하게상승하였다. 논의및결론 : 음성은다차원적이기때문에효율적인음성평가를위해표준적이고일관성있으며, 신뢰성있는훈련프로그램의개발이시급하다. 본연구를통해음성평가훈련이음성평가의신뢰도를높일수있다는것이객관적으로밝혀졌으며, 이를바탕으로국내음성평가훈련프로그램의기본모형을마련하였다고할수있다. 언어청각장애연구, 2010;15; 526-536. 핵심어 : 청지각적평가, 음질, GRBAS 척도, 음성평가훈련프로그램, 신뢰도 Ⅰ. 서론 정상음성이란음도, 강도, 음질, 유동성등이개인의성 ( 性 ) 이나연령, 환경, 체구등에적합하다고판단되는음성을말한다 (Boone, McFarlane & Von Berg, 2005). 즉이러한요소들이적절하게조화를이루며산출되어야듣기좋은음성이라할수있다. 음성장애라함은이요소들중어느하나라도문제가발생할경우비정상적인음성이산출되는상태를말한다. 따라서음성장애환자의진단과치료를위하여이들요 소의분석은필수적이다. 사람들은일반적으로좋은목소리와나쁜목소리의판단을음질의좋고나쁨으로규정짓는다. 목소리가나빠졌다 고하면목소리가쉬거나거친음성이들리는경우를말하는데, 이는음질을표현하는대표적인용어로사용된다. 정상음성의구성요소에 Anderson (1942) 은 진동이잘되는음질 을, Wilson (1987) 은 기분이좋아지는음질 을포함시키고있고, 정상음성을구성하는데있어음도, 강도, 공명뿐아니라음질도중요한역할을한다고언급하였다 ( 표화영 (2007) 에 * 이논문은 2009 년정부 ( 교육과학기술부 ) 의재원으로한국학술진흥재단의지원을받아수행된연구임 (KRF-2009-332-B00440) 게재신청일 : 2010 년 10 월 20 일 최종수정일 : 2010 년 12 월 6 일 게재확정일 : 2010 년 12 월 8 일 c 2010 한국언어청각임상학회 http://www.kasa1986.or.kr 526
이영아 김형태 김재옥 / 청지각적음성평가훈련이음성평가신뢰도에미치는효과 서재인용 ). 또한 Murry et al. (2004) 에따르면사람들은음질을통하여다른이들에게그들의감정상태나개성, 의도등의신호를전달한다고한다. 그러므로음성장애는개인의삶의질과의사소통에매우큰영향을준다고해도과언이아니다. 미국국립표준협회 (American National Standards Institute: ANSI) 에서는음성의전반적인질 (overall quality of sound) 을 동일한음도와강도를가지고있는두개의음을유사하게제시하고, 이들을서로다르다고판단하도록하는청지각적속성 이라고정의하고있다 (Gerratt & Kreiman, 2001). 음질은매우복잡한음향의성질을가지고있어서다분히지각적이다 (Eadie & Baylor, 2006; Wuyts et al., 1999). 따라서이를평가, 판정하기에는음향분석기기보다인간의청각이더우수하다고볼수있다. 청지각적음성평가는음향분석기기를이용한객관적음성평가와함께음성분석에유용하고의미있는평가방법이며, 음성치료에있어서도음질평가를위한매우중요한도구이다. 게다가평가자의판단은다른음성측정수단들 ( 음향학적평가, 공기역학적평가등 ) 을위한기준이되므로평가자의판단은기기적인평가들만큼이나중요한위치에있다. 음질에대한청지각적척도평가방법으로는 Hammarberg 의 Hammarberg 척도 (26개항목에대한 5점척도평가 ), Wilson 의 The Buffalo Voice Profile, Laver의 The Vocal Profile Analysis Scheme, 일본음성언어의학회의 GRBAS 척도등이있다 (Wuyts, De Bodt & Van de Heyning, 1999). 그밖에 Bassich & Ludlow (1986) 도 14개항목에대한 4점척도방법을제시했으며, Dejonckere et al. (1993) 는시각적아날로그기법 (Visual Analog Scale) 을사용한 15개항목에대한척도평가방법을제시했다 ( 표화영 (2007) 에서재인용 ). 현재알려진검사방법중에서는 GRBAS 척도 (Hirano, 1981) 가가장보편적으로사용되고인정받는방법이며, ASHA가 2002년에제시한 CAPE- V도최근미국에서많이사용되고있다. GRBAS 척도는일본의이비인후과의사인 Isshiki 교수등이처음제시한후일본음성언어의학회에서수용, 재정비하여발표한것으로 (Kreiman et al., 1993), 1981년 Hirano 교수가자신의저서인 Clinical Examination of Voice 를통해소개하였다. 5개항목의청지각적평가방법은, 전반적인애성 ( 목쉰소리 ) 의정도를나타내는 G(grade), 조조성 ( 거친소리 ) 의정도를 나타내는 R(rough), 기식성 ( 바람새는소리 ) 의정도를나타내는 B(breathy), 무력성 ( 힘빠진소리 ) 의정도를나타내는 A(asthenic), 긴장성 ( 쥐어짜는소리 ) 의정도를나타내는 S(strained) 에대해 0( 정상, normal), 1( 경도, mild), 2( 중도, moderate), 3( 심도, severe) 의 4점점수체계로음질저하의정도를평가하도록구성하였다. Bhuta, Patrick & Garnet (2004) 는 GRBAS 척도를가리켜음성평가의황금기준이라고하였다. GRBAS 척도에대한수많은연구들중 Dejonckere et al. (1993) 는 GRBAS 척도가다른주관적음성평가방법에비해평가자내또는평가자간에낮은편차를보여주기때문에비교적신뢰할만한측정법이며실질적으로사용하기에적합하다고하였다. Murry et al. (2004) 등여러연구자들도환자의음성을지각적으로평가할때 GRBAS 척도를선택하도록제안하여왔다. Neuenschwander et al. (2001) 는 GRBAS 척도로음성치료전후를평가함으로써이평가방법의지각적도구로서의가치를보여주었다. 또한음성치료사들이나연구자들이사용하기용이하며, 수치를통해평소음질이어느정도인지예측가능하다. 대부분의의사들도이방법을선호하기때문에임상현장에서의사들과의의사소통에도무리가없다. 그러나청지각적평가방법에서평가자내또는평가자간신뢰도에대한문제점은항상끊임없는논쟁의소지를제공해왔다. Kreiman et al. (1993) 의연구도음질평가의오류성을지적하였다. 평가자들의내적기준사용이평가의객관성과통일성즉신뢰도저하의원인이된다는것이다. 음질을하나의청지각적차원에서정확히판단한다는것은매우어려운일이다 (Gerratt & Kreiman, 2001). Kent (1996) 도위와같은청지각적평가가편견에치우치기쉬우며가변적이라고지적한바있다. 이들은모두신뢰할수있는청지각적음질평가를위해내적기준, 청지각적평가환경, 상호작용요소등에대해사전에신중하게고려해야한다고밝히고있으며, 청지각적평가방법의신뢰도를증진시키려면훈련과경험이필수요소라고강조하고있다. Fex (1992) 도이러한청지각적평가의신뢰도및타당도를개선시킬방법을제안하였는데, 이중에서도평가자들의지속적인훈련은필수적요소라고밝힌바있다. 청지각적음성평가방법은주변상황이나환자의상태에따라융통성있게판단할수있으며, 숙련된평가자의훈련된귀 (trained 527
언어청각장애연구 2010;15;526-536 ear) 만있으면매우유용하게사용할수있는방법이라보고되고있다 ( 표화영, 2004). 표화영 (2004) 은또한음성의청지각적인평가는음성언어장애전문가로서의전문성을부각시킬수있는평가방법이므로평가자의숙련도를요구한다고하였다. 그러므로청지각적인평가방법을숙지하는것못지않게중요한것은평가자의귀를숙련시키는것이며, 이는꾸준하고지속적인훈련을통해서만가능하다고한다. 지금까지의고찰을살펴볼때, 높은신뢰도의청지각적음성평가에서선행연구자들이공통적으로강조한것은평가자는귀를숙련시키기위해끊임없이훈련해야한다는사실이다. 음성을평가하는수많은평가기술이존재하지만이들의신뢰도를높이기위해서어떠한방법으로평가자의청지각적측정능력을개선시킬수있는가에관한질문들은대개미결인채로남아있다. 결국, 이문제들의해결점은오직평가자의끊임없는훈련에만있는데, 선행연구들은모두훈련의중요성만강조했을뿐어떤방법으로훈련할것인지, 훈련에필요한올바른규준은무엇인지밝히고있지는않으며, 음질평가의표준화를위한훈련프로그램이나효과에대한연구는활발하게논의되지않고있다. 표준화된훈련이없는막연한척도평가는언어병리학을전공하는학생들에게막연한두려움을가지게하며, 경험이충분치못한언어병리학전공자들에게훈련된귀라는기준은매우모호하게느껴질수밖에없다. 이는음성언어장애전문가로서의도약을어렵게만들뿐아니라음질측정표준방법의부재로인해다양한음성치료를위한평가를어렵게하는주요인이되기도한다 (Bhuta, Patrick & Garnet, 2004). 따라서청지각적음질평가에있어국내현실에맞는표준화 (standardization, anchor scale) 정립이매우절실하게요구되는실정이다. 일본음성언어의학회에서는 GRBAS 척도를올바르게사용하기위한방법의일환으로훈련된귀를위한표준훈련프로그램을제작하여초보자훈련용으로사용하고있다 (De Bodt et al., 1997). 이프로그램에서는다양한음질의 / ㅣ, ㅔ, ㅏ, ㅗ, ㅜ / 에해당하는일본어모음으로구성된음성샘플을하나씩들려주고훈련자로하여금 GRBAS 척도를평가하게한후각척도별답을제시하는훈련방식을이용하고있다. 그러나나라마다표현되는정서나문화적기호에따라선호하는음성은조금씩차이가난다. 그러므로이프로그램을한국언어병리학전공자들에게사용하기에 는그판단기준에미흡한부분이있다. 우리현실에맞는 GRBAS 훈련프로그램이필요한것이다. 또한모음산출시와읽기나자발화와같은문단산출시에음질이달라질수있으므로음성훈련프로그램을제작할때모음만을사용하기보다는문단으로구성된음성훈련도필요할것이다. 따라서본연구는한국어를사용한모음과문단읽기음성자료들을사용하여 GRBAS 척도를이용한청지각적음성평가에대한지각훈련프로그램을실시하고, 훈련프로그램이훈련전과후음성평가의평가자간신뢰도 (Interrater Reliability) 및평가자내신뢰도 (Intrarater Reliability) 를높이는데유용한지를알아봄으로써 GRBAS 훈련프로그램의기초적인모형을정립하는데그목적이있다. Ⅱ. 연구방법 1. 연구대상기준이되는음성샘플의선정을위해음성언어장애전문가 2명이참여하였다. 이들은 1급음성언어장애전문가로서음성장애분야의 3년이상임상경력이있으며, 각음성장애를전공한후대학에서언어병리학을가르치고있거나이비인후과병원음성전문클리닉에서근무하며, GRBAS 검사에대해전문적이고숙련된판단력을가지고있는것으로인정되어선정하였다. 본연구의훈련프로그램에직접참여한평가자로는언어병리학을전공하는대학원생 30명이선정되었다. 이들의평균연령은 29.5세였으며, 여자 29명, 남자 1명으로나이나성별의구분없이훈련에참여하였다. 선정된평가자들은말 언어장애의전력이없고, 훈련당시에도이러한문제를가지고있지않은사람으로선별하였다. 또한연세의료원세브란스안-이비인후과병원청각센터에서 기도청력검사 (Air Conduction Test) 와 임피던스검사 (Impedance Auditory) 를통해이들의청력은정상수준으로확인되었다. 2. 연구도구가. 음성자료프로그램에사용될음성자료를구성하기위해음성전문클리닉인예송이비인후과의음성검사용녹음 528
이영아 김형태 김재옥 / 청지각적음성평가훈련이음성평가신뢰도에미치는효과 자료 200개를표집하였다. 음성자료에포함된대상자들의연령대는 10세부터 60세 ( 평균연령 37.3 세 ) 였다. 음성자료는정상으로간주되는음성과무성음 (aphonia) 에가까운심각한정도의음성까지음질의정도가고른분포를이루도록표집하였고, 질환별로분류하지는않았다. 또한억양면에서평가자에게특정인상을남길것을고려하여표준어를사용하는자료들로만표집하였다. 음성자료의내용은모음 / ㅏ, ㅔ, ㅣ, ㅗ, ㅜ / 의연속발성과음성학적으로균형잡힌문단인 가을문단 (Kim, 1996) 읽기로구성되었다. 2명의 1급음성언어장애전문가가각각음성자료를듣고 GRBAS 척도를이용한청지각적평가를실시한후, 600개의음성자료에서위에제시된조건에맞는자료 200개를추출, 그중두명의 GRBAS 척도평가가모두일치하는 60개의음성자료를선택하여 40개는평가용 (30개의이상음성과 10개의정상음성 ), 20 개는훈련용 (15개의이상음성과 5개의정상음성 ) 으로사용하였다. 나. 사용기자재본연구에사용된모든음성자료는비디오카메라 (SONY HDV1080i) 와헤드셋 (WHB 707S) 을사용하여녹음되었고, GoldWave v5.08 Program 으로음성자료와비디오자료를분리편집하였다. 훈련과평가에사용될음성자료를선택하기위해음성언어장애전문가들이사용한기자재는다음과같다. 음질보존과재생의객관성을유지하기위하여음성샘플은모두동일한컴퓨터를통해재생하였고, 녹음재생시음량의정도도항상일정하게유지하였다. 또한배경소음의방해를막기위해음성언어장애전문가들은각자동일한모니터링용헤드폰 (K271MK II, AKG Acoustics, Austria) 을착용하고평가하도록했다. 이때컴퓨터사운드카드의종류에따른음성재생의오차를막기위해오디오인터페이스 (Fast Track USB, M-Audio, USA) 에헤드폰을연결하여모든음성을평가하게하였다. 3. 연구절차가. 훈련전음성평가 40개의평가용음성자료를평가하기전에 30명의대학원생들에게 GRBAS 척도와각항목별정의와특성을설명해주었으며, 훈련용음성자료중 GRBAS 4점척도에서중증도 0, 1, 2, 3 각각에해당하는일부음성샘플을들려주어각항목구분과중증도개념을숙지하도록하였다. GRBAS 척도에대한설명이끝난후에평가용음성샘플의모음과문단을한번씩들려주고훈련전 GRBAS 척도평가를실시하게하였다. 척도평가를위한시간은음성자료당 1분씩주었다. 모든평가자들은똑같은평가지를사용하였고, 모음과문단을따로평가하도록하였다. 평가하는동안평가자들끼리의논이나토론을하지않도록하였으며 (De Bodt et al., 1997), 음성자료의청취순서는무작위로하였다. 나. 청지각적음성평가훈련대학원생들은훈련용음성자료 20개를이용하여 2 주간주 1회 1시간씩총 2회의음성평가훈련을받았다. 1차평가훈련동안대학원생들은제시된음성자료를듣고 GRBAS 척도별로평가를하였고, 한음성자료의평가가이루어진다음바로항목별중증도에대한피드백을실시하였다. 피드백의내용은 2명의음성언어장애전문가의사전평가결과를토대로하였다. 1차평가훈련 1주후 2차평가훈련을실시하였다. 1차평가훈련과동일한 20개의훈련용음성자료를사용하되, 들려주는순서는 1차평가훈련과다르게배치하였다. 훈련방법과평가방법은 1차평가훈련과같은방법으로진행하였다. 다. 훈련후음성평가훈련후음성평가도훈련전음성평가와동일한과정으로진행하였다. 30명의대학원생들에게훈련전에들려주었던 40개의평가용음성자료로 GRBAS를재평가하게하였다. 그러나음성자료를들려주는순서는훈련전과다르게하였으며, 평가자들에게는훈련전평가에관한어떠한정보나피드백을주지않은상태에서실시하였다. 라. 신뢰도평가자내신뢰도를산출하기위해훈련 1주전에 GRBAS 척도평가에참여할대상자의 15% 에해당하는 4명의대학원생을무작위로선정하여평가용음성자료를평가하도록하였다 (Eadie & Baylor, 2006). 또한훈련 1주후에도동일한대학원생이같은방법으 529
언어청각장애연구 2010;15;526-536 < 표 - 1> 연구절차및내용요약 대상자연구절차연구내용 음성언어장애전문가 대학원생 음성자료표집 음성검사용녹음자료 600개표집 1차평가 모든자료 1차분류 ( 기준음성조건에맞는자료 200개추출 ) 2 차평가 외적기준치로사용할수있는평가용음성자료 40 개, 훈련용음성자료 20 개선별 GRBAS 척도이해 GRBAS 척도의각항목별음질특성및중증도이해및해당음성자료청취 훈련전음성평가 ( 평가자내신뢰도용 ) 15% 의대학원생에의한평가용 40개자료음성자료무작위청취후음성평가 훈련전음성평가 평가용 40개음성자료무작위청취후음성평가 1차훈련 훈련용 20개음성자료무작위청취후음성평가및피드백 2차훈련 훈련용 20개음성자료무작위청취후음성평가및피드백 훈련후음성평가 평가용 40개음성자료무작위청취후음성평가 훈련후음성평가 ( 평가자내신뢰도용 ) 15% 의대학원생에의한평가용 40 개자료음성자료무작위청취후음성평가 로재평가하였다. 이과정에서평가용음성자료는무작위로청취하고평가하도록하였다. 평가자간신뢰도는평가에참여한모든대학원생들의모음과문단별훈련전과후 GRBAS 척도평가를사용하였다. 4. 자료분석수집된자료는 SPSS version 12.0 프로그램을이용하여통계처리하였다. 대학원생이평가한 GRBAS 척도와음성언어장애전문가에의한평가가일치하는경우는 1점, 일치하지않는경우는 0점으로처리하여 GRBAS 척도의다섯개항목별로정답에대한일치율을비교하였다. 모음과문단은각기따로분석하였다. 가. 훈련전-후음성평가비교모음과문단에서각각 GRBAS 척도평가의다섯개항목별로대응표본 t 검정 (paired-samples t-test) 을이용하여청지각적훈련전과후에일치율의차이가있는지비교하였다. 유의수준은.05로검정하였다. 나. 평가자내신뢰도청지각적훈련전의평가자내신뢰도를평가하기위하여선정된 4명의대학원생의음성평가의정답과의일치율와재평가한결과의정답과의일치율간의 상관관계를피어슨상관계수 (Pearson r correlation) 로분석하고, 청지각적훈련후의평가자내신뢰도도동일한방법으로산출하였다 ( 남정모 최예린 김향희, 2008). 모음과문단은따로분류하여분석하였다. 다. 평가자간신뢰도평가자간신뢰도는훈련전과훈련후에각각실시한대학원생들간음성평가척도값의정답과의일치율을모음과문단으로분류하여급간내상관계수 (Intraclass Correlation Coefficient: ICC, 이하 ICC) 로분석하였다. ICC는평가자간의전반적인일관성을반영하는신뢰도평가방법으로평가자간평균일치율의신뢰도분석을위해적당한방법이다. 본연구에서는각모음과문단별로 ICC를분석하여측정치간의반복성과재현성을알아보고, 평가자간의상관관계를산출하여비교하였으며, 훈련전과후동일하게분석하였다 (Kreiman et al., 1994). ICC는단일측도 (single measure intraclass: SMI, 이하 SMI) 와평균측도 (average measure intraclass: AMI, 이하 AMI) 로분석할수있는데, 검사-재검사의상관은높으나평균점수상유의미한차이가있는경우에는단일측도에서고려하여측정할수있으며, 평가시기의차이로나타나는일반적인평균의변화는평균측도를통해알수있다 ( 정옥분 임정하, 2004). 일반적으로단일측도의수치가 0.3 이상이면평가자간신뢰도가있는 530
이영아 김형태 김재옥 / 청지각적음성평가훈련이음성평가신뢰도에미치는효과 것으로인정된다 ( 구민모 남기춘, 2007). 2. 평가자내신뢰도 가. 모음 Ⅲ. 연구결과 1. 훈련전 - 후음성평가비교 가. 모음 GRBAS 훈련전과후의모음에대하여대응표본 t 검정으로분석한결과는 < 표 -2> 와같다. GRBAS 척도의모든항목별평균이훈련전에비해훈련후향상되었으며, 유의확률이모두유의수준.05보다작아통계적으로유의미한차이를보였다. < 표 - 2> GRBAS 훈련전 - 후모음음성평가일치율에대한대응표본 t 검정 훈련전훈련후 Mean SD Mean SD t p Grade.543.079.679.107-6.756 * <.001 Rough.458.081.564.107-4.456 * <.001 Breathy.466.089.587.128-5.171 * <.001 Asthenic.626.086.711.097-3.114 *.004 Strained.582.052.662.076-4.387 * <.001 * p <.05 나. 문단 GRBAS 훈련전과후의문단에대한대응표본 t 검정분석결과는 < 표 -3> 과같다. GRBAS 척도의모든항목별평균이훈련전보다훈련후통계적으로유의미하게향상되었다. < 표 - 3> GRBAS 훈련전 - 후문단음성평가일치율에대한대응표본 t 검정 훈련전훈련후 Mean SD Mean SD t p Grade.593.096.712.117-4.960 * <.001 Rough.503.065.568.084-3.715 * <.001 Breathy.505.078.567.112-2.812 *.009 Asthenic.643.123.706.077-2.312 *.028 Strained.573.156.658.115-2.822 *.009 * p <.05 모음에대한평가자내신뢰도를피어슨상관계수로 비교분석한결과는 < 표 -4> 와같다. 상관계수행렬 을보면, GRBAS 척도의각항목별피어슨상관계수 는훈련전과후에 G는.514에서.729, R은.476에서.706, B는.489에서.721, A는.532에서.735, S는.487 에서.714로상승되었다. 이값으로계산된유의미확 률이 0.01보다작으므로통계적으로유의미하다. 즉, GRBAS 평가훈련후모음에대한평가자내신뢰도가 통계적으로유의미한관련성을나타내며향상되었다. < 표 - 4> 모음에대한평가자내신뢰도 훈련전 훈련후 r p r p Grade.514 * <.001.729 * <.001 Rough.476 * <.001.706 * <.001 Breathy.489 * <.001.721 * <.001 Asthenic.532 * <.001.735 * <.001 Strained.487 * <.001.714 * <.001 * p <.05 나. 문단 문단에대한평가자내신뢰도를피어슨상관계수 로비교분석한결과는 < 표 -5> 와같다. 상관계수행 렬을보면, GRBAS 척도의각항목별상관계수가 G 는.471에서.832, R은.477에서.799, B는.524에서.785, A는.425에서.743, S는.520에서.829로상승되 었다. 이값으로계산된유의미확률도역시유의수준.01보다작아통계적으로유의미하였다. < 표 - 5> 문단에대한평가자내신뢰도 훈련전 훈련후 r p r p Grade.471 * <.001.832 * <.001 Rough.477 * <.001.799 * <.001 Breathy.524 * <.001.785 * <.001 Asthenic.425 * <.001.743 * <.001 Strained.520 * <.001.829 * <.001 * p <.05 531
언어청각장애연구 2010;15;526-536 3. 평가자간신뢰도 ICC 를통해산출된평가자간신뢰도는 < 표 -6> 과같다. 모음의경우단일측도 ICC가훈련전.169로신뢰도가통계적으로유의미하지않았으나훈련후.459로유의미한신뢰도를보였다. 또한평균측도 ICC도훈련전.504에서훈련후.806으로증가하였으며, 훈련전에는신뢰도가유의미하지않았으나훈련후에는유의미하였다. 문단도모음과마찬가지로훈련전-후의 ICC가단일측도.098 에서.398 로, 평균측도.352에서.768로유의미하게상승하였음을보였다. < 표 - 6> 평가자간신뢰도 모음 문단 훈련전 SMIa) Cronbach s α ICC low high.169.035.359 AMI b).504.154.737 p.005 훈련후 SMI.459.289.636 <.001 AMI.806.670.897 훈련전 SMI.098 -.019 -.277.056 AMI.352 -.105.657 훈련후 SMI.398.234.588 <.001 AMI.768.605.877 a) SMI: Single Measure Intraclass, 단일측도 b) AMI: Average Measure Intraclass, 평균측도 Ⅳ. 논의및결론 본연구는언어병리학전공대학원생들을대상으로모음과문단으로이루어진음성자료들을이용하여기준자극, GRBAS 항목들에대한척도평가, 적절한척도평가기술에대한피드백으로이루어진훈련프로그램을실시하고, 훈련전과후음성평가의신뢰도를조사하였다. 연구결과, 훈련전보다훈련후 GRBAS 척도를이용한음성평가의모음과문단모두에서일치율이유의미하게증가하였으며, 평가자내신뢰도와평가자간신뢰도도모음과문단모두에서향상되었으며, 평가자내신뢰도에서는모음에비해문단에서더높은신뢰도의향상을보였다. GRBAS 를구성하는 5개척도별음성평가일치율의훈련전과후의차이를살펴보면, 모음과문단모두에서가장높은일치율의향상을보여준항목은 G 척도였다. 또한이척도가문단에서의훈련후평가자 내신뢰도도가장높았다. 이는청지각적음성평가훈련에의해서 G 척도에대한평가능력이가장많이향상될수있음을보여주었고, G 척도가평가자간또는평가자내의신뢰도측정에서가장높은상관관계를보여준선행연구의결과와도일치한다 (De Bodt et al., 1997). A 척도는훈련전모음과문단모두에서평가의일치율이다른척도들에비해가장높았고, 훈련후에는모음에서평가의일치율이가장높았으며, 문단에서는 G 척도다음으로높은일치율을보였다. 이는평가자들이 A 척도를평가할때음의크기에초점을맞춘것과관계가있는것같다. 다시말해음의크기가클경우에는 A 척도가정상, 음의크기가작을때는작은정도에따라 A 척도값을평가한것과관련이있지않나싶다. 그러나음의크기는녹음상태에따라다르게녹음될수있고, B 척도와의상관관계도높기때문에녹음자료로이척도를명확하게평가할수있다고결론짓기는어렵다. 반면에 R과 B 척도는모음과문단모두에서훈련전과후평가자들의일치율이다른척도들에비해상대적으로낮았고, 훈련전에도모음에서는다른척도들에비해다소낮은신뢰도를보였다. 또한평가자들의반응도훈련에상관없이 R과 B 척도를구별하여평가하는것이어려웠다고하였다. 이는배음대소음비율 (Harmonic to Noise Ratio: HNR) 과같은소음의양을반영하는지각적인음질들즉, Rough, Breathy 와 Vocal fry 등은구별하여평가하기힘들다는 Eadie 외 (2006) 의연구결과와도일치한다. 그러나평가자내신뢰도와평가자간신뢰도에있어서는훈련전에비해훈련후에신뢰도가높아져청지각적훈련프로그램에의해이들척도들에대한음성평가의일관성은향상됨을알수있었다. 모음과문단을나누어살펴보면, 음성평가일치율의상승폭은대부분의척도에서문단에비해모음에서더높았다. 그러나평가자내또는평가자간신뢰도의상승폭은모음에비해문단에서컸는데, 이는청지각적훈련프로그램에의해음성평가에대한정확도는모음에서더높았으나평가의일관성에있어서는문단에서의훈련효과가보다높음을알수있다. 따라서음성을청지각적으로평가할때모음이나문단에따라평가자에의한평가가다를수있기때문에청지각적훈련을실시할때에도모음과문단을구분하여모두해야할필요성이있음을보여준다. 음질이라는것은범주적인양상으로변화하는것 532
이영아 김형태 김재옥 / 청지각적음성평가훈련이음성평가신뢰도에미치는효과 이아니라연속선상어느한시점을지정하여실험하는것이기때문에결과해석또한제한적일수밖에없다 (Gobl & Chasaide, 2003, 표화영, 2007에서재인용 ). 본연구는 GRBAS 척도를이용한청지각적평가훈련이음성평가의신뢰도를향상시킨다는사실을객관적으로입증하였다. 청지각적평가의중요한판단기준은평가자가자신에게맞는방법을잘선택하여올바르게사용하는것이지만, 음성은다차원적이기때문에, 음성평가는일관성에있어서도유효하여야하고보편적으로받아들여져야한다 (Boone, 2005). 또한오랜기간여러음성언어장애전문가들에의해지적되어왔음에도불구하고, 음질의특성상결과해석에대한제한점때문에선행연구사례가적었다. 그러나본연구에서보여준바와같이음성평가훈련프로그램으로음성평가의신뢰도가향상된다는것을객관화시켜서그효과를입증하고 2~3주의단기간의훈련만으로도긍정적효과가있었다는것을통해청지각적평가훈련을위한외적기준치즉훈련프로그램이절실히요구됨을제시하는바이다. 또한본연구에서설계된훈련프로그램의모형이추후개발될음성평가훈련프로그램들의기본모형으로사용될수있는것또한본연구의큰의의라할수있겠다. 청지각적훈련프로그램은현재언어병리학을전공하고있는학생들과임상에서활동하기시작한음성언어장애전문가들에게음성장애의기본평가교육지침으로활용될수있을것이다. 또한훈련프로그램이보편화되면청지각적음성평가의표준적인방법을제시함으로써각임상현장에서일관되지못했던평가양상을최대한객관화시킬수있다는데에큰의미를지닐것으로생각된다. 본연구의부족한점을바탕으로할수있는후속연구로다음을제안할수있다. 첫째, 훈련기간이짧은관계로평가자개인별훈련이아닌단체훈련을진행함으로써미세한음질의차이를평가하는데어려움이있었다. 본연구에서도훈련전에비해훈련후의평가의일치율평균은증가하였으나표준편차또한증가하였다. 이는충분하지못한훈련기간에의해야기된현상인것으로해석할수있다. 훈련을 2회밖에실시하지않은상태에서훈련후평가를실시함으로써오히려훈련에의해평가자들이자신들이가지고있던평가의기준틀이깨어지고훈련에서제시하는기준치에자신들의평가를맞 추려함으로써평가의오류들이더발생한것으로보인다. 따라서추후훈련프로그램을제작하고훈련을할때에는훈련기간을보다늘려서실시할때훈련효과가얼마나더향상되는가에대해살펴볼필요가있을것이다. 둘째, 훈련과정중 GRBAS 척도의각항목별기본특징설명에치우쳐혼합음질의차이설명이미비했다. 대학원생들도기식성 (breathy) 과긴장성 (strained) 이 함께나는음성이나긴장성이없이기식성과조조성 (asthenic) 이함께나는음성등각항목별음질의구분을동시에해야하는것을어려워했다. 실제적으로임상에서듣는음성은기본특징에해당하는음성이아니라혼합음성이기때문이다. 선행연구에서도음질을하나의지각적차원에서정확히판단한다는것은매우어려운일이라설명한바있다 (Gerratt & Kreiman, 2001). 따라서좀더많은음성언어장애전문가들의평가에의해이루어진외적기준치를기초로한프로그램의제작이필요하다. 효과적인훈련을위해보다전문적이고기술적인훈련용 feedback protocol이 필요한것이다. 이와더불어평가자훈련을위한절차들도좀더세분화하여차후에더많은연구를할필요가있다. 셋째, 훈련효과가어느정도지속되는지도계속연구되어야할것으로보인다. 음성평가의일관성을유지하기위해평가환경의지속적인노출도매우중요하다여겨지기때문이다. 따라서, 효율적인음성평가를위한표준적이고일관성있으며, 신뢰성있는훈련프로그램의개발이요구됨을밝히는바이다. 참고문헌 구민모 남기춘 (2007). 영어 - 한국어단어번역과제에서이름 - 일치도와단어빈도효과. 말소리, 61, 31-48. 남정모 최예린 김향희 (2008). 언어병리학에서 SPSS 를활용한통계분석. 서울 : 시그마프레스. 정옥분 임정하 (2004). 학위논문작성법 : 시작에서끝내기까지. 서울 : 시그마프레스. 표화영 (2004). 음성장애의지각적평가. 한국언어청각임상학회 ( 편 ). 언어 청능장애여름연수회. 서울 : 한학문화. 표화영 (2007). 음질저하의정도에따른음성장애환자발화의말명료도연구. 이화여자대학교대학원박사학위논문. 533
언어청각장애연구 2010;15;526-536 Bhuta, T., Patrick L., & Garnet J. D. (2004). Perceptual evaluation of voice quality and its correlation with acoustic measurements. Journal of Voice, 18(3), 299-304. Boone, D. R., McFarlane, S. C., & Von Berg, S, L. (2005). The voice and voice therapy (7th ed.). Englewood Cliffs, NJ: Prentice-Hall, Inc. De Bodt, M. S., Wuyts, F. L., van de Heyning, P. H., & Croux, C. (1997). Test-retest study of the GRBAS scale: Influence of experience and professional background on perceptual rating of voice quality. Journal of Voice, 11(1), 74-80. Dejonckere, P. H., Obbens C., De Moor G. M., & Wieneke, G. H. (1993). Perceptual evaluation of dysphonia: Reliability and relevance. Folia Phoniatrica, 45, 76-83. Eadie, T. L., & Baylor, C. R. (2006). The effect of perceptual training on inexperienced listeners judgments of dysphonic Voice. Journal of Voice, 20(4), 527-544. Fex, S. (1992). Perceptual evaluation. Journal of Voice, 6(2), 155-158. Gerratt, B. R., & Kreiman, J. (2001). Measuring vocal quality with speech synthesis. Journal of the Acoustical Society of America, 110(5), 2560-2566. Gobl, C., & Chasaide, A. N. (2003). The role of voice quality in communicating emotion, mood and attitude. Speech Communication, 40, 189-212. Hirano, M. (1981). Clinical examination of voice. Vienna- New York: Springer Verlag. Kent, R. D. (1996). Hearing and believing: Some limits to the auditory-perceptual assessment of speech and voice disorders. Journal of Speech Language Pathology of America, 5, 7-23. Kim, H. (1996). Perceptual, acoustical, and physiological tools in ataxic dysarthria management: A case report. Proceedings on the 2nd conference in the Korean Society of Phonetic Sciences and Speech Technology, 9-22. Kreiman, J., Gerratt, B., Kempster, G., Erman, A., & Berke, G. (1993). Perceptual evaluation of voice quality: Review, tutorial and a framework for future research. Journal of Speech and Hearing Research, 36, 21-40. Murry, T., Medrado, R., Hogikyan, N., & Aviv, J. (2004). The relationship between ratings of voice quality and quality of life measures. Journal of Voice, 18(2), 183-192. Neuenschwander, M. C., Sataloff, E. T., Abaza, M. M., Hawkshaw, M. J., Reiter, D., & Spiegel, J. R. (2001). Management of vocal fold scar with autologous fat implantation: Perceptual result. Journal of Voice, 15, 295-304. Wuyts, F. L., De Bodt, M. S., Paul, H., & Van De Heyning, P. H. (1999). Is the reliability of a visual analog scale higher than an ordinal scale? An experiment with the GRBAS scale for the perceptual evaluation of dysphonia. Journal of Voice, 13(4), 508-517. * 이논문은제 1 저자의석사학위논문 (2010) 을요약한것임. 534
Lee, Kim & Kim / The Effect of Perceptual Training on the Reliability of Voice Quality Evaluation ABSTRACT The Effect of Perceptual Training on the Reliability of Voice Quality Evaluation Young-a Lee a,b Hyung-Tae Kim b Jaeock Kim a a Major in Speech Pathology Education, Graduate School of Education, Kangnam University, Yongin, Korea b Yeson Voice Center, Seoul, Korea Correspondence to Prof. Jaeock Kim, PhD, Major in Speech Pathology Education, Graduate School of Education, Kangnam University, 111 Gugal-dong, Giheung-gu, Yongin-si, Gyeonggi-do, Korea e-mail: jaeock@gmail.com tel.: + 82 31 280 3221 Background & Objectives: The purpose of the present study was to evaluate the effect of perceptual training on the reliability of voice quality evaluation by graduate students in a speech pathology program. Methods: Sixty voice samples were selected from a database by 2 qualified SLPs. Samples included 40 test stimuli and 20 training stimuli of both sustained vowels and connected speech. Thirty graduate students in a speech pathology program were trained for 2 weeks. For training, the students were provided with the definitions of rating dimensions and perceptually evaluated 20 training stimuli with the GRBAS scale. Then, the students were given feedback on their ratings. Before and after the training, the students evaluated voice quality in 30 dysphonic voices and 10 normal voices using the GRBAS scale. A matched, paired 2-sample t-test was calculated to determine if there was a difference between pre- and post-training reliability values. Intra-rater reliability was calculated from the randomly selected 15% samples throughout the testing block. Additionally, inter-rater reliability was calculated using Intraclass correlation coefficients. Results: The pre- and post-training results were significantly different. Intra-rater reliability and inter-reliability were also significantly increased post-training. Discussion & Conclusion: Perceptual rating to evaluate voice quality is a subjective method that requires sufficient training. Therefore, the use of perceptual anchors and a perceptual training program for reliable perceptual rating should be developed. (Korean Journal of Communication Disorders 2010;15;526-536) Key Words: perceptual evaluation, voice quality, GRBAS Scale, perceptual training program, reliability REFERENCES Bhuta, T., Patrick L., & Garnet J. D. (2004). Perceptual evaluation of voice quality and its correlation with acoustic measurements. Journal of Voice, 18(3), 299-304. Boone, D. R., McFarlane, S. C., & Von Berg, S, L. (2005). The voice and voice therapy (7th ed.). Englewood Cliffs, NJ: Prentice-Hall, Inc. De Bodt, M. S., Wuyts, F. L., van de Heyning, P. H., & Croux, C. (1997). Test-retest study of the GRBAS scale: Influence of experience and professional background on perceptual rating of voice quality. Journal of Voice, 11(1), 74-80. Dejonckere, P. H., Obbens C., De Moor G. M., & Wieneke, G. H. (1993). Perceptual evaluation of dysphonia: Reliability and relevance. Folia Phoniatrica, 45, 76-83. Eadie, T. L., & Baylor, C. R. (2006). The effect of perceptual training on inexperienced listeners judgments of dysphonic Voice. Journal of Voice, 20(4), 527-544. Fex, S. (1992). Perceptual evaluation. Journal of Voice, 6(2), 155-158. Gerratt, B. R., & Kreiman, J. (2001). Measuring vocal quality with speech synthesis. Journal of the Acoustical Society of America, 110(5), 2560-2566. * This work was supported by the Korea Research Foundation by the Korean government(krf-2009-332-b00440) Received October 20, 2010 Final revision received December 6, 2010 Accepted December 8, 2010 c 2010 The Korean Academy of Speech-Language Pathology and Audiology http://www.kasa1986.or.kr 535
Korean Journal of Communication Disorders 2010;15;526-536 Gobl, C., & Chasaide, A. N. (2003). The role of voice quality in communicating emotion, mood and attitude. Speech Communication, 40, 189-212. Hirano, M. (1981). Clinical examination of voice. Vienna- New York: Springer Verlag. Jung, O. B., & Im, J. H. (2004). Drawing up the paper: From start to end. Seoul: Sigmapress. Kent, R. D. (1996). Hearing and believing: Some limits to the auditory-perceptual assessment of speech and voice disorders. Journal of Speech Language Pathology of America, 5, 7-23. Kim, H. (1996). Perceptual, acoustical, and physiological tools in ataxic dysarthria management: A case report. Proceedings on the 2nd conference in the Korean Society of Phonetic Sciences and Speech Technology, 9-22. Koo, M. M., & Nam, G. C. (2007). Effect of name agreement word frequency on the English-Korean word translation task, Voice, 61, 31-48. Kreiman, J., Gerratt, B., Kempster, G., Erman, A., & Berke, G. (1993). Perceptual evaluation of voice quality: Review, tutorial and a framework for future research. Journal of Speech and Hearing Research, 36, 21-40. Murry, T., Medrado, R., Hogikyan, N., & Aviv, J. (2004). The relationship between ratings of voice quality and quality of life measures. Journal of Voice, 18(2), 183-192. Nam, J. M., Choi, Y. R., & Kim, H. H. (2008). Statistical analysis of SPSS in Speech Pathology. Seoul: Sigmapress. Neuenschwander, M. C., Sataloff, E. T., Abaza, M. M., Hawkshaw, M. J., Reiter, D., & Spiegel, J. R. (2001). Management of vocal fold scar with autologous fat implantation: Perceptual result. Journal of Voice, 15, 295-304. Pyo, H. Y. (2004). Perceptual evaluation of voice disease. In Korean Academy of Speech-Language Pathology and Audiology(Ed.), 2004 Summer Korean Academy of Speech-Language Pathology and Audiology. Workshop for Seoul: Hanhak-munhwa. Pyo, H. Y. (2007). The study on the speech intelligibility of patients with voice disorders according to the level of degradation of voice quality. Unpublished doctoral dissertation. Ewha Womans University, Seoul. Wuyts, F. L., De Bodt, M. S., Paul, H., & Van De Heyning, P. H. (1999). Is the reliability of a visual analog scale higher than an ordinal scale? An experiment with the GRBAS scale for the perceptual evaluation of dysphonia. Journal of Voice, 13(4), 508-517. * This paper was summarized from the master s thesis of the first author(2010). 536