ISSN Vol.8 No.3 pp. 1-9 말소리와음성과학 음절구조로본서울코퍼스의글어절과말어절의음소분포와음운변동 Phoneme distributio

ISSN 2005-8063 2016. 9. 30. Vol.8 No.3 pp. 1-9 말소리와음성과학 http://dx.doi.org/10.13064/ksss.2016.8.3.001 음절구조로본서울코퍼스의글어절과말어절의음소분포와음운변동 Phoneme distribution and phonological processes of orthographic and pronounced phrasal words in light of syllable structure in the Seoul Corpus 양병곤 * Yang, Byunggon Abstract This paper investigated the phoneme distribution and phonological processes of orthographic and pronounced phrasal words in light of syllable structure in the Seoul Corpus in order to provide linguists and phoneticians with a clearer understanding of the Korean language system. To achieve the goal, the phrasal words were extracted from the transcribed label scripts of the Seoul Corpus using Praat. Following this, the onsets, peaks, codas and syllable types of the phrasal words were analyzed using an R script. Results revealed that k0 was most frequently used as an onset in both orthographic and pronounced phrasal words. Also, aa was the most favored vowel in the Korean syllable peak with fewer phonological processes in its pronounced form. The total proportion of all diphthongs according to the frequency of the peaks in the orthographic phrasal words was 8.8%, which was almost double those found in the pronounced phrasal words. For the codas, nn accounted for 34.4% of the total pronounced phrasal words and was the varied form. From syllable type classification of the Corpus, CV appeared to be the most frequent type followed by CVC, V, and VC from the orthographic forms. Overall, the onsets were more prevalent in the pronunciation more than the codas. From the results, this paper concluded that an analysis of phoneme distribution and phonological processes in light of syllable structure can contribute greatly to the understanding of the phonology of spoken Korean. Keywords: phoneme distribution, syllable structure, phonological processes, orthographic, pronounced, Korean corpus 1. 서론최근에서울코퍼스라는한국어의자연발화코퍼스가발표되었다 (Yun et al., 2015). 서울코퍼스는 40명의서울화자가다양한주제에대한질문에즉흥적으로응답한것을녹음하여전사한것이다. 이들의논문에서는서울코퍼스의 113만개어절을이루는음소분포를분석한결과자음이 52%, 모음이 48% 로다소비슷한분포를보였다고한다. 이수치는자음이모음보다 4% 정 도더많다. 국어문장은한글맞춤법의띄어쓰기단위와대략일치하는어절로구성되어있고, 어절은한번에소리낼수있는단위인음절로구분된다 ( 이문규, 2015). 음절은발음상의소리마디로각각초성 (Onset), 중성 (Peak), 종성 (Coda) 의다양한조합으로만들어진다 ( 이호영, 1996). 여기서한국어음절구조에서는초성으로자음 ㅇ 이발음될수없고, 종성자리에는 ㄱ, ㄴ, ㄷ, ㄹ, ㅁ, ㅂ, ㅇ 의일곱자음만이올수있는음절구성의제약 ( 이문규, 2015) 이있기때문에단순히전체의말에서쓰인 * 부산대학교, bgyang@pusan.ac.kr Received 3 August 2016; Revised 16 September 2016; Accepted 20 September 2016 Yang, Byunggon / Phonetics and Speech Sciences Vol.8 No.3 (2016) 1-9 1

음소의대략적인분포보다는음절구조로분할하여자세히살펴볼필요가있다. 국어에서원순모음은같은음절안의앞자음을원순화시키기때문에, 이호영 (1996) 은음절이란단위를이용해야음운현상을제대로규칙화할수있다고한다. 이와같이신승용 (2009:19-20) 도음절을통해음운변동현상의본질을파악하는데도움이된다고지적했다. 그는국어의 ㅂ 불규칙용언어간이 -아/ 어 /X 계어미와결합할때어간이 1음절일때는 누워, 고와 와같이모음조화를지키지만, 어간이 2음절일경우에는모두 -어/X 계어미가결합하여 더러워, 고마워 와같이모음조화가일어나지않는다고한다. 한국어음소분포에대한또다른연구로는배희숙외 (2000) 가 1930년대의한국희곡과 1990년대의불어소설번역본의텍스트를발음변환을시켜서분석한연구가있다. 이들은운율구단위로발화음운론적인차원에서한글텍스트를음소수준으로변환한다음자음과모음의분포를분석했다. 그결과두작품에서사용된음소의빈도분포가매우높은상관관계를보여서비슷하게나타났고, 빈도는텍스트의성격에따라다르다는결론을제시했다. 자음과모음의비율은한국어희곡과불어소설번역본에서 54%:46% 로나타났다고한다. 한편, 프랑스어의모음비율은 42%~44% 로문체나텍스트의성격에따라약간의변화를보인것으로조사되었다 (Bae, 1997). 이러한언어간의차이는왜발생하는지에대해설명하려면, 다양한언어의음운체계를자세히비교분석할필요가있다. 영어단어의특성을살펴보기위해카네기멜론대학이온라인으로공개한카네기멜론발화사전 (CMUPD) 의 116,588 개표제어를분석한 Yang(2016) 의연구에서는모든단어를음절구조로나누어자음과모음의분포를조사했다. 분석해본결과그는 CMUPD 에서자음과모음의비율이 6:4로나타나영어사전표제어에자음이훨씬더많이분포하고있음을지적했다. 영어에서자음은모음에비해약 20% 더많은것이된다. 영어권의자연발화코퍼스인벅아이코퍼스 (Yang, 2012) 에서는실제발화의총음소 2,638,882 개중자음은 1,580,547 개이고모음은 1,058,335 로보고되었고, 그비율은대략 6:4가되는데, 이는 CMUPD 와같은비율이다. Yang(2016) 의연구에서는가장많이쓰인자음이 N으로 11.7% 를차지했고이어서 L이 9.7% 로이어졌다. 단어를이루는음절의빈도를분석해본결과 2음절이가장많이쓰였고, 이어서 3음절과 1음절의순서로나타났다고한다. Yun et al.(2015) 에서는말어절에서어절의크기가 1음절에서 3음절이 82% 를차지하였고, 2음절어절이 1음절과 3음절어절에비해약간더많다고보고했다. 국어어절은 이 ( 가 ), 은 ( 는 ) 처럼주격, 을 ( 를 ) 처럼목적격을나타내는말마디가포함되어있으므로영어의사전을분석한 Yang(2016) 의자료와직접비교하기는어렵지만대체로 2음절이많이쓰였음을보여준다. 앞으로단어품사별사전파일이만들어지면이러한언어간의음절크기분포에대해비교연구가가능할것이다. 서울코퍼스를음절구조로구분한뒤글어절과발화음절로분리하여유형별로분석한자료에서는 CV(C: consonant, V: vowel) 가가장자주쓰인유형이고이어서 CVC, V, VC의순서로나타났으며 글어절에서만소수의 VCC와 CVCC 가나타났다고한다 (Yun et al., 2015). 아직까지충분한분량의자연발화에서구한코퍼스에서음절을중심으로음소분포를계량적으로분석한사례가드물기때문에이논문에서는서울코퍼스의글어절과말어절자료를분석하여한국어의음절구조에대해자세히살펴봄으로써한국어를연구하는언어학자나음성학자들에게구어로발화된국어에대한기초자료를제공하고자한다. 구체적으로이연구에서는다음과같은연구문제를중심으로살펴보고자한다. 1. 서울코퍼스에서글어절과말어절을음절구조로나눈자음과모음의분포는어떠한가? 2. 서울코퍼스에서글어절과말어절사이에어떤음운변동의분포를보이는가? 3. 서울코퍼스에서글어절과말어절의음절유형에서는어떤차이를보이는가? 이러한연구의결과는다른언어와의비교에도활용할수있고, 음절구조에따른초성과종성에분포비율을참고하여보다높은빈도의음소로음성인식에서판단하는도구나, 통계적인분포규칙에따라문자열을음성으로합성하는자료등으로활용할수있을것으로기대된다. 2. 음성자료 2.1. 서울코퍼스서울코퍼스는 40명의서울화자가인터뷰형태로참가자자신이나가족, 마을의이웃사람들이나정치문제에대한의견이나여가시간등에관한질문에대해즉흥적으로말한것을녹음하여전사한것이다 (Yun et al., 2015). 약 23만개의어절이들어가있고, 정해진문장을읽게하는통제된녹음자료에서는볼수없는자연스러운말의특징을살펴볼수있다. 녹음된음성은훈련된전사자들에의해선택된 5,152개의음소에대해 98.1% 의일치를보일정도로일관성있게표기되었다. 자동레이블러를활용하였지만, 일일이수작업으로재확인을거쳤기때문에신뢰할만한귀중한자료로여겨진다. 서울코퍼스에서글어절은글로나타낼때정서법에따라표기된어절 (orthographic syllables) 을말하고말어절은실제화자가발성한것을소리마디별로구분하여표기한어절 (pronounced syllables) 이다. 이코퍼스에서는말어절층위와최상층의실제음소표기에약간의차이를보이고있다. 예를들어첫번째화자의 잘못했다 는글어절에서는 c0aall-mmoos0-hheess-t0aa 로전사하고, 말어절에서는 잘모태따 로표기하고 c0aall-mmoo-thee-ttaa 로전사했는데, 최상위층에서는 EE를 ee로표기하고있다. 실제서울발음에서남성은두개의모음을구분하기도하지만여성은구분하지않고발음하는경향을보이기때문에발음을구분하여표기했는지는알기가어려울것으로여겨진다. 이논문에서는말어절로구분된 2 Yang, Byunggon / Phonetics and Speech Sciences Vol.8 No.3 (2016) 1-9

층위의정보를중심으로분석하기로한다. 앞으로이부분에대해음향적인기준이나지각기준을이용해서말어절의발음을세분하여추가적인연구가필요하다. 자음표기는 11개의글어절에서만나타나는중첩자음을포함하여 30개의기호가쓰였는데, 독자들의편의를위해서울코퍼스기호 -한글기호 -IPA의순서로차례로여기에적는다 (p0-ㅂ -/p/, ph-ㅍ-/p h /, pp-ㅃ-/p /, t0-ㄷ-/t/, th-ㅌ-/t h /, tt-ㄸ-/t /, k0-ㄱ-/k/, kh-ㅋ-/k h /, kk-ㄲ-/k /, s0-ㅅ-/s/, ss-ㅆ-/s /, hh-ㅎ-/h/, c0-ㅈ-/ʨ/, ch- ㅊ-/ʨ h /, cc-ㅉ-/ʨ /, mm-ㅁ-/m/, nn-ㄴ-/n/, ng-ㅇ-/ŋ/, ll-ㄹ-/l/, ks-ㄳ -/ks/, nc-ㄵ-/nʨ/, nh-ㄶ-/nh/, lk-ㄺ-/lk/, lm-ㄻ-/lm/, lp-ㄼ-/lp/, ls-ㄽ -/ls/, lt-ㄾ-/lt h /, lp-ㄿ-/lp h /, lh-ㅀ-/lh/, ps-ㅄ-/ps/). 이들자음가운데 ng을제외하고는초성에모두나타나고종성에는 k0, nn, t0, ll, mm, p0, ng 만대표자음으로나타난다. 중성에서단모음은 8 개 (ii-이-/i/, ee-에-/e/, EE-애-/æ/, aa-아-/a/, xx-으-/ɨ/, vv-어-/ə/, uu- 우-/u/, oo-오-/o/) 로표시되고이중모음은 13개 (ye-예-/je/, YE-얘 -/je/, ya-야-/ja/, yv-여-/jə/, yu-유-/ju/, yo-요-/jo/, wi-위-/wi/, we-웨 -/we/, we-외-/we/, WE-왜 -/we/, wa-와-/wa/, wv-워-/wə/, xi-의-/ɨi/) 로나타내었다. 단모음가운데 ee, EE는글어절에서각각구분하여표시했고, 이중모음에서도 je와 YE, we, WE, we 등으로구분하여나타냈는데, 서울화자들이라도이들모음을명확하게구분하지않는화자도있어서전사를담당한분들이단모음과이중모음을들어서구별하기에어려움이있었을것으로여겨진다. 그래서최상층의음소표기에서는 ee, je와 we로표기되어있다. 2.2. 자료분석자료분석은 Praat(Boersma & Weenink, 2016) 에서글어절과말어절을먼저뽑아냈고, 이어서 R(2016) 을이용하여개별음절로구분한뒤음절구성요소와음절유형별로나누어글어절과말어절이서로교차된분할표를만들어분석했다. 먼저 Praat에서는새스크립트를열어아래의코드를입력하고실행하여 outall63.txt 이라는텍스트파일을글어절과말어절로분리하여하드디스크에모두저장했다. 1차분석에서 llaak0oo 가음절분리가안된채전사되어있는것을발견하고 llaa-k0oo 로음절표시를넣어다시저장했다. 스크립트에대해간략히설명해보면, 먼저서울코퍼스의말을음성기호로전사한 label폴더에서 240개의파일이름목록을구한다음되풀이작업을통해각각의파일을열어서실제말어절로표시된 3열과글어절로표시된 6열을하나씩열어서시작시간값과끝시간값을삭제하고, < 로시작되는추가정보줄은모두제외하고, 음소기호로표시된음절을글어절과말어절의순서로덧붙여쓰게하여한개의최종텍스트파일 (outall63.txt) 로만들었다 ( 부록참고 ). 이어서 R을이용해서음절별로분할한뒤음절과음소유형별로분류하였다. R실행코드는길기때문에지면상전체적인처리과정만설명하기로한다. 먼저 stringr 이라는라이브러리를설치하고, outall63.txt 를불러와서전체행의길이를구했다. 이라이브러리에는하이픈으로구분된어절의요소의개수를파 악하거나모음의위치를기준으로음절의구성요소인문자열을분리하는데편리한다양한함수가포함되어있다. 이런함수기능을활용해서자음 (nn, ll과같은단자음과 ks, nc와같은중첩자음목록을따로만들어서처리했음 ) 과모음목록을메모리에탑재하고, 8개의열로된배열을만들어글어절의초성, 중성, 종성과음절유형에연이어말어절의초성, 중성, 종성과음절유형으로문자열을분할하여한줄의배열로만든다음, outall.txt 라는파일에덧붙여쓰면서하드디스크에자동으로기록하게했다. 이텍스트에는 231,632 개의어절이포함되어있다. 구체적으로파일의내용을보면 outall63.txt 파일의첫번째다섯줄은다음과같이되어있다. Ortho Prono nnee nnee c0ee c0ee ii-llxxmm-xxnn ii-llxx-mmxxnn ii-k0oo-yo ii-k0uu-yv 여기서첫줄의 Ortho Prono는첫번째열이글어절이고두번째가말어절임을나타낸다. 이어서첫번째참가자가 네, 제이름은이구요 라는문장을 4개로된어절로나타냈다. 서울코퍼스에서는전사할때개인정보보호차원에서참가자의이름을삭제한것으로추정된다 (Meyer, 2002). 분류하는과정은먼저철자발음의각음절의문자수를구한다음 6개일경우에는첫번째와두번째의자음은초성으로세번째와네번째는중성으로다섯번째와여섯번째는종성으로배열에넣고, 만약종성이중첩자음목록에들어있으면 CVCC로분류하여네번째열에넣었다. 이어서말어절에서동일하게처리하되마지막중첩자음목록은해당하지않기때문에 CVC로분류하여네번째줄에넣었다. 예를들어, 두번째줄의 nnee는모음 ee를찾아서모음목록에들어가있는지확인하고음절의중성으로지정하고그앞의자음 nn은초성으로지정하고음절유형은 CV로분류하였다. 덧붙여, 텍스트파일을엑셀에서불러올때열별구분을할수있도록각음소다음에콤마를넣어서저장했다. 이렇게처리한결과로만들어진 outallsyl.txt 파일의첫부분은다음과같다. 1,OrthoO,OrthoP,OrthoC,OrthoT,PronoO,PronoP,PronoC,PronoT 1,nn,ee,,CV,nn,ee,,CV 1,c0,ee,,CV,c0,ee,,CV 1,,ii,,V,,ii,,V 2,ll,xx,mm,CVC,ll,xx,,CV 3,,xx,nn,VC,mm,xx,nn,CVC 첫번째숫자는각행의해당음절위치를나타낸다. 마지막으로이렇게만든텍스트파일을 R에불러와 attach하여열이름을변수로이용할수있게만든다음, table(orthoo, PronoO) 과같이 R의내장된함수를이용해글어절과말어절의초성끼리분할표를만들어저장하거나 table(orthoo) 과같이초성의유형별 Yang, Byunggon / Phonetics and Speech Sciences Vol.8 No.3 (2016) 1-9 3

목록과빈도를구하여한개의파일로저장함으로써음절요소에따른각음소별분포를엑셀의내장된함수를이용해서빈도에따른정렬과비율을구해분석했고, 중성과종성및음절유형도이런방식을적용해모두살펴보았다. 3. 분석결과 3.1. 음절요소별분석서울코퍼스를글어절과말어절의음절구성요소별로구분하여 < 표 1, 2, 3> 과같이초성, 중성, 종성별로분할표를만들어나타내었다. 이렇게글어절과말어절을서로교차하여표로나타내면글어절이실제발화에서는어떻게변했는지살펴볼수있는장점이있다. < 표 2> 에서보면서울코퍼스의글어절이나말어절에서중성인모음이하나씩들어간경우를모두합치면전체음절수는 555,690 개이다. 이수치는서론에서살펴본 Yun et al.(2015) 이보고한글어절과말어절을중복되게모두포함한 113만개의음소와는달리어절별로분할한자료이다. 서울코퍼스에서초성의음소분포를보면글어절에서가장많이차지한음소는 k0로공백 (Null) 을제외한순수한초성의빈도인 424,847 개에서약 23.4% 를차지하고있으며말어절에서도 k0이순수한초성의빈도인 443,491 개에서 19.4% 를차지하고있다. 이어서글어절에서는 t0, c0, nn이약 10% 를차지하고 s0, ll이약 8%, hh, mm이 7%, p0은 4% 를차지하고나머지는 2% 이하를차지한다. 가장낮은비율을보인초성은 pp로 0.3% 가되며된소리 ss와 cc도 0.5% 이하를차지하는데, 이들은말어절에서도 0.5% 로매우낮다. 말어절에서는 k0다음으로 nn이 12.2% 를차지하고이어서 ll, t0, c0 등이약 9% 씩차지하고 mm, s0이 7%, p0, kk, hh가 3%, 나머지음소들은 2% 범위에해당한다. 참고로이논문에서는앞절의 outall63.txt 에서보았듯이 nnee와같은감탄사에대한자세한분포를다루지않겠지만, nnee라는어절이차지하는빈도는 4,218개로나타났고, k0xx가 3,875개, k0vv가 3,093개등으로나타났는데이런음소들도빈도에일부포함되어있음을인지하기바란다. 이러한음소분포결과는종성을포함하지는않았지만, UPSID 자료에서 Maddieson(1984) 이조사한음소의분포에서 80% 이상의언어가 /p, t, k, m, n, s, j/ 음소를가지고있고, /k/ 를가장선호한다는결과와일치한다. 글어절에서말어절로갈때가장많이줄어든음소는 hh로약 16,355 개가줄어들었는데비율로는약 4% 가된다. 그이유는앞선음절의종성자음을발음하면서삭제된경우가 10,208 개나되고앞선종성파열음등과결합해서거센소리로변한사례가많기때문으로추정된다 ( 구체적인음운변동사례는 < 표 1> 6째줄참고 ). 이연구결과에서도보듯이언어마다음절구조가다르기때문에한국어와같이특징적인구조를가지는경우에는음절구조로분리하여음절요소별로살펴보아야전체적인음소분포에대해바르게논의할수있을것으로생각한다. 이어서 k0도약 4% 의비율인 13,218 개가줄어들었는데, 발음이없어진사례가 6,383이고된소리인 kk로바뀐경우가 9,449번이며거센소리인 kh도 2,745개나된다. 이러한음운변동 이일어난환경과변화비율등은차후에서울코퍼스의실제자료에서찾아구체적으로연구할필요가있다. 이번에는 < 표 2> 를중심으로중성으로분류되는국어모음의글어절과말어절의분포에대해살펴보기로한다. 먼저글어절에서가장많이나타난음소는 aa로공백을제외한중성의빈도인 441,142 개에서 20.6% 를차지했고, 말어절에서도순수한종성의빈도인 440,610 개의 21.1% 를차지했다. 이모음은고스란히말어절에서도나타나고추가로다른모음 532개가 aa로발음될정도로안정적이고선호하는모음으로여겨진다. 참고로벅아이코퍼스에서는글음소가실제말에서는약 61.8% 가감소했고, 분절음단위로보면모음의 63.0% 가감소했고, 자음의 61.0% 가발음되지않았다고한다 (Yang, 2012). 감탄사로된어절에서는 aa, ee, ye가각각 1,620개, 1,586개, 1,289개등으로나타났는데, 이런음소들은중성의빈도에미미한영향을준것으로여겨진다. 이어서 xx, ii가글어절과말어절에서모두 14% 를차지했고, vv가 13.1% 를, oo가글어절에서 9.6% 를차지하고말어절에서는 8% 로약간내려갔다. 글어절에서 ee와 EE는각각 7.3%, 4.7% 를차지했으나말어절에서는 ee가 7.8% 로미세하게상승했고, EE는 5.6% 로하락해서입벌림을좀더해야하는 EE발음이실제발음에서는조음동작이더적은 ee로말어절에서도대체된것으로추정된다. 일반적으로입벌림정도는 F1 으로나타나는데 (Pickett, 1987), Yang(1996) 은 20명의한국인화자가발음한국어모음의포먼트를측정하여모음삼각도를나타내어본결과입벌림정도를반영하는 F1값에서 ee와 EE발음의차이가남을지적했다. 앞에서도언급했듯이최상층의음소표기에서는이들발음이모두 ee로표시되어있다. uu는글어절에서 4.2% 인데, 말어절에서는 6.6% 로 12,746 개가증가했다. xx 는철자발음에서는 78,649 개인데, 이가운데 74,583 개가말어절에서쓰였고, 다양한종류의단모음으로변형된모양을보인다. 이중모음 we는 < 표 2> 에서가장적은음소로나타났는데, 글어절에서는 58회로 0.01% 에해당하며이마저도말어절에서는 39개만실현되었다. 이중모음은개별적으로는대체로 3% 이하를보이는데글어절에서이중모음을모두합쳐도 48,210 개로 8.8% 를차지한다. 말어절에서는이중모음의빈도가 67,500 개로전체음소에서 15.3% 를차지해서거의 2배나증가된현상을보인다. 이가운데 yv가글어절 3.2% 에서말어절에서 4.8% 로 8,285개증가했는데, 그변화의중심에는글어절의 9,445개를차지하는 yo가바뀐것이다. 앞절의 outall63.txt 사례에서도볼수있고 s01m16f1 화자의발화에서는 이구여, 올라가여, 살아여 등과같이 30개글어절의 요 가말어절에서는모두 여 로교체되었듯이, 아마젊은화자들이친근한대화를하면서서술어미에서많이사용한것이증가의원인으로여겨지는데, 앞으로남녀노소집단별로분석을하면이러한사회언어학적인측면의언어사용경향도살펴볼수있을것이다. 음운변동에서글어절이말어절에서가장많이줄어든경우는 yo가 11,138 개나바뀌어서약 2% 의차이를보였다. w로시작되는이중모음군가운데단모음으로변한경우가눈에띄게많은데, 구체적으로 4 Yang, Byunggon / Phonetics and Speech Sciences Vol.8 No.3 (2016) 1-9

wa는 4,932개가운데 40.2% 인 1,981개가 aa로발음되었고, we 에서도 4,981개중 64.1% 인 3,193개가 EE로, wv는 7,257개가운데 43.5% 인 3,157개가 vv로발음되었고, wi도 1,238개중 43.5% 인 539개가 ii로발음되었다. 그런데, y로시작되는이중모음군은단모음화의비율이상대적으로낮게나타난다. 예를들어, ya 음소 4,766개가운데 1% 인 51개만 aa로실현되었고, ye와 YE도각각 e와 E로각각 36.2%, 15.7% 가바뀌었고, yu는 1,521개가운데 1.2% 인 19개만 uu로실현되었다. 이러한이중모음의단모음화경향의차이는주변음절환경이나음절핵인모음의분포와도관련이있고, 단모음과의구별이기능적으로필요한경우에는변화가적은것으로추정되는데서울코퍼스자료를중심으로좀더자세한음운변동환경과변화된음소에대해연구할필요가있다. 마지막으로 < 표 3> 에서종성의음소분포를살펴보면, 글어절에서가장많이나타난음소는 nn으로 77,298 개나되어공백을제외한순수종성음소가운데 35.8% 를차지한다. 이어서 ll이 35,575 개로 16.5% 를차지했으며, ng가 19,348 개로 11.1%, k0이 19,348 개로 8.9%, mm이 16,727 개로 7.7%, ss가 14,753 개로 6.8% 를차지했고, hh, p0, hn, th 등이약 2% 이고나머지는모두 2% 이하를나타낸다. 말어절에서는 nn이 49,795 개로순수종성음소가운데가장많은 34.4% 를차지했고, 이어서 ng가 39,541 개로 27.3%, ll이 25,399 개로 17.5%, mm이 17,830 개로 12.3% 를차지했다. k0은 7,436개로 5.1% 를, p0은 3,718개로 2.6%, t0는 1,103 개로 0.8% 를보였다. 2개로나타난 ph는실제발음에서는대표음 p0로표기되어야하는데전사상에러로여겨진다. 말어절에서비음인 mm, ng, nn이차지하는비율은전체에서 74% 나되어서우리말종성은비음이매우선호되는언어라고할수있다. 글어절을기준으로대표음으로변하는음운변동과정을몇가지살펴보면, c0은 930개가운데 108개는 nn으로바뀌고 19개는 t0로변했는데 788개나발음되지않는공백으로나타났다. hh는 5,460개가운데거의 97.8% 가발음되지않았으며, ll은 35,575 개중 66.2% 가발음되었고, 그중에 33.5% 가발음되지않았다. 비 음군에속하는 mm, ng, nn은원래의글어절음소가운데각각 57.3%, 94.6%, 68% 나발음되었다. 왜이런비음을국어의종성에서선호하는지는이런비음의분포를바탕으로앞으로발화의편이성이나지각구별의용이함이라는변수등을중심으로실험등을통해더연구할필요가있다. 한가지더지적할것은비음가운데서도 nn은비음동화를통해다양한종성자음으로바뀌어나타나는데원래의음소를그대로발음한것은 44,303 개로 57.3% 이고, 이어서 ng로바뀐것이 13,920 개로 18.0%, mm 으로는 5.9% 인 4,529개로변했으며, ll로바뀐것은 0.7% 인 573 개나된다. 비음동화에의한발음은현행표준발음법제5장 18 항에서는많은종성이따라오는 ㄴ, ㅁ 앞에서비음으로발음한다고적고있다. 앞서보았던 ll의빈도가높은것도원래부터글에쓰인사례도있지만, 표준발음법에서 ㄴ 이 ㄹ 앞이나뒤에서 ㄹ 로발음되는국어유음화현상에의한영향도많을것으로여겨진다. 이러한종성의분포에끼치는음운변동의영향도성별나이별집단별로조사해보면흥미로운결과가나올것이다 (Yang, 2012;Yun et al., 2015). 마지막으로글어절에서는 339,497 개가종성이없는데이는전체철자음절수의 61.1% 가된다. 말어절에서는이숫자가 410,866 개로 73.9% 로증가했다. 이는참여자들이발음에서대다수의종성을발음하지않았음을나타내는데, 다음절의음절유형에서자세히살펴보기로한다. 지금까지음절구조로나누어서울코퍼스의글과말의음소분포를살펴본결과국어에만볼수있는독특한음절의구성요소별음소의분포와음운변동을관찰할수있었다. 표 1. 서울코퍼스음절초성의글음소 (OrO) 와말음소 (PrO) 분할표 Table 1. Contingency table of orthographic (OrO) and pronounced phonemes (PrO) of the syllable onsets in the Seoul Corpus OrO\PrO Null c0 cc ch hh k0 kh kk ll mm nn p0 ph pp s0 ss t0 th tt sum Null 86556 982 33 588 62 6022 98 365 8291 3963 11589 1475 664 6 767 6017 390 2915 60 130843 c0 941 38419 5207 562 0 71 4 8 6 8 18 2 0 0 19 2 33 2 4 45306 cc 7 20 2115 14 0 0 0 0 0 0 1 0 0 0 0 0 0 1 4 2162 ch 8 13 13 7690 1 1 2 0 0 1 0 0 1 0 3 1 1 3 0 7738 hh 10208 19 2 37 15021 95 1520 60 1250 507 1946 4 352 0 58 7 14 619 7 31726 k0 6383 75 5 2 249 79706 2745 9449 94 14 166 6 0 1 177 16 225 4 40 99357 kh 5 0 0 0 0 5 2092 59 1 0 1 0 2 0 0 0 1 1 1 2168 kk 1310 6 1 0 2 21 6 5646 1 1 7 0 0 0 1 0 1 0 0 7003 ll 1812 58 3 125 4 142 640 560 31885 44 383 2 1 0 496 1 112 13 29 36310 mm 260 0 1 0 3 1 0 1 4 29816 23 45 4 0 40 4 1 0 0 30203 nn 2703 19 0 1 7 33 1 208 467 396 39903 0 0 0 7 3 491 3 5 44247 p0 49 0 0 0 1 8 2 3 1 35 3 15686 11 869 3 0 8 13 1 16693 ph 8 0 0 1 5 1 0 1 2 7 1 10 3516 69 0 1 0 3 0 3625 pp 0 0 0 0 0 0 0 0 0 0 0 2 6 1080 0 0 0 0 0 1088 s0 898 36 5 14 11 8 0 5 11 10 22 6 0 0 32133 4073 18 5 3 37258 Yang, Byunggon / Phonetics and Speech Sciences Vol.8 No.3 (2016) 1-9 5

ss 3 2 1 0 1 0 0 0 0 0 0 0 1 0 22 1655 0 0 0 1685 t0 975 45 4 1 2 23 0 2 44 4 100 7 0 0 15 4 39283 363 5522 46394 th 70 1 1 8 2 0 2 0 6 0 3 4 0 0 1 1 22 4708 31 4860 tt 3 0 7 0 0 2 0 2 0 0 0 0 0 0 0 0 14 239 6757 7024 sum 112199 39695 7398 9043 15371 86139 7112 16369 42063 34806 54166 17249 4558 2025 33742 11785 40614 8892 12464 555690 표 2. 서울코퍼스음절중성의글음소 (OrP) 와말음소 (PrP) 분할표 Table 2. Contingency table of orthographic (OrP) and pronounced phonemes (PrP) of the syllable peaks in the Seoul Corpus OrP\PrP Null aa ee EE ii oo uu vv wa we we WE wi wv xi xx ya ye YE yo yu yv sum Null 0 72 53 4 91 35 33 93 1 0 0 0 0 1 3 177 14 0 0 1 2 20 600 aa 1545 111001 102 989 117 46 93 249 83 0 0 0 0 1 0 172 70 1 1 45 0 33 114548 ee 2300 32 37149 534 234 5 4 102 0 0 6 0 3 0 0 91 2 67 0 5 0 73 40607 EE 235 40 571 24317 43 17 15 526 0 1 4 1 0 0 0 114 3 6 2 3 0 12 25910 ii 1404 380 814 27 74164 35 595 78 0 0 1 0 17 1 3 907 16 7 0 7 6 53 78515 oo 522 49 8 8 30 40321 11853 292 2 0 2 0 0 5 0 404 0 0 0 6 3 14 53519 uu 45 13 4 7 37 39 22841 48 2 0 1 0 5 5 0 189 0 0 0 0 22 5 23263 vv 1647 713 765 52 262 229 183 65355 3 0 2 0 1 10 1 3069 13 0 0 40 1 233 72579 wa 5 1981 1 1 4 5 0 21 2907 0 0 0 0 1 0 3 1 0 0 2 0 0 4932 we 0 0 2 2 4 0 0 0 0 35 3 12 0 0 0 0 0 0 0 0 0 0 58 we 3 4 364 3193 10 1 1 0 0 1 1378 12 0 0 0 13 0 1 0 0 0 0 4981 WE 0 0 43 741 1 1 0 0 0 1 137 473 0 0 0 1 1 0 0 0 0 0 1399 wi 0 0 0 2 539 0 2 1 0 0 0 0 625 0 0 1 0 0 0 0 2 66 1238 wv 9 22 1 3 3 2456 54 3157 8 1 0 0 0 1475 0 51 1 0 0 0 0 16 7257 xi 10 2 622 7 1504 0 0 4 0 0 1 0 2 0 169 76 2 9 1 0 1 1 2411 xx 819 632 790 339 402 133 302 435 1 0 0 0 0 0 4 74583 156 0 0 3 1 49 78649 ya 199 51 14 28 24 0 0 2 2 0 0 0 0 0 0 5 4426 2 0 0 0 13 4766 ye 0 1 1238 84 17 0 0 0 0 0 2 0 0 0 0 0 2 2056 2 2 0 17 3421 YE 0 0 37 214 4 0 0 0 0 0 0 0 0 0 0 1 1 24 1086 0 0 0 1367 yo 412 11 11 2 14 267 9 1039 0 0 1 0 1 1 0 24 14 2 0 5080 7 9445 16340 yu 2 1 1 0 25 0 19 3 0 0 0 0 2 0 0 19 0 0 0 1 1447 1 1521 yv 129 75 17 52 64 9 5 726 1 0 0 0 0 0 0 669 11 0 0 7 1 16043 17809 sum 9286 115080 42607 30606 77593 43599 36009 72131 3010 39 1538 498 656 1500 180 80569 4733 2175 1092 5202 1493 26094 555690 표 3. 서울코퍼스음절종성의글음소 (OrC) 와말음소 (PrC) 분할표 Table 3. Contingency table of orthographic (OrC) and pronounced phonemes (PrC) of the syllable codas in the Seoul Corpus OrC\PrC Null k0 ll mm ng nn p0 ph t0 sum Null 335755 93 864 431 855 1069 84 0 346 339497 c0 788 4 0 5 0 108 6 0 19 930 ch 227 4 0 57 0 31 6 0 37 362 hh 5341 16 7 1 21 42 0 0 32 5460 k0 11035 7090 10 8 1187 4 9 0 5 19348 kh 2 0 0 0 0 0 0 0 0 2 kk 314 21 0 0 2 0 0 0 1 338 ks 1 3 0 0 0 0 0 0 0 4 lh 207 0 48 0 0 1 0 0 0 256 lk 9 11 92 0 11 2 0 0 1 126 ll 11913 9 23566 16 11 40 5 0 15 35575 lm 0 0 89 23 19 0 0 0 0 131 lp 1 0 124 0 0 0 0 0 0 125 lt 0 0 1 0 0 0 0 0 0 1 mm 4758 2 9 11379 511 62 5 0 1 16727 nc 0 0 0 0 7 47 0 0 0 54 ng 1192 8 2 54 22614 45 1 0 0 23916 nh 3833 0 1 0 359 441 0 0 0 4634 6 Yang, Byunggon / Phonetics and Speech Sciences Vol.8 No.3 (2016) 1-9

nn 13948 11 573 4529 13920 44303 3 0 11 77298 p0 2066 60 2 776 3 4 1959 0 0 4870 ph 686 2 0 8 0 0 250 2 0 948 ps 57 20 0 393 0 2 1361 0 0 1833 s0 2735 24 0 136 4 231 26 0 236 3392 ss 11418 42 7 9 17 3080 1 0 179 14753 t0 620 9 4 2 0 133 0 0 155 923 th 3960 7 0 3 0 150 2 0 65 4187 sum 410866 7436 25399 17830 39541 49795 3718 2 1103 555690 3.2. 음절유형별분석 < 표 4> 는서울코퍼스의글어절과말어절을음절단위로구분 한후음절유형별로나누어분할표로나타낸것이다. 표 4. 서울코퍼스의글음절유형 (OrT) 과말음절유형 (PrT) 분할표 Table 4. Contingency table of orthographic syllable (OrT) and pronounced syllable types (PrT) in the Seoul Corpus OrT\ PrT Null CV CVC V VC sum Null 0 243 119 187 51 600 CV 7177 236492 2409 8562 564 255204 CVC 1439 52157 103828 3643 4251 165318 CVCC 0 3559 759 7 0 4325 V 474 28710 203 53910 396 83693 VC 196 4031 10946 9537 19001 43711 VCC 0 5 30 537 2267 2839 sum 9286 325197 118294 76383 26530 555690 앞서 Yun et al.(2015) 은서울코퍼스의분류에서는 CVC 유형 이가장많은분포를보였다고보고했는데, < 표 4> 를보면글어 절에서는말어절에공백으로나타난 600 개를제외하고 555,090 개에서 CV 유형이 46% 를차지하며, 이어서 CVC 유형이 29.8%, V 유형은 15.1%, 글어절에서겹자음이들어간 CVCC 와 VCC 유형은 7,164 개로전체에서약 1.3% 밖에차지하고있지않 을정도로작아서중첩자음은우리말에거의활용되고있지않 음을알수있다. 글어절에나타난 555,690 개의음절이말어절 에서는 9,286 개가공백으로사라졌음을알수있다. 이를제거 하면 546,404 개가되며이가운데말어절의 CV 유형이차지하 는비율은 59.5%, CVC 유형은 21.7% 를차지하고 V 는 14.0%, 마 지막으로 VC 는 4.9% 를차지한다. 이러한분포를보면국어음 절의발화에서초성이들어간 CV, CVC 유형이 81.2% 로초성이 없는 V, VC 유형보다훨씬많이쓰였다고할수있다. 덧붙여, 종 성이없는음절유형인 CV 와 V 는전체음절의 73.5% 나된다. 이 러한결과는우리말이종성보다는초성을더많이활용하여주 변음절과구별되는의미전달을시도하고있음을알수있다. 여기서종성의자음은선행하는초성과중성으로된음절의소 리의크기가커서따라오는종성을가리어지각하기어렵기때 문에더적게사용되었을것으로추정된다. 하지만종성의유무 는지각적으로큰차이를보일수있고, 울림도가낮은종성을 통해음절의경계를인식하게하거나, 초성과종성이서로다른음소일경우에는다른음절과구별하기가더쉬운장점도있다. 이러한구별되는소리의크기는영어의초성에겹자음이올경우첫자음보다는공명도가높은자음이두번째따라오게되는경향과도관련이있다 (Duanmu, 2002). Yang(2016) 은영어단어의음절을분석해본결과단어의자체음절에서초성과종성을 93.3% 달리하여다양한단어를구성하였고, 인접한음절에서도 91.6% 가다른유형의모음을사용하여서로구별되는다양한단어를사용하고있음을밝혔다. 그의연구는 2,001개의 CVC 단어를수작업으로분류하여보고한 Kessler & Treiman(1997) 의연구에서제안된이론을 CMUPD 의 116,588 개의표제어에대해분석하여뒷받침한것이다. 음절유형별음운변동을 < 표 4> 에서살펴보면 CV유형의음절이글어절의음절에서공백을제외한 248,027 개에서말어절에서는 236,492 개로가면서다른유형에비해가장많은 95.3% 가원래의유형을유지했다. CVC유형에서는글어절공백을제외한 163,879 개가운데 63.4% 인 103,828 개가말어절에서나타났다. V도 64.8% 가유지되었는데, VC은 43.7% 만유지되어낮은유지비율을나타내고있다. 이러한결과는국어의음운변동에서해당음절이중성만있을때앞의종성과연결되어유형이바뀌거나, 해당음절이종성이따라오는음절의초성에연음되어재음절화됨으로써유형이바뀌었기때문으로추정되지만, 구체적으로음성전사자료에서어떤음운변동에의해이런변화가일어났는지는앞으로더연구가필요하다. 4. 논의및결론이논문에서는 40명의서울화자가즉흥적으로발화한문장을전사한서울코퍼스의글어절과말어절을각음절별로분리하고초성 중성 종성의음절구성요소별로나타난음소들의분포와음운변동을살펴보았다. 연구방법으로는 Praat의층위표기자료를읽어들여어절단위로나눈다음, R의 table 함수를이용해서분할표를통해자세히분석해보았다. 분석결과를요약하면다음과같다. 첫째, 서울코퍼스의음절을분석해본결과초성의음소분포에서는 k0이글어절에서 23.4%, 말어절에서 19.4% 로가장많이나타났고, 된소리는낮은비율을차지했다. 중성의음소분포에서는단모음인 aa가글어절에서 20.6%, 말어절에서 21.1% 를차지했고, 음운변동에서도가장안정적으로유지되었다. 이에 Yang, Byunggon / Phonetics and Speech Sciences Vol.8 No.3 (2016) 1-9 7

반해이중모음들은글어절에서는모두합쳐도 8.8% 인데말어절에서는 15.3% 로거의 2배나증가되었다. 이러한변화의중심에는 yo가 yu로바뀐것이주된이유로관찰되었다. 특히, 글어절에서 w로시작되는이중모음군이말어절에서는단모음으로바뀌는현상이두드러졌다. 말어절에서가장많이쓰인종성은 nn으로 34.4% 를차지했고, mm과 ng를포함하면전체종성의음소빈도에서 74% 나차지할정도로선호되었다. 비음인 nn은글어절에서말어절로가장다양하게변했다. 둘째, 음절유형별로글어절과말어절을비교해본결과 CV 유형이가장큰빈도를보였고이어서 CVC, V, VC의유형순서로나타났다. 전체적으로는초성이들어간음절이종성이들어간음절보다더많이나타나초성이발화에더많이활용되는것으로나타났다. 음운변동에서는글어절에서말어절로실현될때 CV가가장변화가적었고, CVC, V, VC의순서로변화가많게나타났다. 이러한결과를보면국어음소의분포를단순히전체말과글로표현된어절에서나타난음소분포만으로는파악하기힘들고음절구조로분리하여살펴봐야언어의쓰임새를바르게파악할수있다고결론지을수있다. 앞으로서울코퍼스의연령과남녀집단별세부분석을통해좀더자세히이런음운변동을살펴볼계획이다. 감사의글한국어자연발화자료를연구할수있도록서울코퍼스를만들고무료로제공해주신윤원희를비롯한연구자여러분들께심심한감사를드립니다. 참고문헌 Bae, H.-S. (1997). Structures lexicales, syntaxiques et phonétiques dans deux pièces de J. Tardieu. Ph.D. Dissertation, Strasbourg. Bae, H.-S., Koo, D.-O., Yun, Y.-S., & Oh, Y.-H. (2000). A quantitative study for the distribution of Korean phonemes in the two parts: The Ox and Waiting for Godot. Speech Sciences, 7(4), 27-40. ( 배희숙 구동욱 윤영선 오영환 (2000). 한국어음소분포에대한계량언어학적연구 : 소 와 고도를기다리며 를중심으로. 음성과학, 7(4), 27-40. Boersma, P. & Weenink, D. (2016). Praat: Doing phonetics by computer. Retrieved from http://www.fon.hum.uva.nl/praat/ on July 1, 2016. Duanmu, S. (2002). Two theories of onset clusters. Chinese Phonology, 11, 97-120. Kessler, B. & Treiman, R. (1997). Syllable structure and the distribution of phonemes in English syllables. Journal of Memory and Language, 37, 295-311. Lee, M. (2015). Modern Korean phonology for Korean education. Seoul: Hankookmunhwasa. ( 이문규 ( 2015). 국어교육을위한현대국어음운론. 서울 : 한국문화사.) Meyer, C. (2002). English corpus linguistics: An introduction. Cambridge: Cambridge University Press. Pickett, J. (1987). The sounds of speech communication: A primer of acoustic phonetics and speech perception. Austin, Texas: pro-ed. R. Core Team. (2016). R: A language and environment for statistical computing. Retrieved from https://www.r-project.org/ [R Foundation for Statistical Computing, Vienna, Austria] on July 1, 2016. Shin, S. (2009). Korean syllable phonology. Seoul: Bakijung. ( 신승용 (2009). 국어음절음운론. 서울 : 박이정.) Yang, B. (1996). A comparative study of English and Korean monophthongs produced by male and female speakers. Journal of Phonetics, 24, 245-261. Yang, B. (2012). Reduction and frequency analyses of vowels and consonants in the Buckeye Speech Corpus. Phonetics and Speech Sciences, 4(3), 75-83. Yang, B. (2016). Phoneme distribution and syllable structure of entry words in the CMU English Pronouncing Dictionary. Phonetics and Speech Sciences, 8(2), 11-16. Yun, W.,Yoon, K., Park, S., Lee, J., Cho, S., Kang, D., Byun, K., Hahn, H., & Kim, J. (2015). The Korean Corpus of Spontaneous Speech. Phonetics and Speech Sciences, 7(2), 103-109. 양병곤 (Yang, Byunggon) 부산대학교영어교육과부산시금정구장전동 30 Tel: 051-510-2619 Email: bgyang@pusan.ac.kr Homepage: http://fonetiks.info/bgyang 부록. 글어절과말어절추출 Praat 스크립트 clearinfo newname63$="c:\seoulcorpus\out63\outall63.txt" appendfileline: newname63$,"ortho"," ","Prono" Create Strings as file list... filelist C:\seoulcorpus\label\*.* numberlist=get number of strings for i from 1 to numberlist select Strings filelist name$=get string... i dotpoint=rindex(name$,".textgrid")-1 newname$=left$(name$,'dotpoint') textgridname$="textgrid "+newname$ Read from file... C:\seoulcorpus\label\'name$' selectobject: textgridname$ Extract one tier: 3 8 Yang, Byunggon / Phonetics and Speech Sciences Vol.8 No.3 (2016) 1-9

Down to Table: "no", 1, "no", "no" norows=get number of rows column: "tmax" column: "tmin" selectobject: textgridname$ Extract one tier: 6 Down to Table: "no", 1, "no", "no" column: "tmax" column: "tmin" for j from 1 to norows selectobject: "Table pword_prono" prono$=get value: j, "text" if left$(prono$,1)=="<" prono$="0" endif selectobject: "Table pword_ortho" ortho$=get value: j, "text" if left$(ortho$,1)=="<" ortho$="0" endif if ((prono$<>"0") and(ortho$<>"0")) appendfileline: newname63$, ortho$," ", prono$ endif endfor selectobject: textgridname$ selectobject: "TextGrid pword_prono" selectobject: "TextGrid pword_ortho" selectobject: "Table pword_prono" selectobject: "Table pword_ortho" endfor Yang, Byunggon / Phonetics and Speech Sciences Vol.8 No.3 (2016) 1-9 9