언어의엔트로피와情報密度 안 /ι T 걸 서 론 시대는속도전의시대이고정보처리의시대가되고있다. 과거의문명의 특색이었던울 동량 교통량보다는지금은갱보유통의양이격증하고있기때문에한나라의장래를위해 서무기로서의언어의갱비가행해져야한다. 독서의속도를올리기위해서 륨훌훌을 피해야함은다알고있는상식이다. 일반적 A로 말에의한갱보보다는문서에의한정보전달이더 청확함을알고있다. 일상생활에있어서 口語에의해서의사표명을하나더갱밀하고정확한것이요구될때筆書에의해서보완을 하고그로써도부족하면圖面이나揮畵로보완한다. 口話에의한의사소통은표청과 accent, intonation 퉁이補完을한다. 표의문자는표음문자보다分解能 (resolu tion ) 이 높다. 한음 에 넣을수있는발음의 variety ( 變種數 ) 보다는한자에넣을수있는돗의 variety( 變種數 ) 가크기때문이다. 문화가발달하고새로운사물과制度가登場함에따라새로운단어의創制를 통하여分 解能을향상시켜야할시기에다른나라에서이러한高分解能單語가있음을알게되면이를 훨入사용하게된다 ( 交通機關等과학의발달은이러한영향을항상주어왔다 ). 情報理論 의 입장에서보면이러한符號의증가는單位符號가갖는 zp: 헝情報量을 ( 對數的으로 ) 증가 시키기때문에같은길이의 문장으로서도더욱정확한내용이전달된다. 한사람의心理狀 態와意思의表現은반드시言語的인 방법으로만이루어지는것이아니고非言語的表現 로도일어나는것이기때문에때로는언어를통하여의사를전달하기보다는오히려意思를 감추고상대펀에게 當方의의사의 感知를방해하는데사용되는面도있지만많은사람들 이 서로協力하여야일을할수있을程度로일의規模가커지고組織的이된, 그래서積極 的으로언어를통하여 協力이이루어져야하는時代性을감안하여그리고科學과기솔에 국운을걸고있는현실을감안하여더細分되고더正確한그리고갱보밀도가높은國語의 保存과補完은우리에게주어진至上과제이다. 짧은文章이나짧은말에의해서도正確한內容이전달되는것은確信을주는것이고확 신이란엔트로피의最少로써表現및計量된다. 시대의발랄에따라취급하는이론과製品 의 施方과制度의構造가그리고法條項의설명이複雜하게되어서최선을다하여표현해 놓은것도아직모호할수있는 ( 따라서엔트로피가充分히내려오지않는 ) 시대의추세에 따라言語의確信度는가능한한올라가야하고情報의密度는크게되어야하기때문에 언어에있어서어떠한훨素가도움이되고어떠한樣相이바람직하지못한것인가를살펴 보고자한다. 1. 언어의分解能 인간의思考활동운언어를통하여 이루어진다는것은이미알려진 사질이다. 想定컨대 61
62 語學 1ff 究第 20 卷第 l 號 太古에 한국말은일상생활의간단한용어로써채워져 있었고分解能이弱해서상당한發흡 의 법위가거의같은돗을나타냈기 때문에까다롭게 正確한발음을 하지않아도의사소 통에지장이없었다. 現段階에서도넓은發좁範圍를허용하여연속적인程度의차를표현 하는경우등을 ( 특히色彩나擬聲에있어서 ) 볼수있다. 그리고지벙에따라서같은단어 가상당히다르게발음되고있으면서도이해가되고있다. 全體發흡可能範圍를비교적크 게 나누어서 ( 따라서종류가적게大分 ) 사용했고分解能이높은것은요구되지않았다. 初期에는語웰가日常生活에관련된것에限定되었고單語長역시한정되어 單흡節로써 도족하였다. 사회생활의구조가복잡하게되고문화나制度가말달을거듭함에따라서높 은分解能이 ( 발음에서나語쫓에서나 syntactics 입장에서나 ) 요구되게 되었다. 따라서이웃나라이며 우리에게 영향도주어왔고制度들도앞서발달하였던중국에서 어 휘동을일어오게되고漢字즙을收容하여그표현을細分하여分解能을높였던것이다. 이 무렵에 우리나라一部分野에서는아직개념마저도없어서漢字의풀이를漢字로할수밖에 없었던사정을千字文의풀이 ( 륨의 앞부분 ) 를보아서도? 알수있다 ( 룡룡, 조상조, 신하신, 일만만, 항상상, 사신사, 양양, 은은동 ). 漢字는하나하나의文字에뭇이있고문자 마다單흡節의륨이붙어 있기때문에 accent 없이는알아듣고구분할수가없기해문에四 聲이필요하게된다. 그러나意素對흡素의또는意素對符號長의比는짧아서情報密度 가높다. 筆記나發륨을함에있어서最少努力의原理가作用하여한글자한륨節이라도줄 이는방향으로훤久的인 ( 언어의 ) 進化作用이걸린다. 따라서자연히군글자군소리가출 어지게되고그以上줄이연다른것과흔동하게되는그러한限界에가서 안정하게된다. 言語的방볍으로표현휠수있는全體意味領域에서細分이되면될수록그언어의 分解 能은크다. 分解能은단어의個數 ( 한언어의全體語훌 ) 가많을수록높고, 지나친國 :j$ 主義 는시대의要請언어휘의據張을防害하는수가많다. 모든발달은새 單語의創制는물론 새로운 syntax까지도요구하는경향이있다. 그리고在來式用法으로보았을때極東語系에 서모호하게혼용되어왔던低分解能的用法을高分解能으로整理해가는경향을다음과같 은事例等으로알수있는데이는思考方式의論理化의추세로보아당연하다. 事 ~J 파랑 을좁과綠으로분화.... 로서 를 로써 " ( with, by means of ) 와 로서 " ( b ei ng what ) 로구분. 形을形 (shape ) 과型 (ty p e, model, class ) 으로細分. 이북에있어서 원수 를 원수 와 원쑤 " ( 쩡購 ) 로區分. 日本語에서動 (mov e ) 과願 (work ) 으로漢字를創制하여區分. 일본어에있어서한자제한을위해서주 ( 周, periph eric ) 와주 ( 週, cyclic ) 를 周 로공 용하다가還元하는等. 2. 언어의빼훨톨, 홉짧홈度및密度예l 加努力 같은내용을發흡하는데시간이 더걸렸다면정보의時間密度는낮아지고같은內容을 말하는데에있어서말을되풀이하거나하여않은말을하여야했다연즙素單位密度는낮 다. 말올할경우나看板올씀에있어서도최소의노력으로意思陳通을이룩하기 위해서 말올짧게하는힘이作用한다. 郞密度를높이려는노력이관찰된다. 준말은이러한最少
언어의엔트로펴와정보일도 63 에너지를指向하는단축화경향의하나로서나타난것이다. 이러한短縮化碩向은자연日常생활용어를單륨節로몰아가는경향이있고따라서예 로부터전해오는일상생활용어는거의가다單흡節엄을관찰할수있어서例를 눈 코 귀 혀 이 입 손 발 폼等 A 體에관한것부터 等옴가까운사물그리고소 말 개 닭等가축等等이며처음에 게되연짧게하는힘이작용합은어느언어에도있다. 들자연 집 담 흙 외 뱃 논 밭 걸었던것도자주쓰 한연같은단어도全體意域이細分되어分解能이높고단어수가많을수록한단어가가 져온정보량은크다. 情報理論에있어서한심불이가져온정보의크기는심볼全體의個數 ( 의對數 ) 에比例한다. 이말을언어에적용하면 한單語가가져온정보량은全體意 域을 分종 U 하는단어의數즉語짧 ( 의對數 ) 에비례한다 η 가될것이다. 많이있을경우에짧아도뜻이많은表現이된다는돗이다. 즉細分化되어術語等이 한言語에있어사단어의짧生頻度順位 ( 최빈발생이一位, 그다음자주발생하는것이 二位等 ) 짧號 ( 의對數 ) 와發生確率 ( 의對數 ) 의사이에는어느言語를막론하고直線的인 比例關係가있는데한국어의경우도가장흔한어초사 10 餘個를除外하고역시비례관계를觀察할수있었다 (1 ) 이것이 Zipf 의법칙 즈로최소노력의원리의표현임이 Mandelbrot 에의해서증명되었다 (2) 限定된어휘를頻用하는경우 Zipf 나 Mandelbrot 의곡선의 1;] 配 는急하게나타난다. 單語가많아지연그하나하나가發生하는確率은적어진다. 따라서자주일어나지않는 單語가더많은情報를가져온다. 한單語의發生確率은 P 라할때이單語가가져온갱 보량 I 는다음式으로나타난다. I=-log P 드문單語는情報量이크지만發生이드물기때문에寄與度 ( 엔트로피 ) 는작다. 한言語 ( 記號群 ) 의.zp. þ 염情報 ( 엔트로피 ) H 는다음式으로나타난다. H= - P log P 의全體合計 언어의엔트로피가를수록그언어의表現能力이커진다. 드문단어는發生이드물어서寄與度는적지만發生하였을해情報傳達量은크기때문에正確한쩌識은衛語의활용에의해서行하여지게된다. 한편單語가치우쳐사용되는것보다는.zp. 엽的으로사용되어모든單語가골고루쓰이는言語가더彈力하다. 特定單語몇개가連發되면청보전달량은減少한다. 漢字큼 避가語養의縮少를가져오고지금言聚이옛보다더限定된어휘를쓰고있다는것이라면.zp. 헝的갱보전달량이줄어들어사람들은이야기하여도덜확실하고不安하고確信이없는상태로남아있게된다. 3. 確혐度 ( 反엔트로피, Negentropy) 전울한바非言語的表現으로누출된心理를강추기위한言語가아니고언어가한사람의뭇을正確하게他 A에게전달하는것을가지고그의사명이라고규정할혜청보의確信度를높일 ( 엔트로피를낮출 ) 필요가있다. 말마다그의풀이와함께써주고, 한뭇을위
64 語學맑究第 2 0 卷第 l 號 해서여러가지로돌려말하는경우確信度는커지겠지만, 情報密度는떨어진다. 따라서 communication을效率的으로하기위해서는풀이等을위한陽性, 陰性的인反復이없어야한다. 이러한되풀이浪費를 redundancy 라고말하고 pleonasm이그典型的인例이다. 이러한浪費는코뮤니케이손의效率은떨어뜨리지만確信度에는寄與하는연이있다. 처가집 이나 오월달꺼等은敎育을通해서만이確信度의減退없이 훌家 와 五月 로代置될수있겠지만情報密度의증가에기여하게된다. 確信度가높.2..( 엔트로피가最少이 ) 면서도情報密度가높은話法은全國民的인교육과努力에의해서만이루어질수있다. 表意文字의言語는말하는것보다는筆記한것 A로 ( homonym 性重複縮退가해소된다연 ) 더욱正確하여確信度가높아지고, 表륨文字는發즙함으로 ( accent에依해서重複縮退가해소된다면 ) 더욱確信度가올라간다. 中國語의四聲은한륨節, 한意素의高密度 sym b o l 系를重複縮退解消를통하여確信度向上에決定的으로寄與하고있다. 國語에있어서도平聲 上聲 去聲 立聲의구별이없어져서 homonym이많아지고따라서確信度가激減하었고이들의표기인백원 흑원 백반월 흑반월표도사라지고따라서구별이유지되지않았다. 한글에있어서도訓民正즙에도예시되어있는長룹表記黑點도전승되지않아서이미확갱된 accent도유지되기어려우며新語가形成되었을때에는제대로 acce nt 가확립되지도않았다. 이러한악센트의상실은 homonym 中에서가장흔히쓰이는 ( 最頻發生 ) 뭇만이有勢하게되고나머지의뭇으로사용하었을때에는追加說明을해야하고따라서정보밀도를低下시키게되며, 이러한努力追加가法律이나工業規定또는學術等우리에게가장重흉흉한部分에걸리게되어被害가크고惡質的이다. 漢字排除에의한 homonym 性重複縮退 ( d ege n e ra tion) 를통한確信度의감소를막기위해서 agglutinative ( 路훌語 ) 인국어의특성을저버리고漢字單語에까지되어쓰기를하게되었는데이는情報密度의減少를가져오고視覺에對힌- 단어의 compactness ( 다져집의程度 ) 가減少하여긴文章에不利하다. 發룹만을기록하는, 따라서글의續畵性을排除하는한글專用은文章의돗이複雜하게될수록不利하기때문에解放後繼續해서簡漂한文章쓰기가더욱彈調되게되었다. 內容을짧은文章長으로토막칠수록큰思想, 큰內容傳達이不利하게되어서學術發展에는支陣이있다. 漢字문 避를위한띄어쓰기를通한호白素의뾰用은이러한호白素의句讀點으로서의機能을傷失케하고있는데호白素가減少할수록 semantics 立場으로는主部와述部의사이等에쓰이는호白素의機能이浮刻되어複雅한文章의理解가쉬워지고確信度增加에寄與하게된다. 現行띄어쓰기는單語의 iden tifica tion에는有利하나호白素의文章單位機能으로, 句調點의機能으로보았을때에는不利하다. 複雜한內容을다루는험L 筆者는前者보다는後者的立場을重흉흉視하고前者의모호성克服을위해서는專門用語特珠記號外國語單語等 ( 이들이單語 l e vel의確信度를키위준다면 ) 을쓴다. 한글單語와漢字單語의重複縮退가있을때漢字單語는漢字로만적게되면한글로써있는單語의뜻이한정되고確信度가증가한다. 常用漢字의制定과더많은敎育만이그리고漢字가있을경우는반드시漢字를使用하는原則의確立이이種類의重複縮退를풀어確信度增加에寄與한다. 日本語에있어서는外來語를가다까나로表記하는原則에의해서確信度를增加시키고있고英語等에서도大文字와小文字를그러한方向으로活用하는一面이있다. 그리고이태릭이나 bold face
언어의엔트로펴와정보일도 65 等서로識別되는記號群을훨入하여情報密度의增加와確信度增加를꾀하고있다. 한벨의文字로서는벅찬分野들도생겨가고있고外國語單語를借用하였을해에도그單語의뭇이全部옮겨오는것이아니고一部의뜻만으로限定이되기때문에重複縮退가풀려서確信度가올라간다. 言쨌의敎育과 ie 確한文法및單語의學習, 忠寶한繼承그리고쓴글에對한澈底한推 m1i 等을通힌- 文章의確信度의提高 ( 엔트로피감소 ) 努力이頭腦集約社會의不可缺한기틀이되고言語의退化는言쨌單位구석구석까지影響을주기때문에極甚한害毒을준다. 確信度의提高와情報密度의提高는國力의바탕이다. 4. 빼톰L 下에있어서의認識速릎性과 index 機能 Homonym이많을해우선은낮은確信度 ( 높은엔트로피 = 불안함, 궁금함 ) 로써文章의한部分을지나고前後關係를通하여文服을통하여推理하려고하게된다. 이와같이推理가可能한것은그文章에推理를許容하는浪費가있다는이야기이다. 이것이바로 redundancy 인데 redundancy가많을수록情報密度가減少한다. 따라서더많은說明이필요하게된다. 確信度가높은文章을追加說明하는것은지루한것뿐으로끝나나確信度가낮은文章의重複說明은確信度를높여출경우도있지만反對로不安度를그대로남기고, 경우에따라서는疑問點을解決하지못할경우도있고뭇을充分히좁히지옷하고二重또는三重의뜻이整理안되고냥아있는것을著者本 A이모르고지날경우가있다. 이러한不注意, 看過는어느言語에도있으나單語에서 identification이確實하다면顯著히減少한다. 漢字는續畵的分解能이기때문에륨領的分解能밖에갖지못한表흡文字보다分解能이높아確信度가이미뿔語 leve l에서높기떼문에單行程調書가可能하다. 單語 lev e l에서 homonym 等으로因하여確信度기낮으면單行程調取 ( one stroke reading ) 가不可能하여몇번往來하여읽어야 ( multi-strok e ) 하기때문에調取努力에比한理解情報密度가激減하고文孤을통한推理에의한 homonym 性縮退解消 ( 여러뭇中의어느것인가를判定하는것, identification) 를위한 mental e ffort는머리의回轉이빠른젊은層에는負擔이적은연이나나머지階層에는越等히큰負擔이띈다. 調取는항상최선의條件 T에서만행해지는것은아니라는점도助案해야한다. À 間 I 學的인考察은本橋의範圍를넘는것이어서다른기회에미루지만現行의明朝 - 色의印剛體에서脫皮하여 p e rception이더容易한 lettering 또는 font가使用되어야하고 ( 한글활자의경우 ) 共通點보다는差異點이경옳調되어야한다. 一例를들어 오 와 으 는調取條件에따라그리고諸取對象物의 i됨榮에따라混同될수가있다. 程度의差는있으나 내 와 1 " -1" 외 - 셔 -11 " 와 H ", E" 와 2. " 等의경우도混同되커가쉬운경우이다. 비 슷하게보이면가장자주얼어냐는單語로얽는碩向은國校生에게도성하여 한글만의文 章을읽을혜의誤諸率은混用文의경우보다 ( 어느年顧階層에있어서나 ) 높고이 碩向은 理想的이아닌條件下에서調取할해 심히浮刻된다. 感情이 激하였을해等도 理想的이 못된條件中의하나이다. 한연電算機能의發達에따라情報處理의 bottle neck은오히려 A 間의介入으로因한速 度의減少이다. 人間의頭腦를電算機의 CPU에견줄혜 A 間에對한 入力은 눈 코 귀 퉁五官이고出力은表情 言語 筆記行動 其他行動인데筆記行動은가장느련中의하나 이다. 따라서打字機等을통하여出力速度는改善될수있으냐調取에있어서도速調性 1
66 語學 liff 究第 20 卷第 l 號 앞으로의 ( 人間에依한再調取의前提下의 ) 記錄方法많善에考慮되어야하는데, 願하는部 分을短時間에 lo c a lize 할수있기寫해서 쉽게 願하는자리를찾아내는 index 性이고려되어 야한다. 이러한面에있어서表意文字인漢字의 index 性이彈하여더욱活用할만하고이 는混用하는국어의경우가漢字만을쓰는中國語의경우보다도 index 性이강하여有利하다. 이러한見地에서가다까나, 히라가나, 漢字또는 ( 技術書籍等에있어서 ) 英語까지뾰用하는 日本語가單語 leve l에 있어서의 identifica t ion이 가장뚜렷할素地가있다. 독서의補助手 段으로揮훤等을넣어이해를돕는것은어느言語에서나行하여지는것이나 ( 單語 leve l에 까지뭇을圖解하는 ) 漢字를알맞는密度로특히 key word에다심어줄수있다면 i nd ex 性 은가장높아서앞으로의科學言語로서有利한立場에있게된다. 日本語는그밖에外來語 單語의처음二흡節을떼어서서로連結하여新語를창제하고특히漢字를통해서짧은新 語를만드는等必훨한곳에新術語를供給하는努力과包容力이 있기 때문에新武器로서 의言語의適應과整備가行해져있다고말할수있다. 유럽言語에서도이태릭 等을通한 index 性의改善이行해지고있다. 國語에있어서漢字混用을통한 in dex 性의 提高와外來 語의收容等을통하여 國語의情報量, 情報密度의 提高그리고分解能의提高가行하여 져야한다. 單語 leve l에서 外來語가더 많이 許容된다해도 syntax leve l에서도國語의 identity가줄어든다고말할수없다. 이러한外來語나외국단어에 대한寬容性은失端技術發展을위해서는必須過程의하나이 다. 항상이상적인조건하에서만독취가행하여지는것이 아니고띄어쓰기둥이잘옷된경 우도허다하기때문에한글전용의불리점은더욱증가한다. 5 결 론 物量寫主의文明으로부터情報塵業의 n흉代로변천해 가면서情報流通이主된方法인한 나라의국어는情報塵業 國際鏡爭의主된武器로變鏡해가고있다. 얼먼토플러의말에 의하면有史以來지나간科學者의數보다더 많은科學者가현재活鍵中이라고한다. 目然 科學만이아니고人文科學과社會科學도많은發達을이루어이짧達은세로운總念을鐘入 하고있으며이러한새로운椰念은新單語新術語의負 U 造를맺求하고있다. 어떠한理뎌3 에 서이건語윷의縮少는情報密度의減少를뭇하여 다기오는情報쩌 : 代에의 對備에 뽑롭다. 專門 A들이 自己分野의術語를保存하지못하고가장흔한말에게만쏠리면 Zipf의 法則의 曲線을더 急하게하고역시言語의엔트로피 (~ 均情報 ) 를減少시킨다. 專門術語를保存傳 授하고寬容的으로많存單語를收容해야한다, 漢字混用을통하여同홉縮退를풀고情報量과確 { 즙度를높여야한다. 우리한 한글화를 하지말아야하며한글화過程에서單語長의增加와한單語의收容意域의 1 曾加 ( 模빼化 ) 는 피해야한다. 長흡 短흡 accent풀보존해야하고 ( 漢字排除에의한 misidentifica tion 해소 의 방안으로서 회어쓰기의 펼요성이증가하고있는데 ) 띄어쓰기의 過用은筆記에 있어서 의 單位長密度플減少시키고호白素의句調點으로서의機能을弱化시켜 ( 單語 iden tifica tion level에서는도움을주냐 ) semantics lev e l에서 해좁고앞으로의人類와, 自然 科學을 鳥始 한모든發展은 semantics level에서의 機能低 T를 全力을다하여 防止할것을훨求하고 있다. 單語 7]<. 準에 있어서의 ( 우랄 알타이系置重, 漢字系排 F잠으로 나타나는 ) 小兒病的인 國牌主義碩向을위한過頻한띄어쏘기및語原밝히기를위한띄어쓰기퉁 ~ 律規制를탈피
언어의엔트로피와갱보밀도 67 하여慣用水準에서굳히고, 정확한내용전달을위한 pro-semantic 自律로還元해야한다. 漢字를混用하여글의圖解性에의한 one stroke reading을가능케하고 index 性을높여야한다. 그리고新單語의創制또는협入에의하여單語의分解能을키우는노력을해야하고外來語의表記를變更 ( 라디오를래디오로하는等 ) 하지말아야한다. 사전찾기等努力이권장되고 semantics l eve l에서의努力, f'f 文等에더많은敎育이行해져야한다. 참고문헌 냥궁건 (1 979) 한글낱말의발생빈도분포와 e ntropy에 관한연구, 서울대학교적사학위 논문. 안수걸, 안지환 (1980) 공백소를포함한한글자소발생확률과엔트로피, 대한전자공학 회지 17.2. 안수걸, 깅중규 (1982) 성도의 다이내믹파라미터에 의한한글모음간의 근사도에 관한 연구, 대한전자공학회지 19. 1. 안수걸, 신동진, 손호인 (1 981) LP 방법에의한한국모음의분석과함성, 대한전자공학회 지 18. 1. Brillouin, Leon (1956) Science and Information Theory, Academic Press Inc., London. ABSTRACT The Entropy of Language and Information Density Su-Kil An The entropy, that is, the average information density of a symbol set being greater in a symbol set with more symbols, we have every interest of keeping the Chinese ideograms mixed with Hangul alphabet. The former gives the rapid indexing feature which is most desirable in the coming information society. Also the decrease in Korean vocabulary caused by the recent tendency of avoiding the Chinese characters accentuates the decrease of the entropy because those young, knowing not chinese-origined specialized terms, have the inclination of using frequent words more frequent1y in order to avoid the more difficult ones thus rendering the Zipf s curve steeper. More education of national level is necessary for the sake of keeping the already developed terms of each field as well as the sake of training the poeple in the syntactic and pro-semantic control of spaces between lexemes" even in sacriíìce of so called national language purification" in the word level in favor of clearer undestanding in semantic levels. Measure of certainty" is proposed as the negative entropy(negentropy) of an expression or word as a seperate notion than the term entropy as the avera~e
68 語學빠究第 20 卷第 l 짧 information density or mutual information of a communication channel. Too frequent spaces beteen lexemes" system which is in actual usage is criticized as they have the tendency of hiding the function of the space as the punctuation symbols and rendering a sentence more difficult to understand in the semantic level. 151 관악구신림동서울대학교공과대학전자공학과 ( 접수 : 1984. 4. 2. )