(19) 대한민국특허청 (KR) (12) 공개특허공보 (A) (51) Int. Cl. 7 G06F 17/22 (21) 출원번호 10-1999-0036905 (22) 출원일자 1999년09월01일 (71) 출원인한국과학기술원윤덕용 (11) 공개번호 10-2001-0025857 (43) 공개일자 2001 년 04 월 06 일 대전유성구구성동 373-1 (72) 발명자최기선 대전광역시유성구구성동 373-1 한국과학기술원 강병주 대전광역시유성구구성동 373-1 한국과학기술원 이재성 대전광역시유성구구성동 373-1 한국과학기술원 (74) 대리인이원희 심사청구 : 있음 (54) 외래어음차표기유사도비교방법 요약 본발명은외래어에대한음차표기유사도를비교판단하는방법에관한것으로특히, 입력되는문자의표기데이터를자음과모음을분리하여자소단위로분리한후첫글자초성 '??' 을제외한모든초성 '??' 을제거하는제 1 과정과, 제 1 과정을통해초성 '??' 이제거된자소의나열순서에서동일자음이연속되는경우나열순서에서빠른순서에위치하는해당자음을제거하는제 2 과정과, 제 2 과정을통해중복되는자음을제거한후첫글자초성을기설정된대표자음으로변환하는제 3 과정과, 제 3 과정을통해대표자음으로첫글자초성을변화시킨후나머지자음에대하여기설정된자음코드로치환하는제 4 과정과, 제 4 과정을통해코드화된자음코드중종성 - 초성관계에있는중복코드에서종성에해당하는코드를제거하는제 5 과정, 및제 5 과정을통해중복코드가제거되어진후기설정되어있는표준외래어음차표기에대한코드화데이터와비교하여동일한경우동일음차표기인것으로판단하는제 6 과정을포함하는것을특징으로하는외래어음차표기유사도비교방법를제공하여외래어음차표기가혼재되어있는각자료혹은색인어를혼동없이빠르게검색할수있으며한국어에적합한유사표기를검색할수있는기준을제공한다. 대표도 도 1 명세서 도면의간단한설명 도 1 은본발명에따른외래어음차표기유사도비교동작순서도 발명의상세한설명 발명의목적 발명이속하는기술및그분야의종래기술 본발명은외래어에대한음차표기유사도를비교판단하는방법에관한것으로특히, 영어권에서보편적으로사용되고있는영어발음유사도비교알고리즘을기초로다양하게표현되는외래어의음차표기유사도비교방법에관한것이다. 최근외국과의교류가증대함에따라서한국어문서에많은외국어의음차표기가사용되고있다. 대부분의음차표기는주로영어에서온고유명사나전문용어이다. 특히과학기술분야의경우는영어전문용어대한한국어번역이없어음차표기를사용할수밖에없는경우가허다하다. 하지만, 외국어에대한음차표기에개인차가심하여이들텍스트에대한문서검색에어려움을주고있다. 예를들어영어 "digital" 에대해 " 디지털 ", " 디지탈 ", " 디지틀 " 등의세가지음차표기가혼용되어 6-1
사용되고있다. " 디지털 " 이표준표기이지만실제로는 " 디지탈 " 이더욱빈번히사용되고있고 " 디지틀 " 도간혹사용되고있다. 상술한바와같은음차표기혼용에따른문제는다양한음차표기를포함하는문서들에대한문서검색에서이를고려하지않을경우실제로검색되어야하는문서가검색되지못하는경우가많이발생하게된다는것으로. 이를해결하는한가지방법은색인시에동일한대상언어의단어를표시하는다양한한국어음차표기를같은등가부류 (equivalence class) 로묶어서색인하여놓았다가질의시에이를자동으로확장해주는것이다 [ 참조문헌 : Jeong, K. S., Kwon, Y. H., and Myaeng, S. H., "The Effect of a Proper Handling of Foreign and English Words in Retrieving Korean Text", In Proceedings of the 2nd International Workshop on Information Retrieval with Asian Languages (IRAL 97), 1997.]. 이러한등가부류를만들기위해서는어떠한두음차표기가같은외국어에서온것인지알아내는방법, 즉음차표기사이의유사도비교방법이필요하다. 또한, 음차표기유사도비교방법은음차표기 ( 외래어 ) 데이터베이스에서근사검색 (approximate search) 을하는데도반드시필요한기술이다. 예를들어외래어로된상호명또는상품명검색에유용하게사용될수있을것이다. 그러나, 한국어가표음문자이기때문에발음과표기가일치하여같은발음에대해표기의애매성이그다지심각하지않기때문에한국어음차표기유사도비교방법은지금까지개발된적이없고, 따라서, 외국어의음차표기의경우의검색및자료관리를위한사용자는매우큰불편을감수하여야하는문제점이발생되었다. 발명이이루고자하는기술적과제 상기와같은문제점을해소하기위한본발명의목적은영어권에서보편적으로사용되고있는영어발음유사도비교알고리즘을기초로다양하게표현되는외래어의음차표기유사도비교방법을제공하는데있다. 발명의구성및작용 상기목적을달성하기위한본발명의특징은, 입력되는문자의표기데이터를자음과모음을분리하여자소단위로분리한후첫글자초성 ' ㅇ ' 을제외한모든초성 ' ㅇ ' 을제거하는제 1 과정과, 상기제 1 과정을통해초성 ' ㅇ ' 이제거된자소의나열순서에서동일자음이연속되는경우나열순서에서빠른순서에위치하는해당자음을제거하는제 2 과정과, 상기제 2 과정을통해중복되는자음을제거한후첫글자초성을기설정된대표자음으로변환하는제 3 과정과, 상기제 3 과정을통해대표자음으로첫글자초성을변화시킨후나머지자음에대하여기설정된자음코드로치환하는제 4 과정과, 상기제 4 과정을통해코드화된자음코드중종성 - 초성관계에있는중복코드에서종성에해당하는코드를제거하는제 5 과정, 및상기제 5 과정을통해중복코드가제거되어진후기설정되어있는표준외래어음차표기에대한코드화데이터와비교하여동일한경우동일음차표기인것으로판단하는제 6 과정을포함하는데있다. 본발명의상술한목적과여러가지장점은이기술분야에숙련된사람들에의해첨부된도면을참조하여후술되는발명의바람직한실시예로부터더욱명확하게될것이다. 우선, 본발명에서적용되는기술적사상을간략히살펴보면, 본발명에따른외래어음차표기유사도비교방법은영어의 Soundex 알고리즘에서기본적인방법론을차용하였다. Soundex 알고리즘 [ 참조문헌 : Hall, P. and Dowling, G., "Approximate string matching", Computing Surveys, Vol. 12, No. 4, pp. 381-402, 1980.] 은영어권에서보편적으로사용되고있는영어발음유사도비교알고리즘으로써, 주로이름 ( 인명, 지명등 ) 데이터베이스에서찾고자하는이름의철자를정확히모를경우발음으로근사검색을하는데효과적으로사용되고있다. 상기 Soundex 알고리즘은영어단어의음성적유사도를비교하기위하여모음을제거하고나머지자음들에대해서비슷한발음을내는자음에동일한코드를부여하여이 Soundex 코드스트링이같으면유사한발음이라고판단하는방법이다. 구체적인 Soundex 코드스트링생성방법은다음과같다. (1) 모든모음을제거한다. (2) 자음중에 'H', 'W', 'Y' 와모든연속되는중복자음을제거한다. (3) 첫글자를제외한다음 3 글자를아래의표 1 의 Soundex 코드로치환한다. [ 표 1] 자음 코드 B F P V 1 C G J K Q S X Z 2 D T 3 L 4 M N 5 R 6 6-2
상기표 1 에대응하여생성된두단어의 Soundex 코드 ( 최대 4 글자 ) 가일치하면두단어는유사한발음을가지는것으로판단된다. 상술한기존의 Soundex 알고리즘을한글에적용시키는데는영어와한국어의음운체계및규칙의차이에의해단순준용시킬수없으나, 본발명에서는기존의 Soundex 알고리즘을적용시키는데있어한국어의음운적특성을고려하여한국어실정에적합하도록변형한것이다. 본발명에따른외래어음차표기유사도비교방법은주로영어에서온음차표기사이의유사도를비교하는방법이다. 따라서, 상기외래어음차표기유사도비교방법은기본적으로모음을고려하지않고자음들만의발음유사도를비교한다. 대략적인방법은발음이혼돈되는자음들에동일한코드를부여하여이코드스트링이일치하면동일한영어에서온음차표기라고판단한다. 구체적인외래어음차표기유사도비교방법은도 1 에도시되어있는바와같다. 스텝 S101 에서는입력되는문자를각음절마다자음과모음즉, 자소단위로풀어쓴후첫글자초성 ' ㅇ '( 이응 ) 을제외한모든초성 ' ㅇ ' 을제거한다. 상기스텝 S101 을통해초성 ' ㅇ ' 이제거된이후, 스텝 S102 에서는자소의나열순서에서동일자음이연속되는경우나열순서에서빠른순서에위치하는해당자음을제거하고, 상기스텝 S102 의과정을통해중복되는자음을제거한후스텝 S103 에서는첫글자초성을기설정된대표자음 ( 표 3 참조 ) 으로변환하게된다. 상기스텝 S103 의과정을통해대표자음으로첫글자초성이변화되어지면스텝 S104 에서는나머지자음에대하여기설정된자음코드 ( 표 2 참조 ) 로치환하게된다. [ 표 2] 자음 코드 ㄱㄱ * ㄲㅋ 1 ㄴㄴ * ㅇㅇ * 2 ㄷㄸㅌㅅ * ㅊ 3 ㄹㄹ * 4 ㅁㅁ * 5 ㅂㅂ * ㅃㅍㅎ 6 ㅅㅆㅈㅉ 7 [ 표 3] 자음ㄲㄸㅃㅆㅉㅎ 대표자음ㄱㄷㅂㅅㅈㅍ 상기표 3 은첫글자초성대표자음을나타내며, 표 2 는본발명에따른외래어음차표기유사도비교방법을적용시키기위한모든사용자음의군과각군의코드값을나타내고있다. 상기표 2 에서 '*' 가오른편에붙여진자음은종성을의미한다. Kodex 알고리즘에서는표준외래어표기법 [ 참조문헌 : 문화체육부고시제 1995-8 호 " 외래어표기법 " 1995 년 3 월 16 일 ] 에근거하여 ' ㄱ ', ' ㄴ ', ' ㄹ ', ' ㅁ ', ' ㅂ ', ' ㅅ ', ' ㅇ ' 등의 7 개의종성자음만을허용한다. 또한 Kodex 알고리즘에서사용되는자음들은한국어표준발음법 [ 참조문헌 : 문화교육부고시제 88-2 호 " 표준발음법 " 1998 년 1 월 19 일.] 에정의된 19 개의자음들을사용하였다. 따라서본발명에서사용되는자음들은아래의표 4 의총 26 개의자음들이다. [ 표 4] ㄱㄱ * ㄲㄴㄴ * ㄷㄸㄹㄹ * ㅁㅁ * ㅂㅂ * ㅃㅅㅅ * ㅆㅇㅇ * ㅈㅉㅊㅋㅌㅍㅎ 이후, 상기스텝 S104 에따른과정을통해코드화된자음코드는스텝 S105 의과정을통해연속적으로 6-3
중복되는코드를제거하게되는데, 상기스텝 S105 에서중복코드가제거되어지면이는스텝 S106 의과정을통해기설정되어있는표준외래어음차표기에대한코드화데이터와비교하게된다. 그에따라, 상기스텝 S106 에서비교데이터가동일하다고판단되면스텝 S107 로진행하고, 동일하지않다고판다노디면스텝 S108 로진행하게된다. 표 5 내지표 7 은실제적으로본발명에따른외래어음차표기유사도비교방법하는경우의실예이다. [ 표 5] packet 풀어쓰기 1 단계 2 단계 3 단계 4 단계 패킷ㅍㅐㅋㅣㅅ * ㅍ 13 ㅍ 13 패키트ㅍㅐㅋㅣㅌㅡㅍ 13 ㅍ 13 팩킷ㅍㅐㄱ * ㅋㅣㅅ * ㅍ 113 ㅍ 13 상기표 5 에서 " 패킷 ", " 팩킷 ", " 팩키트 " 는모두본발명에따른외래어음차표기유사도비교방법을적용하는경우에코드스트링 " ㅍ 13" 으로변환되어일치하므로같은영어단어에서온유사한음차표기라고판단하는것이다. [ 표 6] Windows 풀어쓰기 1 단계 2 3 4 단계 윈도우즈 윈도우스 윈도즈 ㅇㅜㅣㄴ * ㄷㅗㅇㅜㅈㅡㅇㅜㅣㄴㄷㅗㅇㅜㅅㅡㅇㅜㅣㄴㄷㅗㅈㅡ ㅇㅜㅣㄴㄷㅗㅜㅈㅡㅇ 237 ㅇㅜㅣㄴㄷㅗㅜㅅㅡㅇ 237 ㅇㅜㅣㄴㄷㅗㅈㅡㅇ 237 [ 표 7] sound 풀어쓰기 1단계 2 3 단계 싸운드 ㅆㅏㅇㅜㄴ * ㄷㅡ ㅆㅏㅜㄴㄷㅡ ㅅ ㅜ ㄴ * ㄷ ㅡ 사운드 ㅅㅏㅇㅜㄴ * ㄷㅡ ㅅㅏㅜㄴ * ㄷㅡ ㅅ ㅜ ㄴ * ㄷ ㅡ 4 단계 ㅅ 23 ㅅ 23 이상의설명에서본발명은특정의실시예와관련하여도시및설명하였지만, 특허청구범위에의해나타난발명의사상및영역으로부터벗어나지않는한도내에서다양한개조및변화가가능하다는것을당업계에서통상의지식을가진자라면누구나쉽게알수있을것이다. 발명의효과 상기와같이동작하는본발명에따른외래어음차표기유사도비교방법을제공하여외래어음차표기가혼재되어있는각자료혹은색인어를혼동없이빠르게검색할수있으며한국어에적합한유사표기를검색할수있는기준을제공한다. 6-4
(57) 청구의범위 청구항 1 입력되는문자의표기데이터를자음과모음을분리하여자소단위로분리한후첫글자초성 '??' 을제외한모든초성 '??' 을제거하는제 1 과정과 ; 상기제 1 과정을통해초성 '??' 이제거된자소의나열순서에서동일자음이연속되는경우나열순서에서빠른순서에위치하는해당자음을제거하는제 2 과정과 ; 상기제 2 과정을통해중복되는자음을제거한후첫글자초성을기설정된대표자음으로변환하는제 3 과정과 ; 상기제 3 과정을통해대표자음으로첫글자초성을변화시킨후나머지자음에대하여기설정된자음코드로치환하는제 4 과정과 ; 상기제 4 과정을통해코드화된자음코드중종성 - 초성관계에있는중복코드에서종성에해당하는코드를제거하는제 5 과정 ; 및 상기제 5 과정을통해중복코드가제거되어진후기설정되어있는표준외래어음차표기에대한코드화데이터와비교하여동일한경우동일음차표기인것으로판단하는제 6 과정을포함하는것을특징으로하는외래어음차표기유사도비교방법. 청구항 2 제 1 항에있어서, 상기제 3 과정에서의변환과정중기준으로사용되는대표자음은 '??','??', '??', '??', '??', '??' 인것을특징으로하는외래어음차표기유사도비교방법. 청구항 3 제 1 항에있어서, 상기제 4 과정에서는상기제 3 과정을통해대표자음으로첫글자초성을변화시킨후나머지자음중 '??,??*,??,??' 에대하여자음코드 '1' 을부여하며, '??,??*,??,??*' 에대하여자음코드 '2' 를부여하고, '??,??,??,??*,??' 에대하여자음코드 '3' 을부여하며, '??,??*' 에대하여자음코드 '4' 를부여하고, '??,??*' 에대하여자음코드 '5' 를부여하며, '??,??*,??,??,??' 에대하여자음코드 '6' 을부여하고, '??,??,??,??' 에대하여자음코드 '7' 을부여하는것을특징으로하는외래어음차표기유사도비교방법. 청구항 4 제 3 항에있어서, 자음의분류중 '*' 는종성에해당하는것을특징으로하는외래어음차표기유사도비교방법. 도면 6-5
도면 1 6-6