전자통신동향분석제 25 권제 3 호 2010 년 6 월 자동통역기술동향및응용 The Trends and Application of Automatic Speech Translation Technology 모바일소프트웨어기술동향특집 김승희 (S.H. Kim) 조훈영 (H.Y. Cho) 윤승 (S. Yun) 김창현 (C.H. Kim) 김상훈 (S.H. Kim) 자동통역연구팀선임연구원자동통역연구팀선임연구원자동통역연구팀 UST연구생언어처리연구팀선임연구원자동통역연구팀책임연구원 목차 Ⅰ. 서론 Ⅱ. 자동통역기술동향 Ⅲ. 자동통역기술응용 Ⅳ. 결론 근래에국가간인적, 물적교류가활발해지면서언어장벽으로인한문제를해결하기위한자동통역기술의중요성이부각되고있다. 세계각국에서는 1990년대부터시작된정부차원의연구개발단계를거쳐시범서비스및실용화를위한연구개발에박차를가하고있으며, 현재이라크내미군에의한군사목적, 미국내병원진료, 여행시통역등의목적에자동통역기술이활용되고있다. 본고에서는자동통역기술및핵심요소기술에대해설명하고, 최근자동통역기술의개발동향및응용사례에대해기술한다. 28 C 2010 한국전자통신연구원
김승희외 / 자동통역기술동향및응용 I. 서론 자동통역 (automatic speech translation) 기술은서로다른언어를사용하는사람간의대화를자동으로통역하여언어장벽에의한의사소통문제를해결해주는기술이다. 한언어의말소리를다른언어의말소리로변환하기위해자동통역기술은다음과같은요소기술들로구성된다. 우선말소리를인식하여해당언어의문자언어로변환해주는음성인식기술이있으며, 한언어의문자를다른언어의문자로변환해주는자동번역기술이있고, 해당언어의문자를말소리로변환해주는음성합성기술이있다. ( 그림 1) 은단방향통역시스템의일반적인구조를나타내고있다. ( 그림 1) 과는달리음성인식과자동번역을한꺼번에수행하는구조에관한연구도보고되고있다. 자동통역기술은, 최근미군이이라크에서군사및민간목적으로활용하고있으며, 미국내병원에서의료진과환자간의의사소통을위해서도사용되고있다. 이외에도방송뉴스통역, 강의통역을위한기술들도활발하게연구되고있다. 본논문에서는최근중요성이급증하고있는자 Speech in Source Language 동통역기술및핵심요소기술의개발동향과그응용사례에대해알아본다. Ⅱ. 자동통역기술동향 1. 개요 자동통역기술은크게음성인식 (automatic speech recognition), 자동번역 (spoken language translation) 및음성합성 (text-to-speech synthesis) 의세가지요소기술로구성된다. 이들각각의요소분야는그자체적으로도오랜역사를가진독자적인기술분야이지만, 자동통역기술은이세가지를큰틀에서아우르는음성언어정보기술분야의궁극적인목표가되는기술이라고할수있다. 자동통역기술의상용화를고려할경우에는이세가지요소기술외에도실제사용환경에존재하는잡음에대한고려와, PDA와같이컴퓨팅자원이제한적인휴대단말기상에서도위세가지요소기술의동작이가능하게하는단말최적화기술이추가로필요하다. 본장에서는이들각각의분야에대해자동통역기술의관점에서최신연구동향을기술하기로한다. 2. 음성인식 Automatic Speech Recognition(ASR) Spoken Language Translation(SLT) Text-To-Speech (TTS) Speech in Target Language Text in Source Language Text in Target Language ( 그림 1) 단방향자동통역시스템의구조 음성인식은자동통역시스템에서가장처음단계의시스템으로서사용자가발성한음성을텍스트형태로변환하는역할을수행한다. 음성인식시스템은단어단위의음성을인식하는고립단어인식으로부터연속적인단어열을인식하는연결단어인식, 연속적으로발성된음성에서시스템에등록된특정단어들만을검출하여인식하는핵심어검출및문장형태의발화를인식하는연속음성인식으로구분할수있다. 연속음성인식은방송뉴스의진행자가발성하는방식처럼분명하게발성하는낭독체음성인식과일반인들이생활속에서자연스럽게발성하는형태의대화체음성인식으로구분할수있다. 낭독체발성에 C 2010 한국전자통신연구원 29
전자통신동향분석제 25 권제 3 호 2010 년 6 월 대비되는대화체발화의특성은간투어, 반복, 수정, 긴묵음구간, 발음변이, 발화오류, 발성속도변이등을예로들수있으며이들을발성의비유창성 (disfluency) 으로요약할수있다. 1990년대초반에발표된 JANUS과같은초기의자동통역시스템들은자동통역의요소기술들의기술적수준이매우낮은상태였음에도불구하고자동통역기술의가능성을보여줄수있었다. 그러나, 이시스템들은사용자들간의자유로운대화체발화를허용할수없었고, 제한된단어들과구문들에한하여미리정해진문장들만을낭독체형태로발성해야했다 [1]. 1990년대를지나 2000년대중반에이르기까지음성인식기술은수천어휘급의고립단어인식에서수만내지수십만어휘규모의대어휘낭독체연속음성인식을지나최근에는사용자의발성방식에제약이없는대화체연속음성인식기술이활발히연구되고있다. 이에따라자동통역에서의음성인식기술연구도기술적난이도가높은대화체연속음성인식을목표로진행되고있는추세이다. ( 그림 2) 는일반적인연속음성인식시스템의구성도및음성인식절차를나타낸다. 자동통역기사용자는비교적조용한건물내부에서통역기를사용할수도있지만, 주행중인자동차내부또는사람들이많은거리와같이다양한크기와종류의잡음이존재하는상황에서시스템을사용하게된다. 따라서, 음성인식시스템은먼저적절한 특징추출 온라인화자적응 오프라인화자적응 음향모델 잡음제거 음성신호 단어탐색문장탐색후처리 오프라인환경적응 발음사전 언어모델 ( 그림 2) 대화체연속음성인식시스템의구성도 인식결과 잡음처리과정을통해음성신호로부터잡음을제거한후, 음성인식기입력을위한특징파라미터를추출하게된다. 잡음처리기법으로는단일마이크를사용하는방법과마이크배열에기반한방법이있다. 특징추출기법으로 LPC, PLP를비롯하여수많은방법이연구되어왔으나, 최근에는대부분의인식시스템이 MFCC를사용하며, 보다변별력이높은특징파라미터추출을위하여 LDA, HLDA, fmpe 등을특징추출의후처리과정으로도입하기도한다 [2],[3]. 높은음성인식률을얻기위해대부분의음성인식시스템에서는음소의전후음소정보를동시에모델링하는문맥종속적음향모델을사용하며, 대부분삼음소 (triphone) 모델을사용하나, 더많은문맥정보를활용하기위해때로는 quinphone 등의단위를사용하기도한다. 다양한잡음환경과수많은사용자의발성변이에강한음향모델을생성하기위해실제환경에서수집한여러가지잡음신호를음향모델의학습데이터에추가하여음향모델을생성하는 MST 학습방식이나, 음향모델들상호간에식별력을극대화하는 MMI, MCE, MWE, MPE 학습방법등의변별학습을적용하는추세이다. IBM의 MASTOR 시스템은 MPE 학습과더불어추가적성능향상을위해남성과여성에대한별도의 HMM 음향모델을사용하며, 이러한음향모델들은총발성시간이 400시간이넘는양의음성코퍼스를이용하여생성되었다 [3]. BBN의 Byblos 시스템의경우, DARPA의 TransTac 평가에서 110시간의음성데이터로문맥종속음향모델을학습하였으며, MPE 학습을적용하여 22.5% 의오류감소율을얻을수있었고, 영어에대한음성인식성능으로약 23.1%, 이라크어에대해 31.9% 의단어오류율을얻었다. 또한, 여기에화자적응을적용하여약 23% 의상대적인성능이득을얻을수있었다. 음성인식의언어모델은방대한용량의텍스트코퍼스를필요로한다. 낭독체음성인식의경우에는텍스트코퍼스의수집이비교적용이하지만, 자유발화대화체에대해이처럼방대한데이터를수집하기 30 C 2010 한국전자통신연구원
김승희외 / 자동통역기술동향및응용 는매우어렵다. 따라서제한된학습데이터를이용해서단어열의확률분포를구하는방법에대한지속적인연구가필요하다. IBM의경우, 웹을통해자동적으로학습데이터를추가수집하여언어모델링성능을향상시키고있으며, 기존에널리쓰이는단어 N-gram의커버리지문제를해결하기위해단어의클래스 N-gram을적용하기도한다. 이외에도영역에특화된언어모델을다른언어모델과조합하는 interpolation 방법및제한된데이터에대해분포추정의정확도를높이는방법에대한연구가필요하다. < 표 1> 은 2006년에개최된제 2차 TC-STAR 평가워크숍에서발표된인식성능비교평가결과를나타낸다. 이평가에는독일 IBM, 독일의 RWTH, 이탈리아의 ITC-irst, 프랑스의 LIMSI, 핀란드의 NOKIA, 독일 SONY, 독일 UKA 대학이참여하였다. 비교평가를위해서정의된태스크로는세가지가있는데, < 표 1> 에서는 EPPS 태스크에대한성능을기술하고있다. EPPS 태스크는 EC에서출간한의회논쟁자료의오디오신호와그에해당하는텍스트자료를포함하며, 영어와스페인어로되어있다. 세가지인식태스크에대해서인식기의학습조건을다시세종류로구분하였다. 첫째, 한정된조건 (restricted condition) 은평가참가자들이 TC-STAR 프로젝트에서제공된자료만을인식기의학습에사용해야하며, EPPS English 자료의경우총 166시간, EPPS Spanish의 < 표 1> English EPPS 연속음성인식태스크에대한기관별단어오류율 ( 단위 : %) Site Open Public Restricted IBM 8.8 ITC-irst 11.0 LIMSI 8.2 NOKIA 18.3 RWTH 10.2 SONY 37.1 UKA 14.0 TC-STAR 6.9 < 자료 >: TC-STAR 2006 평가보고서 경우총 151시간및 CORTES Spanish 코퍼스는 40시간의자료로구성되어있다. 둘째로공개데이터조건 (public data condition) 은 LDC 등을통해공개된데이터들을모두사용이가능하다. 셋째로오픈조건 (open condition) 에서는특정날짜이전의모든데이터를사용할수있다. 인식기평가자료로는 EPPS 태스크의경우, 2005년 9월부터 11월의회녹음자료를사용하고, CORTES의경우는같은해 11월 24일의자료를사용하였다. < 표 1> 에서각열은인식기의세가지학습조건을의미한다. 평가결과 TC-STAR 시스템이공개데이터조건에서 6.9% 단어오인식률로최고의성능을나타내었으며, 이시스템은 ROVER 방법에의해여러인식기의출력결과를조합한것이다. 스페인어의경우, 오류율은 10.2% 에서 28.4% 까지다양하였으며, 마찬가지로 ROVER 로통합한결과는 8.1% 의단어오인식률을나타내었다 [4]. ETRI의자동통역연구팀에서 2008년부터 4년간수행하는휴대형한영자동통역기개발과제에서는여행영역에대해서발성이자유롭고변화가많은대화체음성 DB를구축하고, 대화체특성을반영한음향모델링기술, 대화체언어모델링기술등에대한연구를진행중에있으며, 문장단위의발성을실시간으로처리할수있는고속탐색기술, 대화의흐름에따른문맥지식을활용하는문맥지식기반음성인식기술, 대화의대상물과대화가이루어지는상황정보를활용하는상황지식기반음성인식기술에대한연구개발을점차적으로수행할예정이다. 3. 자동번역일반적으로자동번역 (machine translation) 기술이란텍스트원문을자연어처리기법을이용하여다른언어의문장으로변환하는기술을말한다. 2차대전후미국과옛소련에의해군사적인목적으로개발된자동번역기술은 1980년대중반부터유럽과일본에의해다시본격적인연구가시작되었다. 유럽은다국어문화권이지만유럽연합 (EU) C 2010 한국전자통신연구원 31
전자통신동향분석제 25 권제 3 호 2010 년 6 월 이라는공동체의특성상언어장벽을해소해야할필요성이증가했으며, 일본은 Toshiba, Fujitsu 등의기업주도로자동번역에대한연구개발이활발히추진되었다. 자동번역은그자체로하나의완전한기술일뿐만아니라자동통역기술의하부기술로써의요구등도존재한다. 본장에서는이러한두가지관점에서자동번역을살펴보기로한다. 자동번역기술은번역방법론에따라크게규칙기반방법과말뭉치기반방법으로나눌수있다. 규칙기반방법에서는언어학자, 번역가들이자동번역에필요한지식을자신의언어능력을사용하여구축하고, 이렇게구축한언어학적규칙 ( 예 : 구조분석규칙, 변환규칙등 ) 을이용해자동번역이이루어지는반면, 말뭉치기반방법에서는인간의주관적언어능력대신말뭉치로부터객관적번역지식을학습함으로써자동번역이이루어진다. 말뭉치기반방법은크게예제기반방법과통계기반방법으로나누어볼수있다. 1980년대까지는규칙기반방법이, 1990년대에는말뭉치기반방법이, 그리고 2000년대들어서는규칙기반과말뭉치기반방법이독립또는공존하는시기로구분할수있다 [5]. 규칙기반방법은그분석의깊이에따라직접번역방식, 간접변환방식, 중간언어방식등으로세분할수있다. 직접번역방식에서는입력문을형태소분석, 태깅 (tagging) 등의과정을통해매우낮은단계에서분석을마친후, 변환사전 (bilingual transfer dictionary) 등을참조해대역문장을생성해낸다. 이기법은초창기자동번역시스템에서많이사용되었으며, 최근에도한국어와일본어, 스페인어와이탈리아어등과같이언어학적으로유사한언어쌍에대해많이사용되고있다. 간접변환방식에서는형태소분석을거쳐통사구조 (syntactic structure), 의미구조 (semantic structure) 에대한분석을더거친후목표언어로의변환을하며, 이변환된구조로부터대역문장을생성하게된다. 이방식은비교적개발이용이하고, 소수의규칙만을구축하더라도비교적높은성능을낼수있으므로, 현재국내외에서상용 화되어판매되고있는대부분의자동번역시스템에채택되고있다. 중간언어방식에서는개별언어독립적인의미표상 (language-independent semantic representation) 을도입하고, 입력문을분석단계를거쳐이언어독립적인의미표상으로매핑한다. 따라서다수개의변환모듈이필요한간접변환방식과는달리, 중간언어방식은단지개별언어로부터중간언어로의매핑을위한분석모듈, 중간언어로부터목표언어를생성하기위한생성모듈만이필요하다. 따라서이방식은다국어자동번역에적합하다고할수있다. 예제기반방법은유추에의한번역 (translation by analogy) 이라고도불리며, 수많은번역쌍들을데이터베이스에저장한후, 입력문이들어왔을때입력문과가장유사한예문을찾아, 예문의번역을참조하여번역을하는것이다. 이방법의장점은대용량의대역코퍼스와잘정의된시소러스가있으면어느언어쌍에도비교적쉽게적용할수있다는점이다. 그러나이방법의단점은높은성능을내기위해서는대용량의대역코퍼스가필요한데, 많은언어쌍의경우이것이쉽지않다는점이다. 또하나의문제점은대역코퍼스의도메인에따라번역률차이가많다는점이다. 통계기반자동번역 (SMT) 기술은통계적분석을통해이중언어말뭉치로부터모델파라미터를학습하여문장을번역하는기술이다. SMT 기술은 1949 년 Warren Weaver[6] 에의해소개된이후, 1991 년 IBM의 Thomas J. Watson 연구소연구원들에의해다시소개되면서부터연구가부활하여 [7], 현재가장활발하게연구되는기계번역기술이다. SMT 기술이활발히연구되는배경에는다음과같은요인이작용하고있다. 1) 모델파라미터를학습할수있는대용량의가용말뭉치가구축되고있다. 2) 특정언어쌍에제한받지않고모델을자동으로학습해낼수있다. 3) 규칙기반 / 패턴기반기계번역이번역지식을구축하는데상당한비용을요구하고, 다른언어들에일반화시켜적용하기어렵다는문제가있다. SMT의기본요소는통계적번역모델 32 C 2010 한국전자통신연구원
김승희외 / 자동통역기술동향및응용 과언어모델, 이중언어말뭉치로부터은닉된번역지식파라미터를찾아내는학습알고리듬, 그리고학습된번역모델에기반하여최적의번역결과를탐색하는디코딩알고리듬으로구성된다. SMT 기본모델인단어단위모델 (IBM model 1-5) 은문장길이에따라어순재배열계산복잡도가너무높기때문에계산복잡도를낮추기위한많은연구들이시도되었고, 특히 2003 년어순재배열에따른계산복잡도감소및번역효율을고려한구문단위번역모델 [8] 이소개되면서기술이급격히발전하여현재 stateof-the-art를이루었다. 그리고최근에는통사적언어구조를모델에접합시키기위한연구 ([9],[10]), 미등록어및관용적숙어표현의효과적처리를위한 paraphrasing 기법또는번역지식일반화등에대한연구가진행중이다 [11],[12]. 자동통역의하부기술로써의자동번역 (spoken language translation) 은그핵심기술에서는앞서설명한자동번역 (machine translation) 과크게다르지않다. 그러나, 이러한환경에서가장논점이되고있는것은크게두가지이다. 첫째는음성인식의결과를자동번역입력으로써사용하는문제이고, 둘째는자동통역의대상이되는번역도메인문제이다. 일반적인자동번역은올바른문장을입력단위로가정하고있다. 그러나, 음성인식의결과는이를보장할수없으며, 이를해결하기위한여러연구들이시도되고있다. 대표적인방법론들로는음성인식결과를하나의문장이아닌다수후보형태로구성하여자동번역의입력으로사용하는것이다. 이러한형태들로는가장단순한형태인 N-best 문장형태, 이론적으로는가장적절한단어격자형태, 자동번역의탐색측면에서가장적절한혼합네트워크 (confusion network) 형태등이있다. 그러나, 이러한복잡한입력형태에대해현재까지조사된연구결과는만족스럽지않다. 음성인식오류의자동보정에대한연구와는별도로음성인식결과를발화자자신이직접확인하고오류를수정하는형태의멀티모달방법은또다른대안이될수있으며, 실제로상용화를고려하는자동통역제품들가운데에서는이러한시도가고 려되고있다. 자동통역은실시간으로사람들의발화를번역하는것을요구한다. 특히사람들의발화는생략, 축약, 구어체적표현, 비문법적인문장, 반복, 간투사등의번역에적합하지않은특성들을포함하고있다. 이러한대화체의특성은기존의자동번역에서주로다루었던문어체위주의번역도메인과는확연히구별된다. 한국어와같은교착어의경우생략, 축약등은형태소분석단계에서의많은오류를야기시키기때문이다. 자동통역의문제점분석결과들에따르면의미오류, 개념의오류, 개념의누락등의자동번역모듈오류가상당부분을차지한다고보고되고있다. 이는대화도메인및대화문맥을사용해야만해결될수있는문제들이다. 이러한대화체특성에따른문제점및문맥적용에대한연구들은현재시작단계에있으며, 이들의결과에따른자동통역상용화시기가결정될것으로보인다. 4. 음성합성자동통역의마지막단계인음성합성은목적언어 (target language) 로번역된텍스트를사람들이들을수있는말의형태로제공하는기술이다. 합성음을생성하는가장간단한방법으로사용자에게들려줄안내멘트를미리녹음하여가지고있다가필요한시점에서이를재생하여들려주는방법이있다. 이방법은매번정해진내용만반복해서들려주므로한계가있기때문에문장의기본틀은고정시켜둔상태에서문장의일부분만을변경해서합성음을생성하는편집합성방식이있다. 그러나이방법은기본적으로무제한음성합성이어렵다는한계로인하여주로단문형식의안내멘트합성용으로사용된다. 음편조합방식을이용한음성합성기술은일반적으로단어보다훨씬작은소리단위를조합하여합성음을생성하며편집합성처럼녹음된음편을그대로결합하여합성음을생성하므로음성신호생성을위한음성신호조작을거의이용하지않아신호처리에의한왜곡이없고빠른속도의음성합성을수행할수있다. 그러나, 이방식은조음효과로인하여음질열화가발생하며, 음성 C 2010 한국전자통신연구원 33
전자통신동향분석제 25 권제 3 호 2010 년 6 월 신호에대한조작이어려워합성음의운율조절이나음색조절이어렵다는단점과통상적으로수백 MB에서수 GB급의저장공간을필요로하여상대적으로저장공간의크기가제한된분야에서는고품질합성음을생성하기가어려운점이있다. 음성합성기술은시스템의크기에따라크게서버용음성합성기술과단말기내장형음성합성으로구분할수있다. 기존서버형음성합성기술을응용한시장의성장은비교적더딘반면에, 최근임베디드단말기에내장되어사용되는내장형음성합성수요는폭발적으로증가하고있다. 이에따라소용량및다국어음성합성기술과관련된연구가활발히진행되고있다. 본연구팀에서는임베디드단말기에서사용할수있는내장형소용량음성합성기능을가지며, 대화체에특화되어있고, 음색변환에용이한 HMM 기반내장형소용량대화체음성합성기술을개발하고있다. 이기술은음성신호의스펙트럼정보, 피치정보, 지속시간정보를각각의독립된 Gaussian 확률분포를가지는 HMM 모델로훈련하여합성용보이스폰트를생성한다. 합성시에는훈련된 HMM 모델파라미터로부터합성음생성을위한음성특징파라미터를생성하고, 이를적당한방법으로보간하여합성음궤적을생성한다. 기본적인프로토타입버전은 PC 환경에서초벌을개발하고, 개발된 HMM 기반합성엔진을저사양프로세스와스피커를가진임베디드환경에서문제점및성능개선부분등을고찰하기위하여 60MHz clocks/second 처리속도의 ARM 720T 프로세서, 16MB NAND 메모리, 32MB SDRAM으로구성된 ITS 단말용 OBE 보드에정수형버전및일부모듈은연산의고속화를위해 ARM 어셈블리어로구현하였다 (< 표 2> 참조 )[13]. 최근뉘앙스사 (Nuance Inc.) 의경우에는모바일플랫폼에서 14개이상의언어를지원가능하고, 엔진의크기가음질에따라 2MB 또는 5MB로가변적인소용량음성합성제품을출시하고있다 [14]. 자동통역기를위해서는음성인식과동일하게대화체음성합성기술이요구되고있다. 대화체음성 < 표 2> 내장형음성합성시스템의메모리사용량 ( 단위 : MB) NAND SDRAM 언어처리사전 1.7 2.1 보이스폰트 0.93 1.3 합성엔진 0.47 2.2 총합 3.19 5.6 합성이란뉴스읽기와같은단조로운낭독체음성합성이아닌전달하고자하는메시지의내용에따라, 사용자의의도에따라합성음의분위기가다르게표현되는기술을의미한다. ETRI의자동통역연구팀에서도휴대형한영자동통역기개발과제에서통계적음성모델링기법의일종인 HMM 기반의내장형소용량음성합성기술을개발함으로써기존에음성인식분야에서널리연구되어온다양한화자적응기법들을자연스런대화체합성음생성에적용가능하도록할예정이다. Ⅲ. 자동통역기술응용 자동통역기술의응용사례는인식어휘규모, 발화스타일, 대상영역, 출시연대, 플랫폼등에따라다양하게분류할수있으나여기에서는크게플랫폼을기준으로두가지로나누어살펴보기로한다. 이는목표로하는자동통역대상에따라자동통역시스템이탑재되는플랫폼이결정되며결정된플랫폼에따라채용될수있는기술들이나누어지기때문이다. 따라서이곳에서는 PC 기반플랫폼과핸드헬드기반플랫폼의두항목으로나누어대표응용사례와기술적인특성을소개하도록하겠다. 1. PC 기반플랫폼자동통역기술개발초기에는주로워크스테이션급의플랫폼에서자동통역이이루어졌다. 1990년대중반까지가이시기에해당하며대표적인응용사례로는 C-STAR I을꼽을수있다. 그러나이시기의자동통역시스템은인식어휘나발화스타일, 자동 34 C 2010 한국전자통신연구원
김승희외 / 자동통역기술동향및응용 통역대상영역에제약이많이존재하였다는한계를가진다. 이후 1990년대중반부터현재에이르러서는 PC 기반의플랫폼에서자동통역이주로이루어지고있다. PC 기반플랫폼은채용된기술의특성에따라몇가지로나누어살펴볼수있다. 먼저무제한연속음성인식기술을채택하고있으나대상영역에는제한이있는경우이다. 이들의대표적인응용사례로는 C-STAR[15], Verbmobil[16], Nespole[17], TransTac[18], A-STAR 등을꼽을수있다. C- STAR의경우 ETRI, ATR, CMU, CLIPS 등이참여한국제공동컨소시엄을통해연구되었으며여행계획영역을자동통역대상으로삼았다. 중간언어방식을채택하였으며네트워크를통해상대방시스템과통신한다는점이특징이다. Verbmobil의경우독일의연구소, 대학, 기업들이공동참여해개발하였으며일정수립, 여행계획, 호텔예약등의상황에서독일-영국, 독일-일본자동통역이가능하다. 기본적으로면대면상황을가정하였으며휴대폰을통해자동통역서버에접속하여자동통역이가능한것이특징이다. Nespole는비디오콜센터에자동통역을채용하는것에관해연구하였다. 은행, 소비자서비스, 여행, 전자상거래등의상황에서소비자가비디오콜센터에접속한후상담원과소비자간에자동통역을통한상담이이루어지도록하였다. Nespole 의경우멀티모달입력을보조수단으로활용할수있도록한것이특징이다. TransTac의경우 DARPA의지원아래이루어진프로그램으로써 1단계로군사목적등의전술적인상황에서쓰이는영어- 아랍어간자동통역시스템을개발한데이어현재는새로운언어와대상영역에빠르게적응할수있는기술을개발중이다. 그리고최근에는자동통역기술이선진국뿐만아니라비교적주변국가로까지확대되어연구되는경향을나타내기도한다. 관련하여아시아권에서는 2009년 7월아시아지역의자동통역연구를위하여조직된컨소시엄인 A-STAR 주관으로한국어, 중국어, 일본어, 타이어, 인도네시아어, 말레이시아어, 베트남어, 힌디어등을대상으로네트워크기반의여행영역아시아어 권자동통역국제시연을실시하기도하였다 [19]. ETRI도본시연에참여하였으며시연에참여한시점에서 ETRI에서개발중인자동통역시스템의경우 2만단어급 83.8% 의한국어인식성능과 83.4% 의영어인식성능, 그리고한국어로부터의영어의경우 81%, 영어로부터한국어의경우 83% 의자동통역성공률을나타내었다 [20]. 지금까지소개한자동통역응용사례들은주로사용자들간의대화를자동통역하는사례에해당된다. 그러나최근에는이러한연구동향과별도로단방향의자동통역기술이연구되고있다. 이들은주로뉴스, 연설, 강의등을대상으로한것으로 GALE[21], TC-STAR[22], Lecture Translator[23] 등이대표적인사례이다. 이들은자동통역대상영역이제한되어있지않다는점을가장큰특징으로가진다. GALE의경우, DARPA의지원아래 IBM, SRI, BBN 등이참여해연구중인것으로뉴스, 토크쇼및문어자료등을대상으로대량의자료를단시간내에이해가능한형태로번역하는것을목표로하고있다. TC-STAR의경우에는공식언어가 20여가지이상인 EU의언어장벽을해소하기위하여연구된것으로 IBM, ITC-irst, LIMSI, UKA, UPC, RWTH, NOKIA, SONY 등이참여해의회연설문등의자동전사및통역 / 번역서비스제공가능성을시험하였다. Lecture Translator는세미나및강의를통역하는것을목표로개발된시스템이다. 이전에언급한시스템에비해발화스타일이나통역대상이좀더다양하기때문에난이도가높아아직은실험적인수준에그치고있다. Lecture Translator의경우영어로부터스페인어, 독일어, 아랍어번역이가능하며부가적으로통역결과를지향성스피커를이용해재생하거나안경또는별도의스크린에표시할수있다는특징을가지고있다. 2. 핸드헬드기반플랫폼최근가장활발하게자동통역기술이응용되고있는사례가핸드헬드기반의자동통역시스템이다. C 2010 한국전자통신연구원 35
전자통신동향분석제 25 권제 3 호 2010 년 6 월 PC 기반자동통역시스템의경우휴대가불가능해그활용용도가제한적인데반해핸드헬드기반시스템의경우다양한상황에서응용이가능하다는특징을지닌다. 다만컴퓨팅파워가높지않은까닭에일반적으로는발화스타일이나자동통역대상영역에제약을가진경우가많다. 응용사례중에대표적인예로 Phraselator를들수있다. Phraselator는 DARPA의지원아래 Voxtec 에서개발하였다. 단방향통역만이가능하며음성인식기능또한미리기억된문장만을음성으로선택할수있는수준이어서비교적제약이많은편이다. 그럼에도불구하고다양한언어를지원하며의사전달을위주로하는제한된용도에서는활용범위가넓어이라크와아프카니스탄에파병된미군에보급된실적이있고뉴욕주의경찰및병원응급실에서도사용되고있다. 또한 2005년미군의동남아해일구조에서도사용된바있다 (( 그림 3) 참조 ). 에파병된미군에서시험서비스를진행한바있다. Ectaco에서개발한 Speech Guard는대중적으로판매가많이이루어진제품이다. Speech Guard 는군용, 의료용, 경찰용등다양한응용영역에서활용할수있도록개발되었으며 30여가지이상의다양한언어를지원하는제품군이있다. 통역목적에따라단방향및양방향자동통역을수행할수있으나음성인식의경우 Phraselator와같이음성인식문장검색기능이탑재된수준이다. Ectaco에서는여행용자동통역시스템으로 itravl 도판매하고있다 (( 그림 4) 참조 ). < 자료 >: http://www.ectaco.com ( 그림 4) Speech Guard < 자료 >: http://www.voxtec.com ( 그림 3) Phraselator IBM에서도 MASTOR[24] 라는휴대형통역기를개발하였다. MASTOR 는 DARPA 의지원으로 IBM Watson 연구소에서개발하였으며약 3만단어급의영어-중국어양방향통역기능을지원한다. 노트북, 핸드헬드양쪽모두에서실행이가능하며여행, 긴급의료진단, 군의자기방어, 보안상황등을통역대상으로삼고있다. MASTOR를이용하여이라크 전용단말기외에범용 PDA 기반의자동통역시스템들도상당수존재한다. 대표적인응용사례로 CMU에서개발한 Speechlator[25] 와 PanDoRa [26] 를들수있다. Speechlator 의경우 HP ipaq PDA에서동작하는제품으로양방향통역이가능하며영어와아랍어로의료정보를통역할수있다. PanDoRa 역시 CMU 주도로개발된휴대형자동통역기로영어- 아랍어, 영어- 중국어, 영어- 일본어를대상으로자동통역을지원하며여행, 의료, 자기방어등을통역대상으로삼는다. SMT 기반으로번역을수행한다는것이특징이다 (( 그림 5) 참조 ). NEC에서도 PDA에서동작하는여행자영역의 1 만단어급영어- 일본어자동통역시스템을개발하 36 C 2010 한국전자통신연구원
김승희외 / 자동통역기술동향및응용 < 자료 >: http://www.mobytrans.com ( 그림 5) PanDoRa 그리고최근에는스마트폰의대중화와함께스마트폰에자동통역기술을탑재하려는움직임이확산되고있다. PDA 시장이하향세인것과비교해스마트폰의보급이급속도로이루어지고있는것을고려한다면스마트폰기반의자동통역기술이일반에대중화될가능성은매우높다고할수있다. 구글의경우에도구글이개발한안드로이드 OS 기반의스마트폰에탑재될수있는자동통역애플리케이션을개발하기위한연구를진행하고있으며실제아이폰의경우이미영어- 스페인어를대상으로여행과의료영역에서 4만단어급의통역성능을보이는 Jibbigo 와같은애플리케이션이출시되어사용자로부터좋은반응을얻고있다 (( 그림 7) 참조 ). 였다. NEC에서개발한자동통역기는일본나리타공항에서실시한 e-airport 시범사업을통해대중에선보인바있다 (( 그림 6) 참조 ). ( 그림 6) 일본나리타공항 e-airport 시범서비스이러한움직임은최근확대되어일본 NICT 의경우일본최대여행업체인 JTBGMT와함께 2010년 1월에서 2월에걸쳐일본각지의숙박시설과관광시설을대상으로자동통역시범서비스를실시하고있다. 이는한국어, 일본어, 중국어, 영어를대상으로하고있으며비교적대규모로이루어지고있어자동통역실용화가머지않았음을알리고있다. < 자료 >: http://www.jibbigo.com ( 그림 7) Jibbigo Ⅳ. 결론 자동통역기술은날로가속화되고있는세계화의시대에서언어장벽문제를해결할수있는중요한기술로부각되고있다. IBM은개발완료시효과가큰실용화대상기술로자동통역을 1위로선정했으며 (2007년 2월 4일 ), DARPA 50년역사의 5대발 C 2010 한국전자통신연구원 37
전자통신동향분석제 25 권제 3 호 2010 년 6 월 명품중의하나로자동통역기술이선정되기도했다 (2008년 5월 15일 ). 이미미국, EU, 일본등선진각국에서는정부차원의대규모지원으로 10여년간의연구개발단계를거쳐제한된영역에대한시범서비스를시도하고있다. 미국은주로군사적인목적으로, EU는 11개의공식언어를지원하기위해, 일본은관광등민간분야를대상으로실용화연구개발을추진하고있다. 자동통역기술은현재발아기로서기술의확보여부는국가경쟁력과직결된다고할수있다. 본고에서는자동통역기술및핵심요소기술의개발동향을살펴보고, 응용사례에대해살펴보았다. 자동통역기술은대화체음성인식, 자동번역, 음성합성등요소기술이어우러진복합기술이며, 아직미개척분야로써적기에연구개발을추진하면이에대한기술경쟁력을확보할수있다. A-STAR C-STAR DARPA EPPS GALE fmpe HLDA HMM LDA LPC MCE 용어해설 HMM: 관측된음성신호의통계적특성및해당음성신호의숨겨진통계적상태를모델링하는 2차통계모델언어모델 : 선행단어에대한후속단어의관계 ( 언어적가능성 ) 를정의한것을의미 약어정리 Asian Speech Translation Advanced Research Consortium for Speech Translation Advanced Research Defense Advanced Research Agency European Parliament Plenary Sessions Global Autonomous Language Exploitation feature Minimum Phone Error Heteroscedastic Linear Discriminative Analysis Hidden Markov Model Linear Discriminative Analysis Linear Prediction Coefficient Minimum Classification Error MFCC MMI MPE MST MWE PLP ROVER SMT TC-STAR Mel-Frequency Cepstral Coefficient Maximum Mutual Information Minimum Phone Error Multi-Style Training Minimum Word Error Perceptual Linear Prediction Recognizer Output Voting Error Reduction Statistical Machine Translation Technology and Corpora for Speech to Speech Translation 참고문헌 [1] Alex Waibel, Speech Translation: Past, and Future, In Proc. of INTERSPEECH, 2004, pp.353-356. [2] David Stallard et al., Recent Improvements and Performance Analysis of ASR and MT in a Speech-to-Speech Translation System, In Proc. of ICASSP, 2008, pp.4973-4976. [3] Xiaodong Cui et al., Developing High Performance ASR in the IBM Multilingual Speechto-Speech Translation System, In Proc. of ICASSP, 2008, pp.5121-5124. [4] D. Mostefa, M.-N. Garcia, O. Hamon, and N. Moreau, Evaluation Report, TC-STAR, http:// www.tcstar.org, 2006. [5] 최승권, 홍문표, 박상규, 다국어자동번역기술, 전자통신동향분석, 제 20 권제 5 호, 2005. 10., pp. 16-27. [6] Machine Translation of Languages, MIT Press, Cambridge, MA. [7] P. Brown, S. Della Pietra, V. Della Pietra, and R. Mercer, The Mathematics of Statistical Machine Translation: Parameter Estimation, Computational Linguistics, Vol.19, No.2, 1991, pp. 263-311. [8] P. Koehn, F.J. Och, and D. Marcu, Statistical Phrase Based Translation, In Proc. of the HLT/NAACL, 2003. [9] Y.S. Hwang, A. Finch, and Y. Sasaki, Improving Statistical Machine Translation Using Shallow Linguistic Knowledge, Computer Speech and Language, Vol.21, No.2, 2007. 38 C 2010 한국전자통신연구원
김승희외 / 자동통역기술동향및응용 [10] D. Chiang, A Hierarchical Phrase-based Model for Statistical Machine Translation, In Proc. of ACL 05, 2005. [11] C. Bannard and C.B. Callison, Paraphrasing with Bilingual Parallel Corpora, In Proc. of ACL 05, 2005. [12] Y.S. Hwang, Y.K. Kim, and S.K. Park, Paraphrasing Depending on Bilingual Context toward Generalization of Translation Knowledge, In Proc. of the Third Int l Joint Conf. on Natural Language Proc., 2008. [13] 김종진, 김정세, 김상훈, 박준, 내장형음성합성기술동향및사례, 전자통신동향분석, 제23권제1호, 2008. 2., pp.77-88. [14] http://www.nuance.com/realspeak/mobile [15] C-STAR Project, http://www.c-star.org [16] Verbmobil Project, http://verbmobil.dfki.de [17] NESPOLE! Project, http://nespole.itc.it [18] http://www.darpa.mil/ipto/programs/transtac/ transtac.asp [19] Sakriani Sakti et al., The Asian Networkbased Speech-to-Speech Translation System, In Proc. of ASRU, 2009, pp.507-512. [20] Ilbin Lee et al., An Overview of Korean-English Speech-to-Speech Translation System In Proc. of TCAST Workshop, Singapore, 2009, pp.6-9. [21] http://www.darpa.mil/ipto/programs/gale/gale_ concept.asp [22] TC-STAR Project, http://www.tcstar.org [23] Christian F ugen et al., Open Domain Speech Translation: From Seminars and Speeches to Lectures, In Proc. of TC-STAR Workshop Speech-to-Speech Translation, Barcelona, Spain, Sep. 2006, pp.81-86. [24] MASTOR, http://domino.watson.ibm.com/comm/ research.nsf/pages/r.uit.innovation.html [25] Alex Waibel et al., Speechalator: Two-way Speech-to-Speech Translation on a Consumer PDA, In Proc. of EUROSPEECH 2003, Geneva, Switzerland, Sep. 2003, pp.369-372. [26] Ying Zhang and Stephan Vogel, PanDoRA: a Large-scale Two-way Statistical Machine Translation System for Hand-held Devices, In Proc. of MT SUMMIT XI, Copenhagen, Denmark, Sep. 2007, pp.543-550. C 2010 한국전자통신연구원 39