슬라이드 1



Similar documents
빅데이터_DAY key

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Semantic Search and Data Interoperability for GeoWeb

Ch 1 머신러닝 개요.pptx

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

슬라이드 1

신성장동력 핵심기술발표회 일시 : 발표기관 : 한국전자통신연구원 (ETRI)

wtu05_ÃÖÁ¾

10월 1일자 정책지.hwp

이베이를 활용한 B2C 마케팅_한국무역

160322_ADOP 상품 소개서_1.0

PowerPoint 프레젠테이션

소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

제1강 인공지능 개념과 역사

Microsoft PowerPoint - chap01-C언어개요.pptx

<C3E6B3B2B1B3C0B C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

유의사항 Information marking example 1 3 4

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

[한반도]한국의 ICT 현주소(송부)

holiday webinar 2013 _ Korean webinar order.pptx

제 1 절 복습 \usepackage{ g r a p h i c x }... \ i n c l u d e g r a p h i c s [ width =0.9\ textwidth ] { b e a r. j p g } (a) includegraphics 사용의일반적인유형

1차내지

<B9ABC1A62D31>

Microsoft Word - 문필주.doc

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

52 l /08


김기남_ATDC2016_160620_[키노트].key

November Vol.90 39

?

JVM 메모리구조

강창훈

<B3EDB9AEC0DBBCBAB9FD2E687770>

#³óÃÌ°æÁ¦ 64È£-Ä®¶ó¸é

¾Èµ¿±³È¸º¸ÃÖÁ¾

¾Ë±â½¬¿îÀ±¸®°æ¿µc03ÖÁ¾š

PowerPoint 프레젠테이션

[NO_11] 의과대학 소식지_OK(P)

수식모드수식의표현법 수학식표현 조남운 조남운 수학식표현

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

4

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

<C0CCBCF8BFE42DB1B3C1A4BFCFB7E12DB1E8B9CCBCB12DC0DBBCBAC0DAB0CBC1F5BFCFB7E12DB8D3B8AEB8BBB3BBBACEC0DAB0CBC1F52E687770>

4월2일자.hwp

초보자를 위한 분산 캐시 활용 전략

사회통계포럼

MVVM 패턴의 이해

Semantic Search and Data Interoperability for GeoWeb

TTA Journal No.157_서체변경.indd

2010 년 10 월넷째주 ( ) 1. IT와타산업융합위한민관노력강화 2. 한국, IT산업분야국제표준제안건수세계 1위달성 3. 한국, 3년연속세계브로드밴드경쟁력 1위기록 4. 삼성SDS, 2011년 IT메가트렌드선정 'Smart' 와 'Social' 이핵심

*0518-국문최종-yoon

<B3EDB4DC28B1E8BCAEC7F6292E687770>

RNN & NLP Application

¹Ì·¡Æ÷·³-5±âºê·Î¼Å_1228.ps


iOS5_1±³

PowerPoint 프레젠테이션

1701_ADOP-소개서_3.3.key

[Brochure] KOR_TunA

win8_1±³

consulting

PowerPoint Presentation

A plan for managing exhibition & education programs in presidential archives 143

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

2

i4uNETWORKS_CompanyBrief_ key

gcp

<4D F736F F D B1D7B7ECB8DEBDC3C2A1C6AEB7BBB5E5>

Microsoft Word _1

슬라이드 1

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

- 1 -

2009방송통신산업동향.hwp

, 02 / 03 MEGA PROFIT MEGA 킹스데일 GC! 기업도시,! 충주메가폴리스 첨단산업단지 , 1,811 ( 1,232) 2,511 ( ) () 3() IT BT NT

- 2 -

e-spider_제품표준제안서_160516

09 ½ÅÇù3¿ùb63»ÁöÃÖÁ¾FFš

Web Scraper in 30 Minutes 강철

Output file

DIY 챗봇 - LangCon

SW 기초교양교육이수가이드라인 경희대학교 SW 중심대학사업단 4 차산업혁명에대비하기위해대한민국정부는초 / 중 / 고교에 SW 교육을의무화하고, 보다더빠른준비를위해대학 생전체에 SW 기초교양교육을권장하고있습니다. 특히, 과학기술정보통신부는 'SW 중심대학 ' 사업을통해

<C1DF3320BCF6BEF7B0E8C8B9BCAD2E687770>

09 ½ÅÇù2¿ùÈ£b63»ÁöÁ¤¸»ÃÖÁ¾š

융합WEEKTIP data_up

Ubiqutious Pubilc Access Reference Model

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

5th-KOR-SANGFOR NGAF(CC)

outline_표준연3파트.indd

임베디드2014(가을)

제 차 중앙 운영 위원 회의

810 & 는 소기업 및 지사 애 플리케이션용으로 설계되었으며, 독립 실행형 장치로 구성하거 나 HA(고가용성)로 구성할 수 있습니다. 810은 표준 운영 체제를 실행하는 범용 서버에 비해 가격 프리미엄이 거의 또는 전혀 없기 때문에 화이트박스 장벽 을

지난 해 미국의 서브 프라임 모기지 사태로 발단이 된 글로벌 금융 위기는 그 여 파가 어느 정도인지, 언제 끝날 것인지 모를 정도로 세계 경제를 위협해 들어가고 있다. 금융 위기의 여파는 실물 경제에도 암울한 그림자를 드리우고 있다. 전문가들 에 따라서는 이미 세계 경

PowerPoint 프레젠테이션

음악의 구성 형식에 따라 추출된 대표 선율을 이용한 내용 기반 음악 검색 시스템

PDF_Compass_32호-v3.pdf

Art & Technology #5: 3D 프린팅 - Art World | 현대자동차

Transcription:

빅데이타 기반 음성언어 기술 동향 2012. 6. 26 한국전자통신연구원 박상규

목차 빅데이타와 애플 Siri 음성인식 기술과 빅데이타 텍스트 빅데이타 기반 지식마이닝 기술 자동번역 기술과 빅데이타 1/39

목차 빅데이타와 애플 Siri 음성인식 기술과 빅데이타 텍스트 빅데이타 기반 지식마이닝 기술 자동번역 기술과 빅데이타 2/39

Apple Siri와 빅데이터의 관련성 단말은 소형화되는 반면, 응용/서비스/데이타는 폭발적으로 증가하며 복잡해지고 있음 미국의 경우, 2009년 모바일 단말을 통한 인터넷 기반 응용 시장의 연평균 증가율 58.2% (IDC, 2010)? 3/39

Siri : Virtual Personal Assistant SRI CALO (Cognitive Assistant that Learns and Organizes) Project 추론/학습을 통해 사용자의 의사결정을 지원 (http://caloproject.sri.com) DARPA, 총 2억 달러 연구비 지원 (AI분야 역대 최대 규모, 2003-2008) 이 프로젝트 결과물로 Siri가 Spin-off 모바일 단말을 이용한 지능형 소프트웨어 에이전트 상용화 사용자 음성을 인식하여 원하는 정보 제공 및 서비스 실행 (식당, 영화, 택시, 행사 등 검색/예약) 2007. 12: 설립 개인비서 S/W를 iphone 앱으로 공개 2400만 달러 투자 유치 2010. 4. 28: Apple이 인수 2억 달러(추정) 2011. 10. 4: Iphone4S에 탑재 아이폰5(2012 하반기 출시 예정) : 한국어지원 애플 itv에 탑재 예정 4/39

Apple SIRI 서비스 다양한 분야에서 음성 검색 및 개인비서 서비스 지원 구글 검색 위협 다양한 구어체 문장의 음성 질문을 빠른 속도로 이해하기 위하여 클라우드 기반 시스템 필요 빅데이터 질문 패턴 DB를 기반으로 고속 분석 및 이해 검색, 추천, 상식 등 다양한 종류의 정보서비스를 위하여 빅데이터 기반 자연 어처리 기술, 패턴매칭 기술, 기계학습 기술을 활용하고 있음 지식 엔진 Wolfram Alpha 검색 SIRI 서비스를 지원하기 위하여 빅데이터 분석 및 서비스 플랫폼 필요 5/39

SIRI 사용 통계 SIRI의 영향으로 iphone4s 사용자의 데이터 사용량이 급증함 iphone4 사용자의 2배, iphone 3 사용자의 3배 SIRI의 영향이 큼: 정보서비스 및 음성인식 iphone4s 사용자의 87%는 적어도 1달에 1번 SIRI 사용 전화걸기, 인터넷 정보서비스, 메시지 보내기, 이메일 개인별 맞춤형 서비스 : 빅데이타 처리 음성인식의 맞춤형 서비스 PIMS, 사용자 프로파일, 사용자 log 데이터 이용한 맞춤형정보제공 결제정보를 이용한 금융서비스 예상 6/39

목차 빅데이타와 애플 Siri 음성인식 기술과 빅데이타 텍스트 빅데이타 기반 지식마이닝 기술 자동번역 기술과 빅데이타 7/39

빅데이타 이용 음성인식 기술 진화 클라우드 컴퓨팅 인프라의 발달로 인하여 빅데이터에 기반한 음향/ 언어 모델 진화 의해 음성인식 성능이 비약적으로 발전 (대표적인 사례: 구글 ) 음성언어 기술 발전을 위해 방대한 분량의 음성언어 DB 구축/처리 기술 필요 장기간에 걸친 음성언어 DB 인프라 구축이 필요하며, 음성언어 관련 서 비스를 통한 사용자 로그 정보 축적이 기술 발전을 위해 매우 중요함 특정언어 중심의 음성언어 서비스가 활성화 될 경우, 음성언어 로그 축 적의 불균형을 가져와 장기적으로 특정언어의 기술만 발전하는 불균형 현상을 심화시킴 8/39

... 사용자 log 데이터의 중요성 T 9/39

음성인식이 동작하는 하드웨어 환경의 변화 임베디드 환경 메모리 제약 및 계산 능력 제약으로 인하여 소용량의 음향 및 언어 모델 생성 및 이를 이용한 제한적인 하드웨어 환경에서 디코딩 클라우드 환경 언제, 어디서나 네크워크를 통한 데이터 전송 가능 실질적인 음성인식의 수행은 클라우드 내의 다중 서버에서 동작 음성 데이터 및 특징이 네트워크 망을 통해 서버로 전달 일반 PC 이상 스펙으로 여러 대 이상의 서버 활용 가능 10/39

대용량 학습 자료 수집 및 확보 가능 음향 모델 학습 자료 수집 음성인식 서비스를 통한 실 사용자의 음성 데이터 수집 English Google Voice Search Traffic / a day : 17,530 시간 [1] 1 person * 24시간 * 365일 * 2년 (2011.06 기준) 언어 모델 학습 자료 수집 Facebook 및 Twitter와 같은 SNS으로 생성된 대용량의 텍스트 수집 Twitter : 200M tweets/day (2011.06 기준) [2] 11/39

음성인식 관련 big-data 처리 이슈 사항 단계 음향 모델 (Acoustic Model) 이슈 사항 언어 모델 (Language Model) 학습 단계 (Training) * Large-scale Speech Data 지속적 반영 * Unsupervised Learning * Large-scale Text Data 지 속적 반영 * Big size n-gram 구현 * Text Normalization 탐색 단계 (Search) * GPU등을 이용한 Vector Computation 분산 처리 * Big size n-gram 에 대한 lookup 분산처리 12/39

구글의 big-data 기반 음성인식 연구 동향 Acoustic Modeling 1000시간 이상 분량의 acoustic data (English, Japanese, ) ~10k states, ~300k Gaussians 훈련 1000대 machine을 사용 하루에 AM 학습 Language Modeling Google.com 의 Query : 1년에 700M의 unique words (in English) Vocabulary size : 1M words, oov rate 0.57% 훈련 corpus size : 230B words 이상 Distributed LM Training (MapReduce) 1 st pass 15M 3gram LM Decoding 2 nd pass 12B 5gram LM Lattice Rescoring (Distributed LM) 13/39

ETRI의 big-data 기반 음성인식 연구 동향 고속 디코딩을 위한 병렬 처리 Instruction-level Single Instruction Multiple Data (SIMD) 명령어 사용 4개의 부동 소수점 데이터에 대해 동시 연산 GMM 및 HMM 연산 CPU-level Multi-core 사용 N개의 연산 core를 사용한 병렬 처리 Computer-level Heterogeneous computing 사용 Multi-core CPU와 Many-core GPU를 동시에 사용 14/39

ETRI의 big-data 기반 음성인식 연구 동향 분산환경 기반 대용량 언어모델(LM) 학습 MPI/socket 기반 ngram count 추출 및 LM 생성 Hadoop 기반 ngram count 추출 및 LM 생성 분산환경 기반 Lattice rescoring Long-span 언어모델 학습 High-order LM + MI + MELM + Structural LM 등의 통합 구축 Trie기반 LM 메모리 DB 구축 분산환경 기반 LM global optimization 이종 LM 자원 통합의 최적화 Socket streaming 기반 실시간 lattice rescoring 15/39

목차 빅데이타와 애플 Siri 음성인식 기술과 빅데이타 텍스트 빅데이타 기반 지식마이닝 기술 자동번역 기술과 빅데이타 16/39

텍스트 빅데이터 기반 지식마이닝 기술 이란? 폭발적으로 생산되는 빅데이터를 자연어 처리, 정보추출을 통해 지 식베이스를 구축하고, 빠르고 신속한 전문가의 데이터 기반 의사결정 지원을 위한 지식 을 제공하는 기술 자연어 이해/정보추출/기계학습 기술 수집 정제 분석 지식화 검색 소셜웹 이슈 탐지-모니터링 기술 Deep Question Answering 기술 17/39

국내외 연구개발 현황 자연어 이해 기반 비정형 데이터 로부터 정보를 추출하여 구조화 정보 생성 소셜웹 콘텐츠를 분석하여 이슈 의 징후를 탐지하고, 지속적으로 전개과정을 모니터링 기존 데이터를 계량적 방법, 질 적접근 방법, 기계학습 방법 등 을 통해 향후 이슈의 전개과정에 대한 예측모형 모델링 및 예측분 석 (국내) 키워드 기반 검색 키워드 빈도 및 감성분석 기반 소셜웹 트렌드 분석 (국외) 패턴/사전 기반 정보추출 빅텍스트 활용 기계학습 기반 오픈 정보추출 (국외) 자연어 이해 기반 인공지능 기술 개발을 활발하게 시도 중 18/39

Google 독감 트렌드 분석 작동원리 특정 검색어가 독감 유행 수준을 파악하기 위한 지표로 사용 집계된 Google 검색 데이터를 사용하여 현재 전 세계 독감 유 행 수준을 거의 실시간으로 예측 대부분의 보건 기구는 일주일에 한 번만 예상 수치를 업데이트 Google 독감 트렌드는 18개 국가를 대상으로 매일 업데이트되 므로 기존의 시스템을 보완 19/39

Google 자동차 판매량 예측분석 오바마 정부가 경기부양책의 일환으로 노후 차량 보상 프로그램 으로 10억 달러 배정 (2009) 정부는 경기불향으로 인해 예산이 빨리 소진되지 않을 것으로 전망하였으나, 조기 소진되어 20억 달러의 추가 예산 편성 구글은 웹 검색빈도수로 예산의 조기 소진을 예측함 20/39

ETRI 소셜웹 이슈 탐지-모니터링 기술 소셜웹 이슈 탐지-모니터링 및 예측분석 기술이란? 소셜웹 콘텐츠로부터 이슈를 탐지/모니터링하여, 이슈의 향후 전개과정에 대한 예측 모형을 제시하는 기술 전문가 의사결정 지원을 위한 Insight 제공 소셜웹: 뉴스, 블로그, 트위터, 게시판, 카페 등 이슈: 시간/지역별 특성을 반영한 중요한 주제 또는 사건 (기업) 겔럭시S2의 향후 판매추이는? 이슈 탐지 기반 예측분석 시스템 이슈 탐지 및 모니터링 이슈 예측분석 이슈 질의응답 (공공) 셧다운제에 대한 여론의 향후 추이는? (회귀분석+시계열분석+패턴기반 +기계학습기반 예측분석 모델) 21/39

소셜웹 이슈 탐지-모니터링 기술 개발현황 요소 기술 (1) 소셜웹 콘텐츠 수집 및 필터링 기술 세부 요소 기술 문장 단위 중복 콘텐츠 필터링 허위평판 분류를 위한 오피니언 스패머 탐지 트윗 사용자 간 영향력, 트윗 영향력 계산 소셜웹 실생활 구어체 전처리 기술(문장분리, 띄어쓰기 등) (2) 소셜웹 콘텐츠에 강건한 의미분석 기술 최신 기계학습 기반 세계 최다 180여개 개체명 인식 17개 분류 감성 분석 및 감성 강도 10단계 분류 템플릿 정보추출을 위한 의미관계 분석 기술 (3) 소셜웹 이슈 탐지-모니터링 기술 이슈 도메인/유형/레벨별 지식베이스 구축 키워드 빈도가 아닌 이슈 중요도 산정에 의한 이슈 탐지 및 모니터링 연관관계 및 경쟁관계 이슈 탐지-모니터링 22/39

ETRI QA 기술 사용자의 질문(Question)의 의도를 파악하여 다양한 웹 콘텐츠로부 터 정확한 답(Answer)을 찾아서 제시하는 기술 Q 2007년 노벨 평화상을 탄 사람이 누구지? 위키 OWL 웹문서 A 2007년 노벨 평화상 수상자는 앨 고어, IPCC 입니다. 수상 이유는 지구온난화의 위험을 경고하였기 때문입니다. 노벨 위원회는 오늘 노르웨이 수도 오슬로에서 올해 노벨 평화상 수상자로 지구온난화의 위험을 경고한 앨 고어 전 미국 부통령과 IPCC, 즉 유엔 정부간기 후변화위원회로 공동 선정했다고 밝혔습니다. 노벨 평화상 역대 수상자 수상 년도 수상자 혹은 수상 단체 1901년 앙리 뒤낭 (스위스), 프레데리크 파시 (프랑스) 1902년 엘리 뒤코묑, 샤를 알베르 고바 (스위스).... 2006년 그라민 은행, 무함마드 유누스 (방글라데시) 2007년 노벨상 수상자 - 노벨 평화상: 앨 고어, IPCC - 노벨 경제학상: 후르비치, 매스킨, 마이 어슨 - 노벨 문학상: 도리스 레싱 - 노벨 물리학상: 페르, 그륀베르크 - 노벨 화학상: 게르하르트 에르틀 - 노벨 의학상: 카페키, 스미시스, 에번스 23/39

ETRI QA 기술 개발 현황 오픈 웹QA 핵심기술 확보 및 실용화 - 형태소 분석, 개체명 인식, 구문분석, 기계학습 기술 - 맛집 QA 기술 (주)KTH 서비스 실시(11.3) 지역생활 모바일 지능형 검색 실용화 - 국내 최초 음성검색 기술 개발( 09.12, TV 방송, 신문 보도) - 아이폰 앱 스토어 서비스 실시(10.12.5) - 안드로이드폰 앱 스토어 서비스 실시(11.2) : 개인화 강화 24/39

빅데이터 기반 지식마이닝 기술 발전방향 빅데이터 기반 자연어 처리 및 정보추출 기술 고도화 다양한 분야의 실시간 의사결정 지원을 위한 빅데이터 분석 기반 Deep QA 기술 25/39

목차 빅데이타와 애플 Siri 음성인식 기술과 빅데이타 텍스트 빅데이타 기반 지식마이닝 기술 자동번역 기술과 빅데이타 26/39

자동번역 기술 자동 번역 컴퓨터가 인간의 언어 표현을 이해하고, 본래의 의미를 다른 언어의 표현으로 변환하는 기술 언어장벽 해소 인간 vs 인간의 소통을 돕는 인공지능 서비스 27/39

자동번역 기술의 발전 번역률 인간과 인간간의 언어장벽 해소 통계기반 (1990) 하이브리드 (2000) - : 단방향 / : 양방향 데이터 규모 90% 70% 동종 언어간 자동번역 규칙기반 (1970) 예제기반 (1984) WWW (1989) 영/불/독/러 번역기 영/불/독/서/이/러 일/한 번역기 번역기 아랍-영 번역기 중/한 영/한 번역기 번역기 중-영 번역기 Peta byte Tera byte 50% ALPAC (1966) 러-영 번역기 영/불 번역기 일-영 번역기 영-일 번역기 중/일 번역기 이종 언어간 자동번역 Giga byte 30% 베트남-영 번역기 Mega byte Text 환경 WWW 환경 1950 1960 1970 1980 1990 2000 2015 28/39

자동번역 방법론의 장단점 규칙기반 예제기반 패턴기반 통계기반 장점 - 대표적인 언어규칙 적용에 의해 초기 시스템 개발 용이 - 문법적 문장 번역 품질 좋음 - 대용량의 번역 패턴 구축에 드는 비용을 절약 - 번역 패턴 추가에 의해, 점증적인 성능 개선이 가능 - 숙어 표현 처리 가능 - 언어적 배경 없이 번역 말뭉치만으로 엔진 구현 가능 - 언어 및 분야에 독립적인 번역 시스템 구축 가능 단점 - 언어규칙을 언어전문가가 직접 구축해야 함 - 다른 분야로의 확장이나 성능 개선을 위한 규칙의 수정이 어려움 - 어휘/구문 유사도 계산에 의존 - 방대한 탐색공간, 번역시간 지연 - 예제 지식의 획득이 어려움 - 대용량 번역 패턴 구축 필요 - 방대한 양의 이중말뭉치 필요 - 방대한 탐색공간, 번역시간 지연 - 장문의 텍스트 번역에 한계 문제점 해결 : 대량의 데이터에 의한 자동 학습 방법 대량의 말뭉치로부터 일반화/객관화된 번역지식을 자동학습 하는 자동번역 방법으로 확장 자동학습에 의해 번역 규칙을 보정하는 등, 언어학적 특성을 이용한 자동학습 이종의 번역 방법론과 자동 학습 방법을 같이 적용하는 하이브리드 시스템의 구성이 가능 29/39

SMT : 빅데이터 자동학습 기반 자동 번역 등장 기존 자동 번역에 관한 회의론 수많은 자동 번역의 문제점들 문제의 해결? 자동 번역의 문제점 번역 지식의 구축 어려움 언어/도메인 확장의 불편함 자동 학습 기반 방법론의 해결책 쉽게 수집 가능한 말뭉치에서 자동 추출 및 학습 대상 언어/도메인의 말뭉치만 있으면 즉시 가능 1:1 직역 중심의 기계적 표현 인간이 사용한 표현을 문장 단위로 자동 학습하여 사용 언어 분석의 오류 발생 지속적인 성능 향상이 어려움 단어/음절 단위의 어휘 정보만으로 번역을 수행 학습 대상인 말뭉치의 규모 확장으로 점진적 성능 향상 보장 Have We Found The Holy Grail? MT Summit IX, New Orleans, 2003 Panel Discussion 자동 번역을 실현할 수 있는 궁극적인 해결책을 우리는 찾은 것인가? 30/39

통계 기반 기계 번역 기술 대용량의 병렬 말뭉치로부터 자동으로 번역 모델을 학습, 통계기반 생성 한국어/영어 대역말뭉치 영어 텍스트 Statistical Alignment & Analysis Statistical Language Modeling Korean Translation Model Broken English Language Model English J I Pr( f1 e1 ) I Pr( e 1 ) f 1 f J Decoder e 1 e I 저는 배가 몹시 고픕니다. What hunger have I Hungry I am so I am so hungry Have I that hunger I am so hungry 31/39

자동 번역을 위한 빅데이터 필요성(1/2) 병렬코퍼스의 규모화의 이점: 병렬코퍼스의 양 증가 번역 성능 지속적으로 증가 최근 연구: 동경대 [Neubig외 ACL 11] 논문 기계 번역 성능 코퍼스의 크기 32/39

자동 번역을 위한 빅데이터 필요성(2/2) 단일어 코퍼스의 규모화 언어 모델 개선 기계 번역의 획기적 성능 향상 대표적 연구: 구글 번역기 [Brants외 EMNLP '07]의 논문 기계 번역 성능 코퍼스의 크기 33/39

자동번역 방법론의 변화와 전망 빅 데이터 기반 해결 방법 모색 증가되는 학습 데이터의 규모와 비례되는 점진적 성능 향상이 보장되는 번역기술 다양한 언어 지식 단계를 활용한 번역 지식의 자동 학습 효율화 대용량 데이터에 기반한 다양한 방법의 하이브리드 번역 방법론 성능 확장성 34/39

빅데이터 기반 번역 기술 현황 빅데이터 언어 모델 규모화 클래스기반 언어 모델링의 규모화 (2008, 구글) - 어휘 클러스터링을 위한 분산 알 고리즘 개발 분산 언어 모델 개발 (2009~) - 분산 Suffix Array 기반 언어 모델 - 클라우드 기반 분산 아키텍쳐 연구 등 언어 모델의 웹 스케일화 변환 지식 자동 구축 대용량 이중언어 코퍼스로부터 대조 코퍼스 자동 구축 (2005~) 이중언어 코퍼스로부터 단어 재순서화, 대역어 변환 모델 학습 (2006~) - 초기 프레임워크 (2006) - 목적어 코퍼스만을 이용한 통계 변역 방법론 (2011) - 번역 모델 학습법 일반화 (2012) (병렬코퍼스+대규모단일어코퍼스) 번역 성능 향상! 35/39

적용 사례 구글 번역 시스템 빅데이터 기반 최고 성공 사례 특징 세계 최대의 빅데이터에 기반한 완전 통계 번역 방식 빅 병렬코퍼스 약 200억 단어 빅 단일어코퍼스 구글에서 색인된 방대한 웹 - 잠재적으로 구글 웹 전체를 사용 가능 57개 언어에 대한 양질의 번역 서비스 제공 세계 최대 사용자층 확보 데이터 계속적 확보 번역 성능 지속적으로 개선! 36/39

적용 사례 EuroMatrix 프로젝트 모든 유럽언어에 대한 자동 번역 프로젝트 특징 빅데이터에 기반한 하이브리드 형태의 통계 번역 방식 : 통계적 방법이 메인 컴포넌트 빅 병렬코퍼스 빅 단일어코퍼스로 활용 약 4억 단어: - 각 언어별 약 3-4천만 단어 규칙과 하이브리드를 통한 추가 개선 다수 유럽 언어에 대해 안정적인 번역 성능 제공 37/39

적용 사례 ETRI 번역 시스템 지식 학습 말뭉치 온라인 발생 대화체 및 웹 데이터 실시간 수집과 정제 대용량 말뭉치를 이용한 번역 지식 반자동 구축 통계 및 데이터 기반 하이브리드 자동번역 엔진 개발 및 도메인 특화 원시언어 말뭉치 웹 데이터 이중언어 말뭉치 로그 데이터 대용량 번역 지식 반자동 구축 대화체 자동 번역 대화체 언어 분석 축약처리 주어복원 대화체 표현 변환 및 생성 다양한 양태 표현 처리 번역 패턴 번역 사전 TM/문형 언어 모델 언어 분석지식 의미 모호성 변환/생성지식 도메인 특화 기업 문서 자동 번역 장문 분절 특수 기호 처리 문어체 분석 단문연결생성 전문용어 구축 및 생성 작문지원도구 상호작용번역 한중영 자동 번역 시스템 38/39

맺음말 음성언어기술 분야의 빅데이타 처리 중요성 사용자 log 데이터의 중요성 진입장벽, 산업/서비스/기술 생태계 점령 ETRI의 자동통역 대국민 서비스 실시 예정 2012년 하반기 앱 출시: 한영 자동통역 2012년 말(한일), 2013년 하반기(한중) 39/39