빅데이타 기반 음성언어 기술 동향 2012. 6. 26 한국전자통신연구원 박상규
목차 빅데이타와 애플 Siri 음성인식 기술과 빅데이타 텍스트 빅데이타 기반 지식마이닝 기술 자동번역 기술과 빅데이타 1/39
목차 빅데이타와 애플 Siri 음성인식 기술과 빅데이타 텍스트 빅데이타 기반 지식마이닝 기술 자동번역 기술과 빅데이타 2/39
Apple Siri와 빅데이터의 관련성 단말은 소형화되는 반면, 응용/서비스/데이타는 폭발적으로 증가하며 복잡해지고 있음 미국의 경우, 2009년 모바일 단말을 통한 인터넷 기반 응용 시장의 연평균 증가율 58.2% (IDC, 2010)? 3/39
Siri : Virtual Personal Assistant SRI CALO (Cognitive Assistant that Learns and Organizes) Project 추론/학습을 통해 사용자의 의사결정을 지원 (http://caloproject.sri.com) DARPA, 총 2억 달러 연구비 지원 (AI분야 역대 최대 규모, 2003-2008) 이 프로젝트 결과물로 Siri가 Spin-off 모바일 단말을 이용한 지능형 소프트웨어 에이전트 상용화 사용자 음성을 인식하여 원하는 정보 제공 및 서비스 실행 (식당, 영화, 택시, 행사 등 검색/예약) 2007. 12: 설립 개인비서 S/W를 iphone 앱으로 공개 2400만 달러 투자 유치 2010. 4. 28: Apple이 인수 2억 달러(추정) 2011. 10. 4: Iphone4S에 탑재 아이폰5(2012 하반기 출시 예정) : 한국어지원 애플 itv에 탑재 예정 4/39
Apple SIRI 서비스 다양한 분야에서 음성 검색 및 개인비서 서비스 지원 구글 검색 위협 다양한 구어체 문장의 음성 질문을 빠른 속도로 이해하기 위하여 클라우드 기반 시스템 필요 빅데이터 질문 패턴 DB를 기반으로 고속 분석 및 이해 검색, 추천, 상식 등 다양한 종류의 정보서비스를 위하여 빅데이터 기반 자연 어처리 기술, 패턴매칭 기술, 기계학습 기술을 활용하고 있음 지식 엔진 Wolfram Alpha 검색 SIRI 서비스를 지원하기 위하여 빅데이터 분석 및 서비스 플랫폼 필요 5/39
SIRI 사용 통계 SIRI의 영향으로 iphone4s 사용자의 데이터 사용량이 급증함 iphone4 사용자의 2배, iphone 3 사용자의 3배 SIRI의 영향이 큼: 정보서비스 및 음성인식 iphone4s 사용자의 87%는 적어도 1달에 1번 SIRI 사용 전화걸기, 인터넷 정보서비스, 메시지 보내기, 이메일 개인별 맞춤형 서비스 : 빅데이타 처리 음성인식의 맞춤형 서비스 PIMS, 사용자 프로파일, 사용자 log 데이터 이용한 맞춤형정보제공 결제정보를 이용한 금융서비스 예상 6/39
목차 빅데이타와 애플 Siri 음성인식 기술과 빅데이타 텍스트 빅데이타 기반 지식마이닝 기술 자동번역 기술과 빅데이타 7/39
빅데이타 이용 음성인식 기술 진화 클라우드 컴퓨팅 인프라의 발달로 인하여 빅데이터에 기반한 음향/ 언어 모델 진화 의해 음성인식 성능이 비약적으로 발전 (대표적인 사례: 구글 ) 음성언어 기술 발전을 위해 방대한 분량의 음성언어 DB 구축/처리 기술 필요 장기간에 걸친 음성언어 DB 인프라 구축이 필요하며, 음성언어 관련 서 비스를 통한 사용자 로그 정보 축적이 기술 발전을 위해 매우 중요함 특정언어 중심의 음성언어 서비스가 활성화 될 경우, 음성언어 로그 축 적의 불균형을 가져와 장기적으로 특정언어의 기술만 발전하는 불균형 현상을 심화시킴 8/39
... 사용자 log 데이터의 중요성 T 9/39
음성인식이 동작하는 하드웨어 환경의 변화 임베디드 환경 메모리 제약 및 계산 능력 제약으로 인하여 소용량의 음향 및 언어 모델 생성 및 이를 이용한 제한적인 하드웨어 환경에서 디코딩 클라우드 환경 언제, 어디서나 네크워크를 통한 데이터 전송 가능 실질적인 음성인식의 수행은 클라우드 내의 다중 서버에서 동작 음성 데이터 및 특징이 네트워크 망을 통해 서버로 전달 일반 PC 이상 스펙으로 여러 대 이상의 서버 활용 가능 10/39
대용량 학습 자료 수집 및 확보 가능 음향 모델 학습 자료 수집 음성인식 서비스를 통한 실 사용자의 음성 데이터 수집 English Google Voice Search Traffic / a day : 17,530 시간 [1] 1 person * 24시간 * 365일 * 2년 (2011.06 기준) 언어 모델 학습 자료 수집 Facebook 및 Twitter와 같은 SNS으로 생성된 대용량의 텍스트 수집 Twitter : 200M tweets/day (2011.06 기준) [2] 11/39
음성인식 관련 big-data 처리 이슈 사항 단계 음향 모델 (Acoustic Model) 이슈 사항 언어 모델 (Language Model) 학습 단계 (Training) * Large-scale Speech Data 지속적 반영 * Unsupervised Learning * Large-scale Text Data 지 속적 반영 * Big size n-gram 구현 * Text Normalization 탐색 단계 (Search) * GPU등을 이용한 Vector Computation 분산 처리 * Big size n-gram 에 대한 lookup 분산처리 12/39
구글의 big-data 기반 음성인식 연구 동향 Acoustic Modeling 1000시간 이상 분량의 acoustic data (English, Japanese, ) ~10k states, ~300k Gaussians 훈련 1000대 machine을 사용 하루에 AM 학습 Language Modeling Google.com 의 Query : 1년에 700M의 unique words (in English) Vocabulary size : 1M words, oov rate 0.57% 훈련 corpus size : 230B words 이상 Distributed LM Training (MapReduce) 1 st pass 15M 3gram LM Decoding 2 nd pass 12B 5gram LM Lattice Rescoring (Distributed LM) 13/39
ETRI의 big-data 기반 음성인식 연구 동향 고속 디코딩을 위한 병렬 처리 Instruction-level Single Instruction Multiple Data (SIMD) 명령어 사용 4개의 부동 소수점 데이터에 대해 동시 연산 GMM 및 HMM 연산 CPU-level Multi-core 사용 N개의 연산 core를 사용한 병렬 처리 Computer-level Heterogeneous computing 사용 Multi-core CPU와 Many-core GPU를 동시에 사용 14/39
ETRI의 big-data 기반 음성인식 연구 동향 분산환경 기반 대용량 언어모델(LM) 학습 MPI/socket 기반 ngram count 추출 및 LM 생성 Hadoop 기반 ngram count 추출 및 LM 생성 분산환경 기반 Lattice rescoring Long-span 언어모델 학습 High-order LM + MI + MELM + Structural LM 등의 통합 구축 Trie기반 LM 메모리 DB 구축 분산환경 기반 LM global optimization 이종 LM 자원 통합의 최적화 Socket streaming 기반 실시간 lattice rescoring 15/39
목차 빅데이타와 애플 Siri 음성인식 기술과 빅데이타 텍스트 빅데이타 기반 지식마이닝 기술 자동번역 기술과 빅데이타 16/39
텍스트 빅데이터 기반 지식마이닝 기술 이란? 폭발적으로 생산되는 빅데이터를 자연어 처리, 정보추출을 통해 지 식베이스를 구축하고, 빠르고 신속한 전문가의 데이터 기반 의사결정 지원을 위한 지식 을 제공하는 기술 자연어 이해/정보추출/기계학습 기술 수집 정제 분석 지식화 검색 소셜웹 이슈 탐지-모니터링 기술 Deep Question Answering 기술 17/39
국내외 연구개발 현황 자연어 이해 기반 비정형 데이터 로부터 정보를 추출하여 구조화 정보 생성 소셜웹 콘텐츠를 분석하여 이슈 의 징후를 탐지하고, 지속적으로 전개과정을 모니터링 기존 데이터를 계량적 방법, 질 적접근 방법, 기계학습 방법 등 을 통해 향후 이슈의 전개과정에 대한 예측모형 모델링 및 예측분 석 (국내) 키워드 기반 검색 키워드 빈도 및 감성분석 기반 소셜웹 트렌드 분석 (국외) 패턴/사전 기반 정보추출 빅텍스트 활용 기계학습 기반 오픈 정보추출 (국외) 자연어 이해 기반 인공지능 기술 개발을 활발하게 시도 중 18/39
Google 독감 트렌드 분석 작동원리 특정 검색어가 독감 유행 수준을 파악하기 위한 지표로 사용 집계된 Google 검색 데이터를 사용하여 현재 전 세계 독감 유 행 수준을 거의 실시간으로 예측 대부분의 보건 기구는 일주일에 한 번만 예상 수치를 업데이트 Google 독감 트렌드는 18개 국가를 대상으로 매일 업데이트되 므로 기존의 시스템을 보완 19/39
Google 자동차 판매량 예측분석 오바마 정부가 경기부양책의 일환으로 노후 차량 보상 프로그램 으로 10억 달러 배정 (2009) 정부는 경기불향으로 인해 예산이 빨리 소진되지 않을 것으로 전망하였으나, 조기 소진되어 20억 달러의 추가 예산 편성 구글은 웹 검색빈도수로 예산의 조기 소진을 예측함 20/39
ETRI 소셜웹 이슈 탐지-모니터링 기술 소셜웹 이슈 탐지-모니터링 및 예측분석 기술이란? 소셜웹 콘텐츠로부터 이슈를 탐지/모니터링하여, 이슈의 향후 전개과정에 대한 예측 모형을 제시하는 기술 전문가 의사결정 지원을 위한 Insight 제공 소셜웹: 뉴스, 블로그, 트위터, 게시판, 카페 등 이슈: 시간/지역별 특성을 반영한 중요한 주제 또는 사건 (기업) 겔럭시S2의 향후 판매추이는? 이슈 탐지 기반 예측분석 시스템 이슈 탐지 및 모니터링 이슈 예측분석 이슈 질의응답 (공공) 셧다운제에 대한 여론의 향후 추이는? (회귀분석+시계열분석+패턴기반 +기계학습기반 예측분석 모델) 21/39
소셜웹 이슈 탐지-모니터링 기술 개발현황 요소 기술 (1) 소셜웹 콘텐츠 수집 및 필터링 기술 세부 요소 기술 문장 단위 중복 콘텐츠 필터링 허위평판 분류를 위한 오피니언 스패머 탐지 트윗 사용자 간 영향력, 트윗 영향력 계산 소셜웹 실생활 구어체 전처리 기술(문장분리, 띄어쓰기 등) (2) 소셜웹 콘텐츠에 강건한 의미분석 기술 최신 기계학습 기반 세계 최다 180여개 개체명 인식 17개 분류 감성 분석 및 감성 강도 10단계 분류 템플릿 정보추출을 위한 의미관계 분석 기술 (3) 소셜웹 이슈 탐지-모니터링 기술 이슈 도메인/유형/레벨별 지식베이스 구축 키워드 빈도가 아닌 이슈 중요도 산정에 의한 이슈 탐지 및 모니터링 연관관계 및 경쟁관계 이슈 탐지-모니터링 22/39
ETRI QA 기술 사용자의 질문(Question)의 의도를 파악하여 다양한 웹 콘텐츠로부 터 정확한 답(Answer)을 찾아서 제시하는 기술 Q 2007년 노벨 평화상을 탄 사람이 누구지? 위키 OWL 웹문서 A 2007년 노벨 평화상 수상자는 앨 고어, IPCC 입니다. 수상 이유는 지구온난화의 위험을 경고하였기 때문입니다. 노벨 위원회는 오늘 노르웨이 수도 오슬로에서 올해 노벨 평화상 수상자로 지구온난화의 위험을 경고한 앨 고어 전 미국 부통령과 IPCC, 즉 유엔 정부간기 후변화위원회로 공동 선정했다고 밝혔습니다. 노벨 평화상 역대 수상자 수상 년도 수상자 혹은 수상 단체 1901년 앙리 뒤낭 (스위스), 프레데리크 파시 (프랑스) 1902년 엘리 뒤코묑, 샤를 알베르 고바 (스위스).... 2006년 그라민 은행, 무함마드 유누스 (방글라데시) 2007년 노벨상 수상자 - 노벨 평화상: 앨 고어, IPCC - 노벨 경제학상: 후르비치, 매스킨, 마이 어슨 - 노벨 문학상: 도리스 레싱 - 노벨 물리학상: 페르, 그륀베르크 - 노벨 화학상: 게르하르트 에르틀 - 노벨 의학상: 카페키, 스미시스, 에번스 23/39
ETRI QA 기술 개발 현황 오픈 웹QA 핵심기술 확보 및 실용화 - 형태소 분석, 개체명 인식, 구문분석, 기계학습 기술 - 맛집 QA 기술 (주)KTH 서비스 실시(11.3) 지역생활 모바일 지능형 검색 실용화 - 국내 최초 음성검색 기술 개발( 09.12, TV 방송, 신문 보도) - 아이폰 앱 스토어 서비스 실시(10.12.5) - 안드로이드폰 앱 스토어 서비스 실시(11.2) : 개인화 강화 24/39
빅데이터 기반 지식마이닝 기술 발전방향 빅데이터 기반 자연어 처리 및 정보추출 기술 고도화 다양한 분야의 실시간 의사결정 지원을 위한 빅데이터 분석 기반 Deep QA 기술 25/39
목차 빅데이타와 애플 Siri 음성인식 기술과 빅데이타 텍스트 빅데이타 기반 지식마이닝 기술 자동번역 기술과 빅데이타 26/39
자동번역 기술 자동 번역 컴퓨터가 인간의 언어 표현을 이해하고, 본래의 의미를 다른 언어의 표현으로 변환하는 기술 언어장벽 해소 인간 vs 인간의 소통을 돕는 인공지능 서비스 27/39
자동번역 기술의 발전 번역률 인간과 인간간의 언어장벽 해소 통계기반 (1990) 하이브리드 (2000) - : 단방향 / : 양방향 데이터 규모 90% 70% 동종 언어간 자동번역 규칙기반 (1970) 예제기반 (1984) WWW (1989) 영/불/독/러 번역기 영/불/독/서/이/러 일/한 번역기 번역기 아랍-영 번역기 중/한 영/한 번역기 번역기 중-영 번역기 Peta byte Tera byte 50% ALPAC (1966) 러-영 번역기 영/불 번역기 일-영 번역기 영-일 번역기 중/일 번역기 이종 언어간 자동번역 Giga byte 30% 베트남-영 번역기 Mega byte Text 환경 WWW 환경 1950 1960 1970 1980 1990 2000 2015 28/39
자동번역 방법론의 장단점 규칙기반 예제기반 패턴기반 통계기반 장점 - 대표적인 언어규칙 적용에 의해 초기 시스템 개발 용이 - 문법적 문장 번역 품질 좋음 - 대용량의 번역 패턴 구축에 드는 비용을 절약 - 번역 패턴 추가에 의해, 점증적인 성능 개선이 가능 - 숙어 표현 처리 가능 - 언어적 배경 없이 번역 말뭉치만으로 엔진 구현 가능 - 언어 및 분야에 독립적인 번역 시스템 구축 가능 단점 - 언어규칙을 언어전문가가 직접 구축해야 함 - 다른 분야로의 확장이나 성능 개선을 위한 규칙의 수정이 어려움 - 어휘/구문 유사도 계산에 의존 - 방대한 탐색공간, 번역시간 지연 - 예제 지식의 획득이 어려움 - 대용량 번역 패턴 구축 필요 - 방대한 양의 이중말뭉치 필요 - 방대한 탐색공간, 번역시간 지연 - 장문의 텍스트 번역에 한계 문제점 해결 : 대량의 데이터에 의한 자동 학습 방법 대량의 말뭉치로부터 일반화/객관화된 번역지식을 자동학습 하는 자동번역 방법으로 확장 자동학습에 의해 번역 규칙을 보정하는 등, 언어학적 특성을 이용한 자동학습 이종의 번역 방법론과 자동 학습 방법을 같이 적용하는 하이브리드 시스템의 구성이 가능 29/39
SMT : 빅데이터 자동학습 기반 자동 번역 등장 기존 자동 번역에 관한 회의론 수많은 자동 번역의 문제점들 문제의 해결? 자동 번역의 문제점 번역 지식의 구축 어려움 언어/도메인 확장의 불편함 자동 학습 기반 방법론의 해결책 쉽게 수집 가능한 말뭉치에서 자동 추출 및 학습 대상 언어/도메인의 말뭉치만 있으면 즉시 가능 1:1 직역 중심의 기계적 표현 인간이 사용한 표현을 문장 단위로 자동 학습하여 사용 언어 분석의 오류 발생 지속적인 성능 향상이 어려움 단어/음절 단위의 어휘 정보만으로 번역을 수행 학습 대상인 말뭉치의 규모 확장으로 점진적 성능 향상 보장 Have We Found The Holy Grail? MT Summit IX, New Orleans, 2003 Panel Discussion 자동 번역을 실현할 수 있는 궁극적인 해결책을 우리는 찾은 것인가? 30/39
통계 기반 기계 번역 기술 대용량의 병렬 말뭉치로부터 자동으로 번역 모델을 학습, 통계기반 생성 한국어/영어 대역말뭉치 영어 텍스트 Statistical Alignment & Analysis Statistical Language Modeling Korean Translation Model Broken English Language Model English J I Pr( f1 e1 ) I Pr( e 1 ) f 1 f J Decoder e 1 e I 저는 배가 몹시 고픕니다. What hunger have I Hungry I am so I am so hungry Have I that hunger I am so hungry 31/39
자동 번역을 위한 빅데이터 필요성(1/2) 병렬코퍼스의 규모화의 이점: 병렬코퍼스의 양 증가 번역 성능 지속적으로 증가 최근 연구: 동경대 [Neubig외 ACL 11] 논문 기계 번역 성능 코퍼스의 크기 32/39
자동 번역을 위한 빅데이터 필요성(2/2) 단일어 코퍼스의 규모화 언어 모델 개선 기계 번역의 획기적 성능 향상 대표적 연구: 구글 번역기 [Brants외 EMNLP '07]의 논문 기계 번역 성능 코퍼스의 크기 33/39
자동번역 방법론의 변화와 전망 빅 데이터 기반 해결 방법 모색 증가되는 학습 데이터의 규모와 비례되는 점진적 성능 향상이 보장되는 번역기술 다양한 언어 지식 단계를 활용한 번역 지식의 자동 학습 효율화 대용량 데이터에 기반한 다양한 방법의 하이브리드 번역 방법론 성능 확장성 34/39
빅데이터 기반 번역 기술 현황 빅데이터 언어 모델 규모화 클래스기반 언어 모델링의 규모화 (2008, 구글) - 어휘 클러스터링을 위한 분산 알 고리즘 개발 분산 언어 모델 개발 (2009~) - 분산 Suffix Array 기반 언어 모델 - 클라우드 기반 분산 아키텍쳐 연구 등 언어 모델의 웹 스케일화 변환 지식 자동 구축 대용량 이중언어 코퍼스로부터 대조 코퍼스 자동 구축 (2005~) 이중언어 코퍼스로부터 단어 재순서화, 대역어 변환 모델 학습 (2006~) - 초기 프레임워크 (2006) - 목적어 코퍼스만을 이용한 통계 변역 방법론 (2011) - 번역 모델 학습법 일반화 (2012) (병렬코퍼스+대규모단일어코퍼스) 번역 성능 향상! 35/39
적용 사례 구글 번역 시스템 빅데이터 기반 최고 성공 사례 특징 세계 최대의 빅데이터에 기반한 완전 통계 번역 방식 빅 병렬코퍼스 약 200억 단어 빅 단일어코퍼스 구글에서 색인된 방대한 웹 - 잠재적으로 구글 웹 전체를 사용 가능 57개 언어에 대한 양질의 번역 서비스 제공 세계 최대 사용자층 확보 데이터 계속적 확보 번역 성능 지속적으로 개선! 36/39
적용 사례 EuroMatrix 프로젝트 모든 유럽언어에 대한 자동 번역 프로젝트 특징 빅데이터에 기반한 하이브리드 형태의 통계 번역 방식 : 통계적 방법이 메인 컴포넌트 빅 병렬코퍼스 빅 단일어코퍼스로 활용 약 4억 단어: - 각 언어별 약 3-4천만 단어 규칙과 하이브리드를 통한 추가 개선 다수 유럽 언어에 대해 안정적인 번역 성능 제공 37/39
적용 사례 ETRI 번역 시스템 지식 학습 말뭉치 온라인 발생 대화체 및 웹 데이터 실시간 수집과 정제 대용량 말뭉치를 이용한 번역 지식 반자동 구축 통계 및 데이터 기반 하이브리드 자동번역 엔진 개발 및 도메인 특화 원시언어 말뭉치 웹 데이터 이중언어 말뭉치 로그 데이터 대용량 번역 지식 반자동 구축 대화체 자동 번역 대화체 언어 분석 축약처리 주어복원 대화체 표현 변환 및 생성 다양한 양태 표현 처리 번역 패턴 번역 사전 TM/문형 언어 모델 언어 분석지식 의미 모호성 변환/생성지식 도메인 특화 기업 문서 자동 번역 장문 분절 특수 기호 처리 문어체 분석 단문연결생성 전문용어 구축 및 생성 작문지원도구 상호작용번역 한중영 자동 번역 시스템 38/39
맺음말 음성언어기술 분야의 빅데이타 처리 중요성 사용자 log 데이터의 중요성 진입장벽, 산업/서비스/기술 생태계 점령 ETRI의 자동통역 대국민 서비스 실시 예정 2012년 하반기 앱 출시: 한영 자동통역 2012년 말(한일), 2013년 하반기(한중) 39/39