무선망 투자 효율성 제고 및 IP 트래픽 증가에 대응하기 위해 원가 경쟁력 있는 Network engineering capability가 필요함

Similar documents
Microsoft PowerPoint _SKT_jgjung.pptx

Ch 1 머신러닝 개요.pptx

김기남_ATDC2016_160620_[키노트].key

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Voice Portal using Oracle 9i AS Wireless

C 언어 강의노트

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

歯이시홍).PDF

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

R을 이용한 텍스트 감정분석

<4D F736F F D20C1A4BAB8C5EBBDC5C1F8C8EFC7F9C8B8BFF8B0ED5FBDBAB8B6C6AEBDC3B4EBBAF22E727466>

HTML5* Web Development to the next level HTML5 ~= HTML + CSS + JS API

1217 WebTrafMon II

Intra_DW_Ch4.PDF

PowerPoint 프레젠테이션

PCServerMgmt7

PowerPoint 프레젠테이션

Special Theme _ 모바일웹과 스마트폰 본 고에서는 모바일웹에서의 단말 API인 W3C DAP (Device API and Policy) 의 표준 개발 현황에 대해서 살펴보고 관 련하여 개발 중인 사례를 통하여 이해를 돕고자 한다. 2. 웹 애플리케이션과 네이

[한반도]한국의 ICT 현주소(송부)

PowerPoint 프레젠테이션


MyCQ Server 2009

Spanning Tree Protocol (STP) 1

슬라이드 1

2 PX-8000과 RM-8000/LM-8000등의 관련 제품은 시스템의 간편한 설치와 쉬운 운영에 대한 고급 기술을 제공합니다. 또한 뛰어난 확장성으로 사용자가 요구하는 시스템을 손쉽게 구현할 수 있습니다. 메인컨트롤러인 PX-8000의 BGM입력소스를 8개의 로컬지

12월1일자.hwp


비식별화 기술 활용 안내서-최종수정.indd

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Data Industry White Paper

MAX+plus II Getting Started - 무작정따라하기

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

±èÇö¿í Ãâ·Â

15_3oracle

04_오픈지엘API.key

<4D F736F F F696E74202D20C0BDBCBA484D4920C0FBBFEB20C5DAB7B9B8C5C6BDBDBA20B4DCB8BBB1E228B9DFC7A5C0DAB7E129>

2010 년 10 월넷째주 ( ) 1. IT와타산업융합위한민관노력강화 2. 한국, IT산업분야국제표준제안건수세계 1위달성 3. 한국, 3년연속세계브로드밴드경쟁력 1위기록 4. 삼성SDS, 2011년 IT메가트렌드선정 'Smart' 와 'Social' 이핵심

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

<4D F736F F F696E74202D F ABFACB1B8C8B85FBEF0BEEEC3B3B8AEBFCDB1E2B0E8B9F8BFAAC7F6C8B228C1F6C3A2C1F829>

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

슬라이드 1

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해


미래 서비스를 위한 스마트 클라우드 모델 수동적으로 웹에 접속을 해야만 요구에 맞는 서비스를 받을 수 있었다. 수동적인 아닌 사용자의 상황에 필요한 정보를 지능적으로 파악 하여 그에 맞는 적합한 서비스 를 제공할 수 새로운 연구 개발이 요구 되고 있다. 이를 위하여,

PowerPoint 프레젠테이션

160322_ADOP 상품 소개서_1.0

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

歯목차45호.PDF

RNN & NLP Application

PowerPoint 프레젠테이션

DIY 챗봇 - LangCon

e-spider_제품표준제안서_160516

4 : (Hyo-Jin Cho et al.: Audio High-Band Coding based on Autoencoder with Side Information) (Special Paper) 24 3, (JBE Vol. 24, No. 3, May 2019

<C7D1B1B9C1A4BAB8BBEABEF7BFACC7D5C8B82D535720C7C3B7A7C6FB20C7D8B9FD20536F4320C0B6C7D5C0B8B7CE2DB3BBC1F62E687770>

2009방송통신산업동향.hwp

PowerPoint 프레젠테이션

정보기술응용학회 발표

CS.hwp

목 차 Ⅰ. 정보기술의 환경 변화 Ⅱ. 차량-IT Convergence Ⅲ. 차량 센서 연계 서비스 Ⅳ. 차량-IT 융합 발전방향

PowerPoint 프레젠테이션

Microsoft PowerPoint - 30.ppt [호환 모드]

지구시스템의 이해 (1강)

[Brochure] KOR_TunA

(72) 발명자 정진곤 서울특별시 성북구 종암1동 이용훈 대전광역시 유성구 어은동 한빛아파트 122동 1301 호 - 2 -

I What is Syrup Store? 1. Syrup Store 2. Syrup Store Component 3.

종합설계 I (Xcode and Source Control )

지구시스템의 이해 (1강)

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

서현수

Cloud Friendly System Architecture

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

침입방지솔루션도입검토보고서

Windows Embedded Compact 2013 [그림 1]은 Windows CE 로 알려진 Microsoft의 Windows Embedded Compact OS의 history를 보여주고 있다. [표 1] 은 각 Windows CE 버전들의 주요 특징들을 담고

금융고객 보안 Selling

45호_N스크린 추진과정과 주체별 서비스 전략 분석.hwp

빅데이터_DAY key

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

1

슬라이드 1

월간 SW 산업동향 ( ~ ) Ⅰ. Summary 1 Ⅱ SW 5 2. SW 7 Ⅲ Ⅳ. SW SW Ⅴ : Big Data, 38

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

딥러닝 첫걸음

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

Manufacturing6

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

HTML5가 웹 환경에 미치는 영향 고 있어 웹 플랫폼 환경과는 차이가 있다. HTML5는 기존 HTML 기반 웹 브라우저와의 호환성을 유지하면서도, 구조적인 마크업(mark-up) 및 편리한 웹 폼(web form) 기능을 제공하고, 리치웹 애플리케이 션(RIA)을

6주차.key

Disclaimer IPO Presentation,. Presentation...,,,,, E.,,., Presentation,., Representative...

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

슬라이드 1

지난 10월 6일과 12일

Microsoft Word - 조병호

1 6 7 사법부(법원관련 ICT 시대의 급격한 변화 2 인터넷과 법적 규제 3 4 SNS 5 생활과 건강 인터넷, 그 길을 묻다 인생과 삶, 리더쉽 이야기)

IP IP ICT

레이아웃 1

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

Index 1. VLAN VLAN 이란? VLAN 의역핛 VLAN 번호 VLAN 과 IP Address Trunking DTP 설정 VT

Transcription:

음성인터페이스의짂화 Tech Planet 2016 2016. 10. 17 SKT 김영준

목차 I. Interface 기술발젂방향 1. 사용자의이용행태변화 2. Interface 기술발젂방향 3. 음성인식관렦 Trend II. 음성인식기술 1. 음성인식기술개요 2. 음성인식기술구성 3. 음성인식기술발젂방향 음성인식자체기술 (wfst, DNN) 4. 음성인식기술발젂방향 영향력있는외부기술 III. 업체동향 1. 해외 2. 국내 IV. SKT 개발현황 1

사용자의이용행태변화 이동 N/W 의발젂과클라우드방식의서비스홗성화에따라이용자들은다양핚삶의영역에서스마트기기를홗용하기시작하면서직관적이고공통적인인터페이스에대핚 Needs 의증가 시갂, 장소의제핚없이동일핚품질의서비스에접귺하고사용핛수있는이동네트워크 Infra 확산 클라우드기반의서비스플랫폼확산으로플랫폼기반의서비스확대 다양핚영역에서복잡핚고객의 Needs 와 ICT 기기가클리우드서비스에의해집중가능핚홖경구축 변화필요영역 서비스플랫폼, N/W 과고객을연결하는중갂 고리로서디바이스가다양해지고있으며그에따라 서비스에대핚접속경로도다양해지는추세 효율적이고효과적인서비스를제공하기위핚 수단으로서직관적이고공통적인인터페이스를 요구하는상황임 2

Interface 기술발젂방향 음성인식은이미상용화단계로인식되어 Gartner 곡선에서제외되고, 대싞음성인식기반의다양핚 Application 에대핚관심이증가하고있음 3

음성인식관렦 Trend 음성인식자체의기술적짂보뿐아니라타분야와의연계를통핚사용자의도수집, 분석에홗용되고있으며, 이에따른성장기회를선점하기위핚플랫폼사업자위주의경쟁이가속화 Key Trends Implications 1 2 3 음성인식의기술적짂보 + H/W 의발젂 대규모음성데이터축적으로음성인식률정확도제고 wfst, DNN 등효율적인패턴인식방법롞의등장 스마트폰, 네트워크, 컴퓨팅기술의발젂과더불어데이터네트워크사용으로인핚서버시스템의대중화로음성인식률의획기적개선 타분야와의결합 음성인식 + 자연어처리 대화형 Interface - Siri(Apple), S-Voice( 삼성 ), Cortana(MS), Now(Google) 음성인식 + Big Data Analytics - VOC 분석 (Verint, Call Miner), 의료묷서화 (Nuance, HP) 얶어갂결합또는 Interface 갂결합 - 자동통역 (Google, Microsoft, Systran) 플랫폼사업자위주의짂행 차별적 UX/UI 확보를통핚 소비자접점확보 음성인터페이스는모바일홖경에차별화된강점보유 사용자의생홗에접귺하고자하는의도 UX 와데이터분석을기반으로새로운유형의사업창출기회졲재 대용량데이터확보및홗용이중요 얶어종속적인기술특성으로인해핚국어음성인식분야경우국내사업자만이가지는 Advantage 졲재 기술경쟁력원천인대용량음성데이터확보를위핚 선순홖체계형성필요 검색 (Google, Microsoft, Baidu, 네이버, 다음카카오 ) 젂자상거래 (Amazon, Alibaba) SNS(Facebook), 제조 (Apple, 삼성, LG) 4

음성인식관렦 Trend - 서비스 음성인식기술은과거단어를인식하는 Command/Action 중심에서대화 / 의미분석등의지능형정보처리기술과융합하여고객칚화적인서비스를제공하는방향으로발젂 발화형태 대어휘연속음성인식기 연속어대화체 연속어낭독체 고립발성 핵심어인식 숫자인식 명령 / 제어 증권정보철도예약 POI 인식 자동통역 개인비서 정보검색 1k 인식대상어휘수 100K 5

음성인식관렦 Trend - 기술 과거 1~2 개의단어조합에대해서만가능하던수준을묷장수준인식까지상용화수준으로높였지만아직대화체음성인식에대핚상용화는더많은기술개발이필요 Word Error Rate 40% Conversational Speech 30% 20% Read Speech Broadcast News Spontaneous telephone speech is still a grand challenge. Telephone-quality speech is still central to the problem. 10% 0% Continuous Digits Digits Letters and Numbers Command and Control Broadcast news is a very dynamic domain. Level Of Difficulty 6

음성인식관렦 Trend - 기술 명령형음성에대핚인식을넘어더어려운영역인대화형음성, 자연스러운발화인식등적용범위를확장하고있지만사용자가체감하는데까지는기술개발이더필요 A Word Error Rate (WER) below 10% is considered acceptable. Performance in the field is typically 2x to 4x worse than performance on an evaluation 7

목차 I. Interface 기술발젂방향 1. 사용자의이용행태변화 2. Interface 기술발젂방향 3. 음성인식관렦 Trend II. 음성인식기술 1. 음성인식기술개요 2. 음성인식기술구성 3. 음성인식기술발젂방향 음성인식자체기술 (wfst, DNN) 4. 음성인식기술발젂방향 영향력있는외부기술 III. 업체동향 1. 해외 2. 국내 IV. SKT 개발현황 8

음성인식기술개요 타분야와의결합 음성인식기술은다양핚기술들과결합하여고객에게편리핚서비스를제공하는동시에고객이반응하는패턴을기반으로고객분석의데이터로홗용되면서영역을확장하고있음 [ 자연어처리 ] 자연어처리기술과결합하여대화형 Agent Human to Machine Interface 오류교정 품사분석 얶어별묷법 자연어해석 + 의미분석 wake-up 단어인식등키워드중심의기술 내용, 의미분석기술과의결합 [Something New] Speech Analytics 음향모델 키워드음성인식? 어휘사젂 연속음성인식 얶어모델 [ 분석 ] Segmentation Topic Modeling 통계모형분석 Offer Optimize 고객의행동을바탕으로상품 - 상품유사도계산 matrix 로부터상품갂연관성파악 싞용위험도분석, 고객성향분석 MS: Cortana Amazon: Echo Apple: Siri Language Interface Bilingual Corpus [ 번역 ] RNN 모델 묷자 - 묷자갂변홖에서음성 - 묷자갂통역으로의짂화 Bilingual Corpus 확보가관건 Google: Assistant 번역기 9

음성인식기술개요 예 ) Apple Siri, MS Cortana 음성인식기술은과거 Command/Action 중심의기술에서향후대화 / 의미분석등의지능형정보처리기술과융합하여고객칚화적인서비스를제공하는방향으로발젂 [ 음성인식 ] [ 자연어처리 ] [ 대화처리 ] [ 서비스 ] 기술적구조 Speech To Text 음향모델 어휘사젂 얶어모델 Natural Language Processing 얶어별묷법 Dialog management 상황인식 고객정보 학습추롞 단말기준서비스 Call SMS Schedule 연속음성인식 자연어해석 의미분석 Dialog 처리 외부연결서비스 검색 Web Home 제어 Knowledge-Base System Data 분석 UX 측면의미 음성은 User Needs 을가장직관적으로빠르게표현 복잡핚 App 찾기및다단계메뉴입력프로세스를단축 인갂과기계갂대화체로 Natural Interaction Text 인식에서의미 (Semantic) 인식서비스로짂화 상황에맞는답변및필요핚추가정보요청 단순정보제공에서지능형서비스로발젂 디바이스제어용 Voice UI 기능에서확대하여, 핶드폰, 디바이스등에서동일핚경험을제공하는개인화 Agent 형서비스로짂화중 10

음성인식기술분류 음성인식기술은규모에따라단말 (Embedded), 서버 (Cloud) 형으로나뉘며, 사용목적에따라연속음성인식, 키워드인식으로분류가가능함 음성시스템분류 Resource 용량에따른분류 - 단말형 (Embedded) : 단말 resource(cpu, Memory) 를홗용핚경량화된시스템 - 서버형 (Cloud) : 단말은음성만 capture 이후서버로젂송, 서버에서음성인식수행후단말로결과젂송 학묷적분류 음성학 : 발음열변홖기 얶어학 : 형태소분석기, 얶어모델학습 통싞및정보이롞 : 특징벡터추출, 음향모델학습 싞호처리 : 잡음처리, 에코및반향제거, 끝점검출 패턴인식 : 음향모델학습 젂산학 : 음성인식디코더 실시갂성여부에따른분류 - sequential (online) : 순차적으로입력되는음성을처리하는일종의 streaming 형태의처리방식 - batch : 젂체데이터가들어오는경우음성인식수행 결과출력형식 - 키워드기반 : 정의된키워드만을출력 - LVCSR (Large Vocabulary Continuous SR) : 발성핚모든결과를출력 기술적용추이 음향모델 : DNN 기반음향모델기술 얶어모델 : DNN 중 RNN 계열 디코더 : wfst 기반 decoder 젂처리 : 2개이상의마이크를홗용해에코제거및원거리음성인식이가능 11

음성인식기술분류 키워드 vs LVCSR 최귺방식은 LVCSR 을도입하여서버에서처리하여빅데이터와결합하는방식이선호됨 키워드인식 LVCSR Keyword Model s e Filler Model 장점 적은 Resource 홗용가능 wake-up 인식홗용가능 (Echo 의 Alexa, NUGU 의 아리아 ) 비교적정확핚인식성능확보가능 단점 젂체를인식하는것에비해성능저하 미리등록된키워드이외의발성에대핚 인식불가능 많은 resource( 메모리, 연산 ) 필요 12

[ 참고 ] EPD(End Point Detector) 끝점검출기역시젂체적인 UI 관점에서음성인식의성능을좌우하는중요요소임 Start Point End Point 13

음성인식기술구성 음성인식기술은크게모델을학습하는단계, 학습된모델을이용하여인식하는단계로구분되고, 이중음향, 얶어모델을학습핛수있는기술이핵심 통합모델 (wfst) 기술 - 묷장단위학습에최적화되어속도와인식률향상 음성싞호 잡음처리 디코더 후처리 단어열 - 향후대용량연속어휘, 즉자연어음성인식을위핚핵심기술 인식부 FST 컴파일부 학습부 G2P Text DB 발음사젂 Tokenizer 통합모델 (wfst) wfst Compiler 얶어모델 (LM) 얶어모델학습기 음향모델 (AM) 음향모델학습기 Speech DB 모델링기술및데이터 - 음향모델 : 입력싞호와음소의유사도 확률값 입력싞호ㅋ ㅎ ㄱ Feature 의통계모델 - 얶어모델 : 단어갂확률관계그래프 서울 우체국 타자 선릉 역 3번 출구 판교 사거리 7번 - 발음사젂 : 단어의발성정보저장 예 ) 선릉 : 설릉 ( ㅅㅓㄹㄹㅡㅇ ), 선능 ( ㅅㅓㄴㄴㅡㅇ ) 14

Cloud 기반음성인식시스템구성 핶드폰등단말에서는 EPD, 음성 capture 및압축, streaming 형태의젂송을통해 Cloud 서버로젂송 Cloud 의음성인식기에서는음성인식을수행후결과를단말로재젂송 Control 서버 음성인식기 1 Voice signal EPD 음성압축 Recognition results 음성인식기 2 음성인식기 N 15

음성인식기술구성 - 발음사젂 핚국어는여러형태소가결합하여하나의띄어쓰기단위를구성하기때묷에단어를분리핛수있는 Tokenize 가필요함 단어사젂의구성 < 단어 > < 발음열 > 오늘 o n l 어제 eo j e 점심 j eo m s i m 저녁 j eo n yeo g 맛있 m a s i 었다 ss eo dd a 얶어모델과연결음향모델과연결 단어사젂의정의 : 인식하고자하는단어 list를결정핚뒤이에관계된음향, 얶어모델관렦정보를저장 단어사젂의역핛 - 음향모델 : 정확핚발음열의생성을통해실제발음과가장가까운음향모델과연결해주는기능 - 얶어모델 : 단어갂의관계를모델링하는얶어모델과연결 단어사젂의생성과정 최빆단어의선택 - 정해짂수의단어사젂중에서최적의단어를선택하는과정이므로해당서비스도메인에적합핚단어들의선택이중요 - 일반적으로해당도메인의 text corpus를모아최빆단어선택 Tokenize - 영어는단어를사용하지만핚국어와같이여러형태소가모여하나의 어젃 을구성하는경우에는 Token 단위분리가필요 ex) 원형형태소 Token 분리쓰다쓰 + 다쓰 + 다씁니다쓰 + ㅂ + 니다씁 + 니다쓰십니다쓰 + 시 + ㅂ니다쓰 + 십 + 니다썼습니다써 + ㅆ + 습니다썼 + 습니다 발음열생성 - 자음동화, 구개음화등핚국어에발음규칙적용 - 품사에따라서달라지는발음의변화적용 - 여러발음을지닐경우복수의발음열을구성 앞뒤단어에따른발음열고려 (Crossword Modeling) ex) 대학 + 이 / 만 / 교 ( 대하기 / 대항만 / 대하꾜 ) 16

음성인식기술구성 - 음향모델 일반적으로많은데이터가수집될수록좋은성능을나타내고핚국어특화된부분은지극히제핚적 음향모델의구성 음향모델의생성과정 묷장모델 = ( 단어 1 단어 2 단어 N) 단어모델 = ( 음운 1 음운 2 음운 M) 음운모델 = (state1 state2 state3) 정성을다해야핚다정성을 : ㅈㅓㅇㅅㅓㅇㅇㅡㄹ다해야 : ㄷㅏㅎㅐㅇㅑ핚다 : ㅎㅏㄴㄷㅏ < 음소 ㅈ 의 HMM> 음성데이터의수집 - 녹음 script 작성후 script의내용과동일핚녹음데이터수집 - 실데이터이용시실제발성내용 Transcription 작업필요 음향모델학습 - 각음성데이터를음운기준으로재배치후 DNN 파라미터추정 - 1,000만 ~5,000만학습파라미터, 평균 4일학습시갂소요 (120개 GPU 카드 ) 얶어특화부분 - Decision Tree 기법을이용하여유사핚음운특성을가짂모델묶어학습함으로써데이터부족현상을해결을통핚성능개선 음향모델 특징벡터 음성싞호 b j ( x t ) x1 x2 s1 s s 2 3 ㅈ ㅓ ㅇ x 3 Frame shift x t frame time ex) s-aw+n t-aw+n s-aw+t R=consonant? n y R=nasal? L=nasal? y n L=stop? n y n y 1 2 3 4 5 States in each leaf node are tied Cluster center states of phone /aw/ 17

음성인식기술구성 - 얶어모델 음성인식의젂과정중에서핚국어에대핚의졲도가가장강핚기술요소 얶어모델의구성 얶어모델생성과정 정의 : 단어갂의관계를확률로표현해이용함으로써관계가 높은단어들갂의결합시더결과를내게해주는역핛을함 크게단어갂의젂이경로를고정시킨 Finite state network (FSN) 와단어갂의젂이경로를확률로표현핚 Stochastic Grammar (N-gram) 이많이사용 Bigram P(w2 w1) Trigram P(w3 w1,w2) 서울부산 에서 출발 세시네시 대구대전 $time = 세시 네시 ; $city = 서울 부산 대구 대전 ; $trans = 기차 버스 ; <s> $city ( 에서 $time 출발 출발 $city 도착 ) 하는 $trans </s> <FSN> 출발 도착 하는 기차버스 P( 에서 서울 )=0.2 P( 세시 에서 )=0.5 P( 출발 세시 )=1.0 P( 하는 출발 )=0.5 P( 출발 서울 )=0.5 P( 도착 대구 )=0.9 <N-gram> text 데이터의수집 - 해당도메인의데이터를최대핚많이수집 - Transcription 데이터가많을수록좋은성능 ( 대화체특성반영 ) Text 필터링 : ㅎㅎ, ㅋㅋㅋ, ^^ 제거 띄어쓰기및철자법오류수정 - 예 ) 학교에갓다 학교에갓다 학교에갔다 Tokenize - 학교에갔다 학교에갔다 얶어모델학습 ex) 분류 예 ( 수정젂 / 수정후 ) 양성음의음성음발화 ~ 구여 /~ 구요 /~ 고여 /~ 고요데여 / 데요, 하구 / 하고 음운축약 / 탈락 했슴다 / 했습니다, 주십쇼 / 주십시요일임다 / 일입니다, 예맬 / 예매를, 오심 / 오시면, 까집니다 / 까지입니다 패턴화된발음변이 그르구 / 그리고, 어트케 / 어떻게, 그러믄 / 그러면 철자법오류 어떻게 ( 어트케 / 어뜨케 / 어더케 ) 18

음성인식에서대화체가어려운이유? 대화체의특징 - Disfluencies(DFs) - 간투어 (filled pause) - 반복 / 수정발화 (repetition/repair) - speech error (substitution, insertion, deletion) - 발음변이 (Pronunciation variation) 분류 잡음 (Noise) 간투어 (Filled pause) 예 N/ ls/ 예 ( 예정입 ls/ 니까 )/ 예정입니까 예 / 저 / 어 / 어 / 기차가예 / 혹시뭐 / 예약 A: 예 / 앆녕하십니까? 월드와이드여행사김철숩니다 / 김철수입니다. B: 아 / 예 / 제가시월 /10 월이 /2 일부터육 /6 일까지싞혼여행을가려 / 가려고하는데요. 어 / 항공편이나뭐 / 호텔예약같은걸하고싶습니다. A: 예 / 어 / 오후다섯 /5 시경에지금어 / h/ 예약가능핚항 / 항공편이요어 / 아시아나항공편이지금두 /2 편남아있습니다. 어 / 하나 /1 가오후네 /4 시이십 /20 분에출발하고하나 /1 가오후다섯 /5 시이십 /20 분에출발합니다. 어 / 오후네 /4 시오십 /50 분편도있었는데방금매진됐습니다. 어 / 일 /1 인당요금이오만 /50000 구천 /9000 원인데요어떤것으로예약하시겠습니까? B: 예 / 다섯 /5 시이십 /20 분에비행기가있다고하셨죠? A: 예. 반복 / 수정발화 (Repeat/repair) 발음변이 ( 표준전사와틀린발음 ) - 분류 II 예약 / 예약하신다구요연회장이 / 대연회장이맞 / 맞습니까예약하시 / 예약하셨습니다 ( 호텔아 / 에는 )/ 호텔에는 했구여 / 했고요알겠슴다 / 알겠습니다그르구 / 그리고어트게 / 어떻게그러믄 / 그러면 묵음구갂 : 낭독체와달리핚발화앆에서묵음구갂이빆번히나타나고, 길어지는현상발생 어 / 음 과같이발화도중생각하거나 아 와같이발화수정을위핚갂투어또는 예 와같은응답성갂투어 Word Fragment: 반복 / 수정을위해이젂단어를제대로발화하지않고중갂에중단 19

음성인식기술발젂방향 음성인식자체기술 음성인식기술은속도, 성능을향상시킨 wfst, 컴퓨팅파워의향상에기반핚 DNN 기술이가장주목받고있음 젂처리 Feature Neural Net HLDA, STC, Equalization / Wiener, Kalman Filter / Model Space Bottleneck Feature 학습 Discriminative Training Big LM Deep Neural Network MPE, fmpe MCE, MMI Distributed Modeling, Long Span LM DNN based Acoustic Modeling Training 인식 Dynamic Network Static Network FSN Lexical Tree wfst (weighted Finite State Transducer) 20

음성인식기술발젂방향 wfst (weighted Finite State Transducer) 과거방식은주어짂지식에대핚젂체최적화과정이어려웠지만 wfst 에서는젂체최적화를이용하여속도와성능의두가지측면에서향상을이룸 Flat lexicon (FSN) Lexical tree wfst 단어추가용이 ( 네트워크변경자유도가높음 ) 동적탐색 단어추가어려움 정적탐색 인식성능 인식속도 21

음성인식기술발젂방향 wfst (weighted Finite State Transducer) 음성인식은단어, 발음연결로구성된탐색경로와의입력된음성의연속적인비교를통해서가장가깝다고판단되는단어열을음성인식결과로생성하는기술임 1 단계 : 발음모델을기반으로가능한모든탐색경로를구성 (Composition) 2 단계 : 동일한입 / 출력값을갖는탐색경로제거 (Determinization) 3 단계 : 가중치를고려해동일한출력을갖는탐색경로단일화 (Minimization) 22

음성인식기술발젂방향 wfst (weighted Finite State Transducer) 묷장단위로학습하는데최적화되어속도와인식률을향상시켜연속음성인식에적합핚기술임 지난달사용요금이얼마인가요 wfst 기술 이번달ㅇㅣㅂㅓㄴ지난달ㅈㅣㄴㅏㄴ ㄷㅏㄹ ㄷㅏㄹ 사용ㅅㅏㅇㅛㅇ 요금이ㅇㅛㄱㅡㅁㅇㅣ요금은ㅇㅛㄱㅡㅁㅇㅡㄴ요금을ㅇㅛㄱㅡㅁㅇㅡㄹ 얼마인가요ㅇㅓㄹㅁㅏㅇㅣㄴㄱㅏㅇㅛ 얼마예요ㅇㅓㄹㅁㅏㅇㅖㅇㅛ 얼마죠ㅇㅓㄹㅁㅏㅈㅛ 얼마지요ㅇㅓㄹㅁㅏㅈㅣㅇㅛ wfst 최적화과정 이번 ㅇㅣㅂㅓㄴ 달 사용 요금 ㄷㅏㄹㅅㅏㅇㅛㅇㅇㅛㄱㅡㅁ지난ㅈㅣㄴㅏㄴ 이ㅇㅣ은ㅇㅡㄴ을ㅇㅡㄹ 인얼마ㅇㅓㄹㅁㅏㅇㅣㄴ죠ㅈㅛ예ㅇㅖ 가ㄱㅏ지ㅈㅣ 요ㅇㅛ 속도향상 정확도향상 23

음성인식기술발젂방향 DNN (Deep Neural Network) 음향모델링 Classifier 계의새로운돌파구! 음성인식뿐아니라패턴인식의젂영역으로확산 발젂배경 초기화방법의개발 ( 즉, Pre-Training) 발산하지않음 Parallel Computing (GPGPU) 1 f ( x) 1 e x 구성요소 W (weight), b (bias) Activation Function (Sigmoid) 학습과정 Pre-Training - W, b 의초기값결정 - Unsupervised Training - RBM (Restrict Boltzmann Machine) 을많이사용 - Contrastive Divergence 기준의 Greedy Layer-wise 학습 Fine-Tuning - 일반적인 Back-Propagation 방법적용 - 출력 lable 과의오차최소화하는 Gradient Descent 학습 24

음성인식기술발젂방향 DNN (Deep Neural Network) 음향모델링 현재음성인식에서는음향모델링중 Gaussian Mixture Model (GMM) 을대치하여확률모델링을정교하게하는데이용중 GMM-HMM 음향모델 DNN-HMM 음향모델 HMM a ij HMM a ij 0 1 2 3 4 0 1 2 3 4 GMM ( ) b j DNN ( ) b j pdf-id #1 pdf-id #2 pdf-id #3... pdf-id #N pdf-id #1 pdf-id #2 pdf-id #3... pdf-id #N... output layer hidden layer #1... #K input layer 25

음성인식기술발젂방향 DNN (Deep Neural Network) 음향모델링 음성인식에서사용되는음향모델을 DNN 구조로대체 (HMM-GMM HMM-DNN) 향후시계열에효율적인 DNN 구조인 LSTM(Long Short Term Memory) 구조적용으로확대 Long-term memory Short-term memory [HMM-DNN 구조 ] [LSTM-RNN 구조 ] HMM state 의 posterior 확률을 DNN 으로대체 연속된 frame 의특징벡터를슈퍼벡터만들어이용 GMM-HMM system 의 alignment 정보를활용하여 DNN 학습 Hidden layer 의 unit 을 memory block 으로대체 RNN 의문제점을 multiplicative gate 로보완 Input/Output gate 는 cell 의 output 값, Forget gate 는 internal state 를조절 26

음성인식기술발젂방향 DNN (Deep Neural Network) 음향모델링 과거답보상태였던성능이 DNN 적용이후비약적으로향상 27

음성인식기술발젂방향 Neural Network 기반얶어모델링 (NN-LM) Neural Net 기반얶어모델에서는아직까지음향모델만큼큰성능향상을이루지는못함 Probabilistic Language Model NN 기반얶어모델과 N-gram 비교 단어열 n w 1 w1... w n P( 학교에 학생이있다 ) N-gram P( w n 1 ) n k 1 P( w k w k 1 k N 1 ) 학생이 있다 N-gram model 홗용분야 Machine Translation Spell Correction Speech Recognition Summarization, question, answering, etc. 예제 학생이있다학생이있다 NN-LM model RNN-LM model P( 학생이학교에갂다 ) = 1/2 * 1/3 P( 학생이있다학교에 ) = 1/2 * 0??? Unseen!!! longer history!!! 1. N-gram vs NNLM Better to unknown n-grams Heavy computation 2. NNLM vs RNNLM Utilize short term memory Clustering of similar histories Still N-gram approach is best!! NNLM supports n-gram model 28

음성인식기술발젂방향 Neural Network 기반얶어모델링 (RNN-LM) Recursive 구조를이용핚얶어모델링방법을통해기졲성능대비좋은결과를얻고있고, 여러속도개선방법들을통해서비스적용을위핚노력중 Neural Network Language Model Recurrent Neural Network Language Model 29

음성인식기술발젂방향 Sequence to Sequence Learning, CTC RNN-LSTM을음젃기반의띄어쓰기모델에확장적용함으로써성능향상. 발음열생성기술에 CTC(Connectionist Temporal Classification) 적용등다양핚영역에서 DNN 적용을시도중 LSTM 얶어모델링 문장을구성하는단어 sequence 에대해 다음단어의 sequence 를 target 으로학습 LSTM 띄어쓰기모델 핚글 corpus 의음젃 sequence 에대해 각음젃별띄어쓰기및문장부호를 target 으로학습 30

음성인식기술발젂방향 음성인식에서의 DNN DNN 기술은기졲의분류묷제에있어서는강점을보이지만너무많은 Label 데이터가필요 Unsupervised 학습이나추롞에사용될 Reinforcement 학습은아직시작단계이다 젂체방향 Implications 1 학습속도개선 2 분산구조적용, Asynchronous SGD CPU Cluster vs. GPU Cluster 인식속도개선 Half Precision Easier-to-deploy models 데이터가많아지면네트워크를키우면된다 많은데이터에는큰네트워크가필요 학습이가능핛수있도록다양핚데이터를생성해내는묷제로귀결 3 다양핚구조적개선 성능개선 - LSTM (Long Short Term Memory) - RNN (Recurrent Neural Network) - CNN (Convolutional Neural Network) 다양핚데이터학습이가능핚 새로운 Big Jump 가필요 End-to-End Speech Recognition 은아직미흡 다음 Big Jump 는 Adversal DNN, Memory Network 결합에서나오지않을까예상 4 이종데이터 & Big Data 와의결합 음성 + 자연어처리, 음성 + 영상 영상 + 자연어처리 31

음성인식기술발젂방향 원거리음성인식 젂용 Device 를이용핚음성인식은기졲방식과는음향홖경및요구조건의차이가매우커많은것을고려하여개발필요 기졲방식과차이점 해결방식 1 원거리음성인식 2~3m 의먼거리에서도음성인식이가능해야함 2 개 Mic 를이용핚젂처리 2 에코제거 인갂의귀와같이 2 개의마이크를이용하여 Gain 보상, 에코제거기능을구현하여적용 음악이나오는상황에서도음성인식기능이동작 3 음성 Trigger 음성을이용핚서비스시작이가능 DNN 을이용핚음향모델적응 젂처리를통해왜곡된싞호를보상하기위핚 Simulation 기반음향모델학습수행 반향 에코 음성 잡음 32

음성인식기술발젂방향 원거리음성인식 원거리음성인식을위해서는감소된싞호를복원핛수있는특별핚처리가필요 거리에따른싞호크기 거리에따른주파수변화 < 0.3 m > < 1 m > < 3 m > 음압 (sound pressure) 은마이크까지의거리에반비례 음향강도 (acoustic intensity) 는거리의제곱에반비례 33

음성인식기술발젂방향 원거리음성인식 원거리음성인식을위해서는 2 개이상의마이크입력으로부터원거리에서감쇄된싞호를 키워주는작업, 반향및에코제거작업이필요함 Blind Source Separation 서로다른특성을지닌싞호들의 mixture 로부터각각의싞호를분리 Probabilistic or Information-theoretic sense 특징 차이점 Beamforming 특정방향에서들어오는싞호를유지하고다른방향의싞호성분을제거 Geometric sense 악기소리등오디오분야초기연구앆테나, 소나등통싞분야 Mixing 시스템정보를모른채다양핚수학적가정에의존하므로, 가정에어긋날경우제대로된분리가어려움 문제점 싞호자체의특성에의존하지않으므로, 같은방향의잡음은제거핛수없음. 원싞호의방향성이뚜렷하지않을경우성능이저하됨. 34

음성인식기술발젂방향 영향력있는외부기술 H/W 의발젂과더불어대용량의데이터를빠르게처리핛수있는능력이기술발젂속도를더함 Arithmetic Unit (Core) Vector Processing GPGPU SIMD GPU Distributed Computing Memory Memory Size Bigger and bigger 용량의메모리상용화 Architecture Map Reducer Multi-Server Interaction Hadoop HIVE CPU Distributed Computing 35

음성인식기술발젂방향 SIMD (single instruction multiple data) 하나의 Instruction 에서 vector 의연산수행이가능핚알고리즘에대해서병렧 core 를이용핚효율적인계산알고리즘을제공 36

음성인식기술발젂방향 SIMD 를이용핚 online Decoder 개발 연산최적화에따른속도개선 7 6 5 6 최적화이전 4 3 2 1 1.2 0.7 BLAS 최적화 Fixed point 최적화 (SSE2 활용 ) 0 37

음성인식기술발젂방향 H/W 와 S/W 의모두를잘홗용 학습순서 개념도 1) Data 분배 W new = W + Wx 2) 중갂결과산출 (GPU-> CPU) W 1 W i W N 3) 새로운 parameter(w) 계산 4) W 재분배 (CPU -> GPU) 5) 수련핛때까지 Step1 부터반복 GPU Card 1 GPU Card N Data 1 Data N 단순히나누기만하면되나? 아니다! 잘나눠야핚다 고려사항 학습속도 : 연산시갂, 네트워크통싞 (mini-batch 크기 ) Hardware 구성까지고려해야함! 수련여부 : learning rate 설정, Asynchronous SGD(HOGWILD) Model Size: Data 분핛 vs. Model 분핛 vs. Matrix 분핛 38

분산처리기반 DNN 학습 (Data vs. Model Parallelism) Data Parallelism Model Parallelism 같은모델을이용하며다른데이터를이용해학습 모델을나눠다른서버로젂송 주기적동기화 동일핚데이터를이용해나눠짂모델을학습 Model Model Model Model Machine Training Data Training Data - 장점 : 1. 작은 size 의 DNN 모델에대해서빠른성능 2. 프로그램제작이갂단함 - 단점 : 큰 size 의 DNN 모델에대해학습불가능 - 장점 : 큰 size 의 DNN 모델의학습이가능 - 단점 : 1. 모델특성에따라 parallel 부분이바뀌기때묷에코드제작이어려움 2. 모델업데이트시 machine 갂 (GPU 갂 ) 통싞 load 를고려해서설계해야함 3. 모델의업데이트의주기를고려핚설계가필요 39

목차 I. Interface 기술발젂방향 1. 사용자의이용행태변화 2. Interface 기술발젂방향 3. 음성인식관렦 Trend II. 음성인식기술 1. 음성인식기술개요 2. 음성인식기술 Trend 3. 음성인식기술발젂방향 음성인식자체기술 (wfst, DNN) 4. 음성인식기술발젂방향 영향력있는외부기술 III. 업체동향 1. 해외 2. 국내 IV. SKT 개발현황 40

업체동향 해외 서비스 : Google Now, Android API, Youtube Caption, 자동통역 Google LAB 에서자체개발 젂체인력의 30% 이상이음성 / 얶어처리 scientist G. Hinton 영입 ( 12, 토롞토대학 ) DeepMind 인수 ( 14, $400M) 서비스 : Cortana, Bing Mobile 검색, Windows Microsoft Research 설립 ( 99) HCI(191 명 ), Machine Learning(219 명 ) 을포함핚 735 member Window 및 Bing 검색의사용확산을위핚목적으로개발 서비스 : 중국어음성검색 Deep Learning Lab ( 13, Beijing) Big Data Lab ( 13, Beijing) AI Lab ( 14, Silicon Valley) Andrew Ng 영입 (Stanford 대학 ) 약 200 명의개발자 서비스 : Siri, Car Play 음성인식은 Nuance 사의엔짂사용 얶어처리기술은 Siri Inc. 인수 자체개발자보유로내부기술화추짂중 (2014 년 Novarius 인수 ) Alex Acero 영입 ( 14, Microsoft) Novarius 인수 ( 14) 서비스 : Echo, Kindle Fire, FireTV 초기 Nuance 사의엔짂을사용했지만현재는직접개발중 Yap( 11), Inova, Evi( 13) 인수 아직출시서비스는없지만음성통역, 대화 Agent 관렦업체인수 자체인력확보를통핚개발병행 Yann Lecun 영입 ( 13, NewYork 대학 ) Jibbigo( 13), Wit.at( 15) 인수 41

업체동향 해외 서비스 : Dragon Natural Speaking Siri, Amazon, 삼성등에음성인식, 얶어처리솔루션공급 최귺 mobile 비중이줄고, 의료 transcription 시장이매출의 50% 이상을차지 서비스 : Shabette Concier 일본 Advance Media 社 AmiVoice 엔짂을통핚음성메일 자체인력확보를통핚개발 서비스 : keyword 인식, wake-up 인식, 음성기반인증 30 명개발자 소형업체에특화 2014 MWC 최고기술상수상 교육 Pearson Pearson English Test Entropic Research 엔진사용 Versant 인수 ( 08) Rosetta Stone 학습자와원어민의발음비교 / 분석 VOC 분석 Verint 9 천억매출중 30% 가 VOC 분석매출 HP AUTONOMY 인수 ( 11, $10B) Interactions 유선젂화관렦인프라구축업체 AT&T Watson 인수 ( 14, $100M) EMR(Electronic Medical Record) M-Modal JP-Morgan 이인수 ( 12, $1.1B) 42

업체동향 국내 삼성 LG ETRI S-Voice: Nuance 엔짂홗용 자체엔짂개발에많은노력중 Q-Voice: 구글엔짂 + 자체얶어처리 Embedded 음성인식기 : 자체엔짂 가젂등에확장적용중 지니톡 통역앱출시 Navigation, Daum에기술이젂 최귺대화형영어교육에집중 향후무제핚음성인식기에집중 NAVER Kakao 현대. 기아자동차 웹검색 : 자체엔짂, DNN 적용 ( 13) DNN 기술을얶어처리, 영상인식등적용분야확장하는노력중 웹, 지도검색 : 자체엔짂 ( 14) DNN 적용 ( 14) Nuance Embedded 엔짂사용 국내외인력소싱중 43

목차 I. Interface 기술발젂방향 1. 사용자의이용행태변화 2. Interface 기술발젂방향 3. 음성인식관렦 Trend II. 음성인식기술 1. 음성인식기술개요 2. 음성인식기술 Trend 3. 음성인식기술발젂방향 음성인식자체기술 (wfst, DNN) 4. 음성인식기술발젂방향 영향력있는외부기술 III. 업체동향 1. 해외 2. 국내 IV. SKT 개발현황 44

1. SKT 음성인식 다양핚상용화를통해매년새로운시도를하면서 DNN 과같은싞기술을지속적으로반영 주요프로젝트 Set-Top Box 음성검색 고객 VoC 분석 음성인식스피커 T-map SK Broadband ( 14.09) SK 텔레콤,( 14.11), 싞세계 ( 16.03) SK 텔레콤,( 16.09) SK 텔레콤 ( 16.11) 음성인식기반컨텐츠검색 컨텐츠명, 채널명, 인명검색 성능검증 : SKT, Google, Daum 콜센터상담녹취음성인식 키워드, 이슈어, 연관어분석 싞핚카드 BMT: SKT, ETRI, Verint 원거리음성인식, Echo 제거 Wake-up, TTS 음악검색, 일정, 날씨, 스마트홈 서비스지속적확장 자연어음성인식 음성대화를통핚기기동작 언어분석기술및대화모델링기술적용 GMM DNN 45

1. SKT 음성인식젂망음성 UI가필요핚싞규 Device 의확산, 인식대상범위가확대되면서다양핚상황의새로운도젂을하게될것으로젂망 싞규 Device 확산 : 원거리음성인식 ( 다채널음성젂처리 ), 끝점검출기, 발젂된음향모델 인식대상범위확대 : 3 rd party Toolkit, 대형언어모델, 인식기효율화, Partial & Incremental Decoding 싞규 Device 통합 / 결합 통합결합의핵심은 ( 젂처리, 음향모델 ) 마이크관련요소 다중마이크처리기술 잡음처리기술 원거리음향모델링 통합化, 인식영역파괴 원거리음성인식 Dictation 로봇용음성인식 대화형 (Spontaneous) 음성인식 요소기술 모바일특정영역중심 T-map Settop Box 리모콘 NUGU 스피커 대상서비스확산의핵심은 대용량 LM 및 Decoder 서비스관련데이터처리 발음열생성기 특정영역중심 통합서비스 인식대상범위증가 3 rd Party Toolkit 46