Microsoft PowerPoint _SKT_jgjung.pptx

Similar documents
DIY 챗봇 - LangCon

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

김기남_ATDC2016_160620_[키노트].key

Voice Portal using Oracle 9i AS Wireless

Data Industry White Paper

Ch 1 머신러닝 개요.pptx

歯이시홍).PDF

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

I What is Syrup Store? 1. Syrup Store 2. Syrup Store Component 3.

정보기술응용학회 발표


15_3oracle

Manufacturing6

08SW

Mstage.PDF



Intra_DW_Ch4.PDF


[한반도]한국의 ICT 현주소(송부)

MAX+plus II Getting Started - 무작정따라하기

PowerPoint 프레젠테이션

PCServerMgmt7

6주차.key

歯I-3_무선통신기반차세대망-조동호.PDF

Microsoft Word _Smallcap

PowerPoint 프레젠테이션

제 출 문 환경부장관 귀하 본 보고서를 습마트기기 활용 환경지킴이 및 교육 통합 서비스 개 발 과제의 최종보고서로 제출합니다. 주관연구기관 : 주관연구기관장 : 2015년 10월 주식회사 덕키즈 김 형 준 (주관)연구책임자 : 문종욱 (주관)참여연구원 : 김형준, 문병

목 차 Ⅰ. 정보기술의 환경 변화 Ⅱ. 차량-IT Convergence Ⅲ. 차량 센서 연계 서비스 Ⅳ. 차량-IT 융합 발전방향

<4D F736F F F696E74202D20C0BDBCBA484D4920C0FBBFEB20C5DAB7B9B8C5C6BDBDBA20B4DCB8BBB1E228B9DFC7A5C0DAB7E129>

논단 : 제조업 고부가가치화를 통한 산업 경쟁력 강화방안 입지동향 정책동향 <그림 1> ICT융합 시장 전망 , 년 2015년 2020년 <세계 ICT융합 시장(조 달러)> 2010년 2015년 2020년 <국내 ICT

PowerPoint 프레젠테이션

ETL_project_best_practice1.ppt

Special Theme _ 모바일웹과 스마트폰 본 고에서는 모바일웹에서의 단말 API인 W3C DAP (Device API and Policy) 의 표준 개발 현황에 대해서 살펴보고 관 련하여 개발 중인 사례를 통하여 이해를 돕고자 한다. 2. 웹 애플리케이션과 네이

PowerPoint 프레젠테이션

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

<4D F736F F D20C1A4BAB8C5EBBDC5C1F8C8EFC7F9C8B8BFF8B0ED5FBDBAB8B6C6AEBDC3B4EBBAF22E727466>

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

1

Orcad Capture 9.x

ARMBOOT 1

The Self-Managing Database : Automatic Health Monitoring and Alerting

Oracle Apps Day_SEM

슬라이드 1


IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

04_오픈지엘API.key

Portal_9iAS.ppt [읽기 전용]

Windows Embedded Compact 2013 [그림 1]은 Windows CE 로 알려진 Microsoft의 Windows Embedded Compact OS의 history를 보여주고 있다. [표 1] 은 각 Windows CE 버전들의 주요 특징들을 담고

歯CRM개괄_허순영.PDF

HTML5* Web Development to the next level HTML5 ~= HTML + CSS + JS API

Microsoft Word - 1-차우창.doc

PowerPoint 프레젠테이션

세션 Tutorial 1 강연 시간 5/11(수) 09:30-11:30 주 제 5G System: Vision & Enabling Technologies 성 명 강충구 소속기관명 고려대학교 부서/학과명 전기전자공학부 직 위 교수 5G 이동통신의 응용 분야에 따른 기술

Microsoft PowerPoint - 3.공영DBM_최동욱_본부장-중소기업의_실용주의_CRM

1. 2., $20/ 1 $10/ $5/ GB Verizon Cloud 4? ; 2 1 GB $15 ( GB ). 1 $ Wi-Fi (, ) 4, GB verizonwireless.com/korean 1

...? 2 Carryover Data. 2 GB / $35 Safety Mode Safety Mode,. 3 4 GB / $50 : $20/ 4 : $10/ : $5/ : 8 GB / $70 16 GB / $ ; 6 XL,, Verizon X

CS.hwp

SchoolNet튜토리얼.PDF

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

1217 WebTrafMon II

B _02_M_Ko.indd

크리덴셜_FBASIC_V3

09오충원(613~623)

Oracle Database 10g: Self-Managing Database DB TSC

Microsoft PowerPoint - eSlim SV [080116]

Microsoft Word - 오세근

thesis

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

(72) 발명자 정진곤 서울특별시 성북구 종암1동 이용훈 대전광역시 유성구 어은동 한빛아파트 122동 1301 호 - 2 -

Vertical Probe Card Technology Pin Technology 1) Probe Pin Testable Pitch:03 (Matrix) Minimum Pin Length:2.67 High Speed Test Application:Test Socket

2017 1

APOGEE Insight_KR_Base_3P11


LG-LU6200_ICS_UG_V1.0_ indd

UDP Flooding Attack 공격과 방어

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

개정판 서문 Prologue 21세기 한국경제를 이끌어갈 후배들에게 드립니다 1부 인생의 목표로써 CEO라는 비전을 확고히 하자 2부 인생의 비전을 장기 전략으로 구체화하라 1장 미래 경영환경 이해하기 20p 4장 장기 실행 전략 수립하기 108p 1) 미래 환경분석이

첨 부 1. 설문분석 결과 2. 교육과정 프로파일 169

< B3E220BDBAB8B6C6AE20BDC3B4EBC0C72033B4EB20BAAFC8AD20B5BFC0CE5F E687770>

(......).hwp

삼성955_965_09

<C7D1B1B9C0FAC0DBB1C7C0A7BFF8C8B828C0FAC0DBB1C720B1E2BCFAC6F2B0A1B8A620C0A7C7D120B9FDC1A6B5B520B0B3BCB1B9E6BEC8BFACB1B8292E687770>

SRC PLUS 제어기 MANUAL

서현수

Disclaimer IPO Presentation,. Presentation...,,,,, E.,,., Presentation,., Representative...


김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

untitled

Microsoft PowerPoint - eSlim SV [ ]

목순 차서 v KM의 현황 v Web2.0 의 개념 v Web2.0의 도입 사례 v Web2.0의 KM 적용방안 v 고려사항 1/29

PowerPoint 프레젠테이션

4

슬라이드 1

정보화 산업의 발전단계 : 정보혁명의 진화 정보화 산업의 발전단계 1세기에 두 번 정도의 큰 기술혁명이 이루어져 경제성장의 원동력으로 작용 uit 시대는 정보혁명 중 인터넷 이후의 새로운 기술혁명인 컨버전스 기술이 핵심이 되는 시대 uit 시대는 정보화의 극대화와 타

PowerPoint 프레젠테이션

BSC Discussion 1

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Transcription:

인공지능서비스누구 (NUGU) 기술소개 2018. 6. 22 SK Telecom 정규준

Contents 1. SK Telecom NUGU 2. Core Technology 3. SK Telecom Speech Recognition 1

AI Assistant : Speakers https://www.youtube.com/embed/yrjsgg_2meg 2

음성인식인공지능스피커 ( 국외 ) Echo Home 3

음성인식인공지능스피커 ( 국내 ) Wave FRIENDS FRIENDS 4

음성인식인공지능스피커 NUGU (1/2) 세계최초한국어음성인식지원음성인식스피커 음악감상, 팟캐스트날씨, 뉴스, 경기결과, 운세제어, IoT 알람, 스케줄음식주문, 쇼핑 스마트폰음성비서 Artificial Intelligence (AI) speaker 5

음성인식인공지능스피커 NUGU (2/2) 15. 3 月 Smart Box I Prototype 15. 8 月 Smart Box II Prototype 16. 9 月 NUGU 스피커상용화 6

AI Assistant : 내비게이션 7

AI Assistant : 내비게이션 https://youtu.be/txw7468d8u0?list=plhp6uuayrptqvdkta98k0zy0zuyevekzn 8

NUGU Platform Tmap x NUGU Btv x NUGU x JOON x NUGU 9

NUGU Platform 2018 API Open Social bot Pet bot Commerce bot Toy bot 10

글로벌기업의 AI 1. 현재 Business 에접목하면서미래를위한포석을만들고있음 번역 물류 헬스케어 게임 비서 운전 배달 Finance 11

SKT 의 AI (1/2) Life Companion : Connect everything if you want [ Human Life ] [ contents/service/info. ] Connect Intelligent Agent Smart Advisor Integrated Service Platform Commerce Contents Communication [ SKT AI R&D target report, Sep. 2015.] 12

SKT 의 AI (2/2) 다양한공간에서다양한 Device 를통해 Ambient Intelligence 를제공하여새로운가치를창출함 언제어디서나필요한지능에연결 Home Office/ Factory Car Mobile 13

Contents 1. SK Telecom NUGU 2. Core Technology Natural User Interface (NUI) Intelligence 3. SK Telecom Speech Recognition 14

Core Technology Natural User Interface Intelligence 15 15

Core Technology - NUI 음성 음성인식 텍스트 wake-up ASR 전처리 텍스트 음성합성 음성 Unit Selection, Parametric 텍스트 자연어이해 의미표현 Domain, Intent, Entity 16 16

Wake-up (Keyword Spotting) Basic structure Keyword Model start end Filler Model Advantage Use low power resource Available for wake-up word (Echo: Alexa, NUGU: Aria, Tinkerbell) Disadvantage Performance degradation compared to server-side ASR recognition pre-registered keywords only 17

Automatic Speech Recognition (ASR) Speech Signal ASR Recognized text 서울날씨알려줘 Challenges Background noise Low power speech Far-field Cross-talk Incorrect pronunciation Similar pronunciation New word, non-standard word Large vocabulary Natural conversation 18

Natural Language Understanding (NLU) Recognized Text NLU Domain Intent Entity 서울날씨알려줘 Challenges Ambiguity of expression Proper noun pronoun Domain increasing New word, non-standard word Natural conversation ASR error Domain: Weather Intent: ask.weather Entity: date.tomorrow, location.seoul 19

Service / NLG Service Provider Domain Intent Entity Service Logic Natural Language Generation Output text Domain: Weather Intent: ask.weather Entity: date:tomorrow, location:seoul 내일서울은쌀쌀하고구름이다소낄예정입니다. 최저기온은영하 1 도, 최고기온은 Challenges Looks like human Domain increasing Handling Input outside coverage 20

Text To Speech (TTS) Output text TTS Output speech 내일서울은쌀쌀하고구름이다소낄예정입니다. 최저기온은영하 1 도, 최고기온은 Challenges Naturalness Tone, pause, speed New word, non-standard word Exception pronunciation processing 21

Core Technology - Intelligence 검색기술 목표 : 모든 CP 데이터검색내재화 요약기술 뉴스요약 ( 완료 ) 지식검색, 감성대화검색, T map 주소록검색 ( 진행중 / 예정 ) 뉴스검색, 음악검색, B tv 검색, T114 검색, 팟캐스트검색 통합지식베이스 이종의 DB 통합 Entity Linking ( 소녀시대서현 " 서주현 vs 분당구서현 ) 추천기술 개인화된음악추천제공 (2017년 12월출시 ) 추천곡중, 3곡이상 (33%), 5곡이상 (24%), 7곡이상 (17%) 채택기준 : 전체재생시간의 60% 이상청취 22 22

NUGU 검색시스템구조 수집, 제휴를통한데이터생성과유실없고빠른서비스투입을위한검색시스템구축 검색로그분석을위한빅데이터처리시스템구축 23 23

NUGU 개인화 / 추천 사용자그래프 선호도추론 제공정보 노래선호도 지식베이스 그래프모델러 그래프탐색 의도예측 행위패턴인식 가수선호도의도요청비율개체-의도연관도 NUGU 로그 상황분석 개체간결합선호도 분석기 실시간예측 자주하는요청패턴 결정모델 예측기 Context 저장소 시나리오 사용자선호도를반영하여음악추천 예 ) 노래추천해줘 좋아할만한음악추천 명시적의도없이개체명만발화하는경우, 의도를예측 개인화추천 의도예측 예 ) 뽀로로 뽀로로동영상이아닌뽀로로주제곡재생 24 24

NUGU Knowledge Base 현황 총 2 천 7 백만 Entity, 2 억 5 천만 Triple 의 KB 를구축중 (2018. 03. 31 기준 ) DOMAIN CATEGORY ENTITY 수 Triple 수 DOMAIN CATEGORY ENTITY 수 Triple 수 음악방송 / 영화교통오디오 앨범 1,274,126 14,182,888 노래 11,232,220 96,288,283 가수 1,019,178 6,367,323 VOD 241,413 12,020,348 인물 23,001 666,472 방송 32,306 1,177,776 코너 53,344 1,587,367 채널 232 928 편성표 713,917 9,844,981 영화 / 상영관 5,174 15,648 POI 5,023,558 52,623,268 도로명 6,245,744 37,448,542 행정명 46,015 230,075 오디오북 9,745 139,909 팟캐스트 10,969 96,124 위키피디아 375,252 4,893,250 기네스북 187 747 고사성어 364 2184 공공사전 42,299 302,1998 지식백과 민족문화사전 69,206 526,127 큐레이션 7,343 45,137 우리말사전 921,156 11,492,687 시사용어 63,420 172,450 속담 / 학습 3,084 19,788 스포츠 평창올림픽 250 1,740 KOSDAQ 1,236 1,388 증권 KOSPI 1,333 2,060 음식 음식명 26,646 133,230 상점명 1,000 10,177 25 25

NUGU Service Flow ASR NLU 1 Wake-up 2 AM LM Dict. error correction Partofspeech grammar 아리아, OOO Preprocessing 3 ASR 4 Understanding + Semantic analysis 7 Wi-Fi 6 Text To Speech TTS 5 Service Logic IoT Devices Knowledge -Base Set Top Box wire Intelligence 검색 / 요약 26

NUGU Platform ( 상용적용예제 ) 27 27

NUGU 사용자지표 Daily Active User (DAU) 50 만, 300 만 2018-01-01 2018-01-03 2018-01-05 2018-01-07 2018-01-09 2018-01-11 2018-01-13 2018-01-15 2018-01-17 2018-01-19 2018-01-21 2018-01-23 2018-01-25 2018-01-27 2018-01-29 2018-01-31 2018-02-02 2018-02-04 2018-02-06 2018-02-08 2018-02-10 2018-02-12 2018-02-14 2018-02-16 2018-02-18 2018-02-20 2018-02-22 2018-02-24 2018-02-26 2018-02-28 2018-03-02 2018-03-04 2018-03-06 2018-03-08 2018-03-10 2018-03-12 2018-03-14 2018-03-16 2018-03-18 2018-03-20 2018-03-22 2018-03-24 2018-03-26 2018-03-28 2018-03-30 2018-04-01 T map x NUGU 기타 POC 28

Open Platform NUGU Play 개발 툴 (Dashboard) 제공범위 Clova Extension Alexa Skill NUGU - Play NLU Slot Filling DM Response/NLG Backend Proxy CLOVA Clova Developer Console interaction model 3rd Party 가개발해서직접서버배포 / 운영 ALEXA Skill Builder interaction model 직접배포 / 운영 or Amazon Lambda NUGU Play Builder 직접배포 / 운영 29

Contents 1. SK Telecom NUGU 2. Core Technology 3. SK Telecom Speech Recognition 30

SKT 음성인식기술 1. 2014 년부터상용화시작 2. NUGU, Btv, T-map, 고객 VoC 분석등에적용 Voice Search (Set-Top box) VOC analysis SK Broadband ( 14.09) SKT ( 14.11), Shinsegae ( 16.03) T map (Navigation) SKT ( 16.12) NUGU (speaker) SKT ( 16.09) ASR based contents search Contents title, channel, people name search ASR for call center Keyword trend, issue keyword, related word extraction POI Voice Search Command and Control Natural Language Processing & Dialog Management Far-Field ASR, Echo cancelation Wake-up, TTS Music, Weather, Smart Home (add services continuously ) GMM DNN 31

Cloud based speech recognition system Client : end point detection, speech capture and compression : send streaming data into the cloud server Server : run large vocabulary speech recognition system and return results Voice signal Control server ASR Server 1 EPD & speech compression Recognition results ASR Server 2 ASR Server N 32

음성인식기술구성 음성인식기술은크게모델을학습하는단계, 학습된모델을이용하여인식하는단계로구분되고, 이중음향, 언어모델을학습할수있는기술이핵심 통합모델 (wfst) 기술 - 문장단위학습에최적화되어속도와인식률향상 음성신호 잡음처리 디코더 후처리 단어열 - 향후대용량연속어휘, 즉자연어음성인식을위한핵심기술 인식부 통합모델 (wfst) 모델링기술및데이터 FST 컴파일부 학습부 G2P Text DB 발음사전 Tokenizer wfst Compiler 언어모델 (LM) 언어모델학습기 음향모델 (AM) 음향모델학습기 Speech DB - 음향모델 : 입력신호와음소의유사도 입력신호확률값ㅋㄱㅎ Feature 의통계모델 - 언어모델 : 단어간확률관계그래프 서울 우체국 타자 선릉 역 3번 출구 판교 사거리 7번 - 발음사전 : 단어의발성정보저장예 ) 선릉 : 설릉 ( ㅅㅓㄹㄹㅡㅇ ), 선능 ( ㅅㅓㄴㄴㅡㅇ ) 33

음성인식기술구성 - 자체기술개발 속도, 성능을향상시킨 wfst, 컴퓨팅파워의향상에기반한 DNN 기술적용 전처리 Feature Neural Net HLDA, STC, Equalization / Wiener, Kalman Filter / Model Space Bottleneck Feature 학습 Discriminative Training Big LM Deep Neural Network MPE, fmpe MCE, MMI Distributed Modeling, Long Span LM DNN based Acoustic Modeling Training 인식 Dynamic Network Static Network FSN Lexical Tree wfst (weighted Finite State Transducer) 34

음성인식기술구성 - Neural Network 기반언어모델링 (NN-LM) Neural Net 기반언어모델에서는아직까지음향모델만큼큰성능향상을이루지는못함 Probabilistic Language Model NN 기반언어모델과 N-gram 비교 단어열 n w 1 w1... w n P( 학교에 학생이있다 ) N-gram P ( w n 1 ) n k 1 P ( w k w k 1 k N 1 ) 학생이 있다 N-gram model 활용분야 Machine Translation Spell Correction Speech Recognition Summarization, question, answering, etc. 예제 학생이있다학생이있다 NN-LM model RNN-LM model P( 학생이학교에간다 ) = 1/2 * 1/3 P( 학생이있다학교에 ) = 1/2 * 0??? Unseen!!! longer history!!! 1. N-gram vs NNLM Better to unknown n-grams Heavy computation 2. NNLM vs RNNLM Utilize short term memory Clustering of similar histories Still N-gram approach is best!! NNLM supports n-gram model 35

음성인식기술구성 Personalized Language Model (PLM) 개인어휘모델 (FST) 개인화된어휘가사용될위치를사전에 class 형태로모델링 Class 음성인식모델 (wfst) NAME 에게전화, NAME 한테문자, NAME 이한테전화 NAME Class 를개인별주소록을이용해확장 (NAME = 엄마, 김강율, 한동근등 ) 개인화데이터 개인모델관리서버 (NPC) 모델생성요청 개인모델생성서버 (PLM) 개인화모델저장 음성인식서버 개인모델 Cache 36 36

음성인식기술구성 - Sequence to Sequence Learning, CTC RNN-LSTM을음절기반의띄어쓰기모델에확장적용함으로써성능향상. 발음열생성기술에 CTC(Connectionist Temporal Classification) 적용등다양한영역에서 DNN 적용을시도중 LSTM 언어모델링 문장을구성하는단어 sequence 에대해 다음단어의 sequence 를 target 으로학습 LSTM 띄어쓰기모델 한글 corpus 의음절 sequence 에대해 각음절별띄어쓰기및문장부호를 target 으로학습 37

음성인식기술 - 원거리음성인식 전용 Device 를이용한음성인식은기존방식과는음향환경및요구조건의차이가매우커많은것을고려하여개발필요 기존방식과차이점 해결방식 1 원거리음성인식 2~3m 의먼거리에서도음성인식이가능해야함 2 개 Mic 를이용한전처리 2 에코제거 인간의귀와같이 2 개의마이크를이용하여 Gain 보상, 에코제거기능을구현하여적용 3 음악이나오는상황에서도음성인식기능이동작 음성 Trigger 음성을이용한서비스시작이가능 DNN 을이용한음향모델적응 전처리를통해왜곡된신호를보상하기위한 Simulation 기반음향모델학습수행 반향 에코 음성 잡음 38

음성인식기술 다채널음성전처리개발 AEC 낮은 SER 환경에서음성인식성능확보 Sub-block 필터구조적용하여음향전달함수의 long-tail 제어력강화 SSL 발화자방향정보예측 잡음과잔여에코예측기반가중치를적용하여 wake-up 발화대응력강화 Beam-former MVDR (Minimum Variance Distortionless Response) 빔포밍적용으로왜곡없는음성취득 방향별필터상수차별적용으로분해능강화 39 39

음성인식속도개선 SIMD (single instruction multiple data) 하나의 Instruction 에서 vector 의연산수행이가능한알고리즘에대해서병렬 core 를이용한효율적인계산알고리즘을제공 40

음성인식속도개선 SIMD 를이용한 online Decoder 개발 연산최적화에따른속도개선 7 6 5 6 최적화이전 4 3 2 1 1.2 0.7 BLAS 최적화 Fixed point 최적화 (SSE2 활용 ) 0 41

음성인식기술발전방향 H/W 와 S/W 의모두를잘활용 학습순서 개념도 1) Data 분배 W new = W + Wx 2) 중간결과산출 (GPU-> CPU) W 1 W i W N 3) 새로운 parameter(w) 계산 4) W 재분배 (CPU -> GPU) 5) 수렴할때까지 Step1 부터반복 GPU Card 1 GPU Card N Data 1 Data N 단순히나누기만하면되나? 아니다! 잘나눠야한다 고려사항 학습속도 : 연산시간, 네트워크통신 (mini-batch 크기 ) Hardware 구성까지고려해야함! 수렴여부 : learning rate 설정, Asynchronous SGD(HOGWILD) Model Size: Data 분할 vs. Model 분할 vs. Matrix 분할 42

분산처리기반 DNN 학습 (Data vs. Model Parallelism) Data Parallelism Model Parallelism 같은모델을이용하며다른데이터를이용해학습 주기적동기화 모델을나눠다른서버로전송 동일한데이터를이용해나눠진모델을학습 Model Model Model Model Machine Training Data Training Data - 장점 : 1. 작은 size 의 DNN 모델에대해서빠른성능 2. 프로그램제작이간단함 - 단점 : 큰 size 의 DNN 모델에대해학습불가능 - 장점 : 큰 size 의 DNN 모델의학습이가능 - 단점 : 1. 모델특성에따라 parallel 부분이바뀌기때문에코드제작이어려움 2. 모델업데이트시 machine 간 (GPU 간 ) 통신 load 를고려해서설계해야함 3. 모델의업데이트의주기를고려한설계가필요 43

SKT 음성인식기술발전방향 음성 UI 가필요한신규 Device 의확산, 인식대상범위가확대되면서다양한상황의새로운도전을 하게될것으로전망 신규 Device 확산 : 원거리음성인식 ( 다채널음성전처리 ), 끝점검출기, 발전된음향모델 인식대상범위확대 : 3 rd party Toolkit, 대형언어모델, 인식기효율화, Partial & Incremental Decoding 신규 Device 통합 / 결합 통합결합의핵심은 ( 전처리, 음향모델 ) 마이크관련요소 다중마이크처리기술 잡음처리기술 원거리음향모델링 통합化, 인식영역파괴 원거리음성인식 Dictation 로봇용음성인식 대화형 (Spontaneous) 음성인식 요소기술 모바일특정영역중심 T-map Settop Box 리모콘 NUGU 스피커 대상서비스확산의핵심은 대용량 LM 및 Decoder 서비스관련데이터처리 발음열생성기 특정영역중심 통합서비스 인식대상범위증가 3 rd Party Toolkit 44

감사합니다 45