인공지능서비스누구 (NUGU) 기술소개 2018. 6. 22 SK Telecom 정규준
Contents 1. SK Telecom NUGU 2. Core Technology 3. SK Telecom Speech Recognition 1
AI Assistant : Speakers https://www.youtube.com/embed/yrjsgg_2meg 2
음성인식인공지능스피커 ( 국외 ) Echo Home 3
음성인식인공지능스피커 ( 국내 ) Wave FRIENDS FRIENDS 4
음성인식인공지능스피커 NUGU (1/2) 세계최초한국어음성인식지원음성인식스피커 음악감상, 팟캐스트날씨, 뉴스, 경기결과, 운세제어, IoT 알람, 스케줄음식주문, 쇼핑 스마트폰음성비서 Artificial Intelligence (AI) speaker 5
음성인식인공지능스피커 NUGU (2/2) 15. 3 月 Smart Box I Prototype 15. 8 月 Smart Box II Prototype 16. 9 月 NUGU 스피커상용화 6
AI Assistant : 내비게이션 7
AI Assistant : 내비게이션 https://youtu.be/txw7468d8u0?list=plhp6uuayrptqvdkta98k0zy0zuyevekzn 8
NUGU Platform Tmap x NUGU Btv x NUGU x JOON x NUGU 9
NUGU Platform 2018 API Open Social bot Pet bot Commerce bot Toy bot 10
글로벌기업의 AI 1. 현재 Business 에접목하면서미래를위한포석을만들고있음 번역 물류 헬스케어 게임 비서 운전 배달 Finance 11
SKT 의 AI (1/2) Life Companion : Connect everything if you want [ Human Life ] [ contents/service/info. ] Connect Intelligent Agent Smart Advisor Integrated Service Platform Commerce Contents Communication [ SKT AI R&D target report, Sep. 2015.] 12
SKT 의 AI (2/2) 다양한공간에서다양한 Device 를통해 Ambient Intelligence 를제공하여새로운가치를창출함 언제어디서나필요한지능에연결 Home Office/ Factory Car Mobile 13
Contents 1. SK Telecom NUGU 2. Core Technology Natural User Interface (NUI) Intelligence 3. SK Telecom Speech Recognition 14
Core Technology Natural User Interface Intelligence 15 15
Core Technology - NUI 음성 음성인식 텍스트 wake-up ASR 전처리 텍스트 음성합성 음성 Unit Selection, Parametric 텍스트 자연어이해 의미표현 Domain, Intent, Entity 16 16
Wake-up (Keyword Spotting) Basic structure Keyword Model start end Filler Model Advantage Use low power resource Available for wake-up word (Echo: Alexa, NUGU: Aria, Tinkerbell) Disadvantage Performance degradation compared to server-side ASR recognition pre-registered keywords only 17
Automatic Speech Recognition (ASR) Speech Signal ASR Recognized text 서울날씨알려줘 Challenges Background noise Low power speech Far-field Cross-talk Incorrect pronunciation Similar pronunciation New word, non-standard word Large vocabulary Natural conversation 18
Natural Language Understanding (NLU) Recognized Text NLU Domain Intent Entity 서울날씨알려줘 Challenges Ambiguity of expression Proper noun pronoun Domain increasing New word, non-standard word Natural conversation ASR error Domain: Weather Intent: ask.weather Entity: date.tomorrow, location.seoul 19
Service / NLG Service Provider Domain Intent Entity Service Logic Natural Language Generation Output text Domain: Weather Intent: ask.weather Entity: date:tomorrow, location:seoul 내일서울은쌀쌀하고구름이다소낄예정입니다. 최저기온은영하 1 도, 최고기온은 Challenges Looks like human Domain increasing Handling Input outside coverage 20
Text To Speech (TTS) Output text TTS Output speech 내일서울은쌀쌀하고구름이다소낄예정입니다. 최저기온은영하 1 도, 최고기온은 Challenges Naturalness Tone, pause, speed New word, non-standard word Exception pronunciation processing 21
Core Technology - Intelligence 검색기술 목표 : 모든 CP 데이터검색내재화 요약기술 뉴스요약 ( 완료 ) 지식검색, 감성대화검색, T map 주소록검색 ( 진행중 / 예정 ) 뉴스검색, 음악검색, B tv 검색, T114 검색, 팟캐스트검색 통합지식베이스 이종의 DB 통합 Entity Linking ( 소녀시대서현 " 서주현 vs 분당구서현 ) 추천기술 개인화된음악추천제공 (2017년 12월출시 ) 추천곡중, 3곡이상 (33%), 5곡이상 (24%), 7곡이상 (17%) 채택기준 : 전체재생시간의 60% 이상청취 22 22
NUGU 검색시스템구조 수집, 제휴를통한데이터생성과유실없고빠른서비스투입을위한검색시스템구축 검색로그분석을위한빅데이터처리시스템구축 23 23
NUGU 개인화 / 추천 사용자그래프 선호도추론 제공정보 노래선호도 지식베이스 그래프모델러 그래프탐색 의도예측 행위패턴인식 가수선호도의도요청비율개체-의도연관도 NUGU 로그 상황분석 개체간결합선호도 분석기 실시간예측 자주하는요청패턴 결정모델 예측기 Context 저장소 시나리오 사용자선호도를반영하여음악추천 예 ) 노래추천해줘 좋아할만한음악추천 명시적의도없이개체명만발화하는경우, 의도를예측 개인화추천 의도예측 예 ) 뽀로로 뽀로로동영상이아닌뽀로로주제곡재생 24 24
NUGU Knowledge Base 현황 총 2 천 7 백만 Entity, 2 억 5 천만 Triple 의 KB 를구축중 (2018. 03. 31 기준 ) DOMAIN CATEGORY ENTITY 수 Triple 수 DOMAIN CATEGORY ENTITY 수 Triple 수 음악방송 / 영화교통오디오 앨범 1,274,126 14,182,888 노래 11,232,220 96,288,283 가수 1,019,178 6,367,323 VOD 241,413 12,020,348 인물 23,001 666,472 방송 32,306 1,177,776 코너 53,344 1,587,367 채널 232 928 편성표 713,917 9,844,981 영화 / 상영관 5,174 15,648 POI 5,023,558 52,623,268 도로명 6,245,744 37,448,542 행정명 46,015 230,075 오디오북 9,745 139,909 팟캐스트 10,969 96,124 위키피디아 375,252 4,893,250 기네스북 187 747 고사성어 364 2184 공공사전 42,299 302,1998 지식백과 민족문화사전 69,206 526,127 큐레이션 7,343 45,137 우리말사전 921,156 11,492,687 시사용어 63,420 172,450 속담 / 학습 3,084 19,788 스포츠 평창올림픽 250 1,740 KOSDAQ 1,236 1,388 증권 KOSPI 1,333 2,060 음식 음식명 26,646 133,230 상점명 1,000 10,177 25 25
NUGU Service Flow ASR NLU 1 Wake-up 2 AM LM Dict. error correction Partofspeech grammar 아리아, OOO Preprocessing 3 ASR 4 Understanding + Semantic analysis 7 Wi-Fi 6 Text To Speech TTS 5 Service Logic IoT Devices Knowledge -Base Set Top Box wire Intelligence 검색 / 요약 26
NUGU Platform ( 상용적용예제 ) 27 27
NUGU 사용자지표 Daily Active User (DAU) 50 만, 300 만 2018-01-01 2018-01-03 2018-01-05 2018-01-07 2018-01-09 2018-01-11 2018-01-13 2018-01-15 2018-01-17 2018-01-19 2018-01-21 2018-01-23 2018-01-25 2018-01-27 2018-01-29 2018-01-31 2018-02-02 2018-02-04 2018-02-06 2018-02-08 2018-02-10 2018-02-12 2018-02-14 2018-02-16 2018-02-18 2018-02-20 2018-02-22 2018-02-24 2018-02-26 2018-02-28 2018-03-02 2018-03-04 2018-03-06 2018-03-08 2018-03-10 2018-03-12 2018-03-14 2018-03-16 2018-03-18 2018-03-20 2018-03-22 2018-03-24 2018-03-26 2018-03-28 2018-03-30 2018-04-01 T map x NUGU 기타 POC 28
Open Platform NUGU Play 개발 툴 (Dashboard) 제공범위 Clova Extension Alexa Skill NUGU - Play NLU Slot Filling DM Response/NLG Backend Proxy CLOVA Clova Developer Console interaction model 3rd Party 가개발해서직접서버배포 / 운영 ALEXA Skill Builder interaction model 직접배포 / 운영 or Amazon Lambda NUGU Play Builder 직접배포 / 운영 29
Contents 1. SK Telecom NUGU 2. Core Technology 3. SK Telecom Speech Recognition 30
SKT 음성인식기술 1. 2014 년부터상용화시작 2. NUGU, Btv, T-map, 고객 VoC 분석등에적용 Voice Search (Set-Top box) VOC analysis SK Broadband ( 14.09) SKT ( 14.11), Shinsegae ( 16.03) T map (Navigation) SKT ( 16.12) NUGU (speaker) SKT ( 16.09) ASR based contents search Contents title, channel, people name search ASR for call center Keyword trend, issue keyword, related word extraction POI Voice Search Command and Control Natural Language Processing & Dialog Management Far-Field ASR, Echo cancelation Wake-up, TTS Music, Weather, Smart Home (add services continuously ) GMM DNN 31
Cloud based speech recognition system Client : end point detection, speech capture and compression : send streaming data into the cloud server Server : run large vocabulary speech recognition system and return results Voice signal Control server ASR Server 1 EPD & speech compression Recognition results ASR Server 2 ASR Server N 32
음성인식기술구성 음성인식기술은크게모델을학습하는단계, 학습된모델을이용하여인식하는단계로구분되고, 이중음향, 언어모델을학습할수있는기술이핵심 통합모델 (wfst) 기술 - 문장단위학습에최적화되어속도와인식률향상 음성신호 잡음처리 디코더 후처리 단어열 - 향후대용량연속어휘, 즉자연어음성인식을위한핵심기술 인식부 통합모델 (wfst) 모델링기술및데이터 FST 컴파일부 학습부 G2P Text DB 발음사전 Tokenizer wfst Compiler 언어모델 (LM) 언어모델학습기 음향모델 (AM) 음향모델학습기 Speech DB - 음향모델 : 입력신호와음소의유사도 입력신호확률값ㅋㄱㅎ Feature 의통계모델 - 언어모델 : 단어간확률관계그래프 서울 우체국 타자 선릉 역 3번 출구 판교 사거리 7번 - 발음사전 : 단어의발성정보저장예 ) 선릉 : 설릉 ( ㅅㅓㄹㄹㅡㅇ ), 선능 ( ㅅㅓㄴㄴㅡㅇ ) 33
음성인식기술구성 - 자체기술개발 속도, 성능을향상시킨 wfst, 컴퓨팅파워의향상에기반한 DNN 기술적용 전처리 Feature Neural Net HLDA, STC, Equalization / Wiener, Kalman Filter / Model Space Bottleneck Feature 학습 Discriminative Training Big LM Deep Neural Network MPE, fmpe MCE, MMI Distributed Modeling, Long Span LM DNN based Acoustic Modeling Training 인식 Dynamic Network Static Network FSN Lexical Tree wfst (weighted Finite State Transducer) 34
음성인식기술구성 - Neural Network 기반언어모델링 (NN-LM) Neural Net 기반언어모델에서는아직까지음향모델만큼큰성능향상을이루지는못함 Probabilistic Language Model NN 기반언어모델과 N-gram 비교 단어열 n w 1 w1... w n P( 학교에 학생이있다 ) N-gram P ( w n 1 ) n k 1 P ( w k w k 1 k N 1 ) 학생이 있다 N-gram model 활용분야 Machine Translation Spell Correction Speech Recognition Summarization, question, answering, etc. 예제 학생이있다학생이있다 NN-LM model RNN-LM model P( 학생이학교에간다 ) = 1/2 * 1/3 P( 학생이있다학교에 ) = 1/2 * 0??? Unseen!!! longer history!!! 1. N-gram vs NNLM Better to unknown n-grams Heavy computation 2. NNLM vs RNNLM Utilize short term memory Clustering of similar histories Still N-gram approach is best!! NNLM supports n-gram model 35
음성인식기술구성 Personalized Language Model (PLM) 개인어휘모델 (FST) 개인화된어휘가사용될위치를사전에 class 형태로모델링 Class 음성인식모델 (wfst) NAME 에게전화, NAME 한테문자, NAME 이한테전화 NAME Class 를개인별주소록을이용해확장 (NAME = 엄마, 김강율, 한동근등 ) 개인화데이터 개인모델관리서버 (NPC) 모델생성요청 개인모델생성서버 (PLM) 개인화모델저장 음성인식서버 개인모델 Cache 36 36
음성인식기술구성 - Sequence to Sequence Learning, CTC RNN-LSTM을음절기반의띄어쓰기모델에확장적용함으로써성능향상. 발음열생성기술에 CTC(Connectionist Temporal Classification) 적용등다양한영역에서 DNN 적용을시도중 LSTM 언어모델링 문장을구성하는단어 sequence 에대해 다음단어의 sequence 를 target 으로학습 LSTM 띄어쓰기모델 한글 corpus 의음절 sequence 에대해 각음절별띄어쓰기및문장부호를 target 으로학습 37
음성인식기술 - 원거리음성인식 전용 Device 를이용한음성인식은기존방식과는음향환경및요구조건의차이가매우커많은것을고려하여개발필요 기존방식과차이점 해결방식 1 원거리음성인식 2~3m 의먼거리에서도음성인식이가능해야함 2 개 Mic 를이용한전처리 2 에코제거 인간의귀와같이 2 개의마이크를이용하여 Gain 보상, 에코제거기능을구현하여적용 3 음악이나오는상황에서도음성인식기능이동작 음성 Trigger 음성을이용한서비스시작이가능 DNN 을이용한음향모델적응 전처리를통해왜곡된신호를보상하기위한 Simulation 기반음향모델학습수행 반향 에코 음성 잡음 38
음성인식기술 다채널음성전처리개발 AEC 낮은 SER 환경에서음성인식성능확보 Sub-block 필터구조적용하여음향전달함수의 long-tail 제어력강화 SSL 발화자방향정보예측 잡음과잔여에코예측기반가중치를적용하여 wake-up 발화대응력강화 Beam-former MVDR (Minimum Variance Distortionless Response) 빔포밍적용으로왜곡없는음성취득 방향별필터상수차별적용으로분해능강화 39 39
음성인식속도개선 SIMD (single instruction multiple data) 하나의 Instruction 에서 vector 의연산수행이가능한알고리즘에대해서병렬 core 를이용한효율적인계산알고리즘을제공 40
음성인식속도개선 SIMD 를이용한 online Decoder 개발 연산최적화에따른속도개선 7 6 5 6 최적화이전 4 3 2 1 1.2 0.7 BLAS 최적화 Fixed point 최적화 (SSE2 활용 ) 0 41
음성인식기술발전방향 H/W 와 S/W 의모두를잘활용 학습순서 개념도 1) Data 분배 W new = W + Wx 2) 중간결과산출 (GPU-> CPU) W 1 W i W N 3) 새로운 parameter(w) 계산 4) W 재분배 (CPU -> GPU) 5) 수렴할때까지 Step1 부터반복 GPU Card 1 GPU Card N Data 1 Data N 단순히나누기만하면되나? 아니다! 잘나눠야한다 고려사항 학습속도 : 연산시간, 네트워크통신 (mini-batch 크기 ) Hardware 구성까지고려해야함! 수렴여부 : learning rate 설정, Asynchronous SGD(HOGWILD) Model Size: Data 분할 vs. Model 분할 vs. Matrix 분할 42
분산처리기반 DNN 학습 (Data vs. Model Parallelism) Data Parallelism Model Parallelism 같은모델을이용하며다른데이터를이용해학습 주기적동기화 모델을나눠다른서버로전송 동일한데이터를이용해나눠진모델을학습 Model Model Model Model Machine Training Data Training Data - 장점 : 1. 작은 size 의 DNN 모델에대해서빠른성능 2. 프로그램제작이간단함 - 단점 : 큰 size 의 DNN 모델에대해학습불가능 - 장점 : 큰 size 의 DNN 모델의학습이가능 - 단점 : 1. 모델특성에따라 parallel 부분이바뀌기때문에코드제작이어려움 2. 모델업데이트시 machine 간 (GPU 간 ) 통신 load 를고려해서설계해야함 3. 모델의업데이트의주기를고려한설계가필요 43
SKT 음성인식기술발전방향 음성 UI 가필요한신규 Device 의확산, 인식대상범위가확대되면서다양한상황의새로운도전을 하게될것으로전망 신규 Device 확산 : 원거리음성인식 ( 다채널음성전처리 ), 끝점검출기, 발전된음향모델 인식대상범위확대 : 3 rd party Toolkit, 대형언어모델, 인식기효율화, Partial & Incremental Decoding 신규 Device 통합 / 결합 통합결합의핵심은 ( 전처리, 음향모델 ) 마이크관련요소 다중마이크처리기술 잡음처리기술 원거리음향모델링 통합化, 인식영역파괴 원거리음성인식 Dictation 로봇용음성인식 대화형 (Spontaneous) 음성인식 요소기술 모바일특정영역중심 T-map Settop Box 리모콘 NUGU 스피커 대상서비스확산의핵심은 대용량 LM 및 Decoder 서비스관련데이터처리 발음열생성기 특정영역중심 통합서비스 인식대상범위증가 3 rd Party Toolkit 44
감사합니다 45