음성인식 AI 비서시장의현황과시사점제 29 권 9호통권 646호 음성인식 AI 비서시장의현황과시사점 최지혜 * 이선희 ** 1) 스마트폰에시작된음성인식기술경쟁은사물인터넷 (IoT) 의본격확산과맞물려이제집안에서본격적으로불붙을전망이다. 특히주목할만한점은그기기가음성을매개로명령을내리고대화를나눌수도있는인공지능 (AI) 스피커라는점이다. 2014 년 Amazon 이최초의음성인식 AI 스피커 Echo 를출시한이후 Google, Apple, Microsoft 등글로벌 IT 공룡들이제각기자사소프트웨어를탑재한스피커를출시를결정했으며, 국내시장도경쟁이가속화되고있다. 본고에서는음성기반 AI 서비스와스마트기기의기술적특징및시장전망을살펴보고, 그중에서도 AI 스피커를출시하며관련시장을선점한 Amazon 과 Google 을비롯하여국내외주요기업의현황과제품전략을정리하였다. 또한음성기반서비스의본격확산에앞서예상되는주요이슈를검토하고이에대한시사점을도출하고자한다. 목차 Ⅰ. 서론 / 2 Ⅱ. 음성인식기반 AI 기술개요 / 4 1. 음성인식기술의발전과정 / 4 2. 음성기반사용자인터페이스의특징 / 7 3. 음성인식 AI 스피커의차별화요소 / 10 Ⅲ. 주요기업의음성인식 AI 스피커전략 / 11 1. 해외 : Amazon, Google, Apple, Microsoft, 기타 / 12 2. 국내 : 삼성, SKT, KT, 네이버, 카카오 / 25 Ⅳ. 결론및시사점 / 31 * 정보통신정책연구원 ICT 통계정보연구실연구원, (043)531-4407, jihchoi@kisdi.re.kr ** 정보통신정책연구원 ICT 통계정보연구실연구원, (043)531-4088, imediagod@kisdi.re.kr 1
Ⅰ. 서론 1968년개봉한스탠리큐브릭감독의 2001: 스페이스오딧세이 에등장하는인공지능수퍼컴퓨터의기종명은 발견법적으로프로그램된연산컴퓨터 (Heuristically Programmed ALgorithmic computer), 줄여서 HAL( 또는 HAL9000) 이다. 임무수행을위해목성으로향하는유인탐사선디스커버리호에탑승한승무원은자연어로 HAL과대화를나누거나명령을내릴수있다. 70년대후반미국의 SF 시리즈 스타트렉 에등장하는우주함선 U.S.S. 엔터프라이즈호의수퍼컴퓨터도키보드나마우스같은입력장치를필요로하지않는다. 커크선장과엔터프라이즈호선원들이 Computer 라고음성으로호출한후질문이나명령을하면컴퓨터는이에대응한다. 음성 을이용하는것은인간과컴퓨터의상호작용에가장이상적인인터페이스로여겨져왔다. 음성이야말로인간이가진가장본질적인커뮤니케이션도구이기때문이다. 음성인식 (Speech recognition) 관련연구의시작점은 1954년 IBM과조지타운대학이공동으로참여한기계번역 (Machine-translation) 기술개발프로젝트로거슬러올라갈수있다 (The Economist, 2017. 5. 1). 그러나방대한음성데이터처리를위한컴퓨터의연산능력부족과낮은인식률로말미암아음성인식기술은 2000년중반까지도일반인에널리사용되지못하였다. 이기술이본격적으로상용화되기시작한시점은 Siri 를탑재한 2011년 10월아이폰 4S 출시이후로보아야할것이다. Google 도 2013년출시한안드로이드4.4 KitKat OS 부터 Google Now 애플리케이션을통해음성검색기능인 OK Google 서비스지원을시작했으며, 이서비스는최근인공지능기반비서애플리케이션인 Google Assistant 로업그레이드되었다. 한국어지원은아직이루어지지않고있으나구글은최근 2017년말까지한국어를포함한 4개언어의추가지원계획을발표하였다. 정체되어있던 Google의음성검색 (Voice search) 이용빈도는 OK Google 기능이도입된 2013년이후빠른속도로늘어나고있다 ([ 그림 1] 참조 ). 2
음성인식 AI 비서시장의현황과시사점 [ 그림 1] 2008~2016 음성검색 Google Trend( 전세계 ) 자료 : Kleiner Perkins Caufield & Byers(2016. 5), Google Trend 재인용 스마트폰에시작된음성인식기술경쟁은사물인터넷 ( 이하 IoT ) 의본격확산과맞물려이제우리집안에서본격적으로불붙을전망이다. 지난 1월미국라스베이거스에서열린 CES 2017 1) 에서발표된 Tech Trends to Watch 에서도올해의핵심기술중하나로음성인식 제어 (The New Voice of Computing) 를꼽았으며, 세계적 IT 뉴스제공업체인 ZDNet 역시 음성은차세대컴퓨터인터페이스 라는분석기사를내놓았다 (ZDNet, 2017. 1. 4). 또한이번전시회의가장큰화젯거리는미국의전자상거래업체인 Amazon 이개발한음성기반인공지능 ( 이하 AI ) 소프트웨어 Alexa 와자체스피커단말기인 Echo 였다. 이를두고 IT전문온라인매체인 TechCrunch 는 Amazon 과 Nvidia는어떻게올해 CES에서승리했는가 2) 라는제목의기사를싣기도했다. 본고에서는음성기반스마트기기의기술적특징및시장전망을살펴보고, AI 스피 1) CES(The International Consumer Electronics Show) 는미국 600여개의소비재전자산업종사자사업연합체인 CEA(Consumer Technology Association) 이주관하는세계최대의가전 IT제품전시회로독일에서열리는 IFA(Internationale Funkausstellung), 스페인 MWC(Mobile World Congress) 와함께전세계가전업계의트렌드를한눈에파악할수있는세계 3대 IT 전시회로꼽힌다. 2) 원제목은 How Amazon and Nvidia won CES this year,(techcrunch, 2017. 1. 8) 이다. 3
커를출시하며관련시장을선점한 Amazon 과 Google 을비롯하여국내외주요기업의 현황과제품전략을정리할것이다. 또한음성기반기기와서비스의본격확산에앞서 예상되는주요이슈를검토하고시사점을도출할것이다. Ⅱ. 음성인식기반 AI 기술개요 1. 음성인식기술의발전과정 언어와음성에대한연구는앞서언급한바와같이 1950년대로거슬러올라갈수있다. 초기에는개별숫자, 음절, 모음을인식하는시스템을만들기위한노력이이루어졌으며, 1963년 IBM이총 16개의단어를인식할수있는 Shoebox 라는기기를소개하였다. 그러나초기음성인식기술연구를주도해온 AT&T Bell Lab의 John Pierce가 자동음성인식시스템은인공지능을필요로하기때문에향후수십년간실체가없을것 이라비판한이후음성인식기술연구개발에대한정부지원이급격히약화되기도하였다 ([ 그림 2] 참조 ). 그럼에도불구하고음성인식기술은 1971년부터시작된미국국방부산하국방첨단연구사업국 (DARPA) 의음성이해연구프로그램 (Speech Understanding Research) 을통해비약적으로발전하는계기를얻었다 ( 한국콘텐츠진흥원, 2011. 11). 고립단어 (Isolated word) 를인식하는데한정되었던음성인식기술은 1980년대에들어서야연결단어 (Connected word) 를처리할수있게되었으며인식할수있는단어도 10,000개수준으로크게늘어났다 (Furui, 2005). 또한미국의카네기멜론대학 (CMU) 이불특정화자의목소리를인식할수있는음성인식소프트웨어 SPHINX 를소개하고, 은닉마르코프모델 (Hidden Markov Model) 3) 로대표되는통계적프레임워크가이용되기시작했으나컴퓨터의처리속도및저장공간문제로 3) 은닉마르코프모델 : 발화된음성이어떤문자열로부터도출되었는지판단하기위해관찰된음성신호를가장잘설명하는최적해 ( 문자열 ) 을찾는 2 차통계모델로음성인식분야에서는은닉상태의문자열을찾기위해음성신호변동이확률변수로취급된다. 4
음성인식 AI 비서시장의현황과시사점 음성인식기술의상용화는요원했다. [ 그림 2] 언어기술 (Language Technologies) 의발전과정 자료 : The Economist(2016. 5. 1), 저자정리 30년전 John Pierce의분석대로음성인식기술기술은딥러닝, 머신러닝과같은 AI 기술이활용되면서부터야음성인식오류율이낮아지고 ([ 그림 3] 참조 ), 본격적인상용화가이루어지고있다. 미국의벤처캐피털 Kleiner Perkins Caufield Byers(KPCB) 는 2016년발간한보고서에서음성데이터의의미이해정확도가 99% 수준에도달한다면대부분의사람들이음성인식서비스를이용할것이라전망하였다 (KPCB, 2016. 6). AI 기술을활용하기위해서는대용량의데이터를저장하고빠르게처리할수있는컴퓨팅자원을필요로하는데, 클라우드컴퓨팅기술에힘입어이것이가능해졌다. 종전의 OS기반플랫폼에서는정보의생산, 처리, 저장및이용이기기자체에한정되어이루어졌지만, 이제는이러한과정에클라우드에서이루어지면서 ICT 사용환경이크게변화하였다 ( 김대호외, 2014; 최은정, 2013). 특히실시간으로유사음성을검색하고대용량의음성데이터를빠른속도로분석할수있게되면서정확도가획기적으로높아졌다 ( 김대호외, 2014). 5
< 표 1> 음성인식기술의세대별구분 세대 내용 1 세대 (1952~1968) - 숫자, 음절, 모음, 음소인식시스템개발시도 2 세대 (1968~1980) - 동적시간워핑 (Dynamic Time Warping) 기술 4) - 고립단어 (Isolated word) 인식시스템 3 세대 (1980~1990) - 연결단어 (Connected word) 인식 - 통계학적프레임워크적용 - 은닉마르코프모델, n-gram 5), Neural net - DARPA 프로그램 : SPHINX(CMU), BYBLOS(BBN), DECIPHER(SRI), Lincoln Labs, MIT, Bell Lab 등 3.5 세대 (1990~2000) - 오류최소화 (discriminative) 를위한 MCE(Minimum Classification Error), MMI(Maximum Mutual Information) 등의접근방식시도 - 노이즈, 마이크로폰, 전송채널, 반향등에 Robust한음성인식 - DAPRA 프로그램 : ATIS task, Switchboard task 4 세대 (2000~ 현재 ) - DAPRA 프로그램 : EARS(Effective Affordable Reusable Speech-to-Text) 프로그램, 중요정보의추적 / 추출 / 요약 / 번역 - 즉홍적음성인식 ( 일본 CSJ프로젝트 ) - 복합 (Multimodal) 음성인식 : 영상-음성정보동시인식 자료 : Sadaoki Furui(2015), 저자정리 4) 동적시간워핑 (Dynamic Time Warping) 은발화된음성신호로부터추출된음성특징벡터열을대상으로두개의다른벡터열간유사성을측정하는방식이다 ( 출처 : 한국정보통신기술협회정보통신용어사전 ) 5) n-gram언어모델 : 1개단어나음절이서로다른단어혹은음절과함께발화될확률을계산하는모델로자연어처리에적합하며, Google도자체클러스터링기술과 n-gram을기반으로한언어모델을이용하고있다 ( 출처 : 한국정보통신기술협회정보통신용어사전 ) 6
음성인식 AI 비서시장의현황과시사점 [ 그림 3] NIST Switchboard 6) 테스트오류율 ( 단위 : %) 자료 : The Economist(2016. 5. 1), 저자정리 2. 음성기반사용자인터페이스의특징 Apple의음성인식비서서비스 Siri는막대한양의데이터베이스를활용하여질문에최적답변을선택하는구조를갖고있으며, Google의음성검색기능역시입력된음성데이터를클라우드서버에서텍스트로변환하여분석하고, 그결과에따른실시간검색결과를기기로재전송하는방식이다. 최은정 (2013) 에따르면 Google은약 23,000억개의영단어를성별, 연령별, 억양별로구분된음성데이터로구분하여클라우드에저장하고실시간으로처리할수있는컴퓨팅능력을보유하고있다. 더많은음성데이터가축적될수록 인간과동등한 (Human parity) 수준의정확한인식이가능해질것이다. 음성인식기술은단독으로보다는 IT 기기나서비스와결합됐을때그파급력이한층더클것으로예상된다. 음성기반인터페이스는분당약 150단어수준의입력이가능하기때문에분당평균 40단어가량입력이가능한터치나타이핑방식에비해그 6) NIST Switchboard 는음성인식기술벤치마크툴로사용되는전화통화모음으로현재사용되는 테스트의샘플레이트는 8KHz 수준으로 2000 년도통화품질수준에상응한다. 7
속도가 3배이상빠르다 (< 표 2> 참조 ). 또한필요한정보검색이나기능구동을위한랜덤액세스가가능하며, 단방향이아닌컨텍스트기반문제해결방식이기때문에텍스트입력이나터치보다훨씬인간의자연스러운커뮤니케이션형태에가깝다. 이러한기술적특성을고려하였을때음성인식기술은 IoT와인간을매개하는데가장적합한인터페이스로서의잠재력을갖고있다. 아직까지스마트홈이나홈오토메이션은컴퓨터나스마트폰과같이터치나텍스트입력을필요로하며, 출력역시 GUI( 컴퓨터그래픽사용자인터페이스 ) 형태의통합컨트롤시스템으로제공되고있다. 그러나음성인식인터페이스를활용할경우직접접촉하지않고도 IoT 기기나서비스를제어할수있을뿐만아니라, 조작방식을학습할필요가없기때문에편의성측면에서터치나텍스트기반보다우수하다. < 표 2> 음성과터치 / 텍스트기반사용자인터페이스비교 음성기반 터치 / 텍스트기반 입력속도 150단어 / 분 40단어 / 분 입력방식 Random Access Hierarchical GUI 정보입출력 Microphone, Speaker Keyboard, Display 문제해결방식 컨텍스트기반문제해결 단방향문제해결 Hands-free 기능으로멀티태스킹멀티태스킹 ( 운전등 ) 가능자료 : 언론자료취합 터치나텍스트입력시멀티태스킹불가 음성인식기술경쟁의포문은 Apple의 Siri와 Google Now 같은음성인식 AI 비서서비스가스마트폰에서이용가능해지며열렸지만, 이것이격화된시점은 2014년 Amazon 이인공지능스피커를표방하는 Echo를출시한이후로보아야할것이다. 2014년 11월출시당시에는단순한가정용홈오디오스피커정도로대중에인지되었으나, 음성인식소프트웨어인 Alexa의개발자키트를외부에오픈하면서부터 Echo를통해활용할수있는 Skill( 일종의애플리케이션 ) 이빠르게늘어나고, 이에상응하여 8
음성인식 AI 비서시장의현황과시사점 Echo 판매량이증가하는선순환구조가창출되었다. Apple와 Google 모두일찍이음성기반인터페이스가차세대스마트기기의중요한제어기술이될것이라예상은하였지만, 스마트폰의음성인식비서서비스의활용은예상보다부진했던것으로보인다. 2015년실시된스마트폰이용자조사에따르면, 18세이상미국인스마트폰이용자중 36.7% 는음성인식비서서비스를전혀이용해본적이없으며 (Statista, 2015. 10), 그다음해영국에서실시된조사에서는약 61% 의스마트폰이용자가관련서비스를이용해본적이없다고응답하였다 (Statista, 2016. 6). 그이용자들도대부분 일반적인정보검색 (11%), 오락 (10%), 내비게이션 (10%), 일기예보확인 (9%), 일정입력 (6%), 그리고 위치기반서비스 (5%) ([ 그림 4] 참조 ) 등의단순기능을중심으로사용하고있는것으로조사되었다 (Statista, 2016. 6). [ 그림 4] 음성인식비서서비스의주요사용목적 주 : 스마트폰사용자 3,251 명을대상으로조사한결과이며, 주로사용하는기능은 빈도가높은상위 6 개만위의표에포함됨 자료 : Statista, Deloitte(2016. 6) Statista 재인용 9
3. 음성인식 AI 스피커의차별화요소 Echo와 Google Home으로대표되는음성인식기반 AI 스피커에서주로이용되는비서서비스기능은스마트폰의그것과큰차이가없다 ([ 그림 4], [ 그림 5]). 그럼에도불구하고스피커형태의형태의기기가스마트폰이나음성인식기능을탑재한 TV나셋톱박스를제치고 IoT 시대의차세대핵심기기로주목받는이유는무엇일까. [ 그림 5] Amazon Echo 이용자가 1 회이상사용해본기능 주 : Amazon Echo 사용자 1,300 명대상으로설문실시 자료 : Experian(2016) 소리나음성을주고받는데가장일반적으로쓰이는입출력장치는마이크와스피커이다. 따라서음성인식기술구현에가장핵심적인입출력장치만으로이루어진스피커는데이터수집측면에서도스마트폰이나 TV보다훨씬효율적이다. Siri 애플리케이션이나 OK Google 기능은활성화되어있을때만음성데이터를녹음하고처리할수있다. 이에반해스피커는 Mute기능을사용시를제외하고는상시적으로음성데이터를녹음하고클라우드서버에축적할수있으므로음성인식시스템개선에필요한중요한자원을훨씬빠른속도로수집한다. 10
음성인식 AI 비서시장의현황과시사점 사용환경도중요한요인이다. 인간은하루종일주변에서들려오는다양한소리에둘러싸이지만모든소리를동일한수준으로인지하지않는다. 인지과학자 Cherry Colin(1953) 은특정한소리나자극에대한인간의선택적지각 (Selective perception) 현상을 칵테일파티효과 (Cocktail Party Effect) 라고이름붙였다. 음성인식기기나소프트웨어는아직인간의발화와그외의소음을인간만큼완벽히구분해내지못한다. 따라서실외에서주로사용되는스마트폰의음성인식은외부잡음으로인한오류율이높을수밖에없다. 이에비교하여상대적으로잡음이적은실내에서사용되는스피커는음성인식기술구현에적합하다. 접촉할필요도없고확인할스크린도없는원통형의스피커가스마트폰을이어갈차세대스마트기기로부상하고있는현상황에대해벤처캐피탈 Accel의 Sameer Ghandi는 이것을진화라고단언해서말할수있는사람은없겠지만, 매우자연스러운방식임은분명하다 고평가했다. 다시말해음성인식인터페이스는 가장자연스러운인간과기기간의상호작용방식 이며 (Wired, 2016. 6. 24), 향후 2~3년이내에스마트폰, 스마트워치, Hearable기기등 (< 표 3> 참조 ) 에도입될것으로전망된다 (Gartner, 2017. 3). < 표 3> 디바이스 기능별음성제어기능의효용수준비교 데스크탑 / 노트북 태블릿스마트폰 HMDs 스마트워치 / 밴드 AI 스피커 Hearable 기기 효용수준매우낮음낮음높음높음매우높음매우높음매우높음 자료 : Gartner(2017. 3) Ⅲ. 주요기업의음성인식 AI 스피커전략 음성인식 AI 스피커는시작단계에있는신생시장이다. 시장조사업체에따르면시장은 연평균 43% 씩성장하여 2020 년에는약 21 억불규모에이르고, 전세계가구중 3.3% 가 11
해당기기를사용할것으로예측된다 (Gartner, 2016. 9). 이번장에서는국내외주요 기업의음성인식기반 AI 비서서비스개발및 AI 스피커제품전략을살펴본다. 1. 해외 해외주요 IT기업의스타트업인수실적을살펴보면 2010년부터음성인식 (STT: Speech-to-Text), 문자음성 (TTS: Text-to-Speech), 시맨틱검색, 실시간음성번역등의기술확보를위한노력이이루어져왔음을확인할수있다 (< 표 4> 참조 ). 최초로스피커형태의기기에음성인식 AI 비서서비스를탑재한제품을출시하여새로운시장의문을연 Amazon 의전용스피커단말기는 2016 년한해동안전세계적으로약 510만대가량판매된것으로추정된다 (Statista, 2016. 12. 22). 그러나 Echo의독주가 2017년에도계속될수있을지는불확실하다. 작년 11월출시된 Google Home 이강력한경쟁상대로떠올랐으며, 2017년에는 Microsoft 와 Harman/Kardon 이공동개발한 AI 스피커 Invoke도경쟁에가세할예정이다 (USA Today, 2017. 5. 15). < 표 4> 해외주요 IT 기업의음성제어스타트업인수실적 기업명 Apple Amazon Facebook 내용 - 2010년 Siri ( 음성인식소프트웨어 ) 인수 - 2016년 VocalIQ( 음성인터페이스 ) 인수 - 2011년 Yap (STT: Speech-to-Text) - 2014 년 Evi ( 지식기반 Semantic Search Engine), INOVA (TTS: Text-to-Speech) 인수 - 2013년 Jibbigo ( 모바일다국어음성번역 ) - 2015년 Wit.at ( 음성인식 ), Two Big Ears(VR오디오 ) 인수 - 2014년 DeepMind Technologies (AI 머신러닝 ) Google - 2016년 API.AI( 음성인식, 자연어처리 ) - Limes Audio( 음성처리소프트웨어 ) 인수자료 : 언론자료취합 12
음성인식 AI 비서시장의현황과시사점 (1) Amazon 2014년 11월출시된 Amazon Echo의성공은해외언론에서도 Sleeper hit 7) 이라칭해질만큼예상치못했던것이다 (USA Today, 2016. 3. 28). Echo 이전에 Amazon이출시한기기로는이북리더기 Kindle 과태블릿 PC인 Fire, 그리고스마트폰인 Fire Phone이있었다. 2014년 7월기대속에서출시된 Fire Phone이소비자로부터외면받으며 5.44억달러의영업손실 8) 을기록하였기때문에 Echo에대한기대는자연스레낮아졌던것으로보인다. [ 그림 6] Alexa Voice Service(AVS) 개요 자료 : Amazon Developer 홈페이지 (https://developer.amazon.com) Echo 는 Alexa 나 Amazon, Echo 등의명령어를호출시구동되며, 총 7개의내장마이크로녹음된음성데이터는무선인터넷을통해 Amazon 의클라우드시스템인 Amazon Web Service(AWS) 로전송되어분석이이루어진다. 그결과를바탕으로 Echo는사용자의명령을수행하고, 사용자는자신의명령에대한피드백을 Alexa의음성으로들을수 7) 엔터테인먼트산업에서사용되는관용어로흥행에대해큰기대가없었으나예상을깨고크게성공한작품을지칭한다 (Wikipedia, https://en.wikipedia.org/wiki/sleeper_hit). 8) 더자세한내용은 Amazon s losses ballon to $544 million, driven by weak Fire Phone sales,(the Verge, 2014. 10. 23) 참조. 13
있는데, 이러한시스템을 Alexa Voice Service(AVS) 라고한다 ([ 그림 6] 참조 ). 출시초반 Amazon의 Prime 회원 ( 유료이용자 ) 과사전예약자에게만판매되었던 Echo는 2015년 6월일반인을대상으로판매가시작됨과동시에 Alexa 소프트웨어와연동할수있는 Alexa Skills Kit(ASK) 이공개되었다. 이때부터외부개발자들은 ASK를이용하여 Echo의음성제어기능을활용할수있는서비스나연동애플리케이션을자유롭게추가할수있게되었다. 이러한스마트기능은 Skills 9) 라고불리는데, 2년이지난 2017년 1분기기준이용가능한 Skills 개수가 10,000개를넘어섰다 (Statista, 2017. 2. 27). 대표적인 Skills로는 Uber 호출, Amazon 쇼핑플랫폼을통한물건구입등이있으며, 최근에는스타벅스커피주문도가능해졌다. 10) [ 그림 7] Alexa Skills 운영현황 가용 SKills 개수 ( 개 ) Amazon 홈페이지내 Echo 페이지 자료 :( 좌 ) Amazon, Statista 재인용, ( 우 ) Amazon 홈페이지 (http://www.amazon.com) Skills 의개수보다 Amazon 에게더중요한것은 Alexa 를통한새로운오픈생태계의 구축이다. AVS 는반드시 Echo 를통해작동될필요가없기때문에원하는기업은 자유로이 Alexa 의음성인식및피드백시스템을활용할수있다. Alexa 연동제품 9) Skills는스마트폰의애플리케이션과유사한기능을하나, 기기에직접설치되는애플리케이션과는달리 Amazon 클라우드상존재하며 Echo에명령을내린다. 10) 더자세한내용은 Make Alexa order your iced grande caramel macchiato,(cnet, 2017. 2. 6) 을참조 14
음성인식 AI 비서시장의현황과시사점 (Alexa-enabled Product) 으로는 Phillips Hue( 스마트조명 ), Belkin WeMo( 스마트스위치 ), Ecobee( 스마트온도조절기 ) 등의스마트홈기기가있다 (< 표 5> 참조 ). AVS를사용하는가정용기기및전자제품이늘어남에따라장기적으로는 Echo가홈오토메이션시스템을컨트롤하는허브로발전해나갈가능성이제기되고있다 ( 박병근, 2016) 2016년 3월 Amazon은 Amazon Tap 과 Echo Dot 을출시하며라인업확대를시작했다. Echo는상시전원에연결되어있어야하는반면, Tap은충전식스피커이기때문에휴대가용이다. Echo Dot 1세대는스피커기능이포함되어있었으나지난해 10월출시된 2세대에서는스피커가없는형태의음성인식특화기기로출시되었다. 이는 Echo Dot을집안곳곳에설치하여음성인식기능활용을극대화하고자하는 Amazon의전략을반영한것이다. 2017년에는카메라를탑재하여사용자의옷매무새나의상을평가해주는기능에특화된 Echo Look과 7인치터치스크린을통해영상통화, 영상과사진재생기능등을지원하는 Echo Show가출시되었다. < 표 5> Alexa 연동기기 (Alexa-enabled products) 구분 주요제품 조명 온도조절기 비디오도어벨 스마트플러스 가정용 <Phillips Hue> <Ecobee> <Ring> <TP-Link> 천장팬 <Haiku Home L Series> 라우터 <Luma> 시큐리티시스템 <Blink> 스프링클러제어기 <Rachio> 15
구분 주요제품 자동차 Ford 자동차 <SYNC> 현대자동차 <BlueLink Skils> 스마트폰 아이폰 <Lexi App> 자료 : Amazon 홈페이지, TechCrunch, 언론자료취합 (2) Google Echo의유력한대항마로떠오른음성인식 AI 스피커 Google Home은 2016년 11월출시되었다. 그이름에서예상할수있듯이홈오토메이션을주력기능으로내세우고있다. Google Home의운영체제는 Chromecast 의 OS를변형한것이며, 음성인식소프트웨어 Google Assistant 는기존에 Android OS 스마트폰에도입되었던 Google Now에서 AI 기능이강화된버전이다. Google Now와동일하게 OK Google 이라는호출어로구동되는데, 이용자는 Google Home으로음악재생, 일기예보확인, 물건주문등의기능은홈IoT를제어할수도있다. Google Home으로제어할수있는대표적 IoT로는 Chromecast( 멀티미디어스트리밍어댑터 ), Google Nest 의스마트홈기기 (< 표 6> 참조 ), Phillips Hue( 스마트조명 ), 삼성 SmartThings(IoT) 가있다. 또한스마트기기자동화애플리케이션인 IF 11) 의레시피를직접생성하고명령을수행 11) 회사명과동일하게 IFTTT(If This Then That) 라는이름으로처음출시된이애플리케이션에서 Recipe 라고불리는주문서를미리만들어놓으면, 그조건이충족되었을때자동으로저장된 16
음성인식 AI 비서시장의현황과시사점 하게만들수도있다 (Techradar, 2017. 1. 18) < 표 6> Nest 에서출시된스마트홈기기 제품명 Nest Learning Thermostat Nest Protect Nest Cam Indoor Nest Cam Outdoor 내용 - 사용패턴에따라온도설정 Self-scheduling 가능 - 동작인식센서를통해사용자외출시자동온도조절 - 실내온도, 습도, 외부날씨를분석하여온도설정 - 화제경보기. 연기및일산화탄소감지기능 - 실내영상촬영, 스트리밍가능한보안카메라 - 실외영상촬영 - 움직임을포착하여스마트폰으로경보전송기능 자료 : Wikipedia, 언론자료취합 Google 은지난 2014년인수한 Nest Lab의스마트온도조절장치를중심으로 Google Nest라는플랫폼을구축하고 IoT 전용 OS인 Brillo 를출시하는등스마트홈시장선점을위해노력해왔는데, Google Home은이런기존플랫폼을연결하는인터페이스의역할을할수있을것으로보인다 (Kotra해외시장뉴스, 2016. 6. 29). Chromecast 를보유하고있는가정에서는 Google Home으로 TV나홈엔터테인먼트기기제어 12) 도가능해지기때문에 Google이구축해온미디어플랫폼도 AI 스피커를매개로통합될수있다. 선발주자인 Alexa와차별화되는 Assistant 소프트웨어의경쟁력은기존에보유하고있는강력한검색엔진과오랜기간에걸쳐축적된사용자데이터 ( 예 : 개인이력, 활동정보, Google 서비스이용정보등 ) 에있다. 사용자의질문이나음성명령에대한 명령을수행한다. 예를들어 특정장소에도착하면스마트폰을진동모드로전환해라 나 새로운트위터팔로워가생겼을때리스트를자동으로저장해라 같은기능을설정할수있다 ( 동아일보, 2015. 1. 23, http://it.donga.com/20272/) 12) Chromecast가설치되어있을경우음성명령으로 YouTube 비디오를검색하고, 검색결과를 TV 에서재생되게할수있다. 17
적절한답을 Google 데이터베이스에서찾지못했을때는위키피디아등의인터넷소스를검색하여피드백한다. 음성명령을통해다른방에있는복수의스피커에서동일한음악이나팟캐스트를동시에재생할수있는통합멀티룸오디오기능도 Google Home 에서만가다. 전화통화 (Hands-free calling) 기능과영상응답 (Visual response) 기능등을추가하는업데이트계획 13) 이발표됐다. Alexa의 Skill처럼 AI 스피커에서구동되는기능은 Google Home과 Assistant 생태계에서 Action 으로불린다. Actions on Google 로명명된 Google Assistant 개발자용플랫폼은 2016년 12월공개되었으며, 외부개발자들은이플랫폼을활용하여 Google Home에써드파티서비스를연동시킬수있다. Alexa Skills와 Google Action의가장큰차이는구동방식에있다. Echo 사용자는특정한 Skill을사용하기에앞서해당기능을직접활성화시켜야하지만, Google Home에서는 Google Home App의서비스섹션에등록된 Action 이라면별도의활성화과정없이음성명령만으로구동시킬수있다 (CNET, 2017. 1. 3). Google Home은 Echo와비교했을때간단한음성명령의수행이나검색에서는두기기간큰차이가없으나, 무작위질문에대한응답에서 Echo보다우수한성능을갖고있는것으로보인다 (WSJ, 2016. 11. 7). 그러나두기기모두스피커의본질적인기능인음악감상에는적절하지않은것으로보인다. 이에대해 CNET(2016. 11. 3) 에서는 Google Home과 Echo의음질을분석한기사의말미에 만약음악용스피커를찾고있다면둘다적절한선택은아니다 (If you want a musical speaker, the choice is simple: get neither). 라는혹평을내리기도했다. 13) 더자세한내용은 Google s Home Speaker can now make phone call.(the Verge, 2017. 5. 17) 에서확인가능하다. 18
음성인식 AI 비서시장의현황과시사점 < 표 7> 출시된 AI 스피커 (Amazon Echo 와 Google Home) 비교 Amazon Echo Google Home 가격 $179.99(Echo Dot: $49.99) $129 크기 (mm)/ 무게 (g) 235 84 84mm/1,064g 96.4 142.8mm/477g 음성인식마이크개수 7 개 ( 빔형성기술지원 ) 2 개 스피커시스템 2.5 Woofer 와 2 인치 Tweeter 2 인치 Driver 와 2 인치 Passive Radiator 한쌍 상시녹음여부상시녹음상시녹음 스테레오시스템 외부출력 블루투스나 Echo dot Chromecast 구동단어 Alexa 또는 Echo, Amazon OK Google, Hey Google 음악스트리밍서비스 Amazon Prime Music, Spotify, Pandora, iheartradio, TuneIn Google Play Music, YouTube Music, Spotify,Pandora,TuneIn 소프트웨어개발자도구 Alexa Skills Kit(ASK) Actions on Google 특징 - 최근카메라기능에중점을두고 있는 Echo Look 과, 터치스크린 추가된 Echo Show 출시 - Google 자체검색엔진활용 - 통합멀티룸오디오기능지원 - Chromecast로외부출력가능 - 복수사용자의음성구분 2016 년누적판매대수약 510 만대확인불가 주 : Amazon Echo 판매대수는 Consumer Intelligence Research Partners(2016. 11) 의추정치임 자료 : Valuewalk, Statista(Consumer Intelligence Research Partners 재인용 ), 저자재정리 (3) Apple 음성인식기술경쟁이스피커형태로본격화됨에따라 Siri를통해독자적음성인식시스템을갖고자사제품군에적용하고있는 Apple의 AI 스피커출시여부에많은관심이쏟아지고있다. 공식적으로발표된내용은없으나 Apple은 Echo나 Google Home의강력한경쟁제품을단기간내에출시할만한역량을보유하고있는것으로평가된다. Apple은 2014년부터 HomeKit 14) 을통해스마트홈플랫폼을구축해왔는데, 14) HomeKit 이란 Apple 의기기에설치된 홈 앱을통해다양한스마트홈기기나액세서리를조작할 수있도록해주는사물인터넷 (IoT) 플랫폼이다 (https://www.apple.com/kr/ios/home/). 19
이는 AI 스피커의홈오토메이션시스템과동일한방식으로구동된다. Siri를통해음성명령을내리면 HomeKit에연결된 IoT를제어할수있다. 또한 2016년추가된 Scene 기능을이용하면복수의기기들을동시에제어할수있으며 ( 아이뉴스 24, 2015. 6. 30), 공간별 15) 관리도가능하다 ([ 그림 8] 참조 ). [ 그림 8] HomeKit 이작동하는계층구조 자료 : IoTenabledDevice.com(http://www.iotenableddevices.com/) Siri의차별화요소중하나는데이터처리방식이다. Alexa와 Assistant는방대한음성데이터처리를위해클라우드시스템을이용한다. 그러나 Siri는딥러닝과 AI 기능대부분이기기내부에서이루어지기때문에인터넷에연결되어있지않을때도사용가능하며프라이버시유출에대한우려도적다. 이는지난해테러용의자의아이폰잠금해제를두고벌어진 FBI와의법정공방 16) 과정에서확인할수있었던 Apple의프라이버 15) HomeKit 사용자는 Home 애플리케이션에서선택적으로공간을지정할수있다. 각방에명칭을정한후 Siri, turn off the bedroom lights( 시리, 침실불을꺼줘 ) 라고음성으로명령하면침실의조명만소등할수있다. 여기서 Accessories 는개별사물인터넷기기이며, Service는기기에서구동할수있는기능을말한다 ( 자세한내용은 http: //www.iotenableddevices.com/apple-homekitautomation-protocol-framework/). 16) FBI는 2015년 12월발생한미국캘리포니아주 San Bernardino 총기테러사건의용의자가소지하 20
음성인식 AI 비서시장의현황과시사점 시보호에대한입장이투영된것으로보인다. 최근 Apple은 SiriKit 17) 이라명명된소프트웨어개발자도구를외부개발자에개방하였다. SiriKit이지원하는분야는 VoIP Calling, 메시지, 지불서비스, 사진, Workouts, Ride Booking, CarPlay, 레스토랑예약등 AI 스피커를통해구현할수있는것과유사한것이대부분이다. Apple의음성인식비서서비스의외연이 AI 스피커까지확대될지여부에대해서는더지켜보아야할것이다. (4) Microsoft Microsoft는 1993년카네기멜론대학컴퓨터공학과의 Xuedong Huang을영입하면서부터내부적으로음성인식상용화를위한연구개발에착수했다. 1994년에는 Speech API를소개했으며 (Brown, 2008), 2000년부터 Office2003 등일부소프트웨어에음성인식기능이적용되었다 ([ 그림 9] 좌측참조 ). 2000년대중반까지 Windows 에서지원되는음성인식소프트웨어는간단한단어 18) 도제대로구분못할정도로인식률이낮았다. Microsoft 의 Chief Scientist인 Rico Malvar는 2009년등장한딥러닝기술이음성인식개선에활용되면서음성인식서비스상용화작업이본격화되었다고설명한다 ( 동아일보, 2017. 5. 16). 5년이지난 2014년 Microsoft는음성인식비서서비스 Cortana 를출시하고 Windows10 운영체제 19) 에우선적으로적용했다 ([ 그림 9] 우측참조 ). 2015년부터는 ios와 Anrdoid OS에서도 Cortana를사용할 고있던아이폰의사용기록을확인하기위해 Apple에잠금해제를요구했으나, Apple은고객의프라이버시보호를위해지원이불가능하다는입장을유지하였다. 이갈등은소송전으로이어졌으나, FBI가자체적으로잠금해제에성공하며소송을취하했다. 17) SiriKit Programming Guide 홈페이지 (https://developer.apple.com/library/content/documentation /Intents/Conceptual/SiriIntegrationGuide/index.html#//apple_ref/doc/uid/TP40016875-CH1 1-SW1) 18) 2006년 Windows Speech Recognition Program은엄마 (Mom) 과숙모 (Aunt) 를구분하기힘든수준이었다 ( 더자세한내용은 http://it.chosun.com/news/article.html?no=2828084). 19) Windows 10, Windows 10 Mobile, Windonws Phone 8.1, Microsoft Band, Xbox One, ios, Android, Windows Mixed Reality 에서적용되었다 ( 출처 : https://www.microsoft.com/en/mobile/ experiences/cortana/) 21
수있게되었는데, 타사 OS 에서시스템영역까지제어하는것은불가능하므로 Hey Cortana 같은구동명령어사용등에제약이따른다. [ 그림 9] Windows7 의음성인식소프트웨어 ( 좌 ) 과 Windows10 의 Cortana( 우 ) 자료 : Raw Computing(http://rc.rawinfopages.com), VentureBeat(https://venturebeat.com) Cortana 는사용패턴을학습하고적응할수있기때문에개별이용자에게최적화된서비스를제공하고능동적으로 Action을제안할수있다는점에서차별성을갖는다. 별도의음성명령이없더라도 Cortana 는이용자의상황인식 (Contextual awareness) 정보를분석하여특정한애플리케이션이나웹사이트방문을권할수있다 (Microsoft Build 2016, 2016. 3. 25). 눈에띄는다른기능은음성과시각적요소의결합이다. Cortana 는푸른색의움직이는후광을이용하여 18가지감정을표현할수있기때문에이용자들은컴퓨터나기계가아니라실재하는상대와대화하는것같은경험을할수있다. 앞서살펴본기업들과마찬가지로 Microsoft 역시 2016년말부터 Cortana를중심으로한음성인식서비스생태계조성을위한다양한전략을취하고있다. 첫번째는기기로의확장과관련된계획이다. 음향기기전문업체인 Harman/Kardon 과의협력하에 Cortana 플랫폼을탑재한전용 AI 스피커 Invoke 가올해안에출시될예정이며, 컴퓨터제조업체인 HP 기기에도 Cortana를적용하기위한협약이이루어졌다 (The Verge, 2017. 5. 10). 소프트웨어측면에서는음성인식비서서비스를스마트홈의인터 22
음성인식 AI 비서시장의현황과시사점 페이스로활용하고자하는전략이구체화되고있다. 또한, 외부개발자들이기기나 OS 관계없이 Cortana 연동서비스를개발할수있게해주는 Cortana Skill Kit 도공개될예정이며 (Microsoft News Center, 2016. 12. 14), 2017년 9월업데이트에서는 Windows10 홈허브와 Cortana를이용한홈IoT 제어등의기능이추가될전망이다. Microsoft 는음성인식비서서비스와 AI 스피커시장에서후발주자에속하지만, 그잠재력은매우크다. Microsoft 에따르면현재 Windows10 이용자는약 5억명규모이며그중약 1억 4천명이매달 Cortana 를이용하고있다 (CNBC, 2017. 5. 10). 이로미루어볼때 Microsoft의독보적인 PC OS 시장지배력 20) 이 Cortana 서비스이용자수증가에큰영향을미치고있는것으로보이며, Windows10 OS 이용자가늘어남에따라 Cortana 도꾸준히시장지배력을넓혀갈것으로예상된다. < 표 8> AI 비서서비스 (Apple Siri, Google Assistant, Microsoft Cortana) 비교 Apple Siri Google Assistant Microsoft Cortana 구동방식 물리적키 ( 홈버튼 ) 로 구동가능 구동명령어로만가능 물리적키로구동가능 사용자프로필기기내저장클라우드에저장클라우드에저장 주검색엔진 Wolfram Alpha Google Bing 주웹브라우저확인불가 Chrome Edge 연동기기 Apple 에서출시된 모든기기 (Apple TV, Mac PC 등 ) 스마트폰 ( 픽셀 ), 스피커 (Google Home) 등 Windows10 OS 기반 PC, Windows 모바일기기, 스피커 (Invoke) 자료 : Search Engine Land & FIlehippo, 저자재정리 20) 시장조사업체인 Netmarketshare 에따르면데스크탑 PC OS 시장에서 Windows 10 의점유율은 26.28% 이며가장사용자가많은 OS 는 Windows 7(48.5%) 이다. 비 Windows( 예 : Mac OS X, Linux 등 ) OS 의시장점유율은 9.65% 로조사되었다 ( 출처 : https://www.netmarketshare.com/). 23
(5) 기타 : 중국 일본기업동향한자는복잡한문자형태를갖고있고글자수만도수천개에달하며, 병음체계를모르는중국인들도많기때문에중국은음성인식인터페이스가활용되기에최적의조건을갖고있다. 대표적검색엔진기업 Baidu는이미 2015년음성인식 AI 비서서비스인 Duer를모바일애플리케이션으로출시한바있다. Baidu의음성인식기술은 Apple이나 Google에뒤지지않는다는평가를받는데, 이러한높은평가의뒤에는 Baidu Research가개발한전용소프트웨어 Deep Speech가있다. 2016년 9월 Baidu World Conference 에서발표된내용에따르면이소프트웨어의음성인식정확도는 97% 수준이며, 시끄러운환경에서도인식률이매우높다 ( 한국경제, 2016. 9. 2). Duer 의음성인식기술은 Little Fish라는이름의가정용로봇에적용되어 CES 2017에소개되었다 (ZDNet, 2017. 1. 6). 일본에서는 NICT( 총무성산하정보통신연구기구 ) 가주도하는가운데 NTT도코모, 후지쓰, 도요타자동차등이일본어기반음성인식 AI 서비스개발을위해협력하고있는것으로보도된다 ( 뉴스1, 2017. 1. 9, 산케이재인용 ). 이미상용화에성공한기업도있는데, 2017년 3월라인 (Line, 한국네이버의일본자회사 ) 에인수된 IoT 스타트업 vinclu가대표적이다. vinclu의전용기기인 Gatebox 는내부가빈유리관형태로되어있으며, 그안에서여성형 AI 캐릭터가홀로그램으로구현된다. Gatebox는집안의스마트홈기기를제어하고인터넷검색을통해필요한정보를찾아주는등기능상으로는 Echo나 Google Home과크게다르지않지만, 인간형상으로구현된캐릭터와상호교감을나눌수있다는점에서특이점을갖는다. 2016년 12월부터일본과미국에서 Gatebox 의예약판매가시작되었으나, 지원언어가일본어에한정되어있고가격이 2,600불가량으로매우높기때문에글로벌시장에서성공가능성은높지않다. 24
음성인식 AI 비서시장의현황과시사점 < 표 9> 해외주요기업의음성인식 AI 비서서비스와스피커현황요약 Amazon Google Apple Microsoft Baidu vinclu SW ( 출시연도 ) Alexa (2014) Assistant (2016) Siri (2011) Cortana (2014) Duer (2015) - 전용기기 ( 출시연도 ) Echo (2014) Home (2016) - Invoke (2017) Little Fish (2017) Gatebox (2016) 지원언어 2 개 8 개 20 여개 8 개 1 개 1 개 ( 한국어 ) ( 지원안함 ) ( 지원예정 ) ( 지원함 ) ( 지원예정 ) ( 지원안함 ) ( 지원안함 ) 클라우드 사용여부 사용함사용함사용안함사용함확인불가확인불가 강점 만개이상의 Skills 보유 구글이용자의빅데이터보유 개인정보 보호및 보안우수 해외기업의 Windows 진입장벽높은유저를잠재적중국시장에서이용자로보유유리 최초의 홀로그램 AI 상용화 자료 : 각사홈페이지및언론자료취합 2. 국내 국내에서는 2016년 9월 SKT 누구 를처음으로 2017년 1월에 KT 기가지니 가 AI 스피커시장에진입하였다. 이동통신사의 AI 스피커외에도 2017년 3월삼성전자 갤럭시s8 에자사 AI 비서서비스인 빅스비 와 Google의 어시스턴트 를동시에탑재하면서스마트폰에서음성인식기반 AI 비서서비스가적용되었다. 포털에서도자체개발한음성인식 AI 비서기술을상용화하려는움직임을보이고있다. 네이버는 2017년 5월, AI 비서앱인 클로바 를출시하였으며, 자사의검색과 AI 기술을바탕으로 AI 스피커와디스플레이를선보일계획이다. 이밖에다양한가전제품에활용되는것을목표로 API 공개를계획하고있다. 카카오또한음성인식 AI 비서앱과스피커를 2017년하반기에선보일것으로계획하고있다. 국내에는방대한검색정보데이터를 25
축적하고있는포털, 자사의가전제품에기술적용이용이한가전사, 홈IoT 중심의 AI 스피커를출시한이동통신사사이에서 AI 비서기술과이를적용한서비스및기기시장을선점하기위한경쟁이치열해질것으로예상된다. 본파트는음성인식 AI 비서서비스의주요기업별현황을살펴보고, 향후기술개발및서비스전략을정리하고자한다. (1) 삼성삼성의빅스비는 AI 비서 UI로, 2017년 3월말출시된갤럭시s8에탑재되면서서비스되었다. 2017년 5월에는 보이스 라는기능이추가되었는데, 기존삼성스마트폰에탑재된 S보이스 나 Apple의 Siri 와유사하다. 사용자의음성인식외에도터치나텍스트입력방식으로보이스와의대화, 정보탐색, 메신저문자발신등이가능하다. 빅스비의또다른기능인 비전 은 GPS 설정시랜드마크를식별하여해당장소에대한정보제공하고, 이미지속외국어의번역이가능하며, 궁금한상품을뷰파인더에맞추면해당상품에대한쇼핑정보를제공한다. [ 그림 10] 삼성빅스비연동예시 자료 : 삼성전자홈페이지 (http://www.samsung.com/sec/apps/bixby/) 삼성은스마트폰외에가전제품으로영역을넓히는움직임을보이는데, 최근 패밀 리허브 2.0 냉장고에빅스비를적용시켰다. 해당상품은장착된디스플레이를통해 26
음성인식 AI 비서시장의현황과시사점 음성인식, 다른가전제품제어, 삼성페이결제기능, 스마트폰과연동기능을제공하는데, 2017년 5월에빅스비가자동으로업데이트되어 AI 비서기능을더하게되었다. 삼성은향후출시할 TV를포함한가전제품에빅스비를설치할계획을밝혔는데 ( 매일경제, 2017. 5. 14), 이는다양한가전제품을개발하는가전사의장점을기반으로홈IoT 시장을공략하려는전략으로보인다. (2) SKT SK텔레콤 (SKT) 은 2016년 9월에국내최초로 AI 스피커인 누구 를출시하였으며, 가격은약 25만원선으로알려졌다. 출시 7개월만에 10만대이상을판매하였으며, 대화량이 1억건이넘어 ( 연합뉴스, 2017. 5. 3), 국내음성인식 AI 스피커시장의발전가능성을확인하였다. 누구 는음성인식을통해자체에내장되어있는스피커. 조명뿐아니라연결된앱과기기, IPTV 등을제어할수있으며, 라디오재생, 날씨와일정등확인, 알람기능등을요청할수있다. 음성인식외에도 AI 스피커와연결된앱을통해추가적인설정과이용이가능하다. [ 그림 11] 국내 AI 스피커형태 자료 : 각사홈페이지 27
2017 년 5월. SKT는 KEB하나은행과음성인식 AI 금융서비스의제공협약을체약하여, 등록된계좌의잔액및거래내역조회, 환율과환전조회, 지점안내등을음성으로문의하고듣는 음성금융서비스 를계획하고있으며 (ZDnet. 2017. 5. 17), 향후다양한서비스와업체제휴를통해 AI 비서서비스영역을넓힐것으로보인다. (3) KT KT는 2017년 1월 UHD TV와 AI 스피커가결합된 AI TV인 기가지니 (Giga genie) 를출시하였다. SKT 누구 가 AI 스피커중심이었다면기가지니는 TV를중심으로 AI 스피커와함께홈비서역할을수행하며, 별도카메라설치를통해홈캠으로활용할수있다. 가격은단품으로 29만원 ( 카메라는 9만원별도 ) 선이며, KT의인터넷, UHD TV과의결합상품도제공하고있다. 기가지니는리모콘없이 TV를제어하고, 음악서비스 ( 지니 ), 기가지니와연결된가전제품및홈시스템을제어하는홈IoT, 일정관리및알람, 대화형정보제공등의기능을수행한다. 2017년 4월, 미래에셋대우와 MOU를맺었으며, 주가및지수확인, 시황정보, 종목및금융상품추천등금융정보를제공할예정이다 ( 매일경제, 2017. 5. 30) 이밖에도기가지니는모터쇼에서자동차와연동해원격시동과위치안내등의차량제어를시연하면서 ( 아시아투데이, 2017. 5. 5), 다양한영역에서음성인식 AI 비서서비스의확장할것으로보인다 (4) 네이버 2017년 5월, 네이버는자회사라인 (Line) 과함께개발한인공지능비서앱인 클로바 (Clova) 를베타버전으로공개하였다. 클로바공개이전인 2017년 3월에베타버전으로음성인식 AI 대화형엔진인 네이버i 을선보였는데, 클로바에는네이버i를포함한다양한 AI 알고리즘이적용되었다 ( 전자신문, 2017. 5. 18). 네이버i 는음성인식, 사용자대화이해및대화관리, 자연어생성, 음성합성기술, 네이버가보유하고있는방대한검색DB 와연결하여개발한 AI 대화형엔진서비스이다. 네이버i 가검색결과를정확하게제공하는것이목표라면, 클로바는스스로판단하는능력에초점을맞췄다 28
음성인식 AI 비서시장의현황과시사점 ( 전자신문, 2017. 5. 18). 사용자의대화를누적해취향을고려한콘텐츠를추천하는기능이그예이다. 이밖에클로바와의대화, 필요한정보제공 ( 음성검색 ), 일정관리, 콘텐츠와음악추천등의기능을제공한다. 네이버는 AI 서비스에검색정보데이터를적극활용하고있는데, 이는음성인식 AI의대화데이터뿐아니라포털에축적된방대한검색데이터로사용자가원하는정보의정확성을높여 AI 비서기능의고도화하려는전략으로보인다. [ 그림 12] 네이버클로바연동예시 자료 : 네이버클로바홈페이지 (https://clova.ai/ko) AI 비서서비스를제공하는다른업체와유사하게네이버또한개발툴을써드파티와제조사들에게오픈할계획을밝혔다. 네이버는자사의음성인식 AI 기술이스피커, 자동차, 냉장고등의다양한기기에서활용되는것을목표로 API를연내개방하여네이버클라우드플랫폼 (NCP) 를통해서비스를개발가능케할계획이다 ( 아이뉴스 24, 2017. 5. 22). 하드웨어제조사, IoT 업체를포함한개발사들을위해클로바의 API, SDK, 개발문서를제공하는플랫폼 (Clova Interface Connect: CIC) 를제공할계획이다 ( 클로바홈페이지참고 ). 29
(5) 카카오카카오는음성인식에관심을갖고 2012년음성인식전문기업인 다이알로이드 를인수하여음성언어를컴퓨터가해석하여문자로변환해주는시스템인 뉴톤 (Newton) 과문자를음성언어로변환해주는시스템인 뉴톤톡 (Newton talk) 을개발하였다 ( 아이뉴스24, 2014. 6. 26). 뉴톤과뉴톤톡의 API를 2014년 6월부터공개하여 ( 아이뉴스24, 2014. 6. 26), 음성인식서비스의확장을위해써드파티에게개발툴을공유하였다. 최근카카오앱과카카오내비에도 뉴톤 이탑재되었으며. 향후카카오지하철과카카오버스등의앱에도음성검색기능을도입할계획이다 ( 머니투데이, 2017. 2. 17). 카카오는기존의음성인식서비스확장외에도 AI 비서서비스를추진하고있다. AI 기반의메시저로봇인 챗봇 과 AI 스피커등을포함한음성프로젝트를진행하고있으며, 2017년하반기에 AI 비서앱과 AI 스피커를출시할예정이다 ( 전자신문, 2017. 5. 11). 이용자가많은카카오톡, 멜론등카카오의다양한서비스들이 AI 비서앱이나스피커와연동될경우, AI 서비스이용자유입에도움이될것으로보인다. < 표 10> 국내주요기업의 AI 비서서비스현황 기업서비스 ( 출시일 ) 종류특징 - 국내최초음성인식 AI 비서스피커 SKT 누구 (NUGU) AI 스피커 - 조명, 연결된앱과기기, IPTV 제어 - 개인스케줄관리및알람, - KEB하나은행과의협약으로계좌, 주식, 환율정보제공계획 - AI TV 와스피커결합으로홈 IoT 환경제공 KT 기가지니 (GiGA Genie) AI TV/ 스피커 - 기가지니카메라별도설치를통해홈캠활용가능 - TV 및음악감상, 일정관리, 홈loT( 홈가전제품, 홈시스템제어 ), 주식정보제공 30
음성인식 AI 비서시장의현황과시사점 기업서비스 ( 출시일 ) 종류특징 - 등록된사용자음성인식 삼성전자 빅스비 (Bixby) (2017. 3, 보이스 는 2017. 5) AI 비서 UI - 스케줄확인, 뉴스정보제공, 앱이용, 콘텐츠추천 - 카메라로사물, 이미지, 텍스트, QR 코드등을인식해정보 ( 번역, 쇼핑등 ) 제공 - 현재스마트폰 갤럭시s8 과냉장고 패밀리 허브 2.0 에탑재 - 음성인식, 번역, 콘텐츠 ( 음악, 영화등 ) 추천 클로바 (Clova) 베타 - AI 대화형엔진네이버아이 (i) 와다양한 AI 기 (2017. 5) 술을접목 네이버 웨이브 (AI 스피커 ), AI 비서앱 - 포털에축적된방대한검색데이터과딥러닝 2017. 하반기 기술을더해사용자가원하는정보의정확성 출시예정 향상가능 - 페이스 (AI 비서디스플레이 ) 출시계획 카카오 AI 비서앱 2017. 7 출시예정 AI 스피커 2017 하반기출시예정 AI 비서앱 자료 : 각사홈페이지및언론자료취합 - 음성언어를컴퓨터가해석하여문자로변환해주는시스템인 뉴톤 과문자를음성언어로변환해주는시스템인 뉴톤톡 의기술기반 - 2017년하반기 AI 비서앱과 AI 스피커출시예정 Ⅳ. 결론및시사점 2008년부터 2015년까지매년두자리수의높은성장세를유지하던스마트폰시장은그속도가점차둔화되고있는것으로보인다 (Gartner, 2016). 중국, 멕시코등신흥시장에서도시장성숙에따라신규수요는줄어들고있으며, 대부분의스마트폰제조사들이교체수요에의존해야하는상황으로분석된다. 스마트폰시장포화상황에서새로이주목받고있는새로운시장중하나는사물인터넷 (IoT) 이다. 무선인터넷을통해집안의각종시설과가전, 전자제품이서로통신을주고받을수있게되면서, 이를컨트롤하는허브역할을두고 TV, 셋톱박스, 냉장고, 스마트폰등이경쟁해왔다. 그러나 2017년현재스마트홈을통제할핵심기기로가장주목받는것은음성인식및 AI 31
기능이결합된 스피커 이다. Google, Apple, Microsoft 등글로벌 IT 공룡들이제각기자사소프트웨어를탑재한스피커를출시하며 Echo가독식하던시장에진입했으며, 국내시장도경쟁이가속화되고있다. 2016년 SKT 누구 를시작으로 2017년 KT, 네이버, 카카오등진입 ( 혹은예정 ) 사업자가많아경쟁이치열해질것으로보인다. 각사는스피커뿐아니라음성인식 AI 기술력을확장하여 AI 시장우위를점하는것을목표로삼고있다. 앞서살펴본바와같이 Amazon은 Echo의라인업을다양화하고있으며, 현시점에서는가장높은시장점유율로유리한고지에있다. 기존에충성도높은고객층을보유하고있는 Apple, Microsoft 와삼성은 AI 비서서비스를향후자사제품에적용할것을계획하고있는데, 이를통해고객의편의성을향상시키고이용데이터축적을통해자사 AI 비서서비스의품질을안정화시킬수있을것으로보인다. Google 과국내포털사는다수의경쟁력있는온라인서비스, 축적된정보량, 검색기술등을기반으로 AI 비서서비스에서이동통신사의홈IoT 중심의 AI 전략과차별화될것으로보인다. 마지막으로이동통신사의경우, 음성인식 AI 서비스를통해홈시스템과가전제품을제어하는홈IoT 중심으로확장될것으로보이며, 온라인서비스자회사 ( 인터넷쇼핑몰, 음악제공서비스등 ) 의콘텐츠를활용하여온라인상에서도경쟁력을확보할것으로보인다. 이러한시도는기기를더많이판매하기위한경쟁으로이해하기보다는향후터치나텍스트입력방식을대체할음성인터페이스의표준을선점하기위한노력으로바라보아야할것이다. 특정음성인식 AI 소프트웨어나스피커를이용하여제어할수있는서비스나기기가많아질수록이경쟁의승자가될가능성이높아지기때문이다. 기업들은자사의음성인식기술을외부에개방함으로써독자적인오픈생태계를조성하려노력하고있다. 향후음성인식 AI 개발툴공개로음성인식 AI 관련응용서비스들이활발히개발될것으로기대되며, 이는국내음성인식 AI 시장을활성화되는데기폭제가될것으로예상된다. Amazon처럼자사이커머스플랫폼과시너지를추구하는것외에는아직명확한비즈니스모델이없지만현시점에서는시장규모를키우기위한이용자확보가당면과제로생각된다. 32
음성인식 AI 비서시장의현황과시사점 국내음성인식 AI 서비스들이국내외시장에서글로벌기업과경쟁하는것은불가피한상황이다. 국내시장에서 Apple Siri와같이이미한국어지원을하고있는글로벌기업과경쟁해야한다. 대부분의국내음성인식 AI 비서서비스들은한국어중심으로실행되고영어를포함한외국어지원은차후에계획되어있어, 세계시장에서의경쟁력을갖추기보다우선은국내시장을선점하는데주력할것으로보인다. AI 스피커시장의본격화에앞서짚고넘어가야할중요한이슈중하나는이용자의프라이버시보호와관련된사항이다. AI 스피커를통해수집된데이터는무선인터넷을통해클라우드서버로전송되기때문에데이터도난이나해킹에대한우려도존재한다. 실제개인용클라우드백업서비스인 icloud나 Dropbox 의해킹이꾸준히증가하고있으며, 그로인한프라이버시침해사례도증가하고있다. 국내가정용 IP카메라로촬영된영상이외부인터넷망을통해전송되는과정에서유출되어중국사이트에게시된사례도있었다 ( 보안뉴스, 2017. 5. 4). 이용자의집안에서발생하는모든소리를녹음하고클라우드로전송하는음성인식 AI 스피커역시해킹위험에서자유로울수없다. 또한, 앞서살펴본바와같이 AI 스피커는전원이연결되어있을때에는항상이용자의음성에귀기울이고있다. 즉, 상시녹음이이루어지고있으며그데이터가 Amazon 이나 Google 의클라우드서버에저장되고있는것이다. 그뿐만아니라음성인식기반 AI 스피커는이용자가시청한 TV 쇼프로그램이나인터넷검색결과, 구매내역, 수면시간등의행동정보를지속적으로수집하고있다. 물론상시녹음기능은음소거 (Mute) 기능을사용할경우끌수있지만, 음성명령을내리기위해서는다시녹음기능을활성화시켜야하기때문에불편함이발생한다. 이러한기능에대해어떤이들은 엿듣고있다 라고생각할수도있을것이다. 또한수집된행동정보를바탕으로특정한제품광고를노출하거나, 구매를제안하는등의상업적이용이이루어질가능성도있다. AI 스피커를출시한기업들은수집된개인정보는비밀이유지될것이라약속하지만, 구체적으로어떤방식으로이개인정보가보호되는지에대해서는알려져있지않다. 따라서각사는이에대해구체적이고투명한대책을마련하고잠재적이용자들의신뢰를확보하는것이우선이다. 33
참고문헌 권오욱 최승권 노윤형 김영길 박전규 이윤근 (2015. 8), 자유발화형음성대화처리기술동향. 전자통신동향분석 Vol.30, No.4, Aug. 2015, pp.26-35 김대호 최선규 이재신 신동희 안재현 전경란 이상우 김성철 김도연 심용운 (2014), ICT 생태계, 커뮤니케이션북스박병근 (2016), 음성인식스피커 Amazon Echo 생태계. 디지에코보고서 (2016. 6. 9.) Issue & Trend 최은정 (2013), 클라우드혁명이바꾸는미래. SERI 경영노트, 2013. 3. 28( 제 181호 ) 한국콘텐츠진흥원 (2011. 11), 음성인식기술의동향과전망. 2011년 11월문화기술 (CT) 심층리포트. Brown, R. (2008). Exploring new speech recognition and synthesis APIs in Windows Vista. Talking Windows MSDN Magazine. http://msdn.microsoft. com/hi-in/magazine/cc163663.aspx. Colin, C., (1953). Some Experiments on the Recognition of Speech, with One and with Two Ears The Journal of the Acoustical Society of America. 25(5): 975 79. doi:10.1121/1.1907229. ISSN 0001-4966. Furui, S. (2005). 50 years of progress in speech and speaker recognition research. ECTI Transactions on Computer and Information Technology(ECTI-CIT), 1(2), 64-74. Gartner (2016. 9). Forecast Snapshot: VPA-Enabled Wireless Speakers, Worldwide, 2016. Gartner (2017. 3). Market Trends: Human-Machine Interactions Role of Voice Across Devices and Ways to Enhance Customer Experience KPCB (2016. 5). Internet Trends Report 2016. Saon, G., Kurata, G., Sercu, T., Audhkhasi, K., Thomas, S., Dimitriadis, D., Cui, X., Ramabhadran, B., Picheny, M., Lim, L.L. and Roomi, B. (2017). 34
음성인식 AI 비서시장의현황과시사점 English conversational telephone speech recognition by humans and machines. arxiv preprint arxiv:1703.02136. [ 참고자료 ] 동아일보 (2017. 5. 16), 연구, 개발의대가 MS의 4가지혁신비법. 동아일보 (2015. 1. 23), IFTTT, 네가다알아서해줘. 머니투데이 (2017. 2. 17), 너의목소리가보여 음성기술집중하는네이버와카카오. 매일경제 (2017. 5. 14), 인공지능빅스비, 삼성가전에첫탑재. 매일경제 (2017. 5. 30), KT, AI 5G상용화 스마트에너지 4차산업혁명이끈다. 아시아투데이 (2017. 5. 5), 누구 기가지니 AI서비스대중화 수익모델확보방안은? 아이뉴스 24 (2017. 5. 22), 클로바 API 곧제공 네이버클라우드, 모든시장타깃 아이뉴스 24 (2015. 6. 30), [ 정구민 ] 애플홈킷이제시하는미래스마트홈서비스. 연합뉴스 (2017. 5. 3), SK텔레콤 누구 판매량 10만대돌파. 전자신문 (2017. 5. 11), [ 이슈분석 ] AI 스피커뛰어드는네이버 카카오 전자신문 (2017. 5. 28), [ 이주의해시태그 -# 네이버 -클로바 ] 쑥쑥크는네이버 AI. 조선일보 (2016. 12. 18), 엄마 와 숙모 도구분못하던음성인식, AI달고 훨훨. 한국경제 (2016. 9. 2), AI기술공들인중국바이두, 자율주행차개발속도낸다. Kotra해외시장뉴스 (2016. 11. 21), 구글홈 출시로스마트스피커시장경쟁본격화 Microsoft News Center (2016. 12. 14), 마이크로소프트, 모두를위한 AI 향한대화형컴퓨팅의새로운비전공유 ZDNet (2017. 5. 17), KEB 하나은행 -SKT, 국내첫인공지능스피커금융서비스. ZDNet (2017. 1. 6), 바이두, 중국판아마존에코만든다. 35
CNBC (2017. 5. 17), Microsoft is halfway to its goal of 1 billion Windows 10 devices. CNET (2017. 2. 6), Make Alexa order your Iced Grande Caramel Macchiato. Digital Trends (2017. 4. 4), A holographic virtual girl lives inside Japan s answer to the Amazon Echo. Experian (2016. 9. 7), [Infographic] Unpacking the Breakout Success of the Amazon Echo. Filehippo (2014. 2. 26), Halo s Cortana: Siri s Nemesis?. Mashable (2016. 12. 17), Hologram-in-a-jar is the perfect buddy for lonely people with no friends. Mashable (2017. 2. 3), How to use third-party Actions on Google Home. TechCrunch (2017. 1. 8), How Amazon and Nvidia won CES this year. Techradar (2016. 8. 20), How to control your smart home with IFTTT. The Economist (2017. 5. 1), Technology Quarterly: Finding a Voice. The Verge (2014. 10. 23), Amazon s losses balloon to $544 million, driven by weak Fire Phone sales. The Verge (2017. 5. 10), Microsoft shows how Cortana will work in speakers and cars. The Verge (2017. 1. 5), Baidu s Little Fish home robot could be China s Echo. USA Today (2016. 3. 28), Amazon Echo turns into a sleeper hit, offsetting Fire s failure. USA Today (2017. 5. 15), Google Home wants to be your assistant, heating up the rivalry with Amazon Echo and soon, Apple. Wired (2016. 6. 24), The Amazon Echo is winning the race to a screenless future. ZDNet (2016. 9. 29), Amazon, Google, Facebook, IBM, and Microsoft form AI non-profit. ZDNet (2017. 1. 4), CES 2017: Voice is the next computer interface. 36
음성인식 AI 비서시장의현황과시사점 https://www.amazon.com https://www.apple.com/ios/home https://www.apple.com/ios/siri https://assistant.google.com https://build.microsoft.com https://clova.ai/ko http://developers.daum.net/services http://gatebox.ai/ http://gigagenie.olleh.com http://www.iotenableddevices.com https://www.microsoft.com/en-us/windows/cortana https://www.netmarketshare.com http://www.nugu.co.kr/product.jsp http://www.samsung.com/sec/apps/bixby/ http://searchengineland.com/ https://www.statista.com http://www.valuewalk.com http://word.tta.or.kr 37