02본문

Similar documents
<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

Ch 1 머신러닝 개요.pptx

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 29(7),

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

김기남_ATDC2016_160620_[키노트].key

Reinforcement Learning & AlphaGo

4 : CNN (Sangwon Suh et al.: Dual CNN Structured Sound Event Detection Algorithm Based on Real Life Acoustic Dataset) (Regular Paper) 23 6, (J

PowerPoint 프레젠테이션

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

4 : (Hyo-Jin Cho et al.: Audio High-Band Coding based on Autoencoder with Side Information) (Special Paper) 24 3, (JBE Vol. 24, No. 3, May 2019

다중 곡면 검출 및 추적을 이용한 증강현실 책

(JBE Vol. 24, No. 1, January 2019) (Special Paper) 24 1, (JBE Vol. 24, No. 1, January 2019) ISSN 2287-

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

2 : (Seungsoo Lee et al.: Generating a Reflectance Image from a Low-Light Image Using Convolutional Neural Network) (Regular Paper) 24 4, (JBE

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

,. 3D 2D 3D. 3D. 3D.. 3D 90. Ross. Ross [1]. T. Okino MTD(modified time difference) [2], Y. Matsumoto (motion parallax) [3]. [4], [5,6,7,8] D/3

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

RNN & NLP Application

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

02본문

R을 이용한 텍스트 감정분석

Structural SVMs 및 Pegasos 알고리즘을 이용한 한국어 개체명 인식

표상학습을이용한딥러닝이미지특성의범용분류성에대한실험적분석 지도교수장병탁 이논문을공학학사학위논문으로제출함 년 12 월 21 일 서울대학교공과대학컴퓨터공학부한동식 2016 년 2 월

6 : (Gicheol Kim et al.: Object Tracking Method using Deep Learing and Kalman Filter) (Regular Paper) 24 3, (JBE Vol. 24, No. 3, May 2019) http

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DB0FBB3EBC1D8>

ePapyrus PDF Document

Electronics and Telecommunications Trends 인공지능을이용한 3D 콘텐츠기술동향및향후전망 Recent Trends and Prospects of 3D Content Using Artificial Intelligence Technology

_KrlGF발표자료_AI

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

PowerPoint Presentation

02본문

정보기술응용학회 발표

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN

°í¼®ÁÖ Ãâ·Â

290 정보과학회컴퓨팅의실제논문지제 24 권제 6 호 ( ) 1. 서론음성인식시스템은모바일디바이스의보편화로음성데이터에대한접근과확보가용이해짐에따라지난몇년간크게발전하였다. 화자식별 (Speaker Identification) 은개인성도의음성학적특징을모델링하고분류

DIY 챗봇 - LangCon

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

딥러닝 첫걸음

PowerPoint 프레젠테이션

Recommender Systems - Beyond Collaborative Filtering

PowerPoint 프레젠테이션

DBPIA-NURIMEDIA

2 : CNN (Jaeyoung Kim et al.: Experimental Comparison of CNN-based Steganalysis Methods with Structural Differences) (Regular Paper) 24 2, (JBE

Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology Vol.7, No.11, November (2017), pp

07.045~051(D04_신상욱).fm

01 AI Definition 02 Deep Learning Theory - Linear Regression - Cost Function - Gradient Descendent - Logistic Regression - Activation Function - Conce

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for


<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

歯A1.1함진호.ppt

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

<372DBCF6C1A42E687770>

DBPIA-NURIMEDIA

<91E6308FCD5F96DA8E9F2E706466>

2 : (EunJu Lee et al.: Speed-limit Sign Recognition Using Convolutional Neural Network Based on Random Forest). (Advanced Driver Assistant System, ADA

PowerPoint 프레젠테이션

Introduction to Deep learning

I

RVC Robot Vaccum Cleaner

09권오설_ok.hwp

DBPIA-NURIMEDIA

Intra_DW_Ch4.PDF

Pattern Recognition

09오충원(613~623)


融合先验信息到三维重建 组会报 告[2]

¨ë Áö¸®ÇÐȸÁö-¼Û°æ¾ðOK

(JBE Vol. 23, No. 4, July 2018) (Special Paper) 23 4, (JBE Vol. 23, No. 4, July 2018) ISSN

위해 사용된 기법에 대해 소개하고자 한다. 시각화와 자료구조를 동시에 활용하는 프로그램이 가지는 한계와 이를 극복하기 위한 시도들을 살펴봄으로서 소셜네트워크의 분석을 위한 접근 방안을 고찰해 보고자 한다. 2장에서는 실험에 사용된 인터넷 커뮤니티인 MLBPark 게시판

02( ) SAV12-19.hwp

2005CG01.PDF

의료영상분석에있어딥러닝의응용사례에대해살펴본다. 2 장에서는딥러닝의개요와관련주요기술들에대해역사와원리를소개한다. 3장에서는최근의료영상분석에딥러닝이응용된사례에대해정리한다. 4장에서는추후의료영상분석에있어딥러닝의응용가능성에대해언급함으로써결론을맺는다. 딥러닝의개요 1. 인공신경망

사회통계포럼

○ 제2조 정의에서 기간통신역무의 정의와 EU의 전자커뮤니케이션서비스 정의의 차이점은


(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

Parallel Computation of Neural Network

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구


Slide 1

(JBE Vol. 22, No. 2, March 2017) (Special Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

(JBE Vol. 24, No. 4, July 2019) (Special Paper) 24 4, (JBE Vol. 24, No. 4, July 2019) ISSN

C 언어 강의노트

PowerPoint 프레젠테이션

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Sep.; 26(10),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

42.hwp

Interactive Transcribed Dialog Data Normalization

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DB1E8B1A4BFEB>

DBPIA-NURIMEDIA

i-movix 특징 l 안정성 l 뛰어난화질 l 차별화된편의성

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE May; 29(5),

PowerPoint 프레젠테이션

DBPIA-NURIMEDIA

Transcription:

46 특집 : 딥러닝기반방송미디어기술 특집 딥러닝기반방송미디어기술 딥러닝기반의음성 / 오디오기술 Speech/Audio Processing based on Deep Learning 이영한 / KETI Ⅰ. 서론 인간의두뇌를모델링하는뉴럴네트워크연구는 1940 년대신경세포의모델링부터시작하여현재까지다양한기술이축적되어왔다. 특히 backpropagation 이제안된이후에 multilayer perceptron 에대한훈련이가능해지면서뉴럴네트워크는큰관심을받았다. 하지만 layer 를쌓을수록성능이향상되기보다 local minima 에빠져성능이오히려낮아지는경우가보고되면서한동안뉴럴네트워크는침체기를맞이하였다. 하지만 2006 년 layer 를쌓더라도 local minima 에빠지지않고성능이향상될수있는 DBN, RBM 개념을시작으로다계층구조에서도훈련이가능한방법들이소개되면서다시뉴럴네트워크가주목받기시작했다 [1-3]. 특히그시 작은음성인식이었다 [4]. 즉, DBN 구조의딥러닝기술이음성인식에활용하면서기존의 GMM-HMM framework 에서가지고있던성능의한계를넘어섰다. 특히 2012 년에 ILSVRC 에서이미지분류기술에 CNN 기반의 deep learning 이적용되면서과년도성능은물론이고당해 2위와도상당한격차를나타내면서 1위를달성하는 Alex-net 이소개되면서다양한분야에서 deep learning 에대한연구가진행되고있다 [5]. 음성 / 오디오분류 / 검증 / 인식, 이미지검색 / 분류 / 분할, 객체검출, 이미지캡셔닝, 동영상검색 / 분류등다양한분야에서 deep learning 을적용한예가소개되고있으며대부분의연구에서 state-ofthe-art 의성능을보이며연구를이끌고있다 [3-6]. 본고에서는위에서설명한다양한연구분야중에서음성 / 오디오분석에서의딥러닝적용사례를 본논문은미래창조과학부 SW 컴퓨팅산업원천기술개발사업 ( 과제번호 R0190-16-1115) 을지원받아수행한결과입니다. 46 방송과미디어제 22 권 1 호

딥러닝기반의음성 / 오디오기술 47 소개한다. 이에앞서음성 / 오디오분석에사용되는기본딥러닝구조인 RNN 구조에대해설명한다. 이후음성과오디오처리에서의딥러닝사례를소개하고각사례가가지는의미를정리한다. Ⅱ. 음성 / 오디오분석에사용되는딥러닝기술 1. Recurrent Neural Network 음성 / 오디오분석은영상처리와다르게원데이터의형식이일반적으로 1차원데이터라는점과, 시계열이라는특징을가지고있다. 따라서시계열처리를위한딥러닝기법이음성 / 오디오분석에많이활용되고있다. 초기에는입력신호에현재데이터뿐만아니라, 과거및미래데이터를결합하여 overlap-shift 방식으로처리하면서 DBN 구조로분석에활용하였다 [7]. 하지만최근에는 Recurrent Neural Network(RNN) 구조를이용한시계열처리방식에딥러닝을적용하는형태로연구가많이진행되고있다. RNN 구조는 < 그림 1> 과같이기존의 hidden layer 에서 loop 가추가된형태를의미한다. 즉, < 그림 1> 의오른쪽과같이 unfolding 하여 설명이가능한데, 과거에입력된신호가입력신호의형태로영향을주는것이아니라, hidden layer 를통해서영향을주는형태이다. RNN은이미 1980 년대에제안된구조였지만딥러닝연구를만나면서다시조명받고있다. 특히, 음성인식뿐만아니라, 언어처리, sequence-to-sequence 등의연구에서채택되어활용되고있다. RNN이다양한연구에활용될수있는이유는 < 그림 2> 에서보듯이입력과출력의관계를통해다양한응용분야로활용될수있기때문이다. 특히, 입력신호를 X 0 에만입력하더라도 hidden layer 를통해서 X 1 이후의처리에서도출력을추출할수있다. 또한 loss function 의적용범위에따라출력결과도다양한형태로처리가가능하다. 기본뉴럴네트워크는 < 그림 2>(a) 의형태로볼수있으며, < 그림 2>(b) 의경우이미지캡셔닝등의연구, < 그림 2>(c) 의형태는행동인지, 화자인식등의연구, 그리고 < 그림 2>(d),(e) 는기계번역이나음성인식등의다양한연구에채택되어활용할수있다는장점을가지고있다. 기본 RNN의내부구조는 < 그림 3> 와같은형태로되어있다. 즉, 상위 layer 로전달되는출력을다음시간대에서입력과동시에받아처리하는구조이다. RNN 구조는 Long-term dependencies 측 < 그림 1> RNN 개념도 [8] 2017 년 1 월 47

48 특집 : 딥러닝기반방송미디어기술 < 그림 2> RNN 활용예 (a) one-to-one, (b) one-to-many, (c) many-to-one, (d) many-to-many, (e) synced many-to-many[9] < 그림 3> Simple RNN 구조도 [8] 면에서이론상으로는시간상멀리떨어진내용도잘모델링할수있어야하지만실제로는오래된과거내용은처리하지못하여성능이떨어진다는단점이있다. 이는 gradient vanishing 에의해발생하는현상이며구체적으로는 back-propagation through time 을연산하는데있어 gradient 가수렴하는것으로인해발생한다. 2. Long Short-term Memory(LSTM) LSTM은 gradient vanishing 을방지하기위해제안된기술중하나이다. 이는 1997 년에이미제안된구조로현재기본구조외에다양한변형 LSTM 도연구가많이되고있다. 기본적인 LSTM 의구조는 < 그림 4> 와같다. RNN과비교를하면 hidden layer 내에메모리기능을넣는동시에메모리를조절 ( 쓰기 / 지우기 / 출력하기 ) 할수있도록하며이를훈련을통해서얻자는것이기본아이디어이다. 실질적으로 hidden layer 의출력이다음시간대로전달되는 RNN과비교하여별도의정보를추가적으로전달하면서처리할수있도록하였다. 일반적으로 LSTM 은기존의 RNN과비교하여 Long-term dependencies 문제에강인한것으로알려져있으며훈련하는데시간과데이터가더많이필요로하지만풍부한데이터가확보된상황에서는향상된성능을보이는것으로알려져있다. 48 방송과미디어제 22 권 1 호

딥러닝기반의음성 / 오디오기술 49 < 그림 4> LSTM 구조도 [8] 3. Bidirectional RNN 일반적인 RNN 구조에서는과거의정보를현재와미래의처리를위해활용하는구조로되어있다. 하지만특정연구분야에서는미래의정보가현재및과거의정보를처리하는데도움을줄수있기도하다. 예를들면, 어순이다른기계번역을하는연구를들수있다. 이러한특성을고려하기위해 backward directional RNN 방식이제안되었으며, 또한 forward directional RNN 방식과혼합하여사용하는 bidirectional RNN 방식이제안되었다. < 그림 5> 는 bidirectional RNN 에대한구조에대해묘사하고있다. 특징적으로는 forward layer 와 backward layer 를분리하여다계층으로사용하며, 최종출력을연산하는 layer 에서만병합하여사용한다. 일반적으로기존의 forward directional RNN 보다성능이향상되는것으로알려져있지만, 구조상첫입력에대한출력역시최종입력을필요로하기때문에알고리즘지연이발생한다는단점이존재한다. Ⅲ. 딥러닝기반의음성분석사례 1. 음성인식음성인식은음성 / 오디오분석의대표적인응용 < 그림 5> Bidirectional RNN 구조도 [10] 2017 년 1 월 49

50 특집 : 딥러닝기반방송미디어기술 분야로다양한방식을딥러닝기법이소개되기전에는 GMM-HMM 기반의음성인식기술이주를 시에알고리즘지연을조절할수있도록하여실시간서비스에한층다가섰다. 이루었다. 2006 년딥러닝이소개된이후, GMM- HMM에서 DBN-HMM 기반의음성인식기술이소개되면서음성인식성능이급격하게향상되었다 [7,11,12]. 특히대용량음성데이터의확보와맞물리면서 DBN-HMM 기반의기술을넘어서 deep speech 와같이 spectrogram 에서캐릭터단위로인식하는기술까지소개되었다 [13,14]. 특히 deep speech 는 end-to-end 딥러닝이적용되었다는점에서시사하는바가크다. Deep speech[13] 는 2014 년 Baidu에의해소개되었다. 세부적으로는 spectrogram 을입력으로하여 CNN과 LSTM 기반의딥러닝모듈을활용하여개발되었다. 특히 bidirectional LSTM 을적용하여성능을향상시켰지만 backward direction 때문에발생하는알고리즘지연으로인해실시간서비스제공에단점이존재했다. 2015 년소개된 deep speech v2[14] 에서는 bidirectional LSTM 대신 row convolutional layer 를활용하여과거일정시간의정보를활용하는동 < 그림 7> End-to-end 딥러닝기반음성인식 [13] 2. 음성합성 음성합성은음성인식의반대되는개념으로문 as 1 S 1 as 2 S 2 as k S k Transition Probabilities as k S k as 1 S 2 as 2 S 3 as k-1 S k s1 s2 sk sk HMM 자를음성신호로변환하는기술을의미한다. 일반적으로 unit-selection concatenation 방식과 synthesis 방식으로구분할수있다. Unitselection 방식은일정단위의음소또는단어를이어붙여서단어나문장을생성하는기술이다. 유닛 h (M) h (M-1) W M DNN Observation Probabilities DB의크기에따라음질이좌우되며상대적으로 synthesis 방식에비해음질이좋은것으로알려져있다. 반면, synthesis 방식은음소에해당하는신 h (1) v W 1 호를 LPC 계열의 vocoder 를활용하여합성하는방식이다. 일반적으로 HTS(HMM-based speech Observation synthesis system) toolkit[15] 을많이활용하며작은용량으로 MOS 3.0 이상의음질을제공하는 < 그림 6> DBN-HMM 기반음성인식구조도 [7] 것으로알려져있다. 음성합성에서딥러닝기술 50 방송과미디어제 22 권 1 호

딥러닝 기반의 음성/오디오 기술 51 은 synthesis 방식에 적용된 사례가 소개되었다. HTS 개발자인 Heiga zen의 ICASSP 2014, 2015 논문에 의하면 DNN 구조를 이용하여 학습을 하 였고 prosody trajectory를 보면 기존의 HMM 기 반의 방식보다 딥러닝을 적용했을 때 향상된 것을 확인할 수 있다. 음질 평가에 대한 결과 역시 <그림 8> Unit-selection 기반의 음성합성[16] DNN 구조에 대해 선호도가 높은 것으로 나타났 다[18]. 최근에는 음성을 딥러닝을 이용하여 sample 단위 로 생성하는 구조가 제안되었다. Google Deepmind 에서 제안한 Wavenet와 캐나다 몬트리올 대학 연구 팀이 제안한 samplernn이 있다[19-20]. Wavenet 은 RNN 구조가 아닌 Causal convolutional layer 라는 개념으로 과거의 정보를 이용할 수 있는 구조 를 제안하였다. HTS와 음질 평가를 진행하였는데, 음질 선호도 테스트에서 기존의 방식인 HTS에 비 해 향상된 음질을 제공하는 것을 확인하였다. <그림 9> HMM 기반의 음성합성[17] SampleRNN은 각 오디오 샘플 단위의 생성이 가 능하다는 점이 차별점이며 tier라는 개념으로 높은 tier의 구조일수록 recurrent 성분이 아닌 입력 성 분에 대해 super frame의 개념으로 접근할 수 있 다는 점이 특징이다. 논문에서는 자체 구현한 Wavenet과의 음질 선호도 평가를 진행하였는데, 제안한 samplernn이 Wavenet보다 향상된 품질을 제공하는 것으로 나타났다. 두 방식의 단점으로는 소리를 sample 단위로 생성하기 때문에 연산량이 높다는 점이다. Wavenet이나 samplernn은 음성 합성을 목적 으로 개발된 딥러닝 기법은 아니지만, 소리 생성에 대한 모델링을 통해서 음성 합성의 새로운 접근 방 법으로 활용할 수 있다는 점에서 큰 관심을 가지고 있다. <그림 10> DNN 기반의 음성합성[18] 2017년 1월 51

52 특집 : 딥러닝기반방송미디어기술 < 그림 11> 독립모델기반의드럼전사구조도 [21] Ⅳ. 딥러닝을활용한오디오분석사례 1. 드럼전사 (Transcription) 기술 드럼전사기술은드럼에사용되는 kick, snare 그리고 hi-hat 의타격시점을찾는기술이다. 이기술은나중에음악의박자를찾는데활용되며장르분류에도큰영향을주는정보이기때문에음악분류기술중에중요한분야라할수있다. 2016 년 ISMIR 학회에서 < 그림 11>, < 그림 12> 와같이동일한주제에대해논문이투고되었다. 두연구모두 RNN의구조를활용하여제안되었다. 특히 forward direction RNN뿐만아니라. Backward, Bi-directional RNN 등다양한구조에대해진행한결과가공유되었다. 먼저 1논문에서는입력신호를이용하여 kick, snare, hi-hat 에대해각각다른모델을구성하여처리하였으며 2논문에서는단일모델로하여 multi-label 구조로구성하였다. 성능은두연구모두기존의방식보다향상된결과를도출하였다. 다만 LSTM 이나 GRU를사용하지않고 Simple RNN을사용하여연구를진행하였다는점이특징이다. 2. 자동태깅기술 < 그림 12> 단일모델기반의드럼전사예시 [22] 자동태깅기술이란입력된음악에대해장르정보및분위기등과같은 meta-data 를찾아주는기술이다. 2016 년 CNN을기반으로자동태깅기술을구현하는방법이제안되었다 [23]. 제안된자동태깅기술의알고리즘대표도는 < 그림 13> 와같다. 일반적으로오디오신호처리에서 RNN 계열의딥러닝을사용하는데비해본논문은 CNN을기반으로한다는점이특징이다. 다양한길이를가지는오디오 52 방송과미디어제 22 권 1 호

딥러닝기반의음성 / 오디오기술 53 < 그림 13> CNN 기반의자동태깅기술구조도 [23] boundary detection 과분할된단위의라벨을분류하는 label classification 으로구성된다. 2014년 boundary detection 을위한방법으로 CNN을이용한기법이소개되었다 [24]. 제안된방식에서는자동태깅기법과마찬가지로 mel-spectrogram 을입력으로사용하였고, frame 별경계유무를판별하기위해서 sliding-window 기법으로결과를도출하였다. 입력된 mel-spectrogram 대비 boundary detection 결과는 < 그림 14> 와같다. 신호의특성을풀기위해제안된연구에서는입력 mel-spectrogram 에서가운데특정길이만큼의 frame 을활용하여 CNN의입력으로사용하였다. 또한일반적인분류시스템이단일라벨을기준으로훈련을하였다면제안된연구에서는멀티라벨을기준으로하여훈련을하였다는것이특징이다. 3. 오디오분할 (Segmentation) 기술오디오분할기술은주어진오디오에대해시간단위로전주 / 간주등과같은단위로컨텐츠를분할하는기술이다. 구체적으로는경계검출을위한 4. 보이스핀포인트 (pinpoint) 보이스핀포인트기법은 1차적으로 weak label 되어있는 database 를활용하여 hard label 인음성구간을검출하고 spectrogram 상에서음성구역을검출하는기술을말한다. 여기서 weak label 이란음성구간에대해 label 되어있는데이터셋이아닌파일단위에서음성의유무로만 label 이되어있는데이터셋을의미한다. 즉, 직접적인목표인음성구간에대해 label 되어있진않지만그보다 rough 하게 label 되어있는경우를의미한다. 2016 년 CNN 기법을활용하여검출하는기술이소개되었다 [25]. 먼저 CNN을 weak < 그림 14> CNN 기반의 boundary detection 결과예시 [24] 2017 년 1 월 53

54 특집 : 딥러닝기반방송미디어기술 < 그림 15> 보이스핀포인트처리순서도 [25] label 을이용하여 sliding window 방식으로훈련을한다. 이렇게할경우 < 그림 15>(f) 에서보는것과 같이정확하진않지만음성이없는구간에서 confidence 수치가낮아지는것을확인할수있다. 이 54 방송과미디어제 22 권 1 호

딥러닝기반의음성 / 오디오기술 55 는음성이없는파일에서훈련된영향이다. 이렇게나온결과치를 label 로활용하는과정을반복함으로써제안된연구에서는음성구간을검출하였다. 이와함께 guided back-propagation 을이용하여 < 그림 15> 와같이 spectrogram 상에서음성구역만찾는것으로활용하였다. Weak label 을통해 hard label 을추정할수있다는점이특징인데, 실제 label 을만드는작업에많은시간과비용이소비되는점은감안하면제안된연구가가지는시사점은높다고할수있다. 5. 오디오분리 (Separation) 기술오디오분리기술은시간축에서정보를나누는 오디오분할과달리이미시간축에서혼합되어있는신호를특성별로분리하는기술을의미한다. 예를들면음성제거, 악기추출등이오디오분리기술에속한다고볼수있다. 2015년에는 NMF 기반의오디오분리기술이소개되었다 [26]. 하지만 NMF의경우오디오신호성분의특성별분리는가능하지만분리된성분이악기나음성에해당하는지분류하지못한다는단점이있다. 이러한점을해결하기위해 2014년관련연구가제안되었다. 전체구조는 < 그림 16> 과같고각 latent source별분류를통해서최종적으로 snare 와 kick의오디오신호를분리하는연구다. NMF의 base를이용하여분류하는방식을채택하였으며딥러닝구조로는 DBN 구조로하여구현하였다. Rows of H 1 2 3 50 100 150 200 120 100 80 60 40 20 Frequency (DFT index) 1 2 3 50 100 150 Bases from all Wt Time (DFT slices) 200 Activation Activation Kick 1 0.5 0 0 100 200 300 400 500 600 700 800 900 1000 Frames 1 0.5 Snare Softmax: 3 W 4 Hidden layer 3: 128 W 3 Hidden layer 2: 256 W 2 Hidden layer 1: 128 0 0 100 200 300 400 500 600 700 800 900 1000 Frames W 1 Input layer : 128 < 그림 16> 딥러닝을활용한 NMF 기반의음성분리성분분류 [26] 2017 년 1 월 55

56 특집 : 딥러닝기반방송미디어기술 특히제안된기법의경우기존에사용하던방식과비교하여특징벡터추출등의과정이딥러닝구조내부로흡수되면서보다간단하게구현되었다는점이특징이다. Ⅴ. 결론 본고에서는딥러닝기반의음성 / 오디오분석기술에대해살펴보았다. 기본적으로음성 / 오디오분석에사용되는딥러닝구조에대해살펴보았으며이를활용한다양한분야의예시를살펴보았다. 이미지 / 영상에비해음성 / 오디오와관련된딥러닝연구는상대적으로접근하기쉽지않다. 먼저음성의경우각언어별기본적으로사용하는언어처리가필요하기때문에변환이필요하다. 또한한국어데이터베이스의경우공개된데이터양이부족 하거나대부분비공개데이터베이스이기때문에쉽게접근하기어렵다. 오디오의경우에는저작권문제로인해데이터베이스의공유가어렵다는한계를지니고있다. 따라서 label 파일을공유하더라도데이터베이스는자체적으로구축해야하는단점이있다. 이를해결하기위해 internet archive 을사용하거나 raw-audio 가아닌 feature level 에서의데이터를생성하여공유하는방안으로접근중이지만, 여전히상용오디오와특성이다르거나 feature 에의한손실이존재하기때문에근본적인해결책이되지못하고있다. 그럼에도음성은기본적인커뮤니케이션수단이라는점과컨텐츠소비시장에서오디오의비중이여전히높기때문에음성 / 오디오분석에대한연구및요구는지속될것으로예상된다. 특히기존의기법보다향상된성능을확보하기위해딥러닝을적용하는연구는많은관심을받을것으로예상된다. 참고문헌 참고문헌 [1] Hinton, Geoffrey E. et al. Reducing the dimensionality of data with neural networks. Science, (2006) [2] Hinton, Geoffrey E., Simon Osindero, and Yee-Whye Teh. A fast learning algorithm for deep belief nets. Neural computation 18.7 (2006): 1527-1554. [3] Bengio, Yoshua, et al. Greedy layer-wise training of deep networks. Advances in neural information processing systems 19 (2007): 153. [4] Hinton, Geoffrey, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine 29.6 (2012): 82-97. [5] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems. (2012). [6] Donahue, Jeffrey, et al. Long-term recurrent convolutional networks for visual recognition and description. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2015). [7] Dahl, George E., et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. IEEE Transactions on Audio, Speech, and Language Processing 20.1 (2012): 30-42. ^ [8] Understanding LSTM Networks, http://colah.github.io/posts/2015-08-understanding-lstms/ [9] The Unreasonable Effectiveness of Recurrent Neural Networks, http://karpathy.github.io/2015/05/21/rnn-effectiveness/ [10] Schuster, Mike, and Kuldip K. Paliwal. Bidirectional recurrent neural networks. IEEE Transactions on Signal Processing, IEEE, (1997) 56 방송과미디어제 22 권 1 호

딥러닝기반의음성 / 오디오기술 57 참고문헌 참고문헌 [11] Mikolov, Tomás, et al. Strategies for training large scale neural network language models. Automatic Speech Recognition and Understanding (ASRU), 2011 IEEE Workshop on. IEEE, (2011). [12] Graves, Alex, Abdel-rahman Mohamed, and Geoffrey Hinton. Speech recognition with deep recurrent neural networks. 2013 IEEE international conference on acoustics, speech and signal processing. IEEE, (2013). [13] Hannun, Awni, et al. Deep speech: Scaling up end-to-end speech recognition. arxiv preprint arxiv:1412.5567(2014). [14] Amodei, Dario, et al. Deep speech 2: End-to-end speech recognition in English and mandarin. arxiv preprint arxiv:1512.02595(2015). [15] A.W. Black, H. Zen, K. Tokuda, Statistical parametric speech synthesis. 2007 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, (2007). [16] Speech Synthesis, http://slideplayer.com/slide/3148265/ [17] http://www.slideshare.net/danilosoba1/statistical-parametric-speech-synthesis-heiga-zen [18] Zen, Heiga, Andrew Senior, and Mike Schuster. Statistical parametric speech synthesis using deep neural networks. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, (2013). [19] van den Oord, Aäron, et al. Wavenet: A generative model for raw audio. arxiv preprint arxiv:1609.03499(2016) [20] Soroush Mehri, et al. SampleRNN: An Unconditional End-to-End Neural Audio Generation Model. https://openreview.net/forum?id=skxkpdv5, under review on ICLR 2017. [21] Southall, Carl, Ryan Stables, and Jason Hockman. AUTOMATIC DRUM TRANSCRIPTION USING BI-DIRECTIONAL RECURRENT NEURAL NETWORKS. Proceedings of the International Society for Music Information Retrieval Conference (ISMIR). (2016). [22] Vogl, Richard, Matthias Dorfer, and Peter Knees. RECURRENT NEURAL NETWORKS FOR DRUM TRANSCRIPTION. Proceedings of the International Society for Music Information Retrieval Conference (ISMIR). (2016). [23] Choi, Keunwoo, George Fazekas, and Mark Sandler. Automatic tagging using deep convolutional neural networks. Proceedings of the International Society for Music Information Retrieval Conference (ISMIR). (2016). [24] Schlüter, Jan, Karen Ullrich, and Thomas Grill. Structural segmentation with convolutional neural networks mirex submission. 10th running of the Music Information Retrieval Evaluation exchange (MIREX 2014) (2014). [25] Schlüter, Jan. Learning to pinpoint singing voice from weakly labeled examples. Proceedings of the International Society for Music Information Retrieval Conference (ISMIR). (2016). [26] Leimeister, Matthias. Feature learning for classifying drum components from nonnegative matrix factorization. Audio Engineering Society Convention 138. Audio Engineering Society, (2015). 필자소개 이영한 - 2005 년 2 월 : 광운대학교전자공학과학사 - 2007 년 2 월 : 광주과학기술원정보통신공학과석사 - 2011 년 8 월 : 광주과학기술원정보통신공학부박사 - 2011 년 7 월 ~ 2014 년 12 월 : LG 전자기술원선임연구원 - 2015 년 1 월 ~ 현재 : 전자부품연구원근무 - 주관심분야 : 음성 / 오디오신호처리, 머신러닝 2017 년 1 월 57