Chapter 10 멀티미디어 - 사운드 (Sound)
Contents 1. 사운드개념 2. 사운드데이터및코딩 3. 사운드데이터처리 4. 사운드데이터응용
1. 사운드개념 1. 사운드정의 A. 물체의진동으로인해일어나는물리적현상예 ) 바이올린현을켜거나심벌즈를부딪칠때나는진동 B. (Wikipidia) Sound is the vibration of matter, as perceived by the sense of hearing. Physically, sound is vibrational mechanical energy that propagates through matter as a wave.
1. 사운드개념 1. 사운드원리 A. 물체진동이주변공기로퍼지면서형성된압력으로인하여귀에있는고막이떨리면서사람이차이를인지함 B. 파형 (Wave) 일정간격으로같은패턴을반복하는압력의파동모양 (1 주기 )
1. 사운드개념 1. 주기 (cycle, period) A. 같은파형이한번나타나는데소요되는시간 ( 단위초 ) B. 주기적인형태의사운드 (periodic sounds) 인지할수있는주기성을갖는사운드 새의지저귐 C. 비주기적인형태의사운드 (non-periodic sounds) 주기적사운드의반대개념 재채기, 노이즈 2. 주파수 (frequency) A. 1 초당주기수, 주기값의역수 B. 단위 Hz 공기압 (air pressure) 진폭 (amplitude) 시간의경과 한주기 (one period)
1. 사운드개념 1. 사운드신호의가청주파수 A. 가청주파수란사람의청력으로들을수있는주파수대역을의미 B. 사람의가청주파수 : 20 Hz ~ 20 khz 가청주파수의대역폭은동물마다다름 : 예 ) 박쥐, 돌고래 C. 사운드신호의변조및하드웨어설계등사운드처리에이용
1. 사운드개념 1. 가청주파수테스트 (10Hz, 100Hz, 1000Hz, 10000Hz) 2. 5 초 192,000 Hz 샘플링
1. 사운드개념 1. 10 Hz
1. 사운드개념 1. 100 Hz (0 ~ 1 초구간확대 )
1. 사운드개념 1. 1000 Hz, 10000Hz
1. 사운드개념 1. 사운드의강도 (intensity) A. 심리적인요인을배제한물리적인사운드의크기 참고 ) 세기 (loudness) : 심리적으로느끼는사운드의크기 B. 사운드강도단위 : 데시벨 (db, Decibel) db = 10 log 10 (A / B) A: 측정강도 B: 가청문턱값 1.0*10-12 (1m 2 에작용하는힘 ) C. 고통임계값 (threshold of pain): 100 db ~ 120 db 사운드데이터에대해서처리할사운드강도의범위를 설정하는것등에유용하게사용이가능함
2. 사운드데이터및코딩 1. 사운드데이터코딩 (coding) A. 인코딩 (encoding) - Encoder 아날로그신호를디지털신호로변환한후전송선로를통하여전송하거나기억장소에저장하기전에압축하는과정 B. 디코딩 (decoding) - Decoder 전송되거나기억장소에저장된디지털신호를원래의아날로그사운드신호로복원하는과정 C. 인코딩 + 디코딩모듈 : 코덱 (Codec)
2. 사운드데이터및코딩 1. 사운드코딩기법 A. 파형코딩 B. 음원코딩 C. 혼성코딩 2. 코딩기법비교 음질 (MOS) 매우좋음좋음 혼성코딩 파형코딩 보통 나쁨 음원코딩 매우나쁨 2 4 8 16 32 46 전송률 (Bit Rate)
2. 사운드데이터및코딩 - 파형코딩 1. 파형코딩 (Waveform coding) A. 사운드를 1 차원시계열 (time-series) 데이터로규정하여사운드파형자체를복원가능하도록코딩하는방법 B. 방법들 PCM (Pulse Code Modulation) DPCM (Differential PCM) ADPCM (Adaptive DPCM)
2. 사운드데이터및코딩 - 파형코딩 1. PCM (Pulse Code Modulation) A. 연속적으로변화하는아날로그신호의강도를주기적으로샘플링하여저장하는방법 가령 ) 3 비트로표현되는디지털값으로저장한다면 s1=4(100), s2=6(110), s3=7(111), s4=7(111), s5=7(111), s6=6(110) 신호의강도 7 6 5 4 3 2 1 0 s1 s2 s3 s4 s5 s6 시간의경과
2. 사운드데이터및코딩 - 파형코딩 1. PCM (Pulse Code Modulation) - 계속 A. 샘플링기법 : 일정한시간간격으로알아낸아날로그신호의크기를디지털데이터의형태 ( 양자단위 ) 로저장하는방법 - 가령, 실수를정수로저장, 정수를 4의배수로저장등 B. 양자화잡음 (quantization noise) 원래신호값과양자로표현된신호값과차이 원래아날로그신호가갖고있는변화폭이작거나디지털데이터의단위당비트수가클수록그크기가감소 C. 나이퀴스트정리 : 원래의아날로그신호가갖는주기보다 2배이상빠른주기로샘플링하면원래신호와거의차이가없는사운드정보를얻게됨 예 ) 가청주파수 20Hz ~ 20 KHz 음악 CD : 1 초에 44,100 회 (44.1 khz) 샘플링
2. 사운드데이터및코딩 - 파형코딩 1. DPCM (Differential PCM) A. 바로이전에샘플링되었던신호값과의차이를코딩하는방법 B. 아날로그신호는인접한범위내에서그크기변화가 심하지않기때문에 DPCM이가능 2. ADPCM A. 미리예상한신호값과원래의신호값의차이에따라스케일 (scale) 을다르게하여코딩하는방법 B. 압축알고리즘단순성과뛰어난음질로여러분야에서응용됨
2. 사운드데이터및코딩 - 파형코딩 신호의강도 7 6 5 4 3 2 1 0 s1 s2 s3 s4 s5 s6 시간의경과 1. PCM 4 6 6 7 7 6 2. DPCM 4 2 0 1 0-1 3. ADPCM 4 1 0 1 0-1 x2 x2 x1 x1 x1
2. 사운드데이터및코딩 - 파형코딩 1. 사람의음성 A. 대역폭 : 약 4 khz B. 샘플링 : 8 khz C. 샘플당사용되는데이터최소비트수 : 2 bits D. 코딩에필요한최소전송률 : 8 khz * 2 bits = 16 Kbps E. 16 Kbps 이상전송률을사용시원음과가깝게재현할수있음 2. CD 의음질 A. 가청주파수대역폭 : 약 20 khz B. 샘플링 : 44.1 khz C. 샘플당사용되는데이터최소비트수 : 16 bits (2 bytes) D. 코딩에필요한최소전송률 : 44.1 khz * 16 bits * 2 Channel
2. 사운드데이터및코딩 - 파형코딩 1. 사운드예 - Stereo
2. 사운드데이터및코딩 - 파형코딩 1. 파형변화의예
2. 사운드데이터및코딩 - 파형코딩 1. 파형에대한디지털데이터
2. 사운드데이터및코딩 - 파형코딩 1. SBC (Sub-band coding) A. 아날로그신호를주파수대역상에서다수개의주파수대역으로분리한후에각아날로그신호에대해코딩방법을적용 B. SBC 예 ) 1) 아날로그신호의주파수대역을 5개로분할 2) 각주파수대역만추출하기위한대역통과필터를적용 3) 5개새로운아날로그신호획득 4) 각각의새로운신호에대해 PCM, DPCM, ADPCM 등음성코딩방법을적용 C. 장점 인간의청각특성을이용한처리가용이 특정주파수대역에대한코딩과정에서일어날수있는양자화잡음은다른주파수대역의코딩에영향을미치지않음
2. 사운드데이터및코딩 - 음원코딩 1. 음원코딩 (source coding) A. 인간의음성생성과정을기본모델로하는음성코딩기법 B. 장점 C. 단점 음성을몇개의파라미터로코딩하므로, 정보량이작음 기존에개발된음성생성모델이인간의음성생성과정에비해매우단순하여고품질합성음코딩에적절치않음
2. 사운드데이터및코딩 - 혼성코딩 1. 혼성코딩 (hybrid coding) A. 파형코딩을이용하여여기 (excitation) 신호를생성하고, 음원코딩을사용하여조음기관의공명특성을반영하는정보를재현 B. 적용사례 RELP(Residual Excited Linear Prediction), MBE(Multi-Band Excitation) MP-LPC(Multi Pulse LPC) CELP(Codebook Linear Excited Prediction)
2. 사운드데이터및코딩 - 저장 1. 사운드카드 A. Analog-to-Digital 및 Digital-to-Analog 컨버터역할 2. 오디오화일포맷 A. Waveform (.wav) MS와 IBM에의해서지원받고있는포맷 압축없이사운드데이터를저장 B. CD-Audio (.cda) 필립스와소니의공동연구로등장한 CD의사운드정보를담기위해사용하고있는포맷 C. Real Audio (.ra,.ram,.rm) 네트워크상의실시간스트리밍기술에의해만들어진화일포맷
2. 사운드데이터및코딩 - 저장 1. 오디오화일포맷 - 계속 A. MP3 (MPEG-1 Audio Layer-3) 동영상오디오신호의효과적사용을위한압축방식 지각코딩 (Perceptual Coding) 기법사용 - 인간의청각심리모델을사용하여감도가낮은정보를생략하여코딩량을절감하는방법 방법 ) 인간의가청주파수를 32개밴드로분해후각각의신호를 18 개의서브밴드코딩, 변형이산코사인변환, 허프만코딩을통해다시코딩함. 각밴드에서가장강한음의성분에대한정보만을선택하고, 나머지음에대한정보를삭제 B. WMA, WMV C. 기타 MS사가만들었으며, 스트리밍을지원하고데이터용량이 MP3의절반수준인화일포맷 (wma, wmv) OGG ( 무료음악파일형식 ), VQF (NTF 에의한압축파일포맷 ) 등
3. 사운드데이터처리 1. 스펙트럼 (Spectrum) A. 아날로그파형을푸리에 (Fourier) 분석을이용해여러개의다양한주파수와진폭을갖는스펙트럼인자로분해하여표현가능
3. 사운드데이터처리 1. 스펙트럼 (Spectrum) - 계속 A. 각스펙트럼인자들을중첩하면분석전의원래파형모양에근사하게됨 B. 고차원의사운드처리기법들을다룰수있어서 다양한응용분야에이용되고있음
3. 사운드데이터처리 - 음성인식 1. 음성인식정의 A. 음성에포함된언어적인정보를추출하여컴퓨터가이해할수있는표현방법으로변환하는과정 2. 음성인식과정 A. 화자에의해발성된음성이여러단계를거쳐최종적으로컴퓨터에의해인식되는것 음성인식기훈련과정 음성입력 훈련과정 표준패턴생성 전처리 ( 특징추출 ) 분할 인식과정 인식결과
3. 사운드데이터처리 - 음성인식 1. 음성인식과정 A. 전처리 (preprocessing) : 음성신호로부터의미있는음성구간을검출하고, 음향학적인파라미터로변환 B. 분할 (segmentation) : 인식을위해정의된인식단위로입력된음성을잘라내는것 C. 인식 (recognition) : 분할된음성단위들을인식하는것 2. 음성인식의분류기준분류내용 인식대상 인식대상어휘 화자독립화자종속고립단어인식연결단어인식연속음성인식핵심어인식 불특정다수의화자의음성만을인식특정한화자의음성을인식하나의단어만이발성됨여러단어가짧은휴지기간를갖고서로연결됨여러단어를연속적으로발음됨일상대화체에서핵심단어만인식
3. 사운드데이터처리 - 음성인식 1. 음성인식방법들 A. 패턴정합법 : 참조패턴과주어진입력패턴을비교하여둘간의유사성정도를측정 참조패턴 DB a a b c
3. 사운드데이터처리 - 음성인식 1. 음성인식방법들 1. 지식에기반을둔방법 : 사람의음성인식과정을규칙의형태로저장한후입력되는음성에대하여저장된규칙을적용하여인식하는방법
3. 사운드데이터처리 - 음성인식 1. 음성인식방법들 1. 벡터양자화이용방법 : 입력패턴과양자화코드북내에있는코드워드라고불리는일종의표준패턴들사이의거리를측정하여거리가가장가까운코드워드에입력패턴을매칭하는방법
3. 사운드데이터처리 - 음성인식 1. 음성인식방법들 A. 은닉마르코프모델 (Hidden Markov Model) 통계학적방법으로음성인식에서가장널리쓰이는방법 음성데이터의확률적모델간의유사도를사용하여인식을수행
3. 사운드데이터처리 - 음성인식 1. 음성인식방법들 A. 신경회로망 (Neural Network) 뇌의정보처리과정을공학적으로모델링한방법 고립단어, 음소인식에뛰어난성능을보임
3. 사운드데이터처리 - 음성합성 1. 음성합성 A. 기계를이용하여사람의음성을인공적으로생성해내는것 B. 합성된음성신호를실제로말할때나타나는발음현상을적용 하여일상대화에서듣게되는음성신호와같게만들어야함 2. 고려해야할사항 A. 음향학적측면 인간의실제음성에더가까운사운드를내기위함 B. 언어학 ( 음운학 ) 적측면 동일한단어가문맥에따라다른발음되는현상을고려함예 ) 신을신고신고하러간다, 양복한벌 v.s. 옷한벌
3. 사운드데이터처리 - 음성합성 1. 음성합성분류 A. 제한어휘합성기법 미리정해진수의어휘를저장하고, 조합하여음성신호생성 구현은쉽지만어휘를단순연결하여사운드가부자연스럽고어색예 ) 자동응답시스템, 지하철등의안내방송 B. 무제한어휘합성기법 임의의문장을입력받아무제한으로음성을합성 예 ) TTS(Text-to-Speech)
http://www.oddcast.com/home/demos/tts/tts_example.php 1. 최신 TTS 기술활용 2. 사운드확인 A. Hello Everyone B. 안녕하세요
3. 사운드데이터처리 - 음성합성 음성분석부 음성입력 Corpus 대용량음성데이터베이스 단위음성데이터베이스 문장입력전처리언어처리부합성부합성음
4. 사운드데이터응용 1. 정보통신분야 A. 휴대폰음성인식 : 음성작동다이얼, 통화자확인등 B. 대화형음성인식 : 연속된다량의어휘의처리가가능한음성인식기개발 C. 말하는웹브라우저 : 음성명령만으로인터넷에접속해필요한정보검색 사용자와대화하면서인터넷을검색한후내용을낭독
4. 사운드데이터응용 1. 운송분야 A. 자동차네비게이션시스템 2. 교육분야 내장형음성작동시스템을탑재 네비게이션목적지지정을위한음성인식모듈개발 A. IBM SpeechViewer B. 인간의언어습관을교정 3. 재활분야 A. 음성으로작동하는휠체어 B. 음성인식프로세서를통한문서작성 4. 보안분야 A. 사용자출입을위한신원확인과조회