060412.hwp



Similar documents
회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

- 2 -


04 Çмú_±â¼ú±â»ç

안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정] 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규

<B1DDC0B6B1E2B0FCB0FAC0CEC5CDB3DDB0B3C0CEC1A4BAB82E687770>

한국의 양심적 병역거부

#7단원 1(252~269)교

4-Ç×°ø¿ìÁÖÀ̾߱â¨ç(30-39)

01¸é¼öÁ¤


60

2003report hwp

±³À°È°µ¿Áö

µ¶¸³Á¤½Å45È£


0.筌≪럩??袁ⓓ?紐껋젾 筌

<C1DF29BCF6C7D020315FB1B3BBE7BFEB20C1F6B5B5BCAD2E706466>

내지(교사용) 4-6부

2016년 신호등 3월호 내지A.indd

기본소득문답2

愿묒쭊援??섏젙諛깆꽌?댁?0907

CC hwp

33 래미안신반포팰리스 59 문 * 웅 입주자격소득초과 34 래미안신반포팰리스 59 송 * 호 입주자격소득초과 35 래미안신반포팰리스 59 나 * 하 입주자격소득초과 36 래미안신반포팰리스 59 최 * 재 입주자격소득초

<37322DC0CEB1C7BAB8C8A3BCF6BBE7C1D8C4A2C0C7B0DFC7A5B8ED5B315D2E687770>

CD 2117(121130)

B _00_Ko_p1-p51.indd

레이아웃 1

2 Journal of Disaster Prevention

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

성인지통계

5 291

PowerPoint Presentation

<B9AEC8ADC0E7C3A2766F6C2E31325FBDCCB1DB2E706466>

2016년 신호등 10월호 내지.indd

1. 상고이유 제1점에 대하여 구 도시 및 주거환경정비법( 법률 제9444호로 개정되기 전의 것, 이하 구 도시정비법 이라 한다) 제4조 제1항, 제3항은 시 도지사 또는 대도시의 시장이 정비구 역을 지정하거나 대통령령이 정하는 경미한 사항을 제외한

와플-4년-2호-본문-15.ps

coverbacktong최종spread

¾ç¼ºÄÀ-2

»êÇÐ-150È£

2016년 신호등 4월호 내지A.indd

1, 항소이유의 요지 가. 사실오인 및 법리오해 피고인이 피해자와 공사도급계약을 체결할 당시 피고인은 피해자에게 공사대금을 지 급할 의사와 능력이 있었으므로 피고인에게 사기죄의 유죄를 선고한 원심판결에는 사 실을 오인하거나 법리를 오해한 위법이 있어 부당하다. 나. 양

통신이론 2 장주파수해석 성공회대학교 정보통신공학과 1

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

ºñ»óÀå±â¾÷ ¿ì¸®»çÁÖÁ¦µµ °³¼±¹æ¾È.hwp

204

종합물가정보 2016년 4월호

005- 4¿ùc03ÖÁ¾š

2009 April

그룹웨어와 XXXXX 제목 예제

전기 회로 과목의 성취기준 및 성취수준

152*220

쓰리 핸드(삼침) 요일 및 2405 요일 시간, 및 요일 설정 1. 용두를 2의 위치로 당기고 반시계방향으로 돌려 전날로 를 설정합니다. 2. 용두를 시계방향으로 돌려 전날로 요일을 설정합니다. 3. 용두를 3의 위치로 당기고 오늘 와 요일이 표시될 때까지 시계방향으로

¾Æµ¿ÇÐ´ë º»¹®.hwp

CR hwp

- 2 -

<C1DF29B1E2BCFAA1A4B0A1C1A420A8E85FB1B3BBE7BFEB20C1F6B5B5BCAD2E706466>

ICT EXPERT INTERVIEW ITS/ ICT? 차량과 인프라 간 통신(V2I) Nomadic 단말 통신(V2P) 차량 간 통신(V2V) IVN IVN [ 1] ITS/ ICT TTA Journal Vol.160 l 9

PowerPoint 프레젠테이션

오토 2, 3월호 내지최종

(001~006)개념RPM3-2(부속)

ÃѼŁ1-ÃÖÁ¾Ãâ·Â¿ë2

28 저전력복합스위칭기반의 0.16mm 2 12b 30MS/s 0.18um CMOS SAR ADC 신희욱외 Ⅰ. 서론 Ⅱ. 제안하는 SAR ADC 구조및회로설계 1. 제안하는 SAR ADC의전체구조

국어 순화의 역사와 전망

. 0.. Planck : sec : sec : : m in radian m in ln sec 심장 발 기압


1

(지도6)_(5단원 156~185)

Microsoft PowerPoint - Ch15-1

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

PathEye 공식 블로그 다운로드 받으세요!! 지속적으로 업그래이드 됩니다. 여러분의 의견을 주시면 개발에 반영하겠 습니다.


소식지수정본-1

실험 5

**09콘텐츠산업백서_1 2

Chapter4.hwp


<B1B9C8B8C0D4B9FDC1B6BBE7C3B3BAB85F BB0DCBFEFC8A35B315D2E706466>

슬라이드 1

16<C624><D22C><ACFC><D0D0> <ACE0><B4F1><BB3C><B9AC><2160>_<BCF8><CC45>.pdf

wtu05_ÃÖÁ¾

1. 보고서의 목적과 개요 (1) 연구 목적 1) 남광호(2004), 대통령의 사면권에 관한연구, 성균관대 법학과 박사논문, p.1 2) 경제개혁연대 보도자료, 경제개혁연대, 사면심사위원회 위원 명단 정보공개청구 -2-

³»Áö_10-6


S - O I L M A G A Z I N E 2016 April Vol

ITFGc03ÖÁ¾š

ad hwp

제 장의구성. 통신의개요. 전파의특성.3 변조의목적.4 주파수대역과채널.5 통신신호의해석

스키 점프의 생체역학적 연구

178È£pdf

온습도 판넬미터(JTH-05) 사양서V1.0

< E5FBBEABEF7C1DFBAD0B7F9BAB02C5FC1B6C1F7C7FCC5C25FB9D75FB5BFBAB05FBBE7BEF7C3BCBCF65FA1A4C1BEBBE7C0DABCF62E786C73>

1. 스펙트럼분석기 (Spectrum Analyzer) 1 스펙트럼분석기 (Spectrum Analyzer) 란? - 스펙트럼분석기 (Spectrum Analyzer) 는마치프리즘이빛을파장별로분해하여보여주듯이신호의스펙트럼또는주파수를분해하여그크기를화면에표시하여주는계기이다

문화재이야기part2

현장에서 만난 문화재 이야기 2

게임 기획서 표준양식 연구보고서

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

PowerPoint Presentation

<363020B9CEBCD2BFAC2D4C535020C6C4B6F3B9CCC5CDC0C720BAD0C6F7C6AFBCBAC0BB20C0CCBFEBC7D12E687770>

Transcription:

음성 개인식별 홍 수 기 음성연구실에서는 유괴, 공공물 폭파협박, 독극물 투입협박, 전화폭력, 각종 사기사건 등 다양한 범죄사건 뿐만 아니라 항 공기 사고, 교통사고 등에서 녹음된 사람의 음성이나 그 이외 의 소리들로부터 사건해결이나 사고원인 조사를 위한 과학적 인 증거나 단서를 제공해 주는 업무들을 하고 있다. 귀로 들을 수 있는 소리들은 눈으로 볼 수 있는 여러 가지 형태 - 시간파형, 스펙트로그램, 주파수 스펙트럼, 진폭 포락 선 등 - 로 분석된다. 소리들은 시간-주파수-세기의 성분들로 구성되어 있고 음향분석으로 이들 성분들이 구분된다. 시간 파형은 소리의 시간에 따른 세기변화를 선형적으로 나타내주 고, 이 시간파형을 대수적으로 변환한 것이 진폭포락선이다. 소리의 주파수 성분들은 백색광이 프리즘을 통해서 다양한 색상을 가진 여러 가지 빛으로 분해되듯이 스펙트랄 분석으 로 그 개개의 성분들로 분해되고 주파수별 세기변화를 나타 내는 것이 주파수 스펙트럼이다. 1946년 Bell 연구소에서 말 을 눈으로 읽을 수 있도록 하기 위한 목적으로 스펙트로그라 프(Sound Spectrograph)가 개발되었고 이때부터 소리를 시간에 따른 주파수별 에너지 분포로 나타내는 스펙트로그 램의 형태로의 분석이 가능해졌다. 1970년대부터 디지털 신호 처리가 가능해지고 더욱 정확하고 빠른 소리의 음향분 석이 가능해졌다. 분석된 소리의 여러 가지 형태로부터 얻 을 수 있는 정보를 이용하여 음성에 의한 개인식별(이하 화 자식별이라 함.), 화자의 성별, 연령, 언어영향권 등에 관한 추정, 녹음테이프의 인위적 편집 여부, 주변음 및 기계음 확인, 녹취서 내용 확인, 잡음제거 및 음질개선 등 음성음 향학적 분야에 관련된 업무들이 수행된다. 여기서는 음성연 구실 업무 중 약 50%를 차지하는 화자식별과 관련된 기본 원리와 실제 사건에서 어떻게 활용되고 있는가를 자세히 설 명하고, 그 이외의 업무들에 대해서 대략적으로 소개하고자 한다. 저자약력 홍수기 실장은 현재 국립과학수사연구소 음성연구실장으로 재직 중이 다. 화자식별 사회의 정보화가 급속히 진행됨에 따라 날로 증가하고 있는 통신망을 이용한 범죄에서는 얼굴 없는 목소리가 중요한 개인 식별의 수단이 된다. 음성에 의한 개인식별이란 사람의 음성으 로 사람을 구분하는 것으로 학문적으로는 화자인식(Speaker Recognition)이라 하며 화자식별(Speaker Identification)과 화자확인(Speaker Verification)으로 구분되나 그 경계가 분명하지는 않다. 음성 DB 중에 한 개인의 음성이 그 DB 에 있는지, 및 누구의 음성인지를 찾아내는 것을 화자식별 이라 하며, 음성 DB에 있는 특정인을 지정하여 그 음성과 그 음성의 주인공이라고 주장하는 사람의 음성이 동일한 사 람의 음성인지 여부를 결정하는 것을 화자확인이라 한다. 실제 범죄사건에 관련해서는 주로 범인 음성과 지정된 용의 자 음성이 동일인의 음성인지를 확인하므로 화자확인이라 할 수 있으나 대부분 지정된 용의자는 수십, 수백 명의 용 의자들 중에서 지정된 사람이므로 화자식별이라 한다. 화자 식별은 통신수단을 이용한 범죄 사건에서의 범인 식별, 사 건발생 전후 신고 제보자의 신원파악, 무선통신망의 무단사 용자 색출, 참고인 진술시 원거리 주민의 민원편의 등에 활 용된다. 화자인식은 범죄 사건에서 뿐만 아니라 보안 시스템에서 도 널리 사용되고 있으며, 개인확인 수단으로 사용되고 있 는 카드, 도장, 신분증 등은 도난이나 위조의 문제점이 있 고 정보의 접근이 전화나 통신망을 이용하여 원격지에서 이 루어지는 경우 거의 사용이 불가능하나 음성에 의한 개인확 인은 부가장치가 필요하지 않는 가장 효과적인 방법이기도 하다. 1. 화자식별의 역사 음성이 범인을 식별하는 단서로 처음으로 이용된 것은 1660년 영국의 찰스 1세의 죽음에 관계된 재판이었다고 한다. 사건 현장에서 범인의 음성을 들은 사람이 용의자 음 12 물리학과 첨단기술 April 2006

성과 머리속에 기억하고 있는 범인 음성과 동일인의 음성인 지를 확인하도록 하였다. 그 후 1937년에 비행기로 대서양 무착륙 횡단에 처음으로 성공한 린드버그의 자식이 유괴되 어 살해된 사건이 일어났고, 음성을 듣고 범인을 확인하는 방법의 신뢰성이 처음으로 문제시 되었고, 이 사건을 계기 로 음성의 개인성이라는 것이 과학적으로 연구되기 시작했 다. 세계 제2차 대전 중 미육군에서는 목소리 식별이 하나의 중 요한 과제였다. 그들은 적의 무전병의 목소리를 분석함으로써 무전병이 소속된 부대의 이동 상황을 알 수 있다고 판단하여 연구 과제를 벨연구소에 맡겼으나 전쟁이 끝남과 동시에 연구 는 중단되었다. 1960년도 들어서면서 비행기 납치, 폭발예고, 유괴, 공갈, 협박, 사건제보 등으로 인해 항공사 및 수사기관 은 많은 불편을 겪게 되어 FBI는 화자식별에 관한 연구를 벨 연구소에 다시 의뢰하였다. 1962년 이 분야의 연구자 중 한 명인 Kersta는 성문( 聲 紋, voiceprint)에 의한 화자식별을 시 행하였고, 실험결과 성문은 사람의 지문( 指 紋, fingerprint)처 럼 누구나 독특한 특징을 가지고 있으며 이에 의한 화자식별 의 정확도는 99% 이상이라고 Nature에 발표하였다. [1] 그 후 경찰의 범죄 연구소들은 음성으로 범인을 식별할 수 있다는데 관심을 갖기 시작하였다. 미시간 주립대학의 Tosi는 미법무성 의 지원으로 1968년부터 1970년까지 미시간 주립 대학 음성 식별 프로젝트(Michigan State University Voice Identification Project)를 시행하여 실험실 조건에서 뿐만 아니라 실제 사 건과 유사한 환경 - 잡음이 혼합된 전화음성 - 에서도 성문 비강(NASAL CAVITY) 입천장 (ALVEOLAR RIDGE) 구강(ORAL CAVITY) 턱(NANDIBLE) 성대(VOCAL FOLDS) 경구개(HARD PALATE) 연구개(VELUM) 혀(TONGUE) 인두(PHARYNX) 후두(LARYNX) 기관 (TRACHEA) 폐(LUNG) 에 의한 화자식별은 신뢰할 수 있는 방법으로 결론지었다. [2] 이때부터 미국에서는 주로 청각적인 방법에 의존하던 음성 학자들도 성문에 의한 화자식별의 신뢰도를 인정하게 되었 고 제대로 훈련된 전문가에 의한 음성 식별 결과는 법정에 증거로써 제출되거나 수사에서 중요한 참고자료로 활용되었 다. 일본에서는 1963년 길전양 사건으로 알려져 있는 유아유 괴사건이 일어났다. 전화로 돈을 요구하는 범인을 검거하기 위하여 TV와 라디오를 통해 범인의 목소리가 방영되었다. 2 년 후 수사진의 집념과 시민의 협조로 범인은 검거했으나 어린이는 살해된 후였다. 이 사건에서 당시의 수사기관은 음 성을 감정하여 범인의 출신지역, 연령, 교양의 정도, 직업 등을 추정하고 용의자와 범인의 목소리가 동일한 사람에 의 한 것인지를 밝혀줄 것을 음성과 언어에 관련된 연구기관에 의뢰하였다. 일본과학경찰연구소도 이때부터 성문에 의한 화 자식별을 시작하게 되었고, 1976년 다나까 전 일본 수상이 관련된 록히드 사건 수사가 진행 중일 때 검찰 총장을 사칭 하여 당시 미끼 수상에게 전화를 건 범인이 성문에 의한 감 정결과로 검거되었다. 1981년에는 동경 고등법원에서 성문 에 의한 화자식별 결과를 유죄의 유일한 증거로 채택하게 되었다. 우리나라에서는 1970년대부터 음성에 의한 개인식별과 관 련된 연구를 시작하였다. 1987년 7월부터 국립과학수사연구 소에서 범죄 사건과 관련된 화자식별을 시작하였다. 1988년 Y양 유괴사건의 범인 음성이 TV에서 공개되고 약 50명의 제 보자들 중에 H라는 사람의 음성이 범인의 음성임이 확인되어 검거되었다. 1991년에는 7차례에 걸쳐 여자들을 폭행한 후 금품을 요구하며 피해자들을 괴롭혔던 범인이 매번 법정에서 증거 불충분으로 무죄선고를 받았으나 성문에 의한 화자식별 결과가 증거로 채택되어 완강히 부인하던 범인이 대법원에서 실형을 선고받았다. 2. 음성의 개인성 대부분의 사람들은 다른 사람의 목소리만 듣고도 말하는 의미를 이해하고 보지 않고도 자기가 알고 있는 사람인지 여부를 판단할 수 있다. 이것은 사람의 음성에는 말의 내용 에 관한 언어적 정보와 말하는 사람의 개인성에 관한 정보 그림 1. 사람의 음성기관. 참고문헌 [1] L. G. Kersta, Nature 196, 1253 (1962). [2] O. Tosi, H. Oyer, W. Lashbrook, C. Pedrey, J. Nicol, and E. Nash, J. Acoust. Soc. Am. 51, 1842 (1972). 물리학과 첨단기술 April 2006 13

그림 2. 성대 진동의 배음 스펙트럼. 그림 4. 성도의 주파수 응답특성에 따른 음성 스펙트럼의 변화. 그림 3. 성도의 공명 특성 스펙트럼. 가 함께 포함되어 있기 때문이다. 음성의 개인성은 말하는 사람의 음성기관[그림 1 참조]의 해부학적 형상, 즉 성도, 성대, 비강, 치아, 등의 크기, 모양, 및 물리적인 특성에 따 라 결정되고, 언어를 습득할 때의 사회 언어적 환경과 개인 의 발성 습관에 따라 발음, 어휘, 억양 등이 영향을 받게 된다. (1) 음성의 생성 음성파의 음원은 연속적인 성문( 聲 門, glottis)의 개폐에 의 한 성대(vocal cords)의 주기적인 진동과 구강내의 혀, 이, 입 술 등에 의해 만들어진 좁은 공간 부위에서 공기류를 불어넣 어서 생긴 잡음성의 공기 진동인 난류로써 구분된다. 성대 진 동에 의한 음원은 기본 진동음과 그 기본 진동의 정수배인 배음들로 구성되어 있다. 성대 진동의 기본 진동수는 성대 길 이에 반비례하고, 성대의 긴장도와 중력가속도 곱의 제곱근에 비례하며, 성대의 비중과 횡단면적 곱의 제곱근에 반비례한 다. 모음과 유성 자음은 음원인 성대에 의한 주기적인 공기 진동이 공명계인 성도(vocal track)를 공진시킴으로써 생성된 다. 성대 진동에서 각각의 배음들은 다른 진폭을 가지고 있고 [그림 2], 성도의 공진 특성에 의해 몇 개의 배음들이 강조된 다 [그림 3]. 성도의 공진 특성은 필터처럼 작용하여 성도의 그림 5. 성대음만을 변화시켰을 때의 음성 스펙트럼. 크기와 모양에 따라 즉 인강 및 구강의 길이, 성도에서의 좁 힘 점과 좁힘 정도 등에 의해 배음들이 어떤 주파수에서는 강조되고, 어떤 주파수에서는 약화된다. 성도 중간에서 좁힘 점이 없이 소리를 발성하는 경우 생성된 소리의 공명 진동수 는 성도를 한 쪽이 막힌 원통관인 경우와 유사하게 되어 제 일 낮은 공명파의 파장은 성도길이의 4배가 된다. 또한 혀와 턱의 움직임에 의한 구강 모양의 변화도 성도의 길이를 변화 시킨다. 음성기관 중에서 인두, 식도, 목젖, 입천장, 혀, 입술 등을 조음기관이라 하고 인두, 구강, 비강, 입술 등을 공명기 관이라 한다. 일반적으로 음성의 스펙트럼은 성대음의 스펙트럼과 성도 의 주파수 응답특성의 곱으로 표현한다. 그림 4 및 5는 음성 스펙트럼은 성도의 주파수 응답 특성의 변화에는 크게 영향 을 받으나 성대음의 스펙트럼의 변화에는 별로 영향을 받지 않는다는 것을 보여준다. (2) 음성의 변화 사람은 각기 서로 다른 음성기관, 언어 습관, 감정을 가지 고 있기 때문에 개인마다 독특한 음성을 가지고 있다. 그러 14 물리학과 첨단기술 April 2006

나 어떤 사람도 같은 단어를 두 번 발음했을 때 완전히 똑 같게 하지는 못한다. 이것을 발성자 내부변화(Intraspeaker Variability)라 한다. 반면에 다른 사람이 같은 단어를 발음하 더라도 듣는 사람이 그 차이점을 알 수 있는데 이러한 것을 발성자간의 변화(Interspeaker Variability)라 한다. 발성자 내부 변화에 의해 같은 사람이 발음한 동일한 말의 스펙트로그램들은 복사기로 복사한 것처럼 똑같은 것은 아니 지만 음성 기관의 특징이나 발음 습관과 같은 언어적 특징에 의하여 음향 파라미터들의 특징들이 개인의 변화 범위내에 존재한다. 발성자간의 변화가 발성자 내부변화보다 크다는 것 은 잘 알려져 있으며 이것이 모든 사람들이 말할 때 발성자 내부변화를 가지고 있어도 음성에 의한 개인식별이 가능한 근거가 된다. 3. 화자식별 방법 (1) 청각에 의한 방법 청각에 의한 화자식별은 크게 두 가지로 구분된다. 학문적 배경을 가진 전문가인 음성학자들에 의한 경우와 일반인에 의한 경우이다. 옛날에는 음성을 식별하는 수단은 귀를 사용 하는 방법뿐이었고, 그래서 훈련된 음성학자들이 청취 시험으 로 범인 음성과 용의자 음성이 동일인의 음성인지를 확인하 곤 하였다. 그러나 뛰어난 음성학자들도 청각에 의해 화자식 별을 할 때 비교하는 음성의 수가 많거나 대화시간이 짧은 경우 오판할 확률은 매우 높다. 이것은 개인차, 및 사건에 따 라 차이는 있으나 사람이 음성을 듣고 분석하는 능력에는 한 계가 있고, 음성은 흐르는 물과 같아서 사람이 듣고 기억해 두었다가 다른 음성과 비교하는 것은 시간이 지남에 따른 기 억의 손실, 비교하는 음성의 증가, 뇌에서 비교 대조하는 작 업의 어려움 때문이다. 더욱이 실제 사건에서의 음성들은 전 달매체들의 표준화가 곤란하고, 음성의 녹음된 주파수 대역의 변화는 청취에 미치는 영향이 매우 크다. 일반인들에 의한 경 우는 범죄 현장에서 범인 음성을 들은 피해자나 목격자가 용 의자의 음성과 기억속의 범인 음성을 비교하여 판단하게 된 다. 이 방법은 시간이 따라 정확도가 크게 영향을 받을 뿐만 아니라 우연의 확률과 다르지 않다고 보고되어 있다. [3] 그러 나 일반인들도 오랫동안 친근한 사람의 음성은 듣고 정확히 판별할 수 있는 능력을 가지고 있으며, 이 방법은 범죄 수사 의 초동 단계에 있어 용의자 선정에 매우 중요한 구실을 한 다. 즉 범인의 음성의 녹음을 일반인들에게 들려주어 주변에 비슷한 음성을 가진 사람을 찾게 할 수 있으며 그 음성 자료 를 방송을 통해 들려 줄 경우 광범위한 청취자의 청각적 식 별 능력을 범죄수사에 활용할 수가 있다. (2) 성문에 의한 시각적인 방법 사람의 음성은 여러 가지 주파수 성분이 혼합되어 있는 복 합파이고 이 음파는 스펙트로그라프(Sound Spectrograph)에 의해 눈으로 볼 수 있는 여러 가지 형태로 분석된다. 스펙트 로그라프에 의한 주파수 분석으로 음성을 사람의 청각 시스 템에 의한 실제 음성 스펙트럼과 가장 근사한 형태로 분석할 수 있어 음성연구 분야에서 널리 이용되고 있다. 우리 인간의 귀는 주파수에 따라 소리 크기 변화를 감지하는 능력이 다르 며 높은 주파수에서 더 민감하게 감지하므로 스펙트로그라프 로는 이를 보정해 주기 위해 고역강조 회로(Hi-shape)를 이 용하여 우리의 청각 시스템이 인식하는 소리와 유사하게 분 석된다. 고역 강조된 음성은 디지털신호로 바뀌어 기억소자에 기록되어 반복 재생되며 분석 여파기를 통과하여 주파수 분 그림 6. 여러 가지 형태로 분석된 두 사람의 여보세요. 참고문헌 [3]G. Papcun, J. Kreiman, and A. Davis, J. Acoust. Soc. Am. 85, 913 (1989). 물리학과 첨단기술 April 2006 15

석이 이루어진다. 분석 여파기는 광대역 여파기[wider filter, 남자 음성을 분석하는 경우 300 Hz 정도]와 협대역 여파기 [narrow filter, 남자 음성을 분석하는 경우 45 Hz 정도]가 있는데 전자는 빨리 공명을 시작하여 정상적인 진폭에 이르 기까지 소요되는 불변 시간이 짧아 시간변수를 보다 정확히 분석하는데 이용되고, 후자는 불변시간이 길어서 주파수 변수 를 정확히 분석하는데 사용된다. 분석 여파기의 출력은 검파 되어서 방전전압으로 기록계에 공급된다. 기록계에 공급된 스 펙트럼 성분의 방전전압 크기에 대응해서 방전기록지에 음성 신호가 검은색의 농도 형태로 기록되어 음성을 수평축은 시 간, 수직축은 주파수, 검은색의 농도변화나 색깔변화로 주파 수별 에너지 분포도를 나타내는 스펙트로그램이 얻어지고 이 것을 성문( 聲 紋, voiceprint)이라 한다. 시각적인 방법으로 화자식별을 할 때는 그림 6에서와 같이 스펙트로그램 이외에도 신호의 분석 없이 단지 입력된 음성 신호에 의해 생긴 전압 변화를 시간 변화에 따라 선형 스케 일(linear scale)로 나타낸 시간파형, 이를 대수적으로 처리하 여 전압 변화를 데시벨(dB)로 나타낸 시간파형의 대수적인 포 락선(envelop)인 진폭 포락선, 선택된 데이터 그룹의 FFT (Fast Fourier Transform) 분석에 의해 입력신호의 주파수별 전력 크기(power magnitude)를 나타낸 FFT 스펙트럼 등의 여러 가지 형태로 분석한다. 이런 형태들로부터 분석된 데이터를 이용하여 주로 성도의 크기와 모양 등에 따라 달라지는 공명주파수와 주파수별 세 기, 성대의 진동에 의한 성대 진동 형태 및 음의 높이, 발성 습관에 주로 영향을 받는 억양, 발음지속시간, 자음 스펙트럼 및 음의 세기 변화 형태 등 음성기관과 발음상의 특징에서 나타나는 음향 파라미터들을 비교 분석한 결과를 종합하여 동일인 여부를 판단한다. (3) 기계적인 방법 기계적인 방법에 의한 화자식별은 컴퓨터를 이용하여 자동 으로 화자를 식별하는 방법으로, 음성신호처리 기술과 패턴인 식 기술의 발전에 힘입어 70년대부터 세계 여러 나라에서 연 구되어 왔다. 이 방법을 이용하는 자동화자식별 시스템에서는 음성분석, 데이터 처리, 및 결과 판단이 컴퓨터에 의해 자동 적으로 실행되므로 많은 사람의 음성을 동시에 처리하거나 빠른 시간 내에 보다 정확한 화자식별이 요구될 때 절실히 요구되는 방법이다. 또한 성문에 의한 시각적인 방법으로는 비교할 음성에서 동일한 말이 있는 경우(문장의존, text dependence)만 화자식별이 가능하나 자동화자식별시에는 동 일한 말이 없는 경우(문장독립, text independence)도 화자 식별이 가능하다. 그러므로 이 방법은 화자식별 결과를 보다 더 객관적이고, 수치적으로 표현하는 것이 가능하게 할 뿐만 아니라, 많은 특정인들(예로 범죄자들)의 음성 DB에서 한 개 인의 음성을 식별하는데 효율적으로 활용할 수 있다. 4. 실제 사건에서의 화자식별 예 (1) 경인전철 폭파협박사건 ( 96) 1996년 2월 5일 부평역에서 시발하는 전동차 내에 폭발물 을 설치하여 폭파시키겠다고 협박한 사건으로 범인은 부평역 에서 시발하는 전동차가 자주 지연되어 출근이 늦어져 직장 을 그만두게 될 뻔했다는 이유로 협박을 시작하였다. 두 번에 걸친 협박전화는 녹음이 되지 않았으나 폭파 협박전화 내용 이 방송을 통해 보도되자 당황한 범인이 국장실에 전화를 걸 어 국장과 통화하려고 한 내용이 녹음되었다. 수사관들은 신 고 후 발신전화번호 추적으로 발신 전화의 위치를 파악하였 고 신고 전에 걸려온 전화는 부평에서 서울로 건 시외 전화 로 사후에 발신 전화번호 추적이 가능해 범인이 사용한 공중 전화 위치를 분석하여 부평에서 서울 평창동으로 출퇴근하는 사람들을 추적하여 유력한 용의자 20명을 추려내고 다시 전 화 위치에서 집이 가장 가까운 가전제품 회사 직원인 L을 최 고 유력 용의자로 선정하였다. 처음에는 L이 용의자선상에 오 른 것을 인지하지 못하도록 수사진들은 두 번에 걸쳐 가전제 품을 구입하고자 하는 고객으로 가장하여 제품에 관한 문의 전화로 L의 자연스런 음성이 녹음되었다. 청취로 확인되는 범 인 음성은 매우 공식적으로 대화하는 짧은 음성으로 지역적 인 언어적 특징이 거의 검출되지 않는 음성이었고, 용의자 L 의 음성은 경상도 지역 언어적 특징이 명확하게 확인되는 음 성이었다. 성문에 의한 화자식별 결과 두 음성에서 명확한 공 통된 특징이 검출되어 동일인의 음성임이 확인되었다. 동일한 사람일 가능성이 있다는 통보를 받은 수사관들은 자신감을 가지고 수사에 임할 수가 있었고 음성을 감정했다는 말을 들 은 L은 스스로 자백하였다. L은 국장실에 전화를 걸었을 때 회의라는 말 대신에 미팅(meeting) 이라는 외국말을 사용하 였는데 검거되어 TV에서 인터뷰하였을 때도 손해라는 말 대 신에 데미지(demage) 라는 외국말을 사용하는 공통된 특징 을 나타내기도 했다. (2) 위장음성을 사용한 공갈 협박사건 ( 89) 피해자가 정부와 호텔에서 나오는 것을 목격하여 사진을 찍은 후 범인들은 차량번호로 차량등록 사업소에서 차적 조 회하여 피해자의 주소지 및 전화번호를 발췌하여 수십 회에 걸쳐 사실을 폭로하겠다고 협박하며 금품을 요구한 사건으로 범인들은 동생과 형이 번갈아 가며 전화를 걸었고 동생의 목 16 물리학과 첨단기술 April 2006

그림 7. 각종 녹음기 신호들: (좌상)은 녹음정지신호의 시간파형, (좌하)는 녹음정지시작신호의 시간파형, (중상)과 (중하)는 각각 녹음일시정지시작신 호의 시간파형과 스펙트로그램, (우상)과 (우하)는 각각 원본과 복사본에서의 녹음정지신호의 시간파형임. 소리는 목이 많이 쉰 목소리였다. 동생이라는 자가 검거되었 고 수사관은 공범을 찾고자 하였으나 피의자는 본인이 위장 음성을 내어 1인 2역을 하였다고 자백하였다. 범인들의 음성 과 피의자가 정상적인 목소리 내는 것과 쉰 목소리를 내는 음성이 모두 녹음되어 이들 음성이 한 사람의 음성인지 두 사람의 음성인지 여부기 의뢰 되었다. 시험결과 정상적인 음 성과 쉰 음성은 동일인의 음성이고 범인과 피의자 음성은 동 일인의 음성임이 확인되었다. 일반인들이 목소리를 위장하는 경우는 대부분 위장하는 데 한계가 있어 정상 음성과 비교하여 동일인의 음성인지 를 판단하는데 큰 어려움은 없으나 위장음성으로 판단되는 경우, 목소리 흉내를 아무리 잘 내는 사람이라도 본래의 목소리 주인공의 음성과는 명확하게 다른 음성임이 구별된 다. 화자식별이외의 음성연구실 업무 1. 화자의 성별, 연령, 언어영향권에 관한 추정 일반적으로 사람들은 음성을 듣고 대부분 그 음성 주인공 이 남자인지 여자인지 구별할 수 있다. 그러나 범죄사건에서 범인이 목소리를 위장하기 위해서 남자가 여자 음성으로, 여 자가 남자 음성으로 위장하는 경우는 청취적인 방법으로 구 별하기가 어려워진다. 남자 음성과 여자 음성은 음성의 높이 에서 명확하게 다르므로 [여자인 경우 평균이 약 240 Hz, 남 자인 경우 약 120 Hz] 음성의 높이 측정에 의해 남자 음성과 여자 음성을 구별할 수 있다. 실제로 G양 유괴사건에서 범인이 여자이었으나 남자 목소 리로 위장하여 금품을 요구한 사건이 있었고, 이때 범인의 평 균 음성 높이는 약 170 Hz로 남자 음성보다는 높고 여자 음 성 보다는 낮았으며 말의 속도가 비교적 느려 정상적인 음성 과는 구별되었다. 사람들은 얼굴을 보면 본인의 나이에 비해 나이가 더 들어 보이는 사람도 있고 무척 어려 보이는 사람도 있으나 대충 그 사람의 연령을 추측할 수 있다. 마찬가지로 음성을 청취하 여 목소리 주인공의 연령을 추정할 수 있고 청취 시험 이외 에도 나이에 따른 음성 높이의 통계자료를 활용하고 사용하 는 어휘 등에서 좀 더 정확하게 화자의 연령을 추정하는 것 이 가능하다. 지역적인 사투리를 쓰는 사람들은 많은 사람들이 목소리를 듣고 본인과 같은 고향 사람인지 여부를 쉽게 구별한다. 언어 는 주위 환경에 따라 많이 변화하지만 발음상의 특징, 억양, 등이 처음 말을 배울 때 굳어지게 되면 잘 변화하지 않게 된 다. 이러한 요소들을 분석 비교하여 화자의 언어 습득시의 언 어 영향권을 추정할 수 있다. 2. 녹음의 인위적 편집 여부 녹음 테이프의 물리적 외관검사, 부자연스러운 소리의 연결 이나 끊김 등의 확인을 위한 청취 시험, 아날로그 테이프의 물리학과 첨단기술 April 2006 17

그림 8. DAT 녹음기에 의한 녹음 편집 예: (좌상) 및 (우상)은 편집되기 전 음성, (좌하)는 녹음일시정지시작 에 의하여 (좌상)에서 커저 사이가 삭제 된 경우, (우하)는 (우상)에서 커저 사이의 음성이 녹음정지시작 에 의하여 삭제된 경우. 소거 신호 변화 확인을 위한 자기신호 현상실험, 문제의 부분 들에 대한 시간파형, 스펙트럼, 스펙트로그램 등의 비교 분석 등과 같은 실험들로부터 녹음들이 원본인지 복사본인지, 녹음 중간에서 인위적으로 녹음기를 작동했는지 여부, 잡음이 비정 상적으로 변화되었는지 여부, 대화가 비정상적으로 연결된 부 분이 있는지 여부 등을 확인하여 녹음의 인위적 편집여부를 판단하게 된다. 녹음기 작동신호들은 녹음기 특성에 따라 변화된다. 그림 7은 녹음의 인위적 편집여부를 확인하기 위하여 분석된 녹 음기 작동신호들을 보여준다. [4] 그림 8은 디지털 녹음기 (DAT)의 녹음기 작동에 의해 기 녹음된 일부분을 삭제한 예 이다. 녹음의 인위적 편집여부 확인은 녹음의 사실 증명을 위해 매우 중요하며, 정치, 및 선거 관련 사건이나 사기사건 등에 서 많이 활용되고 있다. 실제 사건의 예로 1972년 미국의 워 터게이트 사건 때 백악관에서 24시간 녹음되는 녹음테이프들 중 문제의 테이프를 6명의 음향학자들이 분석하여 그 테이프 에서 음성이 녹음되지 않은 일부분이 원래 녹음된 소리가 미 세한 잡음에 의해 삭제된 것임을 밝혀졌다. 이때부터 녹음의 편집여부 확인이 실제 사건에서 매우 중요한 역할을 하게 되 었다. 우리나라에서는 2002년 대통령 아들 병역비리 사건에 서 평균 주파수 스펙트럼 분석에 의하여 녹음된 두 사람의 음성이 동일한 장소, 및 동일한 녹음기기에 의해 녹음되지 않 은 것이 확인되었다. 3. 음질개선 녹음된 음성의 명료도는 음성과 동시에 녹음되는 시스템 잡음, 및 환경 잡음, 음성이 과도하게 크게 녹음될 때 발생 하는 음성의 비선형 왜곡, 녹음 장소의 음향적 환경에 의 한 컨벌루션 잡음, 전달 매체에 의한 제한된 주파수 대역 에 의한 음성 신호의 손실 등에 영향을 받는다. 뿐만 아니 라 대화자들간의 음성 크기가 많이 다른 경우도 음성의 명 료도는 저하된다. 녹음된 대화내용이 사건 해결에 중요한 역할을 하는데 녹음 상태가 매우 불량하여 대화내용 확인 이 곤란하거나, 화자식별시 녹음 상태가 불량하여 성문에 서 음향 특징들이 잘 나타나지 않는 경우 음질개선을 수행 되게 된다. 음질개선시에는 우선적으로 녹음들을 속도, azimuth 각도 참고문헌 [4] B. E. Koenig, J. Audio Soc. 38, 3 (1990). 18 물리학과 첨단기술 April 2006

그림 9. 컨벌루션 잡음 제거에 의한 음질개선 예: (좌) 음질개선 전 (우) 음질개선 후. 그림 10. 일정한 주파수 대역을 가진 잡음 제거에 의한 음질 개선 예: (좌) 음질개선전, (중)과 (우)는 각각 1차, 및 2차 음질개선 후임. 등을 최적 조건에 맞추어 재생한다. 세기가 매우 큰 순간 잡 음은 limiter를 사용하여 조절하고, 변화하는 잡음이나 컨벌 루션 잡음들은 Adaptive, Spectral Inverse 필터 등이 사용 된다 (예로, 그림 9 참조). 주파수가 일정한 잡음을 제거하기 위해서는 Notch, Comb, Adaptive 등의 필터를 사용되고 (예 로, 그림 10 참조), 주파수 대역이 한정된 잡음들은 Bandpass, Band Rejection 필터, Equalizer 등이 이용되며, 음성의 세 기를 균일화 시키는 데는 Compressor/Expander, AGC 등 이 사용된다. 기타 음성음향학적 업무 녹음된 자료 중에서 사람 음성 이외의 소리들이 사건 해결 에 매우 중요한 단서가 되는 경우가 있다. 범인이 전화를 거 는 장소에서 발생한 주변 소리들로부터 범인의 위치 추적을 위한 단서를 얻을 수도 있고, 전화 시작음이나 종료음에서 사 용한 전화기에 대한 정보도 얻을 수가 있다. 또한 전화기 번 호 버튼음들은 두 가지 주파수가 혼합된 소리로 이 소리가 녹음된 경우 전화번호를 알아낼 수가 있다. 우리나라에서는 거의 일어나지 않으나 총기 사고가 난 경우 녹음된 총소리를 분석하여 총의 종류를 확인할 수 있다. 총소리는 총의 종류 뿐만 아니라 녹음된 장소의 음향적 특성, 및 녹음기기의 주파 수 특성에도 영향을 받는다. 실제 사건의 예로 미국에서 발생한 사건으로 1982년 강도 가 집에 침입하자 놀란 피해자는 긴급구조대(911)에 신고 전 화를 하였으나 강도에 의해 살해당했다. 다행히도 살인현장에 서의 소리들이 긴급구조대 녹음 시스템에 의하여 계속 녹음 이 되고 있었고 파이프가 바닥에 떨어지는 소리가 확인되었 다. 그 후 이 파이프 소리가 살인 용의자 집에서 찾아낸 파이 프에 의한 소리임이 확인이 된 적이 있었다. 파이프가 떨어지 는 소리는 파이프의 재질, 길이, 두께 등에 따라 주파수 특성 이 달라지게 된다. 물리학과 첨단기술 April 2006 19