음성 개인식별 홍 수 기 음성연구실에서는 유괴, 공공물 폭파협박, 독극물 투입협박, 전화폭력, 각종 사기사건 등 다양한 범죄사건 뿐만 아니라 항 공기 사고, 교통사고 등에서 녹음된 사람의 음성이나 그 이외 의 소리들로부터 사건해결이나 사고원인 조사를 위한 과학적 인 증거나 단서를 제공해 주는 업무들을 하고 있다. 귀로 들을 수 있는 소리들은 눈으로 볼 수 있는 여러 가지 형태 - 시간파형, 스펙트로그램, 주파수 스펙트럼, 진폭 포락 선 등 - 로 분석된다. 소리들은 시간-주파수-세기의 성분들로 구성되어 있고 음향분석으로 이들 성분들이 구분된다. 시간 파형은 소리의 시간에 따른 세기변화를 선형적으로 나타내주 고, 이 시간파형을 대수적으로 변환한 것이 진폭포락선이다. 소리의 주파수 성분들은 백색광이 프리즘을 통해서 다양한 색상을 가진 여러 가지 빛으로 분해되듯이 스펙트랄 분석으 로 그 개개의 성분들로 분해되고 주파수별 세기변화를 나타 내는 것이 주파수 스펙트럼이다. 1946년 Bell 연구소에서 말 을 눈으로 읽을 수 있도록 하기 위한 목적으로 스펙트로그라 프(Sound Spectrograph)가 개발되었고 이때부터 소리를 시간에 따른 주파수별 에너지 분포로 나타내는 스펙트로그 램의 형태로의 분석이 가능해졌다. 1970년대부터 디지털 신호 처리가 가능해지고 더욱 정확하고 빠른 소리의 음향분 석이 가능해졌다. 분석된 소리의 여러 가지 형태로부터 얻 을 수 있는 정보를 이용하여 음성에 의한 개인식별(이하 화 자식별이라 함.), 화자의 성별, 연령, 언어영향권 등에 관한 추정, 녹음테이프의 인위적 편집 여부, 주변음 및 기계음 확인, 녹취서 내용 확인, 잡음제거 및 음질개선 등 음성음 향학적 분야에 관련된 업무들이 수행된다. 여기서는 음성연 구실 업무 중 약 50%를 차지하는 화자식별과 관련된 기본 원리와 실제 사건에서 어떻게 활용되고 있는가를 자세히 설 명하고, 그 이외의 업무들에 대해서 대략적으로 소개하고자 한다. 저자약력 홍수기 실장은 현재 국립과학수사연구소 음성연구실장으로 재직 중이 다. 화자식별 사회의 정보화가 급속히 진행됨에 따라 날로 증가하고 있는 통신망을 이용한 범죄에서는 얼굴 없는 목소리가 중요한 개인 식별의 수단이 된다. 음성에 의한 개인식별이란 사람의 음성으 로 사람을 구분하는 것으로 학문적으로는 화자인식(Speaker Recognition)이라 하며 화자식별(Speaker Identification)과 화자확인(Speaker Verification)으로 구분되나 그 경계가 분명하지는 않다. 음성 DB 중에 한 개인의 음성이 그 DB 에 있는지, 및 누구의 음성인지를 찾아내는 것을 화자식별 이라 하며, 음성 DB에 있는 특정인을 지정하여 그 음성과 그 음성의 주인공이라고 주장하는 사람의 음성이 동일한 사 람의 음성인지 여부를 결정하는 것을 화자확인이라 한다. 실제 범죄사건에 관련해서는 주로 범인 음성과 지정된 용의 자 음성이 동일인의 음성인지를 확인하므로 화자확인이라 할 수 있으나 대부분 지정된 용의자는 수십, 수백 명의 용 의자들 중에서 지정된 사람이므로 화자식별이라 한다. 화자 식별은 통신수단을 이용한 범죄 사건에서의 범인 식별, 사 건발생 전후 신고 제보자의 신원파악, 무선통신망의 무단사 용자 색출, 참고인 진술시 원거리 주민의 민원편의 등에 활 용된다. 화자인식은 범죄 사건에서 뿐만 아니라 보안 시스템에서 도 널리 사용되고 있으며, 개인확인 수단으로 사용되고 있 는 카드, 도장, 신분증 등은 도난이나 위조의 문제점이 있 고 정보의 접근이 전화나 통신망을 이용하여 원격지에서 이 루어지는 경우 거의 사용이 불가능하나 음성에 의한 개인확 인은 부가장치가 필요하지 않는 가장 효과적인 방법이기도 하다. 1. 화자식별의 역사 음성이 범인을 식별하는 단서로 처음으로 이용된 것은 1660년 영국의 찰스 1세의 죽음에 관계된 재판이었다고 한다. 사건 현장에서 범인의 음성을 들은 사람이 용의자 음 12 물리학과 첨단기술 April 2006
성과 머리속에 기억하고 있는 범인 음성과 동일인의 음성인 지를 확인하도록 하였다. 그 후 1937년에 비행기로 대서양 무착륙 횡단에 처음으로 성공한 린드버그의 자식이 유괴되 어 살해된 사건이 일어났고, 음성을 듣고 범인을 확인하는 방법의 신뢰성이 처음으로 문제시 되었고, 이 사건을 계기 로 음성의 개인성이라는 것이 과학적으로 연구되기 시작했 다. 세계 제2차 대전 중 미육군에서는 목소리 식별이 하나의 중 요한 과제였다. 그들은 적의 무전병의 목소리를 분석함으로써 무전병이 소속된 부대의 이동 상황을 알 수 있다고 판단하여 연구 과제를 벨연구소에 맡겼으나 전쟁이 끝남과 동시에 연구 는 중단되었다. 1960년도 들어서면서 비행기 납치, 폭발예고, 유괴, 공갈, 협박, 사건제보 등으로 인해 항공사 및 수사기관 은 많은 불편을 겪게 되어 FBI는 화자식별에 관한 연구를 벨 연구소에 다시 의뢰하였다. 1962년 이 분야의 연구자 중 한 명인 Kersta는 성문( 聲 紋, voiceprint)에 의한 화자식별을 시 행하였고, 실험결과 성문은 사람의 지문( 指 紋, fingerprint)처 럼 누구나 독특한 특징을 가지고 있으며 이에 의한 화자식별 의 정확도는 99% 이상이라고 Nature에 발표하였다. [1] 그 후 경찰의 범죄 연구소들은 음성으로 범인을 식별할 수 있다는데 관심을 갖기 시작하였다. 미시간 주립대학의 Tosi는 미법무성 의 지원으로 1968년부터 1970년까지 미시간 주립 대학 음성 식별 프로젝트(Michigan State University Voice Identification Project)를 시행하여 실험실 조건에서 뿐만 아니라 실제 사 건과 유사한 환경 - 잡음이 혼합된 전화음성 - 에서도 성문 비강(NASAL CAVITY) 입천장 (ALVEOLAR RIDGE) 구강(ORAL CAVITY) 턱(NANDIBLE) 성대(VOCAL FOLDS) 경구개(HARD PALATE) 연구개(VELUM) 혀(TONGUE) 인두(PHARYNX) 후두(LARYNX) 기관 (TRACHEA) 폐(LUNG) 에 의한 화자식별은 신뢰할 수 있는 방법으로 결론지었다. [2] 이때부터 미국에서는 주로 청각적인 방법에 의존하던 음성 학자들도 성문에 의한 화자식별의 신뢰도를 인정하게 되었 고 제대로 훈련된 전문가에 의한 음성 식별 결과는 법정에 증거로써 제출되거나 수사에서 중요한 참고자료로 활용되었 다. 일본에서는 1963년 길전양 사건으로 알려져 있는 유아유 괴사건이 일어났다. 전화로 돈을 요구하는 범인을 검거하기 위하여 TV와 라디오를 통해 범인의 목소리가 방영되었다. 2 년 후 수사진의 집념과 시민의 협조로 범인은 검거했으나 어린이는 살해된 후였다. 이 사건에서 당시의 수사기관은 음 성을 감정하여 범인의 출신지역, 연령, 교양의 정도, 직업 등을 추정하고 용의자와 범인의 목소리가 동일한 사람에 의 한 것인지를 밝혀줄 것을 음성과 언어에 관련된 연구기관에 의뢰하였다. 일본과학경찰연구소도 이때부터 성문에 의한 화 자식별을 시작하게 되었고, 1976년 다나까 전 일본 수상이 관련된 록히드 사건 수사가 진행 중일 때 검찰 총장을 사칭 하여 당시 미끼 수상에게 전화를 건 범인이 성문에 의한 감 정결과로 검거되었다. 1981년에는 동경 고등법원에서 성문 에 의한 화자식별 결과를 유죄의 유일한 증거로 채택하게 되었다. 우리나라에서는 1970년대부터 음성에 의한 개인식별과 관 련된 연구를 시작하였다. 1987년 7월부터 국립과학수사연구 소에서 범죄 사건과 관련된 화자식별을 시작하였다. 1988년 Y양 유괴사건의 범인 음성이 TV에서 공개되고 약 50명의 제 보자들 중에 H라는 사람의 음성이 범인의 음성임이 확인되어 검거되었다. 1991년에는 7차례에 걸쳐 여자들을 폭행한 후 금품을 요구하며 피해자들을 괴롭혔던 범인이 매번 법정에서 증거 불충분으로 무죄선고를 받았으나 성문에 의한 화자식별 결과가 증거로 채택되어 완강히 부인하던 범인이 대법원에서 실형을 선고받았다. 2. 음성의 개인성 대부분의 사람들은 다른 사람의 목소리만 듣고도 말하는 의미를 이해하고 보지 않고도 자기가 알고 있는 사람인지 여부를 판단할 수 있다. 이것은 사람의 음성에는 말의 내용 에 관한 언어적 정보와 말하는 사람의 개인성에 관한 정보 그림 1. 사람의 음성기관. 참고문헌 [1] L. G. Kersta, Nature 196, 1253 (1962). [2] O. Tosi, H. Oyer, W. Lashbrook, C. Pedrey, J. Nicol, and E. Nash, J. Acoust. Soc. Am. 51, 1842 (1972). 물리학과 첨단기술 April 2006 13
그림 2. 성대 진동의 배음 스펙트럼. 그림 4. 성도의 주파수 응답특성에 따른 음성 스펙트럼의 변화. 그림 3. 성도의 공명 특성 스펙트럼. 가 함께 포함되어 있기 때문이다. 음성의 개인성은 말하는 사람의 음성기관[그림 1 참조]의 해부학적 형상, 즉 성도, 성대, 비강, 치아, 등의 크기, 모양, 및 물리적인 특성에 따 라 결정되고, 언어를 습득할 때의 사회 언어적 환경과 개인 의 발성 습관에 따라 발음, 어휘, 억양 등이 영향을 받게 된다. (1) 음성의 생성 음성파의 음원은 연속적인 성문( 聲 門, glottis)의 개폐에 의 한 성대(vocal cords)의 주기적인 진동과 구강내의 혀, 이, 입 술 등에 의해 만들어진 좁은 공간 부위에서 공기류를 불어넣 어서 생긴 잡음성의 공기 진동인 난류로써 구분된다. 성대 진 동에 의한 음원은 기본 진동음과 그 기본 진동의 정수배인 배음들로 구성되어 있다. 성대 진동의 기본 진동수는 성대 길 이에 반비례하고, 성대의 긴장도와 중력가속도 곱의 제곱근에 비례하며, 성대의 비중과 횡단면적 곱의 제곱근에 반비례한 다. 모음과 유성 자음은 음원인 성대에 의한 주기적인 공기 진동이 공명계인 성도(vocal track)를 공진시킴으로써 생성된 다. 성대 진동에서 각각의 배음들은 다른 진폭을 가지고 있고 [그림 2], 성도의 공진 특성에 의해 몇 개의 배음들이 강조된 다 [그림 3]. 성도의 공진 특성은 필터처럼 작용하여 성도의 그림 5. 성대음만을 변화시켰을 때의 음성 스펙트럼. 크기와 모양에 따라 즉 인강 및 구강의 길이, 성도에서의 좁 힘 점과 좁힘 정도 등에 의해 배음들이 어떤 주파수에서는 강조되고, 어떤 주파수에서는 약화된다. 성도 중간에서 좁힘 점이 없이 소리를 발성하는 경우 생성된 소리의 공명 진동수 는 성도를 한 쪽이 막힌 원통관인 경우와 유사하게 되어 제 일 낮은 공명파의 파장은 성도길이의 4배가 된다. 또한 혀와 턱의 움직임에 의한 구강 모양의 변화도 성도의 길이를 변화 시킨다. 음성기관 중에서 인두, 식도, 목젖, 입천장, 혀, 입술 등을 조음기관이라 하고 인두, 구강, 비강, 입술 등을 공명기 관이라 한다. 일반적으로 음성의 스펙트럼은 성대음의 스펙트럼과 성도 의 주파수 응답특성의 곱으로 표현한다. 그림 4 및 5는 음성 스펙트럼은 성도의 주파수 응답 특성의 변화에는 크게 영향 을 받으나 성대음의 스펙트럼의 변화에는 별로 영향을 받지 않는다는 것을 보여준다. (2) 음성의 변화 사람은 각기 서로 다른 음성기관, 언어 습관, 감정을 가지 고 있기 때문에 개인마다 독특한 음성을 가지고 있다. 그러 14 물리학과 첨단기술 April 2006
나 어떤 사람도 같은 단어를 두 번 발음했을 때 완전히 똑 같게 하지는 못한다. 이것을 발성자 내부변화(Intraspeaker Variability)라 한다. 반면에 다른 사람이 같은 단어를 발음하 더라도 듣는 사람이 그 차이점을 알 수 있는데 이러한 것을 발성자간의 변화(Interspeaker Variability)라 한다. 발성자 내부 변화에 의해 같은 사람이 발음한 동일한 말의 스펙트로그램들은 복사기로 복사한 것처럼 똑같은 것은 아니 지만 음성 기관의 특징이나 발음 습관과 같은 언어적 특징에 의하여 음향 파라미터들의 특징들이 개인의 변화 범위내에 존재한다. 발성자간의 변화가 발성자 내부변화보다 크다는 것 은 잘 알려져 있으며 이것이 모든 사람들이 말할 때 발성자 내부변화를 가지고 있어도 음성에 의한 개인식별이 가능한 근거가 된다. 3. 화자식별 방법 (1) 청각에 의한 방법 청각에 의한 화자식별은 크게 두 가지로 구분된다. 학문적 배경을 가진 전문가인 음성학자들에 의한 경우와 일반인에 의한 경우이다. 옛날에는 음성을 식별하는 수단은 귀를 사용 하는 방법뿐이었고, 그래서 훈련된 음성학자들이 청취 시험으 로 범인 음성과 용의자 음성이 동일인의 음성인지를 확인하 곤 하였다. 그러나 뛰어난 음성학자들도 청각에 의해 화자식 별을 할 때 비교하는 음성의 수가 많거나 대화시간이 짧은 경우 오판할 확률은 매우 높다. 이것은 개인차, 및 사건에 따 라 차이는 있으나 사람이 음성을 듣고 분석하는 능력에는 한 계가 있고, 음성은 흐르는 물과 같아서 사람이 듣고 기억해 두었다가 다른 음성과 비교하는 것은 시간이 지남에 따른 기 억의 손실, 비교하는 음성의 증가, 뇌에서 비교 대조하는 작 업의 어려움 때문이다. 더욱이 실제 사건에서의 음성들은 전 달매체들의 표준화가 곤란하고, 음성의 녹음된 주파수 대역의 변화는 청취에 미치는 영향이 매우 크다. 일반인들에 의한 경 우는 범죄 현장에서 범인 음성을 들은 피해자나 목격자가 용 의자의 음성과 기억속의 범인 음성을 비교하여 판단하게 된 다. 이 방법은 시간이 따라 정확도가 크게 영향을 받을 뿐만 아니라 우연의 확률과 다르지 않다고 보고되어 있다. [3] 그러 나 일반인들도 오랫동안 친근한 사람의 음성은 듣고 정확히 판별할 수 있는 능력을 가지고 있으며, 이 방법은 범죄 수사 의 초동 단계에 있어 용의자 선정에 매우 중요한 구실을 한 다. 즉 범인의 음성의 녹음을 일반인들에게 들려주어 주변에 비슷한 음성을 가진 사람을 찾게 할 수 있으며 그 음성 자료 를 방송을 통해 들려 줄 경우 광범위한 청취자의 청각적 식 별 능력을 범죄수사에 활용할 수가 있다. (2) 성문에 의한 시각적인 방법 사람의 음성은 여러 가지 주파수 성분이 혼합되어 있는 복 합파이고 이 음파는 스펙트로그라프(Sound Spectrograph)에 의해 눈으로 볼 수 있는 여러 가지 형태로 분석된다. 스펙트 로그라프에 의한 주파수 분석으로 음성을 사람의 청각 시스 템에 의한 실제 음성 스펙트럼과 가장 근사한 형태로 분석할 수 있어 음성연구 분야에서 널리 이용되고 있다. 우리 인간의 귀는 주파수에 따라 소리 크기 변화를 감지하는 능력이 다르 며 높은 주파수에서 더 민감하게 감지하므로 스펙트로그라프 로는 이를 보정해 주기 위해 고역강조 회로(Hi-shape)를 이 용하여 우리의 청각 시스템이 인식하는 소리와 유사하게 분 석된다. 고역 강조된 음성은 디지털신호로 바뀌어 기억소자에 기록되어 반복 재생되며 분석 여파기를 통과하여 주파수 분 그림 6. 여러 가지 형태로 분석된 두 사람의 여보세요. 참고문헌 [3]G. Papcun, J. Kreiman, and A. Davis, J. Acoust. Soc. Am. 85, 913 (1989). 물리학과 첨단기술 April 2006 15
석이 이루어진다. 분석 여파기는 광대역 여파기[wider filter, 남자 음성을 분석하는 경우 300 Hz 정도]와 협대역 여파기 [narrow filter, 남자 음성을 분석하는 경우 45 Hz 정도]가 있는데 전자는 빨리 공명을 시작하여 정상적인 진폭에 이르 기까지 소요되는 불변 시간이 짧아 시간변수를 보다 정확히 분석하는데 이용되고, 후자는 불변시간이 길어서 주파수 변수 를 정확히 분석하는데 사용된다. 분석 여파기의 출력은 검파 되어서 방전전압으로 기록계에 공급된다. 기록계에 공급된 스 펙트럼 성분의 방전전압 크기에 대응해서 방전기록지에 음성 신호가 검은색의 농도 형태로 기록되어 음성을 수평축은 시 간, 수직축은 주파수, 검은색의 농도변화나 색깔변화로 주파 수별 에너지 분포도를 나타내는 스펙트로그램이 얻어지고 이 것을 성문( 聲 紋, voiceprint)이라 한다. 시각적인 방법으로 화자식별을 할 때는 그림 6에서와 같이 스펙트로그램 이외에도 신호의 분석 없이 단지 입력된 음성 신호에 의해 생긴 전압 변화를 시간 변화에 따라 선형 스케 일(linear scale)로 나타낸 시간파형, 이를 대수적으로 처리하 여 전압 변화를 데시벨(dB)로 나타낸 시간파형의 대수적인 포 락선(envelop)인 진폭 포락선, 선택된 데이터 그룹의 FFT (Fast Fourier Transform) 분석에 의해 입력신호의 주파수별 전력 크기(power magnitude)를 나타낸 FFT 스펙트럼 등의 여러 가지 형태로 분석한다. 이런 형태들로부터 분석된 데이터를 이용하여 주로 성도의 크기와 모양 등에 따라 달라지는 공명주파수와 주파수별 세 기, 성대의 진동에 의한 성대 진동 형태 및 음의 높이, 발성 습관에 주로 영향을 받는 억양, 발음지속시간, 자음 스펙트럼 및 음의 세기 변화 형태 등 음성기관과 발음상의 특징에서 나타나는 음향 파라미터들을 비교 분석한 결과를 종합하여 동일인 여부를 판단한다. (3) 기계적인 방법 기계적인 방법에 의한 화자식별은 컴퓨터를 이용하여 자동 으로 화자를 식별하는 방법으로, 음성신호처리 기술과 패턴인 식 기술의 발전에 힘입어 70년대부터 세계 여러 나라에서 연 구되어 왔다. 이 방법을 이용하는 자동화자식별 시스템에서는 음성분석, 데이터 처리, 및 결과 판단이 컴퓨터에 의해 자동 적으로 실행되므로 많은 사람의 음성을 동시에 처리하거나 빠른 시간 내에 보다 정확한 화자식별이 요구될 때 절실히 요구되는 방법이다. 또한 성문에 의한 시각적인 방법으로는 비교할 음성에서 동일한 말이 있는 경우(문장의존, text dependence)만 화자식별이 가능하나 자동화자식별시에는 동 일한 말이 없는 경우(문장독립, text independence)도 화자 식별이 가능하다. 그러므로 이 방법은 화자식별 결과를 보다 더 객관적이고, 수치적으로 표현하는 것이 가능하게 할 뿐만 아니라, 많은 특정인들(예로 범죄자들)의 음성 DB에서 한 개 인의 음성을 식별하는데 효율적으로 활용할 수 있다. 4. 실제 사건에서의 화자식별 예 (1) 경인전철 폭파협박사건 ( 96) 1996년 2월 5일 부평역에서 시발하는 전동차 내에 폭발물 을 설치하여 폭파시키겠다고 협박한 사건으로 범인은 부평역 에서 시발하는 전동차가 자주 지연되어 출근이 늦어져 직장 을 그만두게 될 뻔했다는 이유로 협박을 시작하였다. 두 번에 걸친 협박전화는 녹음이 되지 않았으나 폭파 협박전화 내용 이 방송을 통해 보도되자 당황한 범인이 국장실에 전화를 걸 어 국장과 통화하려고 한 내용이 녹음되었다. 수사관들은 신 고 후 발신전화번호 추적으로 발신 전화의 위치를 파악하였 고 신고 전에 걸려온 전화는 부평에서 서울로 건 시외 전화 로 사후에 발신 전화번호 추적이 가능해 범인이 사용한 공중 전화 위치를 분석하여 부평에서 서울 평창동으로 출퇴근하는 사람들을 추적하여 유력한 용의자 20명을 추려내고 다시 전 화 위치에서 집이 가장 가까운 가전제품 회사 직원인 L을 최 고 유력 용의자로 선정하였다. 처음에는 L이 용의자선상에 오 른 것을 인지하지 못하도록 수사진들은 두 번에 걸쳐 가전제 품을 구입하고자 하는 고객으로 가장하여 제품에 관한 문의 전화로 L의 자연스런 음성이 녹음되었다. 청취로 확인되는 범 인 음성은 매우 공식적으로 대화하는 짧은 음성으로 지역적 인 언어적 특징이 거의 검출되지 않는 음성이었고, 용의자 L 의 음성은 경상도 지역 언어적 특징이 명확하게 확인되는 음 성이었다. 성문에 의한 화자식별 결과 두 음성에서 명확한 공 통된 특징이 검출되어 동일인의 음성임이 확인되었다. 동일한 사람일 가능성이 있다는 통보를 받은 수사관들은 자신감을 가지고 수사에 임할 수가 있었고 음성을 감정했다는 말을 들 은 L은 스스로 자백하였다. L은 국장실에 전화를 걸었을 때 회의라는 말 대신에 미팅(meeting) 이라는 외국말을 사용하 였는데 검거되어 TV에서 인터뷰하였을 때도 손해라는 말 대 신에 데미지(demage) 라는 외국말을 사용하는 공통된 특징 을 나타내기도 했다. (2) 위장음성을 사용한 공갈 협박사건 ( 89) 피해자가 정부와 호텔에서 나오는 것을 목격하여 사진을 찍은 후 범인들은 차량번호로 차량등록 사업소에서 차적 조 회하여 피해자의 주소지 및 전화번호를 발췌하여 수십 회에 걸쳐 사실을 폭로하겠다고 협박하며 금품을 요구한 사건으로 범인들은 동생과 형이 번갈아 가며 전화를 걸었고 동생의 목 16 물리학과 첨단기술 April 2006
그림 7. 각종 녹음기 신호들: (좌상)은 녹음정지신호의 시간파형, (좌하)는 녹음정지시작신호의 시간파형, (중상)과 (중하)는 각각 녹음일시정지시작신 호의 시간파형과 스펙트로그램, (우상)과 (우하)는 각각 원본과 복사본에서의 녹음정지신호의 시간파형임. 소리는 목이 많이 쉰 목소리였다. 동생이라는 자가 검거되었 고 수사관은 공범을 찾고자 하였으나 피의자는 본인이 위장 음성을 내어 1인 2역을 하였다고 자백하였다. 범인들의 음성 과 피의자가 정상적인 목소리 내는 것과 쉰 목소리를 내는 음성이 모두 녹음되어 이들 음성이 한 사람의 음성인지 두 사람의 음성인지 여부기 의뢰 되었다. 시험결과 정상적인 음 성과 쉰 음성은 동일인의 음성이고 범인과 피의자 음성은 동 일인의 음성임이 확인되었다. 일반인들이 목소리를 위장하는 경우는 대부분 위장하는 데 한계가 있어 정상 음성과 비교하여 동일인의 음성인지 를 판단하는데 큰 어려움은 없으나 위장음성으로 판단되는 경우, 목소리 흉내를 아무리 잘 내는 사람이라도 본래의 목소리 주인공의 음성과는 명확하게 다른 음성임이 구별된 다. 화자식별이외의 음성연구실 업무 1. 화자의 성별, 연령, 언어영향권에 관한 추정 일반적으로 사람들은 음성을 듣고 대부분 그 음성 주인공 이 남자인지 여자인지 구별할 수 있다. 그러나 범죄사건에서 범인이 목소리를 위장하기 위해서 남자가 여자 음성으로, 여 자가 남자 음성으로 위장하는 경우는 청취적인 방법으로 구 별하기가 어려워진다. 남자 음성과 여자 음성은 음성의 높이 에서 명확하게 다르므로 [여자인 경우 평균이 약 240 Hz, 남 자인 경우 약 120 Hz] 음성의 높이 측정에 의해 남자 음성과 여자 음성을 구별할 수 있다. 실제로 G양 유괴사건에서 범인이 여자이었으나 남자 목소 리로 위장하여 금품을 요구한 사건이 있었고, 이때 범인의 평 균 음성 높이는 약 170 Hz로 남자 음성보다는 높고 여자 음 성 보다는 낮았으며 말의 속도가 비교적 느려 정상적인 음성 과는 구별되었다. 사람들은 얼굴을 보면 본인의 나이에 비해 나이가 더 들어 보이는 사람도 있고 무척 어려 보이는 사람도 있으나 대충 그 사람의 연령을 추측할 수 있다. 마찬가지로 음성을 청취하 여 목소리 주인공의 연령을 추정할 수 있고 청취 시험 이외 에도 나이에 따른 음성 높이의 통계자료를 활용하고 사용하 는 어휘 등에서 좀 더 정확하게 화자의 연령을 추정하는 것 이 가능하다. 지역적인 사투리를 쓰는 사람들은 많은 사람들이 목소리를 듣고 본인과 같은 고향 사람인지 여부를 쉽게 구별한다. 언어 는 주위 환경에 따라 많이 변화하지만 발음상의 특징, 억양, 등이 처음 말을 배울 때 굳어지게 되면 잘 변화하지 않게 된 다. 이러한 요소들을 분석 비교하여 화자의 언어 습득시의 언 어 영향권을 추정할 수 있다. 2. 녹음의 인위적 편집 여부 녹음 테이프의 물리적 외관검사, 부자연스러운 소리의 연결 이나 끊김 등의 확인을 위한 청취 시험, 아날로그 테이프의 물리학과 첨단기술 April 2006 17
그림 8. DAT 녹음기에 의한 녹음 편집 예: (좌상) 및 (우상)은 편집되기 전 음성, (좌하)는 녹음일시정지시작 에 의하여 (좌상)에서 커저 사이가 삭제 된 경우, (우하)는 (우상)에서 커저 사이의 음성이 녹음정지시작 에 의하여 삭제된 경우. 소거 신호 변화 확인을 위한 자기신호 현상실험, 문제의 부분 들에 대한 시간파형, 스펙트럼, 스펙트로그램 등의 비교 분석 등과 같은 실험들로부터 녹음들이 원본인지 복사본인지, 녹음 중간에서 인위적으로 녹음기를 작동했는지 여부, 잡음이 비정 상적으로 변화되었는지 여부, 대화가 비정상적으로 연결된 부 분이 있는지 여부 등을 확인하여 녹음의 인위적 편집여부를 판단하게 된다. 녹음기 작동신호들은 녹음기 특성에 따라 변화된다. 그림 7은 녹음의 인위적 편집여부를 확인하기 위하여 분석된 녹 음기 작동신호들을 보여준다. [4] 그림 8은 디지털 녹음기 (DAT)의 녹음기 작동에 의해 기 녹음된 일부분을 삭제한 예 이다. 녹음의 인위적 편집여부 확인은 녹음의 사실 증명을 위해 매우 중요하며, 정치, 및 선거 관련 사건이나 사기사건 등에 서 많이 활용되고 있다. 실제 사건의 예로 1972년 미국의 워 터게이트 사건 때 백악관에서 24시간 녹음되는 녹음테이프들 중 문제의 테이프를 6명의 음향학자들이 분석하여 그 테이프 에서 음성이 녹음되지 않은 일부분이 원래 녹음된 소리가 미 세한 잡음에 의해 삭제된 것임을 밝혀졌다. 이때부터 녹음의 편집여부 확인이 실제 사건에서 매우 중요한 역할을 하게 되 었다. 우리나라에서는 2002년 대통령 아들 병역비리 사건에 서 평균 주파수 스펙트럼 분석에 의하여 녹음된 두 사람의 음성이 동일한 장소, 및 동일한 녹음기기에 의해 녹음되지 않 은 것이 확인되었다. 3. 음질개선 녹음된 음성의 명료도는 음성과 동시에 녹음되는 시스템 잡음, 및 환경 잡음, 음성이 과도하게 크게 녹음될 때 발생 하는 음성의 비선형 왜곡, 녹음 장소의 음향적 환경에 의 한 컨벌루션 잡음, 전달 매체에 의한 제한된 주파수 대역 에 의한 음성 신호의 손실 등에 영향을 받는다. 뿐만 아니 라 대화자들간의 음성 크기가 많이 다른 경우도 음성의 명 료도는 저하된다. 녹음된 대화내용이 사건 해결에 중요한 역할을 하는데 녹음 상태가 매우 불량하여 대화내용 확인 이 곤란하거나, 화자식별시 녹음 상태가 불량하여 성문에 서 음향 특징들이 잘 나타나지 않는 경우 음질개선을 수행 되게 된다. 음질개선시에는 우선적으로 녹음들을 속도, azimuth 각도 참고문헌 [4] B. E. Koenig, J. Audio Soc. 38, 3 (1990). 18 물리학과 첨단기술 April 2006
그림 9. 컨벌루션 잡음 제거에 의한 음질개선 예: (좌) 음질개선 전 (우) 음질개선 후. 그림 10. 일정한 주파수 대역을 가진 잡음 제거에 의한 음질 개선 예: (좌) 음질개선전, (중)과 (우)는 각각 1차, 및 2차 음질개선 후임. 등을 최적 조건에 맞추어 재생한다. 세기가 매우 큰 순간 잡 음은 limiter를 사용하여 조절하고, 변화하는 잡음이나 컨벌 루션 잡음들은 Adaptive, Spectral Inverse 필터 등이 사용 된다 (예로, 그림 9 참조). 주파수가 일정한 잡음을 제거하기 위해서는 Notch, Comb, Adaptive 등의 필터를 사용되고 (예 로, 그림 10 참조), 주파수 대역이 한정된 잡음들은 Bandpass, Band Rejection 필터, Equalizer 등이 이용되며, 음성의 세 기를 균일화 시키는 데는 Compressor/Expander, AGC 등 이 사용된다. 기타 음성음향학적 업무 녹음된 자료 중에서 사람 음성 이외의 소리들이 사건 해결 에 매우 중요한 단서가 되는 경우가 있다. 범인이 전화를 거 는 장소에서 발생한 주변 소리들로부터 범인의 위치 추적을 위한 단서를 얻을 수도 있고, 전화 시작음이나 종료음에서 사 용한 전화기에 대한 정보도 얻을 수가 있다. 또한 전화기 번 호 버튼음들은 두 가지 주파수가 혼합된 소리로 이 소리가 녹음된 경우 전화번호를 알아낼 수가 있다. 우리나라에서는 거의 일어나지 않으나 총기 사고가 난 경우 녹음된 총소리를 분석하여 총의 종류를 확인할 수 있다. 총소리는 총의 종류 뿐만 아니라 녹음된 장소의 음향적 특성, 및 녹음기기의 주파 수 특성에도 영향을 받는다. 실제 사건의 예로 미국에서 발생한 사건으로 1982년 강도 가 집에 침입하자 놀란 피해자는 긴급구조대(911)에 신고 전 화를 하였으나 강도에 의해 살해당했다. 다행히도 살인현장에 서의 소리들이 긴급구조대 녹음 시스템에 의하여 계속 녹음 이 되고 있었고 파이프가 바닥에 떨어지는 소리가 확인되었 다. 그 후 이 파이프 소리가 살인 용의자 집에서 찾아낸 파이 프에 의한 소리임이 확인이 된 적이 있었다. 파이프가 떨어지 는 소리는 파이프의 재질, 길이, 두께 등에 따라 주파수 특성 이 달라지게 된다. 물리학과 첨단기술 April 2006 19