138 최소분류오차기법을이용한보이스피싱검출알고리즘이계환외 논문 2009-46SP-3-17 최소분류오차기법을이용한보이스피싱검출알고리즘 (Voice-Pishing Detection Algorithm Based on Minimum Classification Error Technique ) 이계환 *, 장준혁 ** * (Kye-Hwan Lee and Joon-Hyuk Chang ) 요 약 본논문에서는보이스피싱 (Voice Pishing) 예방을위한알고리즘을최소분류오차기법 (Minimum Classification Error) 을기반으로제한하다. 휴대폰으로전송되어진신호를기반으로 3GPP2 Selectable Mode Vocoder (SMV) 의복호화과정에서자동적으로추출되는중요특징벡터를사용하여 Gaussian Mixture Model (GMM) 을구성하고이를기반으로구해지는로그 (Log) 기반의우도 (Likelihood) 를사용한변별적가중치학습을사용하여보이스피싱예방을위한검출알고리즘을제안하다. 실험결과제안된보이스피싱알고리즘이기존의방법에비해우수한성능을보인것을알수있었다. Abstract We propose an effective voice-phishing detection algorithm based on discriminative weight training. The detection of voice phishing is performed based on a Gaussian mixture model (GMM) incorporaiting minimum classification error (MCE) technique. Actually, the MCE technique is based on log-likelihood from the decoding parameter of the SMV (Selectable Mode Vocoder) directly extracted from the decoding process in the mobile phone. According to the experimental result, the proposed approach is found to be effective for the voice phishing detection. Keywords : 보이스피싱, Selectable Mode Vocoder (SMV), Gaussian Mixture Model (GMM), Minimum Classification Error (MCE) Ⅰ. 서론 일반적으로보이스피싱은금전상의이득을목적으로하여대중으로부터그에상응하는개인적정보나금융관련정보등을얻기위해행해진범죄행동이다. 이러한보이스피싱은금전상의피해뿐만아니라개인식별번호 (Personal Identification Number, PIN), 유효기간, 생일등과같은추가적인정보를목적으로사용 ** * 학생회원, 정회원, 인하대학교전자공학부 (Department of Electronics Engineering, Inha University) 본연구는지식경제부및정보통신연구진흥원의 IT 핵심기술개발사업 [2008-F-045-01] 과지식경제부및정보통신연구진흥원의대학 IT연구센터지원사업의연구결과로수행되었음 (IITA-2008-C1090-0902-0010). 접수일자 : 2008년9월9일, 수정완료일 : 2009년4월13일 되어지기도한다. 또한, 일반적으로보이스피싱은모니터링하거나추적하는것이매우어렵기때문에현재보이스피싱을막기위해서는금융관련정보를요구하거나이와유사한행위가요구될때소비자에게강한의심을가지라는충고를하는것이유일한실정이다. 이러한보이스피싱에대한보호를위해많은연구들이진행되고있으며, 특히사람의잠재의식속의행동들에기반한연구가많이진행되고있다. 보이스피싱과관련하여사람의잠재의식과관련된행동에대해많이알려진사실중하나는사람들이거짓말을할경우에자신도알기힘든변화가있다는것이다 [1]. 사람들이거짓말을할경우목소리의떨림, 눈동자의움직임, 손동작, 얼굴의미세한표정변화등과현상들이관찰된다. 이와같은현상은비언어적누출 (Nonverbal Leakage) 이라는표현으로명명되어진다. 이러한비언어적누출 (374)
2009 년 5 월전자공학회논문지제 46 권 SP 편제 3 호 139 중에서음성정보는거짓말을할때이를인지할수있게하는가장중요한정보중하나이다 [2]. 본논문에서는핸드폰을이용한전화사기를예방하기위하여변별적가중치학습에기반한보이스피싱검출알고리즘을제안하다. 기존에우리의연구에서보인효과적인특징벡터를사용한보이스피싱검출알고리즘을보다향상시키기위해 Minimum Classification Error (MCE) 를사용하여구해진변별적가중치를적용하였다 [3~4]. 그결과제안된방법이기존의방법보다우수한성능을보임을알수있었다. 본논문의구성으로는, Ⅱ장에서는실험에서사용되어진 Selectable Mode Vocoder (SMV) 와추출되어진특징벡터에대해서기술하고, Ⅲ장에서는제안된변별적가중치가적용된보이스피싱검출알고리즘에대해서기술한다. Ⅳ장에서는실험결과에대한비교및분석에대해기술하였으며, 마지막으로 V장에서결론을맺는다. II. SMV 의이해와사용되어진특징벡터본논문에서사용되어진음성부호화기인 SMV는 3GPP2의표준화된가변전송률음성코덱이다. SMV 전송환경과상태에따라서 Rate 1 (8.55 kbps), Rate 1/2 (4.0 kbps), Rate 1/4 (2.0 kbps) 과같은전송률을가진다. 또한전송률과음질사이의절충관계를고려하여 4개의동작모드를갖는다. 따라서 SMV는다양한평균전송율과동작모드를가지므로 CDMA 시스템의성능과음질간의관계에서효과적으로성능을조절할수있다 [5~7]. 본논문에서는전송된음성신호를분석하여이를보이스피싱검출을위한효과적인특징벡터를선별하기위해 SMV 복호화과정에서자동적으로추출되는특징들을선별하였다. 선별된특징벡터는지난보이스피싱검출에관한우리의연구에서사용되어진특징벡터를선택하였으며, 다음과같다 [3, 7]. 1. 반사계수 (Reflection Coefficients, RC) 자기상관함수 () 와 LPC 계수 () 를이용하여계산한다. 2. LSF 의첫번째계수 (First-LSF) SMV 부호화과정으로부터전송된비트스트림으로부터구한 LSF의첫번째계수를사용한다 [7]. 3. 피치지연 (Pitch Lag) SMV 부호화과정에서개회로피치검출을사용하여구해진값을 SMV 복호화과정에서전송받아서적응코드북을통해계산된다. 4. 수정된피치지연 (Corrected Pitch Lag, CPL) SMV 부호화과정에서전송된피치지연을 SMV 복호화과정에서프레임타입, 불량프레임지시변수그리고반사계수를이용하여새롭게구해진다. Ⅲ. 보이스피싱검출을위해제안된알고리즘 지금까지연구되어진보이스피싱검출은단순한결정식을사용하거나일반적인방법의패턴인식방법을사용하였다 [8~9]. 하지만본논문에서는추출되어진특징벡터의비교및분석을통해효과적인특징벡터를찾아내고, 일반적인방법의패턴인식이아닌 MCE를사용하여인식에사용되어지는모델에변별적가중치를적용한보이스피싱검출알고리즘을제안한다. 제안된보이스피싱검출에기반이되는 Gaussian Mixture Model (GMM) 은 Expectation Maximization (EM) 알고리즘을기반으로주어진데이터집합에대한 분포밀도를복수개의가우시안확률밀도함소로모델링하는패턴인식의방법중하나이다 [10~11]. 우리가지난연구에서다양한분석을통해선택한보이스피싱을위한효과적인특징벡터를 개의 차원특징벡터 라고하면, 개의혼합성분 (Mixture Component) 으로구성되는가우시안확률밀도함수를기반으로하는우도 (Likelihood) 는다음과같이계산된다. (2) (1) 여기서 GMM 을위한진실 (Truth) 모델 와거짓 (375)
140 최소분류오차기법을이용한보이스피싱검출알고리즘이계환외 (Lie) 모델 는다음과같이가우시안혼합성분밀도의가중치 (Mixture Weight : ), 평균벡터 (Mean Vector : ) 그리고공분산행렬 (Covariance Matrix : ) 로구성된다. (3) 구성되어진각각의모델파라미터 와 는 EM 알고리즘을사용하여 가되는새로운모델 를정해진문턱값에도달할때까지반복하여알맞은모델을선별하게된다. 이렇게선별된모델을기반으로다음과같은보이스피싱을위한 1차적인결정식을만들수있다. (4) 여기서 는보이스피싱검출을위한문턱값이며, 는진실모델그리고 는거짓모델을나타낸다. 제안된방법은보이스피싱을검출하는결정식에 MCE 기법을적용하여각각의모델별혼합성분에분별적가중치를적용한최적의감정별모델을만드는것이며, 제안된최종결정식은다음과같이나타낼수있다. (5) 여기서 는제안된 MCE 기법을통해구해진혼합성분별가중치가적용된최종결정식을나타낸다. 최종결정식을위한최적을가중치 를구하기위해 Generalized Probilistic Descent (GPD) 기법을사용하게된다. 이러한기법을기반으로실제훈련데이터의 에대한분류오류 를정의할수있다. 분류오류함수는음수값을가질경우올바른분류로판별하며이를기반으로다음과같이손실함수 을정의할수있다. (8) 여기서 는 sigmoid 함수의기울기를나타내며구하고자하는최종결정식을위한최적가중치 는 Generalized Probabilistic Descent (GPD) 알고리즘에기반하여손실함수 의값이최소가될때구해지게된다. IV. 실험결과분석및비교 본논문에서제안한변별적가중치기반의보이스피싱검출알고리즘의성능평가를위해서실제보이스피싱음성을수집하였다. 이음성은우리의지난논문에서사용하였던데이터파일과같은것으로 [3], 보이스피싱모델을만들기위해보이스피싱가해자의목소리남자 5명의약 3분, 여자 3명의약 1분 30초분량의목소리를모았으며, 일반적인남자와여자의전화통화목소리또한같은양의데이터를모았다. 또한같은양의데이터가테스트를위해사용되어졌다. 수집되어진일반적인전화통화목소리와보이스피싱가해자목소리데이터는모두 8 khz로샘플링하였으며, 16 bit로양자화하였다. 제안된보이스피싱의성능을테스트하기위해서 II 장에서기술되어진지난우리의연구에서보인효과적 (6) 여기서 는프레임인덱스를나타내며, 와 은다음과같이입력데이터를진실과거짓프레임으로분류하기위한함수이다. (7) 그림 1. GMM의혼합성분에따른가중치분포 Fig. 1. Weights distribution according to Gaussian mixtures. (376)
2009 년 5 월전자공학회논문지제 46 권 SP 편제 3 호 141 표 1. 제안된방법과기존의방법의 EER 결과 Table 1. EER result according to voice pishing method. 특징벡터 EER Male Female M+F 제안방법 17.50% 24.38% 31.49% 기존방법 [3] 22.89% 29.95% 33.60% 인특징벡터를사용하였으며, 16개의혼합성분을사용하여 GMM 모델구성하였다. 그림 1은본논문에서제안한 MCE를이용하여구한혼합성분별가중치를보여준다. 그리고그림 2와표 1 은각각구해진혼합가중치를적용하여새롭게구성한모델이사용된 Receiver Operating Characteristic (ROC) 커브와 Equal Error Rate (EER) 의결과를보여준다. 인식결과보이스피싱검출을위해제안되어진방법이기존의연구되어진동일특징벡터와단순한 GMM을사용한인식방법에 [3] 비해 EER과 ROC 전반에걸쳐우수한성능을보인것을알수있었다. 이는기존의일반적인 GMM 방법에서는각각의혼합성분별로로그우도차이를 MCE를사용함으로써보다효과적인혼합성분을찾고이를바탕으로변별적가중치를적용하였기때문에미세한차이를보이는혼합성분의로그우도는그비중을줄이고많은차이를보이는혼합성분의로그우도의비중을늘림으로써더욱향상된인식결과를보인것이라생각된다. V. 결론 그림 2. ROC에기반한인식성능비교 (a) 남자 (b) 여 자 (c) 남자 + 여자 Fig. 2. The voice phishing detection performance based on ROC. (a) Male (b) Female (c) Male + Female. 본논문에서는효과적인전화사기예방을위해최소분류오류기법에기반한보이스피싱검출알고리즘을제안하였다. 기존의연구에서알아낸효과적인특징벡터에일반적인 GMM 방식이아닌 MCE를적용하여변별적인가중치가적용된혼합성분을이용한 GMM을사용하여인식을수행하였다. 실험결과본논문에서제안한방법이기존의방법에비해우수한성능을보인것을알수있었다. 또한남자와여자를따로테스트할경우혼합해서할경우보다더많은성능의향상을비추어볼때보이스피싱검출입력단에우수한성능의성별인식기를추가한다면보다효과적인인식이될것이라생각된다. 또한이에그치지않고보다효과적인 (377)
142 최소분류오차기법을이용한보이스피싱검출알고리즘이계환외 특징벡터와인식방법에대한다양한시도와연구가진행되어야할것이다. 참고문헌 [1] Furedly J. J., Davis C., and Gurevich M., Differentiation of deception as a psychological process:a psychophysiological approach, Psychophysiology, vol. 25, no. 6, pp.683-688, 1988. [2] Ekman P., Friesen W. V., and Scherer K., Body movement and voice pitch in deceptive interaction, Semiotica, vol. 16, no. 1, pp. 23-27, 1976. [3] 이계환, 장준혁, 3GPP2 SMV 기반의보이스피 싱검출알고리즘, 전자공학회, 제 45권, SP 편 제 4호, pp. 92-99, 2008. [4] Kang S. -I., Jo Q. -H., Chang J. -H., Discriminative Weight Training for A Statistical Model-Based Voice Activity Detection, IEEE Signal Processing Letters, vol. 15, pp. 170-173, 2008. [5] Greer S. C., and Dejaco A., Standardization of the selectable mode vocoder, IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2, pp. 953-956, 2001. [6] Yang G., Shlomot E. B., Thyssen J., Huan-yu S., and Murgia C., The SMV algorithm selected by TIA and 3GPP2 for CDMA applications, IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2, pp. 709-712, 2001. [7] 3GPP2 Spec., Software distribution for selectable mode vocoder (SMV), service option 56, specification, 3GPP2-C. Roo30-0, v3.0, 2005. [8] Daniel N., Kjell E., and Kornel L., Emotion Recognition in spontaneous speech using GMM, INTERSPEECH, pp. 809-812, 2006. [9] Tsang-Long P., Yu-Te C., and Jun-Heng Y., Emotion recognition from Mandarin speech signals, International Symposium on Chinese Spoken Language Processing, pp. 301-304, 2004. [10] Bishop C. M, Neural networks for pattern recognition, Oxford University Press, UK, 1995. [11] Duda R. O., Hart P. E., and Stork D. G., Pattern classification, John Wiley & Sons, INC., 2001. 저자소개 이계환 ( 학생회원 ) 2007 년인하대학교전자전기공학부학사. 2007 년 ~ 현재인하대학교전자공학과석사과정. < 주관심분야 : 디지털신호처리 > 장준혁 ( 정회원 ) 1998 년경북대하교전자공학과학사. 2000 년서울대학교전기공학부석사. 2004 년서울대학교전기컴퓨터공학부박사. 2000 년 2005 년 ( 주 ) 넷더스연구소장 2004 년 2005 년캘리포니아주립대학, 산타바바라 (UCSB) 박사후연구원 2005 년한국과학기술연구원 (KIST) 연구원 2005 년 현재인하대학교전자공학부조교수 < 주관심분야 : 음성신호처리, 오디오신호처리, 통신신호처리, 휴먼 / 컴퓨터인터페이스 > (378)