기계 학습 기법을 이용한 스팸 메일 걸러내기

Similar documents

정보기술응용학회 발표

메일서버등록제(SPF) 인증기능적용안내서 (Exchange Windows 2003) OS Mail Server SPF 적용모듈 작성기준 Windows Server 2003 Exchange Server 2003 GFI MailEssentials 2010 fo

< 목차 > Ⅰ. 개요 3 Ⅱ. 실시간스팸차단리스트 (RBL) ( 간편설정 ) 4 1. 메일서버 (Exchange Server 2007) 설정변경 4 2. 스팸차단테스트 10

R을 이용한 텍스트 감정분석

게시판 스팸 실시간 차단 시스템

메일서버등록제(SPF) 인증기능적용안내서 (Exchange Windows 2000) OS Mail Server SPF 적용모듈 작성기준 Windows Server 2000 Exchange Server 2003 GFI MailEssentials 14 for

Probability Overview Naive Bayes Classifier Director of TEAMLAB Sungchul Choi

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Lecture12_Bayesian_Decision_Thoery

특집.레터

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

단순 베이즈 분류기

PowerPoint 프레젠테이션

B-05 Hierarchical Bayesian Model을 이용한 GCMs 의 최적 Multi-Model Ensemble 모형 구축

PowerPoint 프레젠테이션

Main Title

<B1DDC0B6B1E2B0FCB0FAC0CEC5CDB3DDB0B3C0CEC1A4BAB82E687770>

무공수훈신문(35호)교체

235È£ ¿Ï¼º

09권오설_ok.hwp

<C7A5C1F620BEE7BDC4>


슬라이드 1

04김호걸(39~50)ok

메일서버등록제(SPF) 인증기능적용안내서 (AIX - sendmail) OS Mail Server SPF 적용모듈 (Perl 기반) 작성기준 AIX 5.3 sendmail spf-filter 년 6 월

메일서버등록제(SPF) 인증기능적용안내서 (HP-UX - qmail) OS Mail Server SPF 적용모듈 (Perl 기반) 작성기준 HP-UX 11.11i qmail 1.03 spf-filter 년 6 월


Mailnara Business Plan 2013

<BFACB1B831382D31355FBAF2B5A5C0CCC5CD20B1E2B9DDC0C720BBE7C0CCB9F6C0A7C7E820C3F8C1A4B9E6B9FD20B9D720BBE7C0CCB9F6BBE7B0ED20BFB9C3F8B8F0C7FC20BFACB1B82D33C2F7BCF6C1A E687770>

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월


확률 및 분포

메일서버등록제(SPF) 인증기능적용안내서 (HP-UX - postfix) OS Mail Server SPF 적용모듈 (Perl 기반) 작성기준 HP-UX 11.11i postfix spf-filter 년 6 월

#Ȳ¿ë¼®

44-4대지.07이영희532~

특허청구의 범위 청구항 1 게임 서버 또는 미들웨어에 의해, 사용자 단말기로부터, GPS 정보, IP 정보, 중계기 정보 중 적어도 하나를 이 용한 위치 정보와, 상기 사용자 단말기에 설정된 언어 종류를 포함하는 사용자 정보를 수신하는 단계; 상기 게임 서버 또는 미들

아~ 대한민국

레이아웃 1

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

김기남_ATDC2016_160620_[키노트].key

00표지


untitled

16 양동일(287~297).hwp

구절초테마공원 & 산호수마을 단아하고 소담한 구절초의 재발견 이 꽃, 개망초보다는 크고 쑥부쟁이와는 닮은꼴이다. 수수하기는 하나, 볼수록 매력 있다. 시골의 길섶에서 흔히 눈에 띄는 구절초 이야기다. 정읍 구절초테마공원에 만개한 구절초는 어떤 가을꽃보다 매혹적이었다.

Microsoft PowerPoint - 26.pptx

03-서연옥.hwp

PowerPoint 프레젠테이션

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

Voice Portal using Oracle 9i AS Wireless

Secure Programming Lecture1 : Introduction

<C3D6C1BE2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D32C8A3292E687770>

DIY 챗봇 - LangCon


행삭제 열삭제

09오충원(613~623)

Data Industry White Paper

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

웹사이트제작과운영, 네이버와함께하세요! 고영수 / UI 기술랩 me2day.net/youngsuko

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

2 : (Juhyeok Mun et al.: Visual Object Tracking by Using Multiple Random Walkers) (Special Paper) 21 6, (JBE Vol. 21, No. 6, November 2016) ht


메뉴얼41페이지-2

Portal_9iAS.ppt [읽기 전용]

Intra_DW_Ch4.PDF

13Ç㿱-Ãʱ³

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구


부문별 에너지원 수요의 변동특성 및 공통변동에 미치는 거시적 요인들의 영향력 분석

林 海 彰 敎 授 指 導 碩 士 學 位 論 文 본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템 A Comment Spam Filter System based on Inverse Chi- Square Using of Co-occurr

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

88 KOREA INSTITUTE OF LOCAL FINANCE

AFF2018_6PP_Brochure_BR_KR_preview

108 KOREA INSTITUTE OF LOCAL FINANCE

12 CO N T E N T S

11 CO N T E N T S

정보화정책 제14권 제2호 Ⅰ. 서론 급변하는 정보기술 환경 속에서 공공기관과 기업 들은 경쟁력을 확보하기 위해 정보시스템 구축사업 을 활발히 전개하고 있다. 정보시스템 구축사업의 성 패는 기관과 기업, 나아가 고객에게 중대한 영향을 미칠 수 있으므로, 이에 대한 통제

PBR PDF

6강.hwp

빅데이터_DAY key

ASETAOOOCRKG.hwp


SRC PLUS 제어기 MANUAL

1. 배경 업무 내용이나 개인정보가 담긴 청구서 등을 메일로 전달 시 중요한 정보가 유출되는 경우가 발생하고 있으며, 이에 따른 메일 암호화 솔루션을 도입하고 있으나 기존 ActiveX를 기반으로 한 플러그인 방식은 여러 가지 제약으로 인해 사용성이 저하되고, 고객 대

DBPIA-NURIMEDIA


265È£ ¿Ï¼ºc03â·Âš

2014 Stone 1¿ù.PDF



......CF0_16..c01....

C++ Programming

Transcription:

기계학습기법으로스팸메일걸러내기 소프트웨어무결점연구 (ROSAEC) 센터제 5 회워크샵 튜토리얼 2011 년 1 월 8 일 곽남주 1

차례 스팸의어원 왜스팸메일을보내는가? 스팸메일에당한사례 스팸방지를위한노력 기계학습을활용한스팸걸러내기 베이지안스팸거름법 (Bayesian Spam Filtering) 복수단어인식단위로의확장 (Multiple-Word Feature) 마르코비안거름법 (Markovian Filtering) 은닉마르코프모형과난독화문제해법 (Deobfuscation with Hidden Markov Model) 정리 질의응답 참고자료및참고문헌 2

스팸의어원 1970 년대, 영국의코미디프로그램 스팸 이라는말을불필요하게반복적으로함으로써웃음을유발 초기인터넷사용자들사이, 온라인게시판이나토론장을스팸이라는말로도배하는장난이유행 1980 년대 머드 (multi-user-dungeon) 게임에서도성행 Usenet 과개인이메일사용자, 지나친광고글을게시하는일을 스패밍 한다고부르기시작 영국코미디 Monty Python Sketches World of Warcraft 대화창스패밍 3

왜스팸메일을보내는가? 통계수치에따르면 12,500,000 통의상품판매목적스팸메일을보내면, 한건정도는매출로이어진다고함 (2010 년 3 월자료 ). McAfee 에의하면, 미국인의절반이매일이메일을사용하고, 그중절반이귀가얇아잘속는경향이있고, 그중 1% 가구매를시도하다신용사기의희생양이되어, $20 씩을지불해야한다면, 잠재적시장규모가미국내에서만일간 1500 만달러, 주간 1 억 500 만달러, 연간 55 조달러에이름. 4

스팸메일에당한사례 Shtyle.fm 뭔가페이스북같은곳일까? 5

스팸메일에당한사례 Shtyle.fm 아주간단한비밀번호도통과되고세부정보는제공하지않아도가입이가능단, 아이디는이메일주소 가입기념으로친구에게선물을줄수있다고하면서, 가입시사용했던이메일주소의비밀번호를요구함 6

스팸메일에당한사례 Shtyle.fm 친구에게선물을줘야지! Shtyle.fm 데이터베이스 PW: ABC ID: somebody@somewhere.some PW: 123 PW: ABC Shtyle.fm 사이트 송신 : 나수신 : 내주소록친구들 가입자의이메일계정주소록을조회해서, 발신자는가입자의이메일주소, 수신자는주소록에서얻어진이메일주소들로하여자사홍보메일을보낸다. 7

스팸방지를위한노력 사용자입장 이메일주소는지인들에게만공개 주소일그러뜨리기 (personnos@pamdomain.com) 스팸에반응보이지않기 더이상스팸보내지마세요! 라고반응하는것은 당신이스팸보낸주소는실제로존재하는주소입니다. 감사합니다. 라고하는것과같다. 외부용주소를사용하고, 실제사용은전달 (forward) 받아서하기 응징및복수 ( 발신자추적해스팸더보내기, 발신자컴퓨터찾아서괴롭히기, 스팸광고하는사이트가서악성게시물올리기 ) 8

스팸방지를위한노력 이메일관리자입장 스팸발신자가없다고검증된이메일서버만취급 발신때마다스팸발신이아닌지검사 (Captcha 등 ) 스팸메일의검사합계 (checksum) 를수집하여, 걸러내기 RFC 표준준수여부확인 ( 스팸메일은보통표준을염두에두지않음 ) 스팸메일덫설치후걸린발신자차단 기계학습및통계적방법으로걸러내기 9

기계학습을활용한스팸걸러내기 베이지안스팸거름법 복수단어인식단위로의확장 마르코비안거름법 10

베이지안스팸거름법 (Bayesian Spam Filtering) 11

베이지안스팸거름법 (Bayesian Spam Filtering) 12

베이지안스팸거름법 (Bayesian Spam Filtering) 13

베이지안스팸거름법 (Bayesian Spam Filtering) 14

베이지안스팸거름법 (Bayesian Spam Filtering) 15

베이지안스팸거름법 (Bayesian Spam Filtering) 16

복수단어인식단위로의확장 (Multiple-Word Feature) 베이지안스팸거름법은단어들의이웃함을고려하지않는다. 대출한도 와 대출 한도 의차이 최대 k 개의단어순서열을인식의단위로간주하면어떨까? 크기 k 인창을움직이면서, 창의첫단어를반드시포함하되, 다른단어들은생략가능하며, 단, 그단어들의순서가유지되어야한다. k=3 이라고할때의생성되는일부인식단위들의예 빠르게알아보는나의대출한도조회기록 빠르게 알아보는 나의 사용 사용 사용 빠르게알아보는나의 사용 사용 빠르게알아보는 사용 사용 빠르게나의 알아보는 나의 대출한도 사용 사용 사용 알아보는나의대출한도 사용 사용 알아보는나의 사용 사용 알아보는대출한도 사용 빠르게 사용 알아보는 17

복수단어인식단위로의확장 (Multiple-Word Feature) 빠르게알아보는나의 알아보는나의대출한도 나의대출한도조회 대출한도조회기록 빠르게알아보는 알아보는나의 나의대출한도 대출한도조회 빠르게나의 알아보는대출한도 나의조회 대출한도기록 빠르게 알아보는 나의 대출한도 18

마르코비안거름법 (Markovian Filtering) 스팸메일에포함된 k 개의단어들을순서와이웃함을유지한채포함하고있는경우가많을수록스팸일가능성이높지않을까? 당일바로대출 5000 과 당일바로 의차이 인식단위의길이에지수적으로증가하는가중치를부여 k=5 이라고할때의, 각인식단위에주어지는가중치의예 당일바로대출최대 5000 당일바로대출최대 5000 256 당일바로 5000 16 당일대출최대 5000 64 당일바로최대 16 당일바로최대 5000 64 당일바로대출 16 당일바로대출 5000 64 당일 5000 4 당일바로대출최대 64 당일최대 4 당일최대 5000 16 당일대출 4 당일대출 5000 16 당일바로 4 당일대출최대 16 당일 1 19

마르코비안거름법 (Markovian Filtering) 20

Honglak Lee and Adrew Y. Ng, Spam deobfuscation using a hidden Markov model, Conf. on Email and Anti-Spam, 2005. 은닉마르코프모형과난독화문제해법 (Deobfuscation with Hidden Markov Model) 난독화문제 (obfuscation) 기존단어 refinance mortgage viagra unsubscribe 난독화단어 r.efina.nce, r-efin-ance, re xe finance mort gage, mo>rtglage, mor;tg2age v*1agra, v-i-a-g-r-a, v1@gra, vjaggra u.n sabcjbe, un susc ribe 은닉마르코프모형 (Hidden Markov Model, HMM) 21

Honglak Lee and Adrew Y. Ng, Spam deobfuscation using a hidden Markov model, Conf. on Email and Anti-Spam, 2005. 은닉마르코프모형과난독화문제해법 (Deobfuscation with Hidden Markov Model) 22

Honglak Lee and Adrew Y. Ng, Spam deobfuscation using a hidden Markov model, Conf. on Email and Anti-Spam, 2005. 은닉마르코프모형과난독화문제해법 (Deobfuscation with Hidden Markov Model) 초기상태확률벡터, 상태이전확률행렬, 관찰발생확률벡터의정의 자가이전제어인자 (S 0 X) 를접두어로갖는단어의총빈도수 단어 (S 0 X) 의총빈도수 Q 는이전하면서공백문자를생성할확률, P 는이전하면서비공백문자를생성할확률 모형자체의또다른인자 공백문자이전제어인자 훈련데이터 (training data) 의로그가능성 (likelihood) 를최대화하도록 η, ε, τ 를학습한다. 난독화를위해삽입되는무의미한문자의확률분포 상태가나타내는문자를나타내기위한관찰된문자의확률분포 23

Honglak Lee and Adrew Y. Ng, Spam deobfuscation using a hidden Markov model, Conf. on Email and Anti-Spam, 2005. 은닉마르코프모형과난독화문제해법 (Deobfuscation with Hidden Markov Model) 학습된모형에난독화된단어를입력으로넣고비터비알고리즘을수행하면, 가장가능성이높은상태의순서열이얻어지고, 이것이바로비난독화가적용된단어이다. v1@gra viagra v i a g r a 상태전이확률행렬의희소 (sparse) 표현을적용하고, Jelinek 의 1999 년저서에서소개된방법 (beam search) 을사용하면, 알고리즘을더욱빠르게할수있다. F. Jelinek, Statistical Methods for Speech Recognition. MIT Press, 1999. 24

정리 베이지안거름법 : 단어의이웃관계를무시하고단어의출현이독립적인사건이라는가정하에, 메일에등장하는각단어의스팸성을구해종합함으로써스팸메일일확률을추정한다. 복수단어인식단위로의확장 : 단어의이웃관계를제한적으로감안하고단어의출현의종속성을다소반영한인식단위를이용하여, 스팸메일일확률을추정한다. 마르코비안거름법 : 단어의이웃관계및출현의종속성이잘반영된인식단위일수록높은가중치를제공하여, 스팸메일일확률을추정한다. 은닉마르코프모형과난독화문제 : 은닉마르코프모형을이용하여난독화된단어를원래단어로해독하고, 이를바탕으로거름법을수행하면더좋은결과를기대할수있을것이다. 25

질의응답 26

참고자료및참고문헌 참고자료및참고문헌 Wikipedia - Spam (Monty Python) (http://en.wikipedia.org/wiki/spam_(monty_python)) Spam Experts (http://www.spamexperts.com/spam-experts/news-archive/article/motivation-forspammers.html) Consumer Fraud Reporting (http://www.consumerfraudreporting.org/spam_costs.php) Wikipedia - Bayesian spam filtering (http://en.wikipedia.org/wiki/bayesian_spam_filtering) Ben O connor, Markovian Spam Filtering, 2007. Gary Robinson's Rants (http://radio-weblogs.com/0101454/stories/2002/09/16/spamdetection.html) Jonathan A. Zdziarski, Ending Spam: Bayesian Content Filtering and the Art of Statistical Language Classification, No Starch Press, 2005. Raju Shrestha and Yaping Lin, Improved Bayesian Spam Filtering Based on Co-weighted Multi-area Information, Advances in Knowledge Discovery and Data Mining, 2005. William S. Yerazunis, Sparse Binary Polynomial Hashing and the CRM114 Discriminator (slides) Shalendra Chhabra, William S. Yerazunis, and Christian Siefkes, Spam Filtering using a Markov Random Field Model with Variable Weighting Schemas, ICDM 04, 2004. William S. Yerazunis, The Spam-Filtering Accuracy Plateau at 99.9 percent Accuracy and How to Get Past It, MIT Spam Conference, 2004 William S. Yerazunis, et al., A Unified Model of Spam Filtration, MIT Spam Conference, 2005. Honglak Lee and Adrew Y. Ng, Spam deobfuscation using a hidden Markov model, Conference on Email and Anti-Spam, 2005. Seunghak Lee, Iryoung Jeong, and Seungjin Choi, Dynamically Weighted Hidden Markov Model for Spam Deobfuscation, Proceedings of the 20th International Joint Conference on Artificial Intelligence, 2007. 27