04(785-791) SA14-18.hwp



Similar documents
DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

°í¼®ÁÖ Ãâ·Â

09권오설_ok.hwp

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

위해 사용된 기법에 대해 소개하고자 한다. 시각화와 자료구조를 동시에 활용하는 프로그램이 가지는 한계와 이를 극복하기 위한 시도들을 살펴봄으로서 소셜네트워크의 분석을 위한 접근 방안을 고찰해 보고자 한다. 2장에서는 실험에 사용된 인터넷 커뮤니티인 MLBPark 게시판

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

À±½Â¿í Ãâ·Â

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

정보기술응용학회 발표

14.531~539(08-037).fm

디지털포렌식학회 논문양식

09오충원(613~623)

<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A52DC1A4BFB5C3B62E687770>

???? 1

3. 클라우드 컴퓨팅 상호 운용성 기반의 서비스 평가 방법론 개발.hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 29(2), IS

SNS 명예훼손의 형사책임

인문사회과학기술융합학회

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

???? 1

03-서연옥.hwp

05( ) CPLV12-04.hwp

07.045~051(D04_신상욱).fm

08SW

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

ePapyrus PDF Document

6.24-9년 6월

DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

09È«¼®¿µ 5~152s

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

untitled

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

8-VSB (Vestigial Sideband Modulation)., (Carrier Phase Offset, CPO) (Timing Frequency Offset),. VSB, 8-PAM(pulse amplitude modulation,, ) DC 1.25V, [2

<30322DC8ABBBEFBFAD2E687770>


06_ÀÌÀçÈÆ¿Ü0926

ø©º∫∞˙ ∞Êøµ0

04 최진규.hwp

<372E20B9DAC0B1C8F12DB0E62E687770>

<31325FB1E8B0E6BCBA2E687770>

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

07_À±ÀåÇõ¿Ü_0317

0125_ 워크샵 발표자료_완성.key

< D D2D2D2D2D2D2D31372DC3D6BFACC1F82CC1A4BFACB0E62D2D2D2D2D2D2D2D2D2D2D2DC7D0C8B831C2F7BCF6C1A42E687770>

8월-이윤희-1.indd

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 27(7),

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

DBPIA-NURIMEDIA

<31362DB1E8C7FDBFF82DC0FABFB9BBEA20B5B6B8B3BFB5C8ADC0C720B1B8C0FC20B8B6C4C9C6C32E687770>

DBPIA-NURIMEDIA

R을 이용한 텍스트 감정분석

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

À¯Çõ Ãâ·Â

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

(JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

Output file

Æ÷Àå½Ã¼³94š

DBPIA-NURIMEDIA

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

Research subject change trend analysis of Journal of Educational Information and Media Studies : Network text analysis of the last 20 years * The obje

08김현휘_ok.hwp

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

03.Agile.key

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

I

02( ) SAV12-19.hwp

장기계획-내지4차

인문사회과학기술융합학회

38이성식,안상락.hwp

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: * The

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

04_이근원_21~27.hwp

大学4年生の正社員内定要因に関する実証分析

45-51 ¹Ú¼ø¸¸

<313920C0CCB1E2BFF82E687770>

<91E6308FCD5F96DA8E9F2E706466>

±è¼ºÃ¶ Ãâ·Â-1

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jan.; 26(1),

SchoolNet튜토리얼.PDF

DBPIA-NURIMEDIA

<313720BCADBCBAB9AB2DBBE7C8B8C0FBB1E2BEF720C5F5C0DA20C0C7BBE7B0E1C1A42E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on


2 : (JEM) QTBT (Yong-Uk Yoon et al.: A Fast Decision Method of Quadtree plus Binary Tree (QTBT) Depth in JEM) (Special Paper) 22 5, (JBE Vol. 2

04 김영규.hwp

강의지침서 작성 양식

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Sep.; 30(9),

Transcription:

ISSN 2383-630X(Print) / ISSN 2383-6296(Online) Journal of KIISE, Vol. 41, No. 10, pp. 785-791, 2014. 10 http://dx.doi.org/10.5626/jok.2014.41.10.785 관계 기반 특징을 이용한 트위터 스패머 탐지 (Spammer Detection using Features based on User Relationships in Twitter) 이 찬 식 김 준 태 (Chansik Lee) (Juntae Kim) 요 약 트위터는 페이스북과 더불어 전 세계적으로 인기 있는 SNS(Social Network Service)이다. 트 위터에서 이메일 인증 방식을 악용하여 대량 생성된 스패머 계정은 유해한 콘텐츠로 트위터 사용자들에게 불편함을 준다. 본 논문에서는 이러한 문제를 해결하고자 관계 기반 특징을 이용한 스패머 탐지 기법을 제안한다. 관계 기반 특징이란 사용자의 호감 정도를 표현할 수 있는 친구 관계 특징과 사용자 간의 유사 성을 나타낼 수 있는 유형 관계 특징들을 의미한다. 기존의 스패머 탐지 기법과 본 논문에서 제안하는 탐 지 기법의 성능을 스패머의 비율을 3%에서 30%까지 변화시키면서 비교 실험한 결과, 본 논문에서 제안하 는 기법이 ian Classifier와 Decision Tree 모두에서 더 우수한 성능을 보였다. 키워드: 스패머, 트위터, 소셜 네트워크 서비스, 나이브 베이지안, 결정 트리 Abstract Twitter is one of the most famous SNS(Social Network Service) in the world. Twitter spammer accounts that are created easily by E-mail authentication deliver harmful content to twitter users. This paper presents a spammer detection method that utilizes features based on the relationship between users in twitter. Relationship-based features include friends relationship that represents user preferences and type relationship that represents similarity between users. We compared the performance of the proposed method and conventional spammer detection method on a dataset with 3% to 30% spammer ratio, and the experimental results show that proposed method outperformed conventional method in ian Classification and Decision Tree Learning. Keywords: spammer, twitter, social network service, naive bayesian, decision tree 1. 서 론 무선 인터넷의 발달과 스마트 폰의 보급을 기반으로 정 회 원 : 고양시자원봉사센터 고양시자원봉사홍보단 chansik@dongguk.edu 종신회원 : 동국대학교 컴퓨터공학과 교수(Dongguk Univ.) jkim@dongguk.edu (Corresponding author임) 논문접수 :2014년 5월 13일 (Received 13 May 2014) 논문수정 :2014년 8월 1일 (Revised 1 August 2014) 심사완료 :2014년 8월 14일 (Accepted 14 August 2014) CopyrightC2014 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저 작물의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처 를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해 야 합니다. 정보과학회논문지 제41권 제10호(2014. 10) 급성장한 트위터(twitter)는 페이스북(facebook)과 더불어 전 세계적으로 인기 있는 SNS(Social Network Service) 중 하나이다. 트위터 사용자들은 팔로잉(following), 팔 로워(followers) 관계를 맺으며, 140자를 초과하지 않는 트윗(tweet)이라는 메시지로 시간, 장소에 구애받지 않 고 서로 소통한다. OikoLab에서 한국인으로 추정한 트위터 계정은 2010 년 1월 1일 약 127,000개에서 2012년 5월 4일에는 6,421,860개로 약 2년 동안 50배나 증가하였다. 증가 이 유 중 하나는 이메일 인증 방식으로 트위터 계정이 생 성되기 때문이다. 이 방식은 사용자가 가지고 있는 이메 일 주소의 수만큼 계정을 생성할 수 있다. 예를 들어, 한 사용자가 10개의 이메일 주소를 가지고 있다면 10개 의 트위터 계정을 생성할 수 있다. 이러한 이메일 인증 방식을 악용하여 대량 생성된 스 패머 계정은 유해한 이미지, URL, 문구 등을 포함한 트 윗으로 트위터 사용자들에게 불편함을 준다. 이에 따라

786 정보과학회논문지 제41권 제10호(2014. 10) 스패머를 탐지하여 제거하는 것이 중요한 문제로 인식 되고 있으며, 콘텐츠나 구조적인 특징들을 이용하여 스 패머를 탐지하려는 다양한 연구가 수행되어 왔다. 본 논문에서는 스패머 탐지를 위한 새로운 방법으로 관계 기반 특징을 정의하고, 이 특징을 이용한 스패머 탐지 기법을 제안한다. 친구 관계를 기반으로 한 특징은 어떤 사용자가 팔로우하는 대상과 친구가 되는 비율, 팔 로워에 대하여 친구를 맺는 비율 등을 바탕으로 그 사 용자의 호감 정도를 나타내는 것이다. 사용자 유형 관계 를 기반으로 한 특징은 어떤 사용자가 팔로잉, 팔로워 관계를 맺고 있는 사용자들 중 스패머, 비스패머, 비공 개 사용자, 차단 사용자, 정지 사용자 등 여러 유형의 사용자 비율을 바탕으로 각 유형 사용자와의 유사성을 나타내는 것이다. 이 두 기법에서 사용하는 특징들을 통 틀어 본 논문에서는 관계 기반 특징이라고 정의한다. 본 논문에서는 이러한 관계 기반 특징을 이용하여 사 용자를 표현하고, 베이지안 분류기, 결정 트리 등 학습 알고리즘을 적용하여 스패머를 분류한다. 제안한 방법의 유용성을 보이기 위하여 직접 수집한 데이터 집합을 대 상으로 기존의 스패머 분류 방법과 성능을 비교한다. 본 논문의 2장에서는 관련 연구를 정리하고, 3장과 4 장에서는 본 논문에서 제안하는 관계 기반 특징에 대해 기술한다. 다음으로 5장에서는 실험 방법과 결과를, 6장 에서는 결론과 향후 연구에 대해 기술한다. 2. 관련 연구 SNS의 등장으로 스패머의 활동 범위가 넓어졌고, 이에 대응하고자 SNS 스패머를 탐지하는 연구들이 시작되었다. 트위터 스패머를 탐지하는 많은 연구들은 2010년에 발표되었다. Lee 등[1]은 스팸 증거를 수집하는 봇(bot) 인 social honeypot를 이용하여 스팸 프로 파일의 특징 을 추출한 후 스패머를 찾아내는 기계학습 기반 분류기 를 제안하였다. Shekar 등[2]은 65개의 제약 단어를 특 징으로 트윗을 스팸, 비스팸으로 라벨링 한 후 결정 트 리(Decision Tree), 나이브 베이지안( ian) 의 성능을 비교하였으며, 결정 트리의 성능이 나이브 베 이지안보다 우수한 결과를 얻었다. Benevenuto 등[3]은 콘텐츠 특징 39개와 행위 특징 23개를 가지고 SVM (Support Vector Machine)을 이용하여 스패머를 탐지 하였다. 콘텐츠 특징은 스팸 단어 리스트에 있는 단어가 하나 이상 포함된 트윗의 비율, 답변 트윗의 비율, URL 을 포함하는 트윗 비율 등이고, 행위 특징은 하루, 일주 일에 게재한 트윗 수 등이 있다. 본 논문에서 제안하는 기법과 비교 대상이 되는 Wang[4,5]의 연구에서는 먼저 수집한 데이터의 일부분 을 골라 스패머 비율을 3%로 맞춘 데이터에서 콘텐츠 기반 특징과 그래프 기반 특징들을 가지고 결정 트리, 신경망(Neural Network), SVM, 나이브 베이지안 등의 기법을 이용하여 스패머를 분류하였다. 결과는 나이브 베이지안의 경우에서 좋은 성능을 보였다. 다음으로는 수집한 데이터 전체를 대상으로 나이브 베이지안을 이 용하여 392개의 계정을 스패머로 분류하였는데 실제 스 패머 계정은 348개이고, 비스패머 계정은 44개로서, precision은 0.89였다. Wang의 연구에서 사용된 그래프 기 반 특징은 팔로잉 수, 팔로워 수, 평판(reputation) 등이 다. 평판은 팔로워 수를 팔로잉과 팔로워 수의 합으로 나누어 구한다. 콘텐츠 기반 특징은 트윗 복사, HTTP 링크, 리플(reply)과 멘션(mention)의 수, 해시태그 (hashtag)의 수이다. 트윗 복사는 중복되는 트윗을 나타 내고, HTTP 링크는 트윗에 링크를, 리플과 멘션은 @ 아이디 를, 해시태그는 트윗에 #주제 를 포함한다. Wang의 연구 외에도 스패머를 탐지하는 다양한 연구 들이 이루어졌다. Song 등[6]은 메시지 수신, 송신자 사 이의 distance와 random walk, min-cut으로 측정한 접속 가능성을 이용한 스팸 필터링을 제안하였다. Distance는 사용자 간 최단 경로의 길이를 나타내는데 가까울수록 스팸 메시지의 비율은 감소하였다. 또한 스패머와 비스 패머의 min-cut size는 비스패머와 비스패머의 min-cut size보다 작았다. Beck[7]은 메시지 길이, 사용자 이름 길이, URL의 길이로 스팸 메시지의 관련성을 찾지 못 하였다. Yardi 등[8]은 스패머가 비스패머보다 최근에 만들어진 계정이라고 예상하였지만, 계정 생성 시기는 큰 차이가 없었고, 팔로워 수를 팔로잉 수로 나눈 값도 큰 차이가 없었다. 그러나 하루 평균 트윗 수는 스패머 가 비스패머보다 높았다. Won 등[9]은 스팸지수로 스팸 트윗을 판별하였고, URL 분석을 기반으로 스팸 필터링 을 제안하였는데 URL 분석 기반의 스팸 필터링 방식에 는 몇 가지 보완해야 할 점이 남겨져 있다. McCord 등 [10]은 사용자 기반, 콘텐츠 기반 특징들을 가지고 나이 브 베이지안, SVM, K-NN, Random Forest 등의 기법 을 이용하여 스패머를 분류하였는데 Random Forest가 좋은 성능을 보였다. Wang 등[11]은 단어를 특징으로 사용하여 기존뿐만 아니라 새로운 SNS의 프로파일, 메 시지, 웹 페이지에서도 스패머 분류가 가능한 스팸 탐지 구조(framework)를 제안하였다. 최신 연구로 Lin 등[12]은 URL 비율과 상호작용 비 율 특징들을 가지고 결정 트리를 이용하여 스패머를 분 류하는데 좋은 성능을 보였고, Eom 등[13,14]은 큰 진 출 차수(out degree)를 가진 비스패머를 스패머로 간주 하는 문제를 해결하고자 순환(cycle)을 이용하였다. 순 환은 시작과 끝이 같은 정점에서 이루어지는 경로를 나 타내는데 순환의 길이가 길고 순환의 개수가 적을수록

관계 기반 특징을 이용한 트위터 스패머 탐지 787 스패머일 가능성이 높다는 것이다. Amleshwaram 등 [15]은 프로파일, URL 특징들, 콘텐츠 엔트로피 특징들 등을 가지고 Yang 등[16]의 기법과 비교 실험하여 좋은 성능을 보였다. R 등[17]은 스패머가 스패머 탐지를 회 피하는 기법을 설명하였고, Lee 등[18]은 토픽(topic)에 서 생성이 얼마 되지 않은 스팸 메시지를 학습하여 집 단주의 스팸 메시지를 탐지하고 예방할 수 있다는 것을 발견하였다. 집단주의 스팸 메시지는 스크린 네임은 다 르지만 같은 토픽에서 같은 URL을 포함하는 메시지를 나타낸다. 본 논문에서는 위와 같은 선행연구에서 사용하지 않 은 관계 기반 특징을 정의하고, 이 특징을 이용하여 스 패머를 탐지하는 방법을 제안한다. 3. 친구 관계 기반 스패머 탐지 친구 관계를 기반으로 한 스패머 탐지 기법은 친구 요청에 대한 응답률을 사용하는 것이다. 어떤 사용자가 친구 요청에 대해 응답을 받는 비율이 매우 낮다면 스 패머일 확률이 높다고 할 수 있을 것이다. 반면에 어떤 사용자가 친구 요청에 응답하는 비율이 매우 낮은 까다 로운 사용자들과 친구 관계를 많이 맺고 있다면 스패머 일 확률이 낮다고 할 수 있을 것이다. 그림 1은 트위터에서 사용자 간의 관계 예를 나타낸 다. 단방향 간선은 팔로우를 나타내며 양방향 간선은 상 호 팔로우로서 친구 관계를 나타낸다. 예를 들어 사용자 9는 1, 3, 5, 6을 팔로우하고 그 중 1, 3, 6과 친구이다. 사용자 1은 자신을 팔로우하는 모든 사용자와 친구이며, 사용자 5는 아무하고도 친구관계에 있지 않다. 어떤 사용자가 자신의 팔로워들을 무조건 팔로우한다 면 그 사용자가 다른 사용자를 판단하는 신뢰성은 낮다 고 할 수 있을 것이다. 사용자 j의 요청 응답률(request response rate) RR j는 식 (2)로 정의한다. F j는 사용자 j의 친구 수, Fwr j는 사용자 j의 팔로워 수를 나타낸다. 예를 들어 사용자 3의 RR j 값은 1/2이다. 사용자 j가 친구 요청에 잘 응답하지 않을수록 RR j 값은 낮아진다. 이제 어떤 사용자 i가 얼마나 선별적인 사용자들과 친구 관계를 맺고 있는지를 나타내는 친구 평균 요청 응답률 (friends average request response rate) FRR i을 i와 친구 관계에 있는 사용자 j들의 RR j의 평균으로 식 (3)과 같이 정의한다. 그림 1에서 사용자 1의 FRR i은 (1+1+1+1)/4 = 1이고, 사용자 9의 FRR i은 (1+1+0.5)/3 = 0.83이다. FRR i 값이 낮을수록 조금 더 까다로운 사용자들과도 친구 관계를 맺고 있다고 볼 수 있다. 즉, 스패머일 가 능성이 낮아진다. (2) 어떤 사용자에 대한 스패머 지수(spammer index) SI i는 위에서 정의한 RS i 및 FRR i 값을 바탕으로 식 (4) 와 같이 정의한다. 즉, 사용자 i가 친구 요청에 성공하는 비율이 높을수록, 그리고 사용자 i가 요청 응답률이 낮 은 사용자들과 친구일수록 SI i 값은 낮아진다. SI i 값이 높을수록 스패머일 가능성이 높다. (3) (4) 친구관계를 기반으로 한 스패머 탐지 기법은 사용자 들을 이러한 RS i, FRR i, SI i 등의 특징 값으로 나타내 고, 이러한 값을 바탕으로 학습 알고리즘을 적용하여 스 패머를 탐지하는 것이다. 4. 사용자 유형 관계 기반 스패머 탐지 그림 1 트위터 사용자 간의 관계 예 Fig. 1 An example of relationships between users in twitter 어떤 사용자 i의 요청 성공률(request success rate) RS i는 식 (1)과 같이 정의한다. F i는 사용자 i의 친구 수, Fwg i는 사용자 i의 팔로잉 수이다. 예를 들어 그림 1 에서 사용자 9의 RS i 값은 3/4이다. 사용자 i로부터 친 구 요청을 받는 사용자들이 요청에 응답하지 않을수록 RS i 값은 낮아진다. 즉, 스패머일 가능성이 높아진다. (1) 사용자 유형 간의 관계를 기반으로 한 스패머 탐지 기법은 관계를 맺고 있는 사용자 간의 유형 유사도를 사용하는 것이다. 즉, 어떤 사용자가 스패머와 관계를 맺는 비율이 높을수록 스패머일 확률이 높아진다고 가 정하고, 비스패머와 관계를 맺는 비율이 높을수록 비스 패머일 확률이 높아진다고 가정하는 것이다. 트위터 사용자는 다음과 같은 유형으로 분류할 수 있 다. 알려진 스패머(S), 비스패머(N), 비공개 사용자(P), 방송통신심의위원회의 심의를 거쳐 차단되어 정상적인 접속이 되지 않는 사용자(W), 트위터로부터 정지당한 사용자(B). 그림 2는 이러한 다양한 유형의 사용자 간의

788 정보과학회논문지 제41권 제10호(2014. 10) (6) 어떤 사용자 i가 특정 유형의 사용자와 친구 관계를 맺는 비율을 친구 유형 유사도(friend type similarity) FS T i 라고 하고 식 (7)과 같이 정의한다. F i는 사용자 i 의 친구 수이고, F T i 는 사용자 i와 친구 관계인 유형 (type) T의 수이다. 예를 들어 사용자 1의 FS T i 값은 2/4, 1/4, 1/4, 0, 0이고, 사용자 2의 FS T i 값은 0, 4/4, 0, 0, 0이다. 사용자 i가 유형 T와 친구 관계를 많이 맺 을수록 FS T i 값은 높아진다. 앞서의 가정이 맞는다면 사용자 1이 사용자 2보다 스패머일 가능성이 높다. (7) 그림 2 여러 유형의 트위터 사용자 간의 관계 예 Fig. 2 An example of relationships between users with various types in twitter 관계 예이다. 사용자 1은 S 1, S 2, N 1, N 2, P 1, W 1을 팔로 우하고 그 중 S 1, S 2, N 1, P 1과는 친구이다. 즉 두 명의 스패머와 한 명의 비공개 사용자와 친구 관계에 있다. N 2, W 1, B 1은 아무하고도 친구관계가 아니다. 사용자 2 는 N 3~N 7 과 친구 관계이며 하나의 스패머가 팔로우하 고 있다. 어떤 사용자 i가 특정 유형을 팔로우하는 비율을 팔 로잉 유형 유사도(following type similarity) FwgS T i 라 고 하고 식 (5)와 같이 정의한다. Fwg i는 사용자 i의 팔로잉 수이고, Fwg T i 는 사용자 i가 팔로우하는 유형 (type) T의 수이다. T는 스패머, 비스패머, 비공개 사용 자, 차단된 사용자, 정지된 사용자중의 하나이다(T {S, T N, P, W, B}). 예를 들어 그림 2에서 사용자 1의 FwgS i 값은 T = S, N, P, W, B 각각에 대하여 2/6, 2/6, 1/6, 1/6, 0이고, 사용자 2의 FwgS T i 값은 각각 0, 5/5, 0, 0, 0이다. 사용자 i가 유형 T를 팔로우하는 비율이 높을수 록 FwgS T i 값은 높아진다. (5) 특정 유형의 사용자가 사용자 i를 팔로우하는 비율을 T 팔로워 유형 유사도(follower type similarity) FwrS i 라고 하고 식 (6)과 같이 정의한다. Fwr i는 사용자 i의 팔로워 수이고, Fwr T i 는 사용자 i를 팔로우하는 유형 (type) T의 수이다. 예를 들어 사용자 1의 FwrS T i 값은 2/5, 1/5, 1/5, 0, 1/5이고, 사용자 2의 FwrS T i 값은 1/5, 4/5, 0, 0, 0이다. 유형 T가 사용자 i를 팔로우하는 비율 이 높을수록 FwrS T i 값은 높아진다. 사용자 유형 간의 관계를 기반으로 한 스패머 탐지 기법은 사용자들의 알려진 유형과 이들 유형과의 관계 를 파악하여 사용자들을 FwgS T i, FwrS T i, FS T i 등의 특징 값으로 나타내고, 이러한 값을 바탕으로 학습 알고 리즘을 적용하여 스패머를 탐지하는 것이다. 5. 실험 및 결과 5.1 실험 데이터 본 논문의 실험 데이터를 수집하기 위해 자바 라이브 러리 Twitter4j를 사용하여 Eclipse로 수집 프로그램을 개발하였다. 실험 데이터는 2012년 7월 30일부터 8월 21일까지 수집하였고, 실험 대상 계정 수는 비스패머 223개(65%), 스패머 120개(35%)로 총 343개이다. 실험 데이터에 사용된 특징들을 표 1에 나열하였다. 특징들은 Wang[4,5]이 사용한 기법(Wang)과 친구 관 표 1 스패머 탐지를 위한 특징들 Table 1 Features for spammer detection Group Feature Explanation Wang (7) FR (3) UT (15) d O d I The number of followings The number of followers Reputation d I / (d O + d I) Duplicate Tweets The number of copied Tweet HTTP Links The number of HTTP link Replies and Mentions The number of symbol @ Trending Topics The number of symbol # RS FRR SI FwgS T FwrS T FS T The request success rate The friends average request response rate FRR / RS The following type similarity (T {S, N, P, W, B}) The follower type similarity The friend type similarity

관계 기반 특징을 이용한 트위터 스패머 탐지 789 계를 기반으로 한 기법(FR), 사용자 유형 관계를 기반 으로 한 기법(UT)으로 분류되고, Wang 7가지, FR 3가 지, UT 3 5(유형 수) =15가지 등 총 25가지이다. 5.2 실험 결과 본 논문에서는 5.1절의 특징들을 이용하여 WEKA의 (나이브 베이지안)와 (결정 트리) 학습 알고리즘을 이용하여 분류 실험을 수행하였다. 실험은 10-fold cross validation을 수행하였으며 precision, recall, F-measure, accuracy를 계산하여 비교하였다. 트위터 스패머를 탐지하는 데 Wang[4,5]이 사용한 기법(Wang)과 친구 관계를 기반으로 한 스패머 탐지 기법(FR), 사용자 유형 관계를 기반으로 한 스패머 탐 지 기법(UT)의 성능을 비교한 결과는 표 2와 3에 나타 나 있다. UT를 사용한 경우가 와 모두 에서 FR, Wang에 비하여 recall, precision, F-measure, accuracy가 높다는 것을 알 수 있다. FR를 사용한 경우 에는 에서는 성능 향상이 있으나 에서는 Wang에 비하여 성능이 떨어지는 것으로 나타났는데, 이는 FR에서 사용하는 특징 중 SI 값의 분포가 매우 작은 영역에 밀집되기 때문이다. SI를 같이 사용하지 않 을 경우 FR은 에서도 성능 향상을 보인다. 다음으로 Wang과 FR, UT를 조합하여 스패머 탐지 성능을 비교한 결과가 표 4와 5에 나타나 있다. 일반적 으로 Wang의 방법에 FR이나 UT를 추가로 사용함으 표 2 각 특징 그룹을 사용한 경우의 스패머 탐지 recall, precision, F-measure (스패머 비율 = 35%) Table 2 Spammer detection recall, precision for each feature group (spammer ratio = 35%) Algorithm Feature recall prec. F-measure Wang 0.600 0.783 0.679 FR 0.683 0.759 0.719(+6%) UT 0.958 0.878 0.916(+35%) Wang 0.775 0.788 0.782 FR 0.725 0.702 0.713(-9%) UT 0.925 0.941 0.933(+19%) 표 3 각 특징 그룹을 사용한 경우의 스패머 탐지 accuracy (스패머 비율 = 35%) Table 3 Spammer detection accuracy for each feature group (spammer ratio = 35%) Algorithm Feature accuracy Wang 0.802 FR 0.813(+1%) UT 0.939(+17%) Wang 0.848 FR 0.796(-6%) UT 0.953(+12%) 로써 더 높은 정확도를 얻을 수 있었다. 다만 FR의 경 우에는 앞서 언급한 바와 같은 이유로 에서 성능이 거의 향상되지 않았다. 전체 결과 중에서 Wang과 FR, UT를 같이 사용하여(Wang+FR+UT) 결정 트리 학습 을 이용한 경우가 가장 높은 F-measure, accuracy를 보였다. Wang의 방법과 비교했을 때, F-measure의 경 우 에서 35%, 에서 23%의 향상을 나타 냈으며, accuracy의 경우 에서 17%, 에 서 15%의 향상을 나타냈다. 스패머 비율의 변화에 따른 성능 차이를 확인하기 위하 여, 표 4와 5를 통틀어 가장 높은 성능을 보여준 Wang+ FR+UT와 Wang을 3%에서 30%까지 스패머 비율을 변화시키면서 평균 F-measure, accuracy을 비교하였 다. 스패머의 비율 조절은 전체 데이터에서 스패머를 무 작위로 선택하여 삭제하는 방법을 사용하였고, 같은 방 식으로 여러 번의 실험을 수행하여 결과를 평균하였다. 그림 3부터 6까지의 결과를 보면 F-measure의 경우 모든 구간에서 Wang+FR+UT가 Wang보다 0.1 이상 높은 값을 나타내고 있으며, accuracy의 경우에도 모든 구간에서 Wang+FR+UT가 같거나 높은 값을 나타내고 있다. 특히 평균 accuracy는 스패머 비율이 높을수록 표 4 조합 특징을 사용한 경우의 스패머 탐지 recall, precision, F-measure (스패머 비율 = 35%) Table 4 Spammer detection recall, precision for combined features (spammer ratio = 35%) Algorithm Feature recall prec. F-measure Wang 0.600 0.783 0.679 Wang+FR 0.792 0.748 0.769(+13%) Wang+UT 0.992 0.856 0.919(+35%) Wang+FR+UT 0.983 0.861 0.918(+35%) Wang 0.775 0.788 0.782 Wang+FR 0.775 0.788 0.782(+0%) Wang+UT 0.933 0.982 0.957(+22%) Wang+FR+UT 0.942 0.983 0.962(+23%) 표 5 조합 특징을 사용한 경우의 스패머 탐지 accuracy (스패머 비율 = 35%) Table 5 Spammer detection accuracy for combined features (spammer ratio = 35%) Algorithm Feature accuracy Wang 0.802 Wang+FR 0.834(+4%) Wang+UT 0.939(+17%) Wang+FR+UT 0.939(+17%) Wang 0.848 Wang+FR 0.848(+0%) Wang+UT 0.971(+15%) Wang+FR+UT 0.974(+15%)

790 정보과학회논문지 제41권 제10호(2014. 10) 그림 3 스패머 비율에 따른 평균 F-measure () Fig. 3 The average F-measure for various spammer ratio () 그림 4 스패머 비율에 따른 평균 F-measure () Fig. 4 The average F-measure for various spammer ratio () 그림 6 스패머 비율에 따른 평균 accuracy () Fig. 6 The average accuracy for various spammer ratio () 을 확인하기 위하여, 신고된 사용자 집단을 스패머 비율 이 매우 높은 집단이라고 가정하고 데이터 집합에서 스패 머 비율을 70%까지 임의로 증가시켜 평균 F-measure, accuracy을 비교하였다. 이 경우에도 Wang+FR+UT이 Wang 보다 항상 높은 성능을 보인다는 것을 확인하였 다. 표 6은 스패머 비율이 70%인 경우 와 의 성능 비교를 나타낸다. 본 논문에서 제안한 관계 기반 특징들을 이용하여 스 패머 탐지 실험을 수행한 결과, 친구 관계 특징(FR), 유 형 관계 특징(UT)이 모두 탐지에 유용함을 확인하였으 며, Wang의 방법에 이러한 특징들을 같이 사용함으로 써 탐지 성능을 가장 높일 수 있음을 보였다. 이러한 성 능 개선은 집단 내의 스패머 비율에 상관없이 나타나며, 스패머 비율이 매우 높은 경우에도 제안한 방법이 유용 함을 알 수 있다. 그림 5 스패머 비율에 따른 평균 accuracy () Fig. 5 The average accuracy for various spammer ratio () 차이가 벌어지는 것을 볼 수 있다. 스패머 비율이 높을수 록 평균 accuracy 가 낮아지는 것은 TP(True Positive) 의 증가에 비해 TN(True Negative)이 더 크게 감소하기 때문이다. 사용자는 트위터의 신고 기능을 사용하여 스패머를 신고할 수 있다. 이러한 집단을 대상으로 한 탐지 성능 표 6 스패머 비율이 매우 높은 경우의 탐지 성능 Table 6 Spammer detection performance for a dataset with high spammer ratio Algorithm Feature accuracy F-measure Wang 0.792 0.834 Wang+FR +UT 0.974 (+23%) 0.981 (+18%) Wang 0.882 0.917 Wang+FR +UT 5. 결론 및 향후 연구 0.931 (+6%) 0.951 (+4%) 본 논문에서는 친구 관계, 유형 관계 등의 관계 기반 특징을 이용한 스패머 탐지 기법을 제안하였다. 관계 기 반 특징은 사용자의 호감 정도와 사용자 간의 유사성을 나타내므로 스패머를 탐지하는데 유용한 정보가 된다. 기존의 스패머 탐지 기법과 관계 기반 특징을 사용한 기법의 성능 비교를 통해 관계 기반 특징을 사용한 기

관계 기반 특징을 이용한 트위터 스패머 탐지 791 법이 유용함을 보였고, 기존의 기법에 관계 기반 특징을 조합하여 사용한 실험을 통해 관계 기반 특징을 모두 사용함으로써 스패머 탐지 성능을 23%에서 35%까지 높일 수 있음을 보였다. 또한 3%에서 30%까지 스패머 비율을 변화시킨 실험에서도 제안한 기법을 사용하는 것이 항상 성능을 개선할 수 있음을 확인하였다. 향후 연구로 내용기반 속성, 구조 기반 속성, 관계 기 반 속성 등 다양한 속성에 대한 연구와 이들 속성의 조 합, 주성분분석(PCA)을 통한 차원 축소 등의 연구가 필 요하다. 또한 지속적으로 스패머 탐지 회피 기법이 발달 함에 따라 향후 이에 대응하는 새로운 탐지 기법의 연 구도 계속 필요하다고 생각된다. References [1] K. Lee, J. Caverlee, S. Webb, "Uncovering Social Spammers: Social Honeypots +Machine Learning," The 33rd international ACM SIGIR conference on Research and development in information retrieval, pp. 435-442, 2010. [2] C. Shekar, S. Wakade, K. J. Liszka, C. C. Chan, "Mining Pharmaceutical Spam from Twitter," The 10th International Conference on Intelligent Systems Design and Applications, pp. 813-817, 2010. [3] F. Benevenuto, G. Magno, T. Rodrigues, V. Almeida, Detecting Spammers on Twitter," Seventh annual Collaboration, Electronic messaging, Anti-Abuse and Spam Conference (CEAS), 2010. [4] A. H. Wang, "Don't follow me: Spam detection in Twitter," The 5th International Conference on Security and Cryptography (SECRYPT), pp. 1-10, 2010. [5] A. H. Wang, "Detecting Spam Bots in Online Social Networking Sites: A Machine Learning Approach," The 24th Annual IFIP WG 11.3 Working Conference on Data and Applications Security, pp. 335-342, 2010. [6] J. Song, S. Lee, J. Kim, "Spam Filtering in Twitter using Sender-Receiver Relationship," The 14th International Symposium on Recent Advances in Intrusion Detection (RAID), pp. 301-317, 2011. [7] K. Beck, "Analyzing Tweets to Identify Malicious Messages," IEEE International Conference on Electro/Information Technology (EIT), pp. 1-5, 2011. [8] S. Yardi, D. Romero, G. Schoenebeck, d. boyd. (2010, January). First Monday (vol.15.) [Online]. Available: http://www.firstmonday.org (downloaded 2013, Apr. 11) [9] D. Y. Won, K. J. Park, Y. J. Park, G. B. Shim, J. W. Lee, Y. H. Kim, "Spam Twit Filtering using NaIve ian Algorithm and URL Analysis," Proc. of the 38th KIISE Fall Conference, Vol. 38, No. 2, pp.375-378, 2011. (in Korean) [10] M. McCord, M. Chuah, "Spam Detection on Twitter Using Traditional Classifiers," The 8th international conference on Autonomic and trusted computing, 2011. [11] D. Wang, D. Irani, C. Pu, "A Social-Spam Detection Framework," The 8th Annual Collaboration, Electronic messaging, Anti-Abuse and Spam Conference (CEAS), pp. 46-54, 2011. [12] P. C. Lin, P. M. Huang, "A Study of Effective Features for Detecting Long-surviving Twitter Spam Accounts," Advanced Communication Technology (ICACT), pp. 841-846, 2013. [13] S. H. Eom, W. Lee, J. H. Lee, "Specifying Spammers by Cycle Detection in Social Network," Proc. of the 39th KIISE Fall Conference, Vol. 39, No. 1, pp. 19-20, 2012. (in Korean) [14] S. H. Eom, W. Lee, J. H. Lee, "Specifying Spammers by Cycle Detection in Social Network," Journal of KIISE : Computer Systems and Theory, Vol. 40, No. 1, pp. 24-29, Feb. 2013. (in Korean) [15] A. A. Amleshwaram, N. Reddy, S. Yadav, G. Gu, C. Yang, "CATS: Characterizing Automation of Twitter Spammers," Communication Systems and Networks (COMSNETS), pp. 1-10, 2013. [16] C. Yang, R. C. Harkreader, G. Gu, "Die Free or Live Hard? Empirical Evaluation and New Design for Fighting Evolving Twitter Spammers," In Recent Advances in Intrusion Detection (RAID), pp. 318-337, 2011. [17] A. K. R, S, Kumar, "Twitter Spamming: Techniques And Defence Approaches," International Journal of Applied Engineering Research, Vol. 7, No. 11, 2012. [18] K. Lee, J. Caverlee, K. Y. Kamath, Z. Cheng, "Detecting Collective Attention Spam," The 2nd Joint WICOW/AIRWeb Workshop on Web Quality, pp. 48-55, 2012. 이 찬 식 2010년 서원대학교 컴퓨터공학과(학사) 2013년 동국대학교 컴퓨터공학과(석사) 2013년~2014년 국립암센터 외부연구원 관심분야는 인공지능, 소셜네트워크분석, 사물인터넷 김 준 태 1986년 서울대학교 제어계측공학과(학사) 1990년 미국 University of Southern California 졸업(석사). 1993년 미국 University of Southern California 졸업(박 사). 1994년~1995년 미국 Southern Methodist University Postdoctoral Research Associate. 1995년~현재 동국대학교 컴퓨터공학과 교수 2003년~2004년 미국 Oregon State University 방문 교수 관심분야는 인공지능, 데이터마이닝, 소셜네트워크분석