Data Analysis for Game Fraud Detection NCSOFT Data Platform div. Lee Eunjo
What is fraud detection? 출처 : http://www.canadianunderwriter.ca/news/fraud-detection-software-good-investment-if-claims-staff-know-how-to-use-it/1002126531/
다른사람의자산을불법적으로탈취하는행위 신용카드도용 은행계좌도용 보험사기 탈세 출처 : http://www.healthcareinfosecurity.com/oig-ehr-fraud-detection-inadequate-a-6358
약 200 억달러 전체온라인거래의 9% ( 거래비율매년 2 배씩성장 ) (Online Fraud Report, CyberSource, 2012)
Fraud detection : Fraud 를탐지하는작업 주활용분야 금융회사 통신회사 결제대행회사 출처 : http://www.the-hard-life-of-a-check.com/fraud-detection-in-distributed-capture/
Fraud detection method if-then rules predictive modeling abnormality detection network analysis 출처 : http://www.propertycasualty360.com/2012/12/06/technology-claims-segmentation-enhance-fraud-detec
IF-THEN Rules (expert rules) 해당분야전문가의경험에의한탐지규칙생성 결제자이름이소문자로만되어있는가? 여러은행의신용카드를돌려가며결제하는가? 이메일주소에숫자가많이포함되어있는가? 결제시각이새벽인가? 5 분이내에 2 건이상의거래가발생하는가? 탐지규칙단순하고결과에대한해석쉬운반면 새로운사기행위탐지불가능 출처 : http://www.todayandtomorrow.net/2009/03/12/if-then/
Predictive modeling 통계 / 데이터마이닝기법을이용한탐지 Decision Trees Algorithm Random Forest Logistic Regression Neural Network Training Set 학습집합 구축어려움 Transaction Data Model 출처 : http://www.propertycasualty360.com/2011/06/20/innovations-in-claim-fraud-detection
Abnormality detection 평소와다른패턴혹은다른사람과매우다른 Outlier 탐지 - 20 대강남거주여성의리니지게임아이템구매 정밀한프로파일링의어려움 출처 : http://www.accertify.com/solutions/fraud-management/card-not-present-fraud/ 출처 : http://www.pskcpa.com/fraud-prevention/church-fraud-detection-con-man-signs/
Network analysis Fraudster 들간의관계네트워크분석 일반인들과는다른네트워크특성탐지 분석기법미성숙
하지만현실은 사기행위로탐지된전체온라인거래 80% 는오탐 (False positive) 약 200 억달러의거래가 오탐에의해결제거부됨 출처 : http://falsepositivecomic.com/2011/09/10/season-1-title-page/ 자료출처 : http://www.slideshare.net/datameer/online-fraud-detection-using-big-data-analytics-webinar-32814816
Game Fraud
계정도용 다른사람의게임계정을도용해서 보유한게임아이템 / 자산을몰래처분 게임어뷰징 게임버그를몰래악용하여 게임아이템무한복사, 보스몹무한사냥등수행
자동사냥프로그램 ( 오토 ) 무슨설명이더필요하리오
이중에서 오늘얘기할것은
그렇다면 Game Fraud Detection 은어떻게하는가? 출처 : http://www.chasepaymentech.com/fraud_online_retail.html
기본적으로각회사마다 Expert Rules 는다갖고있음 유지보수의어려움 ( 담당자가퇴사하면?) 탐지규칙보안 ( 공개되면끝 ) 출처 : http://www.virginiatitlecenter.com/alta-best-practices/
Predictive Modeling 출처 : http://www.shutterstock.com/
Self similarity algorithm 오토캐릭터는미리설정된행위를반복함 각캐릭터별자기반복적인경향정량화 정량화된수치가높은캐릭터들탐지 자기유사도 출처 : http://mark.rehorst.com/bug_photos/index.html
Self similarity algorithm 캐릭터별발생로그를벡터로변환 -> 각벡터들의 Cosine similarity 계산 (0, 1, 1, 3) (2, 1, 1, 2) B type 로그발생개수 E (1,1) Vt (2,1) Normal User (0, 1, 2, 1) (0, 1, 0, 0) cos(θ) cosine similarity = cos θ = A type 로그발생개수 BOT (0, 0, 0, 4) A B A B = n i=1 A i B i n i=1 (A i ) 2 n i=1(b i ) 2
Self similarity algorithm 캐릭터별 Cosine similarity 에대한표준편차계산후자기유사도값으로변환
Self similarity algorithm 학습집합을이용하여자기유사도값을 BOT 확률로전환 Character ID T1 T2 T3 취합결과 686042 0 0 0 0 854209 1 1 1 3 1032131 0 0 0 0 1049483 1 1 1 3 1340479 0 0 0 0 1352850 0 0 0 0 1771815 1 1 1 3 1832497 0 0 0 0 1884884 1 1 1 3 2130576 1 1 1 3 2445903 1 0 0 1 캐릭터별오토일확률
Self similarity algorithm 캐릭터별자기유사도변화추이분석 오토를비상시적으로이용하는계정탐지 작업장오토와일반오토구분
Self similarity algorithm 행동패턴변화에의한탐지율저하방지방안필요 과거오토확률과의상관계수변화량추적 (EWMA*) 정해진범위를넘어선변화발생시모델수정혹은학습집합재구축 *EWMA: Exponentially Weighted Moving Average
Network Analysis 출처 : http://en.wikipedia.org/wiki/social_network_analysis
Banker Character Detection 출처 : http://www.rollingstone.com/politics/blogs/taibblog/everything-is-rigged-vol-9-713-this-time-its-currencies-20130613
Banker Character Detection Item Shop BOT Item Selling Normal User Banker Monetization BOT Trading Banker Normal User Banker Trading BOT Normal User
Banker Character Detection BOT Item Shop Item Selling 기존탐지시스템검출불가 Normal User Banker Monetization BOT Trading Banker Normal User Banker Trading BOT Normal User
Banker Character Detection BOT Item Shop Item Selling Graph Clustering Normal User Banker Monetization BOT Trading Banker Normal User Banker Trading BOT Normal User
Banker Character Detection 캐릭터들간거래네트워크구성 그래프클러스터링수행 오토가많이있는클러스터 ( 작업장 ) 구분후 Banker 캐릭터탐지
Banker Character Detection Banker
Banker Character Detection Banker
Banker Character Detection Banker 캐릭터제재를통한 자산압류효과 작업장에실질적인 경제적타격
Fraud detection 에대한몇가지생각들 출처 : http://www.propertycasualty360.com/2013/10/01/five-steps-to-a-better-fraud-detection-program
제가 Fraud detection 을 해봐서아는데
False Positive 에대한두려움 일반유저를오토라고제재하면? 새로게임시작하는친구에게좋은 아이템을줬는데압류당하면? 출처 : http://www.threatmetrix.com/marketing-fraud-detection-friction-or-faction/
False Positive 에대한두려움 일반유저를오토라고제재하면? 새로게임시작하는친구에게좋은 아이템을줬는데압류당하면?
반면상품추천은 사면좋고안사면말고
Target 의성공사례 근데오탐비율이얼마나되는지는 안알려줌
Never-ending Change Fraudster 는끊임없이 탐지패턴을피하기위해변화함
Never-ending Change 특히탐지효과가클수록더적극적으로패턴변화 ( 잘할수록힘들어지는딜레마 )
참고데이터및사례부족 학습데이터구축어려움 샘플링어려움 자료공유가거의없음 출처 : http://bennettandbelfort.com/blog/?p=482
학습집합구축매우중요함 Fraud 데이터와정상데이터적절한비율 샘플링 지속적인업데이트 출처 : http://www.nkkhoo.com/2012/12/09/garbage-in-garbage-out/
관련업계간의정보교류필요 작업장들도이렇게활발히교류하는데
더나아가데이터공개를통한 활발한기술발전이이뤄졌으면 출처 : http://en.wikipedia.org/wiki/open_data
감사합니다