<BFACB1B831382D31355FBAF2B5A5C0CCC5CD20B1E2B9DDC0C720BBE7C0CCB9F6C0A7C7E820C3F8C1A4B9E6B9FD20B9D720BBE7C0CCB9F6BBE7B0ED20BFB9C3F8B8F0C7FC20BFACB1B82D33C2F7BCF6C1A E687770>

Similar documents
빅데이터_DAY key

PowerPoint 프레젠테이션

슬라이드 1

사회통계포럼

PowerPoint 프레젠테이션

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

Reinforcement Learning & AlphaGo

탐색적데이터분석 (Exploratory Data Analysis) 데이터가지닌주요특성 / 개괄을 ( 우선적으로 ) 탐구함으로써 데이터분석을시도하려는형태 모델링이나가설을세우고이를검증하기보다데이터자체 가우리에게말하려고하는것을알아내는것의중요성을강 조하며시각화플롯을많이활용 J

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

Probability Overview Naive Bayes Classifier Director of TEAMLAB Sungchul Choi

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

An Effective Sentence-Extraction Technique Using Contextual Information and Statistical Approaches for Text Summarization

Resampling Methods

( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

R을 이용한 텍스트 감정분석

PowerPoint 프레젠테이션

Intra_DW_Ch4.PDF

표본재추출(resampling) 방법

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

슬라이드 0

DBPIA-NURIMEDIA

PowerPoint 프레젠테이션

방송공학회논문지 제18권 제2호

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

<4D F736F F D DB1E2BCFAB5BFC7E2BAD0BCAE2DBEF3B1BCC0CEBDC42DC3A4BFF8BCAE2E646F6378>

Cloud Friendly System Architecture

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

DIY 챗봇 - LangCon

슬라이드 1

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

제 31회 전국 고교생 문예백일장 산문 부문 심사평.hwp

PowerPoint 프레젠테이션

Microsoft PowerPoint - ai-8 기계 학습-I

김기남_ATDC2016_160620_[키노트].key

분석기법의기본개념부터활용까지사례중심의 A to Z 학습 데이터분석기본 교육기간 : 3 일 (24 시간 )/ 비합숙 교육비 : 회원 62 만원 / 비회원 69 만원 데이터분석핵심이론학습및현업에적용 현장에서발생하는변수를이해하고상황에따른최적화방안도출 품질향상을위한부적합원인도

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

(, sta*s*cal disclosure control) - (Risk) and (U*lity) (Synthe*c Data) 4. 5.

Electronics and Telecommunications Trends 인공지능을이용한 3D 콘텐츠기술동향및향후전망 Recent Trends and Prospects of 3D Content Using Artificial Intelligence Technology

Tree 기반의 방법

다중 곡면 검출 및 추적을 이용한 증강현실 책

통계적 학습(statistical learning)

PowerPoint 프레젠테이션

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

statistics

(......).hwp

Documents Taxonomy - LASSO regression을 중심으로

Megazone-ML-v2

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

정치

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

Enterprise Edition, 데이터분석의내일을말하다 지금은모든기업이데이터로부터가치있는통찰력을얻어혁신하기위해노력하는데이터시대입니다. 는이러한시대에기업이보다빠르고쉽게데이터를처리하도록돕는오픈소스기반의데이터통합및분석플랫폼으로, 데이터의통합, 분석, 시각화에이르기까지빅데

제1강 인공지능 개념과 역사

딥러닝 첫걸음

170918_hjk_datayanolja_v1.0.1.

장기계획-내지4차

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

adfasdfasfdasfasfadf

PowerPoint Presentation

< 목차 > Ⅰ. 개요 3 Ⅱ. 실시간스팸차단리스트 (RBL) ( 간편설정 ) 4 1. 메일서버 (Exchange Server 2007) 설정변경 4 2. 스팸차단테스트 10

USC HIPAA AUTHORIZATION FOR

Chapter 5 비즈니스인텔리젼스의기초 : 데이터베이스와정보관리

Kaggle 이란? 2010 년설립된빅데이터솔루션대회플랫폼회사 2017 년 3 월구글에인수 2

강의록

게시판 스팸 실시간 차단 시스템

Ch 8 딥강화학습

288 Woosik Lee 주요은행과삼성증권, 신한금융투자, 미래에셋대우, 한국투자증권, 현대증권등증권사들은자체적으로시스템을개발하거나로보어드바이저스타트업체와제휴하는방식으로추진하고있다 (Ko, 2016). 현재일반투자자를대상으로저비용자산관리서비스를제공하는로보어드바이저에의

gcp

Data Industry White Paper

融合先验信息到三维重建 组会报 告[2]

단순 베이즈 분류기

때문이다. 물론가장큰이유는, 다음절에서살펴보겠지만최근들어딥러닝구조를학습하는데필요한여러가지테크닉들이개발되었기때문이다 [6,7]. 딥러닝이산업현장에서선호되는데는몇가지이유가있다. 일단은어려운문제를잘해결한다는것이다. 예를들어서, 물체인식과음성인식등전통적인패턴인식의문제에서딥러닝

15인플레이션01-목차1~9

요약 최근금융과 IT업계의중요화두가운데하나는핀테크이며, 신기술의발전등으로금융서비스의모습도나날이변화하고있다. 금융관련데이터는폭발적으로증가하고있으며이러한빅데이터시대에새로운가치를창출할수있는정보분석을위한머신러닝이각광받고있다. 머신러닝은빅데이터시대에보다직관적인이해를돕기위한시각화


歯목차45호.PDF

[Summary] 딥러닝이란인간뇌의학습처리과정을모방한머신러닝방법의한종류로, 사람의사고방식을컴퓨터에게가르치는것을의미 1980년대등장한인공신경망 (ANN, artificial neural networks) 에기반하여설계된개념으로, IT기술의발전과함께단점으로여겨지던과적합문제

PowerPoint 프레젠테이션

04( ) SA14-18.hwp

PowerPoint Presentation

SuaKITBrochure_v2.2_KO

슬라이드 1

Chap 6: Graphs

[Brochure] KOR_TunA

유니티 변수-함수.key

G Power

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

PowerPoint 프레젠테이션

표상학습을이용한딥러닝이미지특성의범용분류성에대한실험적분석 지도교수장병탁 이논문을공학학사학위논문으로제출함 년 12 월 21 일 서울대학교공과대학컴퓨터공학부한동식 2016 년 2 월

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion


PowerPoint Presentation

_KrlGF발표자료_AI

chap x: G입력

REP - SVM - 002, SV M Multiclass 를이용한데이터학습및분류 김선영 부산대학교컴퓨터공학과 ABSTRACT 여러그룹의데이터를알고있을때, 새로운데이터가나타나면이데이터가어느그룹에가까운지알수있다. 이를기계적

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

제8장 자바 GUI 프로그래밍 II

Transcription:

Ⅳ. 사이버사고예측모델개발 사이버보험시장활성화를위해서는표준데이터개발이필요하다. 이를위하여이전장에서는빅데이터기반의사이버위험측정체계를제안하였다. 본장에서는제안된사이버위험지수를이용하여사이버사고 (Cyber Incident) 를예측하는모델을개발하고자한다. 이는향후정확한보험금산출에기여할것으로기대한다. 최근빅데이터, 인공지능 (Artificial Intelligence), 기계학습 (Machine Learning) 의급속한발전으로미래에대한정확한예측이가능해졌다. 이러한발전을바탕으로, 사이버사고를예측하는모델을제시하고자한다. 사이버사고에대한체계적데이터가수집되어있는미국자료를이용하여, 예측모델을개발하였다. 딥러닝모델이용시최대 94% 의확률로기관의사이버사고여부를예측할수있음을확인하였다. 1. 기계학습개념및예측문제정의 가. 기계학습의개념 사이버사고예측모델개발을위하여기계학습방법론을사용하고자하는데, 독자들의이해를돕기위해서개념을먼저설명하고자한다. 기계학습에대한다양한정의들이존재하는데, 공통적으로 학습데이터 (Training Data) 로부터통계적모델 (Model) 을학습하여새로운데이터에대한결과를예측 (Predict) 하는기술 이라고정의한다. 기계학습은예측모델 (Predictive Modeling), 데이터마이닝 (Data Mining), 예측분석 (Predictive Analytics) 이라고불리기도한다.

사이버사고예측모델개발 51 기계학습은다양한예측문제에사용되고있다. 예를들어, 수신된이메일이스팸인지여부를예측하는스팸필터링 (Spam Filtering) 기술, 신용카드거래의진위여부를예측하는위조방지 (Fraud Detection) 기술, 인터넷쇼핑사용자가어떤광고를클릭할지예측하는타켓광고 (Targeted Advertising) 기술등에사용되고있다. 기계학습은학습데이터내의정답존재여부에따라감독학습 (Supervised Learning) 과비감독학습 (Unsupervised Learning) 으로구분지을수있다. 감독학습에서는데이터의속성을나타내는특징 (Feature) 과정답레이블 (Label) 이필요하다. 예를들어, 소셜네트워크서비스 (SNS) 사진내의얼굴인식문제를푸는데에있어서 SNS 사용자가직접입력한얼굴위치및이름데이터를사용하는경우, 이는감독학습문제라고할수있다. 영화추천시스템 (Recommendor System) 에서사용자의이전평점을이용하는것도감독학습문제의사례이다. 감독학습모델은, 주어진레이블데이터의속성에따라이산값 (Discrete Value) 의레이블이주어지는분류문제 (Classification) 와연속값 (Continuous Value) 의레이블로주어지는회귀문제 (Regression) 로나뉜다. 스팸필터링문제나얼굴인식문제는분류문제의사례이다. 반면, 주가예측문제는회귀문제라고할수있다. 감독학습문제를해결하기위한대표적알고리즘은 K Nearest Neighbor(KNN), Support Vector Machine(SVM), Decision Tree, Random Forest, Logistic Regression, Linear Regression 등이있다. 비감독학습에서는정답레이블데이터가주어지지않고, 특징들만을이용하여유사한데이터를클러스터링 (Clustering) 하거나전체데이터의특성을요약하는문제를해결한다. 비감독학습알고리즘은크게클러스터링과차원감소 (Dimensionality Reduction) 로나뉜다. 비감독학습문제를해결하는대표적알고리즘은 K means Clustering, Principal Component Analysis(PCA), Multidimensional Scaling(MDS) 등이있다.

52 연구보고서 2018-15 나. 사이버사고예측문제정의 사이버위험예측문제는사이버위험지수를사용하여주어진기관이사이버사고를당할지여부를예측하는문제이다. 본문제의경우사이버위험지수가특징 (Feature) 변수이고, 사고여부가이산값의레이블 (Label) 이다. 그러므로본문제는감독학습중분류문제로치환할수있다. 2. 데이터수집 가. 사이버사고데이터수집 사이버사고중에서가장대표적인것이정보유출 (Data Breach) 사고이다. 미국등여러국가들은법률에의해정보유출사고를당한기관들이사고정보를공시하도록되어있다. 이때문에미국기관의정보유출사고에데이터는비교적잘정리되어있다. 관련데이터는 Privacy Clearing House(PCH), 17) VERIS 커뮤니티데이터베이스 (VCDB) 18) 에서수집하였다. PCH 데이터는미국보건복지부 (U.S. Department of Health and Human Services), Dataloss DB, 외부미디어등다양한데이터소스에서제공된 8,068건의정보유출에대한상세한정보를제공한다. 버라이즌 (Verizon) 사가관리하는 VCDB 는여러데이터소스와자발적자료공유로수집된 8,451건의정보유출에관한정보를제공한다. 각사고기록에는사고날짜, 사고기관, 유출된기록건수등의정보가존재한다. 17) https://www.privacyrights.org/data breaches 18) https://github.com/vz risk/vcdb

사이버사고예측모델개발 53 나. 사이버위험특징추출 기계학습알고리즘을적용하기위해서는사이버위험지수데이터를이용하여각기관들에대한특징변수를추출 (Feature Extraction) 해야한다. 이번연구에서는 CBL과 PSBL 데이터를기준으로특징추출을수행하였다. 향후다른사이버위험데이터확보시, 추가적으로특징변수로사용할수있다. 먼저두데이터상에서각기관들의스팸이메일발생총량 (Volume), 발생건수 (Count), 스팸발생 IP 개수 (Host) 등 6개의특징을추출하였다. CBL에서는스팸이메일을발생시킨봇넷이포함되는데, 현재까지 400여개의봇넷정보가수집되었다. 각기관에서발생된스팸발생량을 400여개의봇넷별로분류한데이터를특징으로추출하였다. 다. 사이버사고와사이버위험데이터통합 다음으로는정보유출데이터와사이버위험지수데이터를통합하는과정이필요하다. 하지만두가지의데이터는통합 ID를사용하지않으므로, 이종데이터를하나로통합하는것은매우어려운과정이다. 이번연구에서는양데이터에서나온기관의이름에스트링매칭 (String Matching) 알고리즘을적용하여데이터를매칭하였다. 그결과 2,102개의기관에대한데이터를통합할수있었다. 통합데이터에는 243건의정보유출사고가포함되었다. 이는전체정보유출사고건수에비해적은비율이다. 많은매칭이이루어지지않은이유는정확한피해기관의이름이기재되지않은경우, 그리고한기관이다양한이름으로기재되는경우가많기때문이다. 수작업으로데이터를통합하는방법을통하여더많은통합데이터를수집할수있을것이다. 하지만이는확장성 (Scalability) 이있어서, 사이버보험시장에직접사용되기는어려울것이다. 향후사이버위험, 사이버사고등의데이터수집및통합을용이하게하기위해서는각데이터에서통합 ID를사용하게하는방안이필요하다.

54 연구보고서 2018-15 3. 예측알고리즘및모델평가 이미언급된것처럼, 사이버사고예측문제는감독기계학습문제중분류문제로생 각할수있는데, 이미개발된전통적기계학습알고리즘들을적용하고, 또한최근새롭 게개발된딥러닝 (Deep Learning) 알고리즘을예측문제에적용하였다. 가. 전통적분류알고리즘 분류알고리즘중대표적인 K Nearest Neighbor(KNN), 19) Logistic Regression(Logit), 20) Decision Tree(DT), 21) Random Forest(RF) 22) 등 4가지알고리즘을사용하였다. Python 내의오픈소스기계학습라이브러리인 Scikit Learn을사용하였다. 23) Logit은독립변수의선형결합을이용하여사건의발생가능성을예측하는데사용되는통계기법인데, 사건의종류가 2가지인경우에주로사용된다. 독립변수가수치자료인경우에많이사용된다. KNN 알고리즘은각데이터를다차원특징공간 (Feature Space) 상에배열하였을때, 지역적으로근접한데이터들이같은성질을가진다고가정한다. 데이터간의거리를측정하는방법으로는유클리어드거리 (Euclidean Distance) 혹은코사인거리 (Cosine Distance) 를사용한다. 이는인스턴스기반학습이고가장간단한기계학습알고리즘에속한다. 특징공간이초고차원일때, 데이터간의거리가기하급수적으로멀어진다는단점을가지고있다. Decision Tree 학습법은어떤항목에대한관측값과목표값을연결시켜주는예측모델로서, 결정나무를사용한다. 의사결정분석에서 DT는시각적이고명시적인방법으로의사결정과정과결정된의사를보여주는장점이있다. 반면, 훈련데이터가제대 19) https://en.wikipedia.org/wiki/k nearest_neighbors_algorithm 20) https://en.wikipedia.org/wiki/logistic_regression 21) https://en.wikipedia.org/wiki/decision_tree 22) https://en.wikipedia.org/wiki/random_forest 23) http://scikit learn.org/stable/supervised_learning.html

사이버사고예측모델개발 55 로일반화하지못할경우너무복잡한결정나무를만든다는한계점을지니고있다. 그리고약간의훈련데이터차이에따라나무의모양이크게달라질수있다. 이러한문제점을해결하기위한방법이 Random Forest이다. 훈련과정에서구성한다수의 Decision Tree로부터분류치를종합하는앙상블 (Ensemble) 학습방법이다. 마지막으로, 벤치마킹을위해서임의예측 (Random) 알고리즘을사용하였다. 즉, 학습데이터에서사고발생확률을계산한후, 개별기관에대한개별적특징을고려하지않고, 확률에따라사고가발생할것으로예측하는방법이다. 나. 딥러닝알고리즘 전통적인기계학습방법은특징추출의단계를거치는데, 이때해당분야에대한전문가의직관이필요하다. 예를들어, 사이버보안문제가발생하는데에영향을끼치리라직관적으로예상되는변수들을추출하게된다. 하지만이러한방법은, 특징변수가전문가의직관에제한되는한계점을가진다. 이를극복하기위한방법이인공신경망 (Artificial Neural Network) 을이용하는딥러닝 (Deep Learning) 기술이다. 딥러닝기술에서는특징추출과정없이원데이터를직접인공신경망에적용하여원데이터간의복잡한상호작용을복구할수있다. 다만, Decision Tree와같이의사결정과정을투명하게보여주기어려운특징 (Interpretability Issue) 을가지고있다. 이에대한연구를지속적으로진행하고있다. 필자가공저한 Shin et al.(2016) 논문사례에서볼수있듯이, 딥러닝기술은사진과동영상과같은비정형데이터를분석하는데널리사용되고있다. 일부사진분석문제에있어서는인간의능력보다뛰어남이밝혀졌다. 24) 본연구에서는딥러닝알고리즘중에하나인전방전달신경망 (Feed Forward Neural Network) 을이용하였다. 25) 24) https://www.forbes.com/sites/michaelthomsen/2015/02/19/microsofts deep learning projectoutperforms humans in image recognition/ 25) https://en.wikipedia.org/wiki/feedforward_neural_network

56 연구보고서 2018-15 다. 예측모델평가방법 머신러닝으로개발된예측모델을평가할때교차검증 (Cross Validation) 방법이사용된다. 즉, 수집된데이터를학습데이터 (Training Data) 와평가데이터 (Testing Data) 로나누고, 학습데이터만을이용하여예측모델을학습하고, 학습된모델을평가데이터에적용하여예측정확성을평가하는방법이다. 본연구에서는 90% 의데이터를학습데이터로 10% 의데이터를평가데이터로사용하는 10 Fold 교차검증을사용하였다. 전체기관들의데이터를기준으로보았을때, 사이버사고는비교적자주발생하지않는사고이다. 그러므로레이블데이터에불균형문제 (Class Imbalance Problem) 가발생한다. 이러한경우에공정한평가를위해서는 Accuracy를사용하지않고, Precision, Recall, F1 score를사용한다. 26) 아래는 4가지의예측정확도측정방법이다. 이때, TP는실제발생사건을정확히예측하는경우 (True Positive) 의건수, FP는실제발생하지않은사건을발생한것으로잘못예측하는경우 (False Positive) 의건수, TN은실제발생하지않은사건을미발생한것으로정확히예측한경우 (True Negative) 의건수, FN은실제발생사건에대하여예측하지못한경우 (False Negative) 의건수를의미한다. 라. 예측모델성능비교 < 표 Ⅳ-1> 은앞서설명한 6가지분류알고리즘에대한예측성능을비교한결과이다. 딥러닝방식이가장높은 94.73%(F1 기준 ) 예측률을기록하였다. 전통적인기계학습알고리즘들중에서는 Decision Tree(91.63%) 와 Random Forest(91.92%) 가높은예측률을보였다. 반면, KNN과 Logistic Regression은 90% 이하의예측률을기록하였다. 벤치마크로사용한임의예측 (Random) 방식은 59% 의예측률을보였다. 이결과를통해, 딥러닝방식의특징자동추출이전통적기계학습대비 3% 의성능향상을이룬것이확인되었다. 임의예측을포함한모든알고리즘의 90% 이상의 26) https://en.wikipedia.org/wiki/f1_score

사이버사고예측모델개발 57 Precision 값을가지지만, Recall 값에서큰차이를보였다. 임의예측은 Recall 값이 45% 인반면, 딥러닝은 Recall 96% 를기록하였다. < 표 Ⅳ-1> 예측모델성능비교 ( 단위 : %) 구분 Precision Recall F1 score Random 91.93 45.97 59.46 KNN 93.66 85.31 88.86 Logistic Regression 95.47 67.3 76.94 Decision Tree 92.88 90.52 91.63 Random Forest 92.94 91 91.92 Deep Learning 96.35 96.21 94.73 4. 소결 본장에서는사이버사고의대표적인종류인데이터유출사고데이터를이용하여, 사이버사고예측에대한가능성을타진하였다. 예측모델개발을위하여, 본연구에서제시된사이버위험지수들을이용하여기관들의특징변수들을추출하였다. 그리고다양한기계학습알고리즘들을사이버사고 / 사이버위험통합데이터에적용하였다. 특징변수를연구자가직접설계하는전통적인기계학습방법에서는 90% 정도 (F1 기준 ) 의예측률이달성되었다. 이어원데이터에서직접변수들의상호작용을추출하는딥러닝알고리즘을적용하였을때, F1 기준으로 94.73% 의예측률이달성되었다. 본결과를통해, 제시된사이버위험지수데이터가사이버사고를예측하는데유용하다는것을입증한것이다. 향후기계학습기반의사고예측모델은사이버보험시장에서보험금계산에유용하게사용될것으로기대된다.