인공지능기반금융권보안관제동향및향후과제 김종현 * Ⅰ 서론 41 Ⅱ 인공지능의역사와기술소개 43 1. 인공지능의역사와튜링테스트 43 2. 주요국가별인공지능산업에대한전략 45 3. 인공지능오픈소스솔루션 48 Ⅲ 인공지능과보안 50 1. 인공지능의응용분야 50 2. 인공지능과능동형보안 (Adaptive Security) 52 3. 인공지능을활용한보안분야 53 Ⅳ 인공지능기반금융권보안관제동향및향후과제 1. 침해데이터공유현황 55 2. 보안관제를위한머신러닝알고리즘동향 59 3. 향후과제 61 Ⅴ 결론 62 < 참고문헌 > 63 * 아주대학교사이버보안학과교수 39
전자금융과금융보안 ( 제 8 호, 2017-04) 요약 1956 년인공지능이소개된이후딥러닝의도입으로인해황금기를맞으면서인공지능기술이전산업의미래를바꾸는 4 차산업혁명의핵심기술로인식되고있다. 의료, 법률분야에서인공지능이사람을대체하고있지만보안분야는인공지능의판단실수에대한영향도가적고학습데이터에관한개인정보보호이슈가없어인공지능을적용할수있는적합한영역으로관심을받고있다. 또한보안분야는보안장비에서자동으로생성, 저장되는로그의빅데이터를이용하여인공지능의잠재력을실질적으로검증할수있는분야이다. 보안분야중에서사용자의개인정보오남용행위특성에기반한 24 시간모니터링, 점점늘어나는전자금융사기거래탐지를위한 FDS(Fraud Detection System), 그리고백신프로그램이탐지할수없는알려지지않은악성코드에의한이상행위를탐지하는분야는인공지능의성과를잘보여줄수있을것이라생각한다. 특히최근주로일어나고있는 APT 는지속적인데이터수집과내부조직감염을통해서침입하는공격으로그피해규모는계속해서증가하고있고국내 외적으로대응을위한많은노력이수반되고있어인공지능의역할이더욱기대가된다. 40 e-finance and Financial Security
02 인공지능기반금융권보안관제동향및향후과제 Ⅰ 서론 1956 년, 미국다트머스회의에서존매카시교수에의해사람의추론과탐색을대신하는개념으로처음도입된인공지능은두번의침체기를거친후딥러닝의출현으로세번째황금기를맞고있다. 1997년, 10의 80승의경우의수가발생한다는체스게임에서 IBM의인공지능 딥블루 가체스챔피언카스파로프와의대결에서이겼고, 2013년에는일본에서인공지능이장기에서사람을상대로이기기도했다. 체스보다 10의 280승더복잡한바둑에서많은프로기사들의예상을뒤엎고, 2016년 3월, 구글의 알파고 가세계정상급바둑기사이세돌 9단에게압승을거두어인공지능의가능성이다시조명을받았다. 딥러닝의발전, CPU * 보다병렬처리속도가뛰어난 GPU ** 의개발과함께빅데이터기술의비약적인발전으로인공지능이사람보다더빨리학습하게되었고이는인공지능의잠재적인능력을끌어올렸다. 이제빅데이터기술과컴퓨팅연산능력의획기적인증대로인공지능기술은전산업의미래를바꾸는 4차산업혁명의핵심기술로인식되고있다. 최근인공지능은의료 법률분야와자율주행자동차에서무한한잠재력을가지고우리의생활을바꿔놓고있다. 그러나여전히인공지능이사람의 * Central Processing Unit : 중앙처리장치 ** Graphic Processing Unit : 그래픽처리장치 41
전자금융과금융보안 ( 제 8 호, 2017-04) 인지능력, 판단능력과의사결정능력을대신하기위해서는보다많은검증과사례개발이필요하다. 특히의료분야는사람의생명과직결되고의사의축적된경험이중요하기때문에인공지능이기존의사를자동화하여대체하기보다는의사의질병진단을지원및보조하는역할을통해인공지능의응용분야를넓혀가고있다. 최근에지능형사이버공격 ( 이하 APT, Advanced Persistent Threat) 과같은사이버공격과외부해킹이점점고도화되고장기적으로진행됨에따라보안분야는인공지능의적용이필요한분야중의하나가되었다. 또한의료나법률분야보다보안은 3가지관점에서인공지능개발과기술검증이더용이하다. 우선, 판단착오가있더라도재판단의기회가주어지기때문에판단실수가있더라도의료에비해치명도가낮을것이라생각한다. 둘째, 이미보안분야에서는개인정보이용에대한우려가없는인공지능을학습시킬데이터가충분히확보되어있다. 마지막으로, 다양한보안장비에서대용량의데이터가자동적으로생성되고저장되어학습데이터에대한정보가충분할수있을것이다. 인공지능의활용이가능한보안분야는사이버공격에의한이상행위탐지, 업무목적외의개인정보오남용모니터링, 또한전자금융사기탐지를위한 FDS(Fraud Detection System) 의인공지능활용이그사례가될수있다. 본고에서는인공지능의역사와기술에대해간략히소개를하고, 주요국가별인공지능산업에대한전략및인공지능오픈소스솔루션에대해정리를하였다. 또한빅데이터와인공지능응용분야, 인공지능을활용한보안의대상분야등인공지능적용이가능한보안분야에대해조사하였다. 마지막으로보안관제기술인 ESM * 과 SIEM ** 을비교하고침해데이터공유를위한국내 외표준을살펴본후이를기반으로인공지능기반의보안관제현황및향후과제에대해제시하고자한다. * Enterprise Security Management : 방화벽, IDS, VPN 등보안관련솔루션들의로그, 이벤트등을하나로모아중앙에서통합관리해주는시스템 ** Security Information & Event Management : ESM 과같이통합보안관리를위한시스템으로, 빅데이터기반의심층분석기능을제공 42 e-finance and Financial Security
Ⅱ 인공지능의역사와기술소개 1. 인공지능의역사와튜링테스트 1943년에등장한인공지능은 1956년수학자와과학자들의모임인다트머스회의에서미국다트머스대학의존매카시교수에의해사람의추론과탐색을대신하는인공지능의개념이처음도입되었다. 1970년대들어간단한문제를풀이하는전문가시스템이소개되면서첫번째황금기를맞았지만그당시인공지능기술이복잡한문제를해결하는수준에는도달하지못해급격한침체기를맞이했다. 1990년대후반인터넷의발전과함께방대한데이터를수집할수있게되면서다시중흥기를맞는다. [ 그림 1] 은인간의뉴런과유사하게만든인공지능의기초단위퍼셉트론 (Perceptron) 을보여준다. 좌측의인간의신경세포뉴런에서수상돌기 (Dendrite) 가신호를받고합쳐진신호가축색돌기 (Axon) 를통해다음뉴런으로전달된다. 이러한인간의뉴런과유사한퍼셉트론개념을인공지능에도입하여퍼셉트론의입력값가중치 (w) 의합을전이함수 ( 계단함수또는쌍곡탄젠트함수 ) 를통해전달하고결과값을산출하게된다. 가중치는학습을통해구할수있다. 그림 1 인간뉴런과인공지능의기초단위퍼셉트론 (Perceptron) 43
전자금융과금융보안 ( 제 8 호, 2017-04) 2000년대들어다층퍼셉트론 (Multi-Layer Perceptron) 을통한역전파 (Back-Propagation) 기법으로인공지능침체의돌파구를찾았지만복잡한역전파연산에필요한컴퓨팅파워의부족으로인공지능은두번째침체기를맞이하게된다. 하지만 2006년캐나다토론토대학의제프리힌튼교수가인간의뇌를모방한신경망네트워크 (Neural Networks) 구조로이루어진딥러닝알고리즘을활용한자율학습 (Unsupervised Learning) 으로초기값에대한결과의의존성을해결함으로써인공지능기술은세번째황금기를맞는다. 2012년캐나다토론토대학알렉스크리제브스키가이미지인식경진대회이미지넷 (ImageNet) 에서나선형신경망 (Convolutional Neural Network) 을이용한딥러닝을통해 10여년간 75% 에서머물던이미지인식율을 84.7% 로올려우승을차지하면서 GPU를활용한딥러닝기술이인공지능의역사에전환점이되었다. 2015년, 20년전의슈퍼컴퓨터의연산능력과유사할정도의성능을보이는 GPU 연산능력과빅데이터기술의발전에힘입어인공지능은새로운중흥기를맞게되었다. 제프리힌튼 ( 토론토대학 ), 얀레쿤 ( 뉴욕대학 ), 앤드류응 ( 스탠포드대학 ) 은각각구글, 페이스북, 바이두에영입되어인공지능의발전을가속화하고있다. 이제인공지능은이미지인식과음성인식에서사람의능력과유사한수준에도달할정도로발전했다. 1997년, IBM의인공지능 딥블루 가체스챔피언카스파로프와대결에서 1년전의패배를설욕하고처음으로승리했다. 그리고 20년후인공지능바둑프로그램 알파고 는 16만개가넘는프로기사의기보를학습한결과, 2016년 3월세계정상급바둑기사이세돌 9단에게 4승 1패로이기는예상밖의성과를올렸다. 경우의수가체스보다훨씬많은바둑에서알파고가이긴비결은 CPU 보다 30배이상연산속도가빠른 GPU 176개를통한연산능력에기반하기때문이다. 세계최초의해커, 인공지능의아버지 라일컬어지는수학자알란튜링이 1950년철학저널 ' 마인드 (Mind) 에발표한논문 'Computing Machinery and Intelligence' 에서인공지능판별법인튜링테스트 (Turing Test) 를 44 e-finance and Financial Security
제시했다. 튜링테스트란기계가인간과얼마나비슷하게대화할수있는지를측정하여기계의지능을판별하는테스트를말한다. 이논문에서그는 50년뒤에는 5분동안대화를한뒤컴퓨터의진짜정체를알아낼수있는확률이 70% 를넘지않도록프로그래밍하는것이가능해질것이다 라고예측했다. 그로부터 64년후인 2014년영국레딩대학교의슈퍼컴퓨터 유진구스트만 (Eugene Goostman) 이튜링테스트를통과했다. 비록유진을우크라이나의영어가유창하지않은 13살어린소년으로설정하는특정환경을만들기는했지만, 벽너머에서동시에테스트를받던인공지능 유진구스트만 과사람을구별하지못했던것이다. 미래학자레이커즈와일은그의저서 The Singularity is Near(2006) 에서 2029년에튜링테스트를통과하는 AI가등장할것이다 고예측했다. 인공지능슈퍼컴퓨터 유진구스트만 의현재기술적인수준과최근의딥러닝에의한인공지능의이미지인식능력및언어이해능력등을종합적으로판단했을때, 언어가서투른외국어린이라는특정환경이라는가정없이인공지능이사람처럼대화를하고질문에답을하는그시점이레이커즈와일이예언한 2029년보다훨씬앞당겨질지도모른다. 그는튜링테스트를통과하는 AI의등장시점에대한예측뿐만아니라컴퓨터의능력이전인류지능의총합마저크게앞지르는특이점 (Singularity) 이되는시점을 2045년으로예측했다. 그때가되면 인간은죽지않고영원히살수있고인간과기술간의구별이사라질것이다 라고예언했다. 2. 주요국가별인공지능산업에대한전략 가. 미국의인공지능산업전략 미국은방위고등연구계획국 (DARPA, Defense Advanced Research Projects Agency), 국립보건원 (NIH, National Institute of Health), 국립과학재단 (NSF, National Science Foundation) 등이주도하여인간 45
전자금융과금융보안 ( 제 8 호, 2017-04) 뇌기능의동적이해메커니즘을연구하는 Brain Initiative(2013) 를지원하고있다. 인간뇌의동작을연구하면서뇌활동지도 (Brain Activity Map) 를만드는것이 Brain Initiative 의목표이다. 또한미국고등연구계획국 (ARPA, Advanced Research Projects Agency) 의질의응답인공지능인 AQUAINT, 대통령직속기관과학기술정책실 (Office of Science and Technology Policy) 의빅데이터연구과제인 BDRD Initiative(Big Data Research and Development Initiative, 2012) 뿐만아니라대학, 기업및연구소등의연구를후원하는미국국방부산하 DARPA 등에서인공지능연구활동을활발히진행하고있다. 나. 유럽연합의인공지능산업전략 Human Brain 프로젝트는유럽연합의주도하에 24개국 116개의기업체의지원을바탕으로 2013년 10월부터 10년간 11.9억유로 ( 약 1조 8천억원 ) 의지원을받는대형프로젝트이다. 인간뇌의동작을연구하는순수과학분야에초점을맞춘미국의 Brain Initiative 프로젝트와달리, 신경정보과학 (Neuro Informatics), 두뇌시뮬레이션 (Brain Simulation), 고성능분석및컴퓨팅 (Highperformance Analytics and Computing), 의료정보학 (Medical Informatics), 뉴런형컴퓨팅 (Neuromorphic Computing), 뉴런로보틱스 (Neuro Robotics) 등총 6가지분야에서의프로토타입하드웨어 ICT기반플랫폼을개발하는데목적을두고있다. EU SPARC-Robotics 프로젝트는 2012년 9월에조직한유럽의로봇공학파트너십으로유럽의로봇공학에대한주도권을유지 확장하는프로젝트이다. 유럽 180개이상의산업및연구단체가속해있고연구대상은 Markets and Applications, Robot Categories, System Abilities, Technologies로유럽경제와사회에대한이익창출과산업과연구, 비즈니스분야의전문지식창출을목표로한다. 46 e-finance and Financial Security
미래산업정책을뜻하는 인더스트리 4.0 개념을만든곳이기도한독일인공지능연구소 (DFKI) 는 1988년에설립되었고인공지능을활용한혁신상용소프트웨어기술개발과연구에특화된공공-민간합작연구소이다. DFKI는독일지방정부외에도인텔, 마이크로소프트, 구글등 23개의글로벌기업및기관이국제주주로서연구소운영에참여하고있고 2015년예산은약 4,200만유로이다. 연구소내성공적연구사례를통해 60여개이상의스핀오프기업을투자및설립하였다. DFKI의 770명의연구원중 330명이파트타임학생연구원이고독일및외국대학에서교수로재직하고있는 85명의연구인력구성을통하여효율적인산학연계연구를수행하고있다. 다. 일본의인공지능산업전략 일본은인공지능의기초기술을연구하는미국이나유럽과달리인공지능을활용한로봇, 빅데이터분석에투자를집중하면서로봇신전략프로젝트, 정보폭발프로젝트 (Info-explosion Project), 토다이로봇프로젝트 (Todai Robot Project) 를수행하고있다. 아베총리의경제정책인아베노믹스의성장전략에로봇산업의진흥책이포함되면서일본정부가로봇산업을활성화하기위해만들어진것이로봇신전략프로젝트이다. 본프로젝트는일본의로봇혁명을위한정책으로써로봇혁명실현을위해센서, 인공지능등의기술진보를활용하고, 자동차, 가전및휴대전화등을로봇화하여인간의주거공간이로봇으로하나가되는사회를만들고자한다. 정보폭발프로젝트는폭증하는정보로부터필요한정보를추출하는기술, 대량의정보를관리하고운용하는기술, 인간과유연한상호작용으로정보를활용하는기술, 정보를활용하여선진적인 IT서비스를적용하기위한첨단기술을개발하는것을목표로인공지능을응용하는연구를수행한다. 후지츠 (Fujitsu) 연구소, NII(National Institute for Informatics) 및 47
전자금융과금융보안 ( 제 8 호, 2017-04) 5개정부기관이공동으로수행하는토다이로봇프로젝트는 2016년부터 10년간약 1,000억엔을투자한다. 토다이로봇을이용한연구분야는사회, 수학, 영어, 일본어 4가지이며각분야의문제특성을고려하여답을도출하는자율판단에의한로직을구현하고있다. 3. 인공지능오픈소스솔루션 가. 구글텐서플로우 (Google Tensorflow) 상용화된인공지능소프트웨어가많이있지만인공지능오픈소스솔루션중에서는구글 텐서플로우 가시장의 80% 이상을점유하고있다고알려져있다. 1,920개의 CPU와 280개의 GPU를사용하는바둑인공지능 알파고 를개발한구글은머신러닝을위한인공지능소프트웨어라이브러리 텐서플로우 를 2015년에오픈소스로공개했다. 또한인간의인지방식을시뮬레이션하기위해약 16,000 개의코어를이용하여결과가주어지지않은데이터 (Unlabeled Data) 기반의자율학습을위한 9계층, 10억개의연결구조를갖는신경망에대한연구를진행중이다. 나. Microsoft CNTK(CogNitive ToolKit) CNTK 는마이크로소프트에서제공하는신경망네트워크를이용한딥러닝특화프레임워크기반툴킷이다. 여러대의기계에설치된 GPU를활용하는프레임워크를이용하여구글의 텐서플로우 에비해약 8배빠른속도를보인다. 2015년에이미지인식세계대회 (ILSVRC) 와마이크로소프트 COCO 챌린지에서 1위를차지했고마이크로소프트의음성비서소프트웨어인 코타나 (Cotana) 와스카이프번역기에사용된다. 48 e-finance and Financial Security
다. 토치 (Torch) Torch 는미국뉴욕대학교에서개발하고페이스북이확장시킨딥러닝라이브러리로스크립트언어인루아 (Lua) 를기본으로 NVIDIA GPU에최적화되어있다. 기계학습, 컴퓨터비전, 신호처리, 병렬처리, 이미지, 비디오, 오디오및네트워킹분야등커뮤니티주도패키지의대규모생태계를제공하는이미지콘텐츠분석및광고예측기능을이용하여페이스북, 트위터등에서활용된다. 텐서플로우 가활성화되기전에는구글의 딥마인드 (Deepmind) 에서도 Torch 를사용했다. Torch 에 3D 물리엔진을결합한오픈소스환경 Unreal Engine Torch (UETorch) 는가상세계를통해시뮬레이션하고학습하는것을가능하게한다. 라. 테아노 (Theano) Theano 는몬트리올대학교의 LISA 연구실에서개발한오픈소스라이브러리로다차원배열의수학적연산을위해만들어졌다. GPU 연산을지원하며파이썬에서동작한다. Theano 는임의의수 x가아주작아도 log(1+x) 에대한정답이나오도록속도와안정성이최적화되어있다. Theano 기반의인공지능라이브러리중 Keras 는프로토타이핑제작목적, Pylearn2 는연구목적으로사용된다. 마. 카페온스파크 (Caffe on Spark) UC버클리대학교에서개발한딥러닝라이브러리인 Caffe 에아파치프레임워크를적용시킨 Caffe on Spark 는야후가개발한딥러닝소프트웨어로써야후 플리커 에적용되어있고 GPU 연산을지원한다. 기존 Caffe 라이브러리사용자는데이터셋변환없이 Caffe on Spark 에적용시킬수있다. Caffe on Spark 에는예제데이터도포함하여쉽게도입하고활용할수있다. 49
전자금융과금융보안 ( 제 8 호, 2017-04) Ⅲ 인공지능과보안 1. 인공지능의응용분야 분석해야할정보가기하급수적으로증가하고있는오늘날, 사람이직접일일이모니터링하고시스템의이상여부를판단하는것은거의불가능하다. 인간은전문지식과기술습득을위해지속적인교육과훈련이필요한반면, 인공지능기반의전문가시스템은한번학습이된후에는스스로학습하고진화할뿐만아니라영구적으로활용할수있기때문에최근다양한분야에서각광을받고있다. 인공지능에의한전문가시스템이공공재가되면저렴한비용으로많은사람들이사용할수있게된다. 인간전문가는인공지능과동일한상황에처하더라도긴급함이나감정에따라잘못된결정을내릴수있지만, 인공지능의경우감정에치우치지않고항상체계적이고일관된결정을내릴수있는것이인공지능의상대적인강점이다. 옥스퍼드대 미래직업보고서 (2013) 에서는 미국내의 702개직업중 20년이내에사라질것으로예상되는직업이 47% 라고할정도로인공지능은다양한분야에서사람을대체할것이라고예측되고있다. 음성인식기반의인공지능비서로애플 시리 (Siri), 구글 나우 (Now), 마이크로소프트 코타나 (Cotana), 아마존 알렉사 (Alexa) 등많은제품들이이미개발되어상용화되었다. 인공지능비서는이용자의습관혹은행동패턴을학습하여개인에필요한다양한맞춤형서비스를제공한다. 인공지능에의한자율적판단과조치를위해서는우선전문가시스템의적용이가능한분야를선별해서인공지능의활용타당성을증명하는것이필요하다. 일본헨나호텔에는인공지능기반로봇 3대가호텔안내데스크에서고객응대및안내등다양한업무를담당하고있고, 미국의어로프트호텔에는무인웨이터가서비스를제공하고있다. 호주철강회사리오틴토 50 e-finance and Financial Security
(Rio Tinto) 굴착기와트럭은무인운전사로운용이되며미국프로야구독립리그에서는볼판정을위해인공지능심판이활약하고있다. 인공지능은단순한안내와운전을넘어서고도의지식과판단을필요로하는전문가영역에도다양하게적용되고있다. 인간의판단을대체할수있는전문가시스템을활용한인공지능은아직초기단계이지만법률상담과의료분야에서활약하고있다. 법률분야는과거판례데이터가풍부하고판결결과 ( 사례기반추론 ) 가명확히제시되어있을뿐만아니라법률이라는규칙을적용하는것이전문가시스템의사례에기반한추론프로세스와유사하기때문에인공지능이판례등관련지식을학습한후룰에기반하여판단하는것이가능한영역이다. 특히판례에기반하여불문법주의를따르는영미법계에서는인공지능의활용가능성이더높을수있다. 실제로미국대형법무법인베이커앤호스테틀러 (Baker & Hostetler) 는 IBM 왓슨 (Watson) 기반의인공지능변호사인 로스 (ROSS) 를고용해파산분야에배치하여업무에활용하고있다. 세계최대법률정보제공서비스기관인렉시스넥시스 (LexisNexis) 의 렉스마키나 (Lex Machina) 는수백만건의연방법원소장및답변서, 준비서면, 판결문등각종문서의데이터와법원별, 판사별, 변호사별소송빅데이터와최신판례트렌드를분석하여소송전략을수립하도록도와준다. 의료분야에서 IBM의인공지능 닥터왓슨 은환자의암진단뿐아니라유전정보분석, 임상시험분석에도활용되고있다. 머신러닝기술을적용한 닥터왓슨 은빅데이터를이용한의학정보를학습하여암진단의정확성을높이고있다. 2014년미국종양학회에서발표된자료에따르면인공지능은대장암 98%, 직장암 96%, 자궁경부암 100% 등 메모리얼슬로언케터링암센터 의전문의들의진단과비교하여높은진단일치율을보였다. 하지만생명과직접연관되는의료분야라는점때문에인공지능에완전히의존하기까지는아직많은실험이필요하다. 51
전자금융과금융보안 ( 제 8 호, 2017-04) 2. 인공지능과능동형보안 (Adaptive Security) 다양한보안위협과외부침해징후를예방 탐지하기위해서는 IDS, IPS 등보안장비의탐지이벤트별로사고패턴을정의해서인식하고, 수집된데이터를통합적으로연계하여침해사고패턴을실시간으로탐지하고분석하는것이필요하다. 그런데수많은보안장비에서생성되는방대한양의데이터를분석하는데상당한시간이소요되거나분석이불가할경우, 침해사고를인지하는시점이그만큼지체될수밖에없다. 따라서급증하는빅데이터를처리하기위해서는자동화된방식을이용하여데이터를수집, 분류및분석하여침해사고를신속하게 탐지 하고정확하게 대응 하는방안이필요해지고있다. 또한기존의보안관제솔루션은침해사고패턴을설정해서알려진위협은쉽게탐지할수있지만알려지지않은신규또는변종위협에대해서는탐지가불가하다. 마치인간이보고듣고느끼는본능처럼외부침해위험을감지하고악의적인활동의연계와상관관계를형성하여대응하는능동형보안 (Adaptive Security) 이도입되어야하는이유이다. 알려지지않은외부침해행위를실시간으로수집하고지속적으로변화하는이상행위를 24시간분석하고대응하는능동형보안을위해서는자율적으로판단할수있는인공지능의활용이필수적이다. APT공격에의한알려지지않은위협과정상적인행위에서벗어난이상행동을탐지하기위해인공지능에의한자기학습과역량강화가중요한역할을할수있다. 작은이상징후일지라도네트워크단에서의이상행위가사용자의 PC에서악성행위에의한정보유출또는시스템장애와같은영향을미치고네트워크보안의경계선밖에있는모바일기기는외부침해에직접연계된다. 따라서일정한영역이아닌전체시스템차원에서의이상행위가통합적으로분석될수있다면사람이놓치기쉬운위협도인공지능의자기학습을통해탐지와예방이가능해진다. 52 e-finance and Financial Security
3. 인공지능을활용한보안분야 법률과의료분야에인공지능적용이선행되고있지만현실적인인공지능의적용가능한분야중의하나인사이버공격에대한보안관제인공지능의활용에대한관심이높아지고있다. 보안분야가인공지능의적용에타당한분야로고려될수있는이유로 3가지정도꼽을수있다. 먼저보안은다른분야에비해인공지능이스스로내려야할판단의결과가명확하다고생각한다. 의학의경우, 다양한증상에따라질병의진행수준에따른진단의견이다르게나올수있는반면, 보안은해킹인지정상네트워크트래픽인지에대한판단이가능하기때문이다. 두번째로는인공지능의판단에일부착오가있더라도, 지속적인외부침해공격이나바이러스감염의특성상재판단의기회가주어진다는점이다. 즉, 의사의오진에대한피해보다보안에서의오탐에대한피해가훨씬덜치명적일수있다. 마지막으로이미보안분야에서는인공지능을학습시킬데이터가충분하다는점이다. 다양한보안장비에서대용량의데이터가자동적으로생성되고저장되어학습을위한데이터를충분히확보할수있다. 보안분야에서는사이버공격에의한이상행위탐지를모니터링하기위한보안관제분야와개인정보오남용모니터링분야, 사기범에의해다양한형태로발생하는전자금융사기탐지를위한 FDS에인공지능을활용할수있다. 예를들어최근에주로일어나고있는 APT 공격은 6개월정도의지속적인데이터수집과내부조직감염등을통해서기관내부에침입하여시스템을마비시키거나내부의중요데이터를탈취하는공격이기때문에현재의보안장비기반의보안대책으로는완벽한방어가힘들다. 따라서 APT 공격을방어하기위해서는인공지능을이용하여이상행위를모니터링하여보안관제를수행하는것이효과적일수있다. 또한인공지능에의한전문가시스템을구축하여사용하기위해서는빅데이터수집이필수적인데앞에서도언급했듯이방화벽, IDS, IPS, 서버보안솔루션등다양한보안장비에서만들어지는 53
전자금융과금융보안 ( 제 8 호, 2017-04) 빅데이터가있으며매일테라바이트수준의데이터가자동적으로생성되기때문에머신러닝에필요한학습데이터가충분하다. 이외에도매일새로운위협이 100만개이상출몰하고있고보안솔루션을우회하면서적법한권한을획득해목적한바를달성하고자하는정교한사이버공격환경에서는인공지능이지능적인위협탐지와분석, 대응뿐만아니라향후에발생가능한보안위협을예측하기위해반드시필요한기술이될것이다. 개인정보오남용모니터링분야는행위기반의이상행위를효과적으로탐지하기위해인공지능이반드시필요한분야이다. 대규모회사에서내부직원, 외주직원등내부자가특정인의개인정보를조회하거나대량의개인정보를인쇄또는유출하고자하는경우, 해당작업이평상시와유사한업무수행인지아니면개인정보오남용인지여부에대한모니터링을사람이수행하는것은거의불가능하다. 하지만인공지능을활용하여개별직원의평소업무행위에기반을둔특성을분석하고학습한후내부자의모든행위를지속적으로모니터링하면서이상행위여부를판단한다면내부자로인한보안위협을효율적으로방어할수있을것으로예상된다. 마지막으로 FDS의인공지능활용이다. 최근금융회사에서구현하고있는 FDS는기존에발생한전자금융사기사건을기반으로한빅데이터분석을통해비정상거래의거래특성을유추하고금융사기사건의패턴을찾아낸다. 이를사기거래의패턴으로등록하고해당패턴과매칭되는거래는차단하거나본인추가인증을통해서거래승인을강화한다. 이러한 FDS가성공적으로운영되기위해서는사기행위를탐지하는패턴에최신사기유형을반영하여지속적으로수정 추가하는프로세스가있어야한다. 하지만담당자가빅데이터를매일분석하고수정하는작업은매우어렵다. 따라서인공지능을 FDS에도입하여사기거래패턴을인식하는능력이학습되면실시간으로거래를분석하면서사기거래로의심되는패턴이일어나는즉시거래를중단시키거나본인추가인증을통해전자금융사기를사전에예방하는대응이 24시간동안지속적으로적용될수있을것이라생각한다. 54 e-finance and Financial Security
Ⅳ 인공지능기반금융권보안관제동향및향후과제 인공지능기술을보안관제에적용하기위해서는머신러닝을위한충분한양의외부침해위협관련정상 비정상빅데이터및이러한빅데이터를기반으로효율적으로학습할수있는알고리즘의개발이필요하다. 본장에서는빅데이터수집을위한침해데이터공유현황및머신러닝알고리즘동향을정리하고, 인공지능기반금융권보안관제구축을위한향후과제에대해살펴보고자한다. 1. 침해데이터공유현황 가. 침해데이터공유의필요성 보안관제기술에는 ESM(Enterprise Security Management) 과 SIEM(Security Information & Event Management) 이있다. ESM 은보안기능별, 솔루션제품별로모듈화된기능을제공하며수집되는데이터를통합하여일관된모니터링을수행하기위해개발되었다. ESM 도입을통해각종보안장비에서쏟아지는데이터를하나의화면에서일관성있게모아볼수있어효율적인보안관제를수행할수있다. ESM은에이전트, 매니저, 콘솔의 3가지로구성되고각보안솔루션에설치된에이전트가이벤트로그를수집하여매니저로전송하고보안담당자는매니저에의해제공되는콘솔을통해각종이벤트를처리한다. 증가되는보안장비에서생성되는로그데이터가기하급수적으로늘어나고사이버공격유형이장기간에걸쳐서복합적으로이루어지게되면서빅데이터기반의 SIEM이필요하게되었다. SIEM은당일의이벤트를통합해서모니터링을수행하는 ESM과달리수개월에걸쳐장기간에수집된빅데이터를심층분석한다. 하지만빅데이터기반의보안관제에인공지능을도입할경우특정기업에침투되는사이버공격데이터로는인공지능이학습할데이터로 55
전자금융과금융보안 ( 제 8 호, 2017-04) 그양이부족할수있어이를해결하기위해기업간외부침해데이터를 공유할필요성이부각되고있다. 나. 국내 외침해데이터공유현황 최근공격들은기존시그너처기반또는임계치기반의보안관제모니터링만으로는탐지에한계가있어지속적으로탐지하고자율적으로분석 대응하는이상행위탐지기반의보안관제를위해인공지능의활용이시급하다는관련전문가들의의견이나오고있다. 2015 RSA 컨퍼런스의주제가 위협인텔리전스 (TI, Threat Intelligence) 가될만큼 APT와같은보안위협이증가하면서 국제위협인텔리전스 (GTI, Global Threat Intelligence), 위협인텔리전스플랫폼 (TIP, Threat Intelligence Platform), 위협인텔리전스보안서비스 (TISS, Threat Intelligence Security Service) 가중요하며이를위해서는벤더간정보공유가필요하다. 국제보안솔루션기업들은 사이버위협동맹 (CTA, Cyber Threat Alliance) 을결성하여외부침해데이터를공유하고있다. 표 1 STIX 의 9 가지구성데이터모델요소 모델요소 Observables Indicators Incidents TTP (Adversary Tactics, Techniques, and Procedures) Exploit Targets Courses of Action Campaigns Threat Actors Report 정의 사이버공간에서어떤일이일어났고일어날수있는지표현 어떤것이보일지와보이는현상에대한패턴 특정적대적인행위의사례 적대적인행위에사용되는공격패턴, 취약점, 킬체인, 도구, 피해자표적화 취약점으로이용될수있는특성 공격에대한대응방법또는대응행동 적대적행위와같은목적을가진집합 적대적인행동을구분하는특징 보고양식 56 e-finance and Financial Security
다수기업간의침해데이터공유를위해서는대상데이터의표준이필요하고이에따라수립된다양한침해데이터글로벌표준으로는 STIX(Structure Threat Information expression), TAXII(Trusted Automated exchange of Indicator Information), CVE(Common Vulnerabilities and Exposures), CPE(Common Platform Enumeration), CybOX(CYBer Observables expression) 등이있다. STIX 는사이버위협을공유하고저장하고분석할수있도록구조적으로표현한언어이고 TAXII 는위협정보전송프로토콜, CybOX 는위협정보패턴에대한표준이다. 이중에서 STIX 는 [ 표 1] 과같이 9개의주요한구성데이터모델요소가있다. 국내에서는 KISA가개발한 CTAS(Cyber Threats Analysis System) 와 CTEX (Cyber Threat EXpression) 가활용되고있다. 2013년 3.20 사이버테러및 6.25 사태이후, 사이버위협정보와침해데이터공유필요성이부각되면서 국가사이버안보종합대책 에의거해 2014년 7월구축된 CTAS 는 Hadoop과 Mongo DB를적용한빅데이터기반의위협정보수집 분석 공유시스템이다. CTAS 는사이버보안관련기관과기업, 보안백신업체, 인터넷서비스제공업체 (ISP) 등 110여개 CTAS 회원기업과 2억여건의침해데이터 (2016.6.22. 기준 ) 가공유되고있다. CTAS 는 KISA 인터넷침해대응센터의 12가지침해관련시스템과외부기관으로부터수집하던침해사고정보를하나로통합했다. 악성코드, C&C, 악성코드경유지및유포지, 침해사고정보등을에이전트, 웹사이트, 오픈 API 등을통해수집하고통합 프로파일링과정을거쳐정제된정보와사이버위협및침해사고정보를수집 분석하는시스템으로부터도메인, IP, 악성코드, 취약점정보를수집 분석해서 CTEX 에맞는양식으로유관기관에공유한다. CTEX 는사이버위협정보를 W3C XML 기반의개방형마크업언어 (ML, Markup language) 로표현한것으로 6가지침해사고정보, 침해사고 (IML), 도메인 /IP(HML), 악성코드 (SML), 취약점 (VML), 공격자 (AML) 정보, 수집정보 (CML) 로분류하여수집 공유한다. 57
전자금융과금융보안 ( 제 8 호, 2017-04) 그림 2 KISA 의 CTAS 정보수집및공유수행절차 [ 그림 2] 는 KISA의 CTAS 정보수집및공유수행절차를보여준다. CTAS 의공격자 IP로등록된 IP는이미검증된정보이기때문에내부분석과정을생략하고즉시차단하여빠른조치를취할수있다. CTAS 를통한위협정보는 CTAS 홈페이지에서다운로드받거나오픈 API를통해실시간으로신속하게자동으로정보를주고받을수있다. 예를들어다음카카오는광고어뷰징 (Abusing) IP, 검색어뷰징 IP, 해시 (HASH), Distribute 메일스패머 IP, 회원가입어뷰징 IP, 회원로그인어뷰징 IP, 해킹시도 IP, 악성코드경유지 유포지 IP 및 URL, C&C IP 및 URL 정보를제공받아블랙리스트에활용하여차단하고있으며, 주요대기업, 기관, 대학교 NAT IP, IDC 할당 IP 및 VPN 업체 IP 정보를포함한화이트리스트정보와 C&C, VPN, IDC 정보를 CTAS 에제공하고있다. 최근에이슈가되고있는사이버블랙박스기술은자동차 블랙박스 와유사하게외부침해사고에대한재현과이에대한분석이가능하도록하는 58 e-finance and Financial Security
기술로공공기관, 기업등에설치된사이버블랙박스가수집 분석한정보를저장하고무결성을보장하도록되어있어침해사고의신속한원인파악과대응을가능하게해준다. 따라서사이버블랙박스는사이버침해사고증거보존, 블랙박스내침해사고원인분석기술을포함한다. 사이버블랙박스는한국인터넷진흥원 (KISA) 과한국전자통신연구원 (ETRI) 주도로 5개의보안업체가 2014년부터시작하여 2017년상용화를목표로하는국책사업이다. 이기술은사이버블랙박스와통합보안상황분석시스템으로구성되어있으며고도화된사이버침해공격에사전 사후대응을위한침해사고의신속한분석과증거저장에활용될뿐만아니라 정보공유 에도활용될수있다. 특히사이버블랙박스는애플리케이션, IP 등다중소스별대용량데이터수집및분산처리시스템과의연동을제공하고내 외부에서수집된악성패턴기반의네트워크악성행위및악성URL을탐지하고차단하는기술을포함한다. 2. 보안관제를위한머신러닝알고리즘동향 외부사이버공격에대한침해를탐지하기위한머신러닝의연구는많이수행되고있는데, 먼저 SVM (Support Vector Machine) 과인공신경망을이용한침입탐지효과비교연구 ( 조성래, 2016) 에서는 DARPA 에서개발된 KDD Cup 99 데이터를이용하여머신러닝알고리즘 SVM 과인공신경망모형 FANN (Forward Additive Neural Network) 의탐지효과를비교했다. 정상적인데이터를침입으로간주하는오경보율에서 FANN이 SVM보다약간높게나타났지만, FANN이 SVM보다월등한탐지의정확도를보여주어침입탐지에서 FANN이 SVM 보다효과적임을보여주었다. 또한 머신러닝을이용한침입탐지유형예측에관한연구 ( 최성국, 2015) 에서는머신러닝알고리즘인 SVM과 k-nn(k-nearest Neighbors) 을비교하며 ESM 로그에서침입탐지모형을생성하고예측하였다. SVM 이 k-nn보다평균 14% 높은예측정확도를보여주었다. SVM 과의사결정트리를이용한혼합형침입탐지 59
전자금융과금융보안 ( 제 8 호, 2017-04) 모델 ( 엄남경, 2007) 에서는문자메시지내용과발신자주소특성을활용한머신러닝알고리즘으로스미싱과일반문자메시지를분류하는방법을제안했다. 기존의단일 SVM 모델대비의사결정트리를함께이용한혼합형침입탐지모델의경우침입탐지율 5.5%, False-Positive 오류율 0.16%, False-Negative 오류율 0.829% 이향상되었다. 다중클래스 SVM을이용한트래픽의이상패턴검출 ( 박영재, 2013) 에서는네트워크트래픽데이터를시각화하고다중클래스 SVM 을적용하여네트워크트래픽공격을자동으로탐지했다. 다중클래스 SVM을활용한방법이네트워크트래픽공격을보다효과적으로탐지하고분류했다. 알려진위협이나악성코드에기반하여개발되는악성코드탐지솔루션은한계가있고그에대한대안으로샌드박스기반악성코드탐지솔루션이나 EDR(Endpoint Detection and Response Tools) 이등장하고있다. 또한데이터의유출을제어하는 DLP(Data Loss Prevention) 솔루션이머신러닝과샌드박스기술을결합하여 APT에대한대안으로도입되고있다. 샌드박스기술은의심스러운파일을먼저가상환경에서안전하게실행함으로써 PC가악성코드에감염되지않아도악성코드파일의행위를확인할수있다. 하지만샌드박스환경을우회하는악성코드도발견되고있는데, 이러한변종악성코드를탐지하기위해휴리스틱검색을이용할수있다. 머신러닝을이용한휴리스틱검색은패턴기반방식을사용해서악성코드가능성이있는파일을탐지한다. 패턴의유효성을확보하기위해패치가되지않은취약점을이용하는제로데이취약점에서어떻게동작하는지확인을하게된다. 복잡한난독화알고리즘과정교한구조를가진악성코드도샌드박스환경에서악성코드를실행하고행위정보를수집하여특성을파악한후, 머신러닝을통해군집화와분류기법을이용하면학습한악성코드분류모델에따라악성행위유형을판단할수있다. 3억개의악성 URL 정보와 1천만개의사이버위협활동관련정보를활용하는클라우드기반의 안랩스마트디펜스 는머신러닝기술을활용하여악성코드및보안위협을탐지한다. 시만텍의 AI기반엔드포인트보안솔루션 SEP 14 는알려지지않은악성코드를 60 e-finance and Financial Security
90% 이상탐지한다고한다. 러시아의보안업체카스퍼스키랩의머신러닝기반악성코드분석시스템 Astrea 는파일에대한구체적인정보가없어도자동화된분석을통해악성코드여부를판단하고카스퍼스키랩데이터베이스에등록하여학습한다. 3. 향후과제 금융보안원금융ISAC 에따르면각금융회사로부터수집되는침해데이터에대한탐지건수가 2017년 3월기준매월약 85만건에이른다. 또한이러한침입탐지데이터를유형별로분석했을때서비스거부가약 45만건, 침입공격이약 9만건, 악성코드가약 7만건이수집되고있다고한다. 하지만금융ISAC이수집하는데이터보다더많은양의빅데이터를기반으로머신러닝이이루어진다면보다효과적이고정확한금융권보안관제가가능할것으로보인다. 각금융회사가자체적으로수집하는침해데이터는이보다훨씬많을것으로예상되며, 따라서금융회사들이수집한침해데이터를공유할수있는체계가구축된다면금융보안은보다강화될것이다. 이에금융분야보안관제에인공지능기술을적용하기위해앞에서언급한침해데이터공유관련글로벌표준등을참고하여금융회사, 외부전문기관등과의침해데이터공유체계를마련하기위한고민이필요한시점이다. 또한머신러닝알고리즘과관련하여기존의연구들은전통적인머신러닝알고리즘간의비교에국한되어있다. 기존의연구가이론적인연구외에인공지능을실제보안관제데이터를활용한악성코드탐지도입에타당하게적용할수있는지와실제침해사고예측에대한성능관련연구는아직까지미흡한상황이다. 따라서딥러닝알고리즘이널리확산되고있는지금, 딥러닝의다양한알고리즘을활용하여악성코드탐지기법을개선할필요가있다. 특히금융권을대상으로하는침해위협및이상행위등은타분야의보안관제데이터와는큰차이점이존재하기때문에금융회사, 업계, 학계등과연계하여금융권에특화된머신러닝알고리즘을개발하기위한노력이지속적으로이루어져야할것이다. 61
전자금융과금융보안 ( 제 8 호, 2017-04) Ⅴ 결론 인공지능이도입된후수차례의황금기와침체기를거쳐오면서딥러닝의도입으로지금은 4차혁명이라불릴정도로모든산업에인공지능의역할이점점커지고있다. 의료와법률분야와는달리보안분야는개인정보보호의염려가없는빅데이터와오탐으로인한치명적인손실에대한완충기간으로인해인공지능의발전을검증하는가장적합한분야의하나로인식되고있다. 따라서알려진악성코드에대한악성코드탐지솔루션의한계를극복하기위해도입된인공지능기반의 EDR에대한궁극적인해결책으로스스로학습하고방어책을만드는인공지능을활용한보안전략을수립해야할때가왔다. 장기간에걸쳐지속되는악성행위에대한사용자와엔티티의행동분석 (UEBA, User and Entity Behavior Analytics) 을위한인공지능기술의도입만이알려지지않은신종또는변종악성코드의행위를사전에탐지할수있는해결방안을제시할수있을것이다. 인공지능기반의악성코드탐지연구결과와인공지능의발전상황을고려할때머신러닝알고리즘중 k-nn보다는 SVM이 14% 높은예측정확도를보여주었고단일 SVM 보다의사결정트리를혼합한방법이나인공지능신경망을활용한 FANN이악성코드탐지에서효율적이라는것은밝혀졌다. 하지만향후에는특정악성행위에대한머신러닝알고리즘간의비교보다는실제상황에서일어나는다양한외부침해데이터를수집하고이에대한딥러닝알고리즘의적용을통해보안관제인력을대체하는인공지능의역할이기대된다. 향후실제알려지지않은악성코드의어떤변종이라도대응하기위해서는인공지능을통한딥러닝알고리즘을적용하는이상행위탐지적용에대해보다폭넓은연구가필요하며, 금융회사, 업계, 학계등과연계하여금융권에특화된머신러닝알고리즘을개발하기위한노력이지속적으로이루어져야할것이다 62 e-finance and Financial Security
참고문헌 [1] 김종현, 빅데이터를활용한사이버보안기술동향, 한국전자통신연구원, 전자통신동향분석, 제28권 3호, pp. 18-29, 2013. [2] 박철민, 조정식, 국외사이버위협정보공유의체계조사, Internet & Security, 2014. [3] 이상민, SVM-KNN기반 AdaBoost결합모델을적용한새로운중간교사학습기법, 충북대학교, 석사학위논문. 2013. [4] 임수열, 서포트벡터머신과정칙화판별함수를이용한비디오문자인식의분류성능개선, 한국데이터정보과학회, 21권 4호 pp. 689-697, 2010. [5] 김태경, 악성코드탐지방법에관한연구, 보안공학연구논문지, Vol. 5, 2012. [6] 조성래, 성행남, 안병혁, SVM과인공신경망을이용한침입탐지효과비교연구, Journal of the Korea Academia-Industrial cooperation Society Vol. 17, No. 2 pp. 703-711, 2016. [7] 최성국, 머신러닝을이용한침입탐지유형예측에관한연구, 연세대학교석사학위논문, 2015 [8] 엄남경, 우성희, 이상호, SVM과의사결정트리를이용한혼합형침입탐지모델, 정보처리학회, 제14-C권제1호, 2007 [9] 박영재, 김재영, 장석우, 다중클래스 SVM 을이용한트래픽의이상패턴검출, 한국산학기술학회, Vol. 14, No. 4, pp. 1942-1950, 2013 [10] 보안위협정보공유 백짓장도맞들면낫다, 보안뉴스, 2015.3.31 [11] 자율학습과맹모삼천지교, 뉴런의활동, http://msnayana.blog.me/220856698204 63