머신러닝을활용한스마트서비스와금융 이근영 * Ⅰ. 서론 33 Ⅱ. 머신러닝개요 34 1. 머신러닝의개념 34 2. 머신러닝의다른학문분야와의연계성 35 Ⅲ. 머신러닝관련기술및특징 40 1. 머신러닝의분류 40 2. 머신러닝알고리즘과특징 41 Ⅳ. 머신러닝의활용 43 1. 머신러닝의활용분야 43 2. 금융권머신러닝의활용 45 Ⅴ. 머신러닝관련동향및이슈 51 1. 머신러닝관련동향 51 2. 머신러닝관련법적이슈 57 Ⅵ. 결론 62 < 참고문헌 > 66 * 금융보안원보안연구부보안기술팀 (e-mail : kylee@fsec.or.kr) 전자금융과금융보안 2015. 7. 31
요약 최근금융과 IT업계의중요화두가운데하나는핀테크이며, 신기술의발전등으로금융서비스의모습도나날이변화하고있다. 금융관련데이터는폭발적으로증가하고있으며이러한빅데이터시대에새로운가치를창출할수있는정보분석을위한머신러닝이각광받고있다. 머신러닝은빅데이터시대에보다직관적인이해를돕기위한시각화 (Visualization) 를지원하며, 차원 (Vector) 변경등여러방법을활용하여데이터분석을통해숨겨진데이터를찾아주기도한다. 머신러닝의가장핵심은기계를학습시켜대량의데이터에대해보다정교하게분류, 미래의예측, 진단및탐지할수있다는것이다. 머신러닝의활용분야는이미일상생활에서의사결정의지원, 자동검색과번역등삶의질향상에응용되고있다. 현재금융권데이터분석에있어머신러닝의활용은아직활발하지못한실정이다. 머신러닝을통한데이터분석및활용분야는대표적으로영업및마케팅분야이며, 이외에국내외일반 / 금융 / 보안분야에서활용및연구가계속되고있으며향후에는금융권에서도활발히확대될것으로예상된다. 금융관련데이터의수집, 분석및활용은금융기관내외부의업무효율화이외에새로운서비스를제공할수있는기반이될것이다. 나아가최근치열해진금융시장에서경쟁우위를선점하기위한기술력으로작용할것이다. 또한작년부터편리하고안전한지급결제서비스로부터시작된핀테크열풍으로이용자행태분석을통한다양한서비스개발등을통해머신러닝기술은빠르게진화하고이를활용하여스마트서비스들이더욱발전할것으로예상된다. 빅데이터시대에금융의스마트서비스를가능하게해주고금융리스크관리능력제고, 보안기술에활용등해당기술의효과를높이기위해서는금융권에서도머신러닝을통한기술및시스템개발등많은투자와관심이필요하다. 머신러닝은금융회사를비롯하여기업의시장지위에변화를줄잠재력을갖출무기로동작할것이라고감히예측할수있을것이다. 32
머신러닝을활용한스마트서비스와금융 Ⅰ. 서론 1959년 머신러닝 (Machine Learning, ML) 이라는용어가처음문헌에등장 1) 한것을시작으로 1980년대머신러닝이이론적틀을형성하고새로운학문및기술분야로정립하는시기를거쳐, 1990년대이후데이터마이닝산업의등장으로학문적경계가허물어지고새로운산업기술로써재조명받고있다. 최근 IT업계의화두로떠오른머신러닝은인터넷검색엔진, 스팸메일필터링, 음악, 책, 영화등의콘텐츠추천시스템과같은영역에서이미널리활용되고있으며, 빅데이터 클라우드컴퓨팅시대에맞춰가치창출을위한연구가진행중이다. 금융권에서도머신러닝의활용으로는신용평가모델개발, 신용카드사에서도사기를방지하기위해머신러닝을도입하는등데이터의숨겨진의미를파악하고미래를예측해야하는곳에머신러닝이활용되고있다. 특히금융권에서빅데이터산업과법의준수의조화로운방향이모색되다가최근금융위의 금융권빅데이터활성화방안 에서신용정보범위명확화, 비식별정보활용가능여부명확화를통해법령상제약요건이어느정도해소되고있다. 하지만금융권에서개인및신용정보는법률상해석으로모두해결될수는없으며끊임없는모니터링과조화로운해결방안은계속해서모색되어야한다. 따라서본연구보고서에서는 머신러닝을활용한스마트서비스와금융 에대해다음과같은순서로살펴보고자한다. 우선머신러닝의개념을이해하기위해서통계학, 데이터마이닝, 인공지능등다른분야와의연계성을파악하고, 구체적으로머신러닝의알고리즘과각특징들을살펴봄으로써머신러닝의이론적인이해도를돕도록한다. 이러한기술적인이해를바탕으로일반적인머신러닝의활용분야와금융 / 보안분야까지활용사례들을알아보고최근빅데이터시대에머신러닝관련산업및기술동향을살펴보고법적이슈들을도출한다. 마지막으로앞서제기한이슈들을고려하여머신러닝을통한금융권스마트서비스에서금융회사가해결해야할과제들을제시하기로한다. 1) Arthur Samuel 의논문 ( Some Studies in Machine Learning Using the Game of Checkers, IBM Journal of Research and Development, vol. 3(3), pp. 210-219, July 1959) 에서어떤상황의정량적평가를구하는평가함수와이에관련파라미터조정에기초한최초의기계학습을연구 전자금융과금융보안 2015. 7. 33
Ⅱ. 머신러닝개요 1. 머신러닝의개념 머신러닝 ( 기계학습이라고도한다.) 은컴퓨터가학습할수있도록하는알고리즘과기술을개발하는분야로써, 환경과의상호작용에기반한경험적인데이터로부터스스로성능을향상시키는시스템을연구하는과학과기술 2) 로정의될수있을것이다. 머신러닝은미리결정된특정모델을데이터와비교하여테스트하는것이아니라, 데이터에서학습하도록설계되었다. 경험으로부터학습할수있는능력은사람을포함한지능적인시스템의가장근본적인특성중하나이며, 초기의머신러닝은인공지능 (Artificial Intelligence) 3) 의 학습 에관한부분을구체화한기술로기계도인간처럼학습시키고자하는지적탐구에서시작되었다. 가장대표적인예로, 머신러닝을통해서수신한이메일이스팸인지아닌지를구분 4) 할수있도록훈련할수있다. 최근의머신러닝개념은빅데이터 (Big Data), 클라우드컴퓨팅 (cloud computing) 등의환경을포함하여이해하여야한다. 나아가머신러닝은다양한확률, 조합이론과수학적최적화기법, 통계, 알고리즘, 컴퓨터구조를활용하여이상적인학습및예측모델을구축하는기술로연구자의경험적지식습득과그응용방법까지포함하는융합기술로발전하고있다. 즉, 시대의흐름에따라머신러닝의개념이재해석되고있다. 2) 이정의에서주목해야할것은학습시스템이 환경, 데이터, 성능 의요소를가지고있다는것이다. 환경 은학습시스템이독립적으로존재하지않고상호작용하는대상이있다는것이며상호작용의방법에따라서경험하는 데이터 의형태가다르다. 학습시스템은또한문제해결을수행하며이수행의 성능 이시간이감에따라향상된다. 장병탁, 차세대기계학습기술, 정보과학회지제 25 권제 3 호, 96 쪽, 2007.3. 3) 인공지능 ( 人工知能 ) 은철학적으로인간성이나지성을갖춘존재, 혹은시스템에의해만들어진지능을뜻한다. 일반적으로범용컴퓨터에적용한다고가정하며, 이용어는또한그와같은지능을만들수있는방법론이나실현가능성등을연구하는과학분야를지칭하기도한다.( 출처 : 위키백과 ) 4) 스팸필터링의기본알고리즘은베이즈의정리 (Bayes Theorem) 에기초하며, 조건부확률을이용하여사전확률과사후확률의관계를추정하고새로운정보에대하여사후확률의변동을예측하는방법을사용한다. 베이즈정리는수학적으로식으로다음과같이표현될수있다. A 와 B 가사건 (event) 일경우, 이다. P(A) 와 P(B) 는다른것에관해서관계없는사전확률이다. 는조건부확률로 B 가주어진경우 A 의확률은참 (True) 이다. 는 A 가주어졌을때 B 의조건부확률이다. 34
머신러닝을활용한스마트서비스와금융 2. 머신러닝의다른학문분야와의연계성 오늘날의머신러닝은그역사와더불어빅데이터 (Big Data) 5), 클라우드 (Cloud) 6), 사물인터넷 (IoT) 7) 기술등의환경과복합적으로상호작용 8) 하여여러학문분야와의연계성을가지게되었고, 통계학 (Statistics), 데이터마이닝 (Data Mining), 데이터과학 (Data Science) 등다양한영역에걸쳐있다 ([ 그림 1] 참조 ). 그러나머신러닝은인공지능, 패턴인식등으로일반화될수없고기술간의연계성및차이는구별될수있어야한다. [ 그림 1] 머신러닝의여러학문분야와의연계성 패턴인식통계학 (Pattern Recognition) (Statistics) 전산신경과학 (Computational Neuroscience) 데이터과학 (Data Science) 데이터베이스 (Databases) 데이터마이닝 (Data Mining) 지식발견 (Knowledge Discovery) 머신러닝 (Machine Learning) 인공지능 (Artificial Intelligence) 자료 : SAS Institute Inc., An Overview of Machine Learning with SAS R Enterprise Miner 5) 데이터를수집, 저장, 처리, 분석하는것뿐만아니라이로부터새로운가치를창출하는전과정을포괄한다. 데이터의특성에기반하여 V 속성 ( 양 -Volume, 속도 -Velocity, 다양성 -Variety, 가치 -Value 등 ) 의개념을가진다. 6) 클라우드컴퓨팅 ( 클라우드 ) 은애플리케이션부터데이터까지모든컴퓨팅자원을인터넷환경에서원하는만큼사용하는인터넷기반 (cloud) 의컴퓨팅 (computing) 기술을의미한다. 7) 사물인터넷 (Internet of Things, IoT) 은각종사물 ( 가전제품, 모바일장비, 웨어러블컴퓨터등다양한임베디드시스템 ) 에센서와통신기능을내장하여인터넷에연결하는기술을의미한다. 8) 런던지하철역사와지하철철로에있는센서에서데이터를취합해클라우드로보내고머신러닝을돌려서부품교체수명이나열차안온도등을예측하는데활용하고있다고한다. 예측정보는즉각역무원및직원들에게모바일로전송되어이들이적절한조치를취하게된다. 런던지하철사례와마찬가지로 사물인터넷 (IoT), 빅데이터, 클라우드, 머신러닝, 모바일이모두결합된서비스가나올것 이라고전망했다. ZDNet Korea, 머신러닝이몰고올 IT 진화시나리오, 2014.12.14 전자금융과금융보안 2015. 7. 35
가. 머신러닝과통계학 일반적으로머신러닝과통계학과의연계성은거의없어보일수있고, 대부분의사람들에게통계학은자신회사의제품이얼마나좋은지를알아보기위해사용되는소수만이알고있는주제 9) 에불과한것으로만취급될수있다. 머신러닝은데이터를정보로변환해야하며인간의참여를최소화하는방법론의개발이필요하다. 하지만다차원의거대한자료의출현은새로운유형의자료에적합한알고리즘의개발을어렵게하였고문제를해결하기위해과학적방법을적용하여야했다. 이러한맥락에서통계학적사고는머신러닝분야에서여러가지알고리즘들의원리에대한새로운인식방법으로써중요한사고의도구로사용되고있다. 머신러닝분야중에서통계학이가장활발하게적용되고있는분야는교사학습분야 10) 이며, 교사학습방법론중 SVM(Support Vector Machine) 11) 과부스팅 (Boosting) 12) 알고리즘의개발은많은실증적연구를통하여예측력측면에서기존의머신러닝방법론을질적으로향상시켰음이밝혀졌다. 실증적연구이후에이두개의알고리즘이왜예측력을급격하게향상시켰는가에대한연구가시작되었으며, 이연구에통계학자들이많은기여를하고있다. 13) 나. 머신러닝과데이터마이닝그리고지식발견 데이터마이닝 (Data Mining) 이란대규모로저장된데이터안에서체계적이고 자동적으로의미있는데이터 ( 정보, 지식, 규칙, 패턴, 특성등 ) 를추출, 분석하는 과정이며 ([ 그림 2]), 머신러닝은이러한데이터를자동으로추출및분석하는기술로 활용된다. 데이터마이닝은데이터베이스안의지식발견 (Knowledge-Discovery in Databases, KDD) 이라고도일컬어지며, 지식발견및데이터마이닝국제학술대회 (1955 년 ) 등에서 다양하게그개념이제시되고있다. 9) 더럴허프 (Darrell Huff) 의 통계로거짓말하는방법 (How to lie with statistics) 은 1954 년저서이며, 통계로사기치는방법을알려주는통계학분야의역대베스트셀러중하나이다. 저자는해당저서에서통계전문가들이즐겨사용하는모든형태의통계를제시하여, 표본연구, 도표화, 인터뷰기법, 숫자로부터결론을추출하는방법등을분석했다. 10) 자세한내용은 Ⅲ. 머신러닝관련기술및특징에서후술한다. 11) SVM 의특징은주어진자료들의마진 (margin, 주어진자료가분류경계에서떨어진거리 ) 의최소값을최대로하는분류경계 (decision boundary) 를최적분류모형을정의하는방법이다. 12) 기본아이디어는여러개의나쁘지않은분류모형을결합하여아주좋은분류모형을만드는것이며, Adaboost 알고리즘은여러개의분류모형을만들기위하여연속적으로자료의가중치를조절한다. 13) 김용대, 기계학습과통계학, 정보과학회지제 25 권제 3 호, 90 쪽, 2007.3. 36
머신러닝을활용한스마트서비스와금융 [ 그림 2] 데이터마이닝과정 자료선택자료변환정보추출해석및취합 / 시각화 데이터베이스 데이터 선택된데이터추출된데이터융합된데이터변환된데이터 자료 : 김진형, 한국과학기술정보연구원 (KORDIC), 정보추출기술 (Data Mining Techniques) 데이터마이닝의기법은 1발견할지식의종류에따라서분류 (Classification), 요약 (Summarization), 군집화 (Clustering) 등 2탐사할데이터베이스의종류에따라관계형 (Relational) DB, 객체지향 (Object-Oriented) DB 등 3탐사기법에따라서기호처리식인공지능적방법론, 신경망적방법등이있다. 다. 머신러닝과패턴인식 패턴인식 (Pattern Recognition) 이란주어진데이터의집합에대해입력값을바탕으로특정기준에따라여러개의그룹으로분류 ( 인식 ) 하는것을말한다. 예를들어숫자인식, 얼굴인식등의문제를해결하기위해각데이터의구조적특성에따라서패턴을분류해야하는데얼굴인식의경우각사람들의얼굴특징을일일이분석하여정의하고특징자체를정의하는것은매우힘든일이다. 이러한데이터의구조적특징에의해패턴의정의및인식방법과템플릿매칭방법이가장기본적인패턴인식기법이라고할수있다. 하지만실세계에서는패턴의다양한변형이존재하고패턴인식문제의핵심은이러한변형을효과적으로표현하고구분하는보다정교한방법을설계하는데있다고볼수있다. 이러한패턴의변형에따른문제를해결하기위해머신러닝분야의다양한방법론들이적용될수있다. 머신러닝기법을사용하는패턴인식에는크게두가지인학습단계와인식단계가존재하며, 패턴인식의전체적인처리과정은 [ 그림 3] 과같다. 전자금융과금융보안 2015. 7. 37
[ 그림 3] 패턴인식처리과정 학습단계 (Learning Stage) 학습데이터집합 + + + + + + + + + + 테스트데이터 + + + + + + 전처리 Pre-Processing 1 주어진데이터를정제하여인식기가다루기쉬운형태로최적화또는정규화 (normalization) 등을통해서변환하는과정 특징추출 Feature Extraction 2 전 ( 前 ) 처리를통하여정제된데이터의특성을분석하여각패턴을표현하는가장핵심적인정보들을특징으로찾음 학습 ( 데이터분석 ) Learning Classifier / Data Analysis 결정경계 Decision Boundary 분류 / 인식 Classification / Recognition 5 학습이완료되고나면새롭게주어지는데이터 ( 테스트데이터 ) 가어떤패턴에해당하는지분류 인식단계 (Recognition Stage) 3 특징추출과정을거친학습데이터집합의특성을분석하여각패턴들을구분할수있는기준을마련및관련정보저장 4 특징추출과정을거쳐저차원의특징으로표현된데이터집합들을구분할수있는직선 / 곡선 ( 결정경계와데이터분류의예 ) x18 7 6 5 4 3 2 1 + + + 데이터그룹A + + + + + + + ++ + 인식결과 + + + + + 결정경계 데이터그룹 B 0 0 1 2 3 4 5 6 7 8 x2 자료 : 박혜영, 이관용, 패턴인식과기계학습 재구성 먼저학습단계에서는주어지는데이터집합 ( 학습데이터 ) 을이용하여패턴의특성을분석하고서로다른패턴들을구분하기위한핵심정보를추출한다. 학습이완료되고나면인식단계에서는새롭게주어지는데이터 14) 가어떤패턴에해당하는지분류하고인식하는단계가수행된다. 인식단계에서는먼저전처리와특징추출과정이학습단계와동일하게수행되고추출된특징에대하여학습된분류기를이용한인식 ( 분류 ) 과정을통해최종인식결과를얻게된다. 라. 머신러닝과딥러닝그리고인공지능 우리는어떤지식을다양한경험과데이터를통한학습과정으로축적하는경우가많으며, 이런문제를접근하는것이 머신러닝 이다. 이러한학습을위한또다른접근방식으로 인공신경망 (Artificial Neural Networks, 14) 주로테스트데이터 (Test Data) 라고불린다. 38
머신러닝을활용한스마트서비스와금융 ANN) 15) 이라는학습방식이연구, 발전되어오고있다. 인공신경망의발상은인간의신경망구조를모방하면서입력으로들어오는정보를각각의입력노드에배정하고, 이들을주어진함수를표현하는네트워크로출력노드를통해결과를얻어낸다는아이디어에서출발했다. 이러한신경망을학습의주요방식으로사용하는것을 딥러닝 (Deep Learning) 이라고부른다. 딥러닝은 1입력층 (Input layer) 2출력층 (Output layer) 3은닉층 (Hidden layer) 을갖고있는계층구조 (Layer Structure) 로구성되며, 심층신경망 (DNN, Deep Neural Network) 을지칭하는머신러닝의모델또는알고리즘의집합이다. 큰틀에서는사람의사고방식을컴퓨터에게가르치는인공지능의한분야라고할수있으며, 음성인식, 이미지분류등패턴인식분야에서높은성능을보인다. [ 그림 4] 층상구조로연결된신경망의예 입력층 (Input Iayer) 은닉층 (Hidden Iayer) 출력층 (Output Iayer) 15) 인공신경망은 X1 부터 Xn 까지입력값에각각 W1 부터 Wn 까지의가중치를곱하고그모든합이변형함수를통해임계치가초과되면출력값이발생하게된다. 입력값 x 1 x 2 x n 가중치 w 1 w 2 w n 중간값 n x i w i i = 1 변형함수 출력값 전자금융과금융보안 2015. 7. 39
Ⅲ. 머신러닝관련기술및특징 1. 머신러닝의분류 머신러닝의다양한기법과알고리즘들에대해명확하게구분하는것은상당히어려우며, 입력데이터와적용환경, 학습방법, 요구되는결과로세분화되어구분될수있다. 16) 일반적으로머신러닝알고리즘은학습의방법에따라 1교사학습 (Supervised Learning) 2비교사학습 (Unsupervised Learning) 3반교사학습 (Semi-Supervised Learning) 으로구분된다. 17) 1교사학습 (Supervised Learning) 은학습시에인식기에서출력해야할결과값을미리알려주는 교사 (supervised) 가존재하는형태이며, 학습시인식기의원하는출력값에대한정보없이학습이이루어지는형태를 2비교사학습 (Unsupervised Learning) 이라고한다. 3반교사학습 (Semi-Supervised Learning) 은목표값이표시된데이터와표시되지않은데이터를모두훈련에사용하는것으로교사학습과비교사학습사이에위치한다. 18) [ 표 1] 교사학습, 비교사학습, 반교사학습의차이 구분 내용 학습 Training 학습데이터 Training Data 특징추출 Feature Extraction 머신러닝알고리즘 Machin Learning Algorithm 교사학습 목표결과값 Lavels 예측 Predict 새로운데이터 Test Data 특징추출 Feature Extraction 예측모델 Predictive Model 예측 Expected Lavels 비교사학습 학습 Training 분석 Analysis 학습데이터 Training Data 새로운데이터 Test Data 특징추출 Feature Extraction 특징추출 Feature Extraction 머신러닝알고리즘 Machin Learning Algorithm 예측모델 Predictive Model 가능성, 나은표현 Likelihood or Better Representation 반교사학습 18) 목표결과값 Lavels 비교사학습 Unsupervised Learning 학습데이터 Training Data 교사학습 Supervised Learning 데이터 Data 교사학습 (Supervised Learning) 비교사학습을교사학습에추가 자가학습 (Self-Training) 반교사학습 Semi-Supervised Learning 40 16) 이재구외 2 명, Big Data 분석을위한 Machine Learning, 한국통신학회지, 제 31 권제 11 호, 15 쪽, 2014.10 17) O. Chapelle et al., Semi-supervised learning, vol. 2,MIT press Cambridge, 2006. 18) Stefan Uhlmann, Semi-Supervised Learning for Ill-Posed Polarimetric SAR Classification, remote sensing, 2014.6
머신러닝을활용한스마트서비스와금융 2. 머신러닝알고리즘과특징 머신러닝알고리즘별특징에대한이해는주어진데이터분석에최적화된알고리즘적용및데이터를활용한비즈니스문제에대한적절한답을찾는데도움을준다. 국제데이터마이닝컨퍼런스 (IEEE International Conference on Data Mining, ICDM) 19) 에서는가장영향력있는알고리즘을식별하기위한노력의일환으로 데이터마이닝을위한알고리즘 TOP 10 20) 이발표되기도하였다. 학습의방법에따른주요머신러닝알고리즘별특징은 [ 표 2] 와같다. [ 표 2] 머신러닝알고리즘분류와특징 구분 특징 내용 주로인식, 분류, 진단, 예측, 회귀분석등의문제해결에적합 학습모델은정답으로알려진라벨에의한수정과정을통해일정수준의정확도를얻을때까지진행 비교사학습방법에비해성능은좋으나원하는결과를데이터에포함하기위한시간과구축비용이증가 교사학습 예시 회귀분석 (Regression Analysis) 의사결정나무 (Decision Tree) 인공신경망 (Artificial Neural Networks) 주어진데이터와선택된학습모델에의해얻어진예측값간의오차를최소화하기위한반복적인과정을수행하면서데이터들간의관계를모델링 주요알고리즘 : Ordinary Least Squares, Logistic Regression, Ridge Regression 등 데이터의속성 (Feature) 에따라나무형태의의사결정학습모델을만들고, 반복을통해주어진문제에대한최종결정을도출 주요알고리즘 : Gradient Boosting, Random Forest 등 생물의신경망구조와기능을모방한알고리즘 입력층 (Input Layer), 중간연결층 (Hidden Layer), 결과출력층 (Output Layer) 의구조로각 Layer 의노드들을상호연결하는가중치를갱신함으로써결과를출력 주요알고리즘 : Perceptron, Restricted Boltzman Machine(RBM) 등 베이지안방법 (Bayesian Methods) 군집과예측문제를풀기위해특성들사이의독립을가정하는베이즈정리를확장, 적용한알고리즘 주요알고리즘 : Naive Bayes, Bayesian Belief Network (BBN) 등 서포트벡터머신 (support vector machine, SVM) 최적의결정경계를찾기위해마진 * 을이용하여학습의목적함수를정의 * 학습데이터들중에서결정경계에가장가까운데이터로부터결정경계까지의거리 19) http://www.cs.uvm.edu/~icdm/ 20) ICDM 컨퍼런스에서 2006 년 12 월에발표되었으며, TOP 10 알고리즘에는 1 C4.5 2 2. k-means 3 Support Vector Machines(SVM) 4 Apriori 5 Expectation Maximization(EM) 6 PageRank 7 AdaBoost 8 k-nearest Neighbors(kNN) 9 Naive Bayes 10 Classification and Regression Tree(CART) 가있다. 이후, 2008 년 1 월 Knowledge and Information Systems 저널 (vol 14, issue1, pp 1-37) 에 Top 10 Algorithms in Data Mining(Xindong Wu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu, Philip S. Yu, Zhi-Hua Zhou, Michael Steinbach, David J. Hand, Dan Steinberg) 라는제목으로수록되었다. 전자금융과금융보안 2015. 7. 41
특징 군집화 ( 비슷한관측치끼리군집하는작업 ), 밀도추정, 차원축소 ( 데이터간의연관규칙을찾음 ), 특징추출등이필요한문제에적합 교사학습에비해성능은좋지않으나, 원하는결과가표현되지않은학습데이터를이용하기때문에학습데이터구축이용이 비교사학습 예시 군집화 (Clustering) 주어진데이터간의유사성을최대로하는군집생성을통해데이터를분류하는방법 주요알고리즘 : Connectivity-based Clustering( 데이터객체간의거리근접특성을활용 ), K-means Clustering( 중점벡터이용 ), Centroidbased Clustering, Distribution based Clustering(Gaussian 통계분포모델이용 ), Density-based Clustering( 데이터밀도간차이활용 ) 등 차원축소 (Dimensionality Reduction) 군집화와유사하게데이터의고유구조를찾지만, 차원축소의목적은원정보보다낮은차원의데이터로요약하거나표현 주요알고리즘 : 주성분분석 (Principal Component Analysis, PCA) 등 특징 라벨 ( 목표결과값 ) 이없는대용량데이터에적은수의라벨이있는데이터가포함된입력데이터로부터예측을요구하는빅데이터분석에주로적용 예측을목적으로한교사학습특성과학습모델이라벨없는데이터간의관계구조도를알아야하는비교사학습의특징을함께가짐 반교사학습 예시 예측과분류 (Prediction and Regression) 군집화 (Clustering) 기대값최대화 (expectationmaximization, EM) 반교사학습, 교사학습 ( 예측과분류 ) 알고리즘은종종군집화 ( 클러스터링 ) 와함께결합됨 본표상기의교사학습의알고리즘들과비교사학습의군집화 ( 클러스터링 ) 내용참조 관측되지않는잠재변수에의존하는확률모델에서최대가능 (maximum likelihood) 나최대사후확률 (maximum a posteriori, MAP) 을갖는매개변수를찾는반복적인알고리즘 기대값 (E) 단계와기대값을최대화하는변수값을구하는최대화 (M) 단계를번갈아가면서적용하며, 최대화단계에서계산한변수값은다음기대값단계의추정값으로사용 42
머신러닝을활용한스마트서비스와금융 Ⅳ. 머신러닝의활용 1. 머신러닝의활용분야 머신러닝의이제일상생활에까지깊숙이파고들었다. 최근에어비앤비 21) 는에어로솔브 22) 를활용해 프라이스팁스 라는기능을개발하였는데, 이는여행트랜드와날짜를분석하여집주인에게알맞은예약가격을추천한다. 또한집주인은프라이스팁스로특정가격전후로여행객이얼마나모일지예측할수있다. [ 그림 5] 머신러닝을활용한숙박예약시스템 자료 : 에어비엔비 현재머신러닝은문자 / 문서인식에서부터인터넷정보검색, 음성인식 / 언어처리, 생체인식, 컴퓨터그래픽, 금융데이터분석, 의료정보, 로보틱스등거의모든분야에서 활용되는기술로각광받고있다. 머신러닝은다양한응용분야에서실용적가치가크다. 많은데이터로부터규칙성을 발견하는문제 (Data Mining), 문제의성격규명이어려워효과적인알고리즘을개발할 지식이없는문제영역 (Human Face Recognition), 변화하는환경에동적으로적응하여야 하는문제영역 (Manufacturing Process Control) 등다양한분야로더욱확대될것으로 전망된다. 21) 남는공간이있는사람과머무를곳을찾는사람을연결해주는커뮤니티마켓플레이스이다. 22) 데이터를분석해주는소프트웨어로스칼라, 자바등이활용됐으며, 데이터간의우선순위를정해준다. 예를들어수많은데이터를분석해서비스가격과수요에대한상관관계를분석한다. 전자금융과금융보안 2015. 7. 43
머신러닝과관련된다양한활용분야의대표적인예는 [ 표 3] 과같다. [ 표 3] 머신러닝의활용분야및예 활용분야 인터넷정보검색 문자 / 문서인식 컴퓨터시각 음성인식 / 언어처리 모바일 HCI * 생물정보학 바이오메트릭스 ( 생체인식 ) 뇌신호처리 의료정보 금융데이터분석 컴퓨터그래픽 로보틱스 서비스업 제조업 내용및적용사례 텍스트마이닝, 웹로그분석, 스팸필터, 문서분류, 여과, 추출, 요약, 추천등에활용 활용예 : 다음 (Daum) 의 바로이거, 구글의 대화형검색, 지식그래프 (Knowledge Graph), 이용자의다음질문예측결과를보여주는검색등 숫자인식과문자인식은초기패턴인식의연구대상 활용예 : 상용검퓨터의운영체제나전자사전등에서문자인식기능, 은행 ATM 의자동지로납부기능등 문자 / 패턴 / 물체 / 얼굴인식, 장면전환검출, 화상복구등에활용 활용예 : 페이스북의 팬더 프로젝트 ( 사진에서인물의성별, 헤어 옷스타일, 얼굴표정을식별하는연구로사진태그, 타게팅된광고를제공 ) 등 음성인식, 단어모호성제거, 번역단어선택, 문법학습, 대화패턴분석등에활용 활용예 : 네이버음성인식및음성통역기, 개인비서서비스인구글나우에내장된음성인식의정확도향상기능등 모바일기기의각종센서를통한정보인식, 상황판단및입력해석을위한지능형처리기술, 동작인식, 제스쳐인식등에활용 * 모바일환경에서인간과컴퓨터간자연스러운상호작용 (Human-Computer Interaction, HCI) 은지능적, 능동적으로사용자의의도와입력을파악하여정보를처리 활용예 : 애플의 시리 ( 음성인식과자연어처리기술, 음성합성기술이융합 ), 구글의 구글나우 ( 개인비서서비스 ) 등 유전자인식, 단백질분류, DNA 칩분석, 질병진단, 염기서열분석등에활용 생물정보학의초기단계에서는주로통계적데이터분석법이많이활용되었으나, 점점머신러닝을활용한연구가주목받음 홍채인식, 심장박동수측정, 혈압측정, 당뇨치측정, 지문인식등에활용 최근활발히상용화가이루어지고있는패턴인식응용분야중의하나임 활용예 : 생체정보 ( 지문, 얼굴, 홍채, 망막, 손금등 ) 에머신러닝을적용한신원확인등 인간의뇌신호를분석하여그의미를알아내고, 뇌와컴퓨터의인터페이스수단으로사용하고자하는연구 (Brain Computer Interface, BCI) 등에활용 뇌과학연구가활발해짐에따라관심을모으고있는주제중의하나임 의료현장에서얻어지는임상데이터나최근개발된다양한의료영상기기 (MRI, CT, 초음파등 ) 로부터얻어지는데이터들을분석하여질병진단등에필요한의미있는정보추출등에활용 홈쇼핑데이터, 주식데이터, 보험회사의고객정보등다양한금융데이터를분석하여의미있는정보추출에활용 데이터기반애니메이션, 캐릭터동작제어, 행동진화, 가상현실등에활용 장애물인식, 물체분류, 지도작성, 무인자동차운전, 경로계획, 모터제어, 객체인식, 초음파 / 적외선신호분석등에활용 고객분석, 시장클러스터분석, 고객관리 (CRM), 마케팅, 상품추천등에활용 활용예 : 유튜브에서영상을추천하는알고리즘등 이상탐지, 에너지소모예측, 공정분석계획, 오류예측및분류등 자료 : 박혜영, 이관용, 패턴인식과기계학습, 이한출판사, 2011 과장병탁, 차세대기계학습기술, 정보과학회지제 25 권제 3 호, 2007.3. 재구성 44
머신러닝을활용한스마트서비스와금융 2. 금융권머신러닝의활용 선도금융기관들은마케팅, 투자관리및트레이딩, 리스크관리, 고객서비스등경영활동의다양한분야에빅데이터를활용하고있으며, 나아가사내에축적된대량의데이터분석결과를외부에제공하여신규수익창출기회로도활용 23) 하고있다. 실제금융권에서머신러닝을활용하여데이터를분석할수있는분야는광범위하다. 하지만금융데이터특성, 데이터의구조화수준및처리기술, 비즈니스활용목적에맞는분석기법, 전문인력등자원및역량확보등의문제등으로모든데이터분석에있어서머신러닝을활용할수는없다. 본고에서는최근금융권과핀테크기업등에서기존의단순통계기반의데이터분석이아닌실제머신러닝알고리즘적용및예측모델링등을통하여고객이탈경향분석, 투자관리및트레이딩, 사기및부정방지, 신용평가및심사등머신러닝이활용되고있는분야에대하여설명하고자한다. 가. 영업및마케팅 제품추천 (Product Recommendation) 이나최적대안제시 (Next Best Action) 등 최신마케팅기법에서는데이터분석을통해구매가능성이가장높은제품을예측한다. 추천시스템은협업필터링알고리즘 24) 을이용하여현재대표적인전자상거래업체인 아마존의상품추천은판매의 35% 가추천으로발생 25) 하는등대형서비스와함께 지속적으로영역이확대되어가며점점중요성이높아지고있다. 또한미국퍼스트테네시 (First Tennessee) 은행은데이터의통계분석 (2 년간의마케팅 ROI 와고객대응데이터를분석 ) 및모델링을통해마케팅에활용하여메일발송비용은 20% 감소시키면서고객대응률은 3.1% 를증가시켰다. 결과적으로예측분석투자비용 대비 600% 의수익을창출하였다. 26) 이렇듯금융회사들은이미통계기반분석모델을이용하여고객정보를분석하고있지만, 기존통계적기법의한계를보완하고정확히예측하기위해서는머신러닝을활용하여고객 23) KB 금융지주경영연구소, 금융업의빅데이터활용, 2013.7. 24) 추천의근간이되는유사점을분류하는방식이며, 사전에누적된데이터를분류하고새로운데이터를대입하여분류하는방법이다. Greg Linden, Brent Smith, Jeremy York, Amazon.com Recommendations Item-to-Item Collaborative Filtering, IEEE Computer Society, 2003.1. 25) McKinesy&Company, The Secret of Amazon : Lessons for Multichannel Retailers, 2012.10. 26) IBM, 지식기반의은행업무구현, 2010.5. 전자금융과금융보안 2015. 7. 45
이탈경향분석및예측이가능하다. 고객이탈경향은제품추천이나최적대안제시등의마케팅기법의사례와매우유사하지만, 고객의이탈경향을추정한다는점이다르다. 금융회사는이탈가능성이큰고객을예측하고안내서비스, 타겟마켓팅또는특별관리적용등을통해해당고객의요구사항을해결해야한다. 즉, 비즈니스측면에서특별고객에대한유지와관리의노력을최소화하기위해고객이탈경향을예측하는것은금융회사의핵심비즈니스영역이다. 보험사의경우예측모델을수립하면이탈가능고객 27), 갱신고객의보험갱신율도예측하여활용할수있다. 갱신대상고객이보험을갱신하지않을것으로예측될경우타깃마케팅을통해고객을유지하여궁극적으로이탈을방지하는것이목적이다. 머신러닝을활용하여이탈가능고객예측모델수립프로세스는일반적으로 1금융회사고객관련데이터를구성및분류하고 2고객특성등변수 (Feature) 및머신러닝알고리즘을선택하여 3이탈모델을만들고 4모델검정을통해최적화된모델을선택하는과정을거친다.([ 그림 6]) [ 그림 6] 머신러닝을활용한이탈가능고객예측모델의예 금융회사고객관련데이터구성및분류 변수 (Feature) 및알고리즘선택 이탈모델 모델검정 고객관련데이터베이스마트구성 데이터품질확인및유효데이터확인 변수머신러닝알고리즘 Training 모델링 Data 고객특성신경망모형 (Modeling) 기납 / 유지 대출 / 미납 / 연체 기타 ( 신용등금, 예금정보등 ) 서포트펙터머신 의사결정나무모형 로지스틱회기모형 데이터마이닝을위한변수와알고리즘선택하여모델링 모델링 Test Data 모델선택 트레이닝데이터와테스트데이터를이용하여최적모델선택 자료 : 데이터솔루션, 금융기업경쟁력강화를위한예측분석활용방안 ( 제 2 회빅데이터리더스포럼 ) 재구성 나. 투자관리및트레이딩 증권권역머신러닝은주로트레이딩 (Trading) 28) 향상을도모하는데활용된다. 시스템에서예측정확도와수익률 27) 예를들어보험회사의경우고객과의거래가정상적으로유지되지않고중단된상태로즉, 보험상품에가입후해약또는장기간보험금납입을연체하는경우를의미한다. 28) 트레이딩은파생금융상품거래에서사용되는용어로외환, 채권, 주식등의가격변동을예측하여이로부터매매차익을획득하려는목적의거래이다. 46
머신러닝을활용한스마트서비스와금융 트레이딩시스템 29) 에서매매체결의이익을얻기위해서각종트레이딩기법 30) 들이있으며, 트레이딩이전산을통하여이루어지는만큼트레이딩기법은최신정보기술의영향을받으며트레이딩기법에머신러닝이활용되기도한다. 실제 SVM, 신경망등의머신러닝알고리즘을통해기존주가등락율의매수, 유지, 매도를분석한예측결과 ( 종목추천등 ) 를모바일주가예측애플리케이션으로제공 31) 하는서비스도이용되고있다. 또한주가예측모형개발에있어빅데이터가활용 32) 되기도하였으며, 주가데이터에머신러닝을활용한주가등락예측연구들도지속적으로수행되고있다. 다. 사기및부정방지 금융권에서머신러닝은사기및부정방지기능을고도화하여사후뿐아니라사전대응을 위해활용된다. 특히이상거래탐지시스템 (Fraud Detection System, 이하 FDS 라고 한다.) 33) 에서머신러닝은일반적으로현재진행중인거래의위험도와특정거래의발생 가능성을예측하는데사용된다. FDS 에서 분석및탐지기능 은수집시스템에서전달받은수집정보를활용하여이상 탐지여부를판단하는기능으로탐지방법은탐지모델별로상이하며, 데이터베이스에 탐지패턴을저장하여관리한다. 탐지모델은서비스유형에따라단일또는복합적으로 29) 보통은구매자, 판매자의전문투자자가사용하는거래시스템을통칭하지만국내에서는증권사 ( 판매자 ) 법인영업및상품운용부서가현물과파생상품을거래하기위한시스템으로한정하는경우가많다. 주식거래시스템대부분의트레이딩시스템은의사결정을내리기위해필요한시세데이터 (data source), 의사결정알고리즘, 거래소와의접속으로구성된다. 코스콤, IT 용어사전 30) 전통적인기법들은금융공학과관련되며통계를비롯한수학에그뿌리를두고있다. 그이후특정조건하에서의주문실행을규칙화하여매매를자동화하는지표추종형전략으로개선되었다. 트레이딩기법에는 1 전통적트레이딩기법 ( 기업의재무적평가기준을이용한트레이딩, 기술적분석을이용한트레이딩, 두상품간의가격차이를이용한트레이딩 ), 2 알고리즘트레이딩 (TWAP, VWAP, POV, Iceberg 등주문실행알고리즘을이용한트레이딩 ), 3 고빈도매매 ( 시장조성전략, Stuffing, Smoking, Spoofing 등 ), 4 인텔리전스트레이딩 ( 다양한사람들의아이디어를수집하고가공하여트레이딩전략을수립한다음신속하게트레이딩어플리케이션에반영, 머신러닝 / 인공신경망등빅데이터기술도활용되는경우가있음 ) 등이있다. 코스콤홈페이지 (http://www.koscom.co.kr) 31) 지디넷코리아, 데이터기반개인용주가예측통할까?, 2013.12.10 32) 코스콤은 29 일 지난 1 월빅데이터기술을활용한 주가분석및예측시스템 연구에착수해 10 개월여만에성공적으로개발을완료했다 며 SNS 에서사용되는단어와블로그와카페등에쓰인단어등을수집 분석해이를주가예측에활용하는기법 이라고설명했다. SNS 에서쓰이는 5 만 9000 개의긍정, 부정단어를포함한감성사전과뉴스 블로그 카페등에기재된주요단어 25 만개의형태소사전을수집, 분석에활용하였다. NEWSIS 뉴스, SNS 빅데이터로주가예측한다 코스콤, 내달시범서비스, 2013.11.29 33) 전자금융거래에사용되는단말기정보 접속정보 거래내용등을종합적으로분석하여의심거래를탐지하고이상금융거래를차단하는시스템을의미한다. 금융보안연구원, 이상금융거래탐지시스템기술가이드, 2014.8 전자금융과금융보안 2015. 7. 47
이용되며크게 1 오용탐지모델 (Misuse Detection Model) 2 이상탐지모델 (Anomaly Detection Model) 34) 기법이있다. [ 그림 7] FDS 에서분석및탐지기능의범위와머신러닝 이용자정보 거래정보 수집시스템 분석 / 평가시스템 대응시스템 통지기능 차단기능 추가인증 탐지패턴 (Rule) 추가패턴반영 관리자 / 이용자 머신러닝을활용한탐지모델반영 FDS 탐지모델에활용되는머신러닝알고리즘의예는아래의 [ 표 4] 와같으며, 다양한알고리즘이최적의탐지효과를보이기위해서는각금융사서비스의실제데이터와결합되어커스터마이징 (Customizing) 되어야한다. FDS에서정상적인거래와부정거래를구분또는예측하기위해장기간의자료축적과분석이필수이며, FDS의고효율을위해페이팔 (PayPal) 에서는이상거래를판별하는인공지능에딥러닝을적용 35) 하였다. [ 표 4] 이상금융거래탐지모델에활용되는머신러닝알고리즘의예 구분 내용 개념 의사를결정하거나분류 예측하는데사용하는트리로가장큰조건의트리뿌리를만들고, 세부조건의트리가지를만들며, 해결방안은트리의잎 (Leaf) 노드로의사결정나무를형성하여분석하는알고리즘 ( 의사결정나무의예 )? yes no yes near no 의사결정나무 (Decision Tree) yes no yes no 장점 단점 적용사례 / 시나리오 실시간적용이가능하고분류과정이트리구조에의한추론규칙으로표현되기때문에쉽게이해하고설명가능 특성개수에따라트리의모양이많이달라질수있으며, 출력이다양할경우트리는매우복잡하여예측결과가떨어짐 실시간부정 IP 차단적용, 엔트로피를이용한 IP 오염도, IP Address 및 Action 로그등 34) 알려지지않은부정거래행위에대한사전탐지가가능하나, 오탐률이높으며수집된정보를분석하는데많은학습시간이소요되며, 주로 통계모델 데이터마이닝모델 등을이용한다. 35) ZDNet Korea, 페이팔, 결제사기막으려 딥러닝 도입, 2015.3.10 48
머신러닝을활용한스마트서비스와금융 랜덤포레스트 (Random Forest) 개념 장점 단점 적용시나리오 개념 데이터의일부를추출하여의사결정나무를만드는작업을반복하고, 만들어진다수의의사결정나무들의투표로최종결과를도출하는방식 ( 랜덤포레스트의예 ) x x x Tree t=1 t=2 t=n 빠른학습속도를가지므로많은양의데이터처리능력을가지며, 단계별노드의수를조절하여멀티클래스로쉽게확장이가능함 노이즈데이터가많은경우과적합 (Overfitting) 될수있으며, 해석하는데어려움이존재함 결제종류, 금액, 시간, 지역, 횟수등여러가지특징들중랜덤으로특징과특징의개수가선택됨 주어진입력패턴에대하여해답을미리주지않고자기스스로학습하며, 샘플들을상호비교하며스스로군집을조직해냄 ( 자가조직도신경망구조의예 ) M N 그리드 (Grid) predict 경쟁층 자가조직도 (Self- Organization Map, SOM) 장점 단점 적용시나리오 개념 전방향 (Feed-forward) 인공신경망으로구성되어수행속도가빠르며, 입력데이터의분류와자료에숨겨져있는패턴을감지 많은입력데이터에대해전처리과정이필요하며, 블랙박스와같은신경망의각층들간의학습을통해서결과를계산하기때문에결과값에대한과정설명이나추론이어려움 개인정보도용후다량의거래를수행하기전개인정보를변경 거래전잘못된로그인의수가증가 블랙리스트처리된지역에서의거래가발생 기존의거래가발생한시간대와다른시간대에서거래가발생 하나의항목집합과다른항목집합사이의연관성을나타내는것으로일련의거래나사건들의연관성에대한규칙을분석하는알고리즘 ( 연관규칙의기본개념의예 ) ABC 입력층 ABD ACD BCD AB AC AD BC BD CD 연관규칙 (Association Rule) 장점 단점 적용시나리오 A B C 많은양의데이터를대상으로하거나변수의개수가많은경우에도쉽게사용할수있으며, 계산이용이하여결과값이분명함 품목수의증가에따라계산량이폭증하고, 자료의속성에따라제한사항이존재함 특정행위나특징이있는사용자는부정거래를한다. 라는규칙을생성할수있음 결제금액, 기간별거래횟수, 로그인횟수등연관규칙생성에적합하지않을수치데이터를퍼지이론 (Fuzzy Logic) 을이용해정규화하고연관규칙을생성할수있음 사기거래탐지속도가실시간서비스적용에적합하며언어형태규칙을제공하므로사람이직관적으로이해할수있고사기거래탐지에대한근거로사용할수있음 D 전자금융과금융보안 2015. 7. 49
라. 신용평가및심사 신용평가및심사에서머신러닝을활용한데이터분석은대출신청자의사회경제적인특성, 신용정보와지급이력과같은세부정보를바탕으로신용도, 특정대출에대한채무불이행가능성예측등을수행한다. 금융권관계자들에따르면국내신평사들은대략 1000개의신용거래정보를받는다면이가운데 100~200개정도만사용한다. 현재의신용평가모델은회귀분석방식이다. 하나나그이상의독립변수를가지고종속변수를추정하는식이다. 분석이빠르다는장점이있지만분석이정형화돼있고일부신용정보로 10등급까지만나눈다는점이한계라는게전문가들의평가다. 이에머신러닝은회귀분석의대안으로떠오르고있다. 36) 핀테크기업인제스트파이낸스 (Zest Finance) 37) 는빅데이터와머신러닝을활용하여신용평가에접목시켰다. 제스트파이낸스는개인이파산이후어떤노력을했는지등을포함해거의 1만개이상변수로신용도를분석하고대출여부를결정한다. 38) 이를통해일반신용등급평가에서낮은등급을받아대출을받지못하는사람들을주고객으로확보할수있다. 또한신용평가모델링에있어서머신러닝알고리즘을활용하여 ([ 그림 8]) 머신러닝의특징중하나인관계와분류의정확성을높일수있다. [ 그림 8] 제스트파이낸스의머신러닝을활용한신용평가모델적용사례 원본데이터 수천가지변수에해당하는비정형데어원본데이터수집 구조화된데이터 수집된원본데이터를분석이용이한구조화된데이터로변환 메타변수 구조화된원본데이터와메타데이터를조합 * 메타데이터 : 데이터를설명하기위한데이터 ( 위치, 작성자등 ) 의속성정보 모델링 최종신용도 조합된메타데이터를각각다른기술로모델링 머신러닝알고리즘을활용한모델링가능 각모델은조합된투표방식으로대출신청자의최종신용도산출 자료 : GIGAOM, Where machine learning and human artistry meet your wallet 재구성 36) 조선비즈, [ 신용평가의진화 ]1 빅데이터의묘기 대출받는걸와이프가알고있나요?, 2015.06.10 37) http://www.zestfinance.com/ 38) 전자신문, 미국핀테크스타트업, 중국에빅데이터 - 머신러닝들인다, 2015.6.29 50
머신러닝을활용한스마트서비스와금융 Ⅴ. 머신러닝관련동향및이슈 1. 머신러닝관련동향 MIT가 2013년을빛낼 10대혁신기술 중하나로선정 39) 하고가트너 (Gartner, Inc.) 가 2014 세계 IT 시장 10대주요예측 40) 에포함시키는등머신러닝에대한관심과성장은최근빠르게높아지고있다. 머신러닝에대한관심과성장을주도하는요인은주로 1빅데이터의발달 2정보처리 ( 연산, 저장 ) 능력의향상 3딥러닝알고리즘의특징 4편리한클라우드기반머신러닝솔루션의등장등에있다고볼수있다. 머신러닝관련동향은 1빅데이터의발달과관련동향을함께살펴보아야한다. 증권 / 투자, 은행, 보험사가보유한데이터량은총 6667TB로파악되며전체의약 50% 를차지하고있고 41) 특히글로벌금융기업은타산업대비높은데이터보유량을기록하며이를경쟁우위로활용하기위한방안을강구하고있다. [ 그림 9] 미국산업별평균데이터보유량 4,000 3,866 단위 : 테라바이트 (TB) 3,000 2,000 1,931 1,792 1,507 1,000 967 870 825 801 697 0 증권 / 투자은행통신장치제조보험원자재운송유통 자료 : KB 금융지주경영연구소, 2012.6.27 39) MIT 선정올해의 10 대혁신기술로써학습과추론을통해의사소통이가능한인공지능기술이포함되었다. MIT, 올해의 10 대혁신기술선정, 동아일보, 2013.4.26 40) 2017 년에는컴퓨터의 10% 는 처리 보다는 학습 을하게될것이다. 2014 년심층신경 (neural) 네트워크알고리즘을운영하는음성인식애플리케이션의수는배가될것이다. DNN(Deep Neural Network) 을바탕으로한심화학습방법이일부사물인식애플리케이션은물론이고, 음성인식시스템에도적용되고있다. 인터넷에서막대한비정형데이터를수집해유용한정보를획득할수있을때삶의질은개선된다. 학습컴퓨터가갖는가장중요한의미는복잡한패턴인식에훨씬적은에너지를사용한다는것이다. Gartner, Gartner Reveals Top Predictions for IT Organizations and Users for 2014 and Beyond, Gartner newsroom, 2013.10.8 41) 미래창조과학부, 한국정보화진흥원, 빅데이터전략센서, 2015 년빅데이터글로벌사례집, 2015.5 전자금융과금융보안 2015. 7. 51
빅데이터시장규모는계속커지고있는상황 42) 이며, [ 그림 10] 과같이금융및보험업분야에서빅데이터활용의가치는상대적으로다른산업군에비해큰위치를차지하고있음을알수있다. 머신러닝은빅데이터시대에전통적인시스템공학보다데이터숨겨진정보와가치를효율적으로찾을수있다는점에서특히그가치를증명받고있다. 특히금융권에서는포트폴리오분석, 트레이딩, 리스크관리, 마케팅, 보안등으로머신러닝활용수준을확대해가고있다. [ 그림 10] 산업별빅데이터활용의잠재적가치 ( 미국사례 ) 2000~2008년까지생산성증가율 ( 단위 :%) 24.0 23.5 23.0 22.5 9.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0-0.5-1.0-1.5-2.0-2.5-3.0-3.5 Low 빅데이터활용의잠재적가치 금융및보험 산업분야빅데이터활용잠재적가치 High * 주 ) 원의크기는상대적으로산업별 GDP 기여도를나타냄 자료 : McKinsey&Company, Big data:the next frontier for innovation, competition, and productivity, 2011.6 2정보처리 ( 연산, 저장 ) 능력의향상은머신러닝의발달을가능하게한요인이다. 머신러닝은거대한데이터를연산하는작업이므로상당한기술적토대가마련되어야가능하다. 이러한기술적토대는대규모데이터를빠른속도로처리하기위해아파치하둡 (Apache Hadoop) 등과같은분산처리 ( 컴퓨팅및저장 ) 43) 의발달과그래픽 42) Wikibon 은향후빅데이터시장규모가 2012 년 51 억달러에서 2017 년 534 억달러로보다높은성장률 ( 연평균 60%) 을달성할것으로예상하였다. http://wikibon.org/wiki/v/big_data_market_size_and_vendor_revenues 43) 분산컴퓨팅 (Distributed Computing) 은인터넷에연결된여러컴퓨터들의처리능력 ( 분산처리기술, 분산컴퓨팅기술 ) 을이용하여거대한계산문제를해결하려는분산처리모델이다. 52
머신러닝을활용한스마트서비스와금융 처리장치 (Graphics Processing Unit, 이하 GPU라고한다.) 44) 등과같은고성능프로세서의발전이있었기때문이다. 기존에컴퓨터성능은주로중앙처리장치 (Central Processing Unit, 이하 CPU라고한다.) 에만의존하는형태로한계를보였으나, 멀티미디어콘텐츠등을다루는고속그래픽처리에특화된전용프로세서인 GPU를 ( 멀티 ) 탑재하여성능을높이는환경을구현하기도한다. 또한, GPU상의범용처리 (General-Purpose Computing on Graphics Processing Units, GPGPU) 는일반적으로컴퓨터그래픽스를위한계산만맡았던 GPU를, 전통적으로 CPU가맡았던응용프로그램들의계산에사용하는기술이다. 이를통하여정보처리성능의비약적향상을가져왔고, GPU를활용한머신러닝, 딥러닝이적극연구 45) 및활용 46) 되고있다. 3딥러닝알고리즘의특징도머신러닝에대한관심이높아지고있는이유중의하나이다. 왜냐하면머신러닝의방법중의하나인딥러닝알고리즘은시뮬레이션의크기를늘릴수록대량의데이터를흡수하는능력이좋아지는특징을가진초고용량학습알고리즘이다. 딥러닝은학습모델링과예측률을높이기위해풍부한과거데이터 47) 인빅데이터의발달과복잡한딥러닝의함수에대한모델링연구와함께딥러닝을활용할수있는가능성이열리고있다. 구글, 페이스북, 트위터등과같이딥러닝기술을사용하는곳은빅데이터를가진곳이다. 글로벌 IT기업의딥러닝활용동향은 [ 표 5] 와같다. 44) GPU 라는용어는엔비디아 (NVIDIA) 社에서 1999 년에 지포스 (GeForce) 라는이름의그래픽컨트롤러 (Graphics Controller: 그래픽카드용칩 ) 를내놓으며처음붙여진이름이다. 지포스는 CPU 의도움없이자체적으로폴리곤 (Polygon: 3D 그래픽을구성하는도형 ) 의변형 (Transform) 및광원 (Lighting) 효과를구사하는기능을갖추고있다. 이는이전까지사용했던그래픽컨트롤러와는다른개념이었기때문에 GPU 라는이름으로구분하게되었다. 2000 년에 ATi( 현재의 AMD) 사에서 라데온 (Radeon) 이라는 GPU 를출시하게되면서양사의 GPU 경쟁이본격화된다. 45) 앤드류응교수와엔비디아는 16 대의 GPU 가속화서버를사용해 112 억개의파라미터를갖춘신경회로망을구축하고, 인공신경회로망에서발생하는대량의데이터를 CPU 가아닌 GPU 가처리하도록했다. 이는 2012 년구글브레인의신경회로망보다 6.5 배큰것이나, 구축비용은현저히줄어들었다. 그결과는국제기계학습학술대회 (ICML) 2013, Deep Learning with COTS HPC Systems 논문을통해발표했다. 디지털데일리, GPU 컴퓨팅이기계학습주도, 2014.3.28 46) 중국바이두에서는머신러닝알고리즘인신경망학습에 GPU 를적용하였다. WIRED, Chinese Google Unveils Visual Search Engine Powered by Fake Brains, 2013.6.13 47) 보통트레이닝데이터 (Training Data) 라고부른다. 전자금융과금융보안 2015. 7. 53
[ 표 5] 글로벌 IT 기업의딥러닝활용동향 회사 구글 (Google) 내용 2011 년앤드류응 ( 스탠포드대 ) 교수는구글안에딥러닝프로젝트를구성, 음성인식과구글플러스의사진태깅에딥러닝기술을활용하기시작 2012 년응교수의팀은 1 만 6000 개의컴퓨터프로세서로 10 억개이상의연결을갖는뉴럴네트워크를이용한자율학습방식의딥러닝기술을적용해유튜브안에있는 1000 만개의이미지중에서고양이를알아내는연구수행 2012 년젤리빈 (jellybean) 부터음성인식서비스에딥러닝활용 2013 년 3 월제프리힌튼교수와토론토대학의연구자들영입및힌튼교수의회사인 DNN 리서치를인수함. 구글나우의음성인식, 유튜브추천, 이미지물체에대한자동태깅등다양한영역에서딥러닝기술을이용 구글은딥마인드 (DeepMind) 라는회사를 4 억달러가넘는금액으로인수 * * Re/code NEWS, Google to Buy Artificial Intelligence Startup DeepMind for $400M, 2014.1.26 페이스북 (Facebook) 트위터 (Twitter) 마이크로소프트 (MS) 바이두 2013 년얀레쿤 ( 뉴욕대 ) 교수를영입및 인공지능연구그룹 을출범 연구그룹에서 딥페이스기술 * 을발표하여인간과유사한 97.35% 정확도로다양한각도 조명에서사람얼굴을인식할수있는기술을선보임 * Conference on Computer Vision and Pattern Recognition(CVPR), Yaniv TaigmanMing, YangMarc'Aurelio, Ranzato, Lior Wolf, DeepFace:Closing the Gap to Human-Level Performance in Face Verification, 2014.6.24 매드비츠 (Madbits) 라는딥러닝회사를인수해사진이미지분석기술을확보하고자함 * * TC News, Twitter Acquires Image Search Startup Madbits, 2014.7.29 2014 년 MS 윈도폰용음성인식개인비서서비스인 코타나 (Cortana) 출시 2014 년 7 월 MS 리서치학술회의 2014 에서 AI 프로젝트인 아담 을통해견종을컴퓨터가분류하는등시각적정보를활용해사물을인식하는딥러닝기술을공개 2014 년 5 월미국실리콘밸리에인공지능 (AI) 연구소를개설하고, 2013 년설립된베이징바이두연구소와함께앤드류응교수를총책임자로영입 2014 바이두월드컨퍼런스 (World Conference) 에서안경형웨어러블디바이스인 바이두아이 (Baidu Eye) 를공개하여물체를스캔하고인식하는이미지인식기술을선보임 4편리한클라우드기반머신러닝솔루션의등장도머신러닝에대한성장을주도하는배경적요인이다. 금융회사내부에데이터분석가가있다면클라우드기반의머신러닝서비스를적용하여수요예측, 의사결정등에활용이가능하다. 이러한대표인서비스로는구글의프리딕션 API, 아마존의아마존 ML, 마이크로소프트의애저 (Azure) 서비스등이있으며, 그특징과내용은 [ 표 6] 과같다. 54
머신러닝을활용한스마트서비스와금융 [ 표 6] 클라우드기반머신러닝서비스제공현황 구분 개발사 구글 (Google) 내용 서비스 https://cloud.google.com/prediction 구글프리딕션 API (Google Prediction API) 개념 시작 내용 특징 사용기술 비용 데이터를분석할수있는클라우드기반의예측모델구축지원서비스 2010 년 5 월구글 I/O 컨퍼런스에서클라우드머신러닝기능소개 2011 년말서비스상용화시작 고객심리분석, 스팸탐지, 판매증가기회분석, 추천시스템, 의심스러운활동식별등과같은특징에따라데이터를분석및예측 Prediction API( 샘플, 라이브러리, 데이터전 ( 前 ) 처리등 ) 와 Prediction Tool( 구글개발자콘솔 ) 을제공 전제조건 : 프리딕션 API 와클라우드스토리지 API 가활성화된상태로구글개발자콘솔사용 프리딕션 API 구현 3 단계 : 1 업로드 (upload) : 구글스토리지에해당데이터업로드 2 학습 (Train) : 데이터로부터모델을구축 3 예측 (Predict) : 해당데이터를이용한새로운예측 사용자인터페이스 (UI) 가없으나, 마법사형태로사용이용이 모델을구축하는데선택할수있는알고리즘을여러개제공 프레딕션 API 를생성하기위해구글클라우드스토리지에연결, 빅쿼리 (BigQuery, 구글빅데이터분석서비스 ) 결과사용 구글의핵심서비스인검색에예측로직기술기반활용 관련기술 분석 BigQuery(SQL 등사용, 빅데이터온라인분석처리플랫폼 ) 저장 cloud storage/datastore(nosql)/sql( 관계형 MySQL) 무료 유료 기본요금 6 개월간무료개발자콘솔프로젝트별매월 10 달러 예측 (Predictions) 100 predictions/ 일 10,000 predictions/ 월 : 무료, 초과시 1,000 predictions 당 0.50 달러 개발사 학습 (Training) 아마존 (Amazon) 5MB trained/ 일 0~10,000 스트리밍업데이트 : 무료, 초과시 1000 업데이트당 0.05 달러 서비스 http://aws.amazon.com/ko/machine-learning 아마존머신러닝 (Amazon ML) 개념시작내용특징 데이터를읽어머신러닝모델생성, 신규데이터처리및애플리케이션예측 AWS 샌프란시스코서밋 2015(4 월 9 일 ) 에서 아마존머신러닝 서비스공개 머신러닝구축과예측생성을지원하는관리형서비스 아마존머신러닝을이용한머신러닝모델구축프로세스 : 1 데이터분석 : 데이터배포를컴퓨팅및시각화 2 모델학습 : 변환된데이터에서예측패턴을찾아저장 3 평가 : 모델의정확도평가 ( 선택사항 ) 데이터시각화지원및입력데이터에대한데이터변환 (transformation) 지원 바이너리속성 ( 바이너리분류 ), 범주별속성 ( 다중분류 ) 또는수치속성 (Regression, 회귀 ) 등의값을예측하는모델을생성 많은기업들이 AWS 에상당한양의데이터를저장하고있고 S3 스토리지에연결되어있는장점 전자금융과금융보안 2015. 7. 55
사용기술 비용 개발사 아마존 S3(Simple Storage Service, 클라우드스토리지 ) 의데이터이용, 아마존레드시프트 (Redshift, 클라우드기반데이터웨어하우스 ) 또는아마존 RDS( 관계형데이터베이스서비스 ) 에있는 MySQL 데이터베이스에쿼리하여머신러닝모델을생성및사용 아마존전자상거래비즈니스예측분석모델 ( 상품추천기술 ) 활용 관련기술 분석 저장 Amazon EMR(Elastic Map Reduce, 하둡인터페이스지원 ), Amazon Redshift( 페타바이트규모의데이터웨어하우스솔루션, 기존비즈니스도구를사용하여데이터분석지원 ) 등 Amazon S3( 클라우드기반스토리지 ), RDS( 아마존웹서비스에서관리하는 MySQL, Oracle 등지원하는관계형 DB) 등 무료 분석및모델구축 - AWS 프리티어에서 Amazon 배치예측 S3, RDS 등일부서비스의실시간정해진한도내에서무료 마이크로소프트 (MS) 유료 시간당 0.42 달러 1,000 예측당 0.1 달러 예측당 0.0001 달러 서비스 http://azure.microsoft.com/ko-kr/ 마이크로소프트애저머신러닝 (MS Azure ML) 개념 시작 내용 특징 사용기술 비용 애저는 MS 에서관리 / 지원하는데이터센터에호스팅된인터넷규모의컴퓨팅및서비스이며, 애저머신러닝은클라우드기반예측모델구축지원서비스 2014 년 6 월 16 일미국에서 애저머신러닝 공개프리뷰발표 2015 년 1 월 21 일한국 MS 본사에서 애저머신러닝 국내공식론칭 애저머신러닝서비스는 머신러닝스튜디오 * 와 머신러닝 API 서비스 ** 등으로이루어짐 * 데이터에대한예측분석솔루션을빌드, 테스트, 배포할수있는공동작업시각적개발환경 ** 머신러닝스튜디오 에서제공되는예측모델등을확장가능한웹서비스로배포 애저머신러닝을이용한예측분석모델구축프로세스 : 1 모델만들기 : 데이터가져오기, 데이터전처리, 기능정의 2 모델학습 : 학습알고리즘선택및적용 3 모델점수매기기및테스트 : 새데이터예측 모델을구축시분류, 회귀, 클러스터링등의여러알고리즘을제공 순서도스타일의데이터플로우를제공 R, Python 등의개발프로그램으로확장가능 빙 (bing) 같은검색서비스의머신러닝기술을적용 애저 HD 인사이트 (HDInsight) 를포함해애저데이터애셋의기존데이터를머신러닝에활용 클라우드기반예측분석 관련기술 가입제 분석 저장 스튜디오실험 API 서비스예측 애저 HDInsigh( 클라우드에서제공되는 Apach Hadoop 기반서비스, 페타바이트급지원 ) 등 SQL 데이터베이스를활용한관계형 DaaS(Database-as-a- Service), 애저 Blobs 등에저장된애저클라우드저장소등 무료 30 일간무료 초기발생되는 200 달러크레딧한도내에서무료 시간기준 트랜젝션기준 유료 매월 seat 당 9.99 달러 시간당 1 달러 2 달러 1000 개 API 당 0.5 달러 56
머신러닝을활용한스마트서비스와금융 2. 머신러닝관련법적이슈 가. 빅데이터활용관련이슈 IT 기업들이금융서비스산업을시작하면서핀테크 48) 시장이형성되고, 머신러닝등을 적용한빅데이터분석을통해가치창출을위한금융서비스들이크게변화하고있다. 하지만머신러닝을활용한빅데이터분석에는개인정보보호등의법적이슈가존재한다. 특히개인정보대량유출사고에따른개인정보보호이슈가화두가되면서빅데이터의 활용은위축되었고, 머신러닝과같은빅데이터분석기술이나날이정교해지고기업들은 광범위한데이터로부터가치있는정보를추출하는데집중하면서개인정보, 프라이버시 침해등에대한우려는점차커지고있다. 금융산업에서빅데이터의활용과개인정보보호관련법제도상의제약과의조화로운 균형점에대해찾기어려운실정이다. 또한빅데이터활용시개인및신용정보이용에 대해개인정보보호법등현행정보보호관련법규 49) 들이산재되어있어해당법률의해석에 있어어려움이존재한다.([ 표 7]) 50) [ 표 7] 개인정보보호관련대표적인법률 구분법률주요내용 일반 개인정보보호법 개인정보의수집, 처리및보호에관한사항 개인정보보호일반법 정보통신 정보통신망법 50) 정보통신기반보호법 전자문서및전자거래기본법 정보통신망의이용촉진및정보통신서비스를이용하는자의개인정보보호규정 빅데이터처리등이용자에게공개 처리시스템에서기술적 관리적보호조치등 주요정보통신기반시설의지정, 금융ISAC의운영 주요정보통신기반시설준수법률 전자문서및전자거래의안전성과신뢰성확보 전자거래이용자의개인정보수집 / 이용 / 제공및관리에관한사항 민간부문 상거래 전자상거래등에서의소비자보호에관한법률 전자서명법 산업기술의유출방지및보호에관한법률 전자거래시소비자의의사표시확인 소비자에관한정보이용, 신원및거래조건에대한정보제공등 전자서명에관한기본사항 공인인증서, 인증업무의안전성및신뢰성확보 산업기술의부정한유출방지및보호 48) 금융을뜻하는파이낸셜 (financial) 과기술 (technique) 의합성어다. 49) 개인정보보호법, 정보통신망이용촉진및정보보호등에관한법률 등현행개인정보관련법규는공공기관, 정보통신서비스제공자등정보처리주체에따라다른법규가적용된다. 50) 정보통신망이용촉진및정보보호등에관한법률 의약칭이다. 전자금융과금융보안 2015. 7. 57
금융 신용 전자서명법 산업기술의유출방지및보호에관한법률신용정보의이용및보호에관한법률 금융실명거래및비밀보장에관한법률 전자금융거래법, 전자금융감독규정 특정금융거래정보의보고및이용등에관한법률 전자서명에관한기본사항 공인인증서, 인증업무의안전성및신뢰성확보 산업기술의부정한유출방지및보호 신용정보전산시스템의기술적, 물리적보안대책 금융분야개인 ( 신용 ) 정보보호법률 실지명의에의한금융거래및비밀보장 전자금융거래의안전성과신뢰성확보 ( 안전성확보의무, CISO 지정등 ) 금융분야 IT 및정보보호법률 자금세탁방지를위한금융거래모니터링 이에개인정보는보호하면서빅데이터활용을높일수있는대안으로비식별화기술에 대한관심이높아지게되었으며, 이에공공및민간에서는빅데이터활용시참고할수 있도록 빅데이터활용을위한개인정보비식별화 51) 관련기술활용안내서 52) 및사례집 53) 이 발간되었다. 한편금융권의빅데이터활성화제약요인으로 1( 법령상제약 ) 신용정보법령상불명확한 규정등으로인해금융회사등은개인신용정보활용이어려움 2( 인프라미흡 ) 핀테크 기업은금융상품을만들고새로운서비스를제공하기위해필요한금융정보의확보가 어려움 3( 지침미비 ) 금융회사가정보를비식별화할때이에대한명확한지침이없어 비식별화정보활용에주저등의크게 3 가지요인 54) 이존재한다. 금융권에서도산업과법의준수의조화로운방향이모색되다가최근금융위의 금융권 빅데이터활성화방안 55) 에서 1 신용정보범위명확화 2 비식별정보활용가능여부명확화를 51) 비식별화란정보에포함되어있는개인정보의일부또는전체를삭제하거나다른정보로대체함으로써다른정보와결합하여도특정개인을식별하기어렵도록하는일련의조치이다. 원칙적으로그자체로개인을식별할수있는정보 * 는삭제 ( 또는개인을식별할수있는정보의삭제처리대신다른정보로대체 ) 한다. * 그자체로개인을식별할수있는정보예시 1 쉽게개인을식별할수있는정보 ( 이름, 전화번호, 주소, 생년월일, 사진등 ) 2 고유식별정보 ( 주민등록번호, 운전면허번호, 외국인등록번호여권번호 ) 3 생체정보 ( 지문, 홍채, DNA 정보등 ) 4 기관, 단체등의이용자계정 ( 등록번호, 계좌번호, 이메일주소등 ) 52) 미래창조과학부, 한국정보화진흥원 (NIA), 빅데이터전략센터 (KBiG), 빅데이터활용을위한개인정보비식별화기술활용안내서, Ver 1.0, 2014.5.8 53) 미래창조과학부, 한국정보화진흥원 (NIA), 빅데이터전략센터 (KBiG), 빅데이터활용을위한개인정보비식별화사례집, 2014.5.1 54) 금융위, 금융권빅데이터활성화방안 중빅데이터활성화제약요인, 2015.6.3 55) 금융위보도자료, 빅데이터를활성화하여금융회사와핀테크기업의동반성장토대구축, 2015.6.3 58
머신러닝을활용한스마트서비스와금융 통해법령상제약요건이어느정도해소되었다. 신용정보범위명확화를위해시행령에서비식별정보는개인신용정보에서제외 56) 하고, 비식별정보활용가능여부명확화를위해개인정보보호법에따라비식별화할경우동의목적외이용이가능하다고유권해석 57) 을하였다. 또한정책적으로빅데이터활성화인프라구축을위한정책으로써신용정보법개정으로기존 5개협회의신용정보집중기관이종합신용정보집중기관 58) 으로통합 ( 16.3월까지통합완료 ) 되어금융권, 핀테크기업등의빅데이터업무활용을지원하는역할을수행할예정이다. 하지만금융권에서개인및신용정보는위와같은법률상해석으로모두해결되는것이아니라, 빅데이터분석등을위하여비식별화된정보를활용하는경우에는접근통제, 관련정보의추가이용제한등비식별화처리전에보유한개인관련정보를활용 연계하여개인을식별할수없도록내부규정등을보완해야한다. 왜냐하면비식별화된정보를비식별화처리전에습득한개인관련정보와매칭하여사용하는경우개인정보의목적외이용에해당될수있기때문이다. 나. 이상금융거래탐지관련이슈 빅데이터활용이외에도머신러닝은관련법적이슈는 FDS에서도발생한다. 정확한사기탐지를위해 FDS에서머신러닝을활용시빅데이터활용에서처럼개인정보를모두비식별화처리를할수없는문제가존재한다. FDS에서수집정보는 1금융거래유형정보, 2사고유형정보, 3이용자매체환경정보가있으며, 수집되는이용자매체환경정보는아래 [ 표 8] 과같다. 56) 신용정보법 : 신용정보의구체적인범위를시행령에서정하도록위임한다. 시행령초안 : 식별성이전제되지않은개별거래내용, 신용도, 신용거래능력판단정보를개인신용정보범위에서제외한다.(9.12 일시행예정 ) 57) 신용정보법 ( 특별법 ) 에규정되지않은사항은개인정보보호법이적용된다. 58) 신용정보집중기관은신용정보를금융회사, 신용조회회사에제공하고, 금융회사는신용정보집중기관의정보등을활용하여여신심사, 보험계약인수등에활용하여신용조회회사는신용정보를분석 가공하여금융회사등에판매한다. 금융위 정보공유범위규정 제공 종합신용정보집중기관 ( 은행연합회 ) 개별집중기관 여신협회 금투협회 생보협회 제공 ( 이용, 집중 ) 금융회사 손보협회 신용조회회사제공통계분석등시장제공신용등급제공 전자금융과금융보안 2015. 7. 59
[ 표 8] 수집되는이용자매체환경정보 구분 PC 계열 수집정보 스마트폰계열 하드웨어정보 OS 및애플리케이션정보 네트워크정보 물리적 MAC 정보 HDD 정보 (S/N, 모델등 ) CPU 정보 ( 코어 <cpu core> 수등 ) 메인보드정보 ( 제조사, Product Name, Product S/N 등 ) 등 가상화소프트웨어사용정보 브라우저정보 ( 종류, 언어등 ) 등 IP 정보 ( 공인 / 사설, 국가, 지역등 ) Proxy IP 정보 ( 설정여부, 국가등 ) VPN 정보 ( 설정여부, 국가등 ) 등 UUID(Universally Uniue IDentifier) 정보 디바이스모델명등 OS 버전정보 제조사정보등 연결된네트워크정보등 하지만 FDS에서 개인정보수집및활용 은다른법률과의충돌문제가존재한다. 즉, 이상금융거래정보중개인정보수집및활용은 전자금융거래법 제22조에서는 전자금융기록보관 에근거하고있으나, 개인정보보호법, 위치정보보호법, 정보통신망법 등에서개인정보수집및활용을제한하고있는실정이다. 금융권에서이상금융거래정보수집관련법률은 [ 표 9] 와같다. [ 표 9] 이상금융거래정보수집관련법률 법전자금융거래법개인정보보호법위치정보법정보통신망법 조항 제 22 조 ( 전자금융거래기록의생성 보존및파기 ) 제 1 항 제 15 조 ( 개인정보의수집 이용 ) 제 1 항 1 호 제 16 조 ( 개인정보의수집제한 ) 제 1 항, 제 2 항 제 12 조 ( 이용약관의신고등 ) 제 1 항 제 15 조 ( 위치정보의수집등의금지 ) 제 1 항 제 18 조 ( 개인위치정보의수집 ) 제 1 항 제 22 조 ( 개인정보의수집 이용동의등 ) 제 1 항 또한금융권에서해석될수있는대표적인현행법률기반개인식별정보는 [ 표 10] 과 같다. 60
머신러닝을활용한스마트서비스와금융 [ 표 10] 법률기반개인식별정보 구분법률근거개인식별정보항목 일반 개인정보보호법제 18 조, 제 23 조, 제 24 조제 1 항, 제 24 조제 3 항 주체자의사생활을침해할수있는식별정보 ( 예 : 의료정보, 정신적성향등 ) 주체자의신분확인을위한일반식별정보 ( 예 : 이름, 주민번호, 주소등 ) 정보통신 전자금융거래법제 25 조 위치정보보호법등 휴대폰결제서비스수행을위한식별정보 ( 예 : 결제수단별개인정보, 카드번호, 비밀번호등 ) 업무수행및처리를위한통신상의식별정보 ( 예 : 접속 IP 정보, GPS 정보등 ) 상거래 전자문서및전자거래기본법제 12 조 정보통신망법제 23 조, 제 24 조 전자상거래등에서의소비자보호에관한법률제 12 조 전자문서서비스를위한식별정보 ( 예 : 공인전자주소, 송신자, 수신자등 ) 통신의안전한조치를위해확인할수있는식별정보 ( 예 : 비밀번호, 계좌번호, 주민등록번호등 ) 거래기록및배송을확인하기위한식별정보 ( 예 : 배송주소지, 수령인연락처등 ) 전자서명법제 24 조 정당한사용자임을인증하는식별정보 ( 예 : 가입자이름, 전자서명검증정보, 인증서일련번호 ) 민간부문 금융 신용 신용정보의이용및보호에관한법률제 33 조 금융실명거래및비밀보장에관한법률제 4 조 전자금융거래법제 26 조 전자금융감독규정제 5 조의 3 신용정보및거래능력을판단할수있는식별정보 ( 예 : 재산, 소득, 대출보증등 ) 금융기관의거래내역을판단할수있는정보 ( 예 : 주민등록번호, 계좌번호, 거래실적자료등 ) 이용자및거래내용의정확성을확인하기위한식별정보 ( 예 : 전자금융업자에등록된이용자번호, 이용자의생체정보등 ) 신용정보및거래능력을판단할수있는식별정보 ( 예 : 재산, 소득, 대출보증등 ) 금융기관의거래내역을판단할수있는정보 ( 예 : 주민등록번호, 계좌번호, 거래실적자료등 ) 이용자및거래내용의정확성을확인하기위한식별정보 ( 예 : 전자금융업자에등록된이용자번호, 이용자의생체정보등 ) 특정금융거래정보의보고및이용등에관한법률제 5 조의 3 자금이체를수행을위한식별정보 ( 예 : 송금인성명, 계좌번호, 수취인의정보 ) 이상금융거래정보수집관련법적이슈에대해서는 1금융회사등이의무를이행할수있는 전자금융거래법 상에서 개인정보수집및활용 관련예외조항추가등법령의통일적인개정여부에대해지속적으로검토및모니터링이필요하다. 또는 2다른법률인 개인정보보호법, 위치정보보호법, 정보통신망법 등에서이상금융거래정보관련한 개인정보수집및활용 항목의개정에대한심도있는검토가필요하다고할수있다. 전자금융과금융보안 2015. 7. 61
Ⅵ. 결론 본고에서는머신러닝관련동향을파악하고해당기술및활용사례들을살펴보았다. 이에머신러닝을통한금융권스마트서비스에서금융회사가해결해야할몇가지과제및 시사점에대해크게 3 가지를제시하는바이다. 첫째, 빅데이터시대에금융회사의비즈니스의목적과규모에맞추어머신러닝기술 활용을통해금융경쟁시장에서돌파구를찾아야한다. 빅데이터분석은먼미래에도입을고려할분야가아닌현재의이슈이며, 빅데이터 분석을통한가치창출을이루기위해경쟁이치열한것은사실이다. 특히금융권은타 산업대비기업의데이터보유량과활용잠재가치가높은것으로분석됨을확인하였다. 증권 투자, 은행, 보험순으로데이터보유량이많으며, 특히은행은오디오, 비디오, 이미지등의비정형데이터의보유비중이증권 투자, 보험보다높다. 59) 머신러닝을활용한빅데이터의분석을통해스마트금융서비스의제공은작년부터 시작된핀테크열풍과함께금융서비스의패러다임변화에기여할것이다. 이는모든 금융회사들이핀테크서비스를시작해야한다는뜻이아니라, 머신러닝과같은기술분야를 얼마나적절한방법으로현업과금융서비스에적용시키느냐가경쟁력의핵심인것이다. 회사가이미보유한트랙잭션데이터를새로운방법으로활용하여이용자와기업 모두에게유용한서비스를제시하되이는기술활용을통해이루어질수있으며, 지금부터 머신러닝기술활용을위한기술적토대마련과역량강화가필수적이다. 또한금융회사는 머신러닝을활용한빅데이터의막대한활용가치에대한공감대를형성하고장기적인 로드맵의수립등기술역량의단계적배양이필요한시점이다. 현재기본적인수준에머물러있었던머신러닝의활용은빅데이터의출현과이를처리할 수있는기술 ( 정보처리능력의향상및머신러닝알고리즘에대한연구 ) 과인프라가 구축됨에따라그실현가능성이점차높아지고있다. 특히딥러닝기술은신경망을어떻게디자인하고어떤종류의신경망과연결하느냐에 따라과거상상할수없었던서비스를개발해낼수있는기회를제공하고있다. 60) 구글이나마이크로소프트같이압도적인데이터양과컴퓨팅파워를가진업체들이딥러닝 59) KB 금융지주경영연구소, KB daily 지식비타민 : 빅데이터 (Big Data) 의이해와금융업에대한시사점, 2012-68 호, 2012.6.27 60) 머니튜데이뉴스, [ 딥러닝 2] 상상속기계가스스로학습기계로, 2015.3.9 62
머신러닝을활용한스마트서비스와금융 기술을활용할때국내업체들이어떻게경쟁력우위를확보할수있을지고민해야할 것이다. 둘째, 머신러닝을이용한데이터사이언스의운영사이클을이해하고당면한비즈니스 문제에잘활용할수있어야한다. 머신러닝은데이터의숨겨진가치를찾는데유용한기술이다. 이러한머신러닝은잘활용한다면당면한비즈니스문제를해결하고장기적으로는신규가치창출을위한방법이될수있다. 하지만머신러닝을통한데이터분석등은당면한문제를해결하기위해서활용할수있는방법들중의하나일뿐이며, 전적으로모든문제에대한예측이나분석을할수는없다는점을유의하여야한다. 우선적으로금융회사가현재가지고있는데이터에대한분석과데이터관리체계등을파악하는과정을통해조직의정보체계를정확히이해하고비즈니스적용운영원리를파악하여야한다. 운영되는데이터안에서문제의답을찾고해당데이터를최적화할수있는방법을모색할수있어야한다. 즉, 머신러닝을통한영업및마케팅금융서비스모델, 위험및사기관리등많은비즈니스모델의활용및시스템구축시전체운영라이프사이클을이해하고이후관리및최적화작업이중요하다. 기업에서는머신러닝을산업에활용하여대규모의데이터마이닝을효율적으로수행하기위해서는여러산업에적용가능한데이터마이닝표준프로세스 (Cross Industry Standard Process for Data Mining, 이하 CRISP-DM이라고한다.) 방법론 61) 등을참고하여비즈니스의이해부터시작하여데이터의분석, 적합한모델링을선정및적용까지적절한단계를수행하여야한다.(< 참고 1> 참조 ) 61) SPSS, NCR, Daimler-Chrysler 등여러업계의선도회사들이데이터마이닝작업의표준화를연구하여발표한포괄적인데이터마이닝의방법론이자프로세스로서현재전세계의데이터마이닝프로젝트의 40% 이상이 CRISP- DM 의프로세스에따라실행되고있을정도로보편화된 data mining 의한방법론이다. 전자금융과금융보안 2015. 7. 63
< 참고 1> 머신러닝과 CRISP-DM 방법론에따른데이터사이언스의운영사이클여러산업에적용가능한포괄적인데이터마이닝의방법론이자표준프로세스인 CRISP-DM 방법론은머신러닝의활용과함께대규모의데이터마이닝을효율적으로수행할수있도록도와준다. CRISP-DM은총여섯단계로구성되어있으며 ([ 그림 11], [ 그림 12] 참조 ), 각단계별로수행해야할작업내용이정의되어있다. ([ 표 11 ] 참조 ) [ 그림 11] CRISP-DM 의운영사이클 [ 그림 11] CRISP-DM 의운영사이클 비즈니스이해데이터구축평가 데이터이해 데이터준비 모델링 비즈니스이해 비즈니스목표결정 초기데이터수집 데이터선택 상황평가데이터설명데이터제거 데이터마이닝목표설정 프로젝트계획설정 데이터이해 선택모델링기법 테스트생성디자인 데이터탐색데이터구축모델구축 데이터품질확인 데이터준비 데이터통합 데이터형식 모델링평가구축 모델평가 결과평가 검토과정 다음단계를결정 계획배포 계획모니터링및유지보수 최종보고서생성 검토프로젝트 [ 표 11] CRISP-DM 의단계별작업내용 단계 비즈니스의이해 (Business Understanding) 데이터의이해 (Data Understanding) 데이터의준비 (Data Preparation) 모델링 (Modeling) 평가 (Evaluation) 구축 (Deployment) 내용 당면한해당비즈니스문제와관련비즈니스프로세스에대한기본적인이해가필요한단계 이과정에서데이터마이닝으로접근할수있는문제를파악하는단계 현업이보유및관리하고있는데이터를이해하는단계 한조직의정보체계를정확히이해하는데는많은시간이소요 정확한예측과진단값을제공하는가장연관성있는데이터에접근 데이터준비 와데이터가머신러닝시스템에적용되는방식과관련깊은 피처 (Feature) 엔지니어링 단계를거침 동일한데이터마이닝문제유형을위해다양한모델링기법이선택되어적용 데이터형태상의특정요구사항을갖고있으며, 적합한모델링기법적용을위해데이터준비단계로되돌아가는것이종종필요함 생성한모델이잘해석되는지, 독립적인새자료에적용은얼마만큼시킬수있고, 재현가능한지를알아보는단계 데이터분석관점으로부터높은품질을갖는모델을만듦 검토가끝난모형을현업비즈니스인프라에적용하는단계 머신러닝에서도출한패턴을비즈니스환경에적용하기위한목적으로실행 자료 : Pete Chapman(NCR), Julian Clinton(SPSS), Randy Kerber(NCR), Thomas Khabaza(SPSS), Thomas Reinartz (DaimlerChrysler), Colin Shearer(SPSS) and Rudiger Wirth(DaimlerChrysler), CRISP-DM 1.0 재구성 64
머신러닝을활용한스마트서비스와금융 셋째, 법적허용범위안에서기술적역량을키워야한다. 금융권은이전에과도한규제에비해최근규제개혁의움직임으로법적허용범위안에서핀테크열풍과함께간편결제, 인터넷전문은행, 관계기반신용대출등크게변화의물결을맞이하고있다. 최근빅데이터활성화방안으로인해법령상제약요건이어느정도해소되었으나, 금융권에서개인및신용정보는위와같은법률상해석으로모두해결되는것이아니다. 또한비식별화와익명성, 비식별화된정보를개인정보로취급할것인가의문제 ( 다른정보와쉽게결합해개인을식별할수있는개인정보의식별성의쉬운정도 ) 등아직정보의활용에있어서해결해야할사항들은많이존재한다. 또한머신러닝을적용하여빅데이터분석을통해금융서비스를제공하는사례가증가하고있지만, 국내는빅데이터활용이중요한관건임에도불구하고법적제약, 기술적역량의부족등으로제대로활용되지못하고있다. 금융회사들은정보와데이터의특성을잘이해하고분석하여 IT정보들을활용할수있어야만단순해당법률의해석이아닌법적허용범위안에서기술적역량을키울수있는조건이마련될수있을것이다. 그래야만머신러닝의활용에있어개인정보유출등보안사고에대해금융기관의감독과규제만면피하는것이아니라금융고객에게신뢰를줄수있는것이며, 금융회사에서빅데이터의활용이심화될수록개인정보보호와의조화로운균형속에서 IT 정보들을관리할수있는기술적역량을키워나갈수있을것이다. 전자금융과금융보안 2015. 7. 65
< 참고문헌 > [1] Alpaydin Ethem, Introduction to machine learning, 2nd ed., MIT Press, 2010. [2] SAS Institue Inc, An Overview of Machine Learning with SAS Enterprise Miner [3] 이재구외 2명, Big Data 분석을위한 Machine Learning, 한국통신학회지 ( 정보와통신 ), 2014.10, [4] 박혜영, 이관용, 패턴인식과기계학습, 이한출판사, 2011. [5] 클라우드기반머신러닝서비스각홈페이지 [6] 미래창조과학부, 한국정보화진흥원, 빅데이터전략센터, 빅데이터활용을위한개인정보비식별화기술활용안내서, Ver 1.0, 2015.6.10. [7] 금융위보도자료, 빅데이터를활성화하여금융회사와핀테크기업의동반성장토대구축, 2015.6.3 [8] 컴퓨터월드, [ 전문가기고 ] 기계학습, 디지털비즈니스를이끌다, 2015.1.31 66