기획특집 빅데이터의스마트한활용 데이터사이언스와데이터가시화 김상수부장 / 한컴 MDS IoT 사업부 sangsu@hancommds.com 데이터의홍수속에서우리는데이터의홍수속에서살고있다. 웹사이트는모든사용자의클릭을추적하고있고, 스마트폰은매초자신의이동경로와속도를기록한다. 웨어러블센서들은사람의심박수, 운동습관, 수면패턴을기록하며, 스마트자동차는운전자의운전습관을기록하고, 각국의정부는사회적으로쓸만한통계정보를주기적으로생산해내고있다. 특히, 인터넷은그자체로거대한데이터의묶음으로연결된모든것이상호참조될수있는데이터베이스이며, 백과사전이자데이터의재생산자이다. 산업현장에서도같은현상들이일어나고있다. 생산설비는단 1초의중단도허용되지않은채동작하며, 제품을생산하는동시에그제품이만들어지는동안의설비상태에대한데이터를쏟아내고있으며, 생산된제품을대상으로측정된품질과포장유통에필요한데이터가새로발생되는일이반복되고있는것이다. 기업은새로운가치를창출하고, 이데이터를활용하고자, 무의미해보이는데이터더미에서가치를채굴하기위해데이터를모으고, 분석하여가시화함으로써숨어있는의미를찾아내고기업의이익으로전환할수있기를기대한다. 이러한활동은최근강조되고있는 4차산업혁명을대비하여기업의생존을도모한다는것과도일맥상통한다. 데이터를모으고분석하여가치를창출하는것은최근에일어난변화가아니다. 이미수많은기업에서는자사의데이터를잘정리하여분석하고있고, 훌륭한보고서를자동으로출력해내기도한다. 분야에따라다르기는하지만, 비즈니스인텔리전스 (BI) 도구를적극활용하는기업도있고, DW를구축하여자사의데이터를여러각도에서분석하여마케팅에활용하는기업도상당수있다. 하지만데이터를바라보는이러한접근방식은최근의빅데이터활용에대한요구사항을만족시키기에는분석의목표범위나분석의기술적구현방식등에서볼때여러가지차이점을가지고있다. 130
빅데이터의스마트한활용 데이터과학 (Data Science) 21세기의가장섹시한직업은데이터과학자 (Data Scientist) 가될것이다. 라는말이하버드비즈니스리뷰에서언급된이래유행처럼퍼지고있다. 데이터과학자는통계학이나수학에능통하며, 데이터를해킹하며, 특정한분야에대해충분한지식을가지고있어지저분한데이터로부터통찰력을이끌어내는사람으로일컬어지고있다. 누구도하지못했던질문을데이터를대상으로던지고, 소스데이터를이리저리탐색하며, 새로운데이터로변형을가해, 보이지않던가치를다른사람이이해할수있는언어또는다양한매체로설명하는역할을한다. 어떤데이터과학자는정부를보다효율적으로만들고, 노숙자를돕고, 공중보건을개선하기위해데이터를사용하며, 또다른어떤데이터과학자는기업의광고를효율적으로하기위해유저의웹활동로그를다양한차원으로분석하기도한다. 때로는통계학자와데이터과학자를구분하기가어렵고, 머신러닝전문가와데이터과학자를구분하는것도어려운경우가있다. 빅데이터를잘다루는데이터분석가가자신을데이터과학자로명명하는경우도있다. 여기에서는데이터과학자를엄격하게구분하여특정짓지않고, 다만데이터과학이무엇인지살펴보고자한다. 데이터과학이란, 데이터기반과학이라고도하는데, 데이터마이닝과유사하게구조적또는비구조적다양한형태의데이터에서지식이나통찰력을추출하는과학적방법, 프로세스및시스템에대한학문분야로데이터로실제현상을이해하고분석하기위해통계, 데이터분석및관련방법을통합하는개념이다. 수학, 통계, 정보과학및컴퓨터과학의다양한영역, 특히기계학습 ( 머신러 닝 ; Machine Learning), 분류 (Classification), 클러스터링 (Clustering), 데이터마이닝 (Data Mining), 데이터베이스및시각화 (Visualization) 등의많은분야에서가져온기술과이론을사용한다. 통계학 (Statistics) 수학 (Mathematics) 정보과학 (Information Science) 컴퓨터과학 (Computer Science) 기계학습 (Machine Learning) 분류 (Classification) 클러스터분석 (Clustering Analytics) 데이터베이스 (Database) 가시화 (Data Visualization) [ 표 1] Data Science를이루는여러학문분야데이터과학자들은고도로발달한학문과기술들을토대로데이터에생명을불어넣는작업을진행한다. 이작업에는데이터를수집하는일, 데이터를탐색하는일, 다양하게분류하는일, 목적을위해새로운파라미터의패턴을찾아내는일, 필요없는데이터를제거하는일, 변환을위한알고리즘과모델을설계하는일등이포함되며, 밝혀진의미를다른사람들에게효과적으로보여주는일도중요하다. [ 그림 1] 은데이터과학자가하는일들을간략히도식한다이어그램이다. 빅데이터와 IoT 기술의중요성에비해데이터과학은최근에야그중요성이강조되고있는데, 우리는혼란스럽고위험하기그지없는데이터홍수에서살아남기위해정교한방법을선택해야하며, 이도구가바로 데이터과학 이될것이라는데공감대가형성되어가는추세이다. 2017. 11 131
Smart Factory 를위한설비예지보전구축전략 Exploratory Data Analysis Raw Data Collected Data Is Processed Clean Dataset Models & Algorithms Data Product Communicate Visualize Report Make Decisions Reality [ 그림 1] Data science process from Doing Data Science, Cathy O Neil and Rachel Schutt, 2013 데이터분석셀프서비스데이터로부터인사이트를얻는과정에는데이터를 수집 하고 탐색 하여 표현 하는과정이필연적으로따른다. 데이터과학자혹은데이터분석가들은 데이터탐색 에대한오랜경험을통해숨어있는가치를찾아내는직관력을가지게되는데, 이에는데이터를분석하고처리하는이론적토대가필요한동시에, 더자유롭게데이터를조작할수있는소프트웨어도구들이필요하다. 데이터과학자나데이터분석가가아니더라도특정목적을위해업무를처리하는과정에도데이터를자유롭게변형하고표현해보는도구는필요하다. 아직도일반적인데이터표현의도구로 엑셀 을많이사용하는것을보면, 스스로데이터를해석하고표현하여타인에게전달하는것이아주일반적이라는것을알수있다. 과거부터지금까지도대량의데이터를사용자스스로분석하게하는소프트웨어솔루션들은계속하여발전해왔다. 대표적으로비즈니스인텔리전스 (BI) 도구는비즈니스분석가스스로데이터를조회하고계산하여리포트를만들수있도록다양한사용자인터페이스를제공하고있다. 그런데, 이런전통적인도구들과대비되는현재의데이터분석셀프서비스의차이점은무엇일까? 그것은다음두가지에서크게차이가난다. ( 물론전통적인 BI 진영도데이터과학을위해어느분야보다도빠르게진화하고있지만 ) 첫번째는, 셀프서비스의대상 범위 에해당한다. 과거의데이터분석소프트웨어들은이미정제되어수집되어있는데이터를대상으로스스로데이터질의 ( 쿼리 ) 을입력하여대상데이터세트를도출하는방식을 132
빅데이터의스마트한활용 취하고있다. 비록, 전통적인 BI 도구들역시최신의데이터소스에연결할수있도록다양한커넥터를추가지원하고있지만, 이방식을통해, 최신의 IoT 세상에서발생되는비정형빅데이터를스스로취득하여정제하거나데이터과학자의관점에서스스로다양한방식으로데이터를탐색하는데는한계가있어보인다. 두번째는, 사용자가데이터에변형을가하는알고리즘의접근방식이다름을들수있다. 데이터과학자는통계학에능통함을가정해보자. 이는과거의데이터분석가나유능한통계학자와마찬가지로데이터를바라보는시각이유사할수있음을뜻한다. 그렇다면, 더차이가나는것은무엇일까? 차이는많겠지만대표적인예로는데이터과학자는머신러닝이비록통계학에기반하였다하더라도, 스스로이도구를이용하여데이터를기반한기계학습을고려할필요가있음을예로들때과거의 BI 도구들로는부족함을느끼게된다. 데이터과학자도구로서의노트북데이터과학자는데이터에기반한 스토리텔링 의역할을한다. 소설가가하얀백지원고지에이야기를창작하고, 화가가캔버스에그림을그리며, 그래픽디자이너가컴퓨터그래픽도구로이미지를디자인하는것처럼, 데이터과학자는데이터시각화 (Data Visualization) 도구를이용하여데이터에대한스토리를창작한다. 이렇게빅데이터를다루고, 머신러닝알고리즘도개발하고, 사람이알수있는방식으로표현해줄수있는소프트웨어도구중하나가 노트북 이다. 현재많은분석가와데이터과학자들이좋아하는대표적인노트북은 3가지가있다. Notebook Originated Jeppelin Spark Jupyter ipython Kibana Elastic Stack [ 표 2] 대표적인노트북노트북마다강점을가진분야가있어데이터과학자는데이터의특성또는데이터가들어있는컨테이너종류등에따라알맞은노트북을골라사용하게된다. 예를들어, 주어진데이터가스팍 (Spark) 혹은하붑계열의컨테이너를가진다면 Kibana는좀처럼이용하기가쉽지않고, Jeppelin의쉬운연동성을선택하여사용할것이며, 통계해석에강한 R언어보다는수치해석패키지가강한 Python 패키지가필요한경우, ipython의진보한형태의 Jupyter 노트북을선택할것이다. 최근들어각노트북들이지원하는패키지와프로그래밍언어는점점더다양해지고있어개인의취향이나숙련도를제외한다면어떤것이더좋은노트북이라고말하기란쉽지않다. 그런데, 데이터과학자의상상력을표현할수있으며, 동시에숨어있는가치를발견할수있도록영감을불어넣어주는시각화도구라는것이무엇일까궁금해진다. 참고로, 요즘의데이터과학자들은빅데이터를빈번하게다루며, 기계학습알고리즘도설계하고, 가장효과적인방법으로데이터를표현하여외부와공유를한다. 데이터가시화 (Data Visualization) 아래의예시화면들을보자. 전달하려는의미에따라데이터의표현방식은천차만별로다양하다. 보통사람들의인지능력은 3차원이상에서는현저히저하된다고한다. 하지만실제 현상 은 3차원공간만 2017. 11 133
Smart Factory 를위한설비예지보전구축전략 [ 그림 2] Jeppelin Notebook [ 그림 3] Jupyter Notebook 으로는표현의한계가있다. 아주간단한예로, 시계열데이터와공간사물의변화를동시에표현하는것이다. 특히, 종이나컴퓨터화면처럼 2차원평면으로실제현상을다양한파라미터를고려하여표현한다는것은말처럼쉽지는않다. 데이터과학자는최대한많은의미를직관적이며효율적으로타인에게전달할수있 는방법을계속고려하지않을수없다. 수많은데이터표현방법이있겠지만, 공통적으로추구하는바는아래와같다. 가능한많은컨텍스트를담는다 데이터를보는사람의의도에반응한다 ID Name E-mail Investments 231 Albert Master albert.master@gmail.com Bonds 210 Alfred Alan aalan@gmail.com Stocks 256 Alison Smart asmart@biztalk.com Residential Property 211 Ally Emery allye@easymail.com Stocks 248 Andrew Phips andyp@mycorp.com Stocks 234 Andy Mitchel andym@hotmail.com Bonds 226 Angus Robins arobins@robins.com Bonds 241 Ann Melan ann_melan@iinet.com Residential Property 225 Ben Bessel benb@hotmail.com Stocks My Monthly Energy Bill Redesigned Data + Science Sales 70 60 50 40 30 20 10 0 Recreational Product Safes by Region Arizona California Oregon Washington Region Footballs Rackets Shoes Tents [ 그림 4] 데이터의여러가지표현방법 134
빅데이터의스마트한활용 직관적표현으로데이터해독을돕는다 데이터의보다정확한의미를분석하기위해서는단편적인결과보다는데이터가어떤경로를통해변형이되어왔는지, 그과정에데이터변형에영향을준요소는어떤데이터인지를밝혀최종으로는 표현 을해주어야한다. 이는데이터분석을책임지는데이터분석가혹은데이터과학자의최종결과물이될것이다. 아래의목록은데이터를 표현 하는도구로서요즘많이거론되고있는오픈소스또는기술요소들중일부다. D3.js SVG Chart.js Notebook Cesium(data oriented globe system) Unity [ 그림 5] 3D 기반데이터센터관제의예용하고, 실세계로부터센싱되는데이터를그오브젝트에적절히표현하는것은사람의인지력을고려한아주효과적인방법임에는틀림없다. 이에더해, 가상의오브젝트와실세계의조작자 ( 사람또는환경 ) 가상호작용하고반응하면데이터의좋은표현방법이될수있다. ThingSPIN 의데이터수집 / 분석, 가시화 이외에도셀수없이많은기술과오픈소스프로젝트가있지만몇가지만나열한것이며, 이들중대부분은 Web을통한인터렉티브를기반한표현과공유가가능함에주의를기울일필요가있고, 실제 를 가상 공간에투영하기위해, 3D 또는 2.5D 오브젝트에데이터 ( 실세계의컨텍스트 ) 를기반한에니메이션등이직관적인표현을돕는도구로활발히이용되는경우가증가함에주목할필요가있다. 이렇게직관적인표현은최근에강조되고있는 CPS (Cyber Physical System) 의분야에도관계된다. 산업용 IoT 플랫폼 ThingSPIN R 은스마트팩토리, 에너지분야에서제조 / 생산및전력설비로부터발생하는데이터를손쉽게수집하고분석하여모니터링할수있도록가시화해주는웹서비스플랫폼으로데이터사이언티스트를위한다양한도구를아래의영역에서제공한다. 다양한데이터의취득및연결 유연한질의를통한데이터탐색 데이터재처리및분석알고리즘적용 다양한사용자정의시각화위젯 위의화면을보자. CPS에꼭 3D를이용해야한다는의미는아니다. 하지만, 실제세계를가장잘표현해주는방법중하나는실세계와동일한모양을하고있는가상의오브젝트를이 스마트팩토리구현의시작은산재한데이터소스로부터데이터를수집하는것. 데이터는생산설비, PLC, 센서등의장치에서도발생하고, ERP MES와같은레거시시스템에서도발생한다. 2017. 11 135
Smart Factory 를위한설비예지보전구축전략 데이터통합플랫폼분석 통합뷰 가시화 현장노하우 데이터연동 [ 그림 6] ThingSPIN R 플랫폼을통한데이터수집 / 분배 / 분석및가시화 Management Admin Workbench (Data channel Mng.) Management ThingSPIN R Data Channel Data channel Management Property Management Goal ThingSPIN R Data Channel Data Channel Server Data Channel Spec Control Service Where? host : port (client should know) ID, protocol data format, data forwarding spec Enable, Disable, Create, Delete [ 그림 7] ThingSPIN R 의데이터채널관리 136
빅데이터의스마트한활용 이렇게다양한데이터를항해하기위해서는먼저데 이터의소스를이해하고발생하는데이터를통합하여관리할수있어야한다. 있도록다양한솔루션들을소개하고있다. ThingSPIN 은이들을최대한이용함으로써데이터수집과통합을위한기능을사용자에게제공한다. ThingSPIN에서는데이터의부류를 3가지시각으로바라본다. 하나는데이터필드값들이잘정리되어구조화되어있는 RDB 형식의데이터, 하나는서로개연성을가지고있지않아보이는아주다양한형식의비정형데이터들이고, 나머지하나는데이터의시간에따른변화량이중요한시계열데이터이다. 다양한데이터소스는각기다른프로토콜로외부에데이터를내어준다. 이와같은데이터연결에대한프로토콜의다양성은데이터취득과정에어려움을야기하는데, 이를극복하기위한노력은여러분야에서다양한표준제정의시도로나타나고있으며, 산업계에서는 OPC UA(IEC 62541) 가그대표적인예라고할수있다. 다양한채널로수집된데이터는 RDBMS, NoSQL Big Data, Time-series DB 등적절한컨테이너에저장될필요가있다. 데이터의특성에따라가장적절한컨테이너를선택하는것도중요하다. 수집된데이터를탐색할차례다. 전통적으로데이터에대한탐색은데이터베이스질의문 (Database Query Language ; SQL문등 ) 을통해이루어졌다. 이는현재까지도유효하며강력한방법이다. 전통적인데이터질의방법에더해필요한것이있다면, RDB빅데이터 (Big Data) 에특화된 NoSQL을대상으로한질의역시지원되어야함을들수있다. 물론, 표준프로토콜을이용한다고해서각양각색으로발생되는데이터를모두연결할수는없을것이다. 오픈소프트웨어생태계는표준 (Standards) 의지원뿐만아니라소프트웨어의긴역사속에서활발히이용되어온개발자친화적인기법들을이용한오픈소스소프트웨어를발전시킴으로써데이터의취득을쉽게할수 데이터의탐색은 질의 (Query) 를통해소스데이터 (Raw data) 를구하는것에서시작한다. 이제는이소스데이터를이리저리조작하거나다른소스데이터와조합하면서숨어있는의미를찾아내는과정을밟아야한다. ThingSPIN R 은이과정을위해데이터사이언티스트가사용할수있도록앞에서언급했던 노트북 (Notebook) 기 [ 그림 8] 데이터질의와분석결과예시 2017. 11 137
Smart Factory 를위한설비예지보전구축전략 [ 그림 9] R, Python 언어로 DSP 알고리즘입력예시 [ 그림 10] 전력시그널분석결과의예 능을제공한다. R과 Python 언어로데이터분석패키지를사용할수있는프로그램입력기를제공하여데이터질의를통해탐색된소스데이터에대한분석을수행하고, 분석된데이터는최종가시화를위해다양한 UI 위젯들에바인드 (Bind) 되는방식을취하고있다. [ 그림 8] 의예시화면은 R 및 Python 언어로 DSP(Digital Signal Proce ssing) 알고리즘을적용하는과정을보여준다. 이렇듯, ThingSPIN R 플랫폼은다양한형식의데이터취득, 분석및가시화를위한노트북기능외다양한모니터링기능을제공하여스마트팩토리또는에너지분야의설비들을효율적으로분석할수있게함으로써실시간으로현장상태를모니터링하는동시에, 과거데이터의히스토리를추적, 분석함으로써문제가발생했 을때근본적인원인을찾아개선하는데도움이될것이다. 결언스마트팩토리분야의 설비예지진단 등에서도데이터를기반한 현상예지 와 기계의자율의사결정 필요성이대두되고있는요즘, 기업은데이터더미속에숨어있는의미를 채굴 하여 가치 로환산할수있는새로운직무역량을갖출필요가있다. 데이터과학자로불리는이들은통계, 정보공학, 데이터베이스, 머신러닝, 가시화기술등의백그라운드지식과도구를가지고데이터를탐색하며, 경영전반에통찰력을줄것이다. 138