빅데이터상용솔루션동향과시사점 * 손진승, 최규헌 삼성 SDS windfalcon@samsung.com 1. 서론 2. 빅데이터상용솔루션동향 3. 결론및시사점 1. 개요최근 IT 기술의발달에따라스마트폰, 센서등이일상화되면서정보의종류와양이과거와는비교조차할수없을정도로급격하게늘고있다. 특히모바일서비스의이용과개인당스마트기기보유량이급속히증가함에따라데이터가기하급수적으로증가하는대용량의데이터시대가도래하였다. 이러한소위데이터의홍수속에서우리가흔히논하는빅데이터는새로운개념은아니지만, 데이터의활용이경제적가치로까지발전하면서주목을받고있다. 이같은빅데이터의경쟁력은대량의다양한데이터를빠르게추출하고적재하여분석을통해경제적인가치를이끌어내는데있다. 그리고빅데이터의가치는기존금융, 통신사업을비롯하여교통, 정보, 의료, 농업, 국방등전산업분야에서무한한가치를가져올수있다. 빅데이터를이용한분석과해석으로독감과같은전염병이나자연재해의이동경로를미리파악하는것등은이미활용되고있는좋은사례이다. 또한기업환경에서는데이터에서의사결정에필요한의미있는정보의발견, 분석하는능력이기업비즈니스의핵심경쟁력으로부상하고있다. 위키피디아에서는빅데이터를 기존의데이터베이스관리도구의데이터수집, 저장, 관리, 분석의역량을넘어서는대량의정형또는비정형데이터세트및데이터로부터가치를추출하고결과를분석하는기술을의미한다. 고정의했다 [1]. 최근빅데이터분석을놓고새로운기술트렌드라고말하기보다는글로벌솔루션벤더들이각자의솔루션을이용하여기존것을대체하고새롭게단장된솔루션을판매하기위 * 본내용과관련된사항은삼성 SDS Senior Consultant 최규헌 ( 02-2255-4046) 에게문의하시기바랍니다. ** 본내용은필자의주관적인의견이며 NIPA 의공식적인입장이아님을밝힙니다. 14
한목적이라고보는시각도있다 [2]. 실제로많은빅데이터분석과관련된상용솔루션을보면새로운것이라기보다는이미기업내에유사한사례들이많이도입되어사용하고있는경우가많다. 이는소프트웨어의발전과더불어하드웨어와네트워크등의성능개선과함께부품의가격이싸지면서본격적으로기업내에데이터분석이자리를잡아가고있기때문이다. 소셜분석분야에대한이론적연구는이미수십년간연구가이루어지고있다가최근에는대규모의사례분석과적용등이발표되고있는것이그예이다 [3]. 이유야어찌하든빅데이터의경제적가치가급부상되고있는것은주지의사실이다. 본고에서는이러한경제적가치발굴을위해활용가능한빅데이터의상용솔루션동향을파악하고그시사점을정리하고자한다. 이해의편의와용이한구분을위해빅데이터의상용솔루션은 4 가지레이어로구분하였다. - 데이터수집 (Data Collection) - 데이터저장, 처리 (Data Store and processing) - 데이터분석 (Analyzing) - 시각화 (Visualization) 2. 빅데이터상용솔루션동향빅데이터분석은분석하려는데이터를수집하는단계에시작하여분석에적합한형태로가공하고, 데이터간의관계분석을통해현상을설명하거나, 이후에벌어진일들을예측하는과정으로진행된다. 이러한빅데이터분석시장은 BI(Business Intelligence) 솔루션을공급해오던소프트웨어벤더로부터하드웨어를시장에공급하던전통하드웨어업체들까지자신이가지고있는강점을살리면서다양한제품들을시장에내놓고있다. ( 그림 1) 은빅데이터상용솔루션을인프라측면과애플리케이션측면으로구분하여벤더들을분류한그림이다. 가. 데이터수집데이터수집단계는빅데이터분석의대상이되는데이터가생성되거나보관중인곳으로부터에이전트 (Agent) 혹은별도의어댑터 (Adapter) 등을통해수집서버에저장하거나, 별도의저장소에데이터를저장하는단계를말한다. 수집되는데이터대상은구조화된정 정보통신산업진흥원 15
도에따라정형, 반정형및비정형데이터로통상분류가가능하다. 이러한데이터수집분야의상용솔루션은 < 표 2> 와같다. 정형데이터는오래전부터 DW(Datawarehouse) 및 BI 솔루션등을활용하여다양한분석이이루어져왔으나, 반정 형데이터와비정형데이터는최근에야주목을받기시작한분야이다. < 표 1> 수집대상데이터의종류및정의 [5] 데이터유형 정의 예 정형 (Structured) 고정된필드로정의된데이터 관계형데이터베이스및스프레드시트등 반정형 (Semi-Structured) 비정형 (Unstructured) ( 그림 1) Big Data Landscape[4] 고정된필드에저장되어있지는않지만, 메타데이터나스키마등을포함하는데이터 고정된필드에저장되어있지않은데이터 XML, HTML 등 텍스트분석이가능한텍스트문서및이미지 / 동영상 / 음성데이터등 16
< 표 2> 데이터수집상용솔루션 단계국내해외 정형 반정형 비정형 [ETL] 아크원소프트 Easy-up 데이터스트림즈테라스트림 그루터 BAAS 이투온 UNINAN 코난테크놀로지 pulse-k RSN RIS-K 그루터 seanal.com [ETL] IBM Datastage Informatica Powercenter MS SQL Server Integration Services Microstrategy [CDC] Oracle GoldenGate HP Archsight IBM Infosphere Streams Loggly MS SQL Server StreamInsight Splunk sumologic TIBCO Business Event VITRIA HP Autonomy IDOL Oracle Endeca 정형데이터수집은 < 표 2> 와같이전통적으로 ETL 솔루션이사용되며, OLTP 시스템에서생성된트랜잭션데이터를전통적인 BI 분석을위해 DW 로전달하기위한목적으로사용된다. ( 그림 2) 와같이수집목적에따라서는백업및장애예방을위해사용되기도하며, CDC 를지원하는솔루션을이용하여실시간으로데이터를복제하여분석에이용하기도한다. 기업내에존재하는대표적인반정형데이터는 B2C 사이트에서생성되는사용자로그와생산설비에서쏟아내는설비로그, 방화벽, IPS 및 IDS 등에서쏟아내는보안로그등이해당된다. Source System OGG Parameter File OGG Parameter File Extract Source Trail Pump Lan/Wan Internet(TCP/IP) Target Trail Replicat Redo/Archive Log File ( 그림 2) CDC 솔루션 (Oracle GoldenGate)[6] 정보통신산업진흥원 17
( 그림 3) 반정형데이터 ( 로그 ) 수집개념도 [7] 반정형데이터는수집을위해로그가생성되는서버에에이전트를설치하여해당에이전트를통해수집서버로데이터를전달하게되며, 수집서버에는데이터수집대상이되는서버를수집노드로등록하여해당노드의상태, 데이터흐름등을모니터링하게된다. ( 그림 3) 의스플렁크 (Splunk) 와같이자체저장공간을제공하는경우는수집된데이터를좀더빠르게검색및탐색할수있는데이터분석기능을제공하기도한다 [7]. 이러한반정형데이터중시스템보안로그와같은경우는특성상신속한수집과분석이필요한데 < 표 2> 에는언급하지않았지만, CEP(Complex Event Processing) 솔루션을이용하여사전에정의된패턴과비교하고이상징후등의특정사건으로인한패턴의변경을감지하여대응하는체계가종종사용된다. 비정형데이터는기업내에서운영하고있는 KM(Knowledge Management), EP (Enterprise Portal) 에서저장, 관리되는데이터와기업외의 SNS(Twitter, Facebook 등 ) 포털및홈페이지등에등록된텍스트, 이미지, 동영상등에해당하며, 특정한패턴이존재하지않으므로탐색의깊이와범위를사전에정의하여수집이통상이루어지게된다. 비정형데이터수집의방법은 < 표 2> 의이투온 UNINAN 등과같이일반적으로크롤러 (Crawler) 라고불리는에이전트기반의솔루션을사용하여목표가되는사이트주소를입 18
력하고, 해당페이지로부터링크를찾아서광고등의불필요한정보를정제한후데이터분석에필요한데이터를수집한다. 수집에사용되는방법은키워드방식과 Linked 방식이많이사용되며, 의미없는데이터의양을줄이기위해최근에는키워드방식이주로사용되는추세이다. 비정형데이터는특성상수집후데이터처리와분석과정이매우중요한데, 한국어를지원하는외산솔루션이아직은드물어국내에는토종솔루션벤더가강세를보인다. 참고로, 상용솔루션외에오픈소스기반의데이터수집도가능하다. 대표적으로는 Chukwa, Flume, Scribe 등을이용하여분산환경에서생성되는데이터를하둡 (Hadoop) 과같은분산환경파일시스템으로수집하고저장하는것이가능하다. 나. 데이터저장및처리플랫폼 데이터저장및처리단계는수집된데이터를분석에맞도록가공하고이상치를제거하 는단계로, 정형혹은비정형데이터분석의플랫폼이라고말할수있다. 데이터저장및처리에사용되는플랫폼은전통적인데이터웨어하우스기반의 DW 어 플라이언스플랫폼과하둡과같은분산파일시스템기반의플랫폼으로크게구분이가능하다. DW 어플라이언스는 Oracle 의 Exadata 와같이하드웨어와소프트웨어가통합되어 일체형이제공되는솔루션으로설치와유지보수가용이한장점이있으나, 가격이비싼것 이상대적으로단점이다. < 표 3> 과같이 DW 기반의빅데이터플랫폼은외산솔루션이주 류를이루고있다. < 표 3> 국내외데이터처리솔루션단계국내해외 DW 기반 하둡기반 Altibase HDB Altibase GloryFS bigster distributed 하둡 KT NDAP NFLabs Pelto 그루터 BAAS 클루닉스 Gridcenter 하둡 EMC Greenplum DW HP Vertica IBM Puredata MS SQL Server PDW Oracle Exadata SAP HANA, Sybase IQ Teradata DW Appliance EMC Greenplum HD IBM Infosphere BigInsights Microsoft HDInsight Server Oracle Big Data Appliance Teradata Aster Appliance 정보통신산업진흥원 19
OSS BSS DW NMS R 업무시스템 OLAP ODS HBase 근실시간 RHive ODBC JDBC Mart DB Validation, Converting, Normalizing Search Hadoop 실시간 배치 Hive ETL Export Workflow DW OSS BSS NDAP(NexR Data Analysis Platform) 분산파일시스템인하둡기반의플랫폼에대한솔루션은 EMC Greenplum HD 과같이 일체형솔루션형태로공급하거나, IBM Infosphere BigInsights 와같이 x86 서버기반의 소프트웨어만제공하는경우가있으며, 일체형솔루션의경우는 DW 기반과마찬가지로성 능을높이고관리포인트가줄어든다는장점이있으나, 하드웨어에대한의존성이높아지 고비용의증가를고려해야한다. DW 기반의제품은고가이나사용성과성능이보장되는장점이있고, 하둡기반의플랫 폼은상대적으로저렴하고확장성이용이하나전문인력의확보가쉽지않은단점이있다. ( 그림 4) 는하둡기반으로구축한플랫폼의사례이다. 최근제품에는 DW 기반으로하둡에저장된데이터를접근하고분석할수있도록커넥 터등을이용한접근을 DW 어플라이언스에서제공하기도한다. 이러한기존의 DW 와연 계한커넥터제공은기업입장에서는새로운빅데이터전문가의양성부담을줄이고, 기존의 < 표 4> 저장및처리단계의오픈소스 [9] 단계 Hive Pig Hbase ( 그림 4) 하둡기반플랫폼구성도 [8] 해외 하둡및하둡호환파일시스템에저장된대량의데이터를 SQL 과 HiveQL 이라불리는언어를이용하여요약, ad-hoc Query 및분석을손쉽게할수있도록만들어진하둡용 DW(data warehouse) 고급데이터흐름개발언어와병렬처리를지원하는대용량분석플랫폼 구글의빅테이블설계를기반으로만들어진컬럼기반의하둡용데이터베이스로확장성과분산처리를지원함 20
DW 전문인력들이비교적용이하게빅데이터플랫폼에접근하게만드는등의장점이있다. 상용솔루션이외에도오픈소스를활용하여데이터처리, 저장및분석이가능하며, 대 표적으로 Hive, Pig 및 Hbase 등의소프트웨어가있다. 다. 데이터분석 데이터분석단계는정제된데이터로부터유의미한정보를파악하거나앞으로일어날 트렌드를예측하고 Insights 를발견해가는과정으로, 데이터특성에따라정형데이터분 석과비정형데이터분석의영역으로나눌수있다. 정형데이터분석은전통적인 BI 영역으로다양한상용솔루션과많은알고리즘이개발 되어정형데이터분석에사용되어왔다. 최근에는메모리가격하락과실시간데이터처리 에대한요구사항증가로 SAP HANA 솔루션과같이인메모리 (In-memory) 데이터베이스 가도입되는사례가늘어나고있다. 이러한환경적인변화와함께인메모리분석과인데이 터베이스 (In-Database) 분석을지원하는 SAS 의 HPA 와같은솔루션도출시되고있며, 데이터분석과정에서발생하는데이터이동에따른병목현상을해결하여실시간으로데 이터처리와분석을제공하고있다. 그외에정형데이터분석을위해하둡위에서 MapReduce 프레임워크를기반으로직접프로그램을만들어데이터분석을하는방법과 DW 어플라이언스에서하둡플랫폼에접근하여분석을수행하는방법도있다. 비정형분석은텍스트를대상으로한텍스트마이닝분야를중심으로발전하고있다. 텍스트마이닝과관련된주요기술은자연어처리, 개체명명인식, 감성분석등이있다. 분석 < 표 5> 국내외분석솔루션 단계국내해외 정형 / 반정형 비정형 ECMiner KT RHive 야인소프트 OctagonTM Enterprise BI 다음소프트 SOCIALmetrics 사이람 NetMiner 센솔로지오피니언버디, 평판닷컴솔트룩스 truestory SK 스마트인사이트이투온 SNSpider Altair HiQube IBM SPSS MS SQL Server Analysis Services Oracle Endeca SAS HPA Oracle Endeca SAS Text Analytics 에스엠투네트웍스 Radian6 정보통신산업진흥원 21
대상이되는데이터가텍스트가주류를이룸에따라언어적특징에많은영향을받게되는 데, 외산솔루션중한국어를완벽하게지원하는경우가많지않아사이람 NetMiner 와같 은토종솔루션이강세를보이고있다. 라. 시각화 시각화영역은데이터분석과정과매우밀접한관계에있으며, 데이터분포등의특성 과분석결과를도표와그래프를이용하여이해하기쉬운형태로표현하는과정이다. < 표 6> 의 Oracle Endeca 와같이대부분의데이터분석솔루션이시각화기능을제공하고있 으며, 반대로시각화솔루션도경우에따라서는데이터분석기능이역시내재되어있다. 시각화에는단순하게데이터처리와분석결과를보여주는것과데이터특성을이해하고 Drill-Down 기능등을이용하여단계적으로원천데이터에접근하는경우두가지로구분 할수있으며, 후자의경우에는응답속도가이슈가된다. 이러한경우다량의데이터를빠 르게분류하고처리하기위해 Tibco Spotfire 와같이인메모리기반의분석기법을사용 하거나, 자체분석서버를추가하여시각화의성능을높이는방법을채택하기도한다. < 표 6> 은시각화솔루션의대표적제품들이며외산솔루션이대부분을차지하고있다. 시각화를지원하는대표적인오픈소프트웨어는 R 프로젝트에서다양한패키지를제공 하고있으며, 상용솔루션과연계하여사용하는것도가능하다 [10]. < 표 6> 국내외시각화솔루션 단계 국내 해외 시각화 - MS SQL Server Reporting Services SAS Visual Analytics Tibco Spotfire 3. 결론및시사점가트너의부회장인 Peter Sondergaard 는 21 세기의기업활동에있어서빅데이터는연료이며분석은엔진이다 고말했다 [11]. 주지하다시피, 21 세기는데이터를통한가치를얻는것이기업의경쟁력이되었고, 이제빅데이터분석은선택이아닌필수로인식되고있다. 빅데이터를도입하는기업입장에서는빅데이터인프라를위해하둡기반의오픈소스를자체적으로구축하는것은전문인력의필요성과함께시간과비용의문제가대두되므로 22
쉽지않는선택이다. 따라서대부분의기업들은빅데이터를도입함에있어서상용솔루션은피할수없는선택이다. 상용솔루션을선택함에있어서는먼저빅데이터분석을통해얻을비즈니스가치를명확히해야한다. 또한기업내의데이터와연계가가능한소셜데이터등외부데이터를정의하고, 데이터생명주기등의데이터의관리체계와데이터의언어적, 사회적, 문화적특성을이해하여, 이에맞는솔루션과인프라도입전략을세워야한다. 일례로비정형데이터의경우언어의속성상국내솔루션을선택할수밖에없는경우가대부분이고, 데이터의적재와처리가이루어지는플랫폼의경우실시간분석이필요한경우와그렇지않은경우에도입솔루션의종류와그비용에는매우큰차이가있다. 또한분석단에서도전문인력이부족하고조달이어려울경우에는, 기존의 DW 인력을활용하여데이터분석이가능한솔루션을선택할수있으므로자사의기술수준과갖고있는역량에맞는접근이필요하다. 요약하면기업의인프라구축에대한요구사항을앞서정의한빅데이터의레이어별로필수기능과부가기능그리고성능요구사항을정의하고, 자사의데이터의특성과업무에맞는솔루션을선택해야구축에따른성공가능성을높일수있을것이다. 또한유사한업종의적용사례를살펴보는것역시매우중요하다. 역으로, 빅데이터솔루션공급자입장에서는비즈니스도메인별로빅데이터분석을활용한성공사례를적극적으로찾아서구체적으로알리는것이필요할것이다. 또한솔루션도입부터운영과관리에필요한전문인력이필요한데, 국내외를막론하고전문인력이부족하다. 공급벤더입장에서는효과적인기술이전프로그램을마련하여신속한기술이전계획과인력양성프로그램을만들어제공하는것이성공적인빅데이터확산의지름길일것이다. < 참고문헌 > [1] http://en.wikipedia.org/wiki/big_data, 2013. [2] http://www.dt.co.kr/contents.html?article_no=2013032002012351600001 [3] 이병엽외 2 인, 빅데이터를이용한소셜미디어분석기법의활용, 한국콘텐츠학회논문지 '13 Vol.13, No.2, 2012. [4] http://www.bigdatalandscape.com/, 2013. [5] 조성우, Big Data 시대의기술, 한국 IT 서비스산업협회, 2011. 정보통신산업진흥원 23
[6] http://www.oracle-mkt.co.kr/newsletters/pdf/oracle_goldengate_okm.pdf, 2013. [7] http://www.splunk.com, 2013. [8] http://www.bloter.net/archives/135077, 2013. [9] http:// 하둡.apache.org/, 2013. [10] http://www.r-project.org/, 2013. [11] http://www.gartner.com/newsroom/id/1824919, 2013. 24