빅데이터기반의산업시장정보분석 유선희한국과학기술정보연구원
차례 빅데이터시대의도래 5 빅데이터기반의정보분석 29 빅데이터분석관련시장 45 빅데이터분석의활용 65 향후전망 83
빅데이터시대의도래
빅데이터시대의도래 1. 급속히증가하는디지털데이터데이터의폭발적인증가 1) 기존소셜네트워크서비스로대표되는소셜미디어의성장과스마트폰으로대변되는모바일장치의확산이결합되어일상속에서다양한종류의대규모데이터가급속히생성, 유통, 저장되고있다. 또한 RFID(Radio Frequency Identification) 와같이정보를감지하는센서장비의이용확대와이러한정보를수집하는클라우드컴퓨팅기술의확산은물류의이동및재고의변화뿐만이아니라개별소비자들의개인정보및소비행태와같은모든일상에대한디지털기록을가능케하고있다. 지난수년간스마트폰과같은스마트기기의빠른확산과함께 SNS 등소셜미디어가급성장함에따라개인정보와소비패턴, 위치정보등이포함된가치있는데이터가매순간엄청난양으로생성되고있으며, M2M(Machine to Machine) 과 IoT(Internet of Things) 등이활성화되면서인프라시스템자체도다량의데이터를직접생성하기시작했다. 2) 글로벌데이터측면에서보면, 인류탄생에서 2003년까지발생한데이터가 1) 위키백과, 2013. 7. 15. 2) 데이터베이스진흥협회, 2013 데이터베이스백서 빅데이터기반의산업시장정보분석
5 엑사바이트 (10 18 byte) 정도되는데, 이는최근 2 일동안발생하는데이터양 에해당될정도로최근의데이터양은폭발적으로증가하고있다. 그림 1-1 디지털데이터의 10 년간성장 ( 단위 : 엑사바이트 (10 18 byte) 출처 : IDC (2011) 3), 4) 그림 1-2 디지털데이터처리비용감소및전체투자증가 출처 : IDC (2011) 5) 다시말해, 하루에도수많은데이터가만들어지고있는데, 1 분내에 1 억 6 천 8 백만개의이메일 (e-mail) 이발송되고, 51 만개의페이스북댓글 (facebook 3) IDC s Digital Universe Study, sponsored by EMC, June 2011 4) John Gantz & David Reinsel, Extracting Value from Chaos, IDC IVIEW June 2011 5) IDC s Digital Universe Study, sponsored by EMC, June 2011 6 I 7
comment) 이달리며, 1만 3천개의아이폰 (iphone) 어플이다운로드되는등소셜네트워크를통한데이터가기하급수적으로생성되고있다. 6) 정보시스템의고도화, 모바일, 클라우드 (cloud), 소셜네트워크의일상화로인해생성되는데이터의양이제타바이트 (10 21 byte) 시대에돌입하고있다. 그림 1-3 1 분동안인터넷에서발생되는데이터 출처 : Intel, What Happens In An Internet Minute? 7) 월마트 (Wal-Mart) 의경우매시간백만건이상의고객거래업무를처리해서데이터베이스 ( 약 2.5 페타바이트이상의데이터를저장하는것으로추정됨 ) 에저장한다. 일반적으로소매업계에서사용하는 RFID 시스템의경우, 종래의바코드시스템보다 100~1,000배나더많은데이터를생성해낸다. 8) 페이스북 (facebook) 은매일 2억 5천만건이상의사진업로드와 9억건이상의개체 ( 페이지, 그룹등 ) 를포함하여, 약 8억건의사용자이용을처리한 6) 이성희, Big Data의이해 - 가치와도입전략, 한국컴퓨터정보학회지, 20권2호, 2012.12, p15-18. 7) http://www.intel.com/content/www/us/en/communications/internet-minute-infographic.html 8) Mark Troester, "Big Data Meets Big Data Analytics", SAS white paper, 2012 빅데이터기반의산업시장정보분석
다. 또한, 전세계 50억명의사용자들이모바일폰을사용해서전화를걸고, 문자메시지를주고받고, 트윗을올리고, 웹검색을한다. 이렇듯, 지금조직들은그야말로엄청난규모, 즉, 테라바이트, 페타바이트의데이터에직면하고있는실정이다. 그렇다면 1 테라바이트의크기는어느정도일까? 1 테라바이트는 2,000 시간분량의 CD 음질음악을, 10 테라바이트는미국회도서관의인쇄물전체를저장할수있는규모다. 9) 1 페타바이트에대해서는 < 그림 1-4> 에서알수있듯이, 문서로채워진서랍 4개짜리캐비넷 2천만개또는 HD급 TV 비디오 13.3년분량의엄청난크기이다. 문제는, 이제엑사바이트, 제타바이트, 요타바이트의시대도머지않아도래할것이라는사실이다. 10) 운영및거래시스템, 스캐닝및시설관리시스템, 인바운드및아웃바운드고객접점, 모바일미디어와웹등, 다방면에서데이터가쏟아져나오고있다. IDC 측은 2011년에생성되고복제된정보의양이 1.9 제타바이트 (1.8조기가바이트 ) 를초과할것으로예상하였는데, 이는불과 5년만에 9배증가한수치다. 다시말해, 디지털우주에존재하는정보비트의수가물리적우주에서의별의수에근접하는수준이다 라고보고하고있다 (2011년 6월 EMC가후원한 IDC Digital Universe Study) 11). 이같은데이터의폭발적증가는새로운현상이라기보다는 1970년대부터시작되어지금까지이어져오고있는트렌드의연장선이라고할수있다. 바뀐것이있다면, 데이터증가속도와유형의다양성, 그리고비즈니스혁신을위해정보를더욱효과적으로활용해야할필요성이대두되기시작했다는점이다. 12) 그림 1-4 페타바이트 (10 15 byte) 는어느정도의크기일까? 9) 1테라바이트 => 1,000기가바이트, 2,000시간분량의 CD음질음악, 250~500편의영화, 10테라바이트의경우미국회도서관의인쇄물 (3200만권책, 6100만개원고 1백만권정부간행물, 1백만 300년간세계이슈신문, 33000 묶음신문등등 ) 전체저장 10) 1테라바이트 =10 12 byte, 1페타바이트 =10 15 byte, 1엑사바이트 =10 18 byte, 1제타바이트 =10 21 byte, 1요타바이트 =10 24 byte 11) Mark Troester, Big Data Meets Big Data Analytics, SAS white paper, 2012 12) Philip Carter, Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO, IDC, 2011. 8 I 9
출처: www.mozy.com 비정형 데이터의 증가 13) 더불어 정형 데이터보다는 비정형 데이터의 증가로 전세계 데이터량은 매 년 약 60%씩 증가할 것으로 예상된다. 소셜데이터를 포함한 비정형 데이터는 향후 생성되는 전체 데이터의 90%에 달할 것으로 전망된다. <그림 1-5>에서 보듯이 정형화된 데이터베이스의 비중은 약 10%로 점점 감소하는 추세를 보 이고, 비정형 데이터는 약 90% 정도이고 점점 증가하는 추세를 보이고 있다. 이렇게 생성되는 전체중 90%에 달하는 비정형 데이터는 기존 방식으로는 분석에 상당한 비용과 시간이 소요되고 분석이 제한됨에 따라 새로운 분석 방 식과 기술이 등장하게 되었다. 2020년까지 35 제타바이트까지 폭증할 것으 14) 로 예상되고 있으나(IDC, 2011), 그 가운데 3분의 1 정도만을 분석할 수 있을 것으로 보여진다. 15) 13) T erri McClure, Quantum StorNext-Meeting Unstructured Data Storage Requirements Across the Data Lifecycle with Scale-Out Storage(White Paper), Enterprise Strategy Group(ESG), Dec 2010. 14) 데이터베이스진흥협회, 2013 데이터베이스백서 15) 이성희, Big Data의 이해 - 가치와 도입전략, 한국컴퓨터정보학회지, 20권2호, 2012.12, p15-18. 빅데이터 기반의 산업시장 정보분석 정보분석보고-내지(유선희).indd 10 2013-09-27 오후 3:44:50
기업및사회는이러한수집된데이터를기반으로예측분석을하기위하여다양한종류의대규모데이터처리, 분석및활용기술을필요로하고있다. 대량의다양한데이터생산기술의진보와이에필요한데이터저장, 관리, 분석기술의발전속에서빅데이터가출현하게되었다. 16) 그림 1-5 세계디지털데이터유형별생성추이 (2010-2015, 단위 : 페타바이트 (10 15 byte)) 출처 : Enterprise Strategy Group, 2010 17) 2. 빅데이터의개념및특징빅데이터의개념 18) 빅데이터 (big data) 란기존데이터베이스관리도구로데이터를수집, 저장, 관리, 분석할수있는역량을넘어서는대량의정형또는비정형데이터집합 19) 및이러한데이터로부터가치를추출하고결과를분석하는기술 20) 을의미한다. 다시말해, 빅데이터는너무크고복잡하여기존의데이터베이스관리툴또는전통의데이터처리제품을사용하여처리하기어려운데이터셋 (data 16) Mark Troester, "Big Data Meets Big Data Analytics", SAS white paper, 2012 17) Enterprise Strategy Group(ESG) Report, Digital Archive Market Forecast 2010-2015, July 2010. 18) 위키백과, 2013. 7. 15. 19) James Manyika & Michael Chui, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, (2011년 05월 ), Pg.1 20) John Gantz & David Reinsel, Extracting Value from Chaos, IDC IVIEW June, (2011년), p.6. 10 I 11
sets) 이수집된것이다. 21)22) 여기에는캡쳐 (capture), 큐레이션 (curation), 저장 (storage), 검색 (search), 공유 (sharing), 전송 (transfer), 분석 (analysis) 및가시화 (visualization) 영역이포함된다. 다양한종류의대규모데이터에대한생성, 수집, 분석, 표현을그특징으로하는빅데이터기술의발전은다변화된현대사회를더욱정확하게예측하여효율적으로작동케하고개인화된현대사회구성원마다맞춤형정보를제공, 관리, 분석가능케하며과거에는불가능했던기술을실현시키기도한다. 이같이빅데이터는정치, 사회, 경제, 문화, 과학기술등전영역에걸쳐서사회와인류에게가치있는정보를제공할수있는가능성을제시하며그중요성이부각되고있다. 빅데이터의정의 23) 빅데이터의정의에합의된바는없지만맥킨지와 IDC는데이터베이스의규모와업무수행에초점을맞춰빅데이터를다음과같이정의하였다. - 데이터베이스의규모에초점을맞춘정의 (McKinsey, 2011) 24) : 일반적인데이터베이스 SW가저장, 관리, 분석할수있는범위를초과하는규모의데이터 - 데이터베이스가아닌업무수행에초점을맞춘정의 (IDC, 2011) 25) : 다양한종류의대규모데이터로부터저렴한비용으로가치를추출하고 ( 데이터의 ) 초고속수집, 발굴, 분석을지원하도록고안된차세대기술및아키텍처 IDC Asia Pacific 부사장 Philip Carter에따르면, 빅데이터기술은고속캡처 / 발견 / 분석을가능하게함으로써방대하고다양한데이터에서경제적가치를도출하도록설계된신개념의기술과아키텍처를말한다. 단, 이분석기술은실시간또는준실시간으로가동되어야하며, 경제성과안전성그리고 21) White, Tom (10 May 2012). Hadoop: The Definitive Guide. O Reilly Media. p. 3. ISBN 978-1-4493-3877-0. 22) MIKE2.0, Big Data Definition. //MIKE(Method for an Integrated Knowledge Environment) 23) 위키백과, 2013. 7. 15. 24) James Manyika & Michael Chui, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, (2011년 05월 ), Pg.1 25) John Gantz & David Reinsel, Extracting Value from Chaos, IDC IVIEW June, (2011년), p.6. 빅데이터기반의산업시장정보분석
현실성을충족시킬수있는것이라야한다고정의하였다. 26) 표 1-1 기존의빅데이터정의 구분 맥킨지보고서, 2011 ( 규모적정의 ) IDC 보고서, 2011 ( 기술적정의 ) 삼성경제연구소, 2011 ( 방법적정의 )1 위키피디아 정보통신정책연구원, 2012 정보통신산업진흥원. 2012 주요내용 기존방식 ( 일반적인데이터베이스 SW) 으로저장관리분석할수있는범위를초과하는규모의데이터 다양한종류의대규모데이터로부터저렴한비용으로가치를추출하고, 초고속으로수집발굴분석하도록고안된차세대기술및아키텍처 당초다양한수십-수천테라바이트에달하는거대한데이터집합자체만을지칭하였으나, 점차대규모데이터관련도구, 플랫폼, 분석기법까지포괄하는개념으로변화 기존데이터베이스관리도구의데이터수집저장분석의역량을넘어서는대량의정형또는비정형데이터세트및이러한데이터로부터가치를추출하고결과를분석하는기술 데이터의양, 생성주기 ( 실시간생산 ), 형식 ( 수치데이터뿐아니라문자와같은비정형데이터포괄 ) 등에서과거데이터에비해규모가크고, 형태가다양하여기존의방법으로는수집저장분석이어려운방대한크기의데이터 수많은정형데이터혹은비정형데이터를수집하면분명한패턴이나오게되며, 이를통해수집된데이터를기반으로한예측분석 ( 유용한의미와통찰을끌어낼수있는인재와조직을포함하는포괄적인개념으로정의 ) 출처 : NIPA (2013) 27) 재구성 2001년연구보고서와관련강연에서, META 그룹 ( 현재 Gartner) 분석가더그래니 (Doug Laney) 가데이터성장의도전과기회를 3차원적으로, 즉, 데이터의양 (volume) 의증가, 데이터입출력속도 (velocity) 의증가그리고데이터유형및소스범위 (variety) 의증가로특징을설명하였다. 그리고현재는가트너 (Gartner) 와다른많은산업의관계자들이이러한 3V 모델을빅데이터설명에계속해서사용하고있다 28). 2012년가트너는다음과같이빅데이터의정의를업데이트하였다 : 빅데이터는대용량 (high volume), 고속 (high velocity) 및매우다양한 (high variety) 정보자산 (information assets) 으로강화된의사결정, 통찰력의발견 (insight discovery) 및공정최적화를위해서새로운형태의처리가필요한것이 26) Philip Carter, Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO, IDC, 2011.09. 27) NIPA, 빅데이터의핵심플랫폼, 기업용하둡동향, 2013.2. 28) Beyer, Mark. Gartner Says Solving Big Data Challenge Involves More Than Just Managing Volumes of Data. Gartner. Archived from the original on 10 July 2011. Retrieved 13 July 2011. 12 I 13
다. 29) 더욱이, IBM을비롯한몇몇기관에서는새로운 V Veracity( 진실성 ) 를빅데이터특징을설명하는데추가시키기도하였다. 30) 가트너의정의 (3V) 가널리사용되고, 개념이더성숙해질수록데이터와그용도를고려할때, 빅데이터와비즈니스인텔리전스 (Business Intelligence, 이하 BI) 간의차이는더벌어지게된다. 즉, BI는기술적통계 (descriptive statistics) 를사용하는데, 사용되는데이터는고밀도의정보 (high information density) 로사물을측정하고, 경향을감지하는등의정보이다. 반면에빅데이터는귀납적통계 (inductive statistics) 를사용하며, 데이터는저밀도정보 (low information density) 31), 즉, 엄청난양 (volume) 의데이터의회귀분석등에의해규칙을발견하는것으로, 추론을합리화하는데한계가있지만, 빅데이터자체가어느정도의예측능력을갖게된다. 32) 일본노무라연구소는빅데이터를광의적으로는인재조직, 데이터처리축적분석기술, 데이터등 3요소로정의하였는데 33), 빅데이터의대표적특성인 3V는인재, 기술, 데이터 3요소중에데이터에해당하는특성으로써협의의정의로구분하였다. 그림 1-6 노무라연구소의광의의빅데이터정의 출처 : 노무라연구소 (2012) 34) 29) Douglas, Laney. "The Importance of 'Big Data': A Definition". Gartner. Retrieved 21 June 2012. 30) "What is Big Data?". Villanova University. 31) Delort P., Big data Paris 2013 http://www.andsi.fr/tag/dsi-big-data/ 32) Delort P., Big Data car Low-Density Data? La faible densiten information comme facteur discriminant http:// lecercle.lesechos.fr/entrepreneur/tendances-innovation/221169222/big-data-low-density-data-faibledensite-information-com 33) 노무라연구소 (2012), 빅데이터시대도래, IT 프론티어 3월호 34) 노무라연구소 (2012), 빅데이터시대도래, IT 프론티어 3월호 빅데이터기반의산업시장정보분석
빅데이터의특징 35) 빅데이터는데이터의양, 속도, 다양성, 가변성이조직의저장능력이나처리용량을초과하여적시에정확한의사결정을내릴수없게만드는상황을기술하는상대적용어다. 경우에따라서빅데이터는급증하는온라인활동의부산물이라할수있는데이터스토어에보관되기도한다. 계량, 콜센터의세부통화기록, 환경감지, RFID 시스템같은 M2M(Machine-to-Machine) 상호작용역시엄청난양의데이터를만들어낸다. 이같이다양한형태의데이터가끊임없이늘어나는가운데, 가속화가붙은소셜미디어 (social media) 의비정형 반정형데이터스트림의증가가부담을더욱가중시키고있다. 기업이나기관들은이러한엄청난양과속도로생성되는데이터문제로고심하고있다. 모든부문의조직들이보통 100 테라바이트 (10 12 byte) 이상의데이터를보유하고있고, 이중페타바이트 (10 15 byte) 를초과하는경우도많다. 미래학자손톤메이 (Thornton May) 는 2011년에이러한수치가앞으로 6개월마다 2배씩증가할것이라고하기도하였다. 하지만, 빅데이터는양으로정의되기보다지속적으로증가하는다양성, 속도, 가변성, 복잡성으로특징지어진다. 다양성 (Variety): 조직이보유하고있는데이터중최대 85% ~ 90% 가숫자형태가아닌비정형데이터이며, 이는당연히정량분석과의사결정에고려되어야한다. 결국이같은텍스트, 비디오, 오디오를비롯한비정형데이터를제대로분석하기위해서는다양한아키텍처와첨단기술이요구된다. 속도 (Velocity): RFID 태그나스마트미터링등의사용이준실시간으로 36) 대규모데이터를처리해야할필요성을끊임없이높이고있다. 여기에신속하게양질의통찰력을도출해야하는필요성까지더해져, 조직들은상황에즉각대처하기위한필수인프라와스킬베이스를구축해야하는엄 35) Mark Troester, "Big Data Meets Big Data Analytics", SAS white paper, 2012 36) 수동이아닌진일보된계량기의자동검침 14 I 15
청난부담감을안고있다.(Thornton May, 2011). 가변성 (Variability): 데이터가빠르게유입되는것도문제지만, 데이터흐름이매우가변적인특성을띠는것이더큰문제이다. 매일, 계절및이벤트에따른피크로드 (peak loads) 는관리하기가매우까다롭다. 복잡성 (Complexity): 데이터소스유형이증가하면데이터처리에어려움을겪게되고, 여기에기업과시스템에걸쳐데이터를링크, 매치, 변환해야하므로부담은더욱가중된다. 따라서조직들은모든데이터들의복잡한계층구조나데이터링크같은관계를먼저이해할필요가있다. 상기요인들중한가지나두가지이상의조합또는동시에모든것이작용할경우데이터환경은지금보다더나빠질수있다. 이때중요한것은모든데이터가연관성을가지거나유용하지는않다는점을이해하는것으로, 옥석을철저히가려내어과잉정보가아닌핵심정보에초점을맞출수있어야한다. 표 1-2 구분 규모 (Volume) 다양성 (Variety) 생성속도 (Velocity) 복잡성 (Complexity) 가치 (Value) 빅데이터특징및범위 (3V + C or 3V +V) 주요내용 기술적인발전과 IT의일상화가진행되면서해마다디지털정보량이기하급수적으로폭증 제타바이트 (ZB) 시대로진입 기존 DB보다는규모가훨씬크고일정기준으로구분하지않음 로그기록, 소셜, 위치, 소비, 현실데이터등데이터종류의증가 텍스트이외의멀티미디어등비정형화된데이터유형의다양화 구조적데이터와비구조적데이터를포함하며, 다양한구조의데이터를서로연관해서분석할수있어야함 사물정보 ( 센서, 모니터링 ), 스트리밍정보등실시간성정보증가 실시간성으로인한데이터생성, 이동 ( 유통 ) 속도의증가 대규모데이터처리및가치있는현재정보 ( 실시간 ) 활용을위해데이터처리및분석속도가중요 배치, 리얼타임, 스트림형태, 실시간분석과반응을필요로함 구조화되지않은데이터, 데이터저장방식의차이, 중복성문제등 데이터종류의확대, 외부데이터의활용으로관리대상의증가 데이터관리및처리의복잡성이심화되고새로운기법요구 위의 3가지특성에따라보관, 운영활용하는것이매우복잡함 새로운가치의창출과관련된것으로, 기존의구조적데이터는거래를안전하게처리하기위한목적이었다면, 빅데이터는경쟁력및운영효율성에직접적으로큰영향을줄수있음 규모가크고, 빠르며, 다양해서복잡하지만큰가치를지님 처 : 가트너, SAS ( 재구성 ) 빅데이터기반의산업시장정보분석
다시정리하면, 빅데이터의특성은일반적으로 3V를기본으로 1V(Value) 나 1C(Complexity) 의특성이추가되어설명할수있다. IBM은빅데이터를 3V를가진새로운타입의데이터로서과거에는답할수없던통찰력 (insight) 를얻을수있는기회로정의하였고, 비즈니스분석솔루션기업인 SAS는 3V에새로운가치 (value) 를더한 4V를빅데이터의기본적인모습으로제시하였으며, 가트너는상기에언급한바와같이 3V에복잡성 (complexity) 을추가하여 4개의축으로제시하였다. 빅데이터구분기존의데이터와빅데이터를 < 표 1-3> 에나타낸바와같이구분되기도한다. 즉, 규모적측면에서는페타바이트이상을, 중앙집중형이라기보다는분산형인데이터를빅데이터라할수있다. 또한추가적으로데이터가분석을대상으로하는군전체인지일부샘플인지가중요한구분기준이라할수있을것이고, 특히대상데이터가가공을통해비용이많이드는것이아니라, 수집에큰비용이소요되지않는것을주요기준이라볼수있다. 따라서빅데이터의판단기준을 < 표 1-4> 와같이정리해볼수도있다. 표 1-3 기존의데이터와빅데이터의구분 기존의데이터기가바이트 ~ 테라바이트집중형정형안정한데이터모델알려진복잡상호관계 빅데이터페타바이트 ~ 엑사바이트분산형반정형, 비정형평면스키마 (flat schemas) 거의알려지지않은복잡상호관계 출처 : Wicibon 2011 표 1-4 빅데이터판단기준 기존의데이터 빅데이터 샘플 전수 ( 전체 ) 과거 준실시간, 실시간 고비용 저비용 특정유형 (Text 위주 ) 모든유형 ( 소리, 영상등 ) 16 I 17
빅데이터의예 - RFID 데이터 : 기존의바코드시스템에서생성되는데이터의 1,000배정도의양생성 - 전세계적으로매초발생되는카드거래의수 10,000건 37) - Walmart에서매시간다루고있는고객거래데이터백만건이상 38) - 매일보내지는트윗건수 3억 4천만건, 매초거의 4,000건 39) - 약 9억명의활동적인페이스북이용자가생성하는사회적관계데이터 40) - 50억명이상의사람들이이동전화에서생성하는통화, 문자, 트윗및웹사이트조회 빅데이터관련기술및시스템빅데이터관련기술과오프소스 41) 빅데이터는분석의중심이되고있는데이터가기존의것과다른특성을가지기때문에이에관련된기술역시새로운것이다. 빅데이터라는개념도관련기술의발전에따라가능하게된측면이많은데, 그중심에는하둡생태계 (Hadoop ecosystem) 가있다. 또한데이터의수집, 저장, 분석, 표현에이르기까지일련의과정에서사용되어지는오픈소스의솔루션에대한이해와적용기술이매우복잡하다. 첫째, 데이터수집은데이터발생원으로부터안정적인저장소로저장하는기능을수행하는것으로대표적인오픈소스로는플럼 (Flume), 스크라이브 (Scribe), 척와 (Chukwa) 등이있다. 둘째, 데이터저장단계는크게원본데이터저장과트랜잭션데이터저장으로나눌수있다. 원본데이터저장의경우수집된데이터를안정적으로저장하는저장소, 즉비구조적데이터저장소로주로대용량파일저장소가이 37) American Bankers Association, March 2009 38) http://www.economist.com 39) http://blog.twitter.com 40) http://newsroom.fb.com/ 41) 이성희, Big Data의이해 - 가치와도입전략, 한국컴퓨터정보학회지, 20권2호, 2012.12, p15-18. 빅데이터기반의산업시장정보분석
에해당되며, 하둡파일시스템 (Hadoop File System), 모자일에프에스 (MogileFS) 가대표적이라고할수있다. 다음으로분석단계에서는데이터수집과동시에분석을수행하는실시간분석플랫폼과전체또는부분데이터에대해복잡하고다양한분석을수행하는배치분석플랫폼이있다. 실시간분석플랫폼은복잡한분석보다카운트, 집계등단순한통합연산정도를수행하는것이며, 에스포 (S4), 스톰 (Storm) 등의오픈소스솔루션이있다. 반면배치분석플랫폼의경우대용량처리를위해분산, 병렬처리를필요로하며단순텍스트분석부터그래프분석까지다양한분석모델을지원한다. 하둡분산처리를위한맵리듀스 (MapReduce) 를포함하여기라프 (Girahp), 골든오알비 (GoldenOrb) 가있다. 그밖에도클러스터링, 분류등과같이데이터마이닝을위한데이터마이팅 / 통계도구도빅데이터를위한필수기술에해당하며머하웃 (Mahout), 알 (R) 등이이에해당한다. 마지막으로클러스터관리및모니터링, 데이터시리얼라이네이션 (serialization) 42) 은데이터표현을위한기술이다. 대부분분산시스템으로구성되기때문에전체클러스터에대한관제및모니터링이복잡해지며, 이를위해주키퍼 (ZooKeeper), 휴 (HUE), 클라우몬 (Cloumon) 등이있다. 또한이기종플랫폼및다양한종류의솔루션을사용하기때문에데이터전송및처리에대한표준프레임워크또한필요하며대표적인오픈소스로는스리프트 (Thrift), 아브로 (Avro), 프로토버퍼 (ProtoBuf) 등이있다. 표 1-5 빅데이터분석시스템주요기능별오픈소스 구분설명오픈소스 데이터수집 데이터발생원으로부터데이터수집하는기능 Flume, Scribe, Chukwa 원본데이터저장 수집된데이터를저장하는저장소 비구조적데이터저장소로주로대용량파일저장소 Hadoop Filesystem, MogileFS 42) 자바프로그래밍에서오브젝트의정보를비트열로만들어파일등에기록하고, 다시읽어들여원래의오브젝트로만드는것 18 I 19
구분설명오픈소스 구조적데이터저장 실시간분석플랫폼 배치분석플랫폼 데이터마이닝 / 통계도구 원본데이터를실시간으로저장, 조회, 처리를위한저장소 구조적저장소또는검색엔진기술을활용 데이터수집과동시에분석을수행 복잡한분석보다 Count, sum 등단순한 aggregation 연산수행 전체또는부분데이터에대해다양한분석수행 대용량처리를위해분산, 병렬처리필요 Cluster, Classification 등과같이데이터마이닝을위한기본알고리즘라이브러리및도구 NoSQL(Cloudata, HBase, Cassandra, MongoDB) S4, Storm Hadoop MapReduce(Hive, Pig), Griaph, GoldenORB Mahout, R 클러스터관리및모니터링 데이터 Serialization 대부분분산시스템으로구성되기때문에전체클러스터에대한관제및모니터링도복잡 이기종플랫폼및다양한종류의솔루션을사용하기때문에데이터전송및처리에대한표준프레임워크필요 스트리밍데이터 스트리밍데이터프로세싱기술프로세싱 관리기술, 분산큐기술분산처리기술 분산캐시기능 데이터분석알고리즘 데이터분석을위한세부기술 h Social Network Analysys Zookeeper, HUE, Cloumon Thrift, Avro, ProtoBuf Streaming DBMS DW Appliance ZooKeeper, kafka Memcached, Redis Clique 분석 Centrality 분석 출처 : SAS, 2011 43) ( 재구성 ) 그림 1-7 오픈소스인하둡플랫폼의구성요소 출처 : IDG Korea(2012) 44) 43) Philip Carter, Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO, SAS, 2011. 44) IDG Korea(2012), 빅데이터를위한개방형 DB 프레임워크 하둡 의이해 빅데이터기반의산업시장정보분석
빅데이터분석기술및시스템현황 45) 시장에나와있는빅데이터관련기술은다양하며, 아직까지는시장우위를점하는특정기술과제품이없고오픈소스기술, 상용솔루션, 클라우드서비스가경쟁하고있다. 오픈소스하둡은데이터저장, 관리에있어서사실적표준 (de facto standard) 이되었고, 주요솔루션업체들이하둡과연동하는솔루션출시를확대하고있다. 하둡의실시간처리에대한요구가증대되면서클라우데라 (Cloudera) 의 임팔라 (Impala) 가출시되었으며, 아파치소프트웨어재단은드릴 (Drill) 프로젝트를인큐베이팅하고있다. 2012년에구글이글로벌분산 DB인 스패나 (Spanner) 를발표하여새로운기술적전개가예상되며, 상용솔루션은다양한통합솔루션을출시하고있어본격적인시장확대가기대된다. 표 1-6 빅데이터처리프로세스별기술영역 흐름영역개요 소스수집저장처리분석표현 내부데이터 Database, File Management System 외부데이터 File, Multimedia, Streaming 크롤링 (crawling) 검색엔진의로봇을이용한데이터수집 ETL(Extraction, Transformation, Loading) 소스데이터의추출, 전송, 변환, 적재 NoSQL Databases 비정형데이터관리 Storage 빅데이터저장 Servers 초경량서버 MapReduce 데이터의추출 Processing 다중업무처리 NLP(Natural Language Processing) 자연어처리 Machine Learning 기계학습을통해데이터의패턴발견 Serialization 데이터간의순서화 Visualization 데이터를도표나그래픽적으로표현 Acquisition 데이터의획득및재해석 출처 : 2013 데이터베이스백서 ( 재인용 ) 45) 데이터베이스진흥협회, 2013 데이터베이스백서 20 I 21
주요기술영역과기술요건 46) 빅데이터기술은데이터수집, 저장, 처리, 분석, 표현및활용, 관리로나 뉜다. 표 1-7 빅데이터주요기술영역과기술요건 구분현실적문제점기술요구사항 수집 대용량의수집대상데이터 적재시간이전체시간의상당부분을차지 데이터는지속적으로증가함 대용량데이터수집 실시간수집, 적재시간단축 수평적확장용이성 저장 처리 데이터저장과관리에고비용소요 저장된데이터의효율적관리가곤란 용량한계봉착시확장곤란 ( 기술, 비용 ) 데이터처리, 연산에고비용소요 장시간의처리로데이터의적시성부족 대용량데이터저장 수평적확장용이성 데이터저장에낮은 TCO 실현 다차원데이터의고속연산 다중노드로분산 / 병렬처리 분석 표현 / 활용 관리 데이터분석에많은연산시간과고비용소요 통계적분석기법의프로그램구현과검증문제 IT 에능통한통계및분석전문가의부족또는부재 분석된빅데이터의해석과의미파악곤란 다차원빅데이터의효율적인비교분석방법부재 다수장비로구성된인프라의관리곤란 각각영역별로특화된다양한기술요소들이사용 오픈소스기반인경우관리도구가부족또는부재 처리, 분석관련비즈니스로직이분산되어관리곤란 검증된통계적기법기반의고급분석 실시간또는준실시간분석 사용자와상호작용하는탐색적데이터분석 대용량데이터의요약적, 직관적표현 다차원데이터의비교, 분석적표현 실시간인지및실시간대응 오픈소스를보완하는관리도구제공 통합인프라관리체계 ( 설치, 설정, 모니터링 / 관제등 ) 수집부터활용까지각영역을통합하는비즈니스로직관리체계제공 출처 : 2013 데이터베이스백서 ( 재인용 ) 저장 / 처리 / 분석의구현방식에따른기술분류 47) 빅데이터기술은디스크 (disk) 기반기술, 인메모리 (in-memory) 기반기술, 인데이터베이스 (in-db) 기반기술등으로분류할수있다. 디스크기반기술 46) 데이터베이스진흥협회, 2013 데이터베이스백서 47) 데이터베이스진흥협회, 2013 데이터베이스백서 빅데이터기반의산업시장정보분석
은주로오픈소스기술들로저가디스크를저장소로하여대용량데이터를저장, 관리하고분산 / 병렬처리메커니즘으로연산성능을향상하고있다. 인메모리기반기술은메모리내고속연산성능을이용하여대용량의데이터를신속히처리하여사용자의탐색적데이터분석이용이하도록한다. 인데이터베이스기반기술은관계형데이터베이스관리시스템 (Relational Data Base Management System; 이하 RDBMS) 또는분산 / 병렬데이터베이스관리시스템 (Data Base Management System; 이하 DBMS) 내부에분석기능을탑재해데이터적재와처리시간을단축하고분석의효율을강화시킨다. 표 1-8 구현방식에따른빅데이터기술분류 구현방식설명관련 SW, 솔루션 Disk 기반 다수의서버들을네트워크로연결, 분산, 저장하여저장소를확장하고, 병렬처리를통해연산성능을향상시키는빅테이터처리기술 Hadoop, DISCO, Hbase, Cassandra, Mongo- DB, Sybase IQ, GreenPlumn, Vertica- Endeca 등 In-Memory Disk 보다 Read/Write 속도가빠른메모리의특성을이용한메모리기반빅데이터처리기술 단일노드의메모리제약을극복하기위해압축기술과 grid computing 형태로확장성을확보함 R, Revolution R, VoltDB, SAP HANA, SAS inmemory, GridGain, Tableau, Spotfire, QlickView 등 In-DB 분석기능자체를 DB 에 embedded 시켜 DB - Application 서버간데이터이동, 적재의부하와시간을단축시키는빅데이터처리 DB SAS in-database, Teradata Aster 등 출처 : LG CNS AA 센터, 2013 출처 : 2013 데이터베이스백서 ( 재인용 ) 또는빅데이터와관련하여다음과같이기술들을구분할수있다.10) - 대용량데이터처리능력을위한분산처리기술 : 하둡분산파일시스템 (Hadoop Distributed File System; 이하 HDFS), 분산데이터베이스 (HBase), 맵리듀스 (MapReduce) 등 - 인메모리기술 : 인메모리기술에서는메모리상에필요한데이터와이의 22 I 23
인덱스를보관함으로써데이터검색시간을크게줄일수있음 - 의미분석기술과진보된알고리즘및데이터마이닝기술 : 예를들어통계계산및그래픽을위한 R 언어 - 비정형데이터를처리하기위한 NoSQL 기술 : 아파치카산드라 (Cassandra) 와카우치디비 (CouchDB), 구글의빅테이블 (BigTable), 아마존의다이나모 (Dynamo), IBM 로투스도미노 (Lotus Domino) 등 빅데이터시스템관련오픈소스 48) 오픈소스는빅데이터기술의원조인구글이최초로방향을제시하고아파치소프트웨어재단이중심이되어이끌어가는양상을보인다. 하둡, NoSQL, 오픈소스분석엔진등으로구분되고, 개별오픈소스프로젝트들이상호유기적으로연결되어발전하고있으며, 이들을이용하거나보완하는상용솔루션들의출시가이어지고있다. 가. 하둡 (Hadoop) 49) 대량의자료를처리할수있는대규모컴퓨터클러스터에서동작하는분산응용프로그램을지원하는오픈소스소프트웨어프레임워크이다. 구글의 GFS(Google File System) 논문을기반으로더그커팅 (Doug Cutting) 에의해탄생한하둡은관련타오픈소스프로젝트들과하둡생태계를형성하며빅데이터수집 / 저장 / 처리의사실적표준이되었다. 하둡은 HDFS(Hadoop Distributed File System) 를이용하여데이터저장, 관리의안정성과비용절감효과를제공하며, 맵리듀스 (MapReduce) 프레임워크로기존처리에오랜시간이걸리던대용량데이터도단시간내에일괄처리로연산할수있다. 이런특성들로하둡은로그데이터의저장, 분석에활용되거나대용량멀티미디어데이터의저장, 분석, 데이터웨어하우스 (Data Warehouse; DW) 의데이터클린징과이티엘 (Extraction, Transformation, Load; ETL) 작업등분 48) 데이터베이스진흥협회, 2013 데이터베이스백서 49) 위키백과, 2013. 7. 15. 빅데이터기반의산업시장정보분석
야에응용되어검증되었으며새로운분야에적용하는다양한시도들이진행중에있다. 하둡은데이터저장 / 처리외에분석툴과연계하여활용할경우매우효과적이라할수있다. 예를들어, 하둡과오픈소스통계툴인 R 을연계하거나머하웃 (Mahout) 와같은기계학습알고리즘을활용할경우대규모의데이터세트 (dataset) 를분석할수있다. 빅데이터의하둡과연계하여고급분석이가능하며, 이경우기존 DBMS를이용할때보다데이터저장, 처리, 분석시확장성이높다는장점과처리시간의단축을기대할수있다. 나. NoSQL (Not Only SQL) NoSQL은기존 RDBMS의빅데이터처리시수평확장과성능한계를극복하기위해인터넷기업들이고안해낸새로운개념의 DBMS이다. 확장성과성능한계를해결하는대신기존 RDBMS의구조화질의어 (Structured Query Language; 이하 SQL) 질의방식과관계형데이터모델을포기하고데이터접근에응용프로그램인터페이스 (Application Program Interface; 이하 API) 또는자체질의어를사용하고응용프로그램에 DBMS의제약조건과트랜잭션처리기능을위임하는형태를취하고있다. 최근부각되는 NoSQL로는컬럼기반인 HBase를들수있는데 HBase는하둡을파일시스템으로하기때문에하둡과의연계가용이하고하둡의실시간요구를보완하는목적으로활용가능하다. 그외에유연한스키마구조를지원하는문서기반 NoSQL로몽고디비 (MongoDB) 를들수있는데단편적인대용량데이터의저장과출력에유리하여주로인터넷기업들또는 B2C 서비스를구축하는기존기업들에적용되고있다. 다. 오픈소스분석솔루션분석소프트웨어를오픈소스로활용하고자하는요구로인해통계학분야를중심으로 R 이탄생하게되었다. R은집단지성이지속적으로발전하여최신통계분석기법들을내장하고시각화기능까지강화되어상용솔루션수준의분석기능을제공한다. R의이용이확대되면서하둡등에 R을접목하고자하는 24 I 25
시도가활발히진행중이며, 레볼루션알 (Revolution R) 이나 오라클알 (Oracle R) 과같이상용솔루션에서도 R을접목하고자하는시도가일어나고있다. 하둡은매프로젝트마다반복적으로구현되는맵리듀스분석알고리즘을취합, 라이브러리화하여머하웃을만들었다. 머하웃은분석알고리즘을재사용하여알고리즘구현과검증의공수를절감시켜생산성을향상시킬수있으며, 분석된다차원데이터의다양한시각화를지원하는오픈소스도등장했다. 상용솔루션만큼상호작용사용자인터페이스를제공하지못하지만학계에서시도되는다양한시각화기법이적용되는것이특징이다. 대표적인제품으로스탠포드대학에서개발하여오픈소스화한프로토비스 (Protovis) 와그누 (GNU s Not Unix; 이하 GNU) 50) 가주도하는그누플롯 (GNUplot) 등이있다. 분석소프트웨어또는분석툴 51) 가. 분석전용솔루션실제분석된빅데이터는다차원의정보를담고있어시각적인분석결과를통한탐색적인데이터분석을요구한다. 이런기능이취약한오픈소스를보완하기위해분석전용솔루션이등장하게되었다. 주로메모리에분석데이터를적재하고분석하고시각화도구를이용하여빅데이터의시각화분석을지원한다. 다양한검증분석기법을포함하고있어서사용자의관심이동에따라다양한관점으로데이터를분석할수있다. 대표적상용솔루션으로새스 (SAS), 클릭뷰 (QlickView), 스폿파이어 (Spotfire), 타블로 (Tableau) 등을들수있으며, 대부분하둡과연계를지원하고있어하둡내에수집, 저장, 처리, 분석된데이터를최종단계에서시각화, 분석및판단하는것이가능하다. 나. 빅데이터어플라이언스 (Big Data Appliance) DW 어플라이언스는기존 DW의성능한계극복을위해등장했지만수평확 50) 소프트웨어의공개개념을표방하는비제도권단체인자유소프트웨어재단 (free software foundation) 의종합적인프로젝트 51) 데이터베이스진흥협회, 2013 데이터베이스백서 빅데이터기반의산업시장정보분석
장의제약으로저장용량의한계를극복하진못했다. 또하둡과하둡대체보완솔루션및기타분석솔루션들모두최적의성능을내려면하드웨어와소프트웨어의튜닝에많은노력과높은기술력을요구한다. 이는빅데이터도입비용을상승시키고높은유지보수비용을요구하게된다. 이런문제들을해결하고자기존 DW 어플라이언스를보완 / 대체하기위해빅데이터솔루션과하드웨어를일체화하여성능과관리를최적화한빅데이터어플라이언스제품이등장하게되었다. 이런제품으로는이엠씨 (EMC) 의그린플럼 (Greenplum), 오라클의비디에이 (BDA), HP의버티카 (Vertica) 등이대표적이며, 중소업체들도자신들만의강점과특징을내세워속속제품들을출시하고있다. 초기투자비용은직접구축하는데비해높지만유지보수와최적화문제를해결할수있기때문에빅데이터도입의기술적리스크를절감하고자할경우해결책이될수도있다. 클라우드서비스 52) 클라우드서비스는다년간축적해온클라우드컴퓨팅서비스경험과기술력을기반으로자체적인인프라와관리인력을유지하기힘든중소기업을대상으로클라우드환경에서빅데이터의저장, 분석을서비스형태로제공하기시작했다. 가. 하둡온클라우드 (Hadoop on cloud) 하둡을클라우드컴퓨팅환경에서손쉽게사용할수있는표준화된플랫폼 (Platform as a Service; 이하 PaaS) 서비스인하둡온클라우드는빠르게하둡클러스터환경을구축할수있으며, 장애, 복구, 확장등의서비스관리를위임할수있다. 아마존의이엠알 (Elastic MapReduce; EMR), 마이크로소프트의하둡온애저 (Hadoop on Azure), 구글의컴퓨트엔진 (Compute Engine) 등이대표적이다. 아마존의 EMR은아마존의표준화된인프라스트럭쳐 (Infrastgructure as a 52) 데이터베이스진흥협회, 2013 데이터베이스백서 26 I 27
Service; 이하 IaaS) 서비스인이씨투 (Elastic Cloud Compute; EC2) 와에스쓰리 (Simple Storage Service; S3) 를내부의대규모하둡클러스터와연계하여사용자별로자원을할당하고데이터의사용량에따라과금하는방식으로서비스한다. 더불어자체 NoSQL DB인다이나모디비 (DynamoDB) 를제공하고, 카르마스피어 (Karmasphere) 의그래픽사용자인터페이스 (Graphic User Interface; GUI) 와통합개발환경 (Integrated Development Environment; IDE) 를제공하여개발및관리의생산성을지원하는하둡은맵알 (MapR) 의 M3/M5를사용한다. 마이크로소프트의하둡온애저도 M3/M5를제공하며 SQL 서버온애저 (SQL Server On Azure) 와연동되는서비스를제공한다. 구글도최근컴퓨트엔진에맵알의 M3/M5의채택을발표하여조만간서비스될예정이다. 나. 애널리틱스온클라우드 (Analytics on cloud) 하둡온클라우드서비스는자원을즉시사용하고시스템관리비용을절감할수있지만, 하둡에익숙한사용자가비즈니스로직을개발하고디버깅과검증을해야한다. 이를보완하기위해비즈니스로직을손쉽게구성하고데이터분석의노력을절감하여분석자체에집중할수있도록지원하는서비스가등장하였다. 대표적인사례로구글의빅쿼리 (Big Query) 가있는데, SQL과같은인터페이스를이용하여구글의컴퓨팅자원에서빠른시간내에데이터분석을지원한다. 현재는 1 테라바이트의용량한계가있고, CSV(Comma-Separated Values) 형태의데이터만지원하지만, 향후저장용량과지원데이터의형태도다양해질전망이다. 향후이와유사한형태로특정비즈니스도메인에특화된서비스소프트웨어 (Software as a Service; SaaS) 형태의분석서비스가제공될전망이다. 빅데이터기반의산업시장정보분석
빅데이터기반의정보분석 28 I 29
빅데이터기반의정보분석 비즈니스인텔리전스 (Business Intelligence) 산업시장정보분석과비즈니스정보분석산업시장정보분석은주로비즈니스인텔리전스 (Business Intelligence, 이하 BI) 의일부를의미하는데, 정보의중요성이더욱커지는현대에는거의비슷한개념으로볼수있을정도이다. 따라서본보고서에서는 BI와같은개념으로표현하고자한다. 또한최근에는빅데이터의활용이대두되면서비즈니스애널리틱스 (Business Analytics, 이하 BA) 및빅데이터애널리틱스 (Big Data Analytics, 이하 DBA) 의관점에서더욱의미가있을것으로도생각해볼수있다. 비즈니스인텔리전스 (BI) 53) 이용어는 1958년의한문헌에서, IBM 연구자하스피터룬 (Has Peter Luhn) 이 business intelligence 라는용어를처음사용하였다. 그는인텔리전스 (intelligence) 를원하는목적을향한행동을인도하는방법과같이현재의사실들의상관관계를이해하는능력이라정의하였다. 54) BI는오늘날에는 1960년대에시작되어 1980년중반에걸쳐개발되어온의사결정지원시스템 (decision supporting system; DSS) 에서진화해온것으 53) Wikipedia, the free encyclopedia (2013. 7. 26.) 54) H P Luhn (1958). "A Business Intelligence System". IBM Journal 2 (4): 314. doi:10.1147/rd.24.0314. 빅데이터기반의산업시장정보분석
로알려져왔다. 즉, 의사결정및기획을지원하기위해창조된컴퓨터-지원모델 (computer-aided models) 인 DSS에기원한다. DSS에서시작하여 1980 년대후반부터는데이터웨어하우스, 경영자정보시스템 (Executive Information Systems), 올랩 (On-line Analytical Processing; 이하 OLAP) 및비즈니스인텔리전스에대해많은관심이모아지시시작하였다. 1989년하워드드레스너 (Howard Dresner; 후에 Gartner 그룹분석가 ) 는제안하기를 business intelligence 를 사실기반지원시스템을사용함으로써비즈니스의사결정을개선하기위한방법및개념 으로설명하는포괄적용어를제안하였으며, 55) 이러한개념은 1990년후반에이르러서야널리사용되게되었다. BI와데이터웨어하우스 (DW) 56) 주로 BI 응용은 DW 또는데이터마트에서수집된데이터를사용한다. DW 는의사결정지원을도와주는거래데이터의복사본을의미한다. 그러나모든 DW 데이터가 BI를위해사용되는것은아니지만, 모든 BI 응용은 DW를필요로하고있다. BI의개념과 DW를구분하기위해포레스터리서치 (Forrester Research) 는주로 2가지로 BI를정의한다. 1 광의의정의 : BI는방법론, 과정, 아키텍처및원시데이터를의미있고유용한정보로변환시키는기술들의일련의집합체인데, 더유효한전략, 전술및운영통찰력및의사결정을가능케해준다. 57) 이러한정의에의하면, BI는다음과같은기술들을포함한다. 통합 (integration), 데이터품질, 데이터웨어하우징, 마스터데이터관리및텍스트-콘텐츠애널리틱스, 그리고기타많은시장관련정보관리분야등이포함된다. 따라서포레스터는데이터제조와데이터사용, 즉, 두가지로 55) D. J. Power (10 March 2007). "A Brief History of Decision Support Systems, version 4.0". DSSResources.COM. Retrieved 10 July 2008. 56) Wikipedia, the free encyclopedia (2013. 7. 26.) 57) Evelson, Boris (21 November 2008). "Topic Overview: Business Intelligence". 30 I 31
분리되지만 BI 아키텍처스택으로구성되어밀접하게연결되어있는부문으로설명하였다. 2 협의의정의 : 포레스터는 BI를 BI 아키텍처스택의맨꼭대기층, 즉, 리포팅, 애널리틱스및대시보드라고협의적으로정의하였다. 58) BI의개념 59) BI는비즈니스를위해원천데이터를의미있고유용한정보로변환시키는일련의이론, 방법론, 과정, 아키텍처및기술을의미하며, 새로운기회를확인하고개발하는것을도와주기위해대규모의정보를다룰수있어야한다. 이러한새로운기회와유효전략의도구 ( 수단 ) 를사용하는것은시장에서경쟁력우위와장기간의안정성을가져다준다. BI 기술은비즈니스작업 ( 산업시장정보분석등 ) 에있어서과거, 현재및미래예측관점을제공하는것이다. 일반적기능에는보고 (reporting), 온라인분석처리, 애널리틱스 (analytics), 데이터마이닝, 프로세스마이닝, 복잡이벤트처리, 비즈니스성과관리, 벤치마킹, 텍스트마이닝, 예측애널리틱스 (predictive analytics) 및규범적애널리틱스 (prescriptive analytics) 등이포함된다고할수있다. BI는가끔경쟁인텔리전스 (competitive intelligence; CI) 의유사어가되기도하는데, 이는둘다의사결정을지원하기때문이다. BI는기술, 프로세스및응용들 ( 가장내부적, 구조적데이터및비즈니스과정을분석하는응용들 ) 을사용하는데반해, CI는기업경쟁자에대한시사적집중 (topical focus) 을하면서정보를수집, 분석및전파하는것이다. 넓게보면 BI는 CI의부분으로생각할수있다. 60) 58) Evelson, Boris (29 April 2010). "Want to know what Forrester's lead data analysts are thinking about BI and the data domain?". 59) Wikipedia, the free encyclopedia (2013. 7. 26.) 60) Kobielus, James (30 April 2010). "What s Not BI? Oh, Don t Get Me Started...Oops Too Late...Here Goes...". " Business intelligence is a non-domain-specific catchall for all the types of analytic data that can be delivered to users in reports, dashboards, and the like. When you specify the subject domain for this intelligence, then you can refer to competitive intelligence, market intelligence, social intelligence, financial intelligence, HR intelligence, supply chain intelligence, and the like." 빅데이터기반의산업시장정보분석
애널리틱스 (Analytics) 애널리틱스의의미 61) 애널리틱스란데이터에서의미있는패턴의발견하고이를소통시키는것을의한다. 특히저장된정보가풍부한영역에서가치가있는데, 애널리틱스는통계, 컴퓨터프로그래밍및성과를정량화하기위한운영과학 (Operation Research; OR) 등을동시에이용하게된다. 또한애널리틱스는통찰력을소통하기위해일반적으로데이터가시화를강조하게된다. 그림 2-1 구글애널리틱스대시보드사례 ( 동향을확인하고의사결정을지원하기위한툴 ) 61) Wikipedia, 2013.7. 15. 32 I 33
기업은일반적으로애널리틱스를비즈니스데이터에적용하여비즈니스성과를설명하고, 예측하고, 개선하기위해사용한다. 특히, 애널리틱스는다음과같은영역, 즉, 기업의사관리, 소매분석, 점포분류 (assortment) 와최소유지상품단위 (Stock Keeping Unit; SKU) 최적화, 마케팅최적화와마케팅혼합애널리틱스, 웹애널리틱스, 판매력규모와최적화, 가격과홍보모델링, 예측과학, 신용위험분석및가짜분석등에활용된다. 애널리틱스는대량의연산을요구하기때문에애널리틱스를위해사용되는알고리즘과소프트웨어는컴퓨터과학, 통계및수학에있어서가장최신의방법이적용되는경우가많다. 62) 리서치기관의조사에따르면경영성과가높은기업이낮은기업보다애널리틱스를더많이활용하고있다는통계가있으며 63), 활용분야에서도재무관리에서부터영업, 마케팅, 고객관리는물론이고인력관리에까지활용을넓히고있다. 특히운영효율성, 전략수립, 고객서비스에서도높은활용도를보이고있다. 애널리틱스의유형 - 기술적애널리틱스 (Descriptive Analytics): : 과거데이터 ( 리포팅, 스코어카드, 클러스터링등 ) 로부터통찰력을얻는것 - 예측적애널리틱스 (Predictive Analytics) : 통계적이고기계학습적인기법을활용한예측모델링 - 규범적애널리틱스 (Prescriptive Analytics) : 최적화및시뮬레이션등에의한추천의사결정 애널리틱스의역사 64) 애널리틱스는 19세기후반에프리드릭윈스로우테일러 (Frederick Winslow Taylor) 에의해시작된시간관리작업이후부터비즈니스에서사용되어 62) Kohavi, Rothleder and Simoudis (2002). "Emerging Trends in Business Analytics". Communications of the ACM 45 (8): 4548. 63) 이성희, Big Data의이해 - 가치와도입전략, 한국컴퓨터정보학회지, 20권2호, 2012.12, p15-18. 64) Wikipedia, the free encyclopedia (2013.7.26.) 빅데이터기반의산업시장정보분석
왔으며, 헨리포드 (Henry Ford) 는조립라인의진도를측정하였다. 그러나애널리틱스는컴퓨터가의사결정지원시스템에사용되기시작하던 1960년대후반부터더많은관심을받게되었다. 그이후로애널리틱스는전사적자원관리 (Enterprise Resource Planning; ERP) 시스템, 데이터웨어하우스및폭넓고다양한다른하드웨어와소프트웨어툴및응용제품의개발로진화되어왔다. 65) 최근빅데이터의대두및사용하기쉬운 BI 툴로인해, 데이터는과거에비해비즈니스전문가와관리자들에게더욱접근이쉬워졌다. 따라서이러한데이터를활용하여이익증가를촉진하고, 더좋은제품을제조하여비용과손실을감소시키고, 소비자경험을개선하고, 사기행위를미리탐지하고, 타게팅과고객맞춤을통한소비자관계를개선하는데사용함으로써더좋은의사결정을내릴수있게되었다. 더욱더많은기업이이제는직원들로하여금매일의의사결정에서효율성을높이기위해 BA의노하우를강조하고있다. 66) 분석 (analysis) 과의비교 67) 애널리틱스는양면을가진동전이라할수있는데, 한면은기술적 (descriptive) 이고예측적인 (predictive) 모델을사용하여데이터에서가치있는지식을얻는다는것, 즉데이터분석 (data analysis) 의속성이고, 다른한면은이러한통찰력을이용하여행동을추천하거나의사결정을안내하는것, 즉, 커뮤니케이션 (communication) 이라는속성이다. 따라서애널리틱스는개별분석이나분석단계를그리크게고려한다기보다는전체적방법 (entire methodologies) 을고려하는것으로이해할수있다. 기업환경에서는분명히애널리틱스용어를더많이사용하는경향이있으며, 텍스트애널리틱스 (text analytics) 는일반적인텍스트마이닝 (text mining) 보다더넓은관점에서분석하는것이라할수있다. 65) Davenport, Thomas H.; Harris, Jeanne G. (2007). Competing on analytics : the new science of winning. Boston, Mass.: Harvard Business School Press. ISBN 978-1-4221-0332-6. 66) Jain, Piyanka. "Analytics is Fast Becoming a Core Competency for Business Professionals". Forbes. Forbes. Retrieved 10 May 2013. 67) Wikipedia, 2013.7.15. 34 I 35
애널리틱스의응용분야 68) 실시간분석이사용되는분야로는은행의신용위험및시장위험분석, 은행의부정사용및자금세탁탐지, 금융및통신회사의이벤트마케팅, 유통업종의마크다운최적화, 공공분야의보상및과제부정청구등을들수있다. 배치성분석이사용되는분야로는항공회사의예방정비, 소셜미디어감성분석, 제조업체의수요예측, 전자의료기록관리의질병분석, 전통적데이터웨어하우징, 마이닝테스트, 비디오감시분석등이있다. 애널리틱스의활용영역 69) 가. 마케팅최적화 (Marketing optimization) 마케팅은창조적과정에서고도의데이터구동과정으로진화해왔다. 따라서, 마케팅기관은애널리틱스를사용하여캠페인또는노력의성과 (outcome) 를측정 ( 결정 ) 하고, 투자및소비타케팅에대한의사결정을지원한다. 인구학적연구 (demographic studies), 소비자분할, 컨조인트분석 (conjoint analysis) 및기타기법들은마케터들로하여금거대한양의소비자구매, 설문및패널데이터를사용하여마케팅전략을이해하고커뮤티케이션이가능하도록해준다. 나. 웹애널리틱스 (web analytics) 마케터들로하여금웹사이트에서의상호작용에관한세션수준의정보를수집하도록한다. 이러한상호작용은웹애널리틱스정보시스템을가능케하는데, 조회자, 검색키워드, IP 주소및방문자활동등을추적하는정보를가지고있게된다. 이러한정보를이용하여마케터는마케팅캠페인, 사이트제조콘텐츠및정보아키텍처를개선할수있다. 다. 분석기법 (analysis techniques) 68) 이성희, Big Data의이해 - 가치와도입전략, 한국컴퓨터정보학회지, 20권2호, 2012.12, p15-18. 69) Wikipedia, 2013. 7. 15. 빅데이터기반의산업시장정보분석
마케팅에서종종사용되는분석기법은마케팅혼합모델링, 가격결정및홍보분석, 판매력최적화 (sales force optimization), 소비자분석또는분할 (segmntation) 등이있다. 웹애널리틱스와웹사이트및온라인캠페인의최적화는이제는더욱자주전통적인마케팅분석기법과함께이용된다. 이러한도구와기법들은마케팅에소요된비용이전체얼마이고, 어떻게예산을배분해야하는지, 브랜드의포트폴리오와마케팅혼합에있어서전략적인마케팅의사결정과더전술적인캠페인지원, 그리고소위최선의잠재소비자를타켓으로하여가장저렴하고효율적인매체로이상적인시간에최적화된메시지를가지고모두지원하도록해준다. 라. 포트폴리오분석 (portfolio analysis) BI의일반적용도는포트폴리오분석이다. 여기에는은행또는금융기관이다양한가치와위험에대한계정항목 (accounts) 을수집한것이포함된다. 계정항목은계정소유자의사회적지위 ( 부유, 중산, 빈곤등 ), 지형적위치, 그것의순가치및다른많은요인들에따라다르다. 금융기관은대출에의한이익과각각의대출에대한채무불이행 (default) 위험의균형을맞추어야만한다. 따라서문제는전체포트폴리오를어떻게평가하는가이다. 균형을통해이익을최대화하고위험을최소화해야한다. 애널리틱스솔루션은시계열분석과결합하여, 많은다른이슈사항들에대해활용된다. 즉, 다른채무자세그먼트에언제대출할지에대한의사결정, 또는그러한세그먼트에서어떤손해를감수하기위해포트폴리오세그먼트의멤버들에게이자율은어떻게적용할지에대한의사결정을위해사용된다. 마. 위험애널리틱스 (risk analytics) 은행산업에서예측모델은널리개발되었는데, 개개고객에대한위험점수를확인해준다. 신용점수는개인의연체행위를예측하도록만들어졌으며, 각각의신청자의신용가치를평가하는데널리사용되고대출신청처리시등급화된다. 36 I 37
바. 디지털애널리틱스 (digital analytics) 70) 일련의비즈니스및기술적활동으로, 디지털데이터를정의하고, 창조하고, 수집하고, 확인하거나변형하여보고, 연구, 분석, 추천, 최적화, 예측하는것을의미한다. 비즈니스애널리틱스 (Business Analytics, 이하 BA) 71) 비즈니스애널리틱스 (BA) 는통찰력을얻고사업계획을촉진하기위해과거의비즈니스성능을조사하고계속적으로반복하여탐사하기위한스킬, 기술, 애플리케이션과실행을의미한다. 72) 비즈니스애널리틱스는데이터및통계적기법을기반으로비즈니스성과를이해하고새로운통찰력증진시키는것에중점을두고있다. 대조적으로, 비즈니스인텔리전스 (BI) 는전통적으로, 과거의성과를측정하는것과데이터및통계적기법을기반으로사업계획을세우는것, 그리고, 이모두에게일관된측정기준 (set of metrics) 을사용하는데초점을맞추고있다. 또한, 비즈니스애널리틱스 (BA) 는데이터를광범위하게사용하는것으로, 통계및정량적분석, 설명적이고예측적인모델링 73) 및의사결정을도출하기위한사실기반의관리등을광범위하게이용하는것이다. 여기서애널리틱스는인간의의사결정을위한투입요소로사용되거나완전히자동화된의사결정을이끌어내는것을의미한다. 반면에, 비즈니스인텔리전스 (BI) 에는쿼링 (querying), 보고 (reporting), OLAP 및 경보 (alerting) 등의도구들이포함되는데, 이러한툴들은 무엇이발생했는지, 얼마나많이, 얼마나자주, 어디에서문제가발생했는지, 그리고 어떠한행동이필요한지 에대한해답을제공하고자한다. 70) Phillips, Judah "Building a Digital Analytics Organization" Financial Times Press, 2013. Pgs 7-8. 71) Wikipedia, the free encyclopedia (2013. 7. 26.) 72) Beller, Michael J.; Alan Barnett (2009-06-18). "Next Generation Business Analytics". Lightship Partners LLC. http:// www.docstoc.com/docs/7486045/next-generation-business-analytics-presentation. Retrieved 2009-06-20. 73) Galit Schmueli and Otto Koppius. "Predictive vs. Explanatory Modeling in IS Research". http://www.citi.uconn. edu/cist07/5c.pdf. 빅데이터기반의산업시장정보분석
비즈니스애널리틱스 (BA) 는 왜이러한문제가발생했는지, 이러한경향이계속된다면어떻게될것인지, 다음에는무엇이발생할것인지 ( 즉, 예측 ), 발생할수있는가장최선의것은무엇인지 ( 즉, 최적화 ) 등과같은문제에답을주게된다. 그림 2-2 비즈니스애널리틱스프레임워크 출처 : IDC(2011) 74) 빅데이터애널리틱스빅데이터애널리틱스 (Big Data Analytics; 이하 BDA) 의의미 75) 빅데이터애널리틱스는빅데이터집합 (sets) 에서작동하는고급의분석기술이다. 따라서빅데이터애널리틱스는말그대로 2가지 ( 빅데이터 / 애널리틱스 ) 에관한것이고, 추가적으로어떻게이두가지가조화를이루어오늘날의비즈니스인텔리전스에서가장큰트렌드를만들어낼것인가이다. 2009년 TDWI(The Data Warehousing Institute) 설문에따르면, 38% 의조직이고급애널리틱스를실행하고있는반면에나머지 85% 는 3년내에실행하려한다고응답했는데, 이렇게고급애널리틱스를지향하는이유는다음과같다. 74) IDC. Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO, 2011. 09. 75) Russom Philip, Big Data Analytics, TDWI(The Data Warehousing Institute), 2011 38 I 39
첫째, 비즈니스에만연한변화를들수있는데, 최근에겪고있는다중의 경제 (multiple economies ) 측면에서볼때, 애널리틱스는무엇이변해왔고어떻게반응 ( 대응 ) 해야하는지를발견하도록도와주는것이다. 둘째, 우리가침체에서빠져나와회복에이를때, 획득해야할더많은비즈니스기회가있다. 결국에는고급애널리틱스는새로운고객군 (customer segments) 을발견하고, 최선의공급자를확인하고, 선호도를제품에연관시키고, 판매의계절성을이해하는등을위한최선의방법인것이다. 이러한이유로, TDWI는최근에애널리틱스를구현하는이용자조직이지속되고있다는것을알게되었다. 애널리틱스를지향하는많은조직들이처음에는고급애널리틱스를접하고, 어떻게다루어야할지혼란스러워한다. 데이터웨어하우징, 리포팅및 OLAP 등에서의관련경험이있다고하더라도, 고급형태의애널리틱스에있어서비즈니스와기술적요구사항이다르다는것을알게된다. 따라서이때이용자들이빅데이터고급애널리틱스와애널리틱데이터베이스를활용하면인텔리전트한의사결정을내릴수있게된다. 주목할것은, 이용자조직들은특정형태의애널리틱스 ( 특히, 때때로고급애널리틱스로불리움 ) 를구현하고있는데, 이것은관련기법들과도구유형들이모아진것으로, 일반적으로예측적애널리틱스 (predictive analytics), 데이터마이닝, 통계분석및복잡 SQL(complex SQL) 등을포함한다. 고급애널리틱스 대신에더좋은용어는 발견애널리틱스 (discovery analytics) 라할수있는데, 그이유는이용자들이수행하고자하는것이기때문이다. 빅데이터에대한발견애널리틱스는다양한형태의애널리틱툴들로가능할수있다. 그러한툴들은 SQL 질문식, 데이터마이닝, 통계분석, 요인클러스터링 (fact clustering), 데이터가시화, 자연어처리 (Natural Language Processing; NLP), 텍스트애널리틱스 (text analytics), 인공지능 (artificial intelligence) 등에기반한것들이다. 이러한기법모두는그리오래된것은아니고, 이들중많은것이 1990년대에선보였다. 오늘날의차이점은훨씬더많은이용자들이실질적으로사용하고있다는것이다. 그것은이러한기법들의대부분이잘적용되기때문인데, 매우크고, 최소수테라바이트데이터셋인빅데이터분석에도활용되고있다. 빅데이터기반의산업시장정보분석
표 2-1 빅데이터활용에따른분석방법의변화 분류현재 (AS-IS) 융합지식기반 (TO-BE) 데이터개방웹기반인터페이스원본 / 분석 / 가시화 3 계층 활용변화 이슈접근후집계 / 원인파악하는사후대책반실시간이슈탐지를통한선대응적기획반 활용형태부처별수직적활용범부처 / 민간수평적분석 주체업무운영담당자분석, 기획담당자 분석변화 분석대상 정형화된 DB 데이터 정형데이터 + SNS, 질문등의비정형데이터 규모 기가 테라바이트급 페타 제타바이트급 분석범위단일저장소 (Silo) 다중저장소 적용시간일괄 (batch) 처리인타임처리 데이터저장후분석흐름 (on-the-fly) 분석 출처 : 국가정보화전략위원회 (2011), 빅데이터를활용한스마트정부구현 ( 안 ) < 표 2-2> 기반으로하는마이닝 (mining) 77) 기법들 78) 표 2-2 데이터를기반으로하는마이닝 (mining) 78) 기법들 79) 출처 : 한국정보화진흥원 (2013) ( 재인용 ) 76) 구분 데이터마이닝 (Data Mining) 텍스트마이닝 (Text Mining) 웹마이닝 (Web Mining) 소셜분석, 소셜마이닝 (Social Mining) 내용 대용량의데이터, 데이터베이스등에서감춰진지식, 기대하지못했던경향, 새로운규칙등의유용한정보를발견하는과정 데이터마이닝을통해정보의연관성 ( 순차패턴, 유사성등 ) 을파악함으로써가치있는정보를만들어의사결정에적용 자연어로구성된비정형텍스트데이터에서패턴또는관계를추출하여가치와의미있는정보를찾아내는마이닝기법 텍스트마이닝은사람들이말하는언어를이해할수있는자연언어처리 (Natural Language Processing) 기술에기반함 인터넷상에서수집된정보를데이터마이닝방법으로분석통합하는기법 웹마이닝은콘텐츠마이닝 ( 웹검색, 수집데이터 ), 구조마이닝 ( 웹사이트구조 ), 활용마이닝 ( 사용자이용형태 ) 등으로세분화 소셜미디어에올라오는글과사용자를분석해소비자의흐름이나패턴등을분석하고, 판매나홍보에적용 마케팅분야뿐만아니라사회의흐름과트렌드, 여론변화추이를읽어내는소셜미디어시대의새로운마이닝기법 76) 한국정보화진흥원, 2013.2. 새로운미래를여는빅데이터시대 77) 마이닝 (mining) 이란광산에서광물을캐낸다는의미로, 디지털시대에는대규모로축적된데이터 ( 광산 ) 에서의사결정이나미래를전망할수있는유용한정보 ( 광물 ) 를추출한다는의미로응용. 78) 현실마이닝 (reality mining) 은 2008년도미국 MIT가발행한테크놀로지리뷰에 10대유망기술중하나로선정되었으며 (10 Emerging Technologies 2008), MIT 미디어랩의프로젝트로현실마이닝연구 (reality.media.mit. edu) 가수행됨. 2009년다보스포럼에서도 현실마이닝 이라는용어가언급된바있음. 40 I 41
구분 현실마이닝 3) (Reality Mining) 내용 사람들의행동패턴을예측하기위해사회적행동과관련된정보를기기 ( 휴대폰, GPS 등 ) 를통해얻고분석하는기법 휴대폰등모바일기기들을통해현실에서발생하는정보를기반으로인간관계와행동양태등을추론 출처 : 한국정보화진흥원 (2013) ( 재인용 ) 79) 기업들은수많은고객업무거래데이터를활용하여발빠른의사결정, 미래수요예측, 경영성과관리에기여하는 BI전략도입을추진하였고, BI는의사결정에필요한데이터를수집, 저장, 처리, 분석하는일련의기술과응용시스템을말하는데, 빅데이터애널리틱스도이러한일련의과정을거치게된다. 그림 2-3 데이터의과거 - 현재 - 미래 저장검색관리공유분석추론 데이터베이스 검색엔진 KMS Web2.0 빅데이터 상황인식 축적활용확산및공유가치창출 출처 : 정지선 (2011), 新가치창출엔진, 빅데이터의새로운가능성과대응전략 출처 : 한국정보화진흥원 (2013) ( 재인용 ) 80) 기업의빅데이터활용기술의변화 81) 기업의의사결정에유용한정보를찾아내는 BI는분석기능이강화된 BDA 로진화중에있다. BI는신속하고정확한비즈니스의사결정을위해사용하는데이터의접근, 수집, 보관, 분석등의애플리케이션과기술의집합인데 82), 최근 BI에서 BDA로진화하면서 83) 데이터의생성부터폐기까지전사적인범위 79) 한국정보화진흥원, 2013.2. 새로운미래를여는빅데이터시대 80) 한국정보화진흥원, 2013.2. 새로운미래를여는빅데이터시대 81) 한국정보화진흥원, 2013.2. 새로운미래를여는빅데이터시대 82) http://artjang.com/32 83) 데이터넷, 급부상하는 비즈니스분석, 더넓고깊은통찰력필요, 2011. 2. 빅데이터기반의산업시장정보분석
에서기업의미래를예측하게된다. BI가 OLAP 툴이라고한다면 BDA는 BI 와 ETL, 데이터통합품질관리 (Data Integration/Data Quality; DI/DQ), 마스터정보관리 (Master Data Management; MDM), 분석예측최적화기술이통합된것이라할수있다. 그림 2-4 BI 에서 BDA 로의진화과정 출처 : 데이터넷 (2011) 84) BI와 BDA 모두데이터를분석하여사업에활용한다는점은공통되므로 BI 의연장선상으로 BDA를볼수있으나, BI에비하여 BDA는데이터의종류를한정하지않고, 수집가능한다양한데이터를활용하며탐색적특색이강하며 85), 또한기업의전사관리나비즈니스영역을넘어서사회적현상분석에활용되어새로운창출의무한한가능성이존재한다. 최근에는기업관심이내부고객정보분석에서 SNS 분석으로확대되면서 BA에 SNS 분석을포함해가는추세로발전되고있다. 84) 데이터넷, 급부상하는 비즈니스분석, 더넓고깊은통찰력필요, 2011. 2. 85) 노무라연구소 (2012), 빅데이터시대도래 42 I 43
표 2-3 데이터관점에서전통적인 BI 와빅데이터의차이점 구분전통적인 BI 빅데이터 데이터원천 - 기업내부시스템 : OLPT(ERP, SCM 등 ) - 기업내 / 외부시스템 : 마케팅시스템, SNS, 센서데이터, 스마트폰사용자데이터등 데이터구조 데이터양 관계형데이터 - 사전에정의된열과컬럼 - 스키마는필수, 정형적이며리버스엔지니어링이가능 기가바이트, 테라바이트 - 인덱스기반의접근 - 스타스키마등모델링 - 데이터마트를통한데이터요약 Key-Value pairs - 임의적인데이터구조 - 스키마는 Option( 비정형스키마 ) 테라바이트, 페타바이트 - 인덱싱사용하지않음 ( 동적인덱싱가능 ) - parallel partitions 사용 출처 : 한국정보화진흥원 (2013) ( 재인용 ) 86) 86) 한국정보화진흥원, 2013. 2. 새로운미래를여는빅데이터시대 빅데이터기반의산업시장정보분석
빅데이터분석관련시장 44 I 45
빅데이터분석관련시장 데이터베이스솔루션시장해외데이터베이스솔루션시장현황 87) DB 솔루션은다양한분야로구분할수있는데, 대표적인분야로는 BI, DBMS, DW, ECM 등을들수있다. 이들분야들은상호유기적으로구성되어있기때문에단독이라기보다는통합적으로구축되는경우가많다. 이렇게 DB 솔루션은통합적으로구축되어특정분야만을따로분리하여시장을설명하기는어렵다. 예를들어, BI를구축하기위해서는데이터통합과 DW, 데이터분석등의전과정이필요하다. DB 솔루션업체들역시특정분야에서활동하는순수기업도있지만다양한분야에서활동하는통합솔루션제공업체들도있다. 또한최근에는스마트폰이나태블릿 PC와같은스마트기기의사용증가와소셜미디어의세계적인확산등으로인해비정형데이터가급증하면서이를다룰수있는빅데이터관련시장도급성장하고있다. 따라서데이터베이스진흥협회에서는백서를통해 DB솔루션의시장현황을 1 빅데이터 2 BI 3 DBMS 4 DW 5 ECM의 5개분야시장현황및전 87) 데이터베이스진흥협회, 2013 데이터베이스백서 빅데이터기반의산업시장정보분석
망, 그리고각분야의주요기업들을정리했다. 이중 BI에는기업성과관리 (Corporate Performance Management; CPM) 와애널리틱스시장을포함되어있다. 본고에서는빅데이터시장에대해발췌및소개함에있어서빅데이터시장뿐만아니라앞으로분석에있어서빅데이터분석으로예상되는 BI 시장도함께언급하고자한다. DB 솔루션시장관점에서의빅데이터시장 88) 스마트폰과소셜미디어의급속한확산은앞에서언급한바와같이세계적으로데이터이용의폭증을가져왔으며, 이로인해데이터생산량이스토리지의수용능력을앞지르는상황이발생하고있다. 그림 3-1 세계빅데이터시장규모 출처 : CIBC World Market Inc., 2012.12 해외주요투자은행인 CIBC에따르면, 세계빅데이터시장규모는 2012년약 70억달러에서오는 2015년약 170억달러로 3년간약 2.5배가까이증가할것으로전망된다. 빅데이터중에서도서비스분야의비중이가장크고, 인프라와솔루션이비슷한비중을차지할것으로예상된다. 88) 데이터베이스진흥협회, 2013 데이터베이스백서 46 I 47
DB 솔루션시장관점에서의 BI 시장 89) BI 시장은일반적으로 1 비즈니스인텔리전스플랫폼 (Business Intelligence Platform) 2 기업성과관리 (CPM) 3 애널리틱스의 3가지세부분야로구성되어있다. 그림 3-2 BI 솔루션시장규모및성장률 출처 : Gartner, 2012.5 ; 한국데이터베이스진흥원재구성 BI 플랫폼은주로쿼리와리포팅솔루션관련플랫폼또는툴들이며, CPM 은기업고객들의전략생성, 예산, 예측, 균형스코어보드등을포함하고있다. 애널리틱스는데이터마이닝과예측적분석등을의미한다. 세계 BI 솔루션시장규모는 2010년 105억달러에서 2011년 122억달러로전년대비 16.4% 증가했다. 글로벌금융위기직후인 2009년성장률이 3.8% 로낮아졌으나, 2010년 13.3% 의성장률을기록했으며, 2011년에는 16.4% 로 2년연속두자릿수성장률을보였다. BI 솔루션시장은기존의 PC 관련솔루션이아직은시장의대세를이루고있으나, 향후 10년간은클라우드컴퓨팅, 모바일, 소셜등이 BI 솔루션시장의화두가될것으로전망된다. 2011년 BI 솔루션시장을세부분야별로보면, BI 플랫폼시장이 78억달러로 63.6%, CPM 시장이 25억달러로 20.5%, 애널리틱스시장이 19억달러로 15.8% 를차지했다. 전년인 2010년과비교하면, 3개분야의시장점유율은거의변동이없는것으로나타났다. 89) 데이터베이스진흥협회, 2013 데이터베이스백서 빅데이터기반의산업시장정보분석
표 3-1 세계 BI 솔루션세부분야별시장규모및점유율 구분 2009년 2010년 2011년시장규모시장점유율시장규모시장점유율시장규모시장점유율 BI Platform 5,955 64.2% 6,703 63.7% 7,793 63.6% CPM 1,922 20.7% 2,156 20.5% 2,509 20.5% Analytics 1,401 15.1% 1,653 15.7% 1,939 15.8% 합계 9,278 100.0% 10,512 100.0% 12,241 100.0% 출처 : Gartner, 2012.5 ; 한국데이터베이스진흥원재구성 출처 : Gartner, 2012.5 ; 한국데이터베이스진흥원 ( 재구성 ) BA 시장 90) IDC 에의하면전세계 BA SW 시장은 2017 년까지연평균 9.7% 성장세지속 91) 할 것으로예측되며, 작년 8.7% 성장으로전체 SW 시장성장률 3.6% 보다높았다. 그림 3-3 세계비즈니스애널리틱스소프트웨어시장전망 ( 백만달러 ) 출처 : IDC (2011) IDC는전세계비즈니스애널리스틱 (BA) 소프트웨어시장이세계경제위기속에서도오는 2017년까지 9.7% 의성장세를유지할것으로내다봤다. BA 소프트웨어는 BI, DW 및분석관련소프트웨어를총칭한다 IDC에서비즈니스애널리틱스소프트웨어연구부문을총괄하는댄베셋 (Dan Vesset) 부사장은 비즈니스애널리틱스솔루션을통한데이터기반의 90) 신문기사, 출처 : 컴퓨터월드 / 제공 : DB포탈사이트 DBguide.net 91) 신문기사, 출처 : 컴퓨터월드 / 제공 : DB포탈사이트 DBguide.net 48 I 49
의사결정이경쟁적차별화를이끌어내고있으며, 이는실제정량적으로입증되는추세 라고언급하고, 비즈니스애널리틱스솔루션은빅데이터에대한관심과더불어기업고위임원진들의고려항목에서상위를차지, 시장의주류로부상하고있다 고설명했다. 2012년전세계비즈니스애널리틱스소프트웨어시장은매출액기준으로전년대비 8.7% 성장한 349억달러를기록했다. 이는 2011년성장률이 15% 에이른것에비하면큰폭으로낮아진것으로, 글로벌거시경제이슈들과유럽시장의저조한성적에기인한것으로분석된다. 그러나지난해전체소프트웨어시장성장률이 3.6% 에그친것에비하면, 비즈니스애널리틱스소프트웨어시장성장률은여전히높은성장세를보이고있다. 지역별로는아시아태평양지역 ( 일본제외 ) 및남미와같은신흥시장이지난해최고실적을기록하며각각전년대비 13.4% 씩성장했다. 미국의경기회복세에힘입어북미지역도신흥지역과비슷한전년대비 12.1% 의성장세를보였다. 남미지역은 2017년까지연평균성장률 12.4% 로가장높은성장세를보일것으로전망되며, 그뒤를이어북미지역이 10.9%, 아시아태평양지역 ( 일본제외 ) 은 10.5% 의연평균성장률을보일전망이다. 비즈니스애널리틱스소프트웨어시장을세가지주요부문으로나누어살펴보면, 데이터웨어하우징플랫폼소프트웨어부문이전년대비성장률 10.8% 로 2012년가장높은성장세를보였다. BI 및분석툴부문과성능관리및분석애플리케이션부문은각각 7.7% 성장했다. 이처럼다양하고경쟁이치열한비즈니스애널리틱스소프트웨어시장에서상위 6대벤더사인오라클, SAP, IBM, 마이크로소프트, SAS, 테라데이터가지난해전세계매출의 64% 를차지한것으로나타났다. 빅데이터시장현황및전망빅데이터시장구조및분류빅데이터관련시장은일반적으로하드웨어, 소프트웨어, 서비스부문으로나눌수있는데, 하드웨어에는스토리지, 서버, 네트워크관련분야가, 소프트웨어에는빅데이터처리 ( 하둡, NoSQL, DW 등 ) 및분석소프트웨어 (R, BI 도 빅데이터기반의산업시장정보분석
구, 시각화등 ) 가포함된다. 또한서비스부분은시스템구축및분석관련컨설팅과기타지원, 교육훈련, 유지보수등이이에해당된다. 표 3-2 빅데이터시장분류 대분류중분류정의 HW SW 서비스 IDC 분류연계 한국 DB 진흥원분류연계 스토리지대용량데이터의저장, 관리, 전송을위한기능및시스템스토리지구성요소의집합등대용량데이터의저장을위한저장장소 서버 빅데이터서비스환경에최적화된분석이나서비스를할수있도록솔루션이탑재되어서비스해주는장비 서버 DB 구축 유 무선을통해송수신되는네트워크및모바일에서발생하는네트워크트래픽을효율적으로해결할수있는네트워크장비 네트워크 처리SW 사용자가저장한빅데이터를효과적으로저장, 처리하는 SW( 하둡분산, 오픈소스하둡분산, DW 등 ) 분석SW 빅데이터에대해사용자요구나시장요구에맞는데이터분석툴 (TOOL) ( 소셜분석, 시각화, BI 도구등 ) SW DB 솔루션 빅데이터시스템구축및분석을기반으로각종시스템컨설팅 DB 컨설팅비즈니스컨설팅을수행서비스빅데이터시스템구축및분석을기반으로각종시스템에기타 DB 서비스대한지원, 교육훈련, 유지보수등 출처 : 정보통신산업진흥원 (2012) 92) 세계빅데이터시장현황및전망 93) 가트너는 2012년과 2013년에빅데이터를 10대전략기술로선정하였다. 그외글로벌조사연구기관들도앞다투어빅데이터시장의성장을전망하고빅데이터가전세계 IT 시장에미칠파급효과에주목하면서빅데이터가새로운정보사회패러다임을견인할것으로기대하고있다. 특히정부와기업들이빅데이터도입과활용을서두르면서하둡이나 NoSQL 등의빅데이터오픈소스솔루션업체들과기존의대형 DW BI 솔루션업체들이관련솔루션을속속내놓기시작했고, 빅데이터는엔터프라이즈솔루션으로도빠르게자리를잡을것으로전망된다. 물론아직초기단계인빅데이터산업의특성상시장범위와규모에대해기관별로차이가있지만, 주목할만한것은빅데이터시장의성장률에대해서는모두높게전망하고있다는것이다. 92) 정보통신산업진흥원 (NIPA), 빅데이터분류체계, 2012.12. 93) 데이터베이스진흥협회, 2013 데이터베이스백서 50 I 51
그림 3-4 ICT 발전에따른데이터의변화방향 출처 : 정지선 (2011) 94) 그림 3-5 2011 년도가트너의이머징기술하이프사이클 (Hype Cycle) 출처 : Gartner(2011) 95) 94) 정지선, 신가치창출엔진, 빅데이터의새로운가능성과대응전략, 한국정보화진흥원, IT&Ffuture Strategy, 제 18 호, 2011.12.30. 95) Gartner, Hype Cycle for Emerging Technologies, 2011 빅데이터기반의산업시장정보분석
IDC는세계빅데이터시장이 2010년 32억달러에서 2013년 97억달러, 2015년 169억달러규모로연평균약 40% 의성장을전망하고있으며, 이는전체정보통신기술시장성장률의약 7배에달하는수치이다. 부문별성장률을보면 2015년에는 SW와서비스부문이빅데이터시장의약 66% 를차지할것으로전망하고있다. IDC는일본을제외한아시아태평양지역에서빅데이터기술및서비스시장은연평균 46.8% 에달하는고성장을전망하면서 2016년 17억 6,000만달러규모에이를것으로예상했다. 특히한국시장과관련해서는연평균 40% 의성장률을보이며 2016년 1억 5,400만달러규모에이를것으로예상했다. 그림 3-6 빅데이터시장전망 ( 단위 : 백만달러 ) 구분 2010 2011 2012 2013 2014 2015 CAGR 서버 495 665 803 1,032 1,270 1,657 27.3% 스토리지 318 560 1,224 1,968 2,719 3,479 61.4% 네트워킹 106 146 242 368 485 620 42.4% SW 1,062 1,415 1,851 2,476 3,376 4,625 39.5% 서비스 1,236 1,979 2,721 3,883 5,099 6,538 16,920 합계 3,217 4,766 6,842 9,728 12,941 16,920 39.4% 출처 : 2013 데이터베이스백서 ( 재인용 ) 그림 3-7 빅데이터시장전망 (APeJ 및한국 ) 출처 : 2013 데이터베이스백서 ( 재인용 ) 52 I 53
한편, 시장규모는시장의정의, 포함범주등에따라조사 예측기관마다약간의차이를나타내게되는데, Wikibon 96) 에서는전체빅데이터시장 ( 하드웨어, 소프트웨어, 서비스 ) 은 2012년에 114억달러에이르고, 2013년에는 181억달러로연평균 61% 의성장률로예상하였다. 또한 2017년에는 470억달러로예상되어최종적으로 2012년에서 2017년 5년간에는 31% 의연평균성장률을가질것으로예상하였다. 그림 3-8 빅데이터시장규모 (2011~2017) 출처 : Wikibon 2013 97) 또한빅데이터시장을 1XaaS 98), 2상용전문가서비스 (Professional Services), 3응용소프트웨어 (Application (Analytic and Transactional) Software), 4NoSQL 데이터베이스소프트웨어, 5SQL 데이터베이스소프트웨 96) Jeff Kelly, Big Data Vendor Revenue and Market Forecast 2012-2017, Wikibon, 2013.8 updated. 97) Jeff Kelly, Big Data Vendor Revenue and Market Forecast 2012-2017, Wikibon, 2013.8 updated. 98) X As A Service; 서비스형태의모든 IT 요소, 즉, SaaS, PaaS, DaaS, IaaS 등포함 빅데이터기반의산업시장정보분석
어, 6인프라트스럭처 99) 소프트웨어 (Infrastructure Software), 7네트워킹 (Networking), 8스토리지 (Storage), 9연산 (Compute) 으로세분화하여각각의시장에대해서도 < 그림 3-8> 에나타내었다. Wikibon은향후 5년간매출의생성과가치가빅데이터인프라스트럭처와미들웨어에서부가가치서비스및소프트웨어로옮겨갈것으로전망했다. 언급한바와같이하드웨어매출은빅데이터시장의 40% 를차지하고, 소프트웨어와서비스시장의많은부분이인프라스트럭처소프트웨어와빅데이터플랫폼과데이터와연결된기술적서비스와관련되어있다. 2012년기준으로빅데이터관련전체시장 114억달러중에서하드웨어부문이가장많은 41% 를차지하였고, 서비스부문이 39%, 소프트웨어부문이 20% 를차지하였다. 그림 3-9 빅데이터유형별시장 출처 : Wikibon 2013 100) 상기의세분화시장을기준으로할경우, 하드웨어부문은네트워킹 (Networking), 스토리지 (Storage), 연산 (Compute) 분야가, 서비스부문은 XaaS 101), 상용전문가서비스 (Professional Services) 분야가, 소프트웨어부문 99) 빅데이터인프라스트럭처소프트웨어 : 하둡, 데이터통합, 데이터품질및기타데이터관리소프트웨어 100) Jeff Kelly, Big Data Vendor Revenue and Market Forecast 2012-2017, Wikibon, 2013.8 updated. 101) X As A Service; 서비스형태의모든 IT 요소, 즉, SaaS, PaaS, DaaS, IaaS 등포함 54 I 55
은응용소프트웨어 (Application (Analytic and Transactional) Software), NoSQL 데이터베이스소프트웨어, SQL 데이터베이스소프트웨어, 인프라트스럭처소프트웨어 (Infrastructure Software) 로나누어볼수있다. 그림 3-10 빅데이터부문별시장동향 (2011 ~ 2017) 가장비중을비중을높게차지하고있는하드웨어부문 (41%) 은연평균성장률 (CAGR) 이약 33% 로높지만소프트웨어의성장률 43% 보다는낮아, 2017 년에는 34% 를차지하면서점점그비중이감소할경향을보이는반면에소프트웨어부문은서비스부문과함께점점그비중이증가할것으로예측되고있다. 빅데이터애널리틱스시장전망빅데이터애널리틱스시장은앞에서세분화된분야를재그룹핑하여생각해볼수있는데, 관련시장으로는좁은범위로는 XaaS와상용전문가서비스와같은서비스부문을들수있고, 좀더넓은범위로는응용소프트웨어분야를추가하여고려할수있다. 응용소프트웨어에는애널리틱스관련툴과솔루션들이주로포함되어있다고할수있기때문이다. 넓은범위에서의빅데이터애널리틱스 ( 빅데이터산업시장분석 ) 시장은연평균증가율 41% 로매우높은성장률이예상되며, 2017년에는 256억달러 ( 약 26조원 ) 에이를것으로추정되고있다. 이는빅데이터관련시장에서비중이절반이넘는 54% 에해당되는것이다. 빅데이터기반의산업시장정보분석
그림 3-11 빅데이터애널리틱스시장전망 (2011 ~ 2017) 따라서빅데이터관련시장을고려할경우, 빅데이터애널리틱스시장은빅데이터의특성상분석과실제적용이더욱중요해짐에따라매우전망이밝은분야라할수있고, 국내에서도이러한시장의동향에대응하여빅데이터애널리틱스관련기술과노하우및전문가양성에많은노력을기울여야할것으로생각된다. 관련기업현황빅데이터관련글로벌기업들은해당영역별로 < 그림 3-12> 와같이나타낼수있다. 빅데이터애널리틱스관련부문으로는비즈니스인텔리전스 (Business Intelligence) 와애널리틱스와가시화 (Analytics and Visualization) 이라할수있다. 56 I 57
그림 3-12 빅데이터관련업계지도 출처 : Forbes, 2012 102) 상기 < 그림 3-12> 에언급된빅데이터관련글로벌기업리스트 : Vertical Apps: Predictive Policing, BloomReach, Atigeo, Myrrix Log Data Apps: Splunk, Loggly, Sumo Logic Ad/Media Apps: Media Science, Bluefin Labs, CollectiveI, Recorded Future, LuckySort, DataXu, RocketFuel, Turn DaaS(Data as a Service): Gnip, Datasift, Space Curve, Factual, Windows Azure Marketplace, LexisNexis, Loqate, Kaggle, Knoema, Inrix Business Intelligence(BI): Oracle Hyperion, SAP BusinessObjects, Microsoft Business Intelligence, IBM Cognos, SAS, MicroStrategy, GoodData, Autonomy, QlikView, Chart.io, Domo, Bime, RJMetrics Analytics and Visualization: Tableau Software, Palantir, MetaMarkets, Teradata Aster, Visual.ly, KarmaSphere, EMC Greenplum, 102) http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/ 빅데이터기반의산업시장정보분석
Platfora, ClearStory Data, Dataspora, Centrifuge, Cirro, Ayata, Alteryx, Datameer, Panopticon, SAS, Tibco, Opera, Metalayer, Pentaho Analytics Infrastructure: HortonWorks, Cloudera, MapR, Vertica, MapR, ParAccel, InfoBright, Kognitio, Calpont, Exasol, Datastax, Informatica Operational Infrastructure: Couchbase, Teradata, 10gen, Hadapt, Terracotta, MarkLogic, VoltDB, IaaS(Infrastructure as a Service): Amazon Web Services Elastic MapReduce, Infochimps, Microsoft Windows Azure, Google BigQuery Structureed Databases: Oracle, Microsoft SQL Server, MySQL, PostgreSQL, memsql, Sybase, IBM DB2 Technologies: Hadoop, MapReduce, Hbase, Cassandra, Mahout 또한빅데이터시장구분에따라업체를구분할수도있는데, 빅데이터애널리틱스관련부문으로는소프트웨어영역중에서애널리틱스 &BI(Analytics & BI), 응용제품 (Applications), 툴 (Tools) 부문이, 서비스영역에서는전문가서비스 (Professional Services) 부문이라할수있으며, 해당기업들은 < 그림 3-13> 과같다. 그림 3-13 빅데이터글로벌기업지도 (landscape) 출처 : Wikibon 2012 58 I 59
업체별빅데이터관련매출비중및구성비분석 103) 빅데이터시장에서는 2012년기준 IBM, HP, Teradata, Dell, Oracle, SAP, EMC, Cisco System, Microsoft, Accenture 등상위 10개업체가시장의약 40% 를차지하고있으며, 이중절반인 21.2% 를상위 3개기업 IBM, HP, Teradata 가점유하고있다. 그림 3-14 빅데이터관련글로벌기업의빅데이터매출비중및구성비율 출처 : wikibon.org(2013) IBM과 HP는전체매출에서빅데이터관련매출이 1%(cf. Teradata 16%) 정도밖에되지않지만그규모는상위 1, 2위에해당되며, 하드웨어, 소프트웨어, 서비스 3가지영역에서고른매출을보이고있다. 빅데이터에특화된기업 104) 의시장점유율을보면, Splunk(M2M에서생산되는데이터분석분야 ) 는시장점유율 17.6% 로 1위를차지하며, 2위는 Palantir 16.8% 이고, Opera Solutions는 11.1% 의시장점유율로 3위를기록하고있으며, 특히애플리케이션분석에강점을보유하고있다. 4위업체인 Mu Sigma( 시장점유율 10.8%) 는의사결정지원분석분야, 5위업체인 Cloudera( 시장점유율 5.3%) 는 Hadoop 솔루션분야에서각각강점을갖고있다. 103) Jeff Kelly, Big Data Vendor Revenue and Market Forecast 2012-2017, Wikibon, 2013.8 updated. 104) 빅데이터관련매출이전체 100% 인기업 빅데이터기반의산업시장정보분석
그림 3-15 빅데이터특화된기업매출상위 10 위 ( 단위 : 백만달러 ) 또한빅데이터관련기반기술에관련된하둡과 NoSQL 관련된시장을보 면, 2012년전체 2억7천만달러규모이며, 글로벌기업별매출순위는 < 그림 3-16> 과같다. 그림 3-16 하둡과 NoSQL 관련글로벌기업의매출순위 ( 단위 : 백만달러 ) 출처 : Wikibon 2013 105) 105) Jeff Kelly, Big Data Vendor Revenue and Market Forecast 2012-2017, Wikibon, 2013.8 updated. 60 I 61
글로벌기업의빅데이터추진현황글로벌 IT기업들은 DW와 BI 기술에빅데이터를접목하거나빅데이터전문기업을인수합병하며빅데이터프로세스전과정을포함하는솔루션과서비스를추구하고있다. 표 3-3 Oracle HP Microsoft IBM SAP Palantir 글로벌 IT 기업의빅데이터추진현황 세계적인 DB 업체 하이페리온社 를인수로분석기술확보 오라클 Big Data Appliance(CDH 탑재 ) 제품출시 Endeca, Exalytics 등빅데이터분석솔루션출시 BI 솔루션업체 Vertica 와기업용검색엔진업체 Autonomy 인수 - Autonomy 에서제공하는정보처리레이어와버티카의고성능실시간분석엔진의조합을토대로빅데이터인프라서비스제공 Hadoop on Window, Hadoop on Azure 출시예정 - Hortonwork 의 Hadoop 탑재 분석용데이터저장관리업체 Netezza, 데이터통합업체 Ascential Software, 분석솔루션업체 Cognus 등비즈니스분석관련업체인수 빅데이터솔루션 : InfoSphere Biginsight(Hadoop), InfoSphere Streams HPA(High Performance Analytics) 기반의 SEMMA 방법론 제시 IT + 분석 + 비즈니스 통합플랫폼구현 (SAS 빅데이터분석플랫폼 SolutionMAP), 인메모리컴퓨팅기반의어플라이언스 HANA 출시 Enterprise Intelligence Platform 보유 미국정부및월가금융사들중심의대형범죄분석, 사기분석, 재난구조등의사업레퍼런스확보 Teradata 데이터웨어하우징및비즈니스인텔리전스 (BI) 전문업체 비정형데이터의고급분석, 관리솔루션업체인수 (Ester) Ester MapReduce Platform 제시 EMC 데이터저장, 관리, 분석까지빅데이터에관한모든것을제공하기위해 Greenplum, Isilion 등빅데이터솔루션및데이터관련다수업체인수 출처 : 언론자료재구성기업명추진내용 출처 : 2013 데이터베이스백서 ( 재인용 ) IBM, EMC, HP 등 IT 기업들은 2009년부터빅데이터가화두가될것임을인지하고빅데이터분석을위해고성능데이터웨어하우스 (DWH) 사업을인수하면서빅데이터분석사업을강화하였다. 106) 특히, IBM은 2009년 2월스마터 106) 신가치창출을위한주요국의빅데이터추진전략분석, 2012.11.21. 한국정보화진흥원 (NIA) 빅데이터기반의산업시장정보분석
플래닛구상을발표하고, 4월에는비즈니스분석및최적화라불리는기법을적용한컨설팅서비스를시작하였다. 그림 3-17 글로벌 IT 기업의빅데이터사업추진내역 국내 IT기업의빅데이터추진현황글로벌 IT기업들이국내빅데이터시장진출을선언하면서국내 SI업체들도관련솔루션출시와빅데이터사업참여를본격화하고있지만, 소수의하둡기반자체솔루션을가진국내 IT업체를제외하고는대부분의국내빅데이터기업들의경쟁력은약한편이다. 이를극복하기위해국내빅데이터기업들은자체네트워크를기반으로경쟁력강화를모색하고있기도하다. 그외에도 BI 전문기업들이모여 BI 플랫폼을공동개발하는 BI포럼, 각계전문가들이모여빅데이터산업발전과경쟁력강화를논의하는 빅데이터포럼, 공공분야의빅데이터가치창출을도모하는 빅데이터국가전략포럼 등산 학 연차원에서다양한활동들이이루어지고있다. 62 I 63
표 3-4 국내 IT 기업의빅데이터추진현황 기업명 추진현황 오픈소스하둡기반의자체빅데이터플랫폼과소셜미디어분석솔루션출시 LG CNS 빅데이터전담조직인 AA(Advanced Analytics) 사업부문출범 2013년에는빅데이터어플라이언스와빅데이터분석솔루션추가예정 삼성지놈닷컴을통하여유전자분석서비스를제공 삼성 SDS 유전자정보를분석 관리하는바이오인포매틱스사업진행 오픈소스기반빅데이터분석플랫폼개발중 SK C&C 실시간데이터분석솔루션스톰 국민연금관리공단콘텐츠관리시스템 (CMS) 구축에 SNS 분석을적용 유전자분석서비스인게놈클라우드제공 KT 빅데이터분석서비스인 U-클라우드비즈맵리듀스출시 넥스알인수 소셜모니터링 / 분석솔루션 스마트인사이트 (Smart Insight) 제공 SK텔레콤 독자적 NLP 기반의텍스트마이닝, 네트워크분석지원 빅데이터분석엔진 T-MR' 을 T클라우드비즈사용자들에게무료제공 SM2네트웍스 클라우드플랫폼서비스 (Radian6) 를통한다양한소셜분석지원 더존비즈온 전자금융서비스모바일솔루션등의기업용소프트웨어개발 모비젠 기업용빅데이터 DB솔루션인 아이리스 (IRIS) 출시 효성인포메이션시스템 스토리지와솔루션을결합시킨빅데이터어플라이언스개발 와이즈넛 빅데이터지원검색 분석솔루션출시 사업관리및검색및텍스트마이닝기술개발 티베로 공유 DB클러스터기술인 티베로액티브클러스터 (TAC) 개발 한화 S&C 빅데이터분석솔루션인 빅데이터애널라이저 출시 다음소프트 SNS 정보기반여론진단서비스 솔트룩스 비정형빅데이터분석플랫폼 (Truestory), 클라우드기반시맨틱검색플랫폼 (IN2), 시맨틱기반빅데이터추론플랫폼 (STORM), 빅데이터분석서비스플랫폼 (O2) 그루터 빅데이터플랫폼구축및컨설팅서비스, 분석및데이터제공서비스, 빅데이터분석플랫폼제공서비스 사이람 소셜네트워크분석소프트웨어넷마이너 (NetMiner) 및컨설팅제공 이씨마이너 분석솔루션 (ECMiner), 모니터링솔루션 (IMS), 룰 / 연관분석솔루션 (Rule), 이미지마이닝솔루션 (SIS) 기반의패키지서비스제공 이투온 분석솔루션 / 서비스 (SNSpider), 빅데이터분석플랫폼 (UNINAN) 제공 카디날정보기술 스토리지분야 (Monad Storage), 분석분야 (Monad Integration), 시스템운영관리분야 (Monad Management) 솔루션제공 코난테크놀로지 데이터수집, 검색, 분석기술기반의소셜모니터링, 분석서비스 (Pulse-K) 제공 클루닉스 하둡시스템및작업관리 (Gridcenter Hadoop), 저장및처리 (Teragon-Hadoop), 분석클라우드구축 (RNTier) 솔루션제공 투이컨설팅 빅데이터환경의전략수립및프로세스최적화컨설팅서비스제공 야인소프트 인메모리기반의데이터분석 / 처리전문 투비소프트 시각화용 RIA 기반의플랫폼기술개발 큐브리드 관계형 DBMS 기술개발 클라우다인 하둡을비롯한대용량데이터처리를위한솔루션을오픈소스로개발 한국키스코 3D 데이터시각화 / 인포그개픽기술개발 비투엔컨설팅 데이터모델링아키텍처개발 이노룰스 통계분석엔진 R' 관련기술개발 아크원소프트 빅데이터솔루션 (Easy-up) 및 SI 구축과아웃소싱서비스제공 센솔로지 소셜분석솔루션 ( 오피니언버디 ), 여론분석서비스 ( 평닷컴 ) 제공 엔에프랩 BI/BA' 빅데이터통합플랫폼 (Peloton) 제공 위세아이텍 마케팅솔루션 (Campaign), 빅데이터저장 / 분석플랫폼 (Cloud BI), 데이터공유 / 활용오픈플랫폼 (Smart BI TM ), 고객프로파일링솔루션제공 출처 : 언론자료재구성 출처 : 2013 데이터베이스백서 ( 재인용 ) 빅데이터기반의산업시장정보분석
빅데이터분석의활용 64 I 65
빅데이터분석의활용 빅데이터분석의적용효과 107) 빅데이터의적용효과는국내의경우아직나타난통계가없으므로글로벌빅데이터적용효과를살펴보면, 미국의의료산업에서는 1년간 3천억달러가치가발생하며, 년간생산성이 0.7% 향상된다고한다. 유럽의공공행정분야에서는 1년간 2천 5백억유로의가치가발생하며연간생산성이 0.5% 향상되며, 글로벌개인위치데이터는연간 1천억달러이상수익을나타내며, 사용자가치가 7천억달러에달한다고한다. 미국유통업종에서는순매출이 60% 이상증가하며, 연간 0.5~1.0% 생산성이향상되고제조업종에서는제품개발 / 조립원가가 50% 절감되며, 운전자본이 7% 가절감된다는통계를맥킨지가보고하고있다. 즉, 의료, 공공행정, 소매, 제조, 개인정보부문에적용시 1% 의추가생산성향상가능하다고보고하고있는데, 각부문별로적게는 1,000억달러에서 7,000억달러규모의경제적효과창출을예상하고있다. 생산성향상정도에따라나누어볼때, 컴퓨터, 전자제품및정보통신분야에서빅데이터의적용효과가클것으로분석되고있으며, 미국에서는 2018년까지 14만 ~19만명의전문가및 150만명정도의데이터관리자와분석인력이 107) 데이터베이스진흥협회, 2013 데이터베이스백서 빅데이터기반의산업시장정보분석
부족할것으로예상하고있다. 또한맥킨지 108) 는빅데이터활용가치를투사해본 5 개부문은글로벌 GDP 57.5 조달러의 40%(22.3 조달러 ) 를차지할것으로보고하고있다. 빅데이터의활용유형 (Big Data: Real-World Use Cases) 109) 하둡과기타빅데이터기술및방법들은기업에서미처깨달지도못할문제에대한해답을제공해줄수도있을것이다. 이것은새로운제품아이디어를이끌어내는통찰력을얻거나작업효율을개선하는방법을찾는것을도와줄수있다. 빅데이터가실제로적용되는 6개분야로는운송분야, 건강관리분야, 인적자원분야, 금융서비스분야, 고객관리분야, 문서관리분야등을들수있다. 이미빅데이터에대한활용사례들이많이나오고있는데, 구글, 페이스북및링키드인과같은거대웹기업뿐만아니라더전통적인기업들에도활용사례들이존재하며, 그유형은아래와같다. 추천엔진 (Recommendation Engine): 웹특성과온라인소매자들은하둡을이용자들에게이용자프로필과거동데이터분석에기초하여다른것이나제품또는서비스를추천하고매치시키는데이용한다. 링키드인은이러한방법을 당신이알만한사람 이라는기능에활용하고, 반면에아마존은온라인소비자에게구매를위한관련제품을제안하는데사용한다. 감성분석 (Sentiment Analysis): 하둡과연계하여사용되는, 진보된텍스트애널리틱스툴은소셜미디어와트윗이나페이스북포스트와같은소셜네트워크포스트와같은비정형텍스트를분석하는것이다. 특정회사, 브랜드또는제품에관계된이용자의감성을판단하기위해서이며, 거시적수준의감성에서개개인이용자의감성까지초점을맞출수있다. 108) James Manyika & Michael Chui, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, (2011.05.) 109) Jeff Kelly, Big Data: Hadoop, Business Analytics and Beyond, Wikibon, 2013. 4. 66 I 67