Theme Article 스마트경영의웰빙레서피 Big Data 분석 중앙연구소 Intelligent Knowledge Service 조영석 1. 방대한데이터의모음 : Big Data 빅데이터는그증가속도가너무빠르거나데이터의양자체가너무많아기존의데이터베이스관리및분석체계만으로는감당하기어려운방대한데이터의모음을의미한다. 이러한특성때문에빅데이터를분석하는과정에서는기존방식과는다른방식의분석기술이필요하게되었으며, 이러한대용량데이터를수집, 저장, 발굴분석, 비즈니스화하는일련의과정을빅데이터기술이라고부르게되었다. 어느정도크기의데이터를빅데이터로규정해야하는가에대한기준에대해서는많은사람들이예상가능하듯기술의흐름, 시대의흐름에따라매우빠르게변화하고있다. 현재각산업분야에서빅데이터를구분하는용량의기준은대략수십테라바이트 (TB) 에서페타바이트 (PB) 단위까지로구분하고있다. 실제로월마트에서는시간당 100만건의거래정보가시스템에저장되고있으며, 2008년까지시스템에축적된정보는약 2500TB에달한다. 또한, 트위터에서는 2011년 1월현재하루평균약 1억 1천만개의메시지가발신되는것으로알려져있다. 올한해생성및복제될디지털정보량만 32GB 아이패드 575억개에담을수있는분량에해당한다는사실은정부, 기업, 연구소등여러분야에서이거대한정보덩어리들의활용방안에대해매우깊은관심을가질수밖에없음을증명하고있다. 2. Big Data 분석을위한알고리즘 빅데이터는현재인터넷서비스, 검색엔진, 소셜미디어를운영하는업체및통계, 비즈니스, 업무용패키지등을개발하는솔루션업체에이르기까지매우다양한 1
업체들이미래수익모델확보를위해적극적으로연구하고있다. 빅데이터에서가장활발하게사용되는기술은컴퓨터공학의기계학습기법을데이터베이스분석에도입한데이터마이닝이라는기술이다. 기계학습은훈련데이터 (training set) 라는데이터샘플을사용하여알고리즘을만들고, 이알고리즘을대량의실험데이터 (testing set) 에검증하는과정을말한다. 데이터마이닝은데이터베이스를훈련데이터로간주하여기계학습기법의알고리즘을이용하여유용한정보를도출해내는과정을말한다. 빅데이터를분석하기위해대표적으로사용되는알고리즘은다음과같다. 연관규칙학습 (Association Rule Learning) : 수많은데이터들중에서어떤특정한성격을가진데이터군과일정한규칙에따라연결되는다른특정한성격의데이터군을찾아내는방법. 유명한예로장바구니분석이있다. 예를들어 { 양파, 감자 } = { 햄버거 } 라는경향이상품판매데이터에서발견되는경우소비자가양파와감자를사는경우햄버거고기또한같이살확률이높다는것을찾아내는이론이다. 웹사용량분석과, 네트워크침투탐지및생물정보학에도응용된다. 분류 (Classification) : 어떠한규칙혹은특성을기준으로구분된훈련데이터군을기반으로새롭게추가되는데이터가속할만한데이터군을찾아내는방법. 고객들의구매결정, 해지, 소비율등을설명할기준이되는명확한가정이나데이터가있을경우이용된다. 지도학습 (Supervised Learning) 이라고도하며이후설명될군집화 (Clustering) 와상반되는개념이다. 군집화 (Clustering) : 하나의큰데이터군을통계적기법을활용하여비슷한특성 ( 유사성 ) 을지니는여러개의작은묶음으로분류하는학습방법. 분류의기준이되는유사성은사전에정해지지않는다. 고객군을비슷한특성을가진소집단으로묶어서타켓마케팅그룹을만들려고할때활용된다. 훈련데이터군이이용되지않기때문에비지도학습 (Unsupervised Learning) 이라고하며분류 (Classification) 과상반되는개념으로쓰인다. 회귀분석 (Regression) : 어떠한현상을구성하는종속변수값의변화가하나 2
이상의독립변수값을변화시키는지, 어떻게변화시키는지의여부를찾아내는분석방법. 보통변화예측을할때사용한다. 소비자만족도에가장큰기여를하는변수를찾아내거나, 다양한시장이나경제적변수에따른판매량예측등에활용한다. 감성분석 (Sentiment Analysis) : 컴퓨터기술을응용하여인간의언어를분석하는자연어처리 (Natural Language Processing, NLP) 기술에기반하여웹을포함한텍스트기반의문서에서글쓴이의주관적인감정을나타내는정보들을찾아내서긍 / 부정도 ( 긍정, 중립, 부정 ) 를분석하여글쓴이가특정주제에대해갖고있는긍 / 부정성향을파악하는기법. 기업에서는블로그, 트위터, 페이스북등의소셜미디어를분석하여고객군을세분화하며, 고객 / 주주들이기업의새로운서비스에대해나타내는긍 / 부정성향을파악하여신속히그들의선호를서비스에반영하려는시도를하고있다. 3. 응용분야및비즈니스모델 빅데이터기술이가장유용하게사용될수있는대표적인분야로의료, 공공정책, 금융, 소매, 제조, 통신을꼽을수있다. 이분야의데이터들은보통지속적으로대량의데이터수집이이루어지고있었다는점, 앞으로도동일한속성의데이터의확보가비교적용이하다는점, 수집된데이터의대부분이테이블안에서각각의속성으로정의하기쉬운정형화된데이터라는점때문에활용가능성이매우높은것으로평가되고있다. 이중현재활용도는높지않으나향후이용가치가매우높은의료, 통신분야에대해알아보려한다. [ 의료 : 응용분야 ] 대한민국국민의 2010년 1인당평균진료비는 89만 3천원으로전년동기대비 10.1% 나증가하였다. 특히 65세이상노인을대상으로한 1인당평균진료비는 276만 9천원으로전체국민 1인당진료비의 3.1배에달한다. 국민들이의료서비스를이용하면서수집된대량의치료및처방, 인구통계학적데이터, 비용관련데이터들에대한분석을통해환자들에대한원격모니터링및진료를통한비용절감, 신약의가격정책결정, 약의미확인효능및부작용검출등에활용할수있다. 실제로미국의 Kaiser Permanente 컨소시엄은 2004년자신들이 3
보유한임상관련데이터와비용관련데이터를연동하여통합분석을하던중 Merck사의 Vioxx라는진통제를복용한환자들이 Pfizer사의 Celebrex라는진통제를복용한환자들에비해심혈관계질환발병및사망률이세배이상높다는사실을발견해냈다. 이는미국의료계역사상가장큰규모의의약품리콜사태를불러오게되었다. 이렇듯인간의분석능력으로는수행자체가불가능하여그동안밝혀내지못했던유용한혹은중대한정보들을컴퓨터기술을활용한빅데이터분석을통해발굴하여활용할수있다. [ 의료 : 비즈니스모델 ] 현재까지의의료데이터에대한분석은환자에대한데이터를단순히통합관리하는단계를벗어나지못했다. 때문에데이터들에대한심도있는분석은비용절감, 업무효율성증대, 치료효과향상, 생산성개선등의측면에서큰효과를기대해볼수있다. 의료분야에서의빅데이터활용을통해성장할수있는대표적인사업영역은원격모니터링, 진료지원시스템이있다. 원격모니터링 : 2010년기준미국내만성질환을갖고있는환자는 150만명에달하며이는미국전체의료비의 80% 에달한다. 원격모니터링은개별환자들의심전도, 혈당, 보호자피드백등을실시간으로수집및전송하여통합적인분석을하는과정전체를의미한다. 이를통해입원일수감소, 응급실내원횟수감소효과등을가져올수있다. 예를들어충혈성심장병환자의체내수분량보유량을지속적인관찰을통해유지시켜체중을증가하게해서응급상황을예방할수있다. 또한센서를통한환자의움직임관찰을통해혼자사는환자들이평소와다른움직임을보이거나움직임을보이지않을경우등응급상황을대비해신속히환자의상태를체크할수있다. 진료지원시스템 : 현재의지원시스템은의사들이정해주는검사및치료절차에대한분석을바탕으로, 정해진가이드라인에따라의약품의부작용을권고해주는단계에머무르고있다. 빅데이터를이용한시스템을통해의약품과이를처방받은환자들의치료효능을지속적으로관찰, 기록, 분석하는과정을통해환자개개인의의료기록에기반한의학관련문헌을검색해주며나아가환자개개인의특성에맞는치료옵션후보군을의사들에게추천해줄수도있다. 또한이미지분석기술의도입은의료이미지 (CT, X-ray, MRI) 들의픽셀분석을통해 4
육안으로찾아내기힘들정도의작은크기의특이정보들도찾아내어의사들에게제공해줄수있다 [ 통신 : 응용분야 ] 통신관련시장은미국의경우 2010년기준약 1320조원 ( 약 1.2조달러 ) 로추산되고있으며이는해당연도미국전체GDP의 2% 에해당하는큰규모이다. 통신산업과관련한빅데이터기술은보통개인별위치정보기술을수반하게된다. 전세계 6억대가넘는스마트단말에서실시간으로수집되는개인별위치정보의양은 2009년기준연간약 1 PB( 미국국회도서관소장도서의전체정보량 15TB의약 67배 ) 에육박하며스마트단말의수는매년 20% 씩증가하는추세이다. 이와는별도로시스템에저장된개인별통화이력, 계약, VOC에관하여수년간지속적으로수집된방대한데이터는개인최적화요금상품개발, 고객만족도향상, 서비스부정사용적발및예측, 해지방어및 Cross or up selling 전략에신뢰성높은기초정보로활용할수있다. [ 통신 : 비즈니스모델 ] 통신업종의경우사용자의휴대전화및차량용네비게이션장비에서수집되는방대한실시간위치정보를수집할수있는태생적인강점을보유하고있다. 위치정보의경우한사업영역에제한되지않고소매업, 미디어, 공공분야에서도활용이가능하며대표적으로위치정보를이용한교통정보시스템인스마트라우팅이있다. 또한유 / 무선통신을통해기록되는통신서비스이용내역및계약관련데이터들을분석하는경우개인별최적화서비스 ( 적시의프로모션을통한고객해지방어, 개인별최적화요금제추천, 오피니언리더를대상으로한프로모션 ) 의제공이가능하다. 스마트라우팅 : 실시간교통, 사고, 공사, 날씨, 혼잡지역등의정보를통합분석하여, 예상소요시간계산후, 현재위치에서운전자에게최단소요시간경로후보군을실시간으로추천해주는시스템. McKinsey Big Data 보고서는스마트라우팅을통하여절감될수있는시간및연료의금전적가치가 2020년까지약 550조원 ( 약 5천억달러 ) 에달할것으로추산하고있다. 개인별최적화서비스 : 현재통신업계에서많이활용되고있는계약만기도래자들에대한프로모션활동을더욱발전시켜, 자사의통신서비스를 5
이용하는고객들을특성별로세분화하여만기가다가올때그고객들의통화이력, 거래정보및선호정보들을바탕으로그고객군이선호할만한영역에대해프로모션을제공하여계약연장률을향상시킬수있는맞춤형프로모션을진행할수있다. 또한, 현재각제휴사할인이용현황에대해데이터를기반으로하여더욱심도있는분석을통해수익성에기반한제휴사할인영역에대한조정도가능하다. 4. 맺음말 미국유명마케팅조사업체가트너는빅데이터가사용될수있는분야들중차세대분석기술및소셜분석기술을 2011년 Top 10 전략적기술영역에각각 3위와 4위로선정하였다. 또한최근정부또한소프트웨어역량강화를위해국책연구기관설립을검토하는등소프트파워에대해각분야의관심이집중되고있다. 빅데이터분석은경영, 의료, 제조, 공공정책, 금융등매우광범위한사업분야에서서비스및제품생산비용절감, 업무효율성증대, 의사결정지원등매우큰활용가능성을보여주고있다. 또한, 그동안인간의능력으로다룰수있었던데이터분석영역을벗어난영역에대한접근을시도하는연구이므로, 이에대한분석을통해얻어내는정보는유용성과희소성이더욱뛰어나다. 결론적으로, 빅데이터에대한분석능력은이를보유한조직과그렇지못한조직간의경영효율성및수익성에대한격차를매우크게벌여놓을것이라고예상되며, 때문에수십년간의유선, 무선, 인터넷관련비즈니스, 다양한분야의계열사를통한데이터수집을통해 200TB 가량의방대한데이터인프라를보유하고있는 KT가이분야에대한우위적위치를선점하기는매우용이하다고판단된다. 6
< 참고문헌및웹사이트 > [1] Big data, Wikipedia : http://en.wikipedia.org/wiki/big_data [2] Big Data : The next frontier for innovation, competition, and productivity, McKinsey Global Institute, May 2011 [3] The Numerati, 2011 by Stephen L Baker. [4] SERI 경영노트 ( 제91호 ) 정보홍수속에서金脈찾기 : 빅데이터 (Big Data) 분석과활용, 채승병, 삼성경제연구소, 2011. 2. 10 [5] 2010 진료비통계지표, 건강보험심사평가원, 2011 [6] 빅데이터확산에따른도전과기회, 정보통신산업진흥원정기간행물, 2011. 5. 31 [7] Study Artificial Intelligence AI Study: http://www.aistudy.com/learning/mining/data_mining.htm [8] 빅데이터워크샵회의록, 2011. 7. 21. 7