기획특집 지능형 IoT 를위한빅데이터기술현황 이연희선임연구원, 유웅식 표철식책임연구원 / 한국전자통신연구원, KSB 융합연구단 yeonhee@apache.org 서론 지난해알파고와이세돌의대결을기점으로자율주행 자동차, 인공지능비서등인공지능에대한관심이한층 높아졌다. 이러한흐름에맞춰 IoT 시장에서도인텔리전트 IoT라는이름으로농업, 제조, 에너지등다양한산업분야에서모니터링, 판단및제어를위한지능적인 IoT 기술이대두되고있다. expectations Connected Home Blockchain Smart Robots Micro Data Centers Gesture Control Devices IoT Platform Commercial UAVs (Drones) Affective Computing Smart Data Discovery Virtual Personal Assistants Brain-Computer Interface Conversational User Interfaces Volumetric Displays Smart Workspace Personal Analytics Quantum Computing Data Broker PaaS (dbrpaas) Neuromorphic Hardware Context Brokering 802.11ax General-Purpose Machine Intelligence 4D Printing Smart Dust Human Augmentation Augmented Reality Cognitive Expert Advisors Machine Learning Software-Defined Security Autonomous Vehicles Nanotube Electronics Software-Defined Anything (SDx) Natural-Language Question Answering Enterprise Taxonomy and Ontology Management Virtual Reality AS of July 2016 Innovation Peak of Inflated Trigger Expectations Trough of Disillusionment Slope of Enlightenment Plateau of Productivity time Years to mainstream adoption obsolete less than 2 years 2 to 5 years 5 to 10 years more than 10 years before plateau [ 그림 1. 2016 년가트너 신기술하이퍼사이클 ] ( 출처 : 2016 년가트너 신기술하이퍼사이클 보고서 ) 118 계장기술
지능형 IoT 를위한빅데이터기술현황 이러한추세는 2016년가트너의 신기술하이퍼사이클 보고서에도그대로드러나있다. 하이퍼사이클상의머신러닝은디지털비즈니스혁신을위한기술로서의정점에있으며, IoT 플랫폼기술이그뒤를따르고있다. 빅데이터기반의처리기술의바탕위에서가장대두되는어플리케이션이바로애널리틱스이고, 그중에서도딥러닝과같은기계학습기반의애널리틱스가중요한위치를차지하고있다. 그리고이러한기계학습기반의분석이타켓으로하고있는주요서비스분야가바로 IoT일것이다. IoT 분야가다른분야의인공지능기술과의가장큰차이는데이터의발생이실시간스트림의특징을가지고있으며, 시간과공간적인특성을가진다는점이다. 따라서, 실시간애널리틱스를위한스트림처리기술과실시간예측 / 분석을위한플랫폼기술의뒷받침이필요하다. 이를통해궁극적으로사물인터넷을통해감지되는세상에대한인사이트를빠르게추출하여비즈니스와접목시키는것이가능하고, 이와동시에사물인터넷을구성하는사물들을효율적으로제어하기위한상위의기술들을빠르게접목시킬수있다. 빅데이터기술개요빅데이터처리기술은데이터의발생지로부터데이터를수집하여원본그대로저장하거나분석에활용하기위한추출, 변환후분석이나다양한처리에활용하기적합하도록저장소에적재하는기술, 수집하여적재한데이터를실시간, 또는배치방식으로처리하여데이터로부터인사이트를추출하기위한분석, 그리고빠르고정확한의사결정이가능하도록잘표현하는기술로나뉜다. 빅데이터기술중 Flume은로그나센서데이터를수집하기위한가장보편적인기술이다. 빅데이터적재기술로서 Apache Kafka는대용량의스트림데이터를안정적으로전달하기위한분산 Publish/ Subscribe 구조를갖는다. JDBC, Oracle GoldenGate, MQTT, HDFS, Elasticsearch, MongoDB Cassandra 와같은다양한소스와싱크 (Sink) 커넥터를제공한다. 또다른카테고리의적재기술로서대용량분산적재기술인 NoSQL을들수있다. NoSQL은성능요구사항과용도에따라다양한분류와기술로구분된다. NoSQL의선택은기본적으로개발하고자하는어플리 [ 그림 2. 2016 년가트너 신기술하이퍼사이클 ] ( 출처 : 2016 년가트너 신기술하이퍼사이클 보고서 ) 2017. 9 119
전기및전력에너지 IoT 기술동향 수집대상기술 DBMS 수집 Sqoop 로그 / 센서수집 Flume, Scribe, Fluentd FTP 수집 ftp Http 수집 Scroller [ 표 1. 빅데이터수집기술 ] 케이션의데이터가어떤형태와요구사항을가지느냐에따라 Key/Value store, Column family store, Document store, Graph store로구분된다. 또한동일한구분내에서도 CAP Theorem 상의 CA나 CP 중어느요구사항에중요성을두느냐에따라달라져야한다. [ 그림 3, 4 참고 ] Apache Spark은대표적인데이터처리기술로서대용량배치처리부터, 실시간스트림처리, 그래프처리, 머신러닝기반의분석까지지원하는통합빅데이터처리프레임워크이다. 모든기술의근간인 DataFrame API는데이터의구조를테이블형태로일원화하여복잡한데이터의처리를테이블형태의데이터를처리방식으로추상화한인터페이스를제공한다. Spark의실시간처리기술인 Spark stream은 BackType Storm과비교될수있는데, 둘의처리모델은근본적인차이가있다. Spark stream은실 시간처리를표방하지만, 내부적으로는작은미니배치형태의처리를하는반면, Storm은스트림소스로부터의데이터출현과동시에즉각적인처리를지원한다. 이외에도작년말 DataTorrent가아파치재단에기증한 Apache Apex가대표적인빅데이터기반의실시간 / 배치처리프레임워크로볼수있다. 빅데이터분석및시각화를위한오픈소스기술을몇가지꼽아보면, Elastic사의주요한비즈니스솔루션으로발전한오픈소스 ELK 스택과 Apache Spark stream과 Zepplin, Freeboard.io를이용한 IoT 분석및시각화기술이있다. 그중 ELK 스택은 Elasticsearch, Logstash, Kibana 로구성되며, 각각분산검색엔진, 로그인덱스, 시각화를담당하여다양한유즈케이스에쉽게활용될수있도록에코시스템을제공한다. 빅데이터기술은현재다양한유즈케이스를만족하기위해필요한요소기술들이각각의레이어마다제공된다. 따라서, 필요에따라적절히기술을선택하여구성하는것이가능하다. 트위터스트리밍컴퓨팅분야에서근무하던 Nathan Marz는일찌기트위터의실시간분석에대한요구사항 CA Category RDBMS Consistency CA CP CP Category BigTable HBase MongoDB Redis Availability AP Partition Tolerance [ 그림 3. CAP 이론 ] AP Category Dynamo Voldemort Cassandra CouchDB [ 그림 4. NoSQL Databases] 120 계장기술
지능형 IoT 를위한빅데이터기술현황 패키지 특 징 SparkCore 대용량배치처리 Spark SQL 정형데이터에대한 SQL 기반분석 Spark Streaming 대용량 fault-tolerant 스트림처리 GraphX 그래프병렬처리를위한 API Spark 머신러닝라이브러리 MLlib Transformer, Estimator Abstraction Pipeline 기능제공 다양한데이터소스 API 제공 DataFrame API HBase, JSON, CSV, Parquet, [ 그림 5] ( 출처 : Apache Spark) [ 표 2] 을만족시키기위해대용량배치처리와실시간처리기술을결합한람다아키텍처를제안했다. 이는일반적인비즈니스에도요구되는시장의수요와반응을실시간으로비즈니스에반영하기위한실시간분석과맞아떨어진다. 또, 람다아키텍처의주요한구성부는 Speed layer, Batch layer, Serving layer로구성되며, 데이터의유입과동시에실시간처리와주기적인배치처리를통해동시에배치뷰와실시간뷰를생성하여사용자의질의요청시에이두뷰를결합하여응답함으로써대용량데이터에대한실시간분석서비스를만족하도록제공한다. [ 그림 6. 빅데이터기술스택 ] ( 출처 : ExlizirData) Batch layer Serving layer Batch view Master dataset Batch view Query New data Speed layer Query Real-time view Real-time view [ 그림 7. 람다아키텍처 ] 2017. 9 121
전기및전력에너지 IoT 기술동향 헬스 에너지 플랜트 교통 사람 디바이스 센서 디바이스 IoT 도 [ 그림 8. IoT 분야의인공지능을위한도전과제 ] IoT 인공지능기술의도전과제와사례 IoT 분야의빅데이터에대한가장중요한요구사항중의하나는시시각각생성되는데이터로부터사용자의트렌드분석이나장애의판단및대응과같은적시성에대한요구이다. 이러한영역의데이터는다양한종류의센서나소스로부터발생하므로그양과형태가다양하다. 또한, 대부분의데이터시계열형태를띠기때문에지속적인관찰을통해예외사항이나이벤트를탐지하기위한적재나처리, 분석기술을요한다. 최근인공지능기술이급부상하면서 IoT 분야에도단순한처리 / 분석기술에서더나아가복잡하고다양한문제를해결하기위한인공지능이가미된서비스를지향한다. IoT 분야의특성상디바이스부터생성되는데이터까지도메인마다제각기다른형태를띠며다양한어플리케이션이요구되므로각어플리케이션별로개별의솔루션을가지는데는한계가있다. 따라서, 인공지능을구성하기위한공통된기술이나프레임워크기술 이절실하다. 일찍이 GE사는자신들의주영역인산업용 IoT 플랫폼기술을시작으로, 최초의산업용사물인터넷 PaaS 플랫폼인 Predix를개발하여서비스를시작했다. 특히이들은 Predix Edge, Data management, Analytics, Visualization, Security를통합한 end-to-end 전주기를지원하는클라우드와엣지를통합한산업인터넷서비스를주창한다. IBM은 IBM Bluemix 클라우드기술을시작으로 IoT 플랫폼서비스를개발하고, 클라우드서비스로탑재하여사물들에대한 Predictive Analytics 제공한다. 이와는달리 FUJITSU는그래프구조데이터를위한새로운기계학습기술인딥텐서 (Deep Tensor) 를개발하여지식처리를중심으로딥러닝과기계학습, 강화학습을통해센싱된정보로부터제어를추론하여제공하는클라우드서비스를시작했다. 이외에도많은기업들이 IoT를위한클라우드기반솔루션들에집중하고있어클라우드지능형 IoT 시장의경쟁은점점가속화되고있다. 122 계장기술
지능형 IoT 를위한빅데이터기술현황 [ 그림 9. IoT 분야의인공지능을위한도전과제 ] 결론및시사점 Storm, Spark-stream, Samza와같은오픈소스분산병렬기반스트림엔진들이다양한비즈니스에활용되고, 오픈소스기반분산스트림처리스택인 ELK 고도화한 Elastic 스택을출시하여머신러닝기술과접목하는방향으로실시간대용량처리기술이발전해가고있다. 대표적인빅데이터처리엔진인 Apache Spark 은데이터와처리에대한추상화개념도입하여 Spark MLib 기반기계학습파이프라인기능을탑재하여처리를고도화하고있다. 한편, 구글주도의딥러닝플랫폼인 Tensorflow는딥러닝플랫폼인 Tensorflow의분산버전을출시하여대용량학습기능을스케일아웃방식으로해결하고있다. 또한, CNN에최적화된 Caffe 프레임워크는페이스북의지원을받아분산딥러닝기능을탑재한 Caffe2를내놓으면서분산딥러닝플랫폼의뒤를잇고있다. 또한 GE사의최초의산업용사물인터넷인 Predix, IBM 은 IBM Bluemix기반 IoT 플랫폼서비스인 IBM Bluemix IoT, 후지쯔진라이와같은지능형 IoT 클라우드플랫폼기술이대두되고있다. 실시간대용량데이터전처리를위한빅데이터기술의성숙과다양한기계학습 / 딥러닝플랫폼고도화및오픈소스화, IoT 를위한클라우드기반솔루션의출시는지능형 IoT 기술이우리눈앞에다가왔음을말한다. 이러한시점에인프라를기반으로어떤지능적모델을창출하여사용자들에게한발더다가선 IoT서비스를제공할것인가에대한고민과, 더불어다양한도메인의비즈니스를만족하는 vertical 솔루션을적응적으로생성할수있는공통프레임워크에대한기술개발이절실한시점이다. < 사사문구 > 본고는 2016년정부 ( 미래창조과학부 ) 의재원으로과학기술연구회융합연구단사업 (No. CRC-15-05-ETRI) 의지원을받아수행된연구다. 2017. 9 123