14 한림 ICT 정책저널 H a l l y m I C T P o l i c y J o u r n a l 빅데이터기술동향 전략적클라우드림 김광호이재준이사교수 빅데이터기술이란? 빅데이터기술은기존의데이터분석기법에비해 100배이상많은데이터를다루는기술이다. 빅데이터기술이다루는데이터의성격은다양하다. 예를들어시스템운영을통해산출되는로그데이터와구매기록데이터등의정형데이터뿐만아니라, 소셜미디어와위치정보, 그리고 IoT를통해산출되는센서정보등의비정형데이터까지빅데이터기술이다루는영역은다양하다. < 표 1> 기존의데이터관리방식과빅데이터관리방식의차이점 구분기존의데이터관리방식빅데이터관리방식 페타바이트수준데이터트래픽 테라바이트수준 장기간의정보수집및분석 방대한데이터처리량 데이터유형 정형데이터중심 비정형데이터의비중이높음 처리의복잡성증대 프로세스및기술 단순한프로세스및기술 정형화된처리 분석과정 원인 결과규명중심 다양한데이터소스및복잡한로직처리 데이터처리복잡도가높아분산처리기술필요 상관관계규명중심 Hadoop, R, No SQL 등개방형소프트웨어활용 [ 자료출처 ] 박세환 (KISTI, ReSEAT 프로그램전문위원 ), 빅데이터기술및시장동향, 주간기술동향, 2014.7.2, pp. 16
Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을거치게되며각과정별로핵심기술이존재한다. < 그림 1> 참조. 빅데이터기술의체계적인분류 앞에서언급한것과같이빅데이터활용을위한요소기술분야는첫째, 빅데이터수집기술이라할수있다. 둘째로빅데이터저장 관리기술이고, 다음으로빅데이터전처리기술이라할수있다. 넷째로빅데이터분석기술을언급할수있으며, 다음으로지식시각화기술, 마지막으로빅데이터공유기술을빅데이터의요소기술이라고할수있다. < 그림 1> 빅데이터의지식도출 Framework
16 한림 ICT 정책저널 < 표 2> 빅데이터요소기술분류 요소기술설명헤딩기술 < 표 3> 빅데이터수집관련기술 요소기술설명 빅데이터수집 조직내부와외부의분산된여러데이터소스로부터필요로하는데이터를검색하여수동또는자동으로수집하는과정과관련된기술로단순데이터확보가아닌검색 / 수집 / 변환을통해정제된데이터를확보하는기술 ETL 크롤링엔진로그수집기센싱 RSS 및 Open API 로그수집기 크롤링 조직내부에존재하는웹서버의로그수집, 웹로드, 트랜잭션로그, 클릭로그, DB 로그데이터등을수집 주로웹로봇을이용하여조직외부에존재하는소셜데이터및인터넷에공개되어있는자료수집 빅데이터저장 작은데이터라도모두저장하여실시간으로저렴하게데이터를처리하고, 처리된데이터를더빠르고쉽게분석하도록하여이를비즈니스의사결정에바로이용하는기술 병렬 DBMS 하둡 (Haddop) NoSQL 센싱 RSS Reader 각종센서를통해데이터를수집 데이터의생산, 공유, 참여환경인웹 2.0 을구현하는기술 빅데이터처리 엄청난양의데이터의저장 / 수집 / 관리 / 유통 / 분석을처리하는일련의기술 실시간처리분산병렬처리인 - 메모리인 - 데이터베이스처리 스쿱 (Sqoop) Haddop 과관계형데이터베이스간의데이터전송을지원하는기술로 MySQL 같은데이터베이스로부터하둡분산파일시스템으로데이터를전송하는데사용 빅데이터분석 데이터를효율적으로정확하게분석하여비즈니스등의영역에적용하기위한기술로이미여러영역에서활용해온분석기술 통계분석데이터마이닝텍스트마이닝예측분석최적화평판분석소셜네트워크분석 플럼 (Flume) 척와 (Chukwa) 분산환경에서대량의로그데이터를효과적으로수집해다른곳으로전송하는서비스로실시간로그분석이가능하도록함 분산서버로부터로그데이터를수집하여하둡클러스터의로그나서버의상태정보를관리해하둡파일시스템에저장하며실시간분석이가능하도록함 빅데이터시각화 자료를시각적으로묘사하는학문으로빅데이터는기존의단순선형적구조의방식으로표현하기힘들기때문에빅데이터시각화기술이필수적임 편집기술정보시각화기술시각화도구 스플렁크 (Splunk) 업무현장이나클라우드상에존재하는페타바이트급의기록데이터와실시간기계데이터를모니터링하고분석함 [ 자료출처 ] 한국정보화진흥원, 빅데이터기술분류및현황, 빅데이터 전략센터, 2013. 12, pp. 07 스크라이브 (Scribe) 페이스북이개발해공개한로그수집기술로대량의서버에서실시간으로오는로그데이터를집약해하둡분산시스템에로그를저장 빅데이터수집기술 카프카 (Kafka) Linkedin 에서최초로만들어졌으며, 로그데이터를수집할뿐만아니라메시징시스템을통해전송데이터를압축하고메시지를일괄적으로전송 빅데이터수집기술은주로 FTP 를사용하여로그데이터 서버혹은일반서버로부터로그정보와기타데이터처리 빅데이터저장기술 에필요한데이터를가져오게된다. 그리고빅데이터시스 템에서의데이터수집은짧은시간에대용량의데이터수 집이일어난다. 빅데이터기술은작은데이터라도모두저장하여실시간 으로저렴하게데이터를처리하고, 처리된데이터를더빠 르고쉽게분석하도록하여의사결정에적용되도록함에
Hallym Communication Policy Research Center 17 있다. 이때작은데이터라도저장하는기술이나오게되는데, 구글이나애플, 야후등에의해요소기술로서상당한완성도에도달했다. 최근오픈소스로만들어진 Hadoop 의 HDFS/Hbase, Cassandra, MongoDB 등이대표적이다. 한국은 ETRI의 GloryFS등과같은분산파일시스템이존재한다. 병렬 DBMS와 NoSQL은모두대량의데이터를저장하기위해수평확장접근방식을취하고있다는점에서 Hadoop과유사하다. 이외에도 SAN(Storage Area Network) 기술과 NAS(Network Attached Storage) 와같은네트워크를활용한저장기술이존재하며, GFS(Google File System) 과 HDFS(Hadoop Distributed File System), GlusterFS 등의분산파일시스템이모두대량의데이터를저장하기위해활용하는기술이라하겠다. 빅데이터처리기술 처리기술이다. 대규모데이터처리를위해확장성, 데이터생성및처리속도를해결하기위한처리시간단축및실시간처리지원, 비정형데이터처리지원기술등이필요하다. 대표적으로 Haddop은분산파일시스템인 HDFS와 MapReduce로구현된빅데이터처리기술이다. < 그림 2> 참조. 빅데이터분석기술 빅데이터분석은대량의데이터로부터숨겨진패턴과알려지지않은정보간의관계를찾아가는과정이다. 이미비즈니스영역과인공지능영역에서수없이많은분석방법들이도출되어왔다. 데이터마이닝기술및 Business Intelligence, 예측분석기법들이빅데이터분석을위해서활용되고있다. 빅데이터에서유용한정보및숨어있는지식을찾아내기 위한데이터가공및분석과정을지원하는것이빅데이터 < 그림 2> Hadoop 의분산파일시스템 (HDFS) 처리구조
18 한림 ICT 정책저널 데이터마이닝 < 표 4> 빅데이터분석관련기술 분석기법설명 OLAP 군집분석 DSS 의대표적사례로사용자가동일한데이터를여러기준을이용하는다양한방식으로바라보면서다차원데이터분석지원 데이터안에존재하는알지못하는특성들이있을때, 데이터점들이군집을이루면서특성이나타나는상황을분석하고, 유사성을기초로하여그룹화하여그룹간의분리정도를기준으로분류하는방법 데이터마이닝기술과텍스트마이닝기술이외에도, 시계열분석기법을활용하는예측분석방법과, 여러가지제시된대안중에최적의대안을찾도록지원하는최적화기법 (heuristic analysis) 등이있으며, 소셜네트워크연결구조및연결강도를분석하여영향력을판단하는소셜네트워크분석등이활용되고있다. 특히소셜네트워크분석은수학의그래프이론에뿌리를두고있다. 연결분석 사례기반추론 연관성분석 항목들간의관련성을분석하는형태의도구 귀납법및유추법과유사한개념으로과거유사한문제의해결과정에기초하여새로운문제를해결하는데과거사례를활용하는방법 특정의아이템집합에서발생한연관성의특징을다른특정아이템에서발견하여연관성을분석하는방법 빅데이터시각화기술 데이터시각화는데이터분석결과를쉽게이해할수있도록시각적인수단으로정보를전달하는과정을의미한다. 데이터값을단순화하여그림또는그래프형태로보여줌으로써데이터분석결과를쉽게이해할수있도록하고, 핵심개념과아이디어를효과적으로전달하는기술이다. 데이터마이닝 인공신경망 의사결정나무 뇌기능의특성몇가지를컴퓨터시뮬레이션으로표현하는방식으로비교적작은계산량의분석에서활용 의사결정규칙을도표화하여관심대상집단을소집단으로분류하거나예측을수행하는방법으로인공지능및기계학습분야에서활용하고있으며, 통계학에서는 CART 및 CHAID 알고리즘이활용됨 유전자알고리즘 생물의유전과진화매커니즘을공학적으로모델링하여문제해결이나시스템의학습등에응용하는것으로계산모델을프로그래밍하여문제해결을위한전략을수립하고적용 텍스트마이닝 구조화되지않은대규모의텍스트집합으로부터새로운지식을발견하는과정으로텍스트문서전처리및패턴분석등의단계를가지며순환구조로써계속적인피드백을수행
Hallym Communication Policy Research Center 19 < 표 5> 정보시각화관련기술 요소기술설명 시간시각화 특정시점또는특정시간의구간값을표현 ex) 막대그래프와누적막대그래프또는점그래프등 분포시각화 전체의부분에해당하는분포를최대, 최소, 전체분포를나타내는그래프로전체의관점에서각부분간의관계를보여주는기술 ex) 파이차트, 도넛차트, 누적막대그래프등 관계시각화 각기다른변수사이에서관계를찾는기술 ex) 버블차트, 스템플롯, 히스토그램등 비교시각화 여러변수의비교방법 ex) 히트맵, 체르노프페이스, 스타차트, 평행좌표그래프등 공간시각화 점이찍힌지도, 선을그린지도, 버블을그린지도등으로색상과크기를공간에대입하여표현 ex) 점지도, 도형표현도, 단계구분도, 등치선도, 유선도등 인포그래픽 (Infographic) 인포메이션과그래픽의합성어로다량의정보를차트, 지도, 다이어그램, 로고, 일러스트레이션등을활용하여한눈에파악할수있도록하는디자인