Journal of the Korea Academia-Industrial cooperation Society Vol. 16, No. 1 pp. 726-734, 2015 http://dx.doi.org/10.5762/kais.2015.16.1.726 ISSN 1975-4701 / eissn 2288-4688 하둡기반빅데이터기법을이용한웹서비스데이터처리설계및구현 김현주 1* 1 단국대학교대학원전자전기공학부컴퓨터응용전공 Design and Implementation of an Efficient Web Services Data Processing Using Hadoop-Based Big Data Processing Technique. Hyun-Joo Kim 1* 1 Dept. of Electronics&Electrical Engineering Graduate School Dan-kook University 요약데이터를구조화하여사용하는관계형데이터베이스가현재까지데이터관리에가장많이사용되고있다. 그러나관계형데이터베이스는데이터가증가되면데이터를저장하거나조회할때읽기, 쓰기연산수행에제약조건이발생되어서비스가느려지는현상이나타난다. 또새로운업무가추가되면데이터베이스내데이터는증가되고결국이를해결하기위해하드웨어의병렬구성, CPU, 메모리, 네트워크등추가적인인프라구성을필요로하게된다. 본논문에서는관계형데이터베이스의데이터증가로느려지는웹정보서비스개선을위해기존관계형데이터베이스의데이터를하둡 HDFS로전송하고이를일원화하여데이터를재구성한후사용자에게하둡데이터처리로대량의데이터를빠르고안전하게추출하는모델을구현한다. 본시스템적용을위해웹기반민원시스템과비정형데이터처리인이미지파일저장에본제안시스템을적용하였다. 적용결과관계형데이터베이스시스템보다제안시스템데이터처리가 0.4초더빠른결과를얻을수있었고기존관계형데이터베이스와같은대량의데이터를처리를빅데이터기법인하둡데이터처리로도웹정보서비스를지원이가능하였다. 또한하둡은오픈소스로제공되어소프트웨어구매비용을줄여주는장점이있으며기존관계형데이터베이스의데이터증가로효율적인대용량데이터처리를요구하는조직에게도움을줄수있을것이다. Abstract Relational databases used by structuralizing data are the most widely used in data management at present. However, in relational databases, service becomes slower as the amount of data increases because of constraints in the reading and writing operations to save or query data. Furthermore, when a new task is added, the database grows and, consequently, requires additional infrastructure, such as parallel configuration of hardware, CPU, memory, and network, to support smooth operation. In this paper, in order to improve the web information services that are slowing down due to increase of data in the relational databases, we implemented a model to extract a large amount of data quickly and safely for users by processing Hadoop Distributed File System (HDFS) files after sending data to HDFSs and unifying and reconstructing the data. We implemented our model in a Web-based civil affairs system that stores image files, which is irregular data processing. Our proposed system s data processing was found to be 0.4 sec faster than that of a relational database system. Thus, we found that it is possible to support Web information services with a Hadoop-based big data processing technique in order to process a large amount of data, as in conventional relational databases. Furthermore, since Hadoop is open source, our model has the advantage of reducing software costs. The proposed system is expected to be used as a model for Web services that provide fast information processing for organizations that require efficient processing of big data because of the increase in the size of conventional relational databases. Key Words : Big Data, Hadoop, HDFS, Web Service, RDBM * Corresponding Author : Hyun-Joo Kim(Dan-kook Univ.) Tel: +82-10-3590-3731 email: chopinkhj@gmail.com Received October 28, 2014 Revised (1st December 5, 2014, 2nd December 8, 2014) Accepted January 8, 2015 726
하둡기반빅데이터기법을이용한웹서비스데이터처리설계및구현 1. 서론인터넷존재하는데이터가현재까지 1ZB를넘어선다고 IDC(International Data Corporation) 는 2011년보고서를통해말하고있다. 최근빅데이터 (Big Data) 는큰이슈로떠올라그기술에관심을두고있으며전세계적으로 IT분야에큰화두가되고있다. 우리나라에서도국가정보화를데이터기반으로변경하는등빅데이터는차세대산업기술로주목받고있다 [1]. 이처럼빅데이터가기업경쟁력이나국가경쟁력을좌우하는주요자산으로여겨지는이유는기존의일부데이터를분석하여얻어지는결과보다분석결과의정확도가높으며이로인해기존에몰랐던새로운사실을발견할수있기때문이다. 또한빅데이터는향후국가기반주요기술로성장할것이라는것에대해서는모두가의심하지않고있다 [2-5]. 특히스마트폰, 태블릿 pc 등스마트기기와소셜미디어를통해수집되는데이터증가로내 외부데이터의서비스연동과신속한정보서비스지원을위한일관된데이터관리는모든기관이공통적으로고민하는분야이다. 대부분의기관은기관내업무시스템을 RDBMS (Relational Database Management System) 로데이터를관리한다. RDBMS 는현재까지데이터관리에가장많이활용되는기술로엔터프라이즈컴퓨팅을사용하는분야에서는근 20여년간관계형데이터베이스에데이터를저장하고있다. 현재까지가장유용하게사용하는 RDBMS 는저장할데이터가많거나조회할데이터가많아지면읽기 (Read), 쓰기 (Write) 연산수행에제약조건이발생되어서비스가느려지는단점이있다 [2][6-7]. 또업무가증가되어새로운업무가추가되면업무별 RDBMS 는증가되고이를지원하기위한인프라자원도계속적으로증가하게된다. 결국더많은 CPU, 더넉넉한메모리, 고속의디스크를탑재한신규서버도입하거나또는데이터베이스서버를추가하여병렬로구성하는등데이터관리를위한경제적비용은계속적으로증가하게된다. 본논문에서는현재까지용이하게사용되어온 RDBMS 데이터운영방식에서벗어나효율적데이터처리와경제적으로유용한데이터처리방식의연구에관심을두었다. 이를활용하기위해하둡 (Hadoop)HDFS (Hadoop Distributed File System) 파일처리를이용하 였다. 각기관에서사용하는각종 RDBMS 데이터를자동화스케줄러에의해데이터전처리기로전송하고전처리기에수집된데이터는빅데이터처리기법인하둡 HDFS 로일원화한다. 이를맵리듀스를이용하여병렬로재구성하여대량의데이터를빠르고안전하게추출하는데이터처리모델을설계하였다. 하둡을이용한데이터처리는대용량파일을저장할수있는분산파일시스템으로제공하여클러스터로구성하며이를멀티노드로부하분산처리하므로시스템의과부하나병목현상을줄여줄수있다 [8]. 무엇보다하둡은오픈소스로제공되어경제적비용을줄여주는큰장점을가지고있다. 본제안시스템은기존관계형데이터베이스의데이터증가로효율적인대용량데이터처리를요구하는조직에게신속한정보서비스처리를제공하는웹서비스모델이될수있을것이다. 2. 빅데이터빅데이터라는신개념의데이터출현은스마트기기, 소셜미디어와더불어현대사회의문화를바꾸고경제, 산업계에서는비즈니스를변화시키고있다. 2.1 빅데이터의정의민간부분에서빅데이터플랫폼기술개발에가장먼저투자를시작한 IBM은오늘날매일 2.5 퀸틸리언바이트 (2.5 quintillion bytes = 2.5 bytes) 의데이터가생산된다. 이런데이터를 센서정보, 소셜미디어사이트웹문서, 디지털사진과동영상, 구매기록, GPS신호 등모든곳에서생산되는데이터를 빅데이터 로정의하고있다 [9]. 또한가트너는빅데이터에대한정의를 빅데이터는크기가크고속도가빠르며다양한정보자산을가지고있다 라고말하며맥킨지는 빅데이터란전형적인데이터베이스로는다루기힘든크기의데이터셋으로빅데이터를특정크기로지칭할수없다 로정의하고있다 [10-11]. 2.2 빅데이터의특징빅데이터의구성은규모 (volume), 형태 (variety), 속도 (velocity) 3가지속성으로구성되며이 3가지속성이충족될때빅데이터의구성이가능하다. 이 3가지속성 727
한국산학기술학회논문지제 16 권제 1 호, 2015 을기준으로빅데이터의특징을구분한다. 첫째, 데이터의양 (Volume) 이다. 데이터의용량은시간이흐를수록증가된다. 빅데이터의대용량과데이터의지속적인증가는데이터분석기술의발전을요구한다. 둘째, 다양성 (Variety) 이다. 빅데이터수집의원천은웹, 소셜미디어그리고데이터소스의로그및클릭스트림등의정보이다. 이들정보로다양한분야에서기존데이터에서찾을수없는새로운정보를얻을수있다. 셋째, 속도 (velocity) 이다. 데이터는과거와다르게기하급수적으로증가되고있다. 이들데이터는생성과동시에즉시수집된다. 그러므로수집시간은급격히단축된다. 그외에도 IBM은정확성을추가하여구분하기도한다. 2.3 빅데이터컴퓨팅인프라빅데이터처리에는고확장성, 고성능컴퓨팅인프라가없다면대량의데이터를고속으로처리할수없다. 그러므로대량의데이터를빠른시간에수집하여정보의가치를얻어이용하는기술을필요로한다. 또한, 빅데이터의활용도에따라빅데이터의가치를높일수있다. 맥캔지의 2011년보고서에도빅데이터는공공 행정, 의료 건강, 개인정보, 유통 소매, 제조업등에서 22.3조달러의활용가치를예측하고있다. 빅데이터의가치를높이기위한컴퓨팅인프라기술로는분산컴퓨팅, 고성능컴퓨팅, 인-메모리기술이있으며, 이를빅데이터컴퓨팅인프라의핵심적인요소기술 (Element Technology) 이라한다 [2]. 하고수집된정보를분석하여특정데이터로변환하는과정을거쳐야한다. 빅데이터를저장하는기술로는분산파일시스템 (DFS: Distributed File System), NoSQL(Not Only SQL), 메모리기반데이터베이스가있다. 분산파일시스템은막대한양의데이터를저장관리하기위해물리적으로서로다른컴퓨터에데이터를나누어저장하고관리하는파일시스템이다. 빅데이터의대용량데이터처리를위해분산처리기술인하둡 HDFS 은빅데이터기본기술로사용된다. 기존에는데이터를처리를할때그종류와특성을미리정해놓고데이터처리를했었다. 빅데이터처리에서는데이터의다양성과데이터의크기 용량에따라데이터를처리하는것이주요과제이다. 빅데이터의데이터처리방법은잘저장된데이터를처리하는일괄처리방법과새로이생성되어저장되기전에실시간으로처리하는방법이있다. 빅데이터의분석은금융, 공공분야, 범죄검출, 이벤트기반마케팅, 소셜미디어분석, 그외다양한비즈니스분야에적용에된다 [12]. 또한, 빅데이터분석방법의대부분은기존통계학과이나전산학에서사용되던데이터마이닝, 기계학습, 자연언어처리, 패턴인식등이사용된다. 특히통계처리를위한공개소프트웨어로 R이최근에가장주목받는분석도구이다. R은통계그래픽기능이매우우수한오픈소스로분석된빅데이터를표현하여데이터시각화 (Data Visualization) 에이용된다. [ 그림 1] 은빅데이터활용을위해데이터를수집하여최종활용까지의진행절차그림이다. 2.4 빅데이터의활용빅데이터의활용은다음의단계를거친다. 생성 수집 저장 분석 표현의단계를거쳐각단계별기술이적용된다. 먼저데이터를생성 수집하고수집된데이터는전처리과정으로데이터를필터링하거나적절한형태로가공을한다. 가공된데이터를체계적으로저장관리하여그중유용한자료는정보처리분석과정에서데이터의가시화및시각화를통해활용이가능하도록한다 [2]. 빅데이터의데이터수집은데이터소스로부터시작된다. 일반적으로데이터수집은내부정보시스템에저장된정형화된데이터를말한다. 정형화된내부데이터는업무수행과정을통해자동으로수집된다. 그러나빅데이터는내부데이터외에도외부에존재하는무한한데이터도수집 [Fig. 1] Procedure from collection to use of Big data 2.5 하둡 (Hadoop) 하둡은오픈소스로대규모데이터의분산처리기술을지원한다. 특히대량의비구조화데이터처리성능이뛰어나며비용이저렴하며스케일아웃구조로대용량 728
하둡기반빅데이터기법을이용한웹서비스데이터처리설계및구현 증가에용이해주목을받고있다. 또한하둡은노드의추가제거가용이하고가용성 (Availability) 이높아일부장비에장애가발생하더라도전체시스템에는영향을주지않는다. [ 그림 2] 는 HDFS 의구조로 NameNode 와 DataNode 의역할을도식화한그림이다. HDFS 는 Master 인 NameNode와 Slave 인 DataNode 로구성된다. NameNode 는파일의메타 (meta) 정보만관리하고실제데이터는다수의 DataNode 에저장되며하나의 Secondary NameNode 와연결되어 NameNode의네임스페이스정보를재저장한다 [13-14]. [Fig. 3] Map-Reduce Implementation Process 3. 빅데이터프레임워크를이용한데이터처리모델 [Fig. 2] Hadoop Distributed File System Structure 2.6 맵리듀스 (MapReduce) 맵리듀스는대용량데이터처리, 생성을위한프로그래밍모델이다. 대용량의클러스터범용시스템에서병렬처리되어자동으로실행된다. 따라서사용자가병렬및분산처리에익숙하지않아도대규모분산시스템을쉽게활용할수있으며프로세싱을작은단위의작업으로세분화하여클러스터내수백개의노드에서병렬로실행할수있다 [15-16]. [ 그림 3] 은맵리듀스의실행흐름도이다. 맵리듀스의실행과정은 User Program 은시스템명령 fork() 를이용하여분산실행된다. 그중하나는 Master 로동작하고나머지는 Map과 Reducedp 동작되는 work를생성한다. Map에의해할당된 worker 는분할된데이터를읽어중간파일형태 (k2, v2) 를생성한다. 이과정이 Map 과정이며다시중간결과는 local Disks에저장된다. 이때데이터가 Reduce 하는 worker 에의해다시취합되어서결과파일 (output file0, output file2) 이생성된다. 3.1 기존데이터처리의문제점대부분의정보시스템은 RDBMS로데이터를구성하여사용하고있다. 그러나 RDBMS는일정기간사용후데이터양이증가되면읽기 (Read), 저장 (Write) 연산수행에제약조건이발생되어서비스가느려지는현상이발생된다. 이를해결하고자 CPU, 메모리, 고속의디스크탑재, 신규서버도입등서버인프라에재투자를진행하거나 RDBMS 튜닝 (Tuning) 을통해사용자는해결책을찾고자한다. 전자의경우계속적인경제적비용이투자되어야하고후자의경우는기술자의스킬과기관의꾸준한교육지원을통해얻어지는결과이기도하다. 그러나이방법은기하급수적으로증가되는데이터운영환경즉, 기존의 RDBMS 운영환경에서는적절한해결책이라볼수는없다는것이다. 특히영세한기관에서정보시스템에대한재투자는경제적비용을가중시켜큰부담으로작용하기때문이다. 3.2 빅데이터프레임워크를이용한데이터처리모델본논문에서하둡을이용한데이터처리모델을제안한다. 본논문의데이터처리는전통적인 RDBMS 데이터베이스의업무효율성증진과기존인프라의추가시설없이서비스증가로인한데이터읽기부하, 쓰기부하를개선해보고자시도된데이터서비스모델이다. 본모델은 RDBMS 데이터를하둡기반 HDFS 로일원화하고맵리듀스를이용하여데이터를재구성하여사용자에 729
한국산학기술학회논문지제 16 권제 1 호, 2015 게대량의데이터를빠르고안전하게추출하는모델로하둡기반빅데이터처리기법을적용하였다. [ 그림 4] 는하둡을이용하여데이터처리를진행하는제안시스템의서비스구성도로빅데이터플랫폼을이용한데이터처리흐름과정이다. [ 그림 4] 의데이터처리흐름을설명하면다음과같다. [Fig. 5] Flowchart of the Proposed system Using Big Data Framework#1 [Fig. 4] Configuration of the Proposed system Service Using Big Data Framework 첫째, 기관내정보시스템데이터는 RDBMS 에서일정시간을기준으로자동화스케줄러에의해데이터전처리기로전송한다. 데이터전처리기에수집된자료는맵리듀스 (MapReduce) 를이용하여하둡 (Hadoop) HDFS 파일시스템으로일원화된다. 일원화된하둡 HDFS 는하나의파일시스템으로데이터를관리하게된다. 둘째, 하둡 HDFS는안정된데이터관리를위해별도의분산 DB 구성도가능하다. 이때사용되는 DB는 NoSQL 기반의 DB를이용하여하둡 HDFS 로전달되어저장, 보관한다. 셋째, 사용자는웹정보시스템을통해서비스를요청을한다. 사용자요청서비스이벤트가발생되면웹정보시스템은하둡 HDFS 에데이터처리요청을전송한다. 하둡 HDFS 는사용자의정상적인요청이확인하고사용자에게결과값을전송한다. 넷째, 사용자요청값은사용자에게전달될때 128비트암호문인 AES(Advanced Encryption Standard) 암호화알고리즘을사용한다. [ 그림 5] 는제안시스템서비스흐름도로본논문의전체적인서비스흐름을도식화하였다. 사용자가데이터를 Request, Write 하는과정그리고사용자서비스를지원을위해 RDBMS에서하둡HDFS 파일시스템으로데이터를이관하는과정을표현했다. [ 그림 6] 은본제안시스템의서비스절차순서도로사용자가웹서비스에접속하여원하는데이터를읽기 (Read), 저장 (Write), 상태확인등의과정을순서도로표현하였다. 전체적인흐름을설명하면다음과같다. 1. Data 전송 2. Data 저장 3. Data 조회 4. Data 암호화및상태확인등 4가지서비스흐름으로설명된다. [Fig. 6] Flowchart of the Proposed system Using Big Data Framework#2 3.3 빅데이터처리의모델기반의제안시스템설계본논문의빅데이터처리기술을대학내에서운영되는웹민원시스템과자산관리시스템의데이터저장과조회과정에설계, 적용하였다. [Fig. 7] Data Transfer Process 730
하둡기반빅데이터기법을이용한웹서비스데이터처리설계및구현 1. Data 전송은 RDBMS에서데이터전처리기 (Preprocessing) 로데이터를전송하는과정이다. RDBMS 에서데이터갱신트리거가발생되면 RDBMS 스케줄러 (Scheduler) 에의해갱신된 RDBMS 의자료를하둡 HDFS 파일시스템으로데이터를전송한다. 데이터중계기인데이터전처리기는변경된 RDBMS 데이터가전송되면즉시하둡 HDFS 파일시스템으로데이터를재전송한다. [ 그림 7] 은 Data 전송과정을설명한흐름도이며진행은다음과같다. 첫번째과정으로 RDBMS 에서데이터갱신트리거가발생되면 RDBMS 스케줄러 (Scheduler) 에의해갱신된 RDBMS의자료를하둡파일시스템으로데이터를전송한다. RDBMS Scheduler 는 10 분내에 RDBMS 데이터를 xml로변환하여 Data 전처리서버로전송한다. 두번째과정으로 xml 파일로수집된데이터는데이터중계기역할을하는데이터전처리기에서하둡 HDFS Stream Write API를이용하여데이터를 64MB 고정길이블록으로만들어져하둡 HDFS 에저장한다. 또한, 하둡 HDFS 에의해저장되는데이터는기본적으로 3개가복제되어인근노드또는임의의노드에분산저장된다. 본수행과정은 [ 그림 6] 의 2. 데이터전송과정으로설명된다. 용자는사용자아이디와암호를이용하여웹정보시스템에접속하고사용자인증검사와암호유효성검사를진행한다. 사용자인증이완료되면사용자는본인이원하는서비스모듈로이동하여해당정보서비스모듈의정보조회를요청한다. 데이터정보조회를요청받은웹정보시스템은기존에는 RDBMS 가아닌하둡파일시스템의네임노드에게사용자요청정보를전달한다. 하둡네임노드는웹시스템에사용자요청정보를전달하고이때전달되는정보는실데이터가저장되어있는데이터노드의정보를전달한다. 데이터노드의정보를전달받은웹시스템은실데이터노드를검색하여데이터암 복호화를거친후사용자에게안전한정보서비스를제공한다. 2. Data 저장은사용자에의해해당정보서비스모듈의데이터변경작업이진행되는과정이다. 사용자가사용자아이디와암호를이용하여웹시스템에접속하면인증검사와유효성검사진행후사용자는해당서비스모듈로이동하여변경데이터를발생시킨다. 변경데이터는먼저 RDBMS 에저장되며 RDBMS에서는 RDBMS 스케쥴러에의해 10분간격으로변경된데이터가 xml로변환되어 Data 전처리서버로전송된다. 스케줄러에의해 xml 파일로변환된데이터는하둡 (Hadoop) HDFS Stream Write API를이용하여데이터를 64MB 고정길이블록으로만들어져하둡 HDFS 에분산저장한다. 이때전송되어저장되는데이터의파일사이즈는 64MB 단위로나누어져 3개가복제되어인근노드또는임의의노드에분산저장된다. Data 갱신 (Update) 과정도이와동일하게처리된다. [ 그림 8] 은데이터저장 (Write) 및갱신 (Update) 과정을설명한흐름도이다. 3. Data 조회는사용자에의해해당정보서비스모듈의데이터읽어오는과정이다. Data 저장과동일하게사 [Fig. 8] Data Write & Update Process [Fig. 9] Data Read Process [ 그림 9] 는 Data 조회과정을설명한흐름도이며 [ 그림 8,9] 는 [ 그림 6] 의 4. Data 저장과 3. Data 조회과정을상세도식화하였다. 4. Data 암호화는사용자에게요청된 Data 조회정보를 3. 의 Data 읽기과정을거쳐사용자에게결과값을전 731
한국산학기술학회논문지제 16 권제 1 호, 2015 달하며결과값을암호화하여사용자에게전달하는과정이다. Data 상태확인은네트워크상에분산되어있는각데이터노드의로그정보, 작업진행상황, 프로그램상태정보, 사용자사용내역등을기록하고상태정보모니터링에이용된다. 3.4 빅데이터처리의모델기반의제안시스템구현본논문에서는다형화되는데이터증가로인한기관내 RDBMS 간의데이터처리에관심을두고사용자에게는신속한정보서비스와효율적인데이터관리를위해기존 RDBMS 데이터운영방식에서벗어나확장성있는데이터운영에관심을두었다. 더불어경제적비용을최소화하며데이터증가로인한서비스지연현상을개선하여빠른데이터처리에초점을두고본제안시스템을구현하였다. 다음의 [ 그림 10] 은본논문의빅데이터프레임워크기술을이용한데이터처리구현과정을한눈에보이도록서비스그룹별로도식화한시스템구성도이다. [ 그림 10] 을간단히설명하면 1데이터수집 2데이터조회및처리 3데이터백업 4데이터모니터링 5 데이터암호화과정으로모듈별처리과정으로구분하였다. 비스되는메인화면이다. 3.4.2 데이터조회데이터조회는 RDBM에서하둡 HDFS로파일을이관후데이터를읽어오는과정이다. 정보조회를요청받은웹정보시스템은하둡 HDFS 파일시스템의네임노드에게사용자요청메타정보를확인하여실데이터가저장되어있는데이터노드의정보를읽어온다. 데이터노드의정보를전달받은웹시스템은실데이터노드를검색하여사용자에게서비스를제공한다. [ 그림 13] 는민원정보시스템에서읽은텍스트와첨부파일의실사용예이다. [ 그림 14] 는이미지파일을읽어실제구현시스템에서조회되는웹정보시스템화면이다. [Fig. 11] Web Service Access Initial Screen [Fig. 12] Main Screen of Civil Service Using Big Data Framework [Fig. 10] Conceptual Diagram for each Service Module Using Big Data Framework 3.4.1 웹서비스접속사용자는웹서비스에접속한다. 이는허용된사용자임을확인하는과정으로 Application은인터넷웹서비스에서입력받은사용자정보로로그인을요청한다. 다음의 [ 그림 11] 는웹서비스로그인을구현한화면이다. [ 그림 12] 은사용자접속승인이완료되면사용자에게서 3.4.3 데이터저장 Data 저장은 RDBMS 데이터를데이터전처리기로전송한후다시하둡파일시스템 HDFS 에분산저장되는과정이다. 사용자에의해데이터추가또는갱신데이터가발생되면데이터는먼저 RDBMS 정보시스템에먼저저장된다. RDBMS 스케줄러에의해데이터변동이벤트를자동으로감지하면 RDBMS Scheduler 에의해일정과정을거친후데이터를하둡 HDFS 로저장한다. 732
하둡기반빅데이터기법을이용한웹서비스데이터처리설계및구현 [Fig. 13] Reading Text and Attached File from Civil Service System [Fig 14] Reading Image Data from Asset system 4. 결론 빅데이터의활용은이제 IT 전략의최우선과제로중요자리를차지하고있다. 또한, 빅데이터는단순히데이터용량만을의미하는것이아니라새로운기술력의잠재적필수요구사항으로자리를잡고있다. 본논문의데이터처리모델은빅데이터기술을응용한데이터관리모델이다. 기존 RDBMS 로운영하던데이터관리를빅데이터처리기술인하둡을이용하여확장성있는데이터운영과신속한웹정보서비스지원에중점을두고기존 RDBMS 환경의데이터를추출하여하둡데이터관리로효율적데이터처리과정을설계하였다. 현재까지사용하는 RDBMS 환경의데이터를빅데이터처리기본기술인하둡클러스터 HDFS 파일시스템으로일원화하고각각의정보시스템에서수집된데이터를사용자에게안전하게전달하는웹정보서비스모델을 개발하였다. 과거의데이터처리는정해진정형화된데이터를처리했다면현재는사진, 동영상, 음악, 지도등과같이다양한데이터를통합적으로다루고있다. 이런점에서볼때본제안시스템은불특정인다수가접속하여수시로데이터를읽거나첨부파일을다운로드하는웹사이트의비정형데이터의조회에서효율적인사용예가되어주었다. 무엇보다본제안시스템은대용량파일저장이가능한분산파일시스템을사용하므로클러스터구성이가능하고멀티노드의부하를분산처리하므로시스템의과부하나병목현상을줄여주는장점이있다. 또하둡은오픈소스로제공되므로경제적비용을줄여주는큰장점이있다. 예컨대하둡과 RDBMS 비용을분석하면운영비용이약 3배이상의차이가발생된다. 하둡은테라바이트약 4,000달러정도인반면에 RDBMS 는약1만 4 천달러의비용이소요되기때문에우리는향후하둡에주목하지않을수가없을것이다 [17]. 결과적으로본논문에서사용된하둡을이용한데이터처리기법은기존 RDBMS 운영환경을개선하여효율적인데이터운영과신속한데이터처리가가능하게했다. 아울러기존 RDBMS의재구성없이서버나데이터베이스등인프라시설에도추가적인비용이소요되지않는효율적인데이터운영이가능했다. 이는현재와같은다양한컴퓨팅환경의각종 RDBMS 정보시스템을보유하고있는기관에게경제적비용의감소와신속한정보서비스를제공하게될것이다. References [1] Y. J. Song, Policy Challenges for the Future of Data-Based Country Strategy, NIA, IT Future Strategy No. 3, Apr 2013. [2] G. S. Hang, Big Data Platform Strategy: Big Data is Changing Business Platform Future Revolution, Electronic Times, (pp. 83-97, 101-105, 193-203), 22013. [3] M. R. Choi, United States Japan: Big Data R&D Strategies and Country of the Corresponding Problem, Nipa, IT R&D Policy Review, Mar 2013. [4] Ms Park Presidential Election Camp, Creative Economy, New World, 2012. [5] DongA, [2012 General Election-Big Data Presidential Election Campaign] Big Data 'Election Period, Available From: http://news.donga.com/3/all/20120202/43722588/1, Feb, 02, 2012. 733
한국산학기술학회논문지제 16 권제 1 호, 2015 [6] Seth Gilbert, Nancy Lynch, Brewer s Conjecture and the Feasibility of Consistent, Available, Partition-Tolerant Web Services, ACM SIGACT, (pp. 51-59), vol 33 Issue 2, (accessed June, 2002). [7] Anonymous. http://develop.sunshiny.kr/883?category=50, 2013. [8] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung, The Google File System, 19th ACM Symposium on Operating Systems Principles, Lake George, NY, [Online] Available: http://research.google.com/archive/gfs.html, (accessed Oct, 2003). [9] Anonymous. Big Data at the Speed of Business http://www-01.ibm.com/software/data/bigdata/. [10] STAMFORD, Conn, http://www.gartner.com/newsroom/id/1731916, June 27, 2011. [11] McKinsey Global Institute, Big Data: The next frontier for innovation, competition. and productivity, McKinsey Global Institute, 2011. [12] PHILIP CARTER, Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO, WHITE PAPER, IDC sponsored by SAS, 2011. [13] Vitaly Friedman, Data Visualization & Infographics, Graphics, Monday Inspiration, January 14th, Jan, 2008. [14] Anonymous. Big Data Era-Hadoop, http://cfic.tistory.com/5, May 25, 2012. [15] J. Dean, S. Ghemawat MapReduce: Simplified Data Processing on Large Clusters, Communications of the ACM, vol. 51, No. 1, Jan, 2008. [16] Colin White, MapReduce and Data Scientist, BI Research, 2012. [17] Brian Proffittm, Cost Analysis of Hadoop and RDBM S Grenada is a Three-Fold Difference in Operating Costs., IDG KOREA, Technology Trends, Jan, 12, 2012. 김현주 (Hyun-Joo Kim) [ 정회원 ] 2010년 2월 : 단국대학교정보통신 대학원정보통신학과 ( 공학석사 ) 2014년 2월 : 단국대학교 대학원 전자 전기공학과 컴퓨터응용 전공 ( 공학박사 ) 1999년 3월 현재 : 협성대학교 전산정보실 < 관심분야 > 빅데이터, 정보보안, i-pin, 디지털포렌식, IT 융합 734