02( ) CPLV14-35.hwp

Similar documents
THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

[Brochure] KOR_TunA

디지털포렌식학회 논문양식

09권오설_ok.hwp

경우 1) 80GB( 원본 ) => 2TB( 복사본 ), 원본 80GB 는 MBR 로디스크초기화하고 NTFS 로포맷한경우 복사본 HDD 도 MBR 로디스크초기화되고 80GB 만큼포맷되고나머지영역 (80GB~ 나머지부분 ) 은할당되지않음 으로나온다. A. Window P

6.24-9년 6월

<31325FB1E8B0E6BCBA2E687770>

DBPIA-NURIMEDIA


DBPIA-NURIMEDIA

05( ) CPLV12-04.hwp

인문사회과학기술융합학회

Appendix B

SANsymphony-V

06_ÀÌÀçÈÆ¿Ü0926

À±½Â¿í Ãâ·Â

The Pocket Guide to TCP/IP Sockets: C Version

°í¼®ÁÖ Ãâ·Â

항목

Microsoft PowerPoint - 알고리즘_1주차_2차시.pptx

2 / 26

Integ

APOGEE Insight_KR_Base_3P11

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

공개 SW 기술지원센터

PowerPoint 프레젠테이션

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Sep.; 30(9),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

08김현휘_ok.hwp

1. Windows 설치 (Client 설치 ) 원하는위치에다운받은발송클라이언트압축파일을해제합니다. Step 2. /conf/config.xml 파일수정 conf 폴더에서 config.xml 파일을텍스트에디터를이용하여 Open 합니다. config.xml 파일에서, 아

PowerPoint Presentation

C# Programming Guide - Types

PCServerMgmt7

Windows 8에서 BioStar 1 설치하기

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

Windows Server 2012

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

Microsoft Word - windows server 2003 수동설치_non pro support_.doc

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 29(2), IS

Level 학습 성과 내용 1수준 (이해) 1. 기본적인 Unix 이용법(명령어 또는 tool 활용)을 습득한다. 2. Unix 운영체계 설치을 익힌다. 모듈 학습성과 2수준 (응용) 1. Unix 가상화 및 이중화 개념을 이해한다. 2. 하드디스크의 논리적 구성 능력

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

Microsoft PowerPoint - 30.ppt [호환 모드]

슬라이드 1

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

금오공대 컴퓨터공학전공 강의자료

Microsoft Word - 1-차우창.doc

PowerPoint 프레젠테이션

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

HLS(HTTP Live Streaming) 이용가이드 1. HLS 소개 Apple iphone, ipad, ipod의운영체제인 ios에서사용하는표준 HTTP 기반스트리밍프로토콜입니다. 2. HLS 지원대상 - 디바이스 : iphone/ipad/ipod - 운영체제 :

클라우드컴퓨팅이란? WHAT IS CLOUD COMPUTING? 2

???? 1

3. 클라우드 컴퓨팅 상호 운용성 기반의 서비스 평가 방법론 개발.hwp

1. What is AX1 AX1 Program은 WIZnet 사의 Hardwired TCP/IP Chip인 iinchip 들의성능평가및 Test를위해제작된 Windows 기반의 PC Program이다. AX1은 Internet을통해 iinchip Evaluation

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

DBPIA-NURIMEDIA

OMA Bcast Service Guide ATSC 3.0 (S33-2) T-UHDTV 송수신정합 Part.1 Mobile Broadcast (Open Mobile Alliance) 기반 Data Model ATSC 3.0 을위한확장 - icon, Channel No.

14.531~539(08-037).fm

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

PRO1_04E [읽기 전용]

<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A528B1E8C1BEB9E8292E687770>

CONTENTS CONTENTS CONTENT 1. SSD & HDD 비교 2. SSD 서버 & HDD 서버 비교 3. LSD SSD 서버 & HDD 서버 비교 4. LSD SSD 서버 & 글로벌 SSD 서버 비교 2

Microsoft PowerPoint - 02_Linux_Fedora_Core_8_Vmware_Installation [호환 모드]

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

리뉴얼 xtremI 최종 softcopy

Microsoft Word - zfs-storage-family_ko.doc

Microsoft Word - 조병호

Microsoft PowerPoint - eSlim SV [ ]

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

PowerPoint Presentation

<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A52DC1A4BFB5C3B62E687770>

Microsoft Word - DELL_PowerEdge_TM_ R710 서버 성능분석보고서.doc

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 25(3),

Contributors: Myung Su Seok and SeokJae Yoo Last Update: 09/25/ Introduction 2015년 8월현재전자기학분야에서가장많이쓰이고있는 simulation software는다음과같은알고리즘을사용하고있다.

20(53?)_???_O2O(Online to Offline)??? ???? ??.hwp

Microsoft PowerPoint - ch09 - 연결형리스트, Stack, Queue와 응용 pm0100

03-서연옥.hwp

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

04( ) CSTV15-23.hwp


Microsoft PowerPoint 자동설치시스템검증-V05-Baul.pptx

10(3)-09.fm

62

07변성우_ok.hwp

09È«¼®¿µ 5~152s

8-VSB (Vestigial Sideband Modulation)., (Carrier Phase Offset, CPO) (Timing Frequency Offset),. VSB, 8-PAM(pulse amplitude modulation,, ) DC 1.25V, [2

0125_ 워크샵 발표자료_완성.key

Microsoft PowerPoint - eSlim SV [080116]

01이국세_ok.hwp

<31362DB1E8C7FDBFF82DC0FABFB9BBEA20B5B6B8B3BFB5C8ADC0C720B1B8C0FC20B8B6C4C9C6C32E687770>

3.Bladesystem

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

차세대 시스템 개발과 스마트 캠퍼스 구축의 시대! 2014년 현재 대학 정보화 화두는 차세대, 스마트 캠퍼스, 개인정보보호 입니다. 대학 정보화 동향 1990년대 후반부터 2000년대 초반 붐처럼 일었던 학사행정 시스템 구축의 시기를 지나 2000년대 중 후반 부터는

Microsoft Word - src.doc

슬라이드 1

Title Slide with Name

Transcription:

ISSN 2383-6318(Print) / ISSN 2383-6326(Online) KIISE Transactions on Computing Practices, Vol. 20, No. 12, pp. 623-631, 2014. 12 http://dx.doi.org/10.5626/ktcp.2014.20.12.623 오픈소스기반데이터분산중복제거파일시스템의성능분석 (Performance Analysis of Open Source Based Distributed Deduplication File System) 정성욱 최훈 (Sung-ouk Jung) (Hoon Choi) 요약데이터중복제거파일시스템인 LessFS 와 SDFS 의성능을비교하면, LessFS 는 CPU 점유율과수행시간에서성능이우수하고, SDFS 는중복제거이후저장소사용량이다른파일시스템보다 1/8 정도의이점을가지고있다. 본논문은 SDFS 의장점인중복제거이후저장소사용량감소와 LessFS 의장점인낮은 CPU 점유율과수행시간감소의장점을지니는새로운방식을제안한다. SDFS 의 Dedup File Engines (DFE) n 개를이용하되, Dedup Storage Engines ( 이하 DSE) 1 개를두어중복제거데이터의정합성과일관성을유지하는방식이다. 제안하는방식을 2 개의 DFE 와 1 개의 DSE 를가진시험환경에구현하고성능비교를수행한다. 키워드 : 중복제거, 중복제거파일엔진, 중복제거저장엔진, 1 개중복제거파일엔진, 2 개중복제거파일엔진, n 개중복제거파일엔진 Abstract Comparison of two representative deduplication file systems, LessFS and SDFS, shows that Lessfs is better in execution time and CPU utilization while SDFS is better in storage usage (around 1/8 less than general file systems). In this paper, a new system is proposed where the advantages of SDFS and Lessfs are combined. The new system uses multiple DFEs and one DSE to maintain the integrity and consistency of the data. An evaluation study to compare between Single DFE and Dual DFE indicates that the Dual DFE was better than the Single DFE. The Dual DFE reduced the CPU usage and provided fast deduplication time. This reveals that proposed system can be used to solve the problem of an increase in large data storage and power consumption. Keywords: deduplication, DFE(Dedup File Engine), DSE(Dedup Store Engine), single DFE, dual DFE, mutil DFE 본연구는대학IT연구센터육성지원사업의지원 (NIPA-2014-H0301-14-1014) 과 MOTIE,DAPA 의민군기술협력진흥센터의지원으로수행되었음 이논문은 2014 한국컴퓨터종합학술대회에서 가상화환경데이터중복제거파일시스템성능분석 의제목으로발표된논문을확장한것임 학생회원 : 충남대학교컴퓨터공학과 newman1590@naver.com 종신회원 : 충남대학교컴퓨터공학과교수 (Chungnam National Univ.) hc@cnu.ac.kr (Corresponding author 임 ) 논문접수 : 2014년 9월 2일 (Received 2 September 2014) 논문수정 : 2014년 10월 7일 (Revised 7 October 2014) 심사완료 : 2014년 10월 20일 (Accepted 20 October 2014) CopyrightC2014 한국정보과학회 ː 개인목적이나교육목적인경우, 이저작물 의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시 명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위 를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회컴퓨팅의실제논문지제 20 권제 12 호 (2014. 12)

624 정보과학회컴퓨팅의실제논문지제 20 권제 12 호 (2014.12) 1. 서론최근소셜미디어 (social media), 산업간융합등이확대되고, 기존의 PC(Personal Computer) 뿐만아니라스마트폰, 태블릿 (tablet) PC 등다양한스마트기기를통한인터넷이용이증가하면서, 수많은비정형데이터를발생시키고있다. 2011년발표된 IDC 보고서에의하면, 2021년생성된데이터양은 90ZB로전망이다. 이러한대량의데이터의생성은대량의저장공간을필요로한다. 따라서저장된데이터의처리와보관관련된문제가더욱이슈화가되고있다. 현재까지연구되고있는기술중에서, 적은비용으로문제를해결하기위한효과적인방법으로는저장공간에서의데이터중복제거기술 (deduplication) 이있다. 스토리지에유지되고있는데이터는중복된데이터를많이포함하고있기때문에, 데이터중복제거기술을이용하면효과적으로스토리지사용량을줄일수있다. 중복제거를이용하면스토리지절약뿐만아니라전산실공간유지그리고전력소비절감이라는효과도얻는다. 중복제거기술을 1차스토리지에적용한오픈소스기반의데이터중복제거파일시스템인 ZFS(The Z File System), LessFS(Data Deduplication for Less), SDFS (A user space Deduplication File System) 의성능을비교해보면, 중복제거수행에서 LessFS가 CPU 점유율과중복제거수행시간에서우위를보이고, SDFS는중복제거후저장소사용량이다른파일시스템보다 1/8 정도인이점을갖는다 [1]. 본논문에서는 SDFS의장점과 LessFS의장점을지니는새로운방식의분산시스템을제안하고, 2개의 DFE (Deduplication File Engine) 와 1개의 DSE (Deduplication Store Engine) 를가진시험환경에구현하며, 측정을통해성능분석을수행하였다. 본논문의구성은다음과같다. 2장에서는관련연구로서, 국내외오픈소스기반의중복제거파일시스템기술을포함한중복제거관련기술동향과각기술별장단점에대하여설명하고, 3장에서는제안하는분산처리중복제거파일시스템의하드웨어구조, 4장에서는본논문에서제안하는분산처리기반중복제거파일시스템의소프트웨어구조에대해기술하며, 5장에서는제안시스템의성능비교를위한데이터입력방식및시나리오, 그리고성능분석결과에대해서기술하고, 6장에서결론을맺는다. 를유지및관리하기위해서데이터중복제거는필수기술이되어가고있다. 데이터중복제거란서로다른데이터들간에중복되는부분을검출해내고, 중복된부분을제거함으로써, 스토리지가용저장공간을높이는것을말하며, 크게데이터압축의일종이라할수있다. 현재까지데이터중복제거의활용영역은백업용디스크와같은 2차스토리지에국한되어있었다. 그러나최근데이터중복제거를 1차스토리지에활용하는노력이계속되고있다. 본연구에서는 1차스토리지에서중복제거를사용하면서도오버헤드를최소화하며빠른중복제거수행하여스토리지사용량을줄이는새로운방식을제안하고성능을비교를수행한다. 2.1 데이터중복제거의이점데이터중복제거의가장큰이점은비용절감이다. 일차적으로스토리지사용량을줄여서, 고가의스토리지시스템을확장하는비용을절감할수있다. 저장되는데이터의종류에따라최대 90% 를절감할수있으며, 통상적으로 40% 이상의스토리지용량절감효과를얻을수있다. 그외에도상면비용, 전력, 냉각등다양한측면에서 TCO( 총소유비용 ) 절감에효과를볼수있다 [2]. 2.2 데이터중복제거처리방식과중복제거방식데이터중복제거처리방식으로서소스중복제거 (Source Based) 방식, 사후처리중복제거 (post-process) 방식, Inline 중복제거방식이있다 ( 표 1). 소스중복제거방식은어플리케이션이위치하는데이터소스에서중복제거가이루어지는방식이다. 별도의데이터중복제거모듈을소스디바이스에설치한후, 중복된부분에대해서는그포인터만을타깃스토리지에전송하는방식이다. 실제데이터를전송하지않고그포인터만을전송하기때문에네트워크트래픽이크게줄어드는장점이있다. 그러나중복제거작업이많은 CPU 작업을요구하기때문에본래소스에서어플리케이션의수행에오버헤드로작용할수있다. 표 1 중복제거방식처리방식 Table 1 Deduplication Process Method 2. 관련연구 급증하는데이터는더욱방대한용량의스토리지시스템을필요로한다. 최소한의비용으로방대한데이터

오픈 소스 기반 데이터 분산 중복제거 파일 시스템의 성능 분석 사후 처리 중복제거 방식은 데이터를 임시 디스크에 저장한 후, 추후 시점에 데이터 중복제거를 진행하는 방 625 표 2 오픈소스 기반 중복제거의 분류 Table 2 Open Source Based Deduplication Class 식이고 별도의 임시 스토리지가 필요하며, 저장된 임시 데이터가 많을 경우 작업 완료 시간이 지연될 수 있다. 그러나 데이터를 수신하는 시점에는 별도의 오버헤드가 존재하지 않아 빠른 송수신이 가능한 장점이 있다. 마지막으로 소스 디바이스에서 보내진 원본 데이터를 타깃 스토리지 측에서 중복제거하는 방식을 타깃(target) 중복제거 방식 또는 Inline 중복제거 방식이라고 한다. 소스 디바이스에 별도의 오버헤드가 없고, 중복제거 기 능을 갖추지 않은 기존의 어플리케이션을 그대로 사용 할 수 있다는 장점이 있다. 하지만 타겟에서 중복제거 시 오버헤드가 걸릴 수 있는 단점이 있다. 데이터 중복제거 방식을 중복제거 정보 단위 측면에 서 분류될 수도 있다. 먼저 파일 수준의 중복제거는 파 일 전체가 중복되는 경우에만 중복제거를 수행하는 방 식으로서 SIS(Single Instance Storage)라고도 불린다. 중복되는 파일이 많은 경우 손쉽게 구현될 수 있다는 장점이 있으나 효율성 면에서는 바람직하지 못하다. 예 를 들어, 두 파일이 1bit 만 달라도 서로 다른 파일로 인식되기 때문이다. 반면 한 파일을 블록(Chunk, Segment) 단위로 나누거나 bit 단위의 중복제거를 수행하 는 방식이 있다. 중복되는 블록은 오직 1번 저장되고, 그 블록을 가리키는 포인터를 저장함으로써 추후에 파 일을 재조합할 수 있다. 당연히 효율성 면에서는 파일 수준의 중복제거보다 훨씬 뛰어나다. 블록 수준의 중복 제거는 다시 두 가지로 나뉠 수 있다. 블록의 크기가 고 정되어있는 고정 길이 방식과 블록의 크기가 가변적인 가변 길이 방식이 그것이다. 일반적으로 블록의 길이를 적합하게 조절할 수 있고, 중복된 블록의 파일 내 오프 셋 변경이 가능한 가변 길이 방식이 더 효율적이다. 2.3 오픈 소스 기반 중복제거 파일 시스템 스토리지 사용량을 줄이는 이점이 있지만 높은 CPU 사 용과 중복제거 수행 시간 오래 걸려 효율성이 좋지 않다. SDFS는 리눅스와 Windows의 크로스 플랫폼 지원하 여 NFS와 CIFS의 사용을 지원한다. 중복제거를 통해 스토리지 사용률 감소하여 스토리지 사용률을 최대 90%- 95%까지 줄일 수 있다. 또한, Scalability 측면에 서 SDFS는 페타 바이트 이상의 데이터를 중복제거를 할 수 있고, 중복제거 수행 속도에서는 환경에 따라 최대 초 당 350MB 이상의 속도로 중복제거 또는 중복해제를 수 행할 수 있다. 그리고 가상화 기반의 VMWare 지원하며, Inline and Batch mode의 두 가지 중복제거 기법을 사용 할 수 있고, 변경사항은 바로 반영되며 파일이나 폴더 레 벨의 스냅샷을 지원하고, 시스템이 고장으로 인해 정지했 을 때, 복구를 위해 주기적인 저장을 지원한다[6,7]. 3. 분산 중복제거 하드웨어 구조 하드웨어는 그림 1과 같이 DFE1, DFE2와 NAS(Network Attached Storage) 연결을 하여 데이터를 입력하 표 2의 ZFS는 고정된 블록 파일 수준의 중복제거를 동 기화 방식(inline)으로서, 리눅스, Solaris, freebsd에서 사용하며 RAID-Z, COW, 스냅샷 지원, 볼륨의 동적 변 경을 지원하는 장점과 CPU 점유율, 중복제거 수행 시간 이 오래 걸리며, 중복제거의 효율성이 좋지 않다[3,4]. LessFS는 Mash 기반의 고정된 블록 파일 수준의 중 복제거를 동기화 방식(inline)으로 수행하는 리눅스 전용 방식으로서 LZ4 압축 기능을 지원한다. LessFS는 장점 으로 CPU 점유율과 중복제거 수행 시간에서 우위를 보 이며 시스템 자원 관리가 효율적이다[5]. SDFS는 리눅스 Open Project로 수행되고 있으며, TigerHash 기반의 고정된 블록 파일 수준의 중복제거를 동기화 방식(inline)과 비 동기화 방식(batch)으로 수행 그림 1 다중 중복제거의 하드웨어 구조 하며 스냅샷 기능을 지원한다. 또한 중복제거율이 높아 Fig. 1 Multi Deduplication Hardware Structure

626 정보과학회컴퓨팅의실제논문지제 20 권제 12 호 (2014.12) 는클라이언트로구성된다. 클러스터링기능을사용하여스토리지를연결함으로써, DFE1과 DFE2가공통으로할당된 DSE 스토리지를볼수있게구성하였다. DFE1과 DFE2의서버사양은 IBM의 X3850M1 장비를사용하였으며, 클라이언트서버사양은 IBM X3550M1 을사용하였다. 제안시스템에서사용하는 DFE1, DFE2 사양은프로세스는 Xeon 2.4 * 8core와 MEMORY 16GB 로구성디스크는 SAS type의 72G 디스크 2개를 Raid 1으로 Mirror로구성하였다. 제안시스템에서사용하는클라이언트사양은프로세스는 Xeon 2.4 * 4core와 Memory 4GB로구성디스크는 SAS type의 72G 디스크 2개를 Raid 1으로 Mirror로구성하였다. 3.1 스토리지의구조 DFE1과 DFE2는서로공통된 DSE를볼수있는공유디스크는외장형스토리지인 IBM의 DS4300을사용하였다. 클러스터링기능으로 SAN(Storage Attached Network) 및 DAS(Direct Attached Storage) 환경에서여러노드에같은 LUN(Logical Unit Number) 을할당할수있으며, GFS2를이용하여공유파일시스템을구성할수있다. 제안시스템에서사용하는스토리지는 140GB의 FC(Fiber Channel) 방식디스크 5개를 Raid-5로구성하였다. 약 10GB를 DSE 용도로할당하였다. 그리고 10GB의 LUN은스토리지는클러스터링기능을사용하여 DFE1과 DFE2에매핑하였다. 3.2 SAN/NAS/DAS 구조및제안시스템사용방식표 3에보인바와같이 SAN을구축하기위해서는 NAS나 DAS에비해서많은비용과장비들의투자가필요하고, NAS와는달리 SAN 네트워크를별도로구축을해야하며, 여러서버에서파일공유를하려는측면에서생각해보면동일파일시스템에대한관리를각각의서버에서해야하기때문에 Locking 문제와 Consistency 문제가생기게되고이때문에파일공유가어렵다. 하지만상용소프트웨어와 Open Project에서제공하는 IBM 의 GPFS(General Parallel File System), Redhat의 GFS2(Grobal File System) 등을사용하여 SAN 환경에서도파일공유를할수있다 [8]. NAS의장점은파일공유다. 이러한 NAS 기능을 DFE1 과 DFE2에공유로구현된중복제거로파일시스템인 DSE를네트워크를통해클라이언트에마운트되며, 클라이언트는공유로구현된중복제거파일시스템에데이터를입력한다. DAS 서버와전용케이블로연결한외장형저장장치는서버 / 클라이언트환경에서의부족한저장공간을가장쉽게확보하는방법으로서버자체에물리적으로외부저장장치를연결하는것이다 [8]. 제안시스템의스토리지는클러스터링기능을사용하 표 3 SAN/NAS/DAS 구조및제안시스템사용방식 Table 3 SAN/NAS/DAS Structure and Proposal Use of the System 여 DFE1과 DFE2에 DAS방식으로같은 LUN을볼수있게구성하고이렇게같은 LUN은 GFS2를이용하여 DAS 환경에서 DFE1과 DFE2가공유할수있는환경을만들었다. 4. 분산중복제거소프트웨어구조제안시스템은리눅스 Centos 6.4(Kernel version 2.6.32) 을 Platform으로하고, 중복제거도구는개방형중복제거기술의하나인 SDFS를사용하여중복제거를수행한다. 그리고 GFS2(Global File System) 를사용하여 DSE를공유함으로써, 각각의노드들이하나의파일및폴더를바라볼수있게하였다. 또한파일시스템을마운트하는것은 Fuse(File System in User Space) 를사용하여구성하였다. 본논문의제안시스템은 DFE는 GFS2를사용하여이론상 256개의 DFE까지확장을지원한다 ( 그림 2). 그림 2 다중중복제거의소프트웨어구조 Fig. 2 Multi Deduplication Software Structure 4.1 Single DFE 대표적인개방형중복제거기술인 SDFS 구조는그림 3과

오픈소스기반데이터분산중복제거파일시스템의성능분석 627 그림 3 SDFS 구조 Fig. 3 SDFS Structure 같이크게두개의컴포넌트인 DFE과 DSE이나누어져있다. DFE은파일단위의관리를하고, DSE는실제저장되는 Chunk를관리한다. 하나의파일은 DedupFile이라는클래스로관리가된다. Chunk 단위로나누어진데이터는 WritableCache- Buffer라는형태로메모리에저장되고, 디스크에 Writing 될때, HCServiceProxy라는컴포넌트가 Routing을해서 DSE로보낸다. 이때 Routing을 Chunk의첫번째 Byte의해쉬값을 0~255로계산하여 Routing을한다. 파일에대한메타정보인디렉토리, 파일경로, 마지막접근시간, 권한등은 MetaDataDedupFile이라는저장공간에저장이되며, 이컴포넌트는 JDBM이라는오픈소스를사용한다. 이 DedupFile들은묶음으로 DedupFile- Store라는곳에저장된다. 파일전송을위해서각 Dedup- File은 DedupChannel을가지고있고, 클라이언트에파일을전송하는 Network interface로사용된다. 개방형기술이기때문에이파일시스템을 NFS나 CIFS 등으로시스템에마운트할수있는데, 이파일시스템을마운트하는것은오픈소스의 Fuse를사용한다 [9]. 4.2 Dual DFE 구조본논문은 SDFS의장점인높은중복제거를통한스토리지의사용량감소와 LessFS의낮은 CPU 점유율과중복제거수행시간이짧은이점을참고하여 SDFS 장점과 LessFS의장점을포함하는시스템을구현하고자한다. 그림 4에서와같이제안시스템은 SDFS를사용하여 DFE를 2개확장하였고 DSE를 1개로구성하였다. DFE를 2개로확장함으로써데이터입력을 DFE1, DFE2 양쪽으로분산할수있고, 중복제거를각각별도 로수행한다. 그리고양쪽에분산되어입력되는데이터들에대해정합성과일관성을유지하기위해, GFS2를통해 DSE를 DAS환경에서공유파일시스템으로생성한다. 한쪽의 DFE에데이터입력이발생할시다른쪽 DFE에새로운데이터대한정보를알려양쪽의 DFE 에서동일한데이터를확인할수있게동기화하도록구현하였다. Dual DFE파일동기화방식은그림 4와같이 DFE1과 DFE2는서로공통된파일시스템을생성할수있게 GFS2로공유된파일시스템에 DSE를생성하였고, 처음생성을할때 DFE1과 DFE2의 MetaDataDedup 의위치를동일한위치로설정을하여파일에대한정보를동기화하도록하였다 [10]. 이렇게설정함으로써 DFE1을통해입력되는 DB File 과 Source File과 DFE2를통해입력되는 MP3 File과 Picture File에대해 DFE1과 DFE2가서로의파일경로, 길이, 마지막접근시간, 권한등을동기화하고 DSE 에저장되어있는실제데이터들을외부클라이언트가읽을때 DFE1, DFE2 관여하지않고양쪽모두에서파일을읽을수있다. 이렇게제안된시스템은데이터입력을분산하여스토리지사용량을줄이는이점과 CPU 점유율, 중복제거수행시간의감소를목표로성능비교를수행한다. 5. 성능분석 5.1 성능분석환경 5.1.1 Single DFE 데이터입력방식성능측정을위한 Single DFE 데이터입력방식은클라이언트에서 GroupA의 DB File과 Source File을,

628 정보과학회컴퓨팅의실제논문지제 20 권제 12 호 (2014.12) 그림 4 이중 DFE 구조 Fig. 4 Dual DFE Structure 그림 5 단일 DFE 입력방법 Fig. 5 Data Input Method of the Single DFE GroupB의 MP3 File과 Picture File을동시에 Single DFE에네트워크를통해전송한다. 전송방식은클라이언트에서 Single DFE의파일시스템을 NAS로연결하여클라이언트에서마운트하였다. 그림 5를보면클라이언트에서는 NAS로연결된파일시스템에 A와 B는각각다른폴더를생성하여 GroupA 는 NAS의 A 폴더에데이터를입력하고, GroupB는 NAS의 B 폴더에데이터를동시에입력하여 DFE를통해 DSE에데이터가저장되며, 데이터가저장되는순간 Inline 방식으로즉시중복제거를수행을한다. 이렇게 DFE에데이터가입력되는순간시스템자원사용률에대한성능측정을하였고, CPU에대한성능측정은 NMON 성능모니터링도구를사용하였다. 또한스토리지의증가량에측정은 df 명령어로 Batch File을만들어 1초마다증가량에대해측정하고, 그리고중복제거수행전송시간측정은 time 명령어로측정하였다. 5.1.2 Dual DFE 데이터입력방식성능측정을위한 Dual DFE 데이터입력방식은우선 DFE1 서버와 DFE2 서버는서로 GFS2을통해서로 DSE을공유하게설정하였고, DFE1 서버와 DFE2 서버는공유된 DSE를바라보게하였다. 그림 6을보면클라이언트에서 GroupA의 DB File과 Source File을 DFE1 서버에 GroupB의 MP3 File과 Picture File은 DFE2 서버에동시에네트워크를통해전송한다. 전송방식은클라이언트에서 DFE1의공유된파일시스템을 NAS로연결하여클라이언트에서마운트하였고클라이언트에서 DFE2의공유된파일시스템을이름을변경하여 NAS로연결하여클라이언트에서마운트하였다. 클라이언트에서는 NAS로연결된 DFE1의파일시스템에 A 폴더를생성하고, 또다른이름은 DFE2의파일시스템에 B 폴더를생성하였다. GroupA는 NAS의 A 폴더에데이터입력을 GroupB는 NAS의 B 폴더에데이터를동시에입력하여 DFE를통해 DSE에데이터가저장되며, 데이터가입력되는순간 Inline 방식으로즉시

오픈 소스 기반 데이터 분산 중복제거 파일 시스템의 성능 분석 629 그림 7 Single DFE와 Dual DFE의 압축 파일 중복제거 그림 6 이중 DFE 입력방법 Fig. 6 Data Input Method of the Dual DFE Fig. 7 Deduplication of compressed files in single DFE and dual DFE 중복제거를 수행을 한다. 각각의 DFE1과 DFE2에 데이 표 4 Single DFE와 Dual DFE의 압축 파일 중복제거 터가 입력되는 순간 시스템 자원 사용률에 대한 성능 Table 4 Deduplication of compressed files in single DFE 측정을 하였다. and dual DFE CPU 성능과 스토리지의 증가량 측정 그리고 중복제 거 수행시간 측정은 앞의 Single DFE와 동일한 측정방 식을 사용하였다. Dual DFE에서의 성능 측정은 Tar로 압축한 파일과 압축하지 않은 일반 파일의 데이터 입력 에 대한 성능 측정 두 가지 방식으로 실험하였다. 5.1.3 성능비교 시나리오 제안 시스템 구조를 통한 성능 분석 실험은 아래와 같은 시나리오에 따라 수행하였다. - 압축 파일을 기준으로 물리적 Single DFE, Multi DFE에 대한 성능을 비교함 - 일반 파일을 기준으로 물리적 Single DFE, Multi DFE에 대한 성능을 비교함 - 입력 전 모든 노드는 Chunk-Store Clean 후 성능 측정 총 3set 진행하여 평균값으로 계산함(1set : 3회) ① Single DFE와 Dual DFE의 데이터 입력에 따른 중 복제거 수행 속도를 측정한 값이다. 수행 속도 측정은 - Group A Data: DB(1개), Web Source(1964개) 각각 1GB, GroupA와 GroupB 중 늦게 입력이 완료된 Group을 Group B Data: MP3(115개), Picture(455개) 각각 1GB 기준으로 하였다. Single DFE와 Dual DFE의 첫 번 - 성능 분석 전 스토리지의 디스크의 평균 쓰기 속도 45MB/s 째 데이터 입력은 초기 모든 데이터에 대해 중복제거 5.2 제안 시스템 성능 분석 를 수행하여 중복제거에 따른 수행 시간이 더 걸리는 5.2.1 물리적 환경 Single DFE와 Dual DFE의 압축 것을 확인할 수 있었고, 두 번째 데이터 입력부터는 파일 분산 중복제거 성능 분석 첫 번째 데이터 입력보다 빠른 수행 속도를 확인할 그림 7과 표 4는 Single DFE 데이터 입력 방식과 수 있었다. 그리고 Single DFE보다 Dual DFE가 중 Dual DFE 데이터 입력 방식을 제안 시스템의 시나리 복제거 수행 속도 측면에서 더 빠르다는 것을 실험으 오에 맞게 데이터 입력 방식대로 실험한 결과이다. 로 확인할 수 있었다. 총 3set (1set : 3회) 실험하여 평균을 계산, 데이터들 ② CPU 점유율 측면에서 Single DFE보다 Dual DFE 은 Group A의 DB File 1개(1024M)와 Source File 가 효율적으로 CPU 자원을 사용하는 것을 실험을 통 1964개(993M)를 각각 Tar로 압축하여 데이터 전송하였 해 확인할 수 있었다. Single DFE와 Dual DFE 모 고, GroupB의 MP3 File 115개(1010M), Picture File 두, 첫 번째 데이터 입력은 초기 모든 데이터에 대해 455개(1033M)를 각각 Tar로 압축하여 실험하였다. 실 중복제거를 수행하므로 CPU 사용을 더 많이 하였고, 험환경의 Upload 평균 속도는 31MB/s이었다. 두 번째 데이터 입력부터는 CPU 점유율이 낮아진다.

630 정보과학회컴퓨팅의실제논문지제 20 권제 12 호 (2014.12) 3 스토리지의사용률측면에서도첫번째데이터입력때에는모두새로운데이터가입력되기때문에스토리지용량이증가를하는것은확인할수있었고, 두번째데이터입력부터초기데이터에대해중복제거효과로인하여스토리지의용량이 1% 미만으로증가하는것을확인하였다. Single DFE와 Dual DFE 모두중복제거에따른스토리지의사용률이적은것을확인하였다. 위실험은실제환경에서파일들을압축하여수행한것이다. 실험결과 Single DFE보다 Dual DFE가중복제거에따른스토리지의사용량은적으면서 CPU의자원사용률과, 중복제거에따른수행속도시간이많이감소한것을확인할수있었다. 5.2.2 물리적환경 Single DFE와 Dual DFE의일반파일분산중복제거성능분석일반파일에대해 Single DFE 데이터입력방식과 Dual DFE 데이터입력방식을제안시스템의시나리오방식과같이실험하였고그림 8과표 5의결과를얻었다. 성능측정총 3set(1set : 3회 ) 실험하여평균을계산하였다. 데이터로서 GroupA의 DB File 1개 (1024M) 와 Source File 1964개 (993M) 일반파일을전송하였고, GroupB의 MP3 File 115개 (1010M), Picture File 455개 (1033M) 를일반파일그대로전송하는실험을하였다. 실험환경의 Upload 평균속도는 18MB/s 이었다. 1 데이터입력에따른중복제거수행속도를측정한값이다. 수행속도측정은 GroupA와 GroupB 중늦게입력이완료된 Group을기준으로하였다. Single DFE와 Dual DFE의첫번째데이터입력은초기모든데이터에대해중복제거를수행하여중복제거에따른수행시간이조금더걸리는것으로나타났다. 두번째데이터입력부터는첫번째데이터입력보다빠른중복제거수행속도를나타내었다. 그리고 Single DFE보다는 Dual DFE가중복제거수행속도적인측면에서더빠르다는것을실험을통해확인하였다. 하지만 Tar로압축을하여데이터전송을하여측정한수치보다일반파일전송이다소시간이더걸렸는데, 이이유는작은데이터여러개의파일을전송하기때문으로판단된다. 2 CPU 점유율측면에서 Single DFE보다 Dual DFE가효율적으로 CPU 자원을사용하였다. Single DFE와 Dual DFE 모두, 첫번째데이터입력은초기모든데이터에대해중복제거를수행하여 CPU를더많이사용하였고, 두번째데이터입력부터는 CPU 점유율이낮아지는것을확인할수있었다. 그리고 Tar로압축하여전송하는것보다 CPU 점유율이더줄어든것을 그림 8 Single DFE와 Dual DFE의일반파일중복제거 Fig. 8 Deduplication of general files in single DFE and dual DFE 표 5 단일 DFE와이중 DFE의일반파일중복제거 Table 5 Deduplication of general files in single DFE and dual DFE 확인할수있었다. 이이유는압축파일같은경우계속하여끈김없이큰데이터를전송하여중복제거를계속수행하지만, 일반파일전송은작은데이터여러개의파일을전송하기때문에 CPU 점유율이낮아진것으로판단된다. 3 스토리지의사용률측면에서압축파일전송과마찬가지로첫번째데이터입력때에는새로운데이터가모두입력되어야하기때문에스토리지는용량그대로증가한다. 그러나두번째데이터입력부터초기데이터에대해중복제거수행하기때문에스토리지의용량이 1% 미만으로증가하는것을나타났고, 스토리지의사용률측면에서 Single DFE과 Dual DFE 모두중복제거에따른스토리지사용률이효율적인것을실험을통해확인할수있었다. 그리고압축파일전송에비해일반파일전송의스토리지사용률이다소높게나온이유는 Metadata에대한파일경로, 길이, 마지막접근시간, 권한등의파일정보가늘어나기때문이다.

오픈소스기반데이터분산중복제거파일시스템의성능분석 631 위실험은물리적으로분리된환경에서수행하였다. 실험을통해일반파일중복제거가 CPU 점유율과중복제거에있어압축파일경우보다 CPU를더적게사용하는것과수행시간이더걸린다는것을확인했으며, 그이유들을분석할수있었다. 스토리지용량측면에서는, 파일데이터저장뿐만아니라 Metadata 저장을위해서도스토리지가증가하는것을확인하였다. 또한 Single DFE보다 Dual DFE가스토리지사용량은적으면서 CPU 의자원사용률과, 중복제거에따른수행속도시간이많이감소하는것을확인할수있었다. 6. 결론분산환경의중복제거시스템실험을통해성능분석을수행하였다. 그리고중복제거고도화를목적으로물리적환경의서버분리, 스토리지분리그리고클라이언트분리를통해 I/O 성능을개선할수있었다. 그리고 Multi DFE가목표로하였던 CPU 점유율감소와빠른중복제거소요시간을갖는결과값을도출할수있었고, 중복제거율측면에서 SDFE의장점인높은중복제거율로낮은저장소사용량을보이는결과를측정하였다. 단점으로는 DFE를여러대운영함에따른비용이증가하는점과, DFE를 2대, 3대이상으로확장한다고해서성능이 2배, 3배좋아지지는않는다는점이다. 본연구의의의는아직까지시도되지않았던분산방식중복제거시스템을구현하였다는점이다. 제안시스템이최근의대량데이터생성으로인한스토리지증가비용, 물리적공간문제, 전력소비증가문제점의해결방안으로기여할수있을것사료된다. References www.cyworld.com/schasert/7800258, Accessed on Apr. 10, 2014. [8] Soon8x s little IT Storage corner page, [Online]. Available: http://blog.naver.com/postview.nhn?blogid= redsea2407&logno=50123652569, Accessed on May. 10, 2014. [9] Cloud Computing & NoSQL, Cloud File system Deduplication Page, [Online]. Available: http://bcho. tistory.com/598, Accessed on Apr. 1, 2014. [10] S. O. Jung and H. Choi, "Virtual environments distributed processing data deduplication file system performance analysis," Proc. of KISSE, Korea Computer Congress 2014. 정성욱 2007 년호남대학교정보통신공학과 ( 학사 ) 2014 년충남대학교컴퓨터공학과 ( 석사 ) 관심분야는분산처리, 암호이론등 최훈 1983년서울대학교컴퓨터공학과졸업 ( 학사 ). 1993년미국 Duke University( 석사, 박사 ). 1983년~1996년한국전자통신연구소선임연구원. 2000년~2001년미국 NIST 객원연구원. 2001년~2003년충남대학교공과대학컴퓨터공학과교수. 컴퓨터공학교육과학과장. 1996년~현재충남대학교공과대학컴퓨터공학과교수. 2012년~2013년충남대학교정보통신원원장. 관심분야분산처리및소형이동디바이스에서분산서버환경디바이스대상플랫폼과미들웨어등 [1] H. K. Lee, Y. J. Cho, and Y. I. Eom, "Benchmark of OpenSource Based Deduplication FileSystem," Proc. of Conference Fall 2012, Vol. 39, No. 2(A), pp. 219-220, 2012. [2] IT on the Whell IT Common Data Deduplication page, [Online]. Available: http://bigstory.tistory.com/ 117, Accessed on Apr. 2, 2014. [3] Kunsan University radiocom zfs Page, [Online]. Available: http://radiocom.kunsan.ac.kr/lecture/unix_cmd/ zfs.html, Access on May.11, 2014. [4] Wikipedia zfs Page, [Online]. Available: http://en. wikipedia.org/wiki/zfs, Accessed on May. 11, 2014. [5] fedoraproject Lessfs Document Page, [Online]. Available: http://fedoraproject.org/wiki/features/lessfs, Accessed on Apr. 20, 2014. [6] SDFS Deduplication Administration Page, [Online]. Available: http://opendedup.org/sdfs-20-administration-guide, Accessed on May. 12, 2014. [7] SDFS Deduplication Page, [Online]. Available: http://