Cloud 컴퓨팅기반분산파일시스템개요 개발실 UPDATE : 2012. 11 18
INDEX 1. 가용성 2. 확장성 3. PrismFS 4. Q&A 2
가용성 3
Gmail 장애 2011년 2월 27일 34000명의 Gmail 사용자들이일어나보니메일, 주소록, 채팅기록등이사라진것을발견 2011년 2월 28일 스토리지소프트웨어업데이트를진행하는중 Bug로인해발생했다고공지 총피해계정은전체의 0.02% 2011년 3월 1일 남아있는 0.012% 의자료를 TAPE에서복구하고처리중임을공지 2011년 3월 2일 복구완료공지 4
Gmail 장애가남긴것 Google의자료보호정책유출 3배수복제 IDC간복제 TAPE 백업 5
Google 의자료보호정책자세히 원본자료의크기를 1이라하면 3배수복제로 +2 IDC간복제로 +1 ~ +3 TAPE 백업으로 +1 ~ +? GoogleFS의 Snapshot 기능을이용하는것으로추정 따라서총사용공간은최소 5 이상 6
복제비용 + 7
복제비용 + 8
복제비용 더많은디스크 더많은 H/W 더많은상면 더많은전력 더많은인력 9
복제이유 왜 Google 은많은비용을들여고객의자료를복제하는 것일까?? 10
가용성모델 MTTF = mean time to failure MTTR = mean time to repair, where n is the total node count 11
간단한가용성모델 가용성 = f( 복제된노드의수, ) 16 14 12 10 8 6 Additional Space (Ratio) Payload (Ratio) Availability (# of 9) 4 2 0 no rep rep 1 rep 2 rep 3 rep 4 rep 5 rep 6 12
가용성 저렴하게가용성을확보하는방법은없을까?? 13
RAID RAID(Redundant Array of Independent Disks) 하지만서버가죽으면어떻게하지? 14
Erasure Code RAID 의일반론 원본자료는총 n 개의조각에서 k 개의조각이있을경우복구가가능 RAID5 는 m 이 1 인경우 k Data Slices m Code Slices D0 D1 D2 Dk-1 C0 Cm-1 15
가용성모델 Erasure Code 를이용한가용성 12 MTTF = 27216h MTTR = 24h + alpha Availability may vary by site env 10 8 6 4 Additional Space (Ratio) Payload (Ratio) Availability (# of 9) 2 0 16
Erasure Code 장단점 상대적으로낮은비용으로높은가용성을확보 저장및복구시 CPU 및 Network 비용이추가됨 17
지연된복제 구현을간단하게하기위해지연된복제방법을사용하는경우가있음 파일을저장했지만위험기간내장애가발생할경우자료를잃어버 릴수있음 9 위험기간 9 8 8 7 7 6 5 4 Additional Space (Ratio) Payload (Ratio) 6 5 4 Additional Space (Ratio) Payload (Ratio) 3 Availability (# of 9) 3 Availability (# of 9) 2 2 1 1 0 t1 t2 t3 t4 0 t1 t2 t3 t4 지연된복제방법 동기화된복제방법 18
자료를안전하게보관하려면 충분한복제본혹은 Code Slice를준비해가용성을확보 장애가발생할경우빠르고정확하게조치 지연된복제를사용하지않거나사용할경우복제가완료되기전장애에대비해백업정책을마련 19
PrismFS 는어떤방법으로자료를보호하나 충분한복제본혹은 Code Slice를준비해가용성을확보 PrismFS는 ErasureCode를이용해충분한 Code Slice 준비 장애가발생할경우빠르고정확하게조치 PrismFS는빠른장애검출을위해실시간자원모니터링을수행 지연된복제를사용하지않거나사용할경우복제가완료되기전장애에대비해백업정책을마련 PrismFS는동기화된복제정책을사용하고있음 20
PrismFS 의쓰기구조 Write data flow Client (Encode) D1 D4 D7 D2 D5 D8 D3 D6 D9 C1 C2 C3 data location DS DS DS DS D1 D2 D3 C1 MDS D4 D5 D6 C2 D7 D8 D9 C3 Slice #1 Slice #2 Slice #3 Slice #4 21
PrismFS 의읽기구조 Read data flow Client (Decode) D1 D4 D7 D2 D5 D8 D3 D6 D9 C1 C2 C3 data location DS DS DS DS D1 D2 D3 C1 MDS D4 D5 D6 C2 D7 D8 D9 C3 Slice #1 Slice #2 Slice #3 Slice #4 22
확장성 23
메타정보란? 분산파일시스템에서사용자자료를제외한파일을관리하는데필요한정보 파일의위치 생성시각 수정시각 기타 24
두가지모델 메타정보를관리하는방법에따라파일시스템을분류할수있음 집중식모델 마스터관리서버가모든메타정보를관리 비집중식모델 여러대의관리서버가협업해서메타정보를관리 25
집중식모델의장점 구조가간단하므로구현이쉽다. 마스터관리서버가모든정보를관리하고있기에관리효율이좋다. 자료의복제나배치는전역정보를활용하는것이좋다. 26
집중식모델의한계 집중식모델의경우전체시스템의용량이마스터관리서버의용량에 결정되는문제가있다. 특히작은파일을많이저장할경우 Master Node Master Node Data Node Data Node Data Node Data Node 27
비집중식모델의장점 전체시스템의용량을효과적으로늘림 관리서버간 fail over 지원 Master Node Master Node Master Node Distributed Master Data Node Data Node Data Node Data Node Data Node Data Node 28
트랜드 구현이어려운단점이있지만장점때문에비집중식모델이널리사용될것으로예상 GoogleFS Amazon S3 PrismFS는비집중식모델을채용 29
PrismFS 30
특징 사실상업계표준인 REST API를구현 Erasure Code 기반자료보호 분산메타관리시스템 자료의일관성을위해모든자료에체크섬생성및사용 통합된관리체계 31
PrismFS Architecture REST Web Proxy DataNode ManagementNode PrismFS2 가용구역 PrismFS2 가용구역 32
QnA 33
THANK YOU! 34