데이터센터재해복구자동화 도망가는 RTO 를잡아라 굿모닝아이텍 gitmkt@goodmit.co.kr
Agenda 1 개요 2 현재 DR의현실 3 MDRM 소개 4 Summary 2
개요 3
IT should be up and running < 서비스다운 > < 자연재해 > < 인재 > 4
기업의존속가능성 IT 재해와기업의연속성 재난복구대책이없는기업이재난발생시회생할수있는가능성은거의없음 43% 의기업은즉시도산 28% 의기업은복구불능상태 (2 년내조업중단 ) 100 80 60 40 20 0 무계획 문서화된복구절차 검증된복구절차 테스트된복구절차 유지보수된복구절차 5
국내재해복구관련주요정책 2001 년금감원 금융기관재해복구센터구축권고안 마련 (RTO 3 시간이내 ) 2012 년국제금융감독기구 (IOSCO) RTO 2 시간이내목표제시 2013 년금융위원회 금융전산보안강화종합대책 발표 RTO 2 시간이내권고 2015 년전자금융감독일부개정 6
IT 연속성을위한솔루션 백업 HA 재해복구센터 실시간복제및소산 복제 / 스냅샷 통합관제 7
현재 DR 의현실 8
장벽들 < 비용 > < 복잡 > < 의구심 > 9
DR 센터의도전과제들 모의훈련은제대로이루어지고있는가? HA 는정상페일오버가능한가? 목표 RPO/RTO 를만족하는가? 주센터와복구센터간, 변경관리는되고있는가? 사전예방감시는적절한가? 백업 / 복제된데이터는가용한가? 운영자는복구절차를제대로준수할수있는가? 10
대부분데이터의백업과소산에초점 11
일반적재해복구절차리뷰 Hours 네트워크라우팅 Hours 서버및 APP 기동 데이터리스토어및마운트 복구절차서리뷰 부분자동스크립트 Hours Hours 외부엔지니어섭외복구센터가동결정재해선언서비스복구가능성판단 Time out!! 장애및재난인지 수작업복구 12
인력소모적모의훈련 스토리지쓰기 가능합니다. DB 복구하세요. 서버준비되었고 DB 볼륨마운트 했어요. DB 실행했습니다. 쿼리제대로되는지 확인하세요. 애플리케이션 실행이진행중 입니다. 애플리케이션 접근이안되요. 뭐가문제죠? 내차례는?? RTO 초과했습니다. 오류빨리찾아주세요. 13
해결할솔루션은? RPO RTO 운영관리의자동화 SLA 모의훈련 복구과정가시화 예방감시 리스크예방및관리 복구절차준수 14
MDRM 소개 15
Make it simple Just one click 재해선언 주센터 재해복구센터. Just one click
MDRM 의주요기능 복구자동화 SLA 준수리스크예방운영현황가시화 데이터센터별, 업무별, 개발태스크별원클릭복구 다양한서버, 스토리지, 응용프로그램, 네트워크등에대한기동자동화 자원간의졲성매핑 복구, 원복, 모의훈련자동화 복구자원들의가용상태모니터링 이메일, SMS, SNS를통한알림 RTO, RPO 미준수사항레포팅 모의훈련, 재해복구결과서레포팅 웹기반 GUI 가시화된복구흐름도 업무간, 자원간, 애플리케이션간토폴리지 사용자정의멀티대시보드 RPO, RTO 측정 17
구성아키텍처 Network MDRM 서버 주센터 DR 센터 업무 1 업무 2 업무 1 업무 2 A A A A Web1 Web2 Web1 Web2 Web1 A Web2 Web1 A A Web2 MDRM 서버 - Linux OS - 웹기반관리 - Agent 자동배포 ERP1 DB1 ERP2 DB2 App1 DB1 App2 DB2 A ERP ERP DB A App App DB 복구대상에 Agent 탑재 - 상태모니터링 - APP 기동과모니터링 - 자원갂의존성관리 18
MDRM Use cases 재해복구모의훈련유지관리 자동화된서비스복구와원복 원클릭실행 목표 RTO 만족 원클릭훈련 SLA 미준수사항발견 훈련결과레포팅 자동화된센터갂서비스전홖 IPL (Initial Program loading) 자동배치실행 19
복구자동화를위한워크플로우생성 복구대상업무설정 복구컴포넌트정의 복구단계흐름도정의 단계별인증설정 20
워크플로우의콤포넌트들 서버 업무기동에포함될물리, 가상서버들 애플리케이션 서버내구동될애플리케이션, 네트워크, 데이터볼륨등의자원들 스크립트 데이터 전원제어 업무및애플리케이션기동에필요한사용자정의스크립트 스토리지및데이터복제등에대한제어 스토리지기반과호스트기반복제지원 서버전원 On / Off 네트워크 Switch, Router, SAN 등의네트워크에대한제어 승인 다음컴포넌트실행시관리자승인, 수동클릭, 자동실행설정 21
GUI 를통한복구워크플로우생성 재해복구시필요한절차와순서들을워크플로우로정의하고자동으로실행 사이트내업무갂의진행순서를정의 단일업무에대해서재해복구실행, 중지, 원복, 모의훈련등다양한워크플로우생성 22
복구단계의직관적가시화 복구진행의현재단계와성공 / 실패여부 서버내자원들과애플리케이션의복구과정 23
단계별인증및알람 진행단계별로자동및수동실행또는관리자인증후진행 각단계별로작업전 / 후그리고실패시 Email 이나 SMS 그리고 Popup 을통한알림 진행단계별인증 ( 자동 / 수동 / 관리자인증실행 ) 진행상황알림제공 (Email/SMS/Popup) 24
컴포넌트그룹 여러컴포넌트의복합으로구성된집합체 컴포넌트그룹은다른업무의복구워크플로우에서도불러올수있음 [ 컴포넌트그룹 ] 25
SLA 준수관리 데이터역행시점 업무재개시점 재해 / 장애시점 1H 30M 1M 10Secs 1Secs 30M 1H 2H 12H 1D Recovery Point Objective (RPO : 복구목표시점 ) Recovery Time Objective (RTO: 복구재개시간 ) 장애전어느시점까지데이터를복구하나? 목표 RPO 는만족하는지? 장애발생후정상화하는데걸리는시갂은? 목표 RTO 는만족하는지? 26
RTO 관리 워크플로우의각단계별 RTO 를정해최종목표 RTO 를산정 재해복구및모의훈련시실행된 RTO 의결과를바탕으로목표 RTO 를초과한단계에대한원인을발견해서보완하거나 목표 RTO 를수정 27
RPO 관리 운영센터와 DR 센터갂복제상태모니터링 복제중지된경우변경부분에대한시갂트랙킹 28
보고서 재해복구및모의훈련복구절차서와워크플로우실행결과서 엑셀파일형태로출력 29
대시보드 위젯형태로여러운영현황에대한 UI 화면사용자설정가능 재해복구시 일일점검 / IPL 시 모의훈련시 멀티대시보드 30
지원플랫폼 운영체제스토리지가상화 / 클라우드데이터베이스웹애플리케이션 Etc. Windows 7/8 SAN Vmware vsphere Oracle DB Weblogic Notes Windows 2008 iscsi MS Hypver-V Oracle RAC Websphere NFS Windows 2012 DAS RHEV MS-SQL Jeus CIFS Redhat NAS Xen Enterprise DB2 jboss EAP Sendmail Cent OS PCIe type NAND Oracle VM SAP Netweaver jboss EWS Samba Asianux VxVm Amazon AWS SAP Hana Tomcat Shareplex Oracle Linux Linux LVM MySQL Apache User application IBM PowerLinux EMC Maria DB IIS IBM AIX Hitachi PostgreSQL HP-UX IBM Tibero Oracle Solaris HP Cubrid 31
MDRM in a nut shell 워크플로우자동화 복구과정가시화 리스크관리 휴먼애러방지 복구시간단축 운영 / 관리비용절감 장애예방 / 사전감지 복구실패원천차단 32