Infra 운영지표활용방안에대하여 (SOL: Service Operation Level) 2012. 05
CONTENTS I. ITSM 과서비스수준관리 (SLM) 1. IT 서비스관리 (ITSM) 의태동 2. SLM 3. ITIL 4. ITSM II. SOL 이란? 1. Concept 2. 진단영역 3. 진단항목 4. 연혁및 Process 5. 효과 6. 보고서 ( 예 ) 1
I. ITSM 과서비스수준관리 (SLM) 1. IT 서비스관리 (ITSM) 의태동 고객 서비스제공자 잘하고있나? 잘하고있지! 아니야! 지난번에도서버죽고.. 서비스품질이안좋은것같아! 못믿겠어!! 좀제대로해봐!! 사람들도매일노는것같고 아무튼불만이야!! 대책을세우도록 무슨소리야? 이정도면잘하고있는거야!! 뭘얼마나더하란소리야? 맨날밤새가면서열심히하고있는데 장비가후져서그래 ~~ 에이.. XX! 전부 9 시전에퇴근할생각하지말고업무시간에도딴짓하다걸리면죽어 ~ SL 적용이후 평일 08:00~20:00 에가용성 95% 합의된서비스목표수준이 97% 임 2% 미달이발생하고있음 17:00~20:00 접속자과다로 CPU 사용율이 99% 임. 장비증설요망 2
I. ITSM 과서비스수준관리 (SLM) 2. SLM SLM (Service Level Management) 모든 IT 조직이비즈니스를지원하기위해제공하는시스템운영서비스의수준을, 1 정량적으로측정하고 2 실적을평가하여 3 미흡한부분을개선함으로써궁극적으로서비스의품질을보장하는활동 구체적운영수준제시 어떠한서비스를측정하고보고할것인가에대해구체적인목표를정의하므로, 상호간에명확한기대치를공유하여잠재적인오해나불만요소를제거 책임있는의사소통 고객과서비스제공자간의역할과책임을명시하므로, 책임있는서비스수행과의사소통이가능 서비스품질의지속적개선 서비스를지속적으로측정하고평가함으로써반복되거나잠재적인장애요인을발굴하여사전조치 3
I. ITSM 과서비스수준관리 (SLM) 3. ITIL 서비스는기술의지원을받는조직에의해수행되는 Process 의결과이며, 효율적인서비스관리란, 어떤관리도구를사용하는데있는것이아니라내부 Process 에달려있음 엉성한 Process 를갖고있는조직은일도엉성하게할수밖에없다 CIOs are looking at Best Practices for cost savings 체계적이지못한 Process 는반드시정립해야한다 Process 정립과혁신을위해전세계적으로검증된모델이필요하다 ITIL 4
I. ITSM 과서비스수준관리 (SLM) 4. ITSM 현대의정보시스템운영관리는기술중심, 운영중심의단순관리에서발전하여, 기업의비즈니스수행에필요한모든 IT 요소, 즉 Network, pplications, DBs, Operating Systems 등을사용자 ( 고객 ) 관점에서 정의한 IT 서비스관리 로변화하였음 Paradigm shift in IT Management 인프라기술중심, IT 운영 >> IT 가서비스로변화된개념, ITSM >> IT 가비즈니스의전략과목표를유지 확대시키는 IT Governance ITSM ITSM(IT Service Management) 는, 단순 IT 내부 Infrastructure 운영중심의관리기능에서비즈니스중심으로재설계한 개념 ITIL(IT Infrastructure Library) 은, 영국정부가개발한 ITSM 을실체화한 Best Practices 로서 Process 정의와참조모델로구성된도서들 >> 수많은컨설팅및솔루션업체들이 ITIL 의프로세스를준용한 ITSM 제품을생산 ex) BMC Remedy, HP Service Manager, C Service Desk Manager, IBM SM 등 ISO/IEC20000 은, 전세계적으로이미 ITSM 의 de-facto 표준으로공인된 ITIL 을수용하여제정된국제표준인증규격 >> ISO/IEC20000 규격요건을충족하는지의여부를검사함으로써, 기업이고객의기대에부응하기위해국제적수준에적합하게효과적 효율적으로 IT 서비스를관리하고있는지를평가 5
ITIL 관점에서 SLM 을도입했는데 SL 싸인했으니까, 우리회사도이제서비스수준관리하는거지 ~ 서비스수준이높은데, 왜자꾸장애가나는거야? 100% 장애 서비스수준 장애 0% 6
2. SOL 이란? 1. Concept Infra 운영수준의객관적지표생성및관리를통해운영수준향상을위해만든운영 Process 로현재 SK 그룹 20 고객사, 3 천여대의시스템에적용되어운영중임 과거 (~ 2009 년 ) 현재 (2010 ~ ) Infra 시스템운영에대해, Infra 시스템의운영수준에대한객관적지표가없음 - SL 의경우 "OO 시간無장애 ", "OOO 대의서버를 24x365 무중단서비스제공 " 등의간접적인잣대와 ISO 등의각종인증을통해간접적으로운영수준표현 현재운영수준을정확히알지못하고, 어떤부분이부족한지, 개선해야할지에대한목표도객관화하기어려움 객관적이고정확하며신속하게 개별장비단위로운영수준측정 개선필요항목통보 운영표준준수여부에대한감사 (udit, Compliance) 가전체대상이아닌샘플링 조사 / 담당자인터뷰 / 설문지등을통해수행되는수준 시스템반영 운영수준향상 7
2 SOL 이란? 2. 진단영역 Infra 운영수준의객관적측정을위한 5 개진단영역으로구성되어있음 1 운영관리 Infra 운영에필수적인항목을감사하여표준준수 운영생산성향상 ( 자동화적용용이 ) 2 장애관리 장애예방조치항목에대한감사 장애발생최소화 SOL ( 운영수준진단지표 ) 3 보안관리 시스템보안정책준수감사 외부침입최소화 4 일일점검 정형화된점검결과의감사 서비스가용성향상 5 자산관리 자산관리시스템과실물자산비교 운영자산정합성향상, 유휴장비재활용가능 8
2. SOL 이란? 3. 진단항목 운영, 장애관리, 보안관리, 일일점검, 자산관리 5 개영역, 17 개정책, 117 개감사항목으로구성 영역 정책기준항목 1 백업정책 운영관리 로그관리정책 Naming 정책 일반운영정책 B B Infra 운영에필수적인항목을감사하여표준준수 운영생산성향상 ( 자동화적용용이 ) 계정정책 B 2 장애관리 주요 Configuration 정책 계정정책 장애시간반영 B 장애예방조치항목에대한감사 장애발생최소화 3 계정정책 보안관리 파일시스템정책 Network 설정정책 시스템보안정책준수감사 외부침입최소화 기타보안설정정책 4 일일점검 OS 영역 DB 영역 MW 영역 B B 정형화된점검결과의감사 서비스가용성향상 5 자산관리 HW 정보정합성 SW 정보정합성 B B 자산관리시스템과실물자산비교 운영자산정합성향상, 유휴장비재활용가능 : 필수권고 ( 전체시스템에반드시작성 ) B: 선택 ( 고객운영환경에따라선택적적용 ) 9
2. SOL 이란? 4. 연혁및 Process SOL 관리기능강화및운영자동화기능의활용을위해 2010 년시스템化, 12 년 Upgrade 완료 연혁 Process 보안감사자동화 (2009. 3) - 각 OS 別보안규정을프로그램화, 전수감사시행 - 통계데이터제공 ( 수작업 2011년 6월자동화 ) 운영감사자동화 (2009. 9) - 운영규정 4종프로그램화, 전수감사시행 SOL Process 정립 (2010. 5) - 운영지표관리 ( 운영, 보안영역결과조회 ) - 일일점검영역추가 - 통계결과보고서제공 /Feed back SOL Process 업그레이드 (2011. 6) - 운영지표관리 ( 운영, 장애, 보안, 일일점검, 자산영역 ) SOL 담당자 시스템 담당자 * SOL 담당자역할 SOL 지표감사 결과공지담당자 Feedback 결과반영 - SOL 지표감사수행 / 추가적인지표개발 - 결과공지및담당자 Feedback 반영 * 시스템담당자역할 [ 감사영역 ] 보안 장애 Unix 운영 일일점검 자산 [ 시스템조치 ] NT Network Linux - SOL 결과에따른시스템보정작업및 Feedback 수행 - SOL 개선 Idea 및추가적인자동화의견개진 10
2. SOL 이란? 5. 효과 2010 년 5 월 SK C&C 시범적용 대상 : 5 백여대, SOL: 64.2 점 감사항목 : 2 개영역 3 개정책 5 개항목 11
2. SOL 이란? 5. 효과 2010 년 9 월전체 O/S 대상으로범위확대 대상 : 3 천여대, SOL: 66.9 점 감사항목 : 5 개영역 8 개정책 20 개항목 취약항목집중관리 - 장애관리 : 필수패치적용여부감사 (8.9 점 50.9 점, 472% 향상 ) 12
2. SOL 이란? 5. 효과 2012 년 4 월운영수준 82.5 미국방성기준보안관리최고수준유지 우수운영자포상에따른동기부여 ( 객관적기준제공 ) HR, 자산정보와연동하여다양한통계자료제공 13
2. SOL 이란? 5. 효과 2010 년부터 OS 고객사의전체서버대상으로매월측정 통보 Feedback 과정을통해운영수준대폭향상 운영수준진단 효과 2010 년 5 월 SK C&C 시범적용 대상 : 5 백여대, SOL: 64.2 점 감사항목 : 2 개영역 3 개정책 5 개항목 2010 년 9 월전체 O/S 대상으로범위확대 대상 : 3 천여대, SOL: 66.9 점 감사항목 : 5 개영역 8 개정책 20 개항목 취약항목집중관리 - 장애관리 : 필수패치적용여부감사 (8.9 점 50.9 점, 472% 향상 ) 2012 년 4 월운영수준 82.5 미국방성기준보안관리최고수준유지 우수운영자포상에따른동기부여 ( 객관적기준제공 ) HR, 자산정보와연동하여다양한통계자료제공 14
2. SOL 이란? 6. 보고서 ( 예 ) 2 월중점과제中 SW License Expire Config 관리 영역의큰폭향상 1 2 월정기 SOL 결과 구분 운영관리 ( 비중 : 30) 보안관리 ( 비중 : 20) 일일점검 ( 비중 : 20) 장애관리 ( 비중 : 20) 자산관리 ( 비중 : 10) 운영자동화 (+α) 합계대상비고 10월 57.9 85.0 81.9 82.2 87.0 0.2 76.1 전체 3,037대 본부KPI 대상 : 76.7점 11월 58.9 85.6 84.4 72.9 92.8 0.1 75.6 전체 :3,181대 필수패치감사항목제외 12월 62.7 86.2 87.3 73.3 93.0 0.1 77.5 전체 :3,154대 일일점검 Process 개선 1월 63.6 86.1 88.8 66.4 93.7 0.2 76.9 전체 :3,164대 SKT 변경작업금지영향 2월 63.9 86.0 88.1 78.0 93.8 0.2 79.1 전체 :3,150대 중점관리항목향상 100 2 월집중관리대상 2 월 SOL 우수관리영역 95 서버관리자합계운영대수팀 90 85 80 75 70 11 년목표 82 점 1 월 2 월 도 * 문 93.0 56 * 담당 박 * 균 92.7 29 * 담당 신 * 민 90.8 27 * 담당 이 * 진 90.4 6 * 담당 조 * 식 89.2 99 * 담당 65 60 55 50 운영관리보안관리일일점검장애관리자산관리합계 SW License Expire Config File 관리감사 - 운영중인 SW 의사용기간종료로인한장애발생을방지하기위해, SW 종료기간을파악 / 관리하는 Process의수행여부감사 (10년 4월시행 ) 15