STO2114BU 2노드에서 64노드까지간소하게확장할수있도록 vsan을 VCDX와같은방식으로설계및운영 이정호, 프리세일즈엔지니어링 #vforumkr #STO2114BU
2
아키텍처설계작업방식
아키텍처설계접근방식 모니터링및운영 테스트및검증 시작 설계아키텍처 ( 물리적 ) 검토, 수정, 개선 입력내용검색 ( 개념적 ) 솔루션개발 ( 논리적 ) 4
개념적설계요구사항및제약조건파악 모니터링및운영 테스트및검증 시작 설계아키텍처 ( 물리적 ) 검토, 수정, 개선 입력내용검색 ( 개념적 ) 솔루션개발 ( 논리적 )
개념적설계 요구사항예 소규모클러스터부터시작하여시간이지남에따라확장 처음에는 N+1 복원력으로시작하여환경이커짐에따라 N+2 로혼합 테스트 / 개발워크로드부터시작하여시간이지남에따라운영워크로드로확장하고가능하면동일한클러스터내에서호스팅 VDI 워크로드가일부있을수있음 소수의물리적서버에공유스토리지제공 간소한설계 -> 낮은관리부담 6
개념적설계 제약조건예 가능한경우기존네트워크인프라 (Cisco Nexus 스위칭 ) 재사용 일부워크로드의경우 Super Micro, 대규모로확장할경우 Dell EMC 사용 ( 일부하드웨어벤더와협상진행중 ) 매우근접한기존의 2 개데이터센터 (100km 미만 ) 7
설계가치에대한우선순위파악 각설계를결정할때균형이필요합니다. 우선순위가설계결정을내리는데도움이됩니다. 높음 낮음 가용성관리용이성성능복구가능성보안 중복구성요소 간소화된관리 예측가능한선형확장 기존백업인프라재사용 논리적네트워크분리 독립인프라 OOTB 기능우선순위지정 파일럿검증전략 별도의독립보조사이트 간단한보안구조 고가용성 간소화된네트워크 전략적지역 BC 기능 다중사이트 모듈식 적정규모산정 반복성 OOB 모니터링솔루션 하드웨어및소프트웨어재사용 8
논리적설계 모니터링및운영 테스트및검증 시작 설계아키텍처 ( 물리적 ) 검토, 수정, 개선 입력내용검색 ( 개념적 ) 솔루션개발 ( 논리적 )
2 노드로시작한다음확장 예산이적은소규모워크로드로시작하기에적합 10GbE 스위칭을사용할수없는경우 2 노드직접연결사용가능 현장에서또는 vsphere 기반클라우드공급업체가감시가능 표준클러스터또는최대 64 노드의확장클러스터로유연하게변환 지연시간및대역폭요구사항 감시 요구사항 : 소규모클러스터부터시작하여시간이지남에따라확장 500ms RTT 지연시간 1.5Mbps 대역폭 vsphere vsan 10
가용성고려사항 정책으로보호및성능수준정의 가상머신수준또는 VMDK 수준단위로적용 정책이선택되면 vsan 에서이를사용해가상머신을배치 / 배포하여가용성및성능보장 가상머신중단없이정책변경가능 요구사항 : a) 처음에는 N+1 으로시작하여 N+2 로혼합 b) 서로다른복원력을가진워크로드혼합 11
가용성고려사항 RAID-5 FTT 가 vsphere HA 에버금가거나보다많아야함 2 노드구성 패리티데이터 데이터패리티 데이터데이터 데이터데이터 최대 FTT=1 최대 50% 로드 오버헤드및슬랙 데이터데이터 데이터데이터 패리티데이터 데이터패리티 FTT=1 미러링 : 최소 3 노드, 그이상권장 이레이저코딩 : 최소 4 노드, 그이상권장 FTT=2 미러링 : 최소 5 노드, 그이상권장 이레이저코딩 : 최소 6 노드, 그이상권장 12
규모산정고려사항 컴퓨팅및메모리규모를산정한다음 HA 요구사항추가. vsan 에도동일한규칙이적용됨 이레이저코딩기능을통해원시용량활용도감소 FTT=1: 1.33 배 ( 미러링에비해 30% 감소 ) FTT=2: 1.5 배 ( 미러링에비해 50% 감소 ) 전환이완료될때까지 2 배정책용량이필요하므로스토리지정책을변경할때충분한공간확보 최대원시용량활용도 80% 미만 (70% 미만권장 ) 에맞게규모산정 FTT 보다먼저산정하고유지! 13
용량관리및규모산정 ( 예 ): FTT=1 1 2 3 4 5 + ( 총 20TB) ( 총 20TB) ( 총 20TB) ( 총 20TB) ( 총 20TB) 1 2!= 3 4 5 X ( 총 20TB) ( 총 20TB) ( 총 20TB) ( 총 20TB) ( 총 20TB) 활용도 = 100TB 중 70TB = 70% 활용도 = 80TB 중 70TB = 88% 14
용량관리및규모산정 ( 예 ): FTT=2 1 2 3 4 5 + ( 총 20TB) ( 총 20TB) ( 총 20TB) ( 총 20TB) ( 총 20TB) 1 2!= 3 4 5 X X ( 총 20TB) ( 총 20TB) ( 총 20TB) ( 총 20TB) ( 총 20TB) 활용도 = 100TB 중 70TB = 70% 활용도 = 60TB 중 70TB = 117% 15
규모산정고려사항 중복제거및압축 클러스터단위설정 실행중인클러스터에대해가능 : 전체플래시구성 고급라이센싱 중복제거도메인이내에있음 대규모 = 더많은중복제거 소규모 = 더적은중복제거 실제절감규모는데이터세트에따라다름 16
규모산정고려사항 캐시규모산정 AF 워크로드프로필기반 하이브리드 사용가능한용량비율 1:10 https://blogs.vmware.com/virtualblocks/2017/01/18/designing-vsan-disk-groups-cacheratio-revisited/ 17
컴퓨팅및메모리오버헤드 CPU CPU 성능이 IO 에영향을미침. CPU 속도가빠를수록 IO 처리속도도빨라짐 vsan 에대한 CPU 오버헤드허용 총용량의 10%( 필요하지않은경우사용되지않음 ) 메모리 vsan 에대한메모리오버헤드허용 BaseConsumption + (NumDiskGroups * (DiskGroupBaseConsumption + (SSDMemOverheadPerGB * SSDSize))) + (NumCapacityDisks * CapacityDiskBaseConsumption) https://kb.vmware.com/selfservice/microsites/search.d o?language=en_us&cmd=displaykc&externalid=211395 4 상수 MB BaseConsumption 5426 DiskGroupBaseConsumption 636 SSDMemOverheadPerGB ( 하이브리드 ) 8 SSDMemOverheadPerGB ( 전체플래시 ) 14 CapacityDiskBaseConsumptio n 70 18
네트워크고려사항 듀얼 10GbE 가가장일반적이고간단함 사용사례의 90% 에충분함 간소화를위한액티브 / 패시브운영. 다른지원옵션 ( 예 : LACP) 가능 일정한처리량 정상적인작동상태에서동일한스위치로트래픽한정 이중화 요구사항 : 간소화 낮은관리부담 19
네트워크고려사항 네트워크성능및상태가스토리지에영향을미침 다중네트워크통합및티밍지원 10GbE 가전체플래시에필요하고하이브리드 vsan 에권장됨 네트워크 IO 제어가경합상황해결지원 NIOC 점유율예시 트래픽 점유율 10GB 중정상업링크대역폭비율 (%) 10GB 중단일 NIC( 네트워크인터페이스카드 ) 장애대역폭비율 (%) vsan 100 100% 50% 관리 20 20% 10% vmotion 50 50% 25% 가상머신 30 30% 15% 일관성을위한 VDS 20
성능고려사항 워크로드파악및예상 SPBM 이가상머신 /VMDK 수준에따른성능정책특성제공 FTT 를늘리면쓰기 IO 오버헤드는추가되지만읽기 IO 로드는분산됨 스토리지정책성능오버헤드고려 미러링과이레이저코딩비교 중복제거및압축 최적의구성은참조아키텍처문서참조 https://storagehub.vmware.com/#!/vmwarevsan/reference-architecture IOPS 제한으로이웃의영향이감소함 VMDK/ 가상머신별정책기반 21
복구가능성고려사항 구성요소복구및재구축 600GB RAID-1 FTT=1 복구는 SPBM 정책에정의된보호를위한규정준수수준을되찾으려는객체를대상으로함 구성요소가없음이보고된시간부터 60 분후에복구프로세스시작 RAID-0 C1 C2 C3 RAID-0 C1 C2 C3 W RAID-0 C1 RAID-0 C2 C3 RAID-0 시간이오래걸리는호스트재부팅을위해 60 분 CLOM 복구지연이증가할수있음 비확장클러스터와확장클러스터에서작동 22
수평확장과수직확장비교 수평확장 더광범위한클러스터가훨씬적은장애가능성과향상된성능제공 장애재구축후정책재준수속도가빨라짐 수직확장 비용절감 중복제거향상 ( 공간효율성기능을사용하는경우 ) 권장사항 : 수직확장전에적절한크기로노드수와수수평확장 여유공간이많을수록다시구축하는동안성능관련비용이발생할가능성이낮아짐 23
복구가능성고려사항 소규모예 시나리오 : 각호스트에 16TB 의원시데이터가있음 호스트장애가발생한경우또는전체데이터이동이지원되는 유지보수모드의경우, 최대 16TB 의원시데이터 ( 편의상 100% 가득참 ) 를나머지호스트에서이동 / 재구축해야합니다. 5 노드클러스터에서 각노드는실행중인기존워크로드 IO 에평균 4TB 의데이터를작성합니다. 1 2 3 4 5 8TB ( 총 16TB) 8TB 8TB 8TB 8TB ( 총 16TB) 8TB 8TB ( 총 16TB) 8TB 8TB ( 총 16TB) 8TB ( 총 16TB) + 4TB + 4TB + 4TB + 4TB 24
복구가능성고려사항 대규모예 시나리오 : 각호스트에 32TB 의원시데이터가있음 호스트장애가발생한경우또는전체데이터이동이지원되는 유지보수모드의경우, 최대 32TB 의원시데이터 ( 편의상 100% 가득참 ) 를나머지호스트에서이동 / 재구축해야합니다. 5 노드클러스터에서 각노드는실행중인기존워크로드 IO 에평균 8TB 의데이터를작성합니다. 1 2 3 4 5 16TB ( 총 32TB) 16TB 16TB 16TB 16TB 16TB 16TB 16TB 16TB 16TB ( 총 32TB) ( 총 32TB) ( 총 32TB) ( 총 32TB) + 8TB + 8TB + 8TB + 8TB 25
물리적설계 모니터링및운영 테스트및검증 시작 설계아키텍처 ( 물리적 ) 검토, 수정, 개선 입력내용검색 ( 개념적 ) 솔루션개발 ( 논리적 )
하드웨어 일관된하드웨어구성및크기가권장되지만필수는아님. 유연성! 하드웨어호환성목록은반드시준수해야함! 패스스루와 RAID 모드컨트롤러의차이점파악 vsan 이하드웨어유연성제공. 하드웨어기능과유연성에대해이해 제약조건 : 처음에는벤더 X 로시작하여나중에벤더 Y 사용 27
하드웨어 ( 계속 ) 스토리지컨트롤러 별전용컨트롤러 -> 이중화및성능향상 대기열크기가중요! 폼팩터 ( 예 : 1U 또는 2U, 혹은조합가능 ) 수평확장 ( 더많은 ) 수직확장 ( 더큰 ) 디스크유형 NVMe/ 플래시 / 자기 기타 OOB IPMI 관리 OOB 하드웨어 LED 마커 스크래치 / 로그 / 덤프 /vsan 추적 28
검증및테스트 모니터링및운영 테스트및검증 시작 설계아키텍처 ( 물리적 ) 검토, 수정, 개선 입력내용검색 ( 개념적 ) 솔루션개발 ( 논리적 )
벤치마킹 실제사용하기전에성능기준설정 HCI 벤치마크 - https://labs.vmware.com/flings/hcibench 요구사항에따라테스트사례및성공기준정립 30
vsan Cloud Analytics 클라우드기반상태점검을통해알려진문제를간편하게온라인으로검색하고관련지원공지와연결 (KB) 새로운분석프레임워크를통해다음이가능합니다. 식별된관련문제를즉시상태점검알림으로표시 클라우드모델을통한지속적인업데이트로후속 vsan 릴리스를기다릴필요없음 합리적인환경별분석을통해문제해결간소화 성능진단을통해기대되는성능을확인하고이상이발생하는경우보고
vsan 성능진단 벤치마킹및 PoC 에대한진단제공 미리정의된 3 개중점영역중하나를벤치마킹대상으로지정 : 최대 IOPS 최대처리량 최소지연시간 HCIBench 에통합 분석을위해자동으로출력을클라우드로전송 사용자인터페이스에분석결과제공 문제감지및특정기술자료문서를연결하여문제해결단계제안 32
모니터링및운영 모니터링및운영 테스트및검증 시작 설계아키텍처 ( 물리적 ) 검토, 수정, 개선 입력내용검색 ( 개념적 ) 솔루션개발 ( 논리적 )
vsan 상태서비스 기본적으로 vsphere Web Client 의일부로완전히통합된운영관리는실용적인사용을지원하기위해 PowerCLI 및 API 를통한자동화를제공합니다. 개요 하드웨어호환성목록에서하드웨어확인 네트워킹 / 멀티캐스트를포함한구성의기본검증 물리디스크, vsan 객체및유사한 run-time 상태 상태점검이벤트 / 경보 정기적인상태점검 확장클러스터지원 SNMP(Simple Network Management Protocol) 지원, 사용자지정스크립트, VC 경보를통한 e- 메일 성능모니터링 웹클라이언트통합 클러스터전반의가상머신가용성요약 상세공간보고 ( 중복제거설명등 ) 사전예방적테스트 : 성능벤치마크, 스트레스워크로드 사용자인터페이스에서사전예방적리밸런싱 ( 상태및작업 )
vsan 성능서비스 기본성능모니터링 상태및성능 API 및 SDK 35 35
vrealize Operations 를통한 vsan 모니터링 36
vrealize Log Insight 를통한향상된문제해결 37
vsan API 및 PowerCLI 를이용한대규모관리 vsan SDK 업데이트 SDK CLI Power CLI 호스트수준 vsan API 에서클러스터수준정보모니터링 / 쿼리수행가능 API 에서 S.M.A.R.T 드라이브데이터사용가능 신규관리객체를통해클러스터또는호스트수준관리작업수행 vsphere vsan PowerCLI 개선사항 vsan 보기 cmdlet vsan 업그레이드 cmdlet vsan 성능 cmdlet vsan 데이터스토어 vsan iscsi cmdlet
vsan 의추가문제해결툴 다음툴을사용하여 vsan 문제해결및모니터링을추가로수행할수있습니다. RVC(Ruby vsphere Console) VDQ ESXCLI ESXTOP
요약 조기에요구사항및제약조건을파악합니다. 솔루션을논리적으로설계하여각결정에서균형이필요한부분과리스크를조기에파악합니다. 논리적설계를물리적설계로변환합니다. 프로세스전반에서가용성, 관리용이성, 성능, 복구가능성및보안 (AMPRS) 과관련하여설계상다양한균형이필요하다는점을고려합니다. 모니터링및운영측면을간과하지않습니다. 각구현은고유하므로철저하게검증하고테스트합니다. 실제로사용하기전에벤치마킹하여클러스터의기준을정립하고클러스터의한계를파악합니다. 40
감사합니다.