CAE S/W 별통합해석시스템성능분석결과보고서 HP DL38G6 vs DELL R71 성능비교분석 클루닉스 본자료는최신 Intel Processor Architecture인 Nehalem CPU 기반에서 CAE 해석 S/W에대한성능분석보고서입니다. 클루닉스의통합해석시스템구성제품인 GridCenter-CAP을이용하여테스트되었으며, 클루닉스의허가없이복사나배포를금지합니다. BMT 환경 : GridCenter-CAP, GridCenter-HPC BMT S/W : LS-DYNA, Pam-stamp, Abaqus BMT 진행 : 클루닉스 BMT 일자 : 29년 8월 17일 ~29년 8월 26일시스템구축및최적화 : 클루닉스 / 서진우수석 (alang@clunix.com) CAE 어플리케이션구축및최적화 : 클루닉스 / 서진우수석 (alang@clunix.com) 1/1 페이지
목차 1. BMT 요약 2. BMT 환경정보 3. BMT 시나리오소개 4. BMT 항목별결과및세부분석 5. BMT 결론 첨부 > POSCO 해석예제를이용한성능비교분석결과 2/1 페이지
1. BMT 요약 본 BMT는최신 Intel Processor Architecture인 Nehalem CPU계열 Intel Xeon X555 프로세서가장착된 HP사의 DL38G6 서버와 DELL사의 PowerEdge R71서버의 CAE 해석 S/W의병렬계산성능을비교분석한자료입니다. 본 BMT를통해동일사양 (CPU, MEMORY, Disk, Network) 으로구성된서버라도 Vendor간제품별로 1%~35% 정도의가나는것을확인할수있었습니다. 최적화이전단계의 ABAQUS 병렬계산성능비교결과 HP-DL38 G6 65754 35542 19316 DELL-PE R71 86136 47328 27253 최적화이전단계의 LSDYNA 병렬계산성능비교결과 HP-DL38 G6 118582 62412 33118 DELL-PE R71 176687 91729 49837 HP DL38 G6 최종병렬계산성능결과 ABAQUS 65754 35542 19316 LSDYNA 15538 5581 29686 PAMSTAMP 5837 33164 2989 DELL PowerEdge R71 최종병렬계산성능결과 ABAQUS 77357 4254 2349 LSDYNA 118582 62412 33118 PAMSTAMP 69924 39352 24591 3/1 페이지
2. BMT 환경정보 BMT 시스템구성도 (Nehalem, HarperTown 공통구성 ) 본 BMT에사용된서버수는총 8대 (64core) 로구성되었고, HP DL38G6 서버 4대와 DELL PowerEdge R71 서버 4대로 2개의통합해석시스템 (HPC) 환경을구성하였습니다. 네트워크환경은 1Gigabit 대역폭의두개의네트워크채널을분리하여, 파일서비스용과계산서비스용으로구성하였습니다. 사용된서버의자세한사양은아래와같습니다. H/W 구성정보 (HP DL38 G6) 세부사양 자원수 Cpu Intel(R) Xeon(TM) CPU X555 @ 2.67GHz 2cpu(8core) Memory DIMM Synchronous 1333 MHz 2GByte 8개 (16Gbyte) Hard disk HP SAS 72GByte 1개 (72Gbyte) Network NetXtreme II BCM579 Gigabit Ethernet 2port nodes HP ProLiant DL38 G6 4node H/W 구성정보 (DELL PowerEdge R71) 세부사양 자원수 Cpu Intel(R) Xeon(TM) CPU X555 @ 2.67GHz 2cpu(8 core) Memory DIMM Synchronous 1333 MHz 4GByte 12개 (48 Gbyte) Hard disk 146GB 15K RPM SAS 2.5" 7개 Network Two Broadcom 579C dual-port Gigabit Ethernet 4 port nodes DELL PowerEdge R71 4 node 4/1 페이지
S/W 구성정보 S/W 명 S/W 버전 운영체제 Redhat Eenterprise Server(x86_64) Release 4 (update 8) HPC 구축 S/W GridCenter 1.9 HPC 최적화 S/W GridCenter-CAP 1.9 해석 S/W(1) LSDYNA Mpp971.1224 해석 S/W(2) PAM-STAMP Version 28 해석 S/W(3) ABAQUS Version 6.8.2 본 BMT에사용된 HPC 구성, 해석작업실행, 성능최적화솔루션은 클루닉스에서개발한 GridCenter 제품군을이용하였고, BMT에사용된예제는각해석 S/W별 Vendor에서제공한 BMT 예제입니다. 3. BMT 시나리오 본 BMT 진행주요절차는아래와같다. 본 BMT는초기구성된 HPC 환경에서각 S/W 벤더로부터제공받은예제로기본성능테스트를시행하여, 예제에대한무결성검증및최적해석실행조건을파악하였습니다. 그후각해석 S/W 수행환경및시스템환경을최적화하고, 아래시나리오에의해테스트를진행하였습니다. 병렬계산성능측정 - 해석시할당 CPU(Core) 수를단계별로증가시키며, 해석실행시간을측정한다. - 해석시할당 CPU(Core) 수는 8개, 16개, 32개순으로증가시킨다. - 해석실행시간은초 (second) 단위로측정한다. 5/1 페이지
4. BMT 항목별성능결과및세부분석 기본성능테스트단계에서의성능비교분석결과 HP vs DELL 의 ABAQUS 기본성능비교 1 35% 9 8 3% elapsed time(second) 7 6 5 4 3 25% 2% 15% 1% (%) HP-DL38 G6 DELL-PE R71 1 5% number of processor % HP vs DELL 의 LSDYNA 기본성능비교 34% 18 16 34% elapsed time(second) 14 1 1 8 6 33% 33% 32% (%) HP-DL38 G6 DELL-PE R71 4 number of processor 32% 31% 각 H/W 벤더사의서버와네트워크장비를통해표준 BMT 환경을구성한후 H/W와 S/W적으로아무런최적화를하지않은단계에서의 ABAQUS 와 LSDYNA의성능을비교분석한결과, 동일한사양으로구성된두시스템환경에서 25%~35% 정도의가나는것을확인하였습니다. 이런증세의가장큰원인으로는두벤더의 BMT 서버에장착된 Nehalem CPU의전력관리기능인 EIST 기능과 3channel memory architecture 상의최적화문제로확인이되었습니다. HP 서버의경우서버의전력관리기능의기본 BIOS 설정이성능에집중되어있고, DELL 서버의경우서버의전력관리기능의기본 BIOS 설정이성능보다는전력효율에집중되어있는것을확인하였습니다. 6/1 페이지
이런설정은각서버의 CPU 성능인 CPU Clock에영향을주게되는데, 2.67GHz인동일사양의프로세서를가진환경에서전력효율에기본설정이맞추어진 DELL 서버의경우 CAE 해석시프로세서성능이 1.59GHz clock으로동작함으로 HP서버에비해저조한성능결과가나오는것으로확인되었습니다. 초기기본테스트단계에서이런 H/W 적인 BIOS 설정을각벤더의 BIOS에서지원하는범위에서성능위주로최적화하고, 동일한 S/W 최적화고정을수행한후각 S/W 별최종적인성능을측정하였습니다. ABAQUS 최종성능결과및세부분석 HP vs DELL 의 ABAQUS 성능비교 9 17% 8 7 16% elapsed time(second) 6 5 4 3 16% 15% (%) HP-D38G DELL-R71 15% 1 number of processor 14% ABAQUS의경우동일사양의 HP DL38 G6 서버와 DELL PowerEdge R71 서버의병렬해석성능이각 core 할당별로 15%~17% 정도로차이나는것으로확인되었습니다. 7/1 페이지
LSDYNA 최종성능결과및세부분석 HP vs DELL 의 LSDYNA 성능비교 14 11% 1 11% elapsed time(second) 1 8 6 4 11% 11% 1% (%) HP-D38G DELL-R71 1% number of processor 1% LSDYNA의경우동일사양의 HP DL38 G6 서버와 DELL PowerEdge R71 서버의병렬해석성능이각 core 할당별로 15%~17% 정도로차이나는것으로확인되었습니다. PAMSTAMP 최종성능결과및세부분석 HP vs DELL 의 PAMSTAMP elapsed time(second) 8 7 6 5 4 3 1 18% 17% 17% 16% 16% 15% 15% 14% 14% (%) HP-D38G DELL-R71 nubmer of processor 13% PAMSTAMP의경우동일사양의 HP DL38 G6 서버와 DELL PowerEdge R71 서버의병렬해석성능이각 core 할당별로 15%~17% 정도로차이나는것으로확인되었습니다. 8/1 페이지
5. BMT 결론 CAE 해석 S/W 중대표적인 Solver들을이용하여, 서로다른서버벤더사인 HP와 DELL의 Nehalem CPU 계열인 Intel Xeon X555 기반서버로해석성능을비교한결과, HP사의 DL38G6 서버가 DELL의 PowerEdge R71 서버보다 15~3% 정도전반적인성능이우수한것으로확인되었습니다. Nehalem CPU의경우기존 Intel Xeon CPU와비교하여, 프로세서간의통신구조와프로세서와메모리간의통신구조를효율적으로대폭개선시키는 3 channel memory architecture 기술이적용되었고, 프로세서의 Clock을유동적으로조정하여, 서버의전력소비를효율적으로운영해주는 EIST 기능이존재합니다. 또한유휴상태로있는 CPU의전력을사용중인 CPU에집중하여해당 CPU의처리성능을높여주는 Turbo Boost기능이존재합니다. 이러한기능을각벤더사의 H/W( 메인보드 ) 설계상에서어떻게구현하고, 이를기본 BIOS에어떻게적용하느냐에따라성능에많은영향을미치게되는데, 이는 H/W 벤더사별로다소차이가있는걸로확인하였고, 그차이로인해극단적인성능이최우선시되는 HPC 환경에서동일사양의 H/W 벤더제품에서 15%~3% 정도의가나는걸로확인되었습니다. 이밖에 Infiniband로고속네트워크환경을구성하여성능테스트를진행하였는데, 특정벤더의 Infiniband의경우 driver version이최신운영체제와호환하지않는문제가발생하였습니다. 하지만 Nehalem Processor를재대로인식하고, 그모든기능을사용하기위해서는최신운영체제가필요하게되는데, Infiniband를정상적으로사용하기위해운영체제버전을낮출수밖에없는문제가발생하였습니다. 또한 CAE S/W의 Version이대부분 2~3년전에출시된버전으로해당 S/W의병렬계산기능을제공하는 HPMPI가특정벤더사의 Infiniband driver를공식지원하지않는문제도발생하였습니다. 이러한정황을보아동일사양이라하여무분별한하드웨어조합으로 CAE 해석환경에적용할경우다양한문제가유발될수있을것입니다. 첨부 8core(1node) 환경에서의 P 사에서제공한해석예제의성능비교분석결과 ABAQUS LSDYNA PAMSTAMP HP-DL38 G6 375 19276 496 DELL-PE R71 444 21722 5931 9/1 페이지
CAE S/W 별 HP vs DELL 성능비교결과 25 2% 18% 16% 14% elapsed time 15 1 12% 1% 8% HP-DL38 G6 DELL-PE R71 6% 5 ABAQUS LSDYNA PAMSTAMP CAE S/W 종류 4% 2% % 위자료는다른업체에서제공한해석예제를가지고, CAE S/W별로 8core 계산환경에서해석성능을비교한결과입니다. 결과는두제품간에 11%~17% 정도가나는걸로확인되었습니다. 1/1 페이지