CAE S/W 별통합해석시스템성능분석결과보고서 Nehalem CPU vs HarperTown CPU 비교분석 클루닉스 본자료는최신 Intel Processor Architecture인 Nehalem CPU 기반에서 CAE 해석 S/W에대한성능분석보고서입니다. 클루닉스의통합해석시스템구성제품인 GridCenter-CAP을이용하여테스트되었으며, 클루닉스의허가없이복사나배포를금지합니다. BMT 환경 : GridCenter-CAP, GridCenter-HPC BMT S/W : LS-DYNA, Fluent, Pam-stamp, Pam-crash, Abaqus, Ansys-CFX BMT 진행 : 클루닉스 BMT 일자 : 29년 7월 17일 ~29년 7월 26일시스템구축및최적화 : 클루닉스 / 서진우수석 (alang@clunix.com) CAE 어플리케이션구축및최적화 : 클루닉스 / 서진우수석 (alang@clunix.com) 1/23 페이지
목차 1. BMT 요약 2. BMT 환경정보 3. BMT 시나리오소개 4. BMT 항목별결과및세부분석 5. BMT 결론 첨부 > 해석결과후처리화면 Snapshot 2/23 페이지
1. BMT 요약 본 BMT는최신 Intel Processor Architecture인 Nehalem CPU계열 Intel Xeon X55xx 서버와기존에보편적으로사용되어왔던 Intel Xeon E54xx 서버와의 CAE 해석 S/W 의병렬계산성능을비교분석한자료입니다. 본 BMT 를통해 Nehalem 기반의 CPU 로구성된통합해석시스템 (HPC) 이 HarperTown 기반 의 CPU로구성된통합해석시스템 (HPC) 보다 3%~6% 정도우수한해석처리성능을나타내는걸로확인되었습니다. 병렬계산성능결과 (Intel Xeon 555 - Nehalem) 측정단위 : 초 (second) FLUENT 453 266 1561 1171 61 473 38 LSDYNA 6159 44873 2771 19276 9432 767 5211 PAMSTAMP 22812 12872 865 496 459 4774 5787 ABAQUS 2595 1135 6333 375 2753 292 1584 PAMCRASH 1215 6892 411 2652 1639 1154 131 CFX 17981 731 5996 2863 1759 139 188 병렬계산성능결과 (Intel Xeon 543 HarperTown) 측정단위 : 초 (second) FLUENT 5969 3142 2776 1728 897 628 518 LSDYNA 1245 6637 38456 2968 15793 1721 823 PAMSTAMP 3542 19275 1485 7711 6383 755 8287 ABAQUS 27384 1563 1224 786 37 343 2936 PAMCRASH 244 1942 5978 4387 235 1732 144 CFX 32231 1465 959 5283 4413 2859 287 다음장부터는본 BMT의세부적인작업실행환경과각 CAE 해석 S/W 별 BMT 실행과정에대해정리한내용입니다. 3/23 페이지
2. BMT 환경정보 BMT 시스템구성도 (Nehalem, HarperTown 공통구성 ) 본 BMT에사용된서버수는총 8대 (64core) 로구성되었고, Nehalem CPU 기반의 4대서버와 HarperTown CPU 기반의 4대서버로 2개의통합해석시스템 (HPC) 환경을구성하였습니다. 네트워크환경은 1Gigabit 대역폭의두개의네트워크채널을분리하여, 파일서비스용과계산서비스용으로구성하였습니다. 사용된서버의자세한사양은아래와같습니다. H/W 구성정보 (Intel Xeon 555 - Nehalem) 세부사양 자원수 Cpu Intel(R) Xeon(TM) CPU X555 @ 2.67GHz 2cpu(8core) Memory DIMM Synchronous 1333 MHz 2GByte 8개 (16Gbyte) Hard disk HP SAS 72GByte 1개 (72Gbyte) Network NetXtreme II BCM579 Gigabit Ethernet 2port nodes HP ProLiant DL38 G6 4node H/W 구성정보 (Intel Xeon 543 HarperTown) 세부사양 자원수 Cpu Intel(R) Xeon(TM) Quad E543 CPU 2.66GHz 2cpu(8core) Memory DIMM Synchronous 667 MHz 2GByte 4개 (16Gbyte) Hard disk SAS DELL 23GByte 1개 (16Gbyte) Network BM NetXtreme II BCM578 Gigabit Ethernet 2port nodes Dell (PowerEdge) 4 nodes 4/23 페이지
S/W 구성정보 S/W 명 S/W 버전 운영체제 Redhat Eenterprise Server(x86_64) Release 4 (update 8) HPC 구축 S/W GridCenter 1.9 HPC 최적화 S/W GridCEnter-CAP 1.9 해석 S/W(1) Fluent 6.3.26 해석 S/W(2) LSDYNA Mpp971.1224 해석 S/W(3) PAM-STAMP Version 28 해석 S/W(4) PAM-CRASH Version 28 해석 S/W(5) ABAQUS Version 6.8.2 해석 S/W(6) CFX Version 11. 본 BMT에사용된 HPC 구성, 해석작업실행, 성능최적화솔루션은 클루닉스에서개발한 GridCenter 제품군을이용하였고, BMT에사용된예제는각해석 S/W별 Vendor에서제공한 BMT 예제입니다. 3. BMT 시나리오 본 BMT 진행주요절차는아래와같다. 본 BMT는초기구성된 HPC 환경에서 POSDATA 를통해제공받은예제로기본성능테스트를시행하여, 예제에대한무결성검증및최적해석실행조건을파악하였습니다. 그후각해석 S/W 수행환경및시스템환경을최적화하고, 아래시나리오에의해테스트를진행하였습니다. 병렬계산성능측정 - 해석시할당 CPU(Core) 수를단계별로증가시키며, 해석실행시간을측정한다. - 해석시할당 CPU(Core) 수는 1개, 2개, 4개, 8개, 16개, 24개, 32개순으로증가시킨다. - 해석실행시간은초 (second) 단위로측정한다. 5/23 페이지
각해석 S/W 별 BMT 에사용된실행조건은아래와같습니다. FLUENT (version 6.3.26 ) 해석작업명령은위의 작업명령 과같으며, 해석조건은 <3d double precision>, <Steady>, <integration=1> 으로해석이진행되었습니다. LSDYNA (version mppdyna-971.1224 single precision ) 해석작업명령은위의 작업명령 과같으며, 해석조건은 <Memory1=2>, <memory2=> 로해석이진행되었습니다. 6/23 페이지
PAM-STAMP ( version 28 ) PAM-CRASH ( version 28 ) 해석작업명령은위의 작업명령 과같으며, 해석조건은 <single precision>, <DMP> 방식으로해석이진행되었습니다. ABAQUS ( version 6.8.2 ) 해석작업명령은위의 작업명령 과같으며, <single precision> 으로해석이진행되었습니다. CFX ( version 11. ) 해석명령작업은위의 작업명령 과같으며, 병렬계산처리에사용된 method는 HP MPI Distributed 이다. 7/23 페이지
4. BMT 항목별성능결과및세부분석 FLUENT 성능결과및세부분석 Fluent 병렬처리성능결과는아래와같습니다. - Nehalem(Intel Xeon X55) 결과 453 266 1561 1171 61 473 38 1. 2.2 2.9 3.8 7.5 9.5 11.9 - HarperTown(Intel Xeon E543) 결과 5969 3142 2776 1728 897 628 518 1. 1.9 2.2 3.5 6.7 9.5 11.5 FLUENT 병렬계산성능 (Nehalem) 1 45 4 1 35 1. 3 25 2 8. 15 1 5. 8/23 페이지
FLUENT 병렬계산성능 (HarperTown) 7 1 6 1 1. 4 3 8. 2 1. 32개 core를이용하여 Fluent 해석을진행했을때, Nehalem과 HarperTown 모두 1개 core 대비 11~12배의해석시간단축이일어나는것을측정하였습니다. Fluent의병렬처리효율은매우우수한편이여서, 병렬처리에대한성능개선효율은어떤 CPU를사용한다하더라도일정수준보장되는것으로확인되었습니다. 하지만동일조건에서의해석처리시간에관련된절대적성능은 Nehalem CPU 계열이 35% 정도우수한것으로측정되었습니다. 아래결과는 Nehalem과 Harperdown의절대성능비교결과입니다. Nehalem vs HarperTown 의 Fluent 성능비교 7 5% 6 45% 4% 35% 4 3 3% 25% 2% improve (%) Nehalem HarperTdown 성능향상 2 15% 1 1% 5% nubmer fo processor % 절대성능비교결과는 Nehalem CPU 계열이 HarperTown CPU보다 25~45% 정도우수한걸로확인되었습니다. 성능차이가가장큰지점은 4개 core를이용한해석구간으로 44% 의성능차이가확인되었습니다. 9/23 페이지
LSDYNA 성능결과및세부분석 LSDYNA 의병렬처리성능결과는아래와같습니다. - Nehalem(Intel Xeon X55) 결과 6159 44873 2771 19276 9432 767 5211 1. 1.4 2.2 3.2 6.5 8.7 11.8 - HarperTown(Intel Xeon E543) 결과 1245 6637 38456 2968 15793 1721 823 1. 1.8 3.1 4.1 7.6 11.2 14.6 LSDYNA 병렬계산성능 (Nehalem) 7 1 6 1 1. 4 3 8. 2 1. 1/23 페이지
LSDYNA 병렬계산성능 (HarperTown) 14 1 12 1 1 1 8 6 1. 8. 4 2. LSDYNA의병렬처리성능은 Fluent와마찬가지로매우우수한것으로확인되었습니다. 32개 core를이용하여해석을진행했을경우 1개 core 대비 12~14배정도의해석시간단축이확인되었습니다. 병렬계산을통한성능개선효율을보았을때는 HarperTown CPU가조금우수한걸로측정되었으나, 절대적인성능을비교하면 Nehalem CPU가 35% 정도우수한성능을나타내는것을확인할수있었습니다. Nehalem vs HarperTown 의 LSDYNA 성능비교 14 6% 12 5% 1 8 6 4 2 4% 3% 2% 1% improve (%) Nehalem HarperTdown 성능향상 % 절대성능비교결과는 Nehalem CPU 계열이 HarperTown CPU보다 28~49% 정도우수한걸로확인되었습니다. 성능차이가가장큰지점은 1개 core를이용한해석구간으로 49% 의성능차이가확인되었습니다 11/23 페이지
PAM-STAMP 성능결과및세부분석 PAM-STAMP 의병렬처리성능결과는아래와같습니다 - Nehalem(Intel Xeon X55) 결과 22812 12872 865 496 459 4774 5787 1. 1.8 2.8 4.6 5.6 4.8 3.9 - HarperTown(Intel Xeon E543) 결과 3542 19275 1485 7711 6383 755 8287 1. 1.8 3.4 4.6 5.5 4.7 4.3 PAM-STAMP 병렬계산성능 (Nehalem) 2 2 5. 1 1 3. 1.. 12/23 페이지
PAM-STAM 병렬계산성능 (HarperTown) 4 3 3 2 2 1 1 5. 3. 1.. PAM-STAMP의병렬처리성능은 Nehalem과 HarperTown 모두 Fluent나 LSDYNA에비해성능개선효율이상대적으로낮은것으로확인되었습니다. 16개 core를이용하여해석을진행했을경우 1개 core 대비 5.5~5.6배의해석시간단축이확인되었고, 24core와 32core 해석에서는처리성능이더저하되는것으로확인되었습니다. Nehalem와 HarperTown 간의병렬계산성능개선효율의차이는크게없으며, 절대성능은 Nehalem이 3% 정도우수한것으로확인되었습니다. Nehalem vs HarperTown 의 PAMSTAMP 성능비교 4 3 3 2 2 1 1 4% 35% 3% 25% 2% 15% 1% 5% improve (%) Nehalem HarperTdown 성능향상 nubmer of processor % 절대성능비교결과는 Nehalem CPU 계열이 HarperTown CPU보다 23~36% 정도우수한걸로확인되었고, 대부분의지점에서 3~36% 정도의성능차이가나는것으로확인되었습니다. 13/23 페이지
PAM-CRASH 성능결과및세부분석 PAM-CRASH 의병렬처리성능결과는아래와같습니다. - Nehalem(Intel Xeon X55) 결과 1215 6892 411 2652 1639 1154 131 1. 1.8 2.9 4.6 7.4 1.5 11.7 - HarperTown(Intel Xeon E543) 결과 244 1942 5978 4387 235 1732 144 1. 1.9 3.4 4.7 8.7 11.8 14.2 PAM-CRASH 병렬계산성능 (Nehalem) 14 1 12 1 1 1. 8 6 8. 4 2 nubmer of processor. 14/23 페이지
PAM-CRASH 병렬계산성능 (HarperTown) 2 1 1 2 1 1 1 1. 8.. PAM-CRASH의병렬처리성능은 PAM-STAMP와는다르게병렬계산성능이매우우수한것으로확인되었습니다. 32개 core를이용하여해석을진행했을경우 1개 core 대비 12~14배정도의해석시간단축이확인되었습니다. 병렬계산을통한성능개선효율을보았을때는 LSDYNA의경우와같이 HarperTown CPU가우수한걸로측정되었으나, 절대적인처리성능을비교하면 Nehalem CPU가 35% 정도우수한성능을나타내는것을확인할수있었습니다. Nehalem vs HarperTown 의 PAM-CRASH 성능비교 2 45% 4% 2 35% 3% 1 1 25% 2% 15% improve (%) Nehalem HarperTdown 성능향상 1% 5% % 절대성능비교결과는 Nehalem CPU 계열이 HarperTown CPU보다 28~41% 정도우수한걸로확인되었습니다. 성능차이가가장큰지점은 1개 core를이용한해석구간으로 41% 의성능차이가확인되었습니다 15/23 페이지
ABAQUS 성능결과및세부분석 ABAQUS 의병렬처리성능결과는아래와같습니다. - Nehalem(Intel Xeon X55) 결과 2595 1135 6333 375 2753 292 1584 1. 1.9 3.3 5.5 7.5 9.8 13. - HarperTown(Intel Xeon E543) 결과 27384 1563 1224 786 37 343 2936 1. 1.8 2.7 3.5 7.4 8. 9.3 ABAQUS 병렬계산성능 (Nehalem) 2 1 2 1 1. 1 1 8.. 16/23 페이지
ABAQUS 병렬계산성능 (HarperTown) 3 1. 9. 2 8. 2 1 1 7. 5. 3. 1.. ABAQUS(explicit) 의병렬처리성능은 32개 core를이용하여해석을진행했을경우 1개 core 대비 9~13배의해석시간단축이확인되었으며, 매우우수한것으로판단됩니다. ABAQUS의경우병렬계산을통한성능개선효율을보았을때는 Nehalem CPU가우수한걸로측정되었으며, 절대적인처리성능역시 Nehalem CPU가 36% 정도우수한성능을나타내는것을확인할수있었습니다. Nehalem vs HarperTown 의 ABAQUS 성능비교 3 6% 2 5% 2 1 1 4% 3% 2% improve (%) Nehalem HarperTdown 성능향상 1% % 절대성능비교결과는 Nehalem CPU 계열이 HarperTown CPU보다 25~52% 정도우수한걸로확인되었습니다. 성능차이가가장큰지점은 8개 core를이용한해석구간으로 52% 의성능차이가확인되었습니다 17/23 페이지
ANSYS-CFX 성능결과및세부분석 ANSYS-CFX 의병렬처리성능결과는아래와같습니다. - Nehalem(Intel Xeon X55) 결과 17981 731 5996 2863 1759 139 188 1. 2.6 3. 6.3 1.2 13.7 16.5 - HarperTown(Intel Xeon E543) 결과 32231 1465 959 5283 4413 2859 287 1. 2.2 3.6 6.1 7.3 11.3 15.4 CFX 병렬계산성능 (Nehalem) 2 18. 18 16 14 12 1 8 6 4 2 1 1 1 1. 8.. 18/23 페이지
CFX 병렬계산성능 (HarperTown) 3 3 2 2 1 1 18. 1 1 1 1. 8.. ANSYS-CFX의병렬처리성능은 32개 core를이용하여해석을진행했을경우, 1개 core 대비 15~16배의해석시간단축나타날정도로매우우수한것으로확인되었습니다. 특히 CPU=2 구간에서는이론적인성능개선보다더큰성능이일어나는 super liner speed up 현상이발견되었습니다. 병렬성능개선효율은 Nehalem 과 HarperTown CPU 를비교했을때, Nehalem CPU에서조금우수하게측정되었습니다. Nehalem vs HarperTown 의 CFX 성능비교 3 7% 3 6% 2 5% 2 1 4% 3% improve (%) Nehalem HarperTdown 성능향상 1 2% 1% % Nehalem 과 HarperTown의절대성능비교결과는 Nehalem CPU 계열이 HarperTown CPU보다 34~6% 정도우수한걸로확인되었습니다. 성능차이가가장큰지점은 16개 core 를이용한해석구간으로 6% 의성능차이가확인되었습니다 19/23 페이지
5. BMT 결론 CAE 해석 S/W 중대표적인 Solver들을이용하여 Nehalem CPU 계열인 Intel Xeon X555 기반서버와 HarperTown CPU 계열인 Intel Xeon E543 기반서버와의성능을비교한결과, Nehalem 계열의서버가기존의 HarperTown 계열의서버보다 3~6% 정도전반적인성능개선이있다는것을확인할수있습니다. Nehalem CPU의경우기존 HarperTown과비교하여, 프로세서간의통신구조와프로세서와메모리간의통신구조가효율적으로대폭개선되어, Multi Core상의계산효율이매우향상되었다는것을확인할수있었습니다. 또한 Nehalem에서새로적용된 Turbo Boost란기술을이용하여, 8개 core 중일부 core만을이용한해석의경우, 유휴 core 의소비전력을해석작업이할당된 core에집중시켜, 처리성능이대폭개선되는것을확인하였습니다. Nehalem CPU 출시초기에는 Turbo Boost 기능을운영체제에서지원하지않아서, 단지 Multi Core 해석시병렬처리성능개선효율만대폭향상된것처럼확인된바가있었다. 하지만현재 Turbo Boost 기능이정상적으로지원하는운영체제에서는병렬처리성능개선효율보다는, 모든형태의작업에서절대적처리성능자체가모두개선되었다는것을확인할수있었습니다. ( 운영체제에서 Turbo Boost 기능이미지원시 1개 core로작업을수행할경우, 단순 CPU Clock이높은서버가더우수한성능이나타나는것으로확인하였습니다. 본테스트를통해 Turbo Boost 기능을통한성능개선이크다는것을확인하였고, 적은 core를이용한작업에서나, 많은 core를동시에이용하는작업에서도모두 Nehalem의성능개선효과가적용된다는것을확인할수있었습니다.) 2/23 페이지
각 S/W 별해석결과후처리화면 FLUENT 해석예제결과후처리화면 LSDYNA 해석예제결과후처리화면 21/23 페이지
PAM-STAMP 해석예제결과후처리화면 PAM-CRASH 해석예제결과후처리화면 22/23 페이지
ABAQUS 해석예제결과후처리화면 ANSYS-CFX 해석예제결과후처리화면 23/23 페이지