현대자동차통합해석시스템 BMT 결과상세분석보고서 클루닉스 본자료는 클루닉스에서 DELL 인터내셔널의요청에의해현대자동차에제안할 DELL PowerEdge R71 System에대한 CAE 해석 S/W의병렬처리성능을측정한 BMT 결과보고서입니다. BMT 환경 : GridCenter-CAP, GridCenter-HPC BMT S/W : LS-DYNA, PAM-STAMP, ABAQUS, STARCCM+, PowerFlow BMT 진행 : 클루닉스 BMT 일자 : 29년 8월 12일 ~29년 8월 23일시스템구축및최적화 : 클루닉스 / 서진우수석 (alang@clunix.com) CAE 어플리케이션구축및최적화 : 클루닉스 / 서진우수석 (alang@clunix.com) 1/21 페이지
목차 1. BMT 요약 2. BMT 환경정보 3. BMT 시나리오소개 4. BMT 항목별세부분석및결론 첨부 > 해석결과후처리화면 GridCenter-CAP 작업진행화면 2/21 페이지
1. BMT 요약 본 BMT는 DELL 인터내셔널의요청에의해진행되었으며, BMT 목적은현대자동자기술연구소에신규도입될 통합해석시스템 의성능을도입전부분예측하고, 구축대상업체에대한관련분야기술력과사업진행가능성을사전에평가하고자함입니다. 클루닉스에서는주어진 BMT 시나리오를바탕으로자사의 CAE 통합해석시스템구축운영솔루션인 GridCenter-CAP 을통해테스트를진행하였으며, 그결과는아래와같습니다. 병렬계산성능결과 표기방식 : 시분초 (hms) 8core 16core 32core 48core ABAQUS 21시간41분12초 11시간48분24초 6시간24분9초 4시간18분52초 LSDYNA 3시간17분29초 17시간2분12초 9시간11분58초 Powerflow 86시간36분2초 47시간23분18초 26시간33분48초 19시간8분2초 PAMSTAMP 19시간25분24초 1시간55분52초 5시간44분7초 STARCCM+ 36 시간 1 분 48 초 2 시간 42 분 28 초 1 시간 45 분 2 초 최적화를통한성능개선결과 H/W 기본구성 H/W, OS 튜닝 네트워크튜닝 스케줄러튜닝 ABAQUS 15시간5분17초 12시간23분16초 11시간48분24초 7시간26분22초 LSDYNA 25시간28분49초 17시간2분12초 17시간2분12초 15시간46분19초 PAMSTAMP 16시간59분2초 1시간55분52초 1시간55분52초 9시간5분1초 STARCCM+ 26 시간 12 분 1 초 2 시간 42 분 28 초 2 시간 42 분 28 초 16 시간 분 2 초 본테스트결과의상세분석및설명은 4 장에기술되어있습니다. 다음장부터는본 BMT의세부적인작업실행환경과각 CAE 해석 S/W 별 BMT 실행과정에대해정리한내용입니다. 3/21 페이지
2. BMT 환경정보 BMT 시스템구성도 본 BMT에사용된서버수는총 8대로계산서버 6대 (48core), 관리서버 1대와파일서버 1대로구성되었습니다. 네트워크채널은 2Gbps의계산전용네트워크와 1Gbps의관리 ( 파일 ) 전용대역폭으로분리하여구성하였습니다. 사용된서버의자세한사양은아래와같습니다. Fast Network 구성정보 (INFINIBAND 2Gbps) 세부사양 자원수 Switch QLogic IB9 series 1 HCA Card QLogic QLE724 8 H/W 구성정보 ( 관리서버 1 대 ) 세부사양 자원수 Cpu Intel(R) Quad Core E552 Xeon(R) CPU, 2.26GHz 1cpu(4 core) Memory 2GB 166MHz, Dual Ranked RDIMMs 4개 (8 Gbyte) Hard disk 146GB 15K RPM SAS 2.5" (2) 4개 3GB 1K RPM SAS 2.5" (2) Network Two Broadcom 579C dual-port Gigabit Ethernet 4port product DELL PowerEdge R71 1 node 4/21 페이지
H/W 구성정보 ( 파일서버 1 대 ) 세부사양 자원수 Cpu Intel(R) Xeon(TM) CPU 511 @ 1.6GHz 2cpu(4 core) Memory 4GB 667MHz Fully-Buffered DIMMs Memory 4개 (16 Gbyte) Hard disk 146GB 15K RPM SAS 3.5" 5개 Network Two Broadcom 578 Gigabit Network 2 Port product DELL PowerVault 5 1 node H/W 구성정보 ( 계산서버 6 대 ) 세부사양 자원수 Cpu Intel(R) Quad Core X555 Xeon(R) CPU, 2.66Ghz 2cpu(8 core) Memory 4GB 166MHz, Dual Ranked RDIMMs 12개 (48 Gbyte) Hard disk 146GB 15K RPM SAS 2.5" 7개 Network Two Broadcom 579C dual-port Gigabit Ethernet 4 port product DELL PowerEdge R71 6 node BMT에사용된서버는 DELL의 PowerEdge R71 모델로 Intel Xeon의최신프로세서인 Nehalem CPU가기본장착되어있습니다. 계산에사용된 Total Core 수는 48개로구성되어있습니다. S/W 구성정보 S/W 명 S/W 버전 운영체제 Redhat Eenterprise Server(x86_64) Release 4 (update 8) HPC 구축 S/W GridCenter 1.9 해석 S/W(1) ABAQUS Version 6.7.5 해석 S/W(2) LSDYNA Mpp971_s_R4.2 해석 S/W(3) PAMSTAMP Version 27 해석 S/W(4) STARCCM+ Version 4..2 해석 S/W(5) Powerflow Version 4.1 MPI S/W HPMPI S/W 별기본공급버전 Compiler Intel Compiler & MKL( 라이브러리 ) Version 1 IB Driver QLogicIB-IFS Version 5..2 5/21 페이지
본 BMT에사용된 HPC 구성, 해석작업실행, 성능최적화솔루션은 클루닉스에서개발한 GridCenter 제품군을이용하였고, BMT에사용된예제는현대자동차기술연구소에서제공한 BMT 예제입니다. 3. BMT 시나리오 본 BMT 진행주요절차는아래와같다. 본 BMT는초기구성된 HPC 환경에서현대자동차기술연구소를통해제공받은예제로기본성능테스트를시행하여, 예제에대한무결성검증및최적해석실행조건을파악하였습니다. 그후각해석 S/W 수행환경및시스템환경을최적화하고, 아래시나리오조건에의해테스트를진행하였습니다. 해석 S/W 별 BMT 실시요건 S/W 버전 Run on CPUs 모델크기 현재소요시간 비고 ABAQUS 6.7.5 16/32 71만격자 16시간 Double (16core) precision LSDYNA Mpp971sR4.2 16/32 13만격자 21시간 (16core) - Powerflow 4.1 32/48 76만격자 36시간 (32core) - Pamstamp 27(DMP) 8/16 15만격자 18.2시간 (2core) - StarCCM+ 4.2 16/32 25만격자 4시간이상 - 6/21 페이지
각해석 S/W 별 BMT 에사용된실행조건은아래와같습니다. ABAQUS ( version 6.7.5 ) 해석작업명령은위의 작업명령 과같으며, <double precision> 으로해석이진행되었습니다. LSDYNA (version mppdyna-971.r4.2 single precision ) 해석작업명령은위의 작업명령 과같으며, 해석방식은 <single precision> 으로진행되었습니다. PAM-STAMP ( version 27 ) 해석작업명령은위의 작업명령 과같으며, 해석조건은 <single precision>, <DMP> 방식으로해석이진행되었습니다. STARCCM+( version 4..2 ) 해석작업명령은위의 작업명령 과같으며, 해석방식은 Single process를통한 Mesh 생성이후, Parallel 방식으로해석수행을진행하였습니다. 7/21 페이지
POWERFLOW( version 4.1a ) 해석작업명령은위화면과동일하며, 작업절차는초기생성된 CASE 파일을통해 discretize 작업후 parallel processing에필요한 domain partition작업인 decompose 작업을수행한후최종적으로 simulation을하는형태로작업을수행하였습니다. 8/21 페이지
4. BMT 항목별성능결과및세부분석 통합해석시스템의병렬계산성능결과분석 본테스트는 INFINIBAND 네트워크환경으로구성된통합해석환경에서 CAE S/W별병렬계산의성능을측정한것입니다. 아래결과는 H/W와운영체제, 네트워크환경을최적화한상태에서측정된결과입니다. 표기방식 : 시분초 (hms) 8core 16core 32core 48core ABAQUS 21시간41분12초 11시간48분24초 6시간24분9초 4시간18분52초 LSDYNA 3시간17분29초 17시간2분12초 9시간11분58초 Powerflow 86시간36분2초 47시간23분18초 26시간33분48초 19시간8분2초 PAMSTAMP 19시간25분24초 1시간55분52초 5시간44분7초 STARCCM+ 36 시간 1 분 48 초 2 시간 42 분 28 초 1 시간 45 분 2 초 위결과중 STARCCM+ 의경우초기 mesh 생성작업은단일프로세서로동작하는데, 이때소요된시간은 1시간 55분입니다. 위결과는 mesh 생성시간이제외된순수해석소요시간입니다. Powerflow의경우제공된 CASE 파일을가지고해석을하기위해서는 discretize, decompose, 과정을거쳐야됩니다. 이때소요된시간은 2분이고. 나머지시간이순수해석시간으로보시면됩니다. 본테스트결과 INFINIBAND로구성된통합해석시스템의경우해석에할당되는 CPU 자원을 2배로확장할경우 1.78~1.93배정도의성능개선이일어나는것으로확인되었습니다. 고속의네트워크성능을통해많은 core를이용한병렬계산에서도성능의 scalability 가최대한보장되는것을확인할수있었습니다. 아래그래프는위결과값을통해각 S/W 별병렬계산효과를표현한것입니다. 9/21 페이지
ABAQUS 병렬계산성능결과 14 6 12 5 elapsed time(minute) 1 8 6 4 4 3 2 speedup ABAQUS speedup 2 1 8core(1node) 16core(2nodes) 32core(4nodes) 48core(6nodes) number of processor ABAQUS 의경우, 6 대서버 (48core) 를이용한병렬계산성능은 1 대서버 (8core) 를이용 한병렬계산성능과비교하여 5 배우수한것으로측정되었습니다. LSDYNA 병렬계산성능결과 2 3.5 18 16 3 elapsed time(minute) 14 12 1 8 6 2.5 2 1.5 1 speedup LSDYNA speedup 4 2.5 8core(1node) 16core(2nodes) 32core(4nodes) number of processor LSDYNA 의경우, 4 대서버 (32core) 를이용한병렬계산성능은 1 대서버 (8core) 를이용 한병렬계산성능과비교하여 3.3 배우수한것으로측정되었습니다. 1/21 페이지
POWERFLOW 병렬계산성능결과 6 5 5 4.5 4 elapsed time(minute) 4 3 2 3.5 3 2.5 2 1.5 speedup Powerflow speedup 1 1.5 8core(1node) 16core(2nodes) 32core(4nodes) 48core(6nodes) number of processor POWERFLOW 의경우, 6 대서버 (48core) 를이용한병렬계산성능은 1 대서버 (8core) 를이 용한병렬계산성능과비교하여 4.6 배우수한것으로측정되었습니다. PAMSTAMP 병렬계산성능결과 14 4 12 3.5 elapsed time(minute) 1 8 6 4 3 2.5 2 1.5 1 speedup PAMSTAMP speedup 2.5 8core(1node) 16core(2nodes) 32core(4nodes) number of processor PAMSTAMP 의경우, 4 대서버 (32core) 를이용한병렬계산성능은 1 대서버 (8core) 를이 용한병렬계산성능과비교하여 3.4 배우수한것으로측정되었습니다. 11/21 페이지
STARCCM+ 병렬계산성능결과 25 4 3.5 elapsed time(minute) 2 15 1 5 3 2.5 2 1.5 1.5 speedup STARCCM+ speedup 8core(1node) 16core(2nodes) 32core(4nodes) number of processor STARCCM+ 의경우, 4 대서버 (32core) 를이용한병렬계산성능은 1 대서버 (8core) 를이 용한병렬계산성능과비교하여 3.3 배우수한것으로측정되었습니다. 통합해석시스템의단계별최적화를통한성능개선결과분석 본테스트는통합해석시스템을구성하는 H/W와운영체제를통해기본환경을구성하여성능을테스트한후, H/W 환경, 운영체제환경, 네트워크환경, 스케줄러환경등을단계별로최적화하여, 각단계별테스트를반복하면서성능개선추이를비교한것입니다. CAE S/W 별 16core를할당한해석의최적화결과는아래와같습니다. H/W 기본구성 H/W, OS 튜닝네트워크튜닝스케줄러튜닝 ABAQUS 15 시간 5 분 17 초 12 시간 23 분 16 초 11 시간 48 분 24 초 7 시간 26 분 22 초 LSDYNA 25 시간 28 분 49 초 17 시간 2 분 12 초 17 시간 2 분 12 초 15 시간 46 분 19 초 PAMSTAMP 16 시간 59 분 2 초 1 시간 55 분 52 초 1 시간 55 분 52 초 9 시간 5 분 1 초 STARCCM+ 26 시간 12 분 1 초 2 시간 42 분 28 초 2 시간 42 분 28 초 16 시간 분 2 초 12/21 페이지
CAE S/W 별최적화전후성능비교 18 6% 16 14 5% elapsed time(minute) 12 1 8 6 4 2 4% 3% 2% 1% 최적화효율 최적화전 최적화후 개선효과 ABAQUS LSDYNA PAMSTAMP STARCCM+ CAE S/W 종류 % 본테스트결과를보면동일한서버상태에서 H/W와네트워크, 운영체제, CAE 해석시스템환경을최적화할경우 4%~5% 정도의성능이향상되는것을확인할수있습니다. 아래내용은본 BMT에적용된최적화작업을간단히설명한내용입니다. Nehalem CPU의경우기존 Intel Xeon CPU와비교하여, 프로세서간의통신구조와프로세서와메모리간의통신성능을대폭개선시키는 3 channel memory architecture 기술이적용되었습니다. 그리고프로세서의 Clock을유동적으로조정하여, 서버의전력소비량를효율적으로절감시켜주는 EIST(Enhanced Intel SpeedStep Technology) 기능도존재합니다. 또한유휴상태로있는 CPU의전력을사용중인 CPU에집중하여해당 CPU의처리성능 (Clock) 을높여주는 Turbo Boost기능이존재합니다. 이러한기능은각벤더사의 H/W( 메인보드 ) 설계상에서어떻게구현하고, 이를기본 BIOS에어떻게적용하느냐에따라계산성능에많은영향을미치게됩니다, 다양한 BMT를통해 H/W 벤더사별로위기능에관련된 BIOS 설정은다소차이가있는걸로확인하였고, 그차이로인해극단적인성능이최우선시되는 HPC 환경에서사양이같다하더라도 H/W 벤더사가다를경우, 출시되는상태의기본환경에서성능테스트를하면, 각벤더사제품별로 15%~3% 정도성능차이가나는걸로확인되었습니다. H/W와운영체제의최적화작업은 HPC의구성에서최우선시되는성능위주로관련설정및환경을재구성하는작업입니다. 각계산서버의 BIOS 환경을성능위주로재구성하고, 운영체제에서도 CPUfreq 모듈을성능중심으로설정을변경하여, CAE 해석환경에서요구하는프로세서성능을제공할수있게설정을변경합니다. 이와같은작업을통해 25%~3% 정도의성능개선이확인되었습니다. 13/21 페이지
네트워크최적화는본 BMT 구성에서기본으로사용되는 INFINIBAND 환경을운영체제와각 CAE S/W의 MPI 환경과최적화시키는작업으로이루어졌습니다. INFINIBAND로고속네트워크환경을구성하여성능테스트를진행할때, 특정벤더의 INFINIBAND의경우 driver version이최신운영체제와호환하지않는문제가발생하였습니다. 하지만 Nehalem Processor를재대로인식하고, 그모든기능을사용하기위해서는최신운영체제가필요하게됩니다. 또한 CAE S/W의 Version이대부분 2~3년전에출시된버전으로해당 S/W의병렬계산기능을제공하는 HPMPI가특정벤더사의 INFINIBAND driver를공식지원하지않는문제도발생할수있습니다. 본최적화단계에서는 INFINIBAND driver 구성시계산서버의 H/W를최적으로지원할수있는운영체제에맞게최적화시키고, CAE S/W의 MPI 환경을해당 INFINIBAND가지원될수있는형태로최적하게됩니다. 이와같은작업을통해 CAE S/W 해석시 INFINIBAND protocol을이용하여병렬계산을수행시킬수있습니다. 이런최적화작업을통해 1%~4% 정도의성능개선을확인할수있었습니다. 최종적으로스케줄러의최적화작업을진행하게되는데, 스케줄러최적화작업은각 CAE S/W의병렬계산시 CPU allocation 방식에따라병렬계산의효율에영향을많이주게되는데, CAE S/W별로최적의조합으로 CPU를할당하여, 그성능을개선하는작업입니다. 이작업을통해각 CAE S/W별 2%~3% 정도의성능개선을확인할수있었습니다. 14/21 페이지
각 S/W 별해석결과후처리화면 ABAQUS 해석예제결과후처리화면 LSDYNA 해석예제결과후처리화면 15/21 페이지
PAM-STAMP 해석예제결과후처리화면 STARCCM+ 해석예제결과후처리화면 16/21 페이지
17/21 페이지
GridCenter 작업진행화면 18/21 페이지
19/21 페이지
2/21 페이지
21/21 페이지