통합해석시스템기반 STARCCM+ 의병렬계산성능 BMT 결과보고서 클루닉스 본자료는 클루닉스에서 CAE 해석 S/W(STARCCM+) 의병렬처리성능을측정한 BMT 결과보고서입니다. BMT 환경 : GridCenter-CAP, GridCenter-HPC BMT S/W : STARCCM+ BMT 진행 : 클루닉스 BMT 일자 : 2009년 08월 12일 ~2009년 08월 23일시스템구축및최적화 : 클루닉스 / 서진우수석 (alang@clunix.com) CAE 어플리케이션구축및최적화 : 클루닉스 / 서진우수석 (alang@clunix.com) 1/12 페이지
목차 1. BMT 요약 2. BMT 환경정보 3. BMT 시나리오소개 4. BMT 항목별세부분석및결론 2/12 페이지
1. BMT 요약 본 BMT는 DELL 인터내셔널의요청에의해진행되었으며, BMT 목적은 CFD 계열의해석 S/W인 STARCCM+(Cd-Adapco제공 ) 의병렬계산성능에대해측정하고분석하는것입니다. 클루닉스에서는주어진 BMT 시나리오를바탕으로자사의 CAE 통합해석시스템구축운영솔루션인 GridCenter-CAP 을통해테스트를진행하였으며, 그결과는아래와같습니다. STARCCM+ 병렬계산성능결과 표기방식 :second 1core 8core 16core 32core Elapsed 783215(217시간 ) 129600(36시간 ) 74703(21시간 ) 38721(11시간 ) Speedup 1 6.04 10.48 20.22 STARCCM+ 의스케줄러자원할당최적화전 / 후성능비교결과 표기방식 :second 최적화전 최적화후 16core 해석 74703 57612 INFINIBAND 와 GIGABIT 환경에서의 STARCCM+ 성능비교결과 GIGABIT(TCP) INFINIBAND(IBV) 32core 해석 43200 38721 STARCCM+ 의경우초기 mesh 생성작업은단일프로세서로동작하는데, 이때소요된시간은 1시간 55분입니다. 위결과는공동으로소요되는 mesh 생성시간은제외하고, 해석진행단계에서의소요시간을측정한결과입니다. 다음장부터는본 BMT의세부적인작업실행환경과각 CAE 해석 S/W 별 BMT 실행과정에대해정리한내용입니다. 3/12 페이지
2. BMT 환경정보 BMT 시스템구성도 본 BMT에사용된서버수는총 8대로계산서버 6대 (48core), 관리서버 1대와파일서버 1대로구성되었습니다. 네트워크채널은 20Gbps의계산전용네트워크와 1Gbps의관리 ( 파일 ) 전용대역폭으로분리하여구성하였습니다. 사용된서버의자세한사양은아래와같습니다. Fast Network 구성정보 (Infiniband 20Gbps) 세부사양 자원수 Switch QLogic IB9000 series 1 HCA Card QLogic QLE7240 8 H/W 구성정보 ( 관리서버 1 대 ) 세부사양 자원수 Cpu Intel(R) Quad Core E5520 Xeon(R) CPU, 2.26GHz 1cpu(4 core) Memory 2GB 1066MHz, Dual Ranked RDIMMs 4개 (8 Gbyte) Hard disk 146GB 15K RPM SAS 2.5" (2) 4개 300GB 10K RPM SAS 2.5" (2) Network Two Broadcom 5709C dual-port Gigabit Ethernet 4port product DELL PowerEdge R710 1 node 4/12 페이지
H/W 구성정보 ( 파일서버 1 대 ) 세부사양 자원수 Cpu Intel(R) Xeon(TM) CPU 5110 @ 1.60GHz 2cpu(4 core) Memory 4GB 667MHz Fully-Buffered DIMMs Memory 4개 (16 Gbyte) Hard disk 146GB 15K RPM SAS 3.5" 5개 Network Two Broadcom 5708 Gigabit Network 2 Port product DELL PowerVault 500 1 node H/W 구성정보 ( 계산서버 6 대 ) 세부사양 자원수 Cpu Intel(R) Quad Core X5550 Xeon(R) CPU, 2.66Ghz 2cpu(8 core) Memory 4GB 1066MHz, Dual Ranked RDIMMs 12개 (48 Gbyte) Hard disk 146GB 15K RPM SAS 2.5" 7개 Network Two Broadcom 5709C dual-port Gigabit Ethernet 4 port product DELL PowerEdge R710 6 node BMT에사용된서버는 DELL의 PowerEdge R710 모델로 Intel Xeon의최신프로세서인 Nehalem CPU가기본장착되어있습니다. 계산에사용된 Total Core 수는 48개로구성되어있습니다. S/W 구성정보 S/W 명 S/W 버전 운영체제 Redhat Eenterprise Server(x86_64) Release 4 (update 8) HPC 구축 S/W GridCenter 1.9 해석 S/W(4) STARCCM+ Version 4.0.2 MPI S/W HPMPI S/W 별기본공급버전 Compiler Intel Compiler & MKL( 라이브러리 ) Version 10 IB Driver QLogicIB-IFS Version 5.0.2 본 BMT에사용된 HPC 구성, 해석작업실행, 성능최적화솔루션은 클루닉스에서 개발한 GridCenter 제품군을이용하였고, BMT에사용된예제는 STARCCM+ 의공급업체 에서제공한 BMT 예제입니다. 5/12 페이지
3. BMT 시나리오 본 BMT 진행주요절차는아래와같다. 본 BMT는초기구성된 HPC 환경에서 STARCCM+ S/W 벤더를통해제공받은예제로기본성능테스트를시행하여, 예제에대한무결성검증및최적해석실행조건을파악하였습니다. 그후해석 S/W 수행환경및시스템환경을최적화하고, 아래시나리오조건에의해테스트를진행하였습니다. 해석작업명령은위의 작업명령 과동일하며, 해석방식은 Single process를통한 Mesh 생성이후, Parallel 방식으로 1, 8, 16, 32개의 core를사용하여각각해석을수행한다. 그런후해석실행시간을측정한다. 6/12 페이지
4. BMT 항목별성능결과및세부분석 STARCCM+ 병렬계산성능결과 표기방식 : 시분초 (hms) 1core 8core 16core 32core Elapsed 783215(217 시간 ) 129600(36 시간 ) 74703(21 시간 ) 38721(11 시간 ) Speedup 1 6.04 10.48 20.22 STARCCM+ 의병렬계산의성능테스트결과 32core 해석시 1core 대비 20배의성능개선이일어나는것으로확인되었습니다. 특히본테스트환경과같이 Infiniband(20Gbps) 고속네트워크장비를통해서버간프로세서통신채널을구성할경우계산서버수의증가분에거의비례하여성능이개선되는것을확인할수가있었습니다. STARCCM+ 병렬계산성능결과 900000 25 800000 elapsed time(sencond) 700000 600000 500000 400000 300000 200000 20 15 10 5 speedup Elapsed Speedup 100000 0 1core 8core 16core 32core number of processor 0 본테스트의성능개선추이를보았을때 Infiniband 환경에서는계산노드를더확장하더라도지속적인성능개선이일어날수있는것으로예상됩니다. 7/12 페이지
STARCCM+ 의스케줄러자원할당최적화전 / 후성능비교결과 최적화전 최적화후 16core 해석 74703(21 시간 ) 57612(16 시간 ) 스케줄러최적화에따른성능개선결과 80000 70000 60000 elapsed time(second 50000 40000 30000 20000 최적화전최적화후 10000 0 최적화전 최적화후 자사의 HPC 구성, 운영및 CAE 해석성능최적화제품인 GridCenter-CAP을이용할경우 STARCCM+ 의병렬계산에이상적인 CPU 자원할당형태를제공하므로일반적인 CPU 할당방식의병렬계산보다 30% 에가까운성능이개선되는걸로확인되었습니다. INFINIBAND 와 GIGABIT 환경에서의 STARCCM+ 성능비교결과 GIGABIT(TCP) INFINIBAND(IBV) 32core 해석 43200 38721 본테스트는 STARCCM+ 병렬계산시프로세서간통신을담당하는네트워크장비에따른성능차이를분석해보았습니다. 20Gbps의고속네트워크대역폭을지원하는 IB 환경과일반적으로사용되는 1Gbps의 Ethernet 환경을비교한결과, IB기반의 32core 해석에서 10% 정도의성능개선이확인되었습니다. 8/12 페이지
GridCenter 작업진행화면 아래는본테스트를진행하면서, CAE 해석최적화환경을구현할때사용된자사의 GridCenter-CAP 주요화면입니다. 9/12 페이지
10/12 페이지
11/12 페이지
12/12 페이지