ABAQUS-Explicit AMD8350 vs Xeon5420 성능비교분석 본자료는 클루닉스에서자사시뮬레이션포털구성제품인 GridCenter를통해 KAIST SSSLAB 시스템을대상으로측정한 ABAQUS BMT한결과자료입니다. 본사의허가없이는무단배포및기타인용을금합니다. 테스트환경 : GridCenter-CAP, GridCenter-HPC, CAE 어플리케이션 (Abaqus-6.7) 테스트주관 : 클루닉스기술부시스템구축밑튜닝 : 클루닉스기술부 CAE 어플리케이션구축및튜닝 : 클루닉스기술부 1/5 페이지
1. ABAQUS 6.7 Explicit 예제해석성능결과 본테스트결과는 http://www.abaqus.com 에서제공하는 abaqus benchmark suite 에포함된 explicit 예제인 e1.inp 를대상으로평가한결과자료입니다. SSSLAB 평가대상시스템사양은아래와같습니다. 분류 상세정보 용량 Platform Supermicro(H8QM3) Processor Quad-Core AMD Opteron(tm) Processor 8350 2.0 GHz 4CPU x 4Core = 16core L2 Cache 8MByte ( 512KB/core ) Memory DIMM Synchronous 333 MHz (3.0 ns) 2GByte x 16 = 32GByte Disk SAS 67G & SAS 137G Network Intel 82546GB Gigabit Ethernet Controller 아래사양표는 2007년도후반기에진행한 BMT에사용한사양정보로 SSSLAB의현보유시스템과동일한사양과 Intel 계열의유사용량의클러스터시스템과의비교분석테스트를진행한사양정보입니다. Intel Cluter Amd SMP System CPU Xeon E5420 (8core) 2.0 GHz L2 Cache 8MByte MEM 16GByte (DIMM 667 MHz) HDD ST3500630AS 465GByte NODE_Num 2 Total Core_Num 16 CPU Opteron 8350(16core) 2.0 GHz L2 Cache 4MByte MEM 16GByte (DIMM 333 MHz) HDD ST325031AS 232GByte NODE_Num 1 Total Core_Num 16 2/5 페이지
예제소개 : e1.inp 본예제는 abaqus 사에서 explicit solver 의성능벤치마킹용도로제시하고있는예제입니다. E1: Car crash 본 Benchmark 예제는자동차를대상으로도로표면과벽을 경계조건으로설정하여 25mph 의초속도로벽면에충돌시키는 상황을시뮬레이션하는예제입니다. E1 Input file name: e1.inp Increments: 62,934 Number of elements: 274,632 Inital stable time increment: Final kinetic energy: Memory requirement: 9.535E-07 2.100E+06 1200 MB BMT 결과 Core 수 대상시스템 AMD 8350 (16core x 1node) Xeon 5420 (8core x 2node) 1 11시간20분35초 6시간50분36초 (1node) 4 3시간32분24초 2시간50분24초 (1node) 8 2시간03분50초 2시간10분06초 (1node) 1시간29분52초 (2node) 16 해석실패 1시간02분28초 (2node) 3/5 페이지
a8530 vs x 5420 12 10 runtime (hour) 8 6 4 amd8530 xeon5420 2 0 1 4 8 16 core 수 BMT 결과분석 Abaqus explicit의경우병렬해석처리시 CPU수의증가로인한성능개선이뛰어난해석프로그램중하나입니다. 다양한시스템으로테스트해본결과 SMP보다는분산시스템상에서의 MPP 성능이더우수한걸로확인이되었습니다. Abaqus Implicit의경우 scratch file 생성으로인한 disk I/O의병목이많은관계로 Local Disk를사용할수있는 SMP 시스템이더우수한성능을발휘한다는관점이있지만, 근래들어고속의클러스터파일시스템을이용하여, implicit의경우에도분산 Mpp 시스템이더우수한성능을발휘한다는것을검증한바있습니다. MPP 계산환경의경우요근래단일시스템내 multi core 프로세서의활성화로많은 core를장착한시스템이출시되고있는데실제 abaqus explicit의경우 multi core를 shared memory 방식으로이용했을때성능이지속적으로개선되지는않는다는것을검증해왔습니다. 물론 core수가많은것이단점이될수는없지만 core 수와비례하여성능 Liner 하게개선된다는기대는할수없다는것이여러테스트로증명되었습니다. 수차례 Abaqus explicit의테스트결과 Quad core의경우실제 Single Core를사용했을때에비해 Dual Core를사용하여계산을하면 2배에가까운성능이나옵니다. 하지만 Quad Core를모두사용했을때는 Single Core에비교했을때 2.2~2.4배정도의성능개선이되는것을확인하였습니다. 이부분은 core수의증가와맞게 L2 Cache memory도증가되어야하는데, 그렇지못한영향이크다고볼수있습니다. 이런부분을고려했을때 multi core 시스템을이용하여 4/5 페이지
최고성능을목적으로작업을수행할경우 multi core 수의 1/2 수만을이용하여분산시스템에서 MPP 계산을할경우가장효과와효율을고려한성능이나오는것을확인하였습니다. (core수로반영되는고가의해석프로그램라이센스를고려할경우..) 본테스트와동일사양의기존테스트에서도유사한증세를발견하였는데, AMD 8350 시스템의경우 16 core를이용하여 MPP 작업을수행했을경우해석초기에오류가발생하는증세가있었습니다. 본테스트의경우에도 16 core를이용하여해당예제를해석했을때예제에대해해석영역분할을진행하는초기단계에서분할할수없다는오류가발생하여해석이불가능하였습니다. 참고로본예제의경우 Intel 계열의 Xeon 프로세서에서 64core까지테스트를성공적으로진행한적이있습니다. 또한기존에 AMD 8350 시스템으로지질공학분야에서사용되는 DMS 해석프로그램을이용하여테스트진행시에도 16core로 MPP 수행시유사한문제가발생한적이있습니다. 현재이런사례에대해서는 AMD 본사기술연구소측에문의를해놓은상태입니다. 테스트결론은 E5420 시스템의경우 8core 조합의계산에서 2시간10분06초의성능이나왔지만이는 2노드구성의 MPP 분산환경에최적화된방식으로푼 case가아니고, 2 노드구성이지만단일노드에서 8개 core를모두사용한경우입니다. 만일 2 노드를모두사용하고노드당 4core만을이용하여 8 core 프로세서조합으로계산할경우측정결과는 1시간 29분 52초였습니다. 이와같은결과를통해성능관점에서보면 AMD8350 16core 단일노드시스템보다는 E5420 8 core 2 노드구성의분산시스템이 Abaqus 해석환경에더유리한시스템환경이라결론이내려집니다. 분산시스템관리적인이슈는본사의 그리드센터 라는솔루션이해결을해드릴수있을것입니다. 5/5 페이지