DELL PowerEdge R710 Server 성능분석보고서 본자료는 클루닉스에서자사통합시뮬레이션시스템구성제품인 GridCenter를이용하여 Dell PowerEdge R710 서버의성능을분석한보고서입니다. 클루닉스와 DELL의협의없이발췌및배포를금합니다. BMT 환경 : GridCenter-CAP, GridCenter-HPC, CAE 어플리케이션 Abaqus,Fluent,Gaussian BMT 주관 : 클루닉스기술부 BMT 일자 : 2009년 01월 28일 ~2009년 02월 4일시스템구축밑튜닝 : 클루닉스기술부 / 수석컨설턴트서진우 CAE 어플리케이션구축및튜닝 : 클루닉스기술부 / 수석컨설턴트서진우 1/9 페이지
1. BMT 시스템하드웨어정보 * BMT 서버사양정보 세부사양 자원수 Cpu Intel(R) Xeon(TM) Quad CPU 2.27GHz 2cpu(8core) Memory DDR3 2GByte 6개 (12Gbyte) Hard disk SAS DELL 146GByte 4개 Network BM NetXtreme II BCM5708 Gigabit Ethernet 2port nodes Dell (PowerEdge) 1 nodes * BMT 비교대상서버사양정보 세부사양 자원수 Cpu Intel(R) Xeon(TM) Quad 2.66 GHz 2cpu(8core) Memory DIMM Synchronous 667 MHz 2GByte 16개 (32Gbyte) Hard disk OS Part : SAS67GByte, Data Part : MegaRAID SAS 1078(RAID0) 280GByte Network BM NetXtreme II BCM5708 Gigabit Ethernet 2port nodes Dell (PowerEdge) 1 nodes 2. BMT 시나리오 본 BMT는 DELL에서새로준비중인 Intel 코어 i7 네할렘계열의 Xeon 프로세스를장착한 R710 서버에대한성능을테스트한것이다. 기존의주요프로세서모델인 프로세서와의성능을다양한해석어플리케이션을통해비교분석하였다. BMT 주요내용은다음과같다. - Gaussian 어플리케이션의단일프로세서를이용한단일작업의처리성능비교 - Gaussian 어플리케이션의단일프로세서를이용한다중동시작업 (8job) 에대한작업처리량비교 - Abaqus 어플리케이션의 8core MPI 단일작업에대한처리성능비교 - Abaqus 어플리케이션의 4core MPI 단일작업에대한처리성능비교 - Abaqus 어플리케이션의 4core MPI 다중작업에대한동시처리량비교 4core 1job x 2 - Fluent 어플리케이션의 1core/4core/8core에대한 Scalability 성능비교 각어플리케이션의테스트예제는삼성종합기술원에서삼성전자슈퍼컴퓨터추가증설사전 BMT 시요구한테스트예제를사용함. 단 Fluent의경우타연구실에서 BMT 요청한예제를이용하여테스트함. 2/9 페이지
3. BMT 결과 Gaussian 단일프로세서성능비교 ( 단위 : second ) Elapsed Time 57844 50106 60000 58000 Gaussian 1proc/1job result elapsed Time (sec) 56000 54000 52000 50000 48000 46000 단일프로세서를이용한단일작업의성능은 CPU Clock이높은 시스템의성능이더좋게측정되었다. 의경우 CPU Clock이 2.27GHz인데비해 의 CPU Clock는 2.66GHz이고, Clock 에비례하여성능이나오는걸로분석됨. 3/9 페이지
Gaussian 동시작업처리량성능비교 1proc x 8job ( 단위 : second ) Max Elapsed Time 82116 83894 Min Elapsed Time 72206 81724 Avg Elapsed Time 77161 82809 Gaussian 1proc/8job result 86000 84000 82000 elapsed Time (sec) 80000 78000 76000 74000 72000 70000 68000 66000 max min avg 본테스트는단일프로세서를이용한 Gaussian 작업을동시에 8개를수행한테스트이다. Gaussian 의경우프로세서성능도중요하지만해석시발생하는 scratch로인한 Disk I/O 처리성능역시매우중요하다. 시스템의경우기본 Disk 구성에서수행하였고, 은별도의 Scratch 처리디스크로 Raid-0 구성의디스크를제공한환경이다. 의 Disk 처리환경이월등히좋은조건을가졌지만동시작업처리량은 이더우수한걸로측정되었다. 의 Disk 환경이 과동일했을경우더높은성능을발휘할수있을것이다. 4/9 페이지
Abaqus 4core, 8core MPI 단일작업처리성능비교 ( 단위 : second ) Elapsed Time (4core) 8740 8864 Elapsed Time (8core) 4851 7763 Abaqus MPI 처리성능결과 10000 9000 8000 Elapsed Time (sec) 7000 6000 5000 4000 3000 2000 1000 0 4core 8core 본테스트는 4core 구성과 8core 구성으로 abaqus explicit 해석을수행한결과이다. 4core 구성에서는 이 에비해근소하게우수한성능을나타내지만 8core 구성에서는 이 에비해 1.7배에가까운높은성능을나타내는것을확인할수있었다. 네할렘프로세서의경우 L2 Cache가 16MByte로 E54XX의 12MByte 보다높으므로 multi core에서의상호간프로세서처리효율이매우좋아진것을확인할수있다. 5/9 페이지
Abaqus 4core MPI 작업동시처리성능비교 4proc x 2job ( 단위 : second ) Max Elapsed Time 9254 15270 Min Elapsed Time 9152 15207 Avg Elapsed Time 9203 15239 abaqus 4procx2job 성능결과 18000 16000 14000 Elapsed Time (sec) 12000 10000 8000 6000 4000 2000 0 max min avg 본테스트는 4core MPI로실행된 abaqus explicit 해석 2개작업을동시에수행한결과이다. 상위테스트와같이 multi core의효율이좋은 이 모델에비해 1.5배이상좋은성능을나타내는것을확인할수있다. 6/9 페이지
Fluent 어플리케이션의 1core/4core/8core 에대한 Scalability 성능비교 ( 단위 : second ) Elapsed Time (1core) 43994 42637 Elapsed Time (4core) 16699 24517 Elapsed Time (8core) 9127 14587 Fluent Core 증가별 Scalability 성능결과 50000 45000 40000 Elapsed Time (sec) 35000 30000 25000 20000 15000 10000 5000 0 1core 4core 8core Number of Processor 본테스트는 Unsteady 조건의 Fluent 해석으로해석조건은 Time Size:0.01, Time Step:100, Iteration:20 회로정의된해석이다. 1core로테스트시에는실제 CPU Clock 높은 서버가더높은성능을나타낸다. 하지만여러개의 core를동시에이용한병렬작업에서는 서버가월등하게우수한성능을나타내는것을확인할수있다. 8core 해석시 이 에비해 1.5 배이상빠른처리속도를나타내는것을확인할수있다. 7/9 페이지
Fluent 어플리케이션의 1core/4core/8core 에대한 Scalability Speedup 비교 Elapsed Time (1core) 1 1 Elapsed Time (4core) 2.6 1.7 Elapsed Time (8core) 4.8 2.9 Fluent Core 증가별 Speed Up 성능결과 6 5 4 Speed up 3 2 1 0 1core 4core 8core Number of Processor 본결과는상위테스트의 core 확장별 scalability 성능을 speed up으로비교한자료이다. 결과는 Multi core의효율이높은 서버의 speedup 이 서버에비해 1.9배이상좋은 Scalability를나타내는것을확인할수있다. 8/9 페이지
4. BMT 결론 기존의 Quad Core의경우 Multi core의효율적부분에서부적합하다는문제가많이대두되었다. 실제 Quad Core 2 CPU (8core) 시스템의경우프로세서아키텍처에맞게최적화개발된어플리케이션이아닌이상실제 8core의효과를볼수없었다. 범용적인 MPI 어플리케이션의경우실제 8core 로구성된서버라도 4core에서최적의효율이나오는것이대부분이였고, 8core로해석하더라도 4core에비해근소하게성능이개선되는문제가존재하였다. 이번에새로출시된인텔코어 i7계열의네할렘프로세서의경우이런문제점이매우개선된것을확인할수있다. 실제 8core 해석시 8core의효율이비교적안정적으로보장되는것을확인할수있었다. Abaqus의경우기존 서버 2대를구성하여 16core로해석한경우 4514초의수행시간이소요된반면 의경우 1대서버에서 8core 해석만으로수행속도가 4851초로실제기존 서버의 2대성능과유사한성능을나타내는것을확인할수있다. ( 기존 E54XX 시스템에 Abaqus 수행시서버당 4core가최대효율의 Core 수라는것을여러가지테스트를통해확인한바있다. 서버 2대로 16core를구성하더라도 서버 2대의 8core 구성으로해석할때와아주큰성능차이는나진않는다. ) 서버의경우매우효율적인 Multi core 성능을가지고, MPI 작업시단일작업처리성능이나동시작업처리성능에서 에비해평균 1.5배이상의성능개선이있음을이번 BMT를통해확인할수있었다. 9/9 페이지