국가슈퍼컴퓨팅연구소 National Institute of Supercomputing & Networking 국가슈퍼컴퓨팅연구소슈퍼컴퓨팅인프라구축및운영 2014 년 07 월 15 일 우준 2014 년 SCENT HPC Summer school
2
3
1. 연혁및조직도 (1) KISTI 국가슈퍼컴퓨팅연구소 1960 한국과학기술정보센터 (KORSTIC, 1962) 과기처 국제경제연구원 (KIEI) 과통합 한국과학기술연구원전자계산실 (1969) 1980 1990 산업연구원 (KIET, 1982) 상공부 산업기술정보원 (KINITI, 1991) 산자부 산업연구원 (KIET) 와분리 연구개발정보센터 (KORDIC, 1993) 과기처 1999 시스템공학연구소 (SERI) 과학기술정보유통사업단 (1991) 정통부 한국전자통신연구원 (ETRI) 슈퍼컴퓨팅센터 (1996) 2000 교과부 과기부 한국과학기술정보연구원 (KISTI, 2001) 2012 2013 국가초고성능컴퓨팅센터 (NISN- 국가슈퍼컴퓨팅연구소 ) 지정 (9 월 ) 미래창조과학부 3 개연구소 (9 개전문연구센터 ) 체제개편 4
1. 연혁및조직도 (2) KISTI 5
2. 설립배경 (2011년 국가초고성능컴퓨팅활용및육성에관한법률 제정 ) - 시행령제11조- - 법률제9조 1항 정부는국가초고성능컴퓨팅의육성과그활용을촉진하기위하여대통령령으로정하는바에따라국가초고성능컴퓨팅센터를설립또는지정할수있다. 미래창조과학부장관은법제 9 조제 1 항에따라 과학기술분야정부출연연구기관등의설립ㆍ운영및육성에관한법률 에따라설립된한국과학기술정보연구원을국가초고성능컴퓨팅센터 ( 이하 " 국가센터 " 라한다 ) 로지정한다. 국가슈퍼컴퓨팅연구소 1. 국가소요초고성능컴퓨팅자원수요예측 2. 세계적수준의초고성능컴퓨팅자원확보및운용 3. 산학연협력을통한국가초고성능컴퓨팅연구개발수행 4. 초고성능컴퓨팅자원연동기술지원및초고성능컴퓨팅자원공동활용관리 5. 첨단연구망의관리및운영 6. 초고성능컴퓨팅관련기반 응용연구및연구결과보급 7. 초고성능컴퓨팅관련전문인력의양성 교육훈련및기술지원 8. 초고성능컴퓨팅관련기술정보수집및보급 9. 초고성능컴퓨팅관련국제협력업무수행 10. 초고성능컴퓨팅국내외동향조사및활성화방안등정책연구 11. 그밖에초고성능컴퓨팅관련업무 - 법률제9조 3항 - 6
3. 미션및주요기능 국가초고성능컴퓨터활용및육성에관한법률 제 9 조 목적 미션 국가초고성능컴퓨팅의육성과그활용을촉진 7
조직 : 3 센터 2 실국가슈퍼컴퓨팅연구소슈퍼컴퓨팅중소기업지원실슈퍼컴퓨팅전략실슈퍼컴퓨팅서비스센터슈퍼컴퓨팅융합연구센터첨단연구망센터슈퍼컴퓨팅인프라운영실슈퍼컴퓨팅서비스통합실슈퍼컴퓨팅사용자지원실대용량데이터허브실지구환경지원팀첨단연구망서비스실과학기술정보보호실첨단연구망개발팀스마트교육서비스팀슈퍼컴퓨팅기술개발실첨단응용환경개발실고성능바이오컴퓨팅팀비주얼슈퍼컴퓨팅팀슈퍼컴인프라구축및운영 4. 조직현황 8
5. 연계도 슈퍼컴퓨팅서비스센터 슈퍼컴퓨팅자원확보및운용슈퍼컴퓨팅자원연동기술지원및공동활용관리슈퍼컴퓨팅기술지원국가현안대응체계구축 슈퍼컴퓨팅인프라운영실 슈퍼컴퓨팅융합연구센터 슈퍼컴퓨팅연구개발수행슈퍼컴퓨팅전문인력양성계산과학공학연구환경구축및서비스 첨단연구망센터 첨단연구망관리및운영 첨단연구망관련기술개발 첨단연구망실시간보안관제, 침해대응체계구축및서비스 슈퍼컴퓨팅중소기업지원실 중소 / 중견기업 M&S 지원중소 / 중견기업 M&S 교육 슈퍼컴퓨팅전략실 국가슈퍼컴퓨팅계획수립및시행지원연구소사업기획, 조정, 관리 9
10
1. 개요 1.1. 인프라구성요소 과학기술및산업체연구개발자 User support / Documents Monitoring Statistical analysis Applications Compiler/MPI/Mathlib/Debugger Parallel FS / HSM / Backup Interconnection HW/IPMI/BIOS Service Network Scheduling Accounting OS PLSI/DURE Integration Middleware Security KREONet 거점센터 연동센터 Power Facility Cooling Facility 슈퍼컴퓨터스토리지보안 네트워크기반시설 국가센터 11
1. 개요 1.2. 미션 국가초고성능컴퓨터활용및육성에관한법률 [ 시행 2011.12.8] [ 법률제 10770 호, 2011.6.7, 제정 ] [ 시행 2013.3.23] [ 법률제 11679 호, 2013.3.23, 일부개정 ] 국가슈퍼컴퓨팅연구소는 국가초고성능컴퓨터활용및육성에관한법률 ( 법률제 10770 호 ) 에서정한 국가슈퍼컴퓨팅활용활성화와육성의임무 달성을위해, 법률 9 조 3 항에서정의된국가센터로서의기능을수행해야함. 슈퍼컴퓨팅서비스센터는국가센터가수행해야하는기능 11 개중 5 개수행 슈퍼컴퓨팅인프라운영실은서비스센터가수행해야하는기능 5 개중 2 개수행 분야인프라구축연구개발활성화정책지원 사업내용 2. 세계적수준의초고성능컴퓨팅자원확보및운용 4. 초고성능컴퓨팅자원연동기술지원및초고성능컴퓨팅자원공동활용관리 5. 첨단연구망의관리및운영 3. 산학연협력을통한국가초고성능컴퓨팅연구개발수행 6. 초고성능컴퓨팅관련기반 응용연구및연구결과보급 7. 초고성능컴퓨팅관련전문인력의양성 교육훈련및기술지원 1. 국가소요초고성능컴퓨팅자원수요예측 8. 초고성능컴퓨팅관련기술정보수집및보급 9. 초고성능컴퓨팅관련국제협력업무수행 10. 초고성능컴퓨팅국내외동향조사및활성화방안등정책연구 11. 그밖에초고성능컴퓨팅관련업무 12
1. 개요 1.3. 목표 국가슈퍼컴퓨팅체제를기반으로한 HPC 생태계구축 국가슈퍼컴퓨팅인프라구축및운영효율성제고 안정적운영 인프라확충 연동기관시스템운영지원 연동서비스인프라고도화 국가센터슈퍼컴퓨팅인프라 슈퍼컴퓨터스토리지 보안 / 네트워크장비 기반시설 거점센터 국가슈퍼컴퓨팅공동활용인프라 PLSI 체계 ( 현재 ) 2007년 ~ 연동센터 자원연동 ( 통합운영 ) 전환준비 국가체계 ( 미래 ) 전문센터 연동 ( 특화 ) 센터 13
1. 개요 1.4. 추진전략 소과제목적국가슈퍼컴퓨팅인프라구축및운영 ( 효율성제고 ) 중점추진업무 어떻게? 추진전략국가슈퍼컴서비스기반확립을위한운영기반강화및리더십확립 세계 7 위수준의 (How 1) 국가슈퍼컴퓨팅인프라구축 서비스에최적화된 어떻게? (How 2) 국가슈퍼컴퓨팅인프라운영 운영고도화위한 (How 3) 슈퍼컴인프라운영기술개발 국가의중심인프라로써국가센터슈퍼컴인프라확충 ( 구축 ) - 복합지원동신축 -5 호기도입준비 -4 호기성능보강 자원활용효율향상위한국가슈퍼컴공동활용인프라구축 ( 확대 ) - 신규자원연동 (2015 년이후국가지정연동 / 전문센터 ) 최적성능의국가센터슈퍼컴인프라운영 - 안정적운영 - 에너지효율개선 서비스중심의슈퍼컴공동활용인프라운영 운영기술기반강화위한인프라요소기술구현 ( 개발 ) - 운영기술지원 - 스케줄러 - 병렬파일시스템 - 보안로그분석 운영리더십확립위한인프라운영기술표준화 14
1. 개요 1.5. 추진체계 상주협력사 (6 개사이상 ) 총무시설팀 슈퍼컴복합지원동건축감독 ( 기계 ) 서비스통합실 (PLSI 사무국 ) 슈퍼컴전략실 운영통계미래부대응자료제공 운영기술전문성향상 슈퍼컴인프라운영실 사용자지원협력 5 호기테스트베드애플리케이션 BMT 사용자지원실 대내외협력강화 연구망서비스실 PLSI 연동네트워크구축운영 융합연구센터 공동활용연동자원제공 자원연동및운영기술지원 전문센터-1 전문센터-N 연동센터-1 연동센터-N 공동활용자원연동기관 15
1. 개요 1.6. 인력및업무분장 구분 담당 주요업무 총괄 행정지원 우O 실업무총괄 김OO 행정업무지원 총원 14 명 ( 내부 8 명, 외부 6 명 ) 업무협력사 ( 모니터링및 H/W 유지보수 ) 홍 OO T-2 운영 총괄, Interconnect, 하드웨어, BIOS 박 OO 통계및기술분석 김 OO 모니터링, 스케줄러, 계정, 통계 TACHYON 운영팀 윤 OO T-2 운영 병렬파일시스템, HSM, OS 오라클지원팀 최 OO T-1 운영 병렬파일시스템, HSM, OS 안 OO Interconnect, 하드웨어, BIOS 이 OO T-1 운영 - 사용자애플리케이션, 사용자지원 최 OO GAIA/PLSI 시스템운영 - 총괄 IBM 지원팀 GAIA/PLSI 운영팀 이 OO GAIA 운영 시스템소프트웨어 PLSI 지원팀 김 OO PLSI 시스템운영 - 병렬파일시스템 시스템오 보안 네트워크운영팀이 OO 보안 네트워크운영업무총괄 보안관리엔아이티 ( 박사급 : 2 명, 석사급 : 9 명, 학사급 : 3 명 ) 기반시설운영팀고 OO 기반시설운영총괄가교테크 16
1. 개요 1.7. 예산편성 국가슈퍼컴퓨팅인프라구축및운영 ( 기본사업 ) 2014 년예산약 77.98 억원 내부인건비 7% 경직성경비 82% 외부 인건비 2% 기타 직접비 9% 외주 용역비 21.5% 전기료 22.3% 유지 보수비 56.2% 사업비편성 경직성경비 17
. 구축및운영주기 (1) 구축 (1.5 년 ) 시스템선정 / 계약 (1 년 ) 설치및 NOA 발급 (0.5 년 ) 기반시설구축 (1 년 ) 퇴역 ( 기존 시스템 ) 입찰공고및제안서접수 제안서평가, 협상대상자선정 협상및낙찰자선정 도입계약체결 기반시설설계 장비구매및공사 하드웨어반입및설치 시스템소프트웨어구성 사용자프로그래밍환경구성 네트워크및보안장비구성 안정성시험 BMT NOA 발급 18
. 구축및운영주기 (2) 운영 (5 년 ) 서비스개시및안정화 (1 년 ) 내 외부베타테스트 운영및사용자정책수립 사용자지침서작성 서비스위한시스템재구성 사용자서비스개시 시스템성능최적화 주요시스템구성요소안정화 고도화 (4 년 ) 운영및서비스환경개선 신기술시험적용 요소기술개발 수요조사및예산확보 최신기술동향분석및시험 도입준비 (1 년 ) 장애 ( 보안침해 ) 및성능모니터링 장애분석및대응, 예방 / 긴급정비 사용자기술지원, 운영지침서작성 ( 개정 ) 기능 / 성능문제점분석및해결방안적용 RFP 작성, BMT suite 준비 평가기준수립, 도입위원회구성 기본운영업무 19
슈퍼컴 1 호기 3. 구축및운영이력 3.1. 슈퍼컴퓨터연혁 슈퍼컴 2 호기 Vector Processor System Commodity Cluster 슈퍼컴 4 호기 ( 운영중 ) TACHYON Cray-2S 1988. 11 ~ 1993. 10 Cray T3E 1997. 6 ~ 2002. 12 MPP PLUTO(128cpus) 2002. ~ 2008 IBM e1350(512cpus) 2004.1 ~ 2008.9 슈퍼컴 3 호기 Sun B6048 (1 st phase-192nodes) 2008. 1 ~ Sun B6048 (2 nd phase-3,200nodes) 2009.9 ~ Vector Processor System Cray C90 1993. 11 ~ 2001. 5 NEC SX-5 2001. 5 ~ NEC SX-6 2003. 2 ~ 2009. 9 Large SMP System GAIA HP SMP 2000. 5 ~ IBM p690 (1 st phase-4nodes) 2002. 1 ~ 2008. 9 IBM p690+ (2 nd phase-17nodes) 2003. 7 ~ 2008. 9 IBM p595 (1 st phase-10nodes) 2007.9 ~ IBM p595 (2 nd phase-24nodes) 2009.6~ 1988 1993 1997 2000 2002 2004 2008 2009 High-end visualization CAVE & SGI Onyx3400 2002. 4 ~ Visualization Cluster 2004. 10 ~ HP visualization cluster (892 cores, 109 GPUs) 2008. ~ 20
3. 구축및운영이력 3.2. 세부이력 (2007 년 ~2010 년 ) 구분 2007 년 2008 년 2009 년 2010 년 GAIA 도입계약체결 1 차설치 1 차안정화 2 차설치 2 차안정화 4 호기 TACHYON 보안네트워크 도입계약체결 1차설치 1차안정화 2차설치 도입계약체결 보안및백본네트워크 ESM 설치 보안 / 백본네트워크설치 안정화 서버보안 (TOS) 도입 기반시설 4 호기기반시설 (1 차 ) 구축 4 호기기반시설 2 차구축 연동기관수 2 4 7 11 PLSI 연동자원규모 (GFlops) 기타 915.2 12,790.6 17,864.6 81,792 국가슈퍼컴퓨팅공동활용 PGFS 구축 (70TB) 사용자서비스개시 거점센터발굴 (2개 ) 체제구축 (PLSI) 사업시작 통합 S/W 스택설계 구현 PGFS 확장구축 (200TB) 운영 ( 연동 ) 기술개발 PLSI 글로벌공유파일 시스템구축기술연구 GUI 기반슈퍼컴사용자환경개발 4호기장애모니터링시스템개발 음성경보시스템 (VAS) 개발 PLSI 사용자포털개발 PLSI 통합모니터링시스템개발 PLSI 망동적상태관리시스템개발 21
3. 구축및운영이력 3.3. 세부이력 (2011 년 ~2014 년 ) 구분 2011 년 2012 년 2013 년 2014 년 GAIA 애플리케이션전용서버구축 2 차안정화 (Lustre, IB) 2 차안정화 (SGE, SAM-QFS) 스토리지확장 (2.4PB) 확장스토리지안정화 TACHYON 노드장애자동감지기능구현 노드장애자동감지기능개선 작업필터링기능강화 디스크장애대응강화 4 호기 보안네트워크 관리자 OTP 인증도입 취약점점검도구도입 인증서기반인증도입 ( 포털 ) F/W 정책관리시스템구축 노후장비 (4종) 교체 사용자 OTP 인증도입 교체장비안정화 DDOS 대응장비구축 모의침투점검도구도입 웹방화벽도입 보안소프트웨어추가도입 백본네트워크재구성 냉기집중케이스설계구현 외기냉방및냉수냉방 복합지원동설계 복합지원동건설 기반시설 시스템설치 노후장비 (5 종 ) 교체 교체장비안정화 전력모니터링시스템구축 5 호기 예타기획보고서작성지원 예타대응지원, RFP 작성 자체테스트베드구축시험 연동기관수 10 10 9 7 PLSI 연동자원규모 (GFlops) 기타 81,100 102,000 402,000 392,000 PGFS 재구성 사무국이관 PLSI 네트워크재구성 ( 서비스통합실 ) 거점센터확대 (4개) PLSI 사용자포털고도화 차세대데이터공유시스템 페타급슈퍼컴장애분석 페타급슈퍼컴장애분석 PLSI 통합모니터링시스템 구축 시스템개발 시스템적용시험 운영 ( 연동 ) 기술개발 고도화 사용자정보통합관리 슈퍼컴자원관리시스템개발 보안관제시스템개발 운영업무통합시스템개발 시스템개발 요건정의 PLSI 망상태측정시스템개발 22
23
1. GAIA 1.1. 개요 대용량메모리를요구하는병렬프로그램실행을위한 SMP 클러스터시스템 주요응용분야 ( 구조 열유체 화학등 ) 상용소프트웨어지원 24
1. GAIA 1.2. 하드웨어사양 Cluster of SMPs Memory intensive Computing System for Massive Parallel Jobs ranked at the 394 th in top 500 list in Nov. 2009 Classfication 1 st phase 2 nd phase System model IBM p595 Processor model POWER5+ 2.3 GHz POWER6 5GHz # of cores per node 64 64 # of nodes 10 24 Total memory 2.7 TB 9.2 TB (0.25TB 18nodes, 0.5TB 4nodes, 1TB x 2nodes) Disk storage 63 TB, SAN based 273 TB, SAN based Interconnection network HPS IB 4X DDR Peak performance 5.88 TFlops 4.98 TFops (Rmax) 30.7 TFlops 23.37 TFLops (Rmax) Production service startup 2008.1 2009.10 25
1. GAIA 1.3. CPU 아키텍처 Classification 1 st phase 2 nd phase Model POWER5+ POWER6 Clock speed 2.3GHz 5.0 GHz Peak performance /core 9.2GFlops 20GFlops # of cores / chip 2 2 L1 64/32 KB (I/D) /core 64/32KB (I/D) /core Cache L2 3*0.625MB/chip 4MB/core L3 36MB/chip 32MB/chip [ Source: overview of recent supercomputers 2007, 2009 ] 26
1. GAIA 1.4. 소프트웨어 프로그래밍환경 27
1. GAIA 1.5. 소프트웨어 상용소프트웨어 Field Software Features System Ver. Abaqus/standard Abaqus Abaqus/explicit GAIA 6.7-4~6.10-3 Abaqus/aqua 등 MD Nastran MSC Nastran MD Nonlinear GAIA R3.1, 2010 MD Adv Nonlinear 등 Structural Mechanics Fluid Thermo Mechanics LS-DYNA LS-DYNA 등 GAIA SYSNOISE FEM/BEM Uncoupled/coupled Harmonic/transient 등 GAIA 5.6 V971-R421 V971-R50 V971-R51 ANSYS Mechanical, Emag 등 GAIA V11.0~V13.0 CFX Full Capability Solver GAIA V10.0~V13.0 STAR-CD PROSTAR, STAR, CCM+ GAIA ~V4.12~V6.02 FLUENT Fluent, TGrid, Gambit GAIA V63 V12.0 V13.0 GAUSSIAN GAIA TACHYON I 03 09 AMBER GAIA TACHYON II 10.0 Chemistry /Life Science CHARMM GAIA C35B1 C35B5 Q-Chem TACHYON II 3.2.0.3 mm-par TACHYON II 2.0 Mathematica MDCS 등 TACHYON II 8.0.1 28
1. GAIA 1.6. 구성도 1st phase 2nd phase C3560G x 2 HPS 10 nodes p595 + 1GbE Fibre Channel(4Gb) Debug p575 2 Gates 2 Logins p510q 2 HMCs C05 Mgmt #1 p52 0 p6 p595 p595 p6 H H p6 H IB SW 2 HMCs p6 24 nodes C06 H Mgmt #2 p520 Integration Switch (10GbE) 10GbE SAN Director DS4700 * 3 DS4700 * 13 29
1. GAIA 1.7. GPFS 파일시스템구성 30
2. TACHYON 2.1. 개요 다수의노드를요구하는대규모병렬프로그램을실행하기위한리눅스클러스터시스템 2014년 6월발표 TOP500 슈퍼컴퓨터성능순위리스트에서 167위로등재 (2009년 11월 14위 ) 31
2. TACHYON 2.2. 하드웨어사양 Classification 1 st phase 2 nd phase System model Sun Blade 6048 Processor model AMD Barcelona 2.3GHz Intel Nehalem 2.93 GHz # of cores per node 16 ( 4core/4socket) 8 (4core/2socket) # of nodes 192 3,200 Total memory 6 TB (32GB/node) 76.8 TB (24 GB/node) Disk storage 203 TB 1,203 TB Interconnection network IB 4X DDR IB 4X QDR Linpack Performance 28.2 Tflops* 23.0 Tflops**(Rmax) 300 Tflops 274.8Tflops (Rmax) Service open 2008.9 2010.2 *: before upgrade CPU to 2.3, 24.58 / 16.99 Tflops **: estimated 32
2. TACHYON 2.3. 소프트웨어 based on Sun HPC Software Stack 2.0.2 Classfication 1 st phase 2 nd phase OS CentOS 4.6 RedHat 5.3 Kernel 2.6.9-67.0.22 Parallel File System Lustre 1.6.5.1 OFED 1.3.1 MPI Compilers MVAPICH 1.0 OpenMPI 1.2.5 PGI 7.1 Intel 10.1 GCC 3.4.6 2.6.9-128 upgraded to 2.6.18-194.17 Lustre 1.8.1.1 upgraded to 1.8.5 1.4.1 upgraded 1.5.2 MVAPICH 1.1 ~ 1.2 MVAPICH2 1.2 ~ 1.5 OpenMPI 1.3.2 ~ 1.4.2 PGI 8~9 Intel 10.1~1.1 GCC 4.1.2 Job Scheduler SGE 6.1 SGE 6.2 u4 Profiler/Debugger TAU / Totalview TAU /Totalview Provisioning Native Kickstart YACI Monitoring NAGIOS, Ganglia NAGIOS, Ganglia 33
2. TACHYON 2.4. 프로세서아키텍처 Classfication 1 st phase 2 nd phase model AMD Opteron K10 Barcelona Intel x5570 Nehalem clock speed 2.3GHz 2.93 GHz peak performance /core 9.2GFlops 11.72GFlops # of cores / socket 4 4 # of sockets / node 4 2 type DDR2 667GHz DDR3 1333GHz Memory Cache Bandwidth dual channel 10.7 GB/s per socket tri channel 31.8 GB/s per socket size 2GB/core 3GB/core L1 L1 I cache: 64KB L1 D cache: 64KB L1 I cache : 32KB L1 D cache : 32KB L2 512KB/core 256KB/core L3 2MB/socket 8MB/socket [ Source: overview of recent supercomputers 2008, 2009 ] 34
2. TACHYON 2.5. 1 st phase 컴퓨팅노드 [ Source: Sun s whitepaper ] 35
2. TACHYON 2.6. 2 n phase 컴퓨팅노드 (1) Up to 3 channels 10.6 GB/s per channel DDR3 1333Mhz Memory Memory Controller Core 0 Core 2 Core 1 Core 3 8MB L3 Cache Interconnect controller Core 0 Core 2 Core 1 Core 3 8MB L3 Cache Interconnect controller Memory Controller Up to 25.6 GB/s per link PCI Express Gen2 x16 Tylersburg Hub Infiniband QDR HCA Ethernet Controller Serial ATA ICH10R I/O controller Hub USB 36
2. TACHYON 2.7. 2 nd phase 컴퓨팅노드 (2) A Blade has two compute nodes node 0 node 1 [ Source: http://www.sun.com/servers/blades/x6275/ ] 37
2. TACHYON 2.8. 2 nd phase 시스템구성도 Tachyon: Overall System Architecture 38
2. TACHYON 2.9. 2 nd phase Interconnection network 구성도 39
2. TACHYON 2.10. 2 nd phase network 구성도 Mgmt N/W (Cisco 4507) Public N/W link (1 GigE Switch) KISTI Public (Force10) 100M 100M/CMM 1G LDAP X2270 (2) Monitoring X2270 (12) 4X IB Computing node, Sun X6275 (34Racks, 1600 blades) QNEM IB 12X Job Scheduler X4270 (2) 4X 10G Login X4170(4) 4X License/IBSM /Account X2270 (3) Admin X4270 (2) 1G IB 4X OSS X4270 (36) SAS 4x Home/Applic Scratch (1,536 TB Raw) J4400 (72) Infiniband QDR Switch, M9 (8) : Total 3456 port, NM2-36 (6) Applic MDS X4270 (2) Applic MDT J4200 (2) Home MDS X4270 (2) HOME MDT J4200 (2) Scratch MDS X4270 (2) Scratch MDT J4200 (2) Datamover X4270 (4) 4G FC 10G SAM-QFS Phase1 X4600 (4) SAN switch (2* SW48K) Backup for SMP Phase1 X4200 M2(1) 1G FC backup (53TB) STK6140() archive (32TB) STK6140() Tape Library (16LTO, 5250media exp, Total 32LTO3, 6300media ) SL8500(1) ACSLS (v210 (1) 1G 40
2. TACHYON 2.11. 2 nd phase 디스크스토리지 (Lustre) Lustre 파일시스템 : /home01(117tb), /scratch(815tb) /applic(117tb) 41
2. TACHYON 2.12. 2 nd phase Backup & Archving 42
2. TACHYON 2.13. 2 nd phase Cooling system 컴퓨팅노드랙에서발생되는열의효율적냉각위해수냉식간접냉각장치사용 9대 XDP( 냉수-냉매간열교환 ) 와 34대컴퓨팅노드에장착된리어도어냉각장치통해냉각 ( 랙당발열량 9RT) 전산실내추가항온항습장치필요없음 컴퓨팅노드랙 (Blade 6048) 43
3. 안정운영 3.1. 장애및보안침해모니터링 종합상황실운영을통한슈퍼컴퓨터서비스중단최소화 종합상황실에서상주인력에의해 24시간 365일슈퍼컴퓨터장애및보안침해모니터링과 1차대응조치수행 통합모니터링프로그램, 다중 LCD 화면, 음성경보시스템등을통해모니터링수행 44
3. 안정운영 3.2. 서비스가용률및작업성공률유지 장애분석 및대응 시스템 운영최적화 정기 예방정비 작업실패유형분석및대응 스케줄러구성최적화 필터스크립트개선 작업통지메일기능정상화 100 95 90 85 80 서비스가용률 (%) 작업성공률 (%) [ 기간 : 2014.01.01~04.30] 100 99.4 99.98 GAIA 98.3 99.36 84.7 98.23 91.9 99.39 98.7 ( 목표 ) 93.6 92 ( 목표 ) 평균 GAIA2 TACHYON1 TACHYON2 시스템부하율상승 : 73.3%(2013) 83.9%(2014) 작업성공률 = [ 정상종료작업수 / 전체작업수 ] 100 서비스가용률산출식 = = 100 T_total = CN_CPU_total T_day 24 T_failure = CN_failure T_repair 45
3. 안정운영 3.3. 정기예방정비실시 정밀상태점검, 하드웨어장애수리, 소프트웨어및펌웨어업그레이드등서비스중진행하기어려운점검및정비작업수행 [ 기간 : 2014.01.01~04.30] 구분 GAIA ( 격월 ) TACHYON ( 매월 ) PLSI ( 분기별 ) 보안장비 ( 매월 ) 기반시설 ( 매월 ) 실적 정비횟수 목표 2 6 6 12 1 4 4 12 4 12 계 17 46 정비내역 불량메모리등부품교체 서비스팩설치, 스크래치파일시스템정리등 메모리, 디스크 :64, FMod, 메인보드, IB 케이블교체 펌웨어업데이트, Lustre 등소프트웨어패치적용 PLSI 백본네트워크재구성, 서버및스토리지랙이전정리 시스템바이오스업데이트, GPFS 공유파일시스템재구성 방화벽, IPS, 웹방화벽, TOS, ESM 정기점검 보안장비소프트웨어및룰셋업데이트 시설정밀점검, 냉동시설안전점검 장애부품수리및교체, 비상용발전기유지보수 46
4. 성능보강 4.1. TACHYON 스토리지용량및성능확충 Lustre 파일서버및스토리지사양 MDS 서버 : Oracle X3-2L 2ea OSS 서버 : Oracle X3-2L 8ea 스토리지 : 2 DDN SFA-12k-40, 1 SFA-7700 용량 : 2.4 PB (RAID 구성후 ) 성능 : 24 GB/s (sustained I/O) 하드웨어구축 : 2013. 12 Tachyon2 연동및 Lustre FS 구축 : 2014. 1 Tachyon2 Lustre FS Upgrade(V.1.8.6) IO 벤치마크및검수 파일시스템 stress 테스트 : 2014. 2 IB 케이블교체, 시스템환경설정, 튜닝 : 2014. 3 Tachyon2 일반사용자서비스오픈 : 2014. 4. 7~ 2/4분기신규사용자에게제공 쿼터적용 : 사용자당 200TB/2M files Lustre 파일서버 / 클라이언트패치적용 : 2014. 5 47
5. 사용자기술지원 사용자기술지원총괄 ( 창구 ) 응용소프트웨어 최적 / 병렬화 사용자지원실 사용자기술지원 사용자기술지원협력 구분건수내역 GAIA TACHYON PLSI 216 건 62 건 117 건 인프라운영실 계 395 건목표 800 건 접속및사용법문의 응용프로그램실행 시스템테스트지원 [ 기간 : 2014.01.01~04.30] 시스템장애 응용프로그램관련지원 시스템사용법및설정변경요청 사용법문의 응용프로그램관련지원 48
6. 운영기술개발 6.1. GUI 기반장애로그분석시스템 비정상시스템상태를신속하게파악하고장애원인규명목적 페타급슈퍼컴퓨터에서생성되는여러종류의대규모로그데이터수집및정형화 수집된로그추출및분류를통한장애근본원인추론및상관관계분석 미국 ORNL과공동연구통해 RAVEN(ORNL) 기반 KISTI 환경위한기능추가및확장개발 웹기반 UI를적용하여사용자편의성향상 사용자작업과장애의상관관계및이상상태추론 빅데이터로그를감안한 mongodb 적용 5호기슈퍼컴퓨터장애분석도구로활용하여안정화기간단축 49
6. 운영기술개발 6.2. 자동화된시스템진단도구 대규모계산노드및인프라노드관리를위한자동화툴 계산노드의주요 H/W 및시스템레벨서비스자동진단및복구기능을가짐 계산노드 (3,200 대 ) 의주요 HW 및시스템레벨 Service 자동진단및복구 노드별상태에따른큐등록및제거자동화 계산노드보안강화 (Resource Manager 통하지않은사용자프로세스차단 ) SGE 전처리 (prolog) 및후처리 (epilog) 기능을통한작업자동진단기능 사용자작업성공률항상및장애시간단축 50
51
1. 구성요소 전력시설 : UPS, 축전지, 발전기, I. 수배전반과제개요 냉각시설 : 항온항습기, 냉동기, 냉각장치, 냉각탑, 펌프류, 수축열조 자동제어시설 : 전력 / 기계자동제어시설 공간 크기 비고 제1전산실 618m2 (187평) 슈퍼컴퓨터 제2전산실 357m2 (108평) 일반서버 지하1층 2,720m2 (823평) 기반시설 기반시설간연계구성도 슈퍼컴퓨터 네트워크 가시화시스템정보서버 SUN IBM 라우터등 HP HP 등 보안 (CCTV) 기계 ( 누수, 온도, 습도 ) 감시 UPS 감시 온도 / 습도 / 청정도 냉각장치에냉수공급 전원 직류 전원공급 항온항습기 냉동기 XDP 축전지 UPS 비상전원 배전반 발전기 52
2. 기반시설운영의특수성 특수한환경과기술이필요함 슈퍼컴퓨팅운영환경 기반시설환경 공기온도 : 21 ±1 공기습도 : 45% ± 5% 냉수조건 : 10 ± 2 공기청정도 : CLASS 100,000 * 슈퍼컴은운영환경에민감 매우다양한장비로구성되어있음 장비간상호복잡하게연동되어있음 * 단일장비에대한정확한지식및연동되어있는전체기반시설에대한이해도가높아야시스템관리가안정 53
3. 냉각설비 냉각탑 I. 과제개요 냉동기 Rear door heat exchanger 54
4. 전력설비 55
5. 상시모니터링 - 온도 - 압력 - 유량 - 온도 - 압력 - 순환 - 온도 - 습도 - 정압 - 유량 냉각시설전산실발전기전력 - 온도 - 습도 - 순환 냉수기전력시설로그 UPS 전력 - 전압 - 전류 / 전력 - 주파수 - 역률 - 고조파 항온항습기 UPS 계통전력계통 - 전압 - 전류 / 전력 - 주파수 - 역률 - 고조파 - 전압 - 전류 / 전력 - 주파수 - 역률 - 고조파 - 전압 - 전류 / 전력 - 주파수 - 역률 - 고조파 - 전압 - 전류 / 전력 - 주파수 - 역률 - 고조파 56
6. 에너지효율향상 외기냉방 외기 냉각효율극대화년간전력사용량 100,800~567,360kWh ( 전기요금 10,192,896~57,371,443원 ) 절약 Free-Cooling 자연냉각 Drycooler 항온항습기 쳄버 전산실 랙 HOT ZONE COOL ZONE HOT ZONE 항온항습기실 PUE 1.59(2013) 1.54(2014) 향상 Chiller 강제냉각 에너지모니터링시스템 (EMS) PUE 1.6 1.55 1.51 1.53 1.56 1.57 1.59( 목표 ) 1.54 1.5 PUE (Power Usage Effectiveness) = Total Facility Power / IT Equipment Power ( 숫자가작을수록효율높음 ) 1.45 1 월 2 월 3 월 4 월 평균 주요장비 ( 사업 ) 별전기요금산출및과금통한에너지절약유도 57
58
1. 보안및네트워크구성도 Internet SUPERCOMPUTER Sniper IPS 10G Sniper FW 10G Cisco 7609(Supercom) Sniper IPS 10G Sniper FW 10G untrust zone trust zone Supercomputer PLSI gaia, tachyon Gasiwha IPS Firewall WAF WEB Servers dmz zone sos, helpdesk, ksc, edison, webedu and etc. FAFFLES-5000 FAFFLES-5000 Force 10(E1200) TACHYON Force 10(E1200) GAIA Catalyst 6509 Logcenter ESM PLSI Catalyst 3560G(2) PowerConnect 6248P(5) Arista 7504E Force10 S2410(2) WEB GASIWHA WEB 서버군 Catalyst 6509 Gasiwha 서버 59
2. 보안장비트래픽처리성능개선 AS-IS 노후장비교체 TO-BE iperf : inbound 11.2 배, outbound 12.3 배 ( ) ftp : inbound 5.6 배, outbound 6.2 배 ( ) wget : inbound 5.5 배, outbound 6.1 배 ( ) TACHYON 보안강화 - IDS -> IPS (In-line 구성 ) - 침입탐지결과분석및침입차단적용 iperf : inbound 11.2 배, 11.6 배 ( ) ftp : inbound 5.8 배, outbound 6.3 배 ( ) wget : inbound 5.5 배, outbound 5.9 배 ( ) 성능개선 - 명명규칙재정및적용 - 방화벽객체정리 객체 (Object) 개수 461 -> 195 (57.7% 감소 ) - 방화벽정책정리 정책개수 325 -> 157 (51.7% 감소 ) 60
3. 슈퍼컴백본네트워크재구성 재구성후제거되는장비 재구성후통합구성되는신규장비 슈퍼컴퓨터 4 호기및 PLSI 서비스네트워크장비 1) 노후화 ( 도입후 7 년경과 ) 2) 높은유지보수비소요 ( 년 1.2 억원이상 ) 3) 복잡한구성으로관리및성능문제유발 신규도입 PLSI 백본네트워크장비확장후 PLSI 및슈퍼컴 4 호기네트워크통합구성 1) 4 호기용 10GbE 라인카드 (2ea) 추가도입 2) 2 단계재구성완료 (4 월초 -PLSI, 4 호기 -6 월초 ) 3) 슈퍼바이저모듈 2 중화및유지보수서비스수준강화 KREONet PLSI 연동기관시스템 슈퍼컴사용자 Ruby C7609 KREONet Supercom C7609 PLSI 연동기관시스템 Ruby C7609 슈퍼컴사용자 IPS/ 방화벽 IPS/ 방화벽 IPS/ 방화벽 IPS/ 방화벽 R1_SUN Force10 R1_IBM Force10 TACHYON R1_ 통합 Force10 KISTI PLSI 연동시스템 GAIA R1_ 통합 ARISTA 7504 GAIA PLSI 연동망 C6509 PLSI 내부망 C6509 TACHYON KISTI PLSI 연동시스템 재구성전 재구성후 61
4. 보안관제환경개선 기존 ESM의단편적인 ( 획일적 ) 보안로그모니터링환경개선필요 보안장비로그분석 ( 단순 / 연관성 / 시계열 ) 및보안관제시스템설계예정 (2014년) (2015년이후 ) 보안로그분석보안관제시스템설계보안관제시스템개발 TOP N Attack 로그통합분석 [ 웹방화벽 ] [IPS] [ 방화벽 ] IP S 62
63
1. 슈퍼컴복합지원동시공 친환경적이고에너지효율적인슈퍼컴퓨터 5 호기전용건물신축 구분 면적 주용도 비고 지상 2 층 2,761.01m2 전산센터전산센터, 상황실, 교육실, 가시화실, 시청각실등 지상 1 층 2,382.36m2 기반시설로비, 방재실, 축전기실, 전기실 ( 슈퍼컴 ),UPS실등 지하 1 층 2,636.85m2 기반시설전기실, 발전기실, 기계실, 감사실, 소화펌프실등 계 7,780.22 m2 2014 년 5 월현재 2015 년 2 월완공예정 64
2. 슈퍼컴 5 호기 RFP 작성 사용자및운영요구분석 (5호기예타보고서참조 ) 최신기술분석및시험 (5호기테스트베드시스템활용 ) 4호기선정및구축운영시사점조사 (30%) RFP 작성양식및목차만들기 (20%) 세부항목별요구내용기술 ( 필수 / 옵션사항구분 ) 평가기준수립 민간및벤더전문가검토및자문 기본내용 슈퍼컴 5 호기기본요구사항 요구 성능 구분 Rpeak 아키텍처 내용 30PFlops Rmax 18PFlops(Rpeak 의 60%) 이기종클러스터 가용전력량 8~10MW( 기반시설제외 ) 설치공간 응용분야 도입일정 기초과학및공학전분야 2016 년 ¼ 분기 실자체 ( 안 ) 작성및 TF 공식 1 차 초안작성 전문가검토및보완 RFP 및평가방안확정 구성 (~7 월 ) (~8 월 ) (~11 월 ) (~12 월 ) 2014 년 7 월현재슈퍼컴 5 호기예산확보위한사업예비타당성조사추진중임 65
3. 슈퍼컴 5 호기테스트베드구축시험 인프라운영실 사용자지원실 가속기 슈퍼컴퓨터 4 호기 (360TF) 슈퍼컴 5 호기테스트베드 (51TF) RFP 작성 ( 설계 ) BMT 코드발굴코드포팅준비성능최적화기술축적 슈퍼컴퓨터 5 호기 (30PF) CPU 서비스통합실 [ 구축및시험일정 ] 구분시스템구성사전점검장비도입하드웨어설치시스템소프트웨어스택설치사용자프로그래밍환경구성자체성능및기능시험결과보고서작성모창과제테스트수행 가속기기반초고성능시스템에서의성능최적화선행연구 내부사용자테스트제공 일정 ~5월 ~ 6월중순 ~ 7월중순 ~ 9월 ~ 10월 7 ~ 9월 ~12월 66
감사합니다.