Volta 아키텍처의 후속 제품인 Turing™은 NVIDIA®의 최신 NVIDIA GPU 제품군입니다. Turing™ GPU는 GeForce®에서 사용할 수 있습니다. 이 제품은 GeForce에서 매우 사실적인 게임을 렌더링하고 Quadro®를 사용하여 콘텐츠 생성 워크플로를 가속화하기 위해 사용됩니다. NVIDIA® Tesla® Series는 데이터 센터의 인공 지능 시스템 및 HPC(High Performance Computing) 워크로드를 처리하도록 설계되었습니다. NVIDIA® Tesla® T4는 현재 시장에서 사용 가능한 Turing™ 마이크로 아키텍처를 갖춘 유일한 서버급 GPU로, Dell EMC PowerEdge R640, R740, R740xd 및 R7425 서버에서 지원됩니다. 이 블로그에서는 HOOMD-blue, Amber, NAMD 및 HPL을 포함한 다양한 HPC 애플리케이션에 대한 PowerEdge R740 서버의 최신 Volta V100-PCIe와 비교되는 새로운 Tesla T4의 성능에 대해 설명합니다.
PowerEdge R740 서버는 2U 인텔® Skylake 기반 랙마운트 서버로, 스토리지, I/O 및 가속기 지원의 이상적인 균형을 제공합니다. x16 PCIe 3.0 슬롯에서 최대 4개*의 단일 슬롯 T4 또는 3개의 이중 슬롯 너비 V100-PCIe GPU를 지원합니다. 표 1에는 단일 T4와 V100 간의 차이점이 나와 있습니다. Volta™ V100은 16GB 또는 32GB 메모리 구성으로 사용할 수 있습니다. T4는 16GB 버전에서만 사용할 수 있으므로, 16GB 메모리가 장착된 V100 카드는 비교 성능 결과를 제공하기 위해 사용되었습니다. 표 2에는 테스트 베드의 하드웨어 및 소프트웨어 세부 정보가 나와 있습니다.
표 1: T4와 V100의 비교
Tesla V100-PCIe |
Tesla T4 |
|
---|---|---|
아키텍처 |
Volta |
Turing |
CUDA 코어 |
5120 |
2560 |
Tensor 코어 |
640 |
320 |
컴퓨팅 기능 |
7.0 |
7.5 |
GPU 클럭 |
1245MHz |
585MHz |
부스트 클럭 |
1380MHz |
1590MHz |
메모리 유형 |
HBM2 |
GDDR6 |
메모리 버스 |
4096bit |
256bit |
대역폭 |
900GB/s |
320GB/s |
슬롯 너비 |
이중 슬롯 |
단일 슬롯 |
FP32 단일 정밀도 |
14TFLOPS |
8.1TFLOPS |
혼합 정밀도(FP16/FP32) |
112TFLOPS |
65TFLOPS |
FP64 이중 정밀도 |
7TFLOPS |
254.4GFLOPS |
TDP |
250W |
70 W |
표 2: R740 구성 및 소프트웨어 버전 세부 정보
프로세서 |
인텔® 제온® 골드 6136 @ 3.0GHz, 12c, 2개 |
---|---|
Memory |
384G(12*32G@2666MHz) |
로컬 디스크 |
480G SSD |
운영 체제 |
Red Hat Enterprise Linux 서버 릴리스 7.5 |
GPU |
V100-PCIe 16GB 3개 또는 T4 16GB 4개 |
CUDA 드라이버 |
410.66 |
CUDA 툴킷 |
10.0 |
프로세서 설정 > 논리 프로세서 |
비활성화됨 |
시스템 프로필 |
성능 |
HPL |
CUDA10.0으로 컴파일됨 |
NAMD |
NAMD_Git-2019-02-11 |
주황색 |
18.12 |
HOOMD-blue |
v2.5.0 |
OpenMPI |
4.0.0 |
그림 1: PowerEdge R740 서버에서 V100 및 T4를 사용한 HOOMD-blue 단일 및 이중 정밀도 성능 결과
HOOMD-blue(Highly Optimized Object-oriented Many-particle Dynamics - blue)는 범용 분자 역학 시뮬레이터입니다. 기본적으로 HOOMD-blue는 이중 정밀도(FP64)로 컴파일되며, 버전 2.5에서는 SINGLE_PRECISION=ON 매개변수를 제공하여 단일 정밀도(FP32)로 강제로 컴파일합니다. 그림 1은 단일 정밀도 및 이중 정밀도에 대한 마이크로스피어 데이터 세트 결과를 보여줍니다. X 축은 GPU의 개수이고 성능 메트릭은 10e6 단계를 실행하는 시간입니다.
T4의 FP64 성능이 상대적으로 낮다는 것이 관찰되었습니다. 이 현상은 하드웨어 제한으로 인해 발생합니다. 이론적으로 T4는 이중 정밀도에서 254GFLOPS(표 1 참조)의 최고 성능을 제공할 수 있지만 V100이 최대 27배 우수합니다. 하지만 단일 정밀도로 컴파일하고 실행할 수 있는 HOOMD-blue와 같은 애플리케이션의 성능은 FP32 컴파일 옵션을 사용할 경우 성능 이점이 있습니다. HOOMD-blue 커뮤니티는 모든 HOOMD-blue 모듈에서 복합 정밀도 지원에 대한 당사의 제안을 고려한 바 있습니다. 작업이 완료되면 HOOMD-blue는 혼합 정밀도 지원 하드웨어에 더 잘 활용할 수 있습니다.
T4와 V100의 단일 정밀도 성능을 비교한 결과 V100이 T4보다 3배 더 우수한 것으로 확인되었습니다. T4의 이러한 성능은 CUDA 코어 수와 가속기의 정격 전력 때문인 것으로 판단됩니다.
PowerEdge R740 서버의 GPU는 PCIe를 통해 연결됩니다. 3개의 V100 GPU 데이터 포인트의 경우 피어 투 피어 통신으로 인해 PCIe 버스가 포화됩니다. 이는 전체 성능에 영향을 미치며, 하나의 GPU를 사용하는 경우와 성능이 동일합니다.
Amber는 특히 생체 분자에서 사용자가 분자 역학 시뮬레이션을 수행할 수 있는 프로그램 제품군에 대한 총칭입니다. Amber라는 용어는 이 제품군에 구현된 경험적 힘 영역을 지칭하기 위해 사용되기도 합니다. AmberTools 18.13이 있는 Amber 버전 18.12는 JAC, Cellulose, FactorIX, STMV, TRPCage, myoglobin 및 뉴클레오솜 데이터 세트를 포함하는 Amber 18 Benchmark Suite로 테스트되었습니다.
그림 2: PowerEdge R740 서버에서 V100 및 T4를 사용한 Amber 명시적 용매 결과
그림 3: PowerEdge R740 서버에서 V100 및 T4를 사용한 Amber 암시적 용매 결과
그림 2와 그림 3은 명시적 용매와 암시적 용매 각각에 대한 단일 카드 및 전체 시스템 성능 수치를 보여줍니다. 위 그래프의 데이터 포인트 "system"은 모든 GPU의 전체 시스템 집계 처리량을 나타냅니다. PowerEdge R740 서버는 3개의 V100 또는 4개의 T4를 지원하므로 빨간색과 파란색의 "system" 막대는 3개의 V100 또는 4개의 T4를 사용한 결과입니다.
여러 GPU 카드의 집계 데이터를 선호하는 이유는 Pascal 이후 GPU가 Amber 애플리케이션에 대한 단일 가속기 페달 이상으로 확장되지 않고 있기 때문입니다. 사용자는 일반적으로 다른 GPU에서 여러 개의 시뮬레이션을 병렬로 실행합니다. STMV(1,067,095개 원자)와 같은 대형 데이터 세트의 성능 측면에서 보면, 단일 T4는 33%이고 전체 시스템은 V100 기능의 44%입니다. TRPCage(304개 원자에만 해당)와 같은 데이터 세트는 V100을 효과적으로 사용하기에는 너무 작으므로 성능이 T4보다 더 빠르지 않습니다. 그래서 PME가 더 많이 실행됩니다. Amber의 공식 웹사이트의 결과에 따르면, 거의 모든 GPU 번호가 CPU 전용 실행보다 3~4배 빠르므로 소규모 데이터 세트를 처리하는 서버에서 T4 카드를 사용하는 것이 좋습니다.
그림 4: PowerEdge R740 서버에서 V100 및 T4를 사용한 NAMD 성능 결과
NAMD는 대규모 생체 분자 시스템의 고성능 시뮬레이션을 위해 설계된 분자 역학 코드입니다. 이 테스트에서는 사전 빌드 바이너리가 사용되지 않았습니다. 대신, NAMD가 CUDA 10.0의 최신 소스 코드(NAMD_Git-2019-02-11)로 빌드되었습니다. 최고의 성능을 위해 NAMD는 인텔® 컴파일러 및 라이브러리(버전 2018u3)로 컴파일되었습니다. 그림 4는 STMV 데이터 세트(1,066,628개 원자, 주기적, PME)를 사용한 성능 결과를 도표로 나타낸 것입니다. NAMD는 하나의 V100 카드를 초과하여 확장되지 않으며, 3개의 T4 카드로 확장이 가능합니다. 또한 단일 T4 GPU는 V100 성능의 42%를 제공합니다. 이는 V100 TDP의 28%에 불과하다는 점을 고려할 때 적절한 수치입니다. T4는 제한된 전력 및 냉각 기능을 갖춘 데이터 센터에 적합합니다.
그림 5: PowerEdge R740 서버에서 V100 및 T4를 사용한 HPL 결과
그림 5는 V100 또는 T4 GPU가 여러 개인 PowerEdge R740의 HPL 성능을 보여줍니다. 예상대로 HPL 수치는 V100 및 T4에 대해 여러 개의 GPU로 확장이 가능합니다. 그러나 FP64 제한으로 인해 T4 성능은 V100보다 현저히 낮습니다. T4의 이중 정밀도 기능이 제한적이므로 V100과의 성능 비교는 적합하지 않으며, Volta V100은 이러한 이중 정밀도 애플리케이션에서 가장 많이 사용됩니다.
이 블로그에서는 HOOMD-blue, Amber, NAMD 및 HPL의 HPC 애플리케이션 성능을 Dell EMC PowerEdge R740의 V100과 T4에 대해 비교했습니다. T4는 딥 러닝 추론에 사용될 뿐만 아니라 단일 또는 혼합 정밀도를 지원하는 HPC 애플리케이션에도 유용합니다. TDP가 낮으므로 전력 및 냉각 기능이 제한된 기존 데이터 센터의 속도를 높일 수 있습니다. T4의 PCIe 소형 폼 팩터는 범용 PowerEdge 서버에 더 적합합니다. 향후 추가 테스트는 RELION, GROMACS 및 LAMMPS와 같은 더 많은 애플리케이션에 대해 계획되어 있으며, 혼합 정밀도를 활용할 수 있는 애플리케이션에 대한 테스트도 계획되어 있습니다.
*고지 사항: 벤치마킹을 목적으로 Dell PowerEdge R740의 T4 GPU 4개를 평가했습니다. 현재 PowerEdge R740은 x16 PCIe 슬롯에서 최대 3개의 T4를 공식 지원합니다.