Prestaties van HPC-applicaties met Turing

Summary: Artikel geschreven door Frank Han, Rengan Xu, Deepthi Cherlopalle en Quy Ta van Dell EMC HPC en AI Innovation Lab in maart 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Als de opvolger van de Volta-architectuur is Turing™ NVIDIA®'s nieuwste NVIDIA-familie van GPU's. De Turing™ GPU is beschikbaar met GeForce®, waar deze wordt gebruikt om zeer realistische games te renderen en met Quadro®, waardoor het maken van contentworkflows wordt versneld. De NVIDIA® Tesla® serie is ontworpen voor het verwerken van kunstmatige intelligentiesystemen en hpc-workloads (High Performance Computing) in datacenters. NVIDIA® Tesla® T4 is de enige GPU van serverklasse met de Turing™ microarchitectuur die nu op de markt beschikbaar is en wordt ondersteund door Dell EMC PowerEdge R640, R740, R740xd en R7425 servers. Deze blog behandelt de prestaties van de nieuwe Tesla T4 vergeleken met de nieuwste Volta V100-PCIe op de PowerEdge R740 server voor verschillende HPC-applicaties, zoals HOOMD-blue, Amber, NAMD en HPL.

Terug naar boven

Overzicht

De PowerEdge R740 server is een 2U Intel® Skylake rackmontageserver die een ideale balans biedt tussen storage, I/O en acceleratorsupport. Het ondersteunt maximaal vier* enkel-slots T4 of drie dubbel-slots V100-PCIe GPU's in x16 PCIe 3.0-slots. Tabel 1 laat de verschillen zien tussen een enkele T4 en V100. De Volta™ V100 is beschikbaar in geheugenconfiguraties van 16 GB of 32 GB. Omdat de T4 alleen beschikbaar is in een 16GB versie, is de V100-kaart met 16GB geheugen gebruikt om prestatieresultaten te leveren die vergeleken kunnen worden. Tabel 2 geeft de hardware- en softwaredata van de testomgeving weer.

Tabel 1: De vergelijking tussen T4 en V100

	Tesla V100-PCIe	Tesla T4
Architectuur	Volta	Turing
CUDA-kernen	5120	2560
Tensor-kernen	640	320
Rekencapaciteit	7.0	7,5
GPU-klok	1245 MHz	585 MHz
Kloksnelheid verhogen	1380 MHz	1590 MHz
Type geheugen	HBM2	GDDR6
Geheugenbus	4096bit	256bit
Bandbreedte	900 GB/s	320 GB/s
Slotbreedte	Dubbel-slots	Enkel-slots
FP32 enkele precisie	14 TFLOPS	8,1 TFLOPS
Gemengde precisie (FP16/FP32)	112 TFLOPS	65 TFLOPS
FP64 dubbele precisie	7 TFLOPS	254,4 GFLOPS
TDP	250 W	70 W

Tabel 2: Details van R740 configuratie en softwareversie

Processor	2x Intel® Xeon ® Gold 6136 bij 3,0 GHz, 12c
Geheugen	384G(12*32Gop2666MHz)
Lokale schijf	480G SSD
Besturingssysteem	Red Hat Enterprise Linux Server release 7.5
GPU	3x V100-PCIe 16 GB of 4x T4 16 GB
CUDA-driver	410,66
CUDA-toolkit	10,0
Processorinstellingen > logische processors	Uitgeschakeld
Systeemprofielen	Prestaties
HPL	Gecompileerd met CUDA10.0
NAMD	NAMD_Git-2019-02-11
Oranje	18.12
HOOMD-blue	v2.5.0
OpenMPI	4.0.0

Terug naar boven

Cause

HOOMD-blue

SLN316570_en_US__1image (9290)

Afbeelding 1: HOOMD-blue enkele en dubbele precisie prestatieresultaten met V100's en T4's op de PowerEdge R740 server

HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics - blue) is een algemene simulator voor moleculaire dynamica. HOOMD-blue wordt standaard gecompileerd in dubbele precisie (FP64) en versie 2.5 biedt een parameter SINGLE_PRECISION=ON om deze te dwingen in enkele precisie (FP32) te compileren. Afbeelding 1 toont de resultaten van de microsfeer-dataset voor enkele en dubbele precisie. De x-as is het aantal GPU's en de prestatiestatistiek is het aantal uren om 10e6 stappen uit te voeren.

Een waarneming is dat de FP64-prestaties van T4 relatief laag zijn. Dit is te wijten aan de beperking van de hardware. In theorie kan T4 254 GFLOPS (zie tabel 1) aan piekprestaties in dubbele precisie leveren, terwijl V100 ~27x beter is. Maar de prestaties van applicaties zoals HOOMD-blue, die kunnen worden gecompileerd en uitgevoerd met enkele precisie, kunnen een prestatievoordeel hebben met de optie FP32-compilatie. De HOOMD-blue community heeft onze suggestie over het ondersteunen van een gemengde precisie op alle HOOMD-blue-modules in overweging genomen. Zodra de inspanningen zijn geleverd, kan HOOMD-blue beter gebruikmaken van door hardware ondersteunde gemengde precisie.
Door de prestaties van T4 en V100 bij enkele precisie te vergelijken, hebben we opgemerkt dat V100 3x beter is dan T4. Deze prestaties zijn te verwachten van T4 vanwege het aantal CUDA-kernen en het vermelde vermogen op de accelerator.
GPU's in de PowerEdge R740 server zijn via PCIe verbonden. Voor het drie V100 GPU's tellende datapunt is de PCIe-bus verzadigd vanwege peer-to-peer-communicatie. Dit heeft invloed op de algehele prestaties, wat resulteert in dezelfde prestaties als één GPU.

Terug naar boven

Oranje

Amber is de verzamelnaam voor een reeks programma's waarmee gebruikers simulaties van moleculaire dynamica kunnen uitvoeren, met name op biomoleculen. De term Amber wordt ook gebruikt om te verwijzen naar de empirische krachtvelden die in deze suite zijn geïmplementeerd. Amber versie 18.12 met AmberTools 18.13 wordt getest met de Amber 18 Benchmark Suite, waarin datasets van JAC, Cellulose, FactorIX, STMV, TRPCage, myoglobine en nucleosomen zijn opgenomen.

SLN316570_en_US__2image (9276)

Afbeelding 2: Amber expliciete oplosmiddelresultaten met V100's en T4's op de PowerEdge R740 server

SLN316570_en_US__3image (9277)

Afbeelding 3: Amber Impliciet oplosmiddelresultaten met V100's en T4's op de PowerEdge R740 server

Afbeelding 2 en afbeelding 3 tonen de prestaties van de enkele kaart en het gehele systeem bij het respectievelijke expliciete oplosmiddel en impliciete oplosmiddel. Het datapunt "systeem" uit de bovenstaande grafiek vertegenwoordigt de volledige systeemaggregatiedoorvoer van alle GPU's. De PowerEdge R740 server ondersteunt drie V100's of vier T4's, dus 'systeembalken' in rood en blauw zijn de resultaten met drie V100's of vier T4's.

De reden voor de voorkeur voor geaggregeerde data van meerdere GPU-kaarten is dat Pascal en recentere GPU's niet verder kunnen worden geschaald dan een enkele accelerator voor de Amber-applicatie. Gebruikers voeren doorgaans meerdere parallelle simulaties uit op andere GPU's. In termen van prestaties met een grote dataset zoals STMV (1.067.095 atomen), is een enkele T4 33 procent en het hele systeem 44 procent van de V100-capaciteit. Datasets zoals TRPCage (slechts 304 atomen) is te klein om een effectief gebruik van V100's te maken, waardoor de prestaties niet veel sneller zijn dan T4, aangezien deze voor grotere PME's is. Net als bij het resultaat op de officiële website van Amber, zijn bijna alle GPU's drie tot vier keer sneller dan alleen CPU-runs, dus een T4-kaart in een server met kleine datasets is een goede optie is.

Terug naar boven

Resolution

NAnoscale Molecular Dynamics (NAMD)

SLN316570_en_US__4image (9278)

Afbeelding 4: NAMD-prestatieresultaten met V100's en T4's op de PowerEdge R740 server

NAMD is een moleculaire dynamica-code die ontworpen is voor krachtige simulatie van grote biomoleculaire systemen. Bij deze tests is het vooraf samengestelde binaire bestand niet gebruikt. In plaats daarvan is NAMD gebouwd met de nieuwste broncode (NAMD_Git-2019-02-11) met CUDA 10.0. Voor de beste prestaties is NAMD gecompileerd met de Intel® compiler en bibliotheken (versie 2018u3). Afbeelding 4 geeft de prestatieresultaten weer met behulp van de STMV-dataset (1.066.628 atomen, periodiek, PME). NAMD schaalt niet verder dan één V100-kaart en schaalt goed op drie T4-kaarten. En een enkele T4 GPU levert 42 procent van de V100-prestaties. Dit is een behoorlijk getal, aangezien het maar 28 procent van V100's TDP heeft. T4 kan een keuze zijn voor datacenters met beperkte stroom- en koelcapaciteit.

Terug naar boven

High Performance Linpack (HPL)

SLN316570_en_US__5image (9283)

Afbeelding 5: HPL-resultaten met V100's en T4's op de PowerEdge R740 server

Afbeelding 5 toont de HPL-prestaties op de PowerEdge R740 met meerdere V100- of T4-GPU's. Zoals verwacht, schalen HPL-getallen goed met meerdere GPU's voor V100 en T4. Maar T4-prestaties zijn aanzienlijk minder dan V100 vanwege de FP64-beperking. Vanwege de beperkte mogelijkheid van dubbele precisie op T4 is de prestatievergelijking met V100 niet ideaal en blijft Volta V100 de beste keuze voor dergelijke applicaties met een dubbele precisie.

Terug naar boven

Conclusies en toekomstig werk

In deze blog worden de HPC-applicatieprestaties met HOOMD-blue, Amber, NAMD en HPL vergeleken tussen V100 en T4 op de Dell EMC PowerEdge R740. T4 wordt niet alleen gebruikt door deep learning voor het trekken van conclusies, maar is ook nuttig voor het HPC-applicaties met ondersteuning voor enkele of gemengde precisie. Het lage TDP ervan kan helpen om traditionele datacentra te versnellen waarbij de voeding en de koeling beperkt zijn. T4's PCIe kleine vormfactor maakt het goed geschikt voor meer algemene PowerEdge servers. In de toekomst worden aanvullende tests gepland met meer applicaties, zoals RELION, GROMACS en LAMMPS, evenals tests voor applicaties die gebruikmaken van gemengde precisie.

*Disclaimer: Voor benchmarking zijn vier T4 GPU's in de Dell PowerEdge R740 geëvalueerd. Momenteel ondersteunt de PowerEdge R740 officieel een maximum van drie T4 in x16 PCIe-slots.

Terug naar boven

Affected Products

High Performance Computing Solution Resources, PowerEdge R740

Article Number: 000130819

Article Type: Solution

Last Modified: 28 Sep 2021

Version: 4

Check if your device is covered by Support Services.

Prestaties van HPC-applicaties met Turing

Summary: Artikel geschreven door Frank Han, Rengan Xu, Deepthi Cherlopalle en Quy Ta van Dell EMC HPC en AI Innovation Lab in maart 2019

Symptoms

Inhoudsopgave:

Samenvatting

Overzicht

Cause

HOOMD-blue

Oranje

Resolution

NAnoscale Molecular Dynamics (NAMD)

High Performance Linpack (HPL)

Conclusies en toekomstig werk

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Prestaties van HPC-applicaties met Turing

Summary: Artikel geschreven door Frank Han, Rengan Xu, Deepthi Cherlopalle en Quy Ta van Dell EMC HPC en AI Innovation Lab in maart 2019

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services