Als de opvolger van de Volta-architectuur is Turing™ NVIDIA®'s nieuwste NVIDIA-familie van GPU's. De Turing™ GPU is beschikbaar met GeForce®, waar deze wordt gebruikt om zeer realistische games te renderen en met Quadro®, waardoor het maken van contentworkflows wordt versneld. De NVIDIA® Tesla® serie is ontworpen voor het verwerken van kunstmatige intelligentiesystemen en hpc-workloads (High Performance Computing) in datacenters. NVIDIA® Tesla® T4 is de enige GPU van serverklasse met de Turing™ microarchitectuur die nu op de markt beschikbaar is en wordt ondersteund door Dell EMC PowerEdge R640, R740, R740xd en R7425 servers. Deze blog behandelt de prestaties van de nieuwe Tesla T4 vergeleken met de nieuwste Volta V100-PCIe op de PowerEdge R740 server voor verschillende HPC-applicaties, zoals HOOMD-blue, Amber, NAMD en HPL.
De PowerEdge R740 server is een 2U Intel® Skylake rackmontageserver die een ideale balans biedt tussen storage, I/O en acceleratorsupport. Het ondersteunt maximaal vier* enkel-slots T4 of drie dubbel-slots V100-PCIe GPU's in x16 PCIe 3.0-slots. Tabel 1 laat de verschillen zien tussen een enkele T4 en V100. De Volta™ V100 is beschikbaar in geheugenconfiguraties van 16 GB of 32 GB. Omdat de T4 alleen beschikbaar is in een 16GB versie, is de V100-kaart met 16GB geheugen gebruikt om prestatieresultaten te leveren die vergeleken kunnen worden. Tabel 2 geeft de hardware- en softwaredata van de testomgeving weer.
Tabel 1: De vergelijking tussen T4 en V100
Tesla V100-PCIe |
Tesla T4 |
|
---|---|---|
Architectuur |
Volta |
Turing |
CUDA-kernen |
5120 |
2560 |
Tensor-kernen |
640 |
320 |
Rekencapaciteit |
7.0 |
7,5 |
GPU-klok |
1245 MHz |
585 MHz |
Kloksnelheid verhogen |
1380 MHz |
1590 MHz |
Type geheugen |
HBM2 |
GDDR6 |
Geheugenbus |
4096bit |
256bit |
Bandbreedte |
900 GB/s |
320 GB/s |
Slotbreedte |
Dubbel-slots |
Enkel-slots |
FP32 enkele precisie |
14 TFLOPS |
8,1 TFLOPS |
Gemengde precisie (FP16/FP32) |
112 TFLOPS |
65 TFLOPS |
FP64 dubbele precisie |
7 TFLOPS |
254,4 GFLOPS |
TDP |
250 W |
70 W |
Tabel 2: Details van R740 configuratie en softwareversie
Processor |
2x Intel® Xeon ® Gold 6136 bij 3,0 GHz, 12c |
---|---|
Geheugen |
384G(12*32Gop2666MHz) |
Lokale schijf |
480G SSD |
Besturingssysteem |
Red Hat Enterprise Linux Server release 7.5 |
GPU |
3x V100-PCIe 16 GB of 4x T4 16 GB |
CUDA-driver |
410,66 |
CUDA-toolkit |
10,0 |
Processorinstellingen > logische processors |
Uitgeschakeld |
Systeemprofielen |
Prestaties |
HPL |
Gecompileerd met CUDA10.0 |
NAMD |
NAMD_Git-2019-02-11 |
Oranje |
18.12 |
HOOMD-blue |
v2.5.0 |
OpenMPI |
4.0.0 |
Afbeelding 1: HOOMD-blue enkele en dubbele precisie prestatieresultaten met V100's en T4's op de PowerEdge R740 server
HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics - blue) is een algemene simulator voor moleculaire dynamica. HOOMD-blue wordt standaard gecompileerd in dubbele precisie (FP64) en versie 2.5 biedt een parameter SINGLE_PRECISION=ON om deze te dwingen in enkele precisie (FP32) te compileren. Afbeelding 1 toont de resultaten van de microsfeer-dataset voor enkele en dubbele precisie. De x-as is het aantal GPU's en de prestatiestatistiek is het aantal uren om 10e6 stappen uit te voeren.
Een waarneming is dat de FP64-prestaties van T4 relatief laag zijn. Dit is te wijten aan de beperking van de hardware. In theorie kan T4 254 GFLOPS (zie tabel 1) aan piekprestaties in dubbele precisie leveren, terwijl V100 ~27x beter is. Maar de prestaties van applicaties zoals HOOMD-blue, die kunnen worden gecompileerd en uitgevoerd met enkele precisie, kunnen een prestatievoordeel hebben met de optie FP32-compilatie. De HOOMD-blue community heeft onze suggestie over het ondersteunen van een gemengde precisie op alle HOOMD-blue-modules in overweging genomen. Zodra de inspanningen zijn geleverd, kan HOOMD-blue beter gebruikmaken van door hardware ondersteunde gemengde precisie.
Door de prestaties van T4 en V100 bij enkele precisie te vergelijken, hebben we opgemerkt dat V100 3x beter is dan T4. Deze prestaties zijn te verwachten van T4 vanwege het aantal CUDA-kernen en het vermelde vermogen op de accelerator.
GPU's in de PowerEdge R740 server zijn via PCIe verbonden. Voor het drie V100 GPU's tellende datapunt is de PCIe-bus verzadigd vanwege peer-to-peer-communicatie. Dit heeft invloed op de algehele prestaties, wat resulteert in dezelfde prestaties als één GPU.
Amber is de verzamelnaam voor een reeks programma's waarmee gebruikers simulaties van moleculaire dynamica kunnen uitvoeren, met name op biomoleculen. De term Amber wordt ook gebruikt om te verwijzen naar de empirische krachtvelden die in deze suite zijn geïmplementeerd. Amber versie 18.12 met AmberTools 18.13 wordt getest met de Amber 18 Benchmark Suite, waarin datasets van JAC, Cellulose, FactorIX, STMV, TRPCage, myoglobine en nucleosomen zijn opgenomen.
Afbeelding 2: Amber expliciete oplosmiddelresultaten met V100's en T4's op de PowerEdge R740 server
Afbeelding 3: Amber Impliciet oplosmiddelresultaten met V100's en T4's op de PowerEdge R740 server
Afbeelding 2 en afbeelding 3 tonen de prestaties van de enkele kaart en het gehele systeem bij het respectievelijke expliciete oplosmiddel en impliciete oplosmiddel. Het datapunt "systeem" uit de bovenstaande grafiek vertegenwoordigt de volledige systeemaggregatiedoorvoer van alle GPU's. De PowerEdge R740 server ondersteunt drie V100's of vier T4's, dus 'systeembalken' in rood en blauw zijn de resultaten met drie V100's of vier T4's.
De reden voor de voorkeur voor geaggregeerde data van meerdere GPU-kaarten is dat Pascal en recentere GPU's niet verder kunnen worden geschaald dan een enkele accelerator voor de Amber-applicatie. Gebruikers voeren doorgaans meerdere parallelle simulaties uit op andere GPU's. In termen van prestaties met een grote dataset zoals STMV (1.067.095 atomen), is een enkele T4 33 procent en het hele systeem 44 procent van de V100-capaciteit. Datasets zoals TRPCage (slechts 304 atomen) is te klein om een effectief gebruik van V100's te maken, waardoor de prestaties niet veel sneller zijn dan T4, aangezien deze voor grotere PME's is. Net als bij het resultaat op de officiële website van Amber, zijn bijna alle GPU's drie tot vier keer sneller dan alleen CPU-runs, dus een T4-kaart in een server met kleine datasets is een goede optie is.
Afbeelding 4: NAMD-prestatieresultaten met V100's en T4's op de PowerEdge R740 server
NAMD is een moleculaire dynamica-code die ontworpen is voor krachtige simulatie van grote biomoleculaire systemen. Bij deze tests is het vooraf samengestelde binaire bestand niet gebruikt. In plaats daarvan is NAMD gebouwd met de nieuwste broncode (NAMD_Git-2019-02-11) met CUDA 10.0. Voor de beste prestaties is NAMD gecompileerd met de Intel® compiler en bibliotheken (versie 2018u3). Afbeelding 4 geeft de prestatieresultaten weer met behulp van de STMV-dataset (1.066.628 atomen, periodiek, PME). NAMD schaalt niet verder dan één V100-kaart en schaalt goed op drie T4-kaarten. En een enkele T4 GPU levert 42 procent van de V100-prestaties. Dit is een behoorlijk getal, aangezien het maar 28 procent van V100's TDP heeft. T4 kan een keuze zijn voor datacenters met beperkte stroom- en koelcapaciteit.
Afbeelding 5: HPL-resultaten met V100's en T4's op de PowerEdge R740 server
Afbeelding 5 toont de HPL-prestaties op de PowerEdge R740 met meerdere V100- of T4-GPU's. Zoals verwacht, schalen HPL-getallen goed met meerdere GPU's voor V100 en T4. Maar T4-prestaties zijn aanzienlijk minder dan V100 vanwege de FP64-beperking. Vanwege de beperkte mogelijkheid van dubbele precisie op T4 is de prestatievergelijking met V100 niet ideaal en blijft Volta V100 de beste keuze voor dergelijke applicaties met een dubbele precisie.
In deze blog worden de HPC-applicatieprestaties met HOOMD-blue, Amber, NAMD en HPL vergeleken tussen V100 en T4 op de Dell EMC PowerEdge R740. T4 wordt niet alleen gebruikt door deep learning voor het trekken van conclusies, maar is ook nuttig voor het HPC-applicaties met ondersteuning voor enkele of gemengde precisie. Het lage TDP ervan kan helpen om traditionele datacentra te versnellen waarbij de voeding en de koeling beperkt zijn. T4's PCIe kleine vormfactor maakt het goed geschikt voor meer algemene PowerEdge servers. In de toekomst worden aanvullende tests gepland met meer applicaties, zoals RELION, GROMACS en LAMMPS, evenals tests voor applicaties die gebruikmaken van gemengde precisie.
*Disclaimer: Voor benchmarking zijn vier T4 GPU's in de Dell PowerEdge R740 geëvalueerd. Momenteel ondersteunt de PowerEdge R740 officieel een maximum van drie T4 in x16 PCIe-slots.