Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Prestaties van HPC-applicaties met Turing

Summary: Artikel geschreven door Frank Han, Rengan Xu, Deepthi Cherlopalle en Quy Ta van Dell EMC   HPC en AI Innovation Lab in maart 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms


Inhoudsopgave:

  1. Samenvatting
  2. Overzicht
  3. HOOMD-blue
  4. Oranje
  5. NAnoscale Molecular Dynamics (NAMD)
  6. High Performance Linpack (HPL)
  7. Conclusies en toekomstig werk

 

Samenvatting

 

Als de opvolger van de Volta-architectuur is Turing™ NVIDIA®'s nieuwste NVIDIA-familie van GPU's. De Turing™ GPU is beschikbaar met GeForce®, waar deze wordt gebruikt om zeer realistische games te renderen en met Quadro®, waardoor het maken van contentworkflows wordt versneld. De NVIDIA® Tesla® serie is ontworpen voor het verwerken van kunstmatige intelligentiesystemen en hpc-workloads (High Performance Computing) in datacenters. NVIDIA® Tesla® T4 is de enige GPU van serverklasse met de Turing™ microarchitectuur die nu op de markt beschikbaar is en wordt ondersteund door Dell EMC PowerEdge R640, R740, R740xd en R7425 servers. Deze blog behandelt de prestaties van de nieuwe Tesla T4 vergeleken met de nieuwste Volta V100-PCIe op de PowerEdge R740 server voor verschillende HPC-applicaties, zoals HOOMD-blue, Amber, NAMD en HPL.


Terug naar boven


 

Overzicht

 

De PowerEdge R740 server is een 2U Intel® Skylake rackmontageserver die een ideale balans biedt tussen storage, I/O en acceleratorsupport. Het ondersteunt maximaal vier* enkel-slots T4 of drie dubbel-slots V100-PCIe GPU's in x16 PCIe 3.0-slots.  Tabel 1 laat de verschillen zien tussen een enkele T4 en V100. De Volta™ V100 is beschikbaar in geheugenconfiguraties van 16 GB of 32 GB.  Omdat de T4 alleen beschikbaar is in een 16GB versie, is de V100-kaart met 16GB geheugen gebruikt om prestatieresultaten te leveren die vergeleken kunnen worden. Tabel 2 geeft de hardware- en softwaredata van de testomgeving weer.

Tabel 1: De vergelijking tussen T4 en V100

 

Tesla V100-PCIe

Tesla T4

Architectuur

Volta

Turing

CUDA-kernen

5120

2560

Tensor-kernen

640

320

Rekencapaciteit

7.0

7,5

GPU-klok

1245 MHz

585 MHz

Kloksnelheid verhogen

1380 MHz

1590 MHz

Type geheugen

HBM2

GDDR6

Geheugenbus

4096bit

256bit

Bandbreedte

900 GB/s

320 GB/s

Slotbreedte

Dubbel-slots

Enkel-slots

FP32 enkele precisie

14 TFLOPS

8,1 TFLOPS

Gemengde precisie (FP16/FP32)

112 TFLOPS

65 TFLOPS

FP64 dubbele precisie

7 TFLOPS

254,4 GFLOPS

TDP

250 W

70 W

 

Tabel 2: Details van R740 configuratie en softwareversie

Processor

2x Intel® Xeon ® Gold 6136 bij 3,0 GHz, 12c

Geheugen

384G(12*32Gop2666MHz)

Lokale schijf

480G SSD

Besturingssysteem

Red Hat Enterprise Linux Server release 7.5

GPU

3x V100-PCIe 16 GB of 4x T4 16 GB

CUDA-driver

410,66

CUDA-toolkit

10,0

Processorinstellingen > logische processors

Uitgeschakeld

Systeemprofielen

Prestaties

HPL

Gecompileerd met CUDA10.0

NAMD

NAMD_Git-2019-02-11

Oranje

18.12

HOOMD-blue

v2.5.0

OpenMPI

4.0.0

 


Terug naar boven


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image (9290)

Afbeelding 1: HOOMD-blue enkele en dubbele precisie prestatieresultaten met V100's en T4's op de PowerEdge R740 server

HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics - blue) is een algemene simulator voor moleculaire dynamica. HOOMD-blue wordt standaard gecompileerd in dubbele precisie (FP64) en versie 2.5 biedt een parameter SINGLE_PRECISION=ON om deze te dwingen in enkele precisie (FP32) te compileren. Afbeelding 1 toont de resultaten van de microsfeer-dataset voor enkele en dubbele precisie. De x-as is het aantal GPU's en de prestatiestatistiek is het aantal uren om 10e6 stappen uit te voeren.

  1. Een waarneming is dat de FP64-prestaties van T4 relatief laag zijn. Dit is te wijten aan de beperking van de hardware. In theorie kan T4 254 GFLOPS (zie tabel 1) aan piekprestaties in dubbele precisie leveren, terwijl V100 ~27x beter is. Maar de prestaties van applicaties zoals HOOMD-blue, die kunnen worden gecompileerd en uitgevoerd met enkele precisie, kunnen een prestatievoordeel hebben met de optie FP32-compilatie. De HOOMD-blue community heeft onze suggestie over het ondersteunen van een gemengde precisie op alle HOOMD-blue-modules in overweging genomen. Zodra de inspanningen zijn geleverd, kan HOOMD-blue beter gebruikmaken van door hardware ondersteunde gemengde precisie.

  2. Door de prestaties van T4 en V100 bij enkele precisie te vergelijken, hebben we opgemerkt dat V100 3x beter is dan T4. Deze prestaties zijn te verwachten van T4 vanwege het aantal CUDA-kernen en het vermelde vermogen op de accelerator.

  3. GPU's in de PowerEdge R740 server zijn via PCIe verbonden. Voor het drie V100 GPU's tellende datapunt is de PCIe-bus verzadigd vanwege peer-to-peer-communicatie. Dit heeft invloed op de algehele prestaties, wat resulteert in dezelfde prestaties als één GPU.

 


Terug naar boven


 

Oranje

 


Amber is de verzamelnaam voor een reeks programma's waarmee gebruikers simulaties van moleculaire dynamica kunnen uitvoeren, met name op biomoleculen. De term Amber wordt ook gebruikt om te verwijzen naar de empirische krachtvelden die in deze suite zijn geïmplementeerd. Amber versie 18.12 met AmberTools 18.13 wordt getest met de Amber 18 Benchmark Suite, waarin datasets van JAC, Cellulose, FactorIX, STMV, TRPCage, myoglobine en nucleosomen zijn opgenomen.

SLN316570_en_US__2image (9276)

Afbeelding 2: Amber expliciete oplosmiddelresultaten met V100's en T4's op de PowerEdge R740 server

SLN316570_en_US__3image (9277)

Afbeelding 3: Amber Impliciet oplosmiddelresultaten met V100's en T4's op de PowerEdge R740 server 

Afbeelding 2 en afbeelding 3 tonen de prestaties van de enkele kaart en het gehele systeem bij het respectievelijke expliciete oplosmiddel en impliciete oplosmiddel.  Het datapunt "systeem" uit de bovenstaande grafiek vertegenwoordigt de volledige systeemaggregatiedoorvoer van alle GPU's. De PowerEdge R740 server ondersteunt drie V100's of vier T4's, dus 'systeembalken' in rood en blauw zijn de resultaten met drie V100's of vier T4's.

De reden voor de voorkeur voor geaggregeerde data van meerdere GPU-kaarten is dat Pascal en recentere GPU's niet verder kunnen worden geschaald dan een enkele accelerator voor de Amber-applicatie. Gebruikers voeren doorgaans meerdere parallelle simulaties uit op andere GPU's. In termen van prestaties met een grote dataset zoals STMV (1.067.095 atomen), is een enkele T4 33 procent en het hele systeem 44 procent van de V100-capaciteit. Datasets zoals TRPCage (slechts 304 atomen) is te klein om een effectief gebruik van V100's te maken, waardoor de prestaties niet veel sneller zijn dan T4, aangezien deze voor grotere PME's is. Net als bij het resultaat op de officiële website van Amber, zijn bijna alle GPU's drie tot vier keer sneller dan alleen CPU-runs, dus een T4-kaart in een server met kleine datasets is een goede optie is.


Terug naar boven


 

Resolution

NAnoscale Molecular Dynamics (NAMD)

 

SLN316570_en_US__4image (9278)

Afbeelding 4: NAMD-prestatieresultaten met V100's en T4's op de PowerEdge R740 server

NAMD is een moleculaire dynamica-code die ontworpen is voor krachtige simulatie van grote biomoleculaire systemen. Bij deze tests is het vooraf samengestelde binaire bestand niet gebruikt. In plaats daarvan is NAMD gebouwd met de nieuwste broncode (NAMD_Git-2019-02-11) met CUDA 10.0. Voor de beste prestaties is NAMD gecompileerd met de Intel® compiler en bibliotheken (versie 2018u3). Afbeelding 4 geeft de prestatieresultaten weer met behulp van de STMV-dataset (1.066.628 atomen, periodiek, PME). NAMD schaalt niet verder dan één V100-kaart en schaalt goed op drie T4-kaarten. En een enkele T4 GPU levert 42 procent van de V100-prestaties. Dit is een behoorlijk getal, aangezien het maar 28 procent van V100's TDP heeft. T4 kan een keuze zijn voor datacenters met beperkte stroom- en koelcapaciteit.


Terug naar boven


 

High Performance Linpack (HPL)

 

SLN316570_en_US__5image (9283)

Afbeelding 5: HPL-resultaten met V100's en T4's op de PowerEdge R740 server

Afbeelding 5 toont de HPL-prestaties op de PowerEdge R740 met meerdere V100- of T4-GPU's. Zoals verwacht, schalen HPL-getallen goed met meerdere GPU's voor V100 en T4. Maar T4-prestaties zijn aanzienlijk minder dan V100 vanwege de FP64-beperking. Vanwege de beperkte mogelijkheid van dubbele precisie op T4 is de prestatievergelijking met V100 niet ideaal en blijft Volta V100 de beste keuze voor dergelijke applicaties met een dubbele precisie.


Terug naar boven


 

Conclusies en toekomstig werk

 

In deze blog worden de HPC-applicatieprestaties met HOOMD-blue, Amber, NAMD en HPL vergeleken tussen V100 en T4 op de Dell EMC PowerEdge R740. T4 wordt niet alleen gebruikt door deep learning voor het trekken van conclusies, maar is ook nuttig voor het HPC-applicaties met ondersteuning voor enkele of gemengde precisie. Het lage TDP ervan kan helpen om traditionele datacentra te versnellen waarbij de voeding en de koeling beperkt zijn. T4's PCIe kleine vormfactor maakt het goed geschikt voor meer algemene PowerEdge servers. In de toekomst worden aanvullende tests gepland met meer applicaties, zoals RELION, GROMACS en LAMMPS, evenals tests voor applicaties die gebruikmaken van gemengde precisie.

*Disclaimer: Voor benchmarking zijn vier T4 GPU's in de Dell PowerEdge R740 geëvalueerd. Momenteel ondersteunt de PowerEdge R740 officieel een maximum van drie T4 in x16 PCIe-slots.


Terug naar boven


Affected Products

High Performance Computing Solution Resources, PowerEdge R740
Article Properties
Article Number: 000130819
Article Type: Solution
Last Modified: 28 Sep 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.