Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

HPC-applikasjoners ytelse med Turing

Summary: Artikkel skrevet av Frank Han, Rengan Xu, Deepthi Cherlopalle og Quy Ta fra Dell EMC   HPC and AI Innovation Lab i mars 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms


Innholdsfortegnelse:

  1. Sammendrag
  2. Oversikt
  3. HOOMD-blue
  4. Gul
  5. NAnoscale Molecular Dynamics (NAMD)
  6. High Performance Linpack (HPL)
  7. Konklusjoner og fremtidig arbeid

 

Sammendrag

 

Turing™ etterfølgeren til Volta-arkitekturen og er NVIDIA® nyeste NVIDIAs serie med GPU-er. Turing™ GPU er tilgjengelig med GeForce®, der den brukes til å lage svært realistiske spill og med Quadro®, noe som øker arbeidsflyten for oppretting av innhold. NVIDIA® Tesla®-serien er utformet for å håndtere systemer for kunstig intelligens og databehandling med høy ytelse (HPC) i datasentre. NVIDIA® Tesla® T4 er den eneste GPU-en i serverklassen med Turing™ mikroarkitektur tilgjengelig på markedet nå, og støttes av Dell EMC PowerEdge R640-, R740-, R740xd- og R7425-servere. Denne bloggen drøfter ytelsen til den nye Tesla T4 sammenlignet med den nyeste Volta V100-PCIe på PowerEdge R740-serveren for ulike HPC-applikasjoner, inkludert HOOMD-blue, Amber, NAMD og HPL.


Tilbake til toppen


 

Oversikt

 

PowerEdge R740-serveren er en 2U Intel® Skylake-basert rackmonteringsserver som gir en ideell balanse mellom lagring, I/O og akseleratorstøtte. V100-PCIe-GPU-er i x16 PCIe 3.0-spor støtter en bredde på opptil fire* T4 med ett spor eller tre doble spor.  Tabell 1 viser forskjellene mellom en enkel T4 og V100. Volta™ V100 er tilgjengelig i minnekonfigurasjoner på 16 GB eller 32 GB.  Siden T4 bare er tilgjengelig i en versjon på 16 GB, ble v100-kortet med 16 GB minne brukt til å gi sammenlignbare ytelsesresultater. Tabell 2 inneholder maskinvare- og programvareinformasjon for testmiljøet.

Tabell 1: Sammenligningen mellom T4 og V100

 

Tesla V100-PCIe

Tesla T4

Arkitektur

Volta

Turing

CUDA-kjerner

5120

2560

Tensor-kjerner

640

320

Beregningsfunksjon

7.0

7.5

GPU-klokke

1245 MHz

585 MHz

Forsterkningsklokke

1380 MHz

1590 MHz

Minnetype

HBM2

GDDR6

Minnebuss

4096bit

256bit

Båndbredde

900 GB/s

320 GB/s

Sporbredde

Dobbelt spor

Enkelt spor

FP32 enkel presisjon

14 TFLOPS

8,1 TFLOPS

Blandet presisjon (FP16/FP32)

112 TFLOPS

65 TFLOPS

FP64 dobbel presisjon

7 TFLOPS

254,4 GFLOPS

TDP

250 W

70 W

 

Tabell 2: Detaljer om R740-konfigurasjons- og programvareversjon

Prosessor

2 x Intel® Xeon ® Gold 6136 ved 3,0 GHz, 12c

Minne

384 G(12*32 G ved 2666 MHz)

Lokal disk

480G SSD

Operativsystem

Red Hat Enterprise Linux Server versjon 7.5

GPU

3x V100-PCIe 16 GB eller 4X T4 16 GB

CUDA-driver

410,66

CUDA-verktøysett

10.0

Prosessorinnstillinger >logiske prosessorer

Deaktivert

Systemprofiler

Ytelse

HPL

Kompilert med CUDA10.0

NAMD

NAMD_Git-2019-02-11

Gul

18.12

HOOMD-blue

v2.5.0

OpenMPI

4.0.0

 


Tilbake til toppen


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image (9290)

Figur 1: Ytelsesresultater for HOOMD-blue enkel og dobbel presisjon med V100-er og T4-er på PowerEdge R740-serveren

HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics – blue) er en molekylær dynamikksimulator for generell bruk. Som standard er HOOMD-blue kompilert i dobbel presisjon (FP64), og versjon 25 inneholder parameteren SINGLE_PRECISION=ON for å tvinge kompilering i enkel presisjon (FP32). Figur 1 viser resultatene av mikrosfæredatasettet for enkel og dobbel presisjon. X-aksen er antallet GPU-er, og ytelsesmålingen er antallet timer for å kjøre 10E6-trinn.

  1. Én observasjon er at FP64-ytelsen til T4 er forholdsvis lav. Dette skyldes maskinvarebegrensningen. I teorien kan T4 levere toppytelse på 254 GFLOPS (se tabell 1) i dobbel presisjon, mens V100 er ~27x bedre. Ytelsen til applikasjoner som HOOMD-blue, som kan kompileres og kjøres med enkel presisjon, kan imidlertid ha en ytelsesfordel med kompileringsalternativet FP32. HOOMD-blue-fellesskapet har vurdert forslaget vårt om å støtte blandet presisjon på alle HOOMD-blue-moduler. Når arbeidet er fullført, kan HOOMD-blue fungere bedre på maskinvare som støttes av blandet presisjon.

  2. Når vi samlet ytelsen til T4 og V100 med enkel presisjon, oppdaget vi at V100 er 3x bedre enn T4. Denne ytelsen er forventet av T4 på grunn av antallet CUDA-kjerner og effektklassifiseringen på akseleratoren.

  3. GPU-er i PowerEdge R740-serveren er koblet til via PCIe. For de tre V100 GPU-datapunktene er PCIe-bussen mettet på grunn av node-til-node-kommunikasjon. Dette påvirker den generelle ytelsen og resulterer i den samme ytelsen som én GPU.

 


Tilbake til toppen


 

Gul

 


Amber er fellesnavnet på en programserie som gir brukere mulighet til å utføre molekylære dynamiske simuleringer, særlig på biomolekyler. Begrepet Amber brukes også for å referere til de empiriske kraftfeltene som er implementert i denne programserien. Amber versjon 18.12 med AmberTools 18.13 er testet med serien av Amber 18-ytelsesprøver som inkluderer JAC-, Cellulose-, FactorIX-, STMV-, TRPCage-, myoglobin- og nukleosomdatasett.

SLN316570_en_US__2image (9276)

Figur 2: Amber Explicit Solvent-resultater med V100-er og T4-er på PowerEdge R740-serveren

SLN316570_en_US__3image (9277)

Figur 3: Amber Implicit Solvent-resultater med V100-er og T4-er på PowerEdge R740-serveren 

Figur 2 og 3 viser ytelsestallene for enkelt kort og hele systemet på henholdsvis eksplisitt løsningsmiddel og implisitt løsningsmiddel.  Datapunktsystemet fra grafen ovenfor representerer hele systemets aggregerte gjennomstrømning for alle GPU-er. PowerEdge R740-serveren støtter tre V100-er eller fire T4-er, så "system"-stolper i rødt og blått er resultatene med tre V100-er eller fire T4-er.

Grunnen til at aggregerte data fra flere GPU-kort foretrekkes, er at Pascal og nyere GPU-er ikke kan skaleres ut over én enkelt akselerator for Amber-applikasjonen. Brukere kjører vanligvis flere simuleringer parallelt på andre GPU-er. Når det gjelder ytelse med et stort datasett som STMV (1 067 095 atomer), utgjør enkel T4 33 prosent, og hele systemet 44 prosent av V100-ens kapasitet. Datasett som TRPCage (kun 304 atomer) er for små til å bruke V100-er effektivt. Ytelsen er derfor ikke særlig raskere enn T4, slik den er på store PME-kjøringer. I henhold til resultatet på Ambers offisielle nettsted, er nesten alle GPU-nummer tre til fire ganger raskere enn kjøringer med bare CPU, så et T4-kort er et godt alternativ når du behandler små datasett.


Tilbake til toppen


 

Resolution

NAnoscale Molecular Dynamics (NAMD)

 

SLN316570_en_US__4image (9278)

Figur 4: NAMD-ytelsesresultater med V100-er og T4-er på PowerEdge R740-serveren

NAMD er en kode for molekylær dynamikk som er utformet for simulering med høy ytelse av store biomolekylsystemer. I disse testene ble ikke den ferdigbygde binærfilen brukt. I stedet ble NAMD bygd med den nyeste kildekoden (NAMD_Git-2019-02-11) med CUDA 10.0. For best ytelse ble NAMD kompilert med Intel®-kompilatoren og bibliotekene (versjon 2018u3). Figur 4 tegner inn ytelsesresultatene ved hjelp av STMV-datasettet (1 066 628 atomer, periodisk, PME). NAMD kan ikke skaleres ut over ett V100-kort, men kan skaleres godt med tre T4-kort. Og enkel T4 GPU gir 42 prosent av V100-ens ytelse. Dette er rimelig bra tatt i betraktning at den bare har 28 prosent av V100-ens TDP. T4 kan være et godt alternativ for datasentre med begrenset strøm- og kjølekapasitet.


Tilbake til toppen


 

High Performance Linpack (HPL)

 

SLN316570_en_US__5image (9283)

Figur 5: HPL-resultater med V100-er og T4-er på PowerEdge R740-serveren

Figur 5 viser HPL-ytelse på PowerEdge R740 med flere V100- eller T4-GPU-er. Som forventet, kan HPL-nummer skaleres godt med flere GPU-er for V100 og T4. T4-ytelsen er imidlertid betraktelig lavere enn V100 på grunn av FP64-begrensning. Den begrensede kapasiteten for dobbel presisjon på T4 gjør at ytelsessammenligningen med V100 ikke er ideell, og Volta V100 forblir det beste valget for slike applikasjoner med dobbel presisjon.


Tilbake til toppen


 

Konklusjoner og fremtidig arbeid

 

I denne bloggen ble HPC-applikasjonsytelsen med HOOMD-blue, Amber, NAMD og HPL sammenlignet mellom V100 og T4 på Dell EMC PowerEdge R740. T4 brukes ikke bare for dyp læring. Det er også nyttig for HPC-applikasjoner med støtte for enkel eller blandet presisjon. Den lave TDP-en kan bidra til å gjøre tradisjonelle datasentre raskere når strøm- og kjølekapasiteten er begrenset. T4-ens kompakte PCIe gjør den velegnet for PowerEdge-servere for generell bruk. I fremtiden planlegges det flere tester med flere applikasjoner, for eksempel RELION, GROMACS og LAMMPS, og tester for applikasjoner som kan bruke blandet presisjon.

*Ansvarsfraskrivelse: I forbindelse med ytelsestesting ble fire T4 GPU-er i Dell PowerEdge R740 evaluert. Offisielt støtter PowerEdge R740 for øyeblikket maksimalt tre T4-er i x16 PCIe-spor.


Tilbake til toppen


Affected Products

High Performance Computing Solution Resources, PowerEdge R740
Article Properties
Article Number: 000130819
Article Type: Solution
Last Modified: 28 Sep 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.