HPC-applikasjoners ytelse med Turing

Summary: Artikkel skrevet av Frank Han, Rengan Xu, Deepthi Cherlopalle og Quy Ta fra Dell EMC HPC and AI Innovation Lab i mars 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Turing™ etterfølgeren til Volta-arkitekturen og er NVIDIA® nyeste NVIDIAs serie med GPU-er. Turing™ GPU er tilgjengelig med GeForce®, der den brukes til å lage svært realistiske spill og med Quadro®, noe som øker arbeidsflyten for oppretting av innhold. NVIDIA® Tesla®-serien er utformet for å håndtere systemer for kunstig intelligens og databehandling med høy ytelse (HPC) i datasentre. NVIDIA® Tesla® T4 er den eneste GPU-en i serverklassen med Turing™ mikroarkitektur tilgjengelig på markedet nå, og støttes av Dell EMC PowerEdge R640-, R740-, R740xd- og R7425-servere. Denne bloggen drøfter ytelsen til den nye Tesla T4 sammenlignet med den nyeste Volta V100-PCIe på PowerEdge R740-serveren for ulike HPC-applikasjoner, inkludert HOOMD-blue, Amber, NAMD og HPL.

Tilbake til toppen

Oversikt

PowerEdge R740-serveren er en 2U Intel® Skylake-basert rackmonteringsserver som gir en ideell balanse mellom lagring, I/O og akseleratorstøtte. V100-PCIe-GPU-er i x16 PCIe 3.0-spor støtter en bredde på opptil fire* T4 med ett spor eller tre doble spor. Tabell 1 viser forskjellene mellom en enkel T4 og V100. Volta™ V100 er tilgjengelig i minnekonfigurasjoner på 16 GB eller 32 GB. Siden T4 bare er tilgjengelig i en versjon på 16 GB, ble v100-kortet med 16 GB minne brukt til å gi sammenlignbare ytelsesresultater. Tabell 2 inneholder maskinvare- og programvareinformasjon for testmiljøet.

Tabell 1: Sammenligningen mellom T4 og V100

	Tesla V100-PCIe	Tesla T4
Arkitektur	Volta	Turing
CUDA-kjerner	5120	2560
Tensor-kjerner	640	320
Beregningsfunksjon	7.0	7.5
GPU-klokke	1245 MHz	585 MHz
Forsterkningsklokke	1380 MHz	1590 MHz
Minnetype	HBM2	GDDR6
Minnebuss	4096bit	256bit
Båndbredde	900 GB/s	320 GB/s
Sporbredde	Dobbelt spor	Enkelt spor
FP32 enkel presisjon	14 TFLOPS	8,1 TFLOPS
Blandet presisjon (FP16/FP32)	112 TFLOPS	65 TFLOPS
FP64 dobbel presisjon	7 TFLOPS	254,4 GFLOPS
TDP	250 W	70 W

Tabell 2: Detaljer om R740-konfigurasjons- og programvareversjon

Prosessor	2 x Intel® Xeon ® Gold 6136 ved 3,0 GHz, 12c
Minne	384 G(12*32 G ved 2666 MHz)
Lokal disk	480G SSD
Operativsystem	Red Hat Enterprise Linux Server versjon 7.5
GPU	3x V100-PCIe 16 GB eller 4X T4 16 GB
CUDA-driver	410,66
CUDA-verktøysett	10.0
Prosessorinnstillinger >logiske prosessorer	Deaktivert
Systemprofiler	Ytelse
HPL	Kompilert med CUDA10.0
NAMD	NAMD_Git-2019-02-11
Gul	18.12
HOOMD-blue	v2.5.0
OpenMPI	4.0.0

Tilbake til toppen

Cause

HOOMD-blue

SLN316570_en_US__1image (9290)

Figur 1: Ytelsesresultater for HOOMD-blue enkel og dobbel presisjon med V100-er og T4-er på PowerEdge R740-serveren

HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics – blue) er en molekylær dynamikksimulator for generell bruk. Som standard er HOOMD-blue kompilert i dobbel presisjon (FP64), og versjon 25 inneholder parameteren SINGLE_PRECISION=ON for å tvinge kompilering i enkel presisjon (FP32). Figur 1 viser resultatene av mikrosfæredatasettet for enkel og dobbel presisjon. X-aksen er antallet GPU-er, og ytelsesmålingen er antallet timer for å kjøre 10E6-trinn.

Én observasjon er at FP64-ytelsen til T4 er forholdsvis lav. Dette skyldes maskinvarebegrensningen. I teorien kan T4 levere toppytelse på 254 GFLOPS (se tabell 1) i dobbel presisjon, mens V100 er ~27x bedre. Ytelsen til applikasjoner som HOOMD-blue, som kan kompileres og kjøres med enkel presisjon, kan imidlertid ha en ytelsesfordel med kompileringsalternativet FP32. HOOMD-blue-fellesskapet har vurdert forslaget vårt om å støtte blandet presisjon på alle HOOMD-blue-moduler. Når arbeidet er fullført, kan HOOMD-blue fungere bedre på maskinvare som støttes av blandet presisjon.
Når vi samlet ytelsen til T4 og V100 med enkel presisjon, oppdaget vi at V100 er 3x bedre enn T4. Denne ytelsen er forventet av T4 på grunn av antallet CUDA-kjerner og effektklassifiseringen på akseleratoren.
GPU-er i PowerEdge R740-serveren er koblet til via PCIe. For de tre V100 GPU-datapunktene er PCIe-bussen mettet på grunn av node-til-node-kommunikasjon. Dette påvirker den generelle ytelsen og resulterer i den samme ytelsen som én GPU.

Tilbake til toppen

Gul

Amber er fellesnavnet på en programserie som gir brukere mulighet til å utføre molekylære dynamiske simuleringer, særlig på biomolekyler. Begrepet Amber brukes også for å referere til de empiriske kraftfeltene som er implementert i denne programserien. Amber versjon 18.12 med AmberTools 18.13 er testet med serien av Amber 18-ytelsesprøver som inkluderer JAC-, Cellulose-, FactorIX-, STMV-, TRPCage-, myoglobin- og nukleosomdatasett.

SLN316570_en_US__2image (9276)

Figur 2: Amber Explicit Solvent-resultater med V100-er og T4-er på PowerEdge R740-serveren

SLN316570_en_US__3image (9277)

Figur 3: Amber Implicit Solvent-resultater med V100-er og T4-er på PowerEdge R740-serveren

Figur 2 og 3 viser ytelsestallene for enkelt kort og hele systemet på henholdsvis eksplisitt løsningsmiddel og implisitt løsningsmiddel. Datapunktsystemet fra grafen ovenfor representerer hele systemets aggregerte gjennomstrømning for alle GPU-er. PowerEdge R740-serveren støtter tre V100-er eller fire T4-er, så "system"-stolper i rødt og blått er resultatene med tre V100-er eller fire T4-er.

Grunnen til at aggregerte data fra flere GPU-kort foretrekkes, er at Pascal og nyere GPU-er ikke kan skaleres ut over én enkelt akselerator for Amber-applikasjonen. Brukere kjører vanligvis flere simuleringer parallelt på andre GPU-er. Når det gjelder ytelse med et stort datasett som STMV (1 067 095 atomer), utgjør enkel T4 33 prosent, og hele systemet 44 prosent av V100-ens kapasitet. Datasett som TRPCage (kun 304 atomer) er for små til å bruke V100-er effektivt. Ytelsen er derfor ikke særlig raskere enn T4, slik den er på store PME-kjøringer. I henhold til resultatet på Ambers offisielle nettsted, er nesten alle GPU-nummer tre til fire ganger raskere enn kjøringer med bare CPU, så et T4-kort er et godt alternativ når du behandler små datasett.

Tilbake til toppen

Resolution

NAnoscale Molecular Dynamics (NAMD)

SLN316570_en_US__4image (9278)

Figur 4: NAMD-ytelsesresultater med V100-er og T4-er på PowerEdge R740-serveren

NAMD er en kode for molekylær dynamikk som er utformet for simulering med høy ytelse av store biomolekylsystemer. I disse testene ble ikke den ferdigbygde binærfilen brukt. I stedet ble NAMD bygd med den nyeste kildekoden (NAMD_Git-2019-02-11) med CUDA 10.0. For best ytelse ble NAMD kompilert med Intel®-kompilatoren og bibliotekene (versjon 2018u3). Figur 4 tegner inn ytelsesresultatene ved hjelp av STMV-datasettet (1 066 628 atomer, periodisk, PME). NAMD kan ikke skaleres ut over ett V100-kort, men kan skaleres godt med tre T4-kort. Og enkel T4 GPU gir 42 prosent av V100-ens ytelse. Dette er rimelig bra tatt i betraktning at den bare har 28 prosent av V100-ens TDP. T4 kan være et godt alternativ for datasentre med begrenset strøm- og kjølekapasitet.

Tilbake til toppen

High Performance Linpack (HPL)

SLN316570_en_US__5image (9283)

Figur 5: HPL-resultater med V100-er og T4-er på PowerEdge R740-serveren

Figur 5 viser HPL-ytelse på PowerEdge R740 med flere V100- eller T4-GPU-er. Som forventet, kan HPL-nummer skaleres godt med flere GPU-er for V100 og T4. T4-ytelsen er imidlertid betraktelig lavere enn V100 på grunn av FP64-begrensning. Den begrensede kapasiteten for dobbel presisjon på T4 gjør at ytelsessammenligningen med V100 ikke er ideell, og Volta V100 forblir det beste valget for slike applikasjoner med dobbel presisjon.

Tilbake til toppen

Konklusjoner og fremtidig arbeid

I denne bloggen ble HPC-applikasjonsytelsen med HOOMD-blue, Amber, NAMD og HPL sammenlignet mellom V100 og T4 på Dell EMC PowerEdge R740. T4 brukes ikke bare for dyp læring. Det er også nyttig for HPC-applikasjoner med støtte for enkel eller blandet presisjon. Den lave TDP-en kan bidra til å gjøre tradisjonelle datasentre raskere når strøm- og kjølekapasiteten er begrenset. T4-ens kompakte PCIe gjør den velegnet for PowerEdge-servere for generell bruk. I fremtiden planlegges det flere tester med flere applikasjoner, for eksempel RELION, GROMACS og LAMMPS, og tester for applikasjoner som kan bruke blandet presisjon.

*Ansvarsfraskrivelse: I forbindelse med ytelsestesting ble fire T4 GPU-er i Dell PowerEdge R740 evaluert. Offisielt støtter PowerEdge R740 for øyeblikket maksimalt tre T4-er i x16 PCIe-spor.

Tilbake til toppen

Affected Products

High Performance Computing Solution Resources, PowerEdge R740

Article Number: 000130819

Article Type: Solution

Last Modified: 28 Sep 2021

Version: 4

Check if your device is covered by Support Services.

HPC-applikasjoners ytelse med Turing

Summary: Artikkel skrevet av Frank Han, Rengan Xu, Deepthi Cherlopalle og Quy Ta fra Dell EMC HPC and AI Innovation Lab i mars 2019

Symptoms

Innholdsfortegnelse:

Sammendrag

Oversikt

Cause

HOOMD-blue

Gul

Resolution

NAnoscale Molecular Dynamics (NAMD)

High Performance Linpack (HPL)

Konklusjoner og fremtidig arbeid

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

HPC-applikasjoners ytelse med Turing

Summary: Artikkel skrevet av Frank Han, Rengan Xu, Deepthi Cherlopalle og Quy Ta fra Dell EMC HPC and AI Innovation Lab i mars 2019

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services