Turing™ etterfølgeren til Volta-arkitekturen og er NVIDIA® nyeste NVIDIAs serie med GPU-er. Turing™ GPU er tilgjengelig med GeForce®, der den brukes til å lage svært realistiske spill og med Quadro®, noe som øker arbeidsflyten for oppretting av innhold. NVIDIA® Tesla®-serien er utformet for å håndtere systemer for kunstig intelligens og databehandling med høy ytelse (HPC) i datasentre. NVIDIA® Tesla® T4 er den eneste GPU-en i serverklassen med Turing™ mikroarkitektur tilgjengelig på markedet nå, og støttes av Dell EMC PowerEdge R640-, R740-, R740xd- og R7425-servere. Denne bloggen drøfter ytelsen til den nye Tesla T4 sammenlignet med den nyeste Volta V100-PCIe på PowerEdge R740-serveren for ulike HPC-applikasjoner, inkludert HOOMD-blue, Amber, NAMD og HPL.
PowerEdge R740-serveren er en 2U Intel® Skylake-basert rackmonteringsserver som gir en ideell balanse mellom lagring, I/O og akseleratorstøtte. V100-PCIe-GPU-er i x16 PCIe 3.0-spor støtter en bredde på opptil fire* T4 med ett spor eller tre doble spor. Tabell 1 viser forskjellene mellom en enkel T4 og V100. Volta™ V100 er tilgjengelig i minnekonfigurasjoner på 16 GB eller 32 GB. Siden T4 bare er tilgjengelig i en versjon på 16 GB, ble v100-kortet med 16 GB minne brukt til å gi sammenlignbare ytelsesresultater. Tabell 2 inneholder maskinvare- og programvareinformasjon for testmiljøet.
Tabell 1: Sammenligningen mellom T4 og V100
Tesla V100-PCIe |
Tesla T4 |
|
---|---|---|
Arkitektur |
Volta |
Turing |
CUDA-kjerner |
5120 |
2560 |
Tensor-kjerner |
640 |
320 |
Beregningsfunksjon |
7.0 |
7.5 |
GPU-klokke |
1245 MHz |
585 MHz |
Forsterkningsklokke |
1380 MHz |
1590 MHz |
Minnetype |
HBM2 |
GDDR6 |
Minnebuss |
4096bit |
256bit |
Båndbredde |
900 GB/s |
320 GB/s |
Sporbredde |
Dobbelt spor |
Enkelt spor |
FP32 enkel presisjon |
14 TFLOPS |
8,1 TFLOPS |
Blandet presisjon (FP16/FP32) |
112 TFLOPS |
65 TFLOPS |
FP64 dobbel presisjon |
7 TFLOPS |
254,4 GFLOPS |
TDP |
250 W |
70 W |
Tabell 2: Detaljer om R740-konfigurasjons- og programvareversjon
Prosessor |
2 x Intel® Xeon ® Gold 6136 ved 3,0 GHz, 12c |
---|---|
Minne |
384 G(12*32 G ved 2666 MHz) |
Lokal disk |
480G SSD |
Operativsystem |
Red Hat Enterprise Linux Server versjon 7.5 |
GPU |
3x V100-PCIe 16 GB eller 4X T4 16 GB |
CUDA-driver |
410,66 |
CUDA-verktøysett |
10.0 |
Prosessorinnstillinger >logiske prosessorer |
Deaktivert |
Systemprofiler |
Ytelse |
HPL |
Kompilert med CUDA10.0 |
NAMD |
NAMD_Git-2019-02-11 |
Gul |
18.12 |
HOOMD-blue |
v2.5.0 |
OpenMPI |
4.0.0 |
Figur 1: Ytelsesresultater for HOOMD-blue enkel og dobbel presisjon med V100-er og T4-er på PowerEdge R740-serveren
HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics – blue) er en molekylær dynamikksimulator for generell bruk. Som standard er HOOMD-blue kompilert i dobbel presisjon (FP64), og versjon 25 inneholder parameteren SINGLE_PRECISION=ON for å tvinge kompilering i enkel presisjon (FP32). Figur 1 viser resultatene av mikrosfæredatasettet for enkel og dobbel presisjon. X-aksen er antallet GPU-er, og ytelsesmålingen er antallet timer for å kjøre 10E6-trinn.
Én observasjon er at FP64-ytelsen til T4 er forholdsvis lav. Dette skyldes maskinvarebegrensningen. I teorien kan T4 levere toppytelse på 254 GFLOPS (se tabell 1) i dobbel presisjon, mens V100 er ~27x bedre. Ytelsen til applikasjoner som HOOMD-blue, som kan kompileres og kjøres med enkel presisjon, kan imidlertid ha en ytelsesfordel med kompileringsalternativet FP32. HOOMD-blue-fellesskapet har vurdert forslaget vårt om å støtte blandet presisjon på alle HOOMD-blue-moduler. Når arbeidet er fullført, kan HOOMD-blue fungere bedre på maskinvare som støttes av blandet presisjon.
Når vi samlet ytelsen til T4 og V100 med enkel presisjon, oppdaget vi at V100 er 3x bedre enn T4. Denne ytelsen er forventet av T4 på grunn av antallet CUDA-kjerner og effektklassifiseringen på akseleratoren.
GPU-er i PowerEdge R740-serveren er koblet til via PCIe. For de tre V100 GPU-datapunktene er PCIe-bussen mettet på grunn av node-til-node-kommunikasjon. Dette påvirker den generelle ytelsen og resulterer i den samme ytelsen som én GPU.
Amber er fellesnavnet på en programserie som gir brukere mulighet til å utføre molekylære dynamiske simuleringer, særlig på biomolekyler. Begrepet Amber brukes også for å referere til de empiriske kraftfeltene som er implementert i denne programserien. Amber versjon 18.12 med AmberTools 18.13 er testet med serien av Amber 18-ytelsesprøver som inkluderer JAC-, Cellulose-, FactorIX-, STMV-, TRPCage-, myoglobin- og nukleosomdatasett.
Figur 2: Amber Explicit Solvent-resultater med V100-er og T4-er på PowerEdge R740-serveren
Figur 3: Amber Implicit Solvent-resultater med V100-er og T4-er på PowerEdge R740-serveren
Figur 2 og 3 viser ytelsestallene for enkelt kort og hele systemet på henholdsvis eksplisitt løsningsmiddel og implisitt løsningsmiddel. Datapunktsystemet fra grafen ovenfor representerer hele systemets aggregerte gjennomstrømning for alle GPU-er. PowerEdge R740-serveren støtter tre V100-er eller fire T4-er, så "system"-stolper i rødt og blått er resultatene med tre V100-er eller fire T4-er.
Grunnen til at aggregerte data fra flere GPU-kort foretrekkes, er at Pascal og nyere GPU-er ikke kan skaleres ut over én enkelt akselerator for Amber-applikasjonen. Brukere kjører vanligvis flere simuleringer parallelt på andre GPU-er. Når det gjelder ytelse med et stort datasett som STMV (1 067 095 atomer), utgjør enkel T4 33 prosent, og hele systemet 44 prosent av V100-ens kapasitet. Datasett som TRPCage (kun 304 atomer) er for små til å bruke V100-er effektivt. Ytelsen er derfor ikke særlig raskere enn T4, slik den er på store PME-kjøringer. I henhold til resultatet på Ambers offisielle nettsted, er nesten alle GPU-nummer tre til fire ganger raskere enn kjøringer med bare CPU, så et T4-kort er et godt alternativ når du behandler små datasett.
Figur 4: NAMD-ytelsesresultater med V100-er og T4-er på PowerEdge R740-serveren
NAMD er en kode for molekylær dynamikk som er utformet for simulering med høy ytelse av store biomolekylsystemer. I disse testene ble ikke den ferdigbygde binærfilen brukt. I stedet ble NAMD bygd med den nyeste kildekoden (NAMD_Git-2019-02-11) med CUDA 10.0. For best ytelse ble NAMD kompilert med Intel®-kompilatoren og bibliotekene (versjon 2018u3). Figur 4 tegner inn ytelsesresultatene ved hjelp av STMV-datasettet (1 066 628 atomer, periodisk, PME). NAMD kan ikke skaleres ut over ett V100-kort, men kan skaleres godt med tre T4-kort. Og enkel T4 GPU gir 42 prosent av V100-ens ytelse. Dette er rimelig bra tatt i betraktning at den bare har 28 prosent av V100-ens TDP. T4 kan være et godt alternativ for datasentre med begrenset strøm- og kjølekapasitet.
Figur 5: HPL-resultater med V100-er og T4-er på PowerEdge R740-serveren
Figur 5 viser HPL-ytelse på PowerEdge R740 med flere V100- eller T4-GPU-er. Som forventet, kan HPL-nummer skaleres godt med flere GPU-er for V100 og T4. T4-ytelsen er imidlertid betraktelig lavere enn V100 på grunn av FP64-begrensning. Den begrensede kapasiteten for dobbel presisjon på T4 gjør at ytelsessammenligningen med V100 ikke er ideell, og Volta V100 forblir det beste valget for slike applikasjoner med dobbel presisjon.
I denne bloggen ble HPC-applikasjonsytelsen med HOOMD-blue, Amber, NAMD og HPL sammenlignet mellom V100 og T4 på Dell EMC PowerEdge R740. T4 brukes ikke bare for dyp læring. Det er også nyttig for HPC-applikasjoner med støtte for enkel eller blandet presisjon. Den lave TDP-en kan bidra til å gjøre tradisjonelle datasentre raskere når strøm- og kjølekapasiteten er begrenset. T4-ens kompakte PCIe gjør den velegnet for PowerEdge-servere for generell bruk. I fremtiden planlegges det flere tester med flere applikasjoner, for eksempel RELION, GROMACS og LAMMPS, og tester for applikasjoner som kan bruke blandet presisjon.
*Ansvarsfraskrivelse: I forbindelse med ytelsestesting ble fire T4 GPU-er i Dell PowerEdge R740 evaluert. Offisielt støtter PowerEdge R740 for øyeblikket maksimalt tre T4-er i x16 PCIe-spor.