Som efterfølgeren til Volta-arkitekturen er Turing™ NVIDIA® nyeste NVIDIA-serie af GPU'er. Turing™ GPU fås med GeForce®, hvor den bruges til at gøre spil meget realistiske, og med Quadro®, der accelererer workflows til oprettelse af indhold. NVIDIA® Tesla®-serien er designet til at håndtere systemer med kunstig intelligens og højtydende databehandling (HPC) i datacentre. NVIDIA® Tesla® T4 er den eneste serverbaserede GPU med Turing™ mikroarkitektur, der er tilgængelig på markedet nu, og den understøttes af Dell EMC PowerEdge R640-, R740-, R740xd- og R7425-servere. Denne blog diskuterer den nye Tesla T4's ydeevne sammenlignet med den nyeste Volta V100-PCIe på PowerEdge R740-serveren for forskellige HPC-programmer, herunder HOOMD-blue, Amber, NAMD og HPL.
PowerEdge R740-serveren er en 2U Intel® Skylake-baseret rackmonteringsserver, der giver en ideel balance mellem storage-, I/O- og accelerator-understøttelse. Den understøtter op til fire* enkeltstik T4- eller tre V100-PCIe- dobbeltstik GPU'er i x16 PCIe 3.0-stik. Tabel 1 viser forskellene mellem en enkelt T4 og V100. Volta™ V100 fås i 16 GB eller 32 GB hukommelseskonfigurationer. Da T4 kun er tilgængelig i 16 GB-versionen, blev V100-kortet med 16 GB hukommelse brugt for at kunne sammenligne resultaterne. Tabel 2 viser testbænkens hardware- og softwaredetaljer.
Tabel 1: Sammenligningen mellem T4 og V100
Tesla V100-PCIe |
Tesla T4 |
|
---|---|---|
Arkitektur |
Volta |
Turing |
CUDA-kerner |
5120 |
2560 |
Tensor-kerner |
640 |
320 |
Beregningskapacitet |
7.0 |
7.5 |
GPU-clock |
1245 MHz |
585 MHz |
Boost-clock |
1380 MHz |
1590 MHz |
Hukommelsestype |
HBM2 |
GDDR6 |
Hukommelsesbus |
4096bit |
256bit |
Båndbredde |
900 GB/s |
320GB/s |
Stikbredde |
Dobbelstik |
Enkeltstik |
FP32 enkeltpræcision |
14 TFLOPS |
8,1 TFLOPS |
Blandet præcision (FP16/FP32) |
112 TFLOPS |
65 TFLOPS |
FP64 dobbeltpræcision |
7 TFLOPS |
254,4 GFLOPS |
TDP |
250 W |
70 W |
Tabel 2: Oplysninger om R740-konfiguration og -softwareversion
Processor |
2x Intel® Xeon ® Gold 6136 ved 3,0 GHz, 12c |
---|---|
Hukommelse |
384 G (12*32 G ved 2666 MHz) |
Lokal disk |
480 G SSD |
Operativsystem |
Red Hat Enterprise Linux Server, version 7.5 |
GPU |
3x V100-PCIe 16 GB eller 4x T4 16 GB |
CUDA-driver |
410,66 |
CUDA Toolkit |
10,0 |
Processor-indstillinger >logiske processorer |
Deaktiveret |
Systemprofiler |
Performance (Ydeevne) |
HPL |
Kompileret med CUDA 10.0 |
NAMD |
NAMD_Git-2019-02-11 |
Amber |
18,12 |
HOOMD-blue |
v2.5.0 |
OpenMPI |
4.0.0 |
Figur 1: HOOMD-blue enkelt- og dobbeltpræcisionsydeevneresultater med V100'er og T4'er på PowerEdge R740-serveren
HOOMD-blue (Highly Optimized Objet-oriented Many-particle Dynamics - blue) er en simulator for molekylær dynamik til generel brug. Som standard kompileres HOOMD-blue i dobbeltpræcision (FP64) og version 2.5 har et parameter SINGLE_PRECISION=ON til at gennemtvinge en kompilering i enkeltpræcision (FP32). Figur 1 viser mikrosfæredatasætresultaterne for enkelt- og dobbeltpræcision. X-aksen er antallet af GPU'er, og ydelsesmåleenheden er timer for at køre 10e6-trin.
Det observeres, at FP64-ydelsen for T4 er relativt lav. Dette skyldes hardware-begrænsningen. I teorien har T4 en optimal ydeevne på 254 GFLOPS (se tabel 1) i dobbeltpræcision, hvorimod V100 er ~27x bedre. Men ydeevnen af programmer som HOOMD-blue, som kan kompileres og køres med enkeltpræcision, kan have en ydeevnefordel med FP32-kompileringsindstillingen. HOOMD-blue-fællesskabet har vurderet vores forslag om at understøtte blandet præcision på alle HOOMD-blue moduler. Når indsatsen er gennemført, kan HOOMD-Blue udnyttes bedre på hardware, som understøtter blandet præcision.
Når vi sammenlignede enkeltpræcisionsydelsen for T4 og V100, konstaterede vi, at V100 er 3x bedre end T4. Denne ydelse er forventelig for T4 pga. antallet af CUDA-kerner og acceleratorens strømklassificering.
GPU'erne i PowerEdge R740-serveren er forbundet via PCIe. For de tre V100 GPU-datapunkter er PCIe-bussen mættet på grund af peer-to-peer-kommunikation. Dette påvirker den generelle ydeevne, hvilket resulterer i den samme ydelse som én GPU.
Amber er det overordnede navn for en pakke af programmer, der gør det muligt for brugere at udføre simuleringer af molekyledynamik, især for biomolekyler. Ordet Amber henviser også til de empiriske kraftfelter, der er implementeret i denne pakke. Amber version 18.12 med AmberTools 18.13 er testet med Amber 18-benchmarkpakken, som omfatter JAC, Cellulose, FactorIX, STMV, TRPCage, myoglobin- og nukleosom-datasæt.
Figur 2: Amber-resultater med eksplicitte opløsningsmidler med V100'er og T4'er på PowerEdge R740-serveren
Figur 3: Amber-resultater med implicitte opløsningsmidler med V100'er og T4'er på PowerEdge R740-serveren
Figur 2 og 3 viser det enkelte kort og tallene for hele den samlede systemydelse for henholdsvis explicitte og implicitte opløsningsmidler. Datapunktet "system" fra ovenstående graf repræsenterer systemets samlede overførselshastighed for alle GPU'er. PowerEdge R740-serveren understøtter tre V100'er eller fire T4'er, så "system"-bjælker med rødt og blåt er resultaterne med tre V100'er eller fire T4'er.
Grunden til, at alle data for flere GPU-kort foretrækkes, er, at Pascal og senere GPU'erne ikke kan skalere ud over en enkelt accelerator for Amber-programmet. Brugere kører normalt flere simuleringer parallelt på andre GPU'er. I forhold til ydeevne med et stort datasæt som STMV (1.067.095 atomer) udgør enkelt T4 33 %, og hele systemet 44 % af V100's kapacitet. Datasæt som TRPCage (bare 304 atomer) er for små til at gøre effektiv brug af V100'er, og derfor er ydeevnen på den ikke meget hurtigere end T4, da den er til større PME-kørsler. Ifølge resultatet på Ambers officielle hjemmeside er næsten alle GPU'er tre til fire gange hurtigere end kørsler med CPU alene, så et T4-kort i en server, der arbejder med små datasæt, vil være en god løsning.
Figur 4: NAMD-ydeevneresultater med V100'er og T4'er på PowerEdge R740-serveren
NAMD er en kode for molekylær dynamik, der er designet til simuleringer med en høj ydelse af store biomolekylære systemer. I disse test blev den indbyggede binære fil ikke brugt. I stedet blev NAMD oprettet med den nyeste kildekode (NAMD_Git-2019-02-11) med CUDA 10.0. For at opnå den bedste ydelse blev NAMD kompileret med Intel®-compileren og -bibliotekerne (version 2018u3). Figur 4 viser ydelsesresultaterne vha. STMV-datasættet (1.066.628 atomer, periodisk, PME). NAMD kan ikke skaleres ud over ét V100-kort, og det skaleres fint med tre T4-kort. Og enkelt T4-GPU'en leverer 42 procent af V100's ydelse. Dette er et pænt tal, i betragtning af, at det kun har 28 procent af V100's TDP. T4 kan være et godt valg for datacentre med begrænset strøm- og kølekapacitet.
Figur 5: HPL-resultater med V100'er og T4'er på PowerEdge R740-serveren
Figur 5 viser HPL-ydelsen på PowerEdge R740 med flere V100- eller T4-GPU'er. Som forventet, skaleres HPL-tal godt med flere GPUer for V100 og T4. Men T4-ydelsen er betydeligt mindre end V100 på grund af dens FP64-begrænsning. På grund af den begrænsede dobbeltpræcisionskapacitet på T4, er sammenligningen af ydeevnen med V100 ikke ideel, og Volta V100 forbliver det bedste valg for sådanne dobbeltpræcisionsprogrammer.
I denne blog sammenlignede vi HPC-programydeevnen med HOOMD-blue, Amber, NAMD og HPL mellem V100 og T4 på Dell EMC PowerEdge R740. T4 anvendes ikke kun med henblik på Deep Learning Inference, den kan også med fordel bruges til HPC-programmer med enkelt eller blandet præcision. Dens lave TDP kan bidrage til at øge hastigheden i traditionelle datacentre, hvor strøm- og kølekapaciteten er begrænset. T4's PCIe med lille formfaktor gør den velegnet til allround PowerEdge-servere. Der er planlagt tests af flere programmer i fremtiden som f.eks. LION, GROMACS og LAMMPS, samt test af programmer, der kan udnytte blandet præcision.
*Ansvarsfraskrivelse: Med henblik på benchmarking blev fire T4 GPU'er i Dell PowerEdge R740 evalueret. I øjeblikket understøtter PowerEdge R740 officielt maksimalt tre T4 i x16 PCIe-stik.