HPC-programmers ydeevne med Turing

Summary: Artikel skrevet af Frank Han, Rengan Xu, Deepthi Cherlopalle og Quy Ta fra Dell EMC HPC og AI Innovation Lab i marts 2019

This article applies to This article does not apply to

Symptoms

Indholdsfortegnelse:

Uddrag
Oversigt
HOOMD-blue
Amber
NAnoscale Molecular Dynamics (NAMD)
High Performance Linpack (HPL)
Konklusioner og fremtidigt arbejde

Som efterfølgeren til Volta-arkitekturen er Turing™ NVIDIA® nyeste NVIDIA-serie af GPU'er. Turing™ GPU fås med GeForce®, hvor den bruges til at gøre spil meget realistiske, og med Quadro®, der accelererer workflows til oprettelse af indhold. NVIDIA® Tesla®-serien er designet til at håndtere systemer med kunstig intelligens og højtydende databehandling (HPC) i datacentre. NVIDIA® Tesla® T4 er den eneste serverbaserede GPU med Turing™ mikroarkitektur, der er tilgængelig på markedet nu, og den understøttes af Dell EMC PowerEdge R640-, R740-, R740xd- og R7425-servere. Denne blog diskuterer den nye Tesla T4's ydeevne sammenlignet med den nyeste Volta V100-PCIe på PowerEdge R740-serveren for forskellige HPC-programmer, herunder HOOMD-blue, Amber, NAMD og HPL.

Tilbage til toppen

Oversigt

PowerEdge R740-serveren er en 2U Intel® Skylake-baseret rackmonteringsserver, der giver en ideel balance mellem storage-, I/O- og accelerator-understøttelse. Den understøtter op til fire* enkeltstik T4- eller tre V100-PCIe- dobbeltstik GPU'er i x16 PCIe 3.0-stik. Tabel 1 viser forskellene mellem en enkelt T4 og V100. Volta™ V100 fås i 16 GB eller 32 GB hukommelseskonfigurationer. Da T4 kun er tilgængelig i 16 GB-versionen, blev V100-kortet med 16 GB hukommelse brugt for at kunne sammenligne resultaterne. Tabel 2 viser testbænkens hardware- og softwaredetaljer.

Tabel 1: Sammenligningen mellem T4 og V100

	Tesla V100-PCIe	Tesla T4
Arkitektur	Volta	Turing
CUDA-kerner	5120	2560
Tensor-kerner	640	320
Beregningskapacitet	7.0	7.5
GPU-clock	1245 MHz	585 MHz
Boost-clock	1380 MHz	1590 MHz
Hukommelsestype	HBM2	GDDR6
Hukommelsesbus	4096bit	256bit
Båndbredde	900 GB/s	320GB/s
Stikbredde	Dobbelstik	Enkeltstik
FP32 enkeltpræcision	14 TFLOPS	8,1 TFLOPS
Blandet præcision (FP16/FP32)	112 TFLOPS	65 TFLOPS
FP64 dobbeltpræcision	7 TFLOPS	254,4 GFLOPS
TDP	250 W	70 W

Tabel 2: Oplysninger om R740-konfiguration og -softwareversion

Processor	2x Intel® Xeon ® Gold 6136 ved 3,0 GHz, 12c
Hukommelse	384 G (12*32 G ved 2666 MHz)
Lokal disk	480 G SSD
Operativsystem	Red Hat Enterprise Linux Server, version 7.5
GPU	3x V100-PCIe 16 GB eller 4x T4 16 GB
CUDA-driver	410,66
CUDA Toolkit	10,0
Processor-indstillinger >logiske processorer	Deaktiveret
Systemprofiler	Performance (Ydeevne)
HPL	Kompileret med CUDA 10.0
NAMD	NAMD_Git-2019-02-11
Amber	18,12
HOOMD-blue	v2.5.0
OpenMPI	4.0.0

Tilbage til toppen

Cause

HOOMD-blue

SLN316570_en_US__1image(9290)

Figur 1: HOOMD-blue enkelt- og dobbeltpræcisionsydeevneresultater med V100'er og T4'er på PowerEdge R740-serveren

HOOMD-blue (Highly Optimized Objet-oriented Many-particle Dynamics - blue) er en simulator for molekylær dynamik til generel brug. Som standard kompileres HOOMD-blue i dobbeltpræcision (FP64) og version 2.5 har et parameter SINGLE_PRECISION=ON til at gennemtvinge en kompilering i enkeltpræcision (FP32). Figur 1 viser mikrosfæredatasætresultaterne for enkelt- og dobbeltpræcision. X-aksen er antallet af GPU'er, og ydelsesmåleenheden er timer for at køre 10e6-trin.

Det observeres, at FP64-ydelsen for T4 er relativt lav. Dette skyldes hardware-begrænsningen. I teorien har T4 en optimal ydeevne på 254 GFLOPS (se tabel 1) i dobbeltpræcision, hvorimod V100 er ~27x bedre. Men ydeevnen af programmer som HOOMD-blue, som kan kompileres og køres med enkeltpræcision, kan have en ydeevnefordel med FP32-kompileringsindstillingen. HOOMD-blue-fællesskabet har vurderet vores forslag om at understøtte blandet præcision på alle HOOMD-blue moduler. Når indsatsen er gennemført, kan HOOMD-Blue udnyttes bedre på hardware, som understøtter blandet præcision.
Når vi sammenlignede enkeltpræcisionsydelsen for T4 og V100, konstaterede vi, at V100 er 3x bedre end T4. Denne ydelse er forventelig for T4 pga. antallet af CUDA-kerner og acceleratorens strømklassificering.
GPU'erne i PowerEdge R740-serveren er forbundet via PCIe. For de tre V100 GPU-datapunkter er PCIe-bussen mættet på grund af peer-to-peer-kommunikation. Dette påvirker den generelle ydeevne, hvilket resulterer i den samme ydelse som én GPU.

Tilbage til toppen

Amber

Amber er det overordnede navn for en pakke af programmer, der gør det muligt for brugere at udføre simuleringer af molekyledynamik, især for biomolekyler. Ordet Amber henviser også til de empiriske kraftfelter, der er implementeret i denne pakke. Amber version 18.12 med AmberTools 18.13 er testet med Amber 18-benchmarkpakken, som omfatter JAC, Cellulose, FactorIX, STMV, TRPCage, myoglobin- og nukleosom-datasæt.

SLN316570_en_US__2image(9276)

Figur 2: Amber-resultater med eksplicitte opløsningsmidler med V100'er og T4'er på PowerEdge R740-serveren

SLN316570_en_US__3image(9277)

Figur 3: Amber-resultater med implicitte opløsningsmidler med V100'er og T4'er på PowerEdge R740-serveren

Figur 2 og 3 viser det enkelte kort og tallene for hele den samlede systemydelse for henholdsvis explicitte og implicitte opløsningsmidler. Datapunktet "system" fra ovenstående graf repræsenterer systemets samlede overførselshastighed for alle GPU'er. PowerEdge R740-serveren understøtter tre V100'er eller fire T4'er, så "system"-bjælker med rødt og blåt er resultaterne med tre V100'er eller fire T4'er.

Grunden til, at alle data for flere GPU-kort foretrækkes, er, at Pascal og senere GPU'erne ikke kan skalere ud over en enkelt accelerator for Amber-programmet. Brugere kører normalt flere simuleringer parallelt på andre GPU'er. I forhold til ydeevne med et stort datasæt som STMV (1.067.095 atomer) udgør enkelt T4 33 %, og hele systemet 44 % af V100's kapacitet. Datasæt som TRPCage (bare 304 atomer) er for små til at gøre effektiv brug af V100'er, og derfor er ydeevnen på den ikke meget hurtigere end T4, da den er til større PME-kørsler. Ifølge resultatet på Ambers officielle hjemmeside er næsten alle GPU'er tre til fire gange hurtigere end kørsler med CPU alene, så et T4-kort i en server, der arbejder med små datasæt, vil være en god løsning.

Tilbage til toppen

Resolution

NAnoscale Molecular Dynamics (NAMD)

SLN316570_en_US__4image(9278)

Figur 4: NAMD-ydeevneresultater med V100'er og T4'er på PowerEdge R740-serveren

NAMD er en kode for molekylær dynamik, der er designet til simuleringer med en høj ydelse af store biomolekylære systemer. I disse test blev den indbyggede binære fil ikke brugt. I stedet blev NAMD oprettet med den nyeste kildekode (NAMD_Git-2019-02-11) med CUDA 10.0. For at opnå den bedste ydelse blev NAMD kompileret med Intel®-compileren og -bibliotekerne (version 2018u3). Figur 4 viser ydelsesresultaterne vha. STMV-datasættet (1.066.628 atomer, periodisk, PME). NAMD kan ikke skaleres ud over ét V100-kort, og det skaleres fint med tre T4-kort. Og enkelt T4-GPU'en leverer 42 procent af V100's ydelse. Dette er et pænt tal, i betragtning af, at det kun har 28 procent af V100's TDP. T4 kan være et godt valg for datacentre med begrænset strøm- og kølekapacitet.

Tilbage til toppen

High Performance Linpack (HPL)

SLN316570_en_US__5image(9283)

Figur 5: HPL-resultater med V100'er og T4'er på PowerEdge R740-serveren

Figur 5 viser HPL-ydelsen på PowerEdge R740 med flere V100- eller T4-GPU'er. Som forventet, skaleres HPL-tal godt med flere GPUer for V100 og T4. Men T4-ydelsen er betydeligt mindre end V100 på grund af dens FP64-begrænsning. På grund af den begrænsede dobbeltpræcisionskapacitet på T4, er sammenligningen af ydeevnen med V100 ikke ideel, og Volta V100 forbliver det bedste valg for sådanne dobbeltpræcisionsprogrammer.

Tilbage til toppen

Konklusioner og fremtidigt arbejde

I denne blog sammenlignede vi HPC-programydeevnen med HOOMD-blue, Amber, NAMD og HPL mellem V100 og T4 på Dell EMC PowerEdge R740. T4 anvendes ikke kun med henblik på Deep Learning Inference, den kan også med fordel bruges til HPC-programmer med enkelt eller blandet præcision. Dens lave TDP kan bidrage til at øge hastigheden i traditionelle datacentre, hvor strøm- og kølekapaciteten er begrænset. T4's PCIe med lille formfaktor gør den velegnet til allround PowerEdge-servere. Der er planlagt tests af flere programmer i fremtiden som f.eks. LION, GROMACS og LAMMPS, samt test af programmer, der kan udnytte blandet præcision.

*Ansvarsfraskrivelse: Med henblik på benchmarking blev fire T4 GPU'er i Dell PowerEdge R740 evalueret. I øjeblikket understøtter PowerEdge R740 officielt maksimalt tre T4 i x16 PCIe-stik.

Tilbage til toppen

Affected Products

High Performance Computing Solution Resources, PowerEdge R740

HPC-programmers ydeevne med Turing

Summary: Artikel skrevet af Frank Han, Rengan Xu, Deepthi Cherlopalle og Quy Ta fra Dell EMC HPC og AI Innovation Lab i marts 2019

Symptoms

Indholdsfortegnelse:

Uddrag

Oversigt

Cause

HOOMD-blue

Amber

Resolution

NAnoscale Molecular Dynamics (NAMD)

High Performance Linpack (HPL)

Konklusioner og fremtidigt arbejde

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

HPC-programmers ydeevne med Turing

Summary: Artikel skrevet af Frank Han, Rengan Xu, Deepthi Cherlopalle og Quy Ta fra Dell EMC HPC og AI Innovation Lab i marts 2019

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services